Zorgen over een LLM dat dingen uitvindt die niemand ooit heeft gezegd — ChatGPT van OpenAI

Zorgen over een LLM dat dingen uitvindt die niemand ooit heeft gezegd — ChatGPT van OpenAI

Inleiding: Wat is ChatGPT en waarom is het belangrijk?

ChatGPT is een geavanceerde AI-gestuurde chatbot ontwikkeld door OpenAI, die gebruikers in staat stelt om op een natuurlijke manier te communiceren via tekst en spraak. Deze tool maakt gebruik van krachtige taalmodellen en is geïntegreerd met Microsoft via de Azure OpenAI Service, waardoor bedrijven profiteren van AI-transcriptie en spraakherkenningdiensten. Het is belangrijk omdat het de interactie tussen mensen en technologie vergemakkelijkt, en tegelijkertijd de privacy van gebruikers waarborgt. 

Wanneer gebruikers ChatGPT gebruiken, is het cruciaal om de regels voor het gebruik in overweging te nemen, vooral gezien de risico's die gepaard gaan met AI. De AI-act legt verantwoordelijkheden vast en benadrukt de aansprakelijkheid van bedrijven in het gebruik van deze technologie. AI gaat niet alleen over het creëren van tools, maar ook over het verantwoordelijk omgaan met de impact die ze hebben op de maatschappij.

Wat is een LLM (Large Language Model)?

Een LLM (Large Language Model) is een geavanceerd systeem binnen de ontwikkeling van AI dat in staat is om teksten te genereren, vragen te beantwoorden en zelfs spraakherkenning te faciliteren. Dit maakt het mogelijk om text om te zetten in audio of voice, wat bedrijven helpt om gemakkelijker te maken met hun klanten te communiceren. OpenAI’s Chat en Whisper zijn voorbeelden van tools die deze technologie benutten, en gebruikers kunnen via een API toegang krijgen tot deze krachtige functies.

De risicos van deze technologie omvatten zorgen over de privacy en de mogelijkheid dat AI dingen verzint die niemand eerder heeft overwogen. Het is belangrijk voor de bedrijven om te overwegen hoe ze kunnen verifiëren dat de informatie accuraat is en om te tegenwoord te komen aan de behoeften van hun klanten. AI transcription kan bijvoorbeeld zeker maken dat hij geen problemen heeft met het omzetten van tekst naar een bruikbare vorm.

Waarom zijn er zorgen rondom de creativiteit van het LLM "Whisper"?

Recente artikelen zoals dit Amerikaanse onderzoek en een onlangs artikel uit ICT&Health tonen aan dat met name Wisper slecht scoort op hallucineren zoals het verzinnen van tekst. Daar komt nog eens bovenop dat chatGPT, dat Whisper als onderliggend model gebruikt, uitdrukkelijk in zijn voorwaarden heeft vermeldt dat deze niet gebruikt mogen worden voor hoog risicodragende applicaties. En uiteraard is de gehele zorg hoog risicodragend.

Deze hallucinaties kunnen racistische opmerkingen, gewelddadige retoriek of zelfs ingebeelde medische behandelingen bevatten. Dit is problematisch, omdat Whisper wereldwijd in verschillende sectoren wordt gebruikt voor vertalen, transcriberen van interviews, genereren van teksten en ondertitelen van video's. Vooral zorgwekkend is dat sommige medische centra Whisper gebruiken om consultaties van patiënten met artsen te transcriberen, ondanks OpenAI’s waarschuwingen dat de tool niet voor “hoog-risico domeinen” mag worden gebruikt. De omvang van het probleem is moeilijk in te schatten, maar onderzoekers en ingenieurs melden regelmatig hallucinaties in hun werk met Whisper. Een onderzoeker van de Universiteit van Michigan vond bijvoorbeeld hallucinaties in 8 van de 10 transcripties van openbare vergaderingen die hij bekeek, voordat hij verbeteringen aan het model aanbracht.

Hoe doen we dit binnen HealthTalk?

Een belangrijke functie van ons eigen HealthTalk LLM is de identificatie van individuen, cruciaal binnen jeugdzorg en gezinssituaties, wat onze oplossing uniek maakt in de Nederlandse GGz markt. Door de Whisper-architectuur volledig te herzien, verwijdert het HealthTalk LLM 98% van de hallucinaties waarbij het model onjuiste of irrelevante transcripties genereert—en verhoogt zo de betrouwbaarheid aanzienlijk.

Geoptimaliseerd voor complexe de audio-omgevingen presteert HealthTalk LLM substantieel beter binnen de GGz op situaties zoals achtergrondgeluid, accenten en medisch taalgebruik (jargon), wat resulteert in een 12% verbetering van de Word Error Rate (WER) vergeleken met Whisper Large v2 en v3. Daarnaast heeft het HealthTalk LLM uitgebreide taalondersteuning inclusief dialecten.

Toekenning MediSpeech project!!

HealthTalk heeft in samenwerking met het Radboud ziekenhuis, Ortec, UMC Amsterdam en TNO het MediSpeech-project toegekend gekregen. Met een totale Nederlandse begroting van € 4,5 miljoen gaan we vanaf 1 januari aanstaande van start met het verder elimineren van hallucinaties, optimalisatie voor complexe omstandigheden, uitbreiding van taalondersteuning (zoals GPT-NL), en het waarborgen van persoonsidentificatie voor jeugdzorg, leveren we snellere, nauwkeurigere en betrouwbare transcriptiediensten voor diverse toepassingen binnen de Nederlandse gezondheidszorg.

Eigen hardware; NVIDIA GPU

We beschikken over eigen hardware met krachtige NVIDIA GPU's, specifiek ingericht voor het trainen en optimaliseren van onze LLM-toepassingen. Deze hardware-setup stelt ons in staat om complexe spraakherkenningstaken snel en efficiënt uit te voeren, wat essentieel is voor de nauwkeurigheid en betrouwbaarheid van onze diensten binnen de gezondheidszorg.

Beschikbaar via API's

De HealthTalk LLM modellen zijn eenvoudig beschikbaar via API's, waardoor integratie met bestaande systemen en toepassingen naadloos verloopt. Hierdoor kunnen gebruikers direct toegang krijgen tot onze geavanceerde spraakherkenning en taalmodellen, zodat transcripties, persoonsidentificatie en andere functionaliteiten snel en efficiënt kunnen worden ingezet binnen hun eigen werkprocessen.

Meer weten, ping mij even! Jan-Marc