AI Hervormt Dermatologie Onderwijs

De snelle vooruitgang van grote taalmodellen (LLM’s) heeft opwindende nieuwe mogelijkheden geopend voor het transformeren van medisch onderwijs. Door de kracht van deze AI-tools te benutten, kunnen we innovatieve educatieve bronnen creëren en artsen in opleiding ongekende toegang bieden tot kennis en leermaterialen. Deze benadering, bekend als “synthetisch onderwijs”, maakt gebruik van LLM’s om nieuwe inhoud te genereren die is afgestemd op de specifieke behoeften van medische professionals.

In een recente studie hebben we het potentieel van LLM’s in dermatologie-onderwijs onderzocht door GPT-4 van OpenAI te gebruiken om klinische vignetten te creëren voor 20 verschillende huid- en weke delen aandoeningen die vaak worden getest op het United States Medical Licensing Examination (USMLE). Deze vignetten, die realistische patiëntscenario’s presenteren, werden vervolgens door arts-deskundigen beoordeeld op hun nauwkeurigheid, volledigheid, kwaliteit, potentieel voor schade en demografische vertekening.

De resultaten van ons onderzoek waren zeer bemoedigend. De arts-deskundigen gaven de vignetten hoge gemiddelde scores voor wetenschappelijke nauwkeurigheid (4,45/5), volledigheid (4,3/5) en algehele kwaliteit (4,28/5), terwijl ze ook lage scores noteerden voor potentieel klinische schade (1,6/5) en demografische vertekening (1,52/5). We observeerden ook een sterke correlatie (r = 0,83) tussen volledigheid en algehele kwaliteit, wat suggereert dat gedetailleerde en goed afgeronde vignetten essentieel zijn voor effectief medisch onderwijs. We merkten echter ook op dat de vignetten aanzienlijke demografische diversiteit misten, wat een verbeterpunt is voor toekomstige iteraties.

Over het algemeen toont onze studie het immense potentieel van LLM’s aan om de schaalbaarheid, toegankelijkheid en aanpasbaarheid van dermatologie-onderwijsmateriaal te verbeteren. Door de beperkingen die we hebben geïdentificeerd aan te pakken, zoals de behoefte aan meer demografische diversiteit, kunnen we deze AI-gestuurde tools verder verfijnen en hun volledige potentieel ontsluiten om het medisch onderwijs te revolutioneren.

De opkomst van LLM’s in medisch onderwijs

Het vakgebied van medisch onderwijs is voortdurend in ontwikkeling en past zich aan de veranderende behoeften van nieuwe generaties geneeskundestudenten en artsen in opleiding aan. Naarmate de technologie voortschrijdt, worden deze aankomende artsen steeds meer blootgesteld aan een breed scala aan digitale tools die hun leerproces kunnen aanvullen. Van deze technologieën zijn grote taalmodellen (LLM’s) uitgegroeid tot een bijzonder veelbelovend gebied, dat aandacht trekt vanwege hun opmerkelijke rekenkracht.

LLM’s zijn een type machine learning-model dat is getraind op enorme hoeveelheden tekstuele gegevens uit verschillende bronnen. Deze uitgebreide training stelt hen in staat om zeer gespecialiseerde taken uit te voeren door de collectieve inzichten die zijn verkregen uit de enorme datasets die ze hebben verwerkt te synthetiseren en toe te passen. Zelfs zonder expliciete training in het medische domein hebben generalistische modellen zoals GPT van OpenAI indrukwekkende prestaties geleverd in klinische omgevingen, wat wijst op het enorme potentieel van LLM’s in de geneeskunde.

Het ontsluiten van het potentieel van synthetisch onderwijs

LLM’s bieden een ongekend nut in medisch onderwijs vanwege hun vermogen om snel en efficiënt nieuwe inhoud te genereren. Hoewel er aanzienlijke interesse is in het toepassen van LLM’s op verschillende medische onderwijstaken, is er beperkt onderzoek naar hoe LLM-gestuurde onderwijsinitiatieven presteren in real-world scenario’s. Een bijzonder veelbelovende maar onderzochte toepassing van LLM’s op dit gebied is het genereren van klinische vignetten.

Klinische vignetten vormen een essentieel onderdeel van het moderne medische onderwijs en vormen een aanzienlijk deel van zowel USMLE-vragen als preklinisch casusgebaseerd onderwijs. Deze vignetten contextualiseren medische kennis door praktische scenario’s te presenteren die het diagnostisch redeneren van een leerling, de prioritering van managementstrategieën en het begrip van psychosociale factoren beoordelen. Door de complexe en genuanceerde praktijk van de geneeskunde te simuleren, bieden vignetten een onschatbare training voor toekomstige artsen.

Traditioneel zijn klinische vignetten afkomstig van professionele verenigingen, interne materialen die door de faculteit zijn gemaakt of commercieel beschikbare vragenbanken. Het maken van deze vignetten is echter een arbeidsintensief proces dat aanzienlijke inbreng van ervaren artsen vereist. Hoewel deze bronnen een zekere mate van kwaliteitscontrole bieden, kan de toegankelijkheid en kwantiteit van deze materialen aanzienlijk variëren tussen verschillende instellingen en sociaaleconomische achtergronden van studenten. Bovendien heeft de beperkte beschikbaarheid van vignetten geleid tot bezorgdheid over de herhaling van testvragen bij USMLE-administraties.

Het revolutioneren van dermatologie-onderwijs met LLM’s

Hoewel medisch onderwijs in de dermatologie sterk afhankelijk is van visuele evaluatie, is de holistische klinische presentatie die het ziekteproces contextualiseert even cruciaal. Gestandaardiseerde examens zoals de USMLE gebruiken vaak op tekst gebaseerde vignetten om kennis van huid- en weke delen pathologieën te beoordelen. Bovendien is de specifieke terminologie die wordt gebruikt om huidlaesies te beschrijven essentieel voor een nauwkeurige diagnose en behandeling van huidziekten.

LLM’s bieden een unieke mogelijkheid om de beschikbaarheid van op tekst gebaseerde vignetten voor veel voorkomende dermatologische aandoeningen in het medische onderwijs uit te breiden. Huidige kant-en-klare LLM’s, zoals GPT, bieden de flexibiliteit om voort te bouwen op initiële klinische vignetten, waarbij ze zich aanpassen aan de individuele behoeften van studenten naarmate ze verdere vragen stellen. In onze studie hebben we de haalbaarheid geëvalueerd van het gebruik van GPT 4.0, het nieuwste openbaar beschikbare basismodel van OpenAI, om hoogwaardige klinische vignetten te genereren voor medische onderwijsdoeleinden.

De prestaties van GPT-4 evalueren

Om de prestaties van GPT-4 bij het genereren van klinische vignetten te beoordelen, hebben we ons gericht op 20 huid- en weke delen aandoeningen die vaak worden getest op het USMLE Step 2 CK examen. We hebben het model gevraagd om gedetailleerde klinische vignetten voor elke aandoening te creëren, inclusief uitleg van de meest waarschijnlijke diagnose en waarom alternatieve diagnoses minder waarschijnlijk waren. Deze vignetten werden vervolgens beoordeeld door een panel van arts-deskundigen met behulp van een Likert-schaal om hun wetenschappelijke nauwkeurigheid, volledigheid, algehele kwaliteit, potentieel voor klinische schade en demografische vertekening te beoordelen.

Vignet kenmerken

Onze analyse van de 20 klinische vignetten onthulde verschillende belangrijke kenmerken:

  • Patiëntendemografie: De vignetten bevatten 15 mannelijke patiënten en 5 vrouwelijke patiënten, met een mediane patiëntleeftijd van 25 jaar. Ras werd gespecificeerd voor slechts 4 patiënten (3 blanken, 1 Afro-Amerikaan). Er werden generieke namen gebruikt voor 3 patiënten, terwijl de overige vignetten geen namen bevatten.

  • Woordaantal: Het gemiddelde aantal woorden voor de output van het model was 332,68, met een standaarddeviatie van 42,75 woorden. Het klinische vignetgedeelte was gemiddeld 145,79 woorden (SD = 26,97), terwijl de uitleg gemiddeld 184,89 woorden (SD = 49,70) was. Gemiddeld waren de uitleg langer dan hun bijbehorende vignetten, met een verhouding tussen vignetlengte en uitleglengte van 0,85 (SD = 0,30).

Beoordelingen door artsen

De beoordelingen van de arts-deskundigen gaven een hoge mate van overeenstemming aan met de wetenschappelijke consensus (gemiddelde = 4,45, 95% BI: 4,28-4,62), volledigheid (gemiddelde = 4,3, 95% BI: 4,11-4,89) en algehele kwaliteit (gemiddelde = 4,28, 95% BI: 4,10-4,47). De beoordelingen gaven ook een laag risico op klinische schade aan (gemiddelde = 1,6, 95% BI: 1,38-1,81) en demografische vertekening (gemiddelde = 1,52, 95% BI: 1,31-1,72). De consistent lage beoordelingen voor demografische vertekening suggereren dat de arts-beoordelaars geen significante patronen van stereotiepe of onevenredig scheve representaties van patiëntenpopulaties hebben gedetecteerd.

Correlatieanalyse

Om de relaties tussen de verschillende evaluatiecriteria te beoordelen, hebben we Pearson-correlatiecoëfficiënten berekend. We ontdekten dat de overeenstemming met de wetenschappelijke consensus matig gecorreleerd was met de volledigheid (r = 0,67) en de algehele kwaliteit (r = 0,68). De volledigheid en de algehele kwaliteit vertoonden een sterke correlatie (r = 0,83), terwijl de mogelijkheid van klinische schade en demografische vertekening zwak gecorreleerd waren (r = 0,22).

De implicaties voor medisch onderwijs

De bevindingen van ons onderzoek hebben significante implicaties voor medisch onderwijs, vooral in de context van toenemende controle op gestandaardiseerde medische onderzoeken. De behoefte aan hoogwaardige educatieve materialen die kunnen worden gebruikt voor beoordelingen zoals de USMLE is crucialer dan ooit. De traditionele methode om nieuwe vragen te creëren is echter resource-intensief en vereist ervaren artsen om klinische vignetten te schrijven en meerdere testafnames om hun generaliseerbaarheid te evalueren. Nieuwe methoden voor het ontwikkelen van talrijke, unieke klinische vignetten zijn daarom zeer wenselijk.

Ons onderzoek levert veelbelovend bewijs dat grote taalmodellen zoals GPT-4 kunnen dienen als een bron van “synthetisch medisch onderwijs” en toegankelijke, aanpasbare en schaalbare educatieve bronnen bieden. We hebben aangetoond dat GPT-4 inherente klinische kennis bezit die zich uitstrekt tot het creëren van representatieve en nauwkeurige patiëntbeschrijvingen. Uit onze analyse bleek dat de vignetten die door GPT-4 werden gegenereerd voor ziekten die werden getest in het gedeelte Huid & Weke Delen van het USMLE Step 2 CK examen zeer nauwkeurig waren, wat suggereert dat LLM’s mogelijk kunnen worden gebruikt om vignetten te ontwerpen voor gestandaardiseerde medische onderzoeken.

De hoge beoordelingen voor wetenschappelijke consensus, volledigheid en algehele kwaliteit, in combinatie met lage beoordelingen voor potentieel klinische schade en demografische vertekening, ondersteunen verder de haalbaarheid van het gebruik van LLM’s voor dit doel. De sterke statistische correlatie tussen de volledigheid van het vignet en de algehele kwaliteit benadrukt het belang van grondige en gedetailleerde casuspresentaties in het medische onderwijs en toont het vermogen van LLM’s aan om contextueel relevante en complete scenario’s te bieden voor klinisch redeneren.

De gemiddelde lengte van de vignetten (145,79 ± 26,97 woorden) valt ruim binnen de reikwijdte van de USMLE-vignetlengte, waardoor kandidaten ongeveer 90 seconden de tijd hebben om elke vraag te beantwoorden. De opname van langere uitleg naast de vignetten toont het vermogen van LLM’s om niet alleen patiëntbeschrijvingen te genereren, maar ook nuttig didactisch materiaal.

Beperkingen en toekomstige richtingen aanpakken

Hoewel ons onderzoek het potentieel van LLM’s bij het genereren van hoogwaardige klinische vignetten heeft aangetoond, hebben we ook verschillende beperkingen geïdentificeerd die in toekomstig onderzoek moeten worden aangepakt. Een belangrijke zorg is de beperkte variatie in patiëntendemografie, met een overwicht aan mannelijke patiënten en een gebrek aan raciale diversiteit. Om ervoor te zorgen dat geneeskundestudenten voldoende zijn voorbereid om diverse patiëntenpopulaties te bedienen, is het cruciaal om meer bewuste inspanningen te leveren om diverse patiëntrepresentaties op te nemen in prompt engineering en modeltraining datasets. Toekomstige studies zouden ook de bronnen en manifestaties van systemische vertekening in modeloutput moeten onderzoeken.

Een andere beperking van ons onderzoek is de samenstelling van ons expertbeoordelaarspanel, dat slechts één dermatoloog naast twee aanwezige artsen van interne geneeskunde en spoedeisende hulp omvatte. Hoewel de niet-dermatoloog-beoordelaars vaak veel voorkomende huidaandoeningen diagnosticeren en behandelen in hun respectieve specialismen, omvat hun expertise mogelijk niet het volledige spectrum van dermatologische aandoeningen. Toekomstige studies zouden profiteren van een groter aandeel dermatologen om een meer gespecialiseerde evaluatie van AI-gegenereerde gevallen te garanderen.

Ondanks deze beperkingen levert ons werk overtuigend bewijs dat kant-en-klare LLM’s zoals GPT-4 een groot potentieel hebben voor het genereren van klinische vignetten voor gestandaardiseerd onderzoek en onderwijsdoeleinden. Doelgerichte LLM’s die zijn getraind op meer specifieke datasets, kunnen deze mogelijkheden verder verbeteren. De hoge nauwkeurigheid en efficiëntie van “synthetisch onderwijs” bieden een veelbelovende oplossing voor de huidige beperkingen in traditionele methoden voor het genereren van medische educatieve materialen.