Inleiding
De recente technologische vooruitgang op het gebied van artificiële intelligentie (AI), en dan met name de grote taalmodellen (LLM’s), biedt potentiële transformerende mogelijkheden voor het medisch onderwijs en de methoden voor kennisbeoordeling. Deze ontwikkelingen kunnen met name medische informatie toegankelijker maken en beoordelingen interactiever.
Eerdere studies hebben de prestaties van LLM’s al onderzocht op verschillende medische licentie-examens, zoals het USMLE (United States Medical Licensing Examination) en het JMLE (Japanese Medical Licensing Examination). De TUS (Turkse examen voor toelating tot medische specialisaties) verschilt echter aanzienlijk van deze examens in structuur en inhoud. De TUS richt zich op fundamentele en klinische wetenschappen, met een specifieke focus op de Turkse medische context, wat een unieke mogelijkheid biedt om de capaciteiten van LLM’s in een specifieke beoordelingsomgeving te evalueren. Deze studie tracht die lacune te vullen door de prestaties van vier toonaangevende LLM’s op de TUS te evalueren. Bovendien onderzoekt deze studie de potentiële implicaties van deze bevindingen voor curriculumontwerp, AI-ondersteunde medische training en de toekomst van medische beoordeling in Turkije. Concreet onderzoeken we hoe de prestaties van LLM’s kunnen bijdragen aan de ontwikkeling van effectievere, op maat gemaakte leermiddelen en beoordelingsstrategieën voor het Turkse medische curriculum. Dit onderzoek draagt niet alleen bij aan het begrip van de prestaties in een specifieke taal, maar ook aan de bredere discussie over hoe AI effectief kan worden geïntegreerd in medisch onderwijs en beoordeling wereldwijd.
De resultaten van deze studies suggereren dat ChatGPT en soortgelijke LLM’s een belangrijke rol kunnen spelen in het medisch onderwijs en de kennisbeoordelingsprocessen. AI en LLM’s in het ophalen van medische informatie en beoordelingsmethoden kunnen de ontwikkeling van innovatieve benaderingen en leermethoden mogelijk maken, vooral in het medisch onderwijs. Deze studie tracht de impact van LLM’s op het medisch onderwijs en de kennisbeoordeling verder te onderzoeken door de prestaties van ChatGPT 4, Gemini 1.5 Pro en Cohere-Command R+ te evalueren op het toelatingsexamen voor medische specialisaties in Turkije.
Dit onderzoek onderzoekt de toepassingen van geavanceerde artificiële intelligentie (AI) modellen, met name ChatGPT 4, Gemini 1.5 Pro, Command R+ en Llama 3 70B, in medisch onderwijs en beoordeling, met de nadruk op hun prestaties bij het oplossen van vragen van medische specialisatie-examens. De studie evalueert het vermogen van deze modellen om een uitgebreide en systematische analyse van de vragen van het toelatingsexamen voor medische specialisaties in Turkije uit te voeren, en benadrukt het potentieel van AI in de geneeskunde, rekening houdend met factoren als interpretatievermogen en nauwkeurigheid. De resultaten geven aan dat AI-modellen het medisch onderwijs en het beoordelingsproces aanzienlijk kunnen bevorderen, waardoor nieuwe toepassingen en onderzoeksgebieden worden geopend. Het primaire doel van dit artikel is het evalueren van de snelle vooruitgang van AI-technologieën en het vergelijken van de reactievermogen van verschillende AI-modellen. De studie voerde een vergelijkende analyse uit van ChatGPT 4, Gemini 1.5 Pro, Command R+ en Llama 3 70B, waarbij hun prestaties werden geëvalueerd op 240 vragen van het toelatingsexamen voor medische specialisaties in Turkije in het eerste semester van 2021.
Deze vergelijking is bedoeld om het ontwikkelingstraject en de onderscheidingen van AI-technologieën te verduidelijken, met de nadruk op hun bruikbaarheid in gespecialiseerde gebieden zoals medisch onderwijs en examenvoorbereiding. Het uiteindelijke doel is om inzichten te bieden die gebruikers helpen bij het selecteren van de meest geschikte leermiddelen voor hun specifieke behoeften.
Methoden
De vragen werden in het Turks gesteld aan de LLM’s. De vragen werden verkregen van de officiële website van het Student Selection and Placement Center en waren in multiple-choice formaat (vijf opties, A tot en met E) met slechts één beste antwoord. De antwoorden werden door de LLM’s in het Turks gegeven.
Het beoordelingsproces was gebaseerd op de correcte antwoorden die door het Student Selection and Placement Center werden gepubliceerd. In het artikel staat: “Het ‘correcte’ antwoord op de vragen voor de artificiële intelligentiemodellen werd gedefinieerd op basis van de antwoorden die door het Student Selection and Placement Center werden gepubliceerd. Alleen antwoorden die als correct werden vastgesteld op basis van de instructies in de vraagtekst werden als ‘correct’ aanvaard.” Aangezien de vragen en antwoorden in het Turks waren, omvatte het beoordelingsproces het vergelijken van de Turkse antwoorden van de LLM’s met de officiële Turkse antwoordsleutel van het Student Selection and Placement Center.
Medische Onderwijsdataset
Deze studie gebruikte ChatGPT 4, Gemini 1.5 Pro, Command R+ en Llama 3 70B om het vermogen van artificiële intelligentiemodellen in medische kennis en casusbeoordeling te testen. De studie werd uitgevoerd op de vragen van het toelatingsexamen voor medische specialisaties in Turkije, dat werd gehouden op 21 maart 2021. Het toelatingsexamen voor medische specialisaties in Turkije is een examen dat wordt georganiseerd door het Student Selection and Placement Center en bestaat uit 240 vragen. Vragen over fundamentele kennis in de eerste categorie testen de kennis en ethiek die nodig zijn om medisch onderwijs te voltooien. De tweede categorie zijn casusvragen, die betrekking hebben op een aantal ziekten die analytisch denken en redeneervermogen meten.
Vraag Moeilijkheidsgraad Classificatie
De moeilijkheidsgraad van de vragen werd geclassificeerd op basis van de officiële gegevens over de prestaties van de kandidaten, gepubliceerd door het Student Selection and Placement Center. Concreet werd het percentage correcte antwoorden dat door het centrum voor elke vraag werd gerapporteerd, gebruikt om de vragen in te delen in vijf moeilijkheidsgraden:
- Niveau 1 (eenvoudigste): Vragen met een percentage correcte antwoorden van 80% of hoger.
- Niveau 2: Vragen met een percentage correcte antwoorden tussen 60% en 79,9%.
- Niveau 3 (gemiddeld): Vragen met een percentage correcte antwoorden tussen 40% en 59,9%.
- Niveau 4: Vragen met een percentage correcte antwoorden tussen 20% en 39,9%.
- Niveau 5 (moeilijkste): Vragen met een percentage correcte antwoorden van 19,9% of lager.
Het “correcte” antwoord op de vragen voor de artificiële intelligentiemodellen werd gedefinieerd op basis van de antwoorden die door het Student Selection and Placement Center werden gepubliceerd. Alleen antwoorden die als correct werden vastgesteld op basis van de instructies in de vraagtekst werden als “correct” aanvaard. Bovendien werd de moeilijkheidsgraad van elke vraag ingedeeld van 1 tot 5, afhankelijk van het percentage correcte antwoorden dat door het Student Selection and Placement Center werd gepubliceerd. Vragen met een percentage correcte antwoorden van 80% en hoger werden als het eenvoudigst beschouwd (niveau 1), terwijl vragen met een percentage correcte antwoorden van 19,9% en lager als het moeilijkst werden beschouwd (niveau 5).
Kennis- en Casusdomeinen
Het toelatingsexamen voor medische specialisaties in Turkije is een cruciale stap voor Turkse medische afgestudeerden die zich willen specialiseren, en het evalueert de kennis- en casusdomeinen van de kandidaten op twee belangrijke gebieden. Het begrijpen van het onderscheid tussen deze gebieden is essentieel voor een adequate voorbereiding. Het kennisdomein is gericht op het beoordelen van het theoretische begrip en de feitelijke kennis van de kandidaat binnen het door hen gekozen medische vakgebied. Het toetst de beheersing van basisconcepten en principes, en stelt medische informatie vast die relevant is voor de specialisatie. Het vertegenwoordigt het specifieke medische kennisgebied dat wordt getest, zoals fundamentele medische wetenschappen (anatomie, biochemie, fysiologie, enz.) en klinische wetenschappen (interne geneeskunde, chirurgie, pediatrie, enz.). Het casusdomein vertegenwoordigt daarentegen realistische scenario’s of situaties waarin kennis wordt toegepast, zoals het oplossen van problemen, analytisch denken, kritisch denken, besluitvorming en het toepassen van concepten in realistische situaties.
Prompt Engineering
Prompt engineering is het ontwerpen en verfijnen van natuurlijke taal prompts om specifieke reacties te verkrijgen van een taalmodel of AI-systeem. In april 2024 hebben we de reacties verzameld door de taalmodellen rechtstreeks te bevragen via hun respectieve webinterfaces.
Om een eerlijke beoordeling van de oorspronkelijke mogelijkheden van elk model te garanderen, werd een strikte methodologische controle geïmplementeerd in de manier waarop de vragen aan de LLM’s werden gepresenteerd. Elke vraag werd afzonderlijk ingevoerd en de sessie werd gereset voordat een nieuwe vraag werd gesteld om te voorkomen dat het model zou leren of zich aanpassen op basis van eerdere interacties.
Data-analyse
Alle analyses werden uitgevoerd met behulp van Microsoft Office Excel en Python-software. Om de prestaties van de LLM’s op verschillende moeilijkheidsgraden van de vragen te vergelijken, werden ongepaarde chi-kwadraat tests uitgevoerd. Een p-waarde drempel van p < 0,05 werd gebruikt om statistische significantie vast te stellen. De analyse beoordeelde of de nauwkeurigheid van het model varieerde afhankelijk van de moeilijkheidsgraad van de vraag.
Ethische Overwegingen
Deze studie maakte uitsluitend gebruik van informatie die op het internet beschikbaar was en omvatte geen menselijke proefpersonen. Daarom was geen goedkeuring van de ethische commissie van de Baskent University vereist.
Resultaten
Het gemiddelde aantal correcte antwoorden van de kandidaten die deelnamen aan het examen fundamentele medische wetenschappen in de eerste sessie van het toelatingsexamen voor medische specialisaties in Turkije in 2021 was 51,63. Het gemiddelde aantal correcte antwoorden voor het examen klinische medische wetenschappen was 63,95. Het gemiddelde aantal correcte antwoorden voor het examen klinische medische wetenschappen was hoger dan dat voor het examen fundamentele medische wetenschappen. Parallel aan deze situatie waren de artificiële intelligentietechnologieën ook succesvoller in het beantwoorden van het examen klinische medische wetenschappen.
AI Prestaties
De prestaties van de AI-platforms werden geëvalueerd met behulp van dezelfde meetwaarden als menselijke kandidaten.
ChatGPT 4:
ChatGPT 4 behaalde een gemiddelde score van 103 correcte antwoorden in het gedeelte fundamentele medische wetenschappen en 110 correcte antwoorden in het gedeelte klinische medische wetenschappen. Dit vertegenwoordigt een totale nauwkeurigheid van 88,75%, wat significant beter is dan de gemiddelde menselijke kandidaat in beide delen (p < 0,001).
Llama 3 70B:
Llama 3 70B behaalde een gemiddelde score van 95 correcte antwoorden in het gedeelte fundamentele medische wetenschappen en 95 correcte antwoorden in het gedeelte klinische medische wetenschappen. Dit vertegenwoordigt een totale nauwkeurigheid van 79,17%, wat ook significant hoger is dan de gemiddelde menselijke prestatie (p < 0,01).
Gemini 1.5 Pro:
Gemini 1.5 Pro behaalde een gemiddelde score van 94 correcte antwoorden in het gedeelte fundamentele medische wetenschappen en 93 correcte antwoorden in het gedeelte klinische medische wetenschappen. Dit vertegenwoordigt een totale nauwkeurigheid van 78,13%, wat significant hoger is dan de gemiddelde menselijke prestatie (p < 0,01).
Command R+:
Command R+ behaalde een gemiddelde score van 60 correcte antwoorden in het gedeelte fundamentele medische wetenschappen en 60 correcte antwoorden in het gedeelte klinische medische wetenschappen. Dit vertegenwoordigt een totale nauwkeurigheid van 50%, wat niet significant verschilt van de gemiddelde menselijke prestatie in het gedeelte fundamentele medische wetenschappen (p = 0,12), maar significant lager is in het gedeelte klinische medische wetenschappen (p < 0,05).
De prestaties van de AI-platforms werden geëvalueerd met behulp van dezelfde meetwaarden als menselijke kandidaten.
Figuur 3 vergelijkt de nauwkeurigheid van verschillende LLM’s op basis van de moeilijkheidsgraad van de vraag. -ChatGPT 4: het best presterende model. Naarmate de moeilijkheidsgraad van de vraag toeneemt, neemt de nauwkeurigheid toe en nadert deze de 70%, zelfs bij de meest uitdagende vragen. -Llama 3 70B: een model met matige prestaties. Naarmate de moeilijkheidsgraad van de vraag toeneemt, neemt de nauwkeurigheid eerst toe en vervolgens af. Bij de meest uitdagende vragen is de nauwkeurigheid ongeveer 25%. Gemini 1.5 70B: Het presteert vergelijkbaar met Llama 3 70B. Naarmate de moeilijkheidsgraad van de vraag toeneemt, neemt de nauwkeurigheid eerst toe en vervolgens af. Bij de meest uitdagende vragen is de nauwkeurigheid ongeveer 20%. Command R+: het model met de laagste prestaties. De nauwkeurigheid neemt af naarmate de moeilijkheidsgraad van de vraag toeneemt en blijft rond de 15% bij de meest uitdagende vragen.
Kortom, ChatGPT 4 is het model dat het minst wordt beïnvloed door de moeilijkheidsgraad van de vragen en heeft over het algemeen de hoogste nauwkeurigheid. Llama 3 70B en Gemini 1.5 Pro presteren matig, terwijl Command R+ een lager succespercentage heeft dan de andere modellen. Naarmate de moeilijkheidsgraad van de vraag toeneemt, neemt de nauwkeurigheid van de modellen af. Dit suggereert dat LLM’s nog steeds verbetering behoeven in het begrijpen en correct beantwoorden van complexe vragen.
In tabel 1 valt het ChatGPT 4-model op als het best presterende model met een succespercentage van 88,75%. Dit geeft een solide vermogen aan om vragen te begrijpen en nauwkeurig te beantwoorden. Het Llama 3 70B-model staat op de tweede plaats met een succespercentage van 79,17%. Hoewel het achterblijft bij het ChatGPT 4-model, toont het nog steeds een hoge mate van bekwaamheid in het beantwoorden van vragen. Het Gemini 1.5 Pro-model volgt nauw met een succespercentage van 78,13%. De prestaties zijn vergelijkbaar met die van het Llama 3 70B-model, wat wijst op een sterk vermogen om vragen te beantwoorden. Het Command R+-model blijft daarentegen achter bij de andere modellen met een succespercentage van 50%. Dit suggereert dat het mogelijk moeilijkheden ondervindt met specifieke vragen of verdere afstemming behoeft om de prestaties te verbeteren. De distributie van correcte antwoorden over verschillende moeilijkheidsgraden. Alle modellen presteren bijvoorbeeld goed op eenvoudige vragen (moeilijkheidsgraad 1), waarbij het ChatGPT 4-model een perfecte score behaalt. Bij vragen met een gemiddelde moeilijkheidsgraad (niveau 2 en 3) blijven de ChatGPT 4- en Llama 3 70B-modellen goed presteren.
Daarentegen begint het Gemini 1.5 Pro-model enkele zwakke punten te vertonen. Bij moeilijke vragen (niveau 4 en 5) nemen de prestaties van alle modellen af, waarbij het Command R+-model het moeilijkst heeft. Over het algemeen bieden deze resultaten waardevolle inzichten in de sterke en zwakke punten van elk AI-model en kunnen ze toekomstige ontwikkelings- en verbeteringsinspanningen informeren.
In tabel 3 behaalt biochemie in de fundamentele medische wetenschappen een perfecte score voor ChatGPT 4, wat het uitzonderlijke vermogen van het model aantoont om vragen op dit gebied te beantwoorden. Llama 3 70B en Gemini 1.5 Pro presteren ook goed, maar Command R+ presteert slecht met een nauwkeurigheid van 50%. De best presterende modellen (ChatGPT 4 en Llama 3 70B) in farmacologie, pathologie en microbiologie vertonen een sterke consistentie van informatie met nauwkeurigheden tussen 81% en 90%. Gemini 1.5 Pro en Command R+ blijven achter, maar presteren nog steeds goed. Anatomie en fysiologie zorgden voor enkele uitdagingen voor de modellen. ChatGPT 4 en Meta AI-Llama 3 70B presteren goed, terwijl Gemini 1.5 Pro en Command R+ slecht presteren met nauwkeurigheden onder de 70%.
Pediatrie in de klinische medische wetenschappen is cruciaal voor alle modellen, waarbij ChatGPT 4 een bijna perfecte score behaalt (90%). Llama 3 70B volgt op de voet, en zelfs Command R+ behaalt een nauwkeurigheid van 43%. Interne geneeskunde en algemene chirurgie presteren beter dan de beste modellen met nauwkeurigheden tussen 79% en 90%. Gemini 1.5 Pro en Command R+ blijven achter, maar presteren nog steeds goed. Minder vragen werden ingediend in specialiteiten zoals anesthesie en reanimatie, spoedeisende geneeskunde, neurologie en dermatologie, maar de modellen presteren over het algemeen goed. ChatGPT 4 en Llama 3 70B tonen een uitzonderlijke nauwkeurigheid op deze gebieden.
Wat betreft modelvergelijking is ChatGPT 4 het best presterende model in de meeste gebieden, met een totale nauwkeurigheid van 88,75%. Het sterke punt is het vermogen om zowel fundamentele als klinische medische wetenschappelijke vragen nauwkeurig te beantwoorden. Llama 3 70B volgt op de voet met een totale nauwkeurigheid van 79,17%. Hoewel het niet helemaal kan concurreren met de prestaties van ChatGPT 4, toont het nog steeds een sterke kennisconsistentie in verschillende gebieden. Gemini 1.5 Pro en Command R+ blijven achter met totale nauwkeurigheden van respectievelijk 78,13% en 50%. Hoewel ze in sommige gebieden hoopvol presteren, hebben ze moeite om de consistentie in alle gebieden te behouden.
Kortom, ChatGPT 4 is momenteel het meest geschikt om medische wetenschappelijke vragen op verschillende gebieden te beantwoorden. Gemini 1.5 Pro en Command R+ tonen potentieel, maar hebben aanzienlijke verbeteringen nodig om te kunnen concurreren met de best presterende modellen.
In tabel 4 is de nauwkeurigheid van ChatGPT 4 op het gebied van kennis in de fundamentele medische wetenschappen 86,7% (85/98), wat beter is dan die van andere modellen. ChatGPT 4 presteert opnieuw het beste met een nauwkeurigheid van 89,7% (61/68) in de klinische medische wetenschappen. Wat betreft het casusgebied is de nauwkeurigheid van ChatGPT 4 in de fundamentele medische wetenschappen 81,8% (18/22). In de klinische medische wetenschappen presteert ChatGPT 4 vergelijkbaar met een nauwkeurigheid van 94,2% (49/52).
De paarsgewijze vergelijkingen van modellen tonen aan dat ChatGPT 4 in beide gebieden en vraagtypen significant beter presteert dan andere modellen. Llama 3 70B en Gemini 1.5 Pro presteren vergelijkbaar, terwijl Command R+ achterblijft. Op basis van deze analyse kunnen we concluderen dat ChatGPT 4 uitzonderlijke prestaties levert op zowel het kennis- als het casusgebied, evenals in de fundamentele en klinische medische wetenschappen.
Statistische Analyse
De prestaties van de LLM’s werden geanalyseerd met behulp van Microsoft Office Excel en Python (versie 3.10.2). Om de prestaties van de modellen op verschillende moeilijkheidsgraden van de vragen te vergelijken, werden ongepaarde chi-kwadraat tests uitgevoerd. Contingentietabellen voor correcte en onjuiste antwoorden werden geconstrueerd op basis van de moeilijkheidsgraad voor elk AI-model, en er werd een chi-kwadraat test toegepast om te bepalen of er statistisch significante verschillen in prestaties waren over de moeilijkheidsgraden. Een p-waarde drempel van <0,05 werd gebruikt om statistische significantie vast te stellen. De p-waarde voor ChatGPT 4 was 0,00028 en significant bij p < 0,05, wat wijst op een significant verschil in prestaties over verschillende moeilijkheidsgraden. De p-waarde voor Gemini 1.5 Pro was 0,047 en significant bij p < 0,05, wat wijst op een significant verschil in prestaties over verschillende moeilijkheidsgraden. De p-waarde voor Command R+ was 0,197 en niet significant bij p < 0,05, wat wijst op geen significant verschil in prestaties over verschillende moeilijkheidsgraden. De p-waarde voor Llama 3 70B: 0,118, p-waarde: 0,118, en niet significant bij p < 0,05, wat wijst op geen significant verschil in prestaties over verschillende moeilijkheidsgraden.
De correctheid van ChatGPT 4 en Gemini 1.5 Pro op verschillende vraagmoeilijkheden vertoont een statistisch significant verschil, wat aangeeft dat hun prestaties significant variëren met verschillende moeilijkheidsgraden. Command R+ en Llama 3 70B vertoonden geen significante prestatieverschillen over de moeilijkheidsgraden, wat aangeeft dat de prestaties meer consistent waren, ongeacht de moeilijkheidsgraad van de vraag. Deze resultaten kunnen verschillende sterke en zwakke punten van de verschillende modellen aangeven bij het omgaan met complexiteiten en onderwerpen die verband houden met verschillende moeilijkheidsgraden.
Discussie
De TUS is een cruciaal nationaal examen voor Turkse medische afgestudeerden die een specialistische opleiding willen volgen. Het examen bestaat uit multiple-choice vragen die fundamentele en klinische wetenschappen omvatten, en heeft een gecentraliseerd rangsysteem dat de rangschikking voor specialistische programma’s bepaalt.
Bij het beoordelen van de prestaties van grote taalmodellen op de TUS, was GPT-4 het model dat het best presteerde. Evenzo is ChatGPT een krachtig AI-model dat een prestatie op of boven menselijk niveau vertoont op het gebied van chirurgie, waarbij respectievelijk 71% en 68% van de multiple-choice SCORE- en Data-B-vragen correct werden beantwoord. Bovendien presteert ChatGPT uitstekend op het examen openbare gezondheid, overtreft het de huidige slagingspercentages en biedt het unieke inzichten. Deze bevindingen benadrukken de uitzonderlijke prestaties van GPT-4 en ChatGPT in medische beoordelingen, en tonen hun potentieel aan om medisch onderwijs en potentiële diagnostische hulpmiddelen te verbeteren.
Voor medische opleiders en examinatoren roept de toenemende nauwkeurigheid van LLM’s belangrijke vragen op over examenontwerp en beoordeling. Als AI-modellen gestandaardiseerde medische examens met hoge nauwkeurigheid kunnen oplossen, moeten toekomstige beoordelingen mogelijk vragen bevatten over redenering van hogere orde en klinisch oordeel die verder gaan dan eenvoudig herinneren. Bovendien kunnen Turkse medische instellingen AI-gestuurde onderwijsstrategieën onderzoeken, zoals adaptieve leersystemen die leermaterialen afstemmen op de individuele behoeften van studenten.
Vanuit nationaal perspectief benadrukt deze studie het groeiende belang van AI in het Turkse medische onderwijs. Aangezien deze LLM’s goed presteren op Turkse medische vragen, kunnen ze de kloof dichten in de toegang tot hoogwaardige leermiddelen voor studenten in achtergestelde gebieden. Bovendien moeten beleidsmakers overwegen hoe AI-modellen kunnen worden geïntegreerd in de continue medische opleiding en levenslang leren-programma’s voor Turkse zorgprofessionals.
Kortom, hoewel AI-modellen zoals ChatGPT-4 een buitengewone nauwkeurigheid vertonen, moet de rol ervan in het medisch onderwijs zorgvuldig worden geëvalueerd. De potentiële voordelen van AI-gestuurd leren zijn enorm, maar de juiste implementatie vereist dat ervoor wordt gezorgd dat deze tools op een verantwoordelijke en ethische manier worden gebruikt, en in combinatie met menselijke expertise.
Beperkingen
Deze studie biedt waardevolle inzichten in de prestaties van grote taalmodellen (LLM’s) op het toelatingsexamen voor medische specialisaties in Turkije (TUS), maar het is essentieel om verschillende belangrijke beperkingen te erkennen om de onderzoeksresultaten in context te plaatsen en toekomstig onderzoek te begeleiden. Ten eerste is het onzeker of de trainingsgegevens van de in deze studie geëvalueerde AI-modellen TUS-vragen bevatten. Aangezien TUS-vragen uit het verleden openbaar beschikbaar zijn, is het mogelijk dat de in deze studie gebruikte vragen deel uitmaakten van de training