Einleitung
In den letzten Jahren haben technologische Fortschritte wie künstliche Intelligenz (KI) und große Sprachmodelle (LLM) das Potenzial, die medizinische Ausbildung und die Methoden zur Wissensbewertung grundlegend zu verändern. Insbesondere können diese Entwicklungen den Zugang zu medizinischen Informationen erleichtern und Bewertungen interaktiver gestalten.
Frühere Studien haben die Leistung von LLMs bei verschiedenen medizinischen Zulassungsprüfungen wie dem USMLE (United States Medical Licensing Examination) und dem JMLE (Japanese Medical Licensing Examination) untersucht. Diese Prüfungen unterscheiden sich jedoch in Struktur und Inhalt erheblich von der TUS (Tıpta Uzmanlık Sınavı – Facharztausbildungseingangsprüfung). Die TUS konzentriert sich auf grundlegende und klinische Wissenschaften und legt besonderen Wert auf den türkischen medizinischen Kontext. Dies bietet eine einzigartige Gelegenheit, die Fähigkeiten von LLMs in einem speziellen Bewertungsumfeld zu beurteilen. Diese Studie zielt darauf ab, diese Lücke zu schließen, indem sie die Leistung von vier führenden LLMs bei der TUS bewertet. Darüber hinaus untersucht diese Studie die potenziellen Auswirkungen dieser Erkenntnisse auf die Lehrplangestaltung, die KI-gestützte medizinische Ausbildung und die Zukunft der medizinischen Bewertung in der Türkei. Insbesondere untersuchen wir, wie die Leistung von LLMs die Entwicklung effektiverer, auf den türkischen medizinischen Lehrplan zugeschnittener Bildungsressourcen und Bewertungsstrategien beeinflussen kann. Diese Untersuchung trägt nicht nur zum Verständnis der Leistung bestimmter Sprachen bei, sondern auch zur breiteren Diskussion darüber, wie KI effektiv in die globale medizinische Ausbildung und Bewertung integriert werden kann.
Die Ergebnisse dieser Studien deuten darauf hin, dass ChatGPT und ähnliche LLMs eine wichtige Rolle im medizinischen Bildungs- und Wissensbewertungsprozess spielen können. KI und LLMs bei der medizinischen Informationsabfrage und Bewertungsmethoden können die Entwicklung innovativer Ansätze und Lernmethoden ermöglichen, insbesondere in der medizinischen Ausbildung. Diese Studie zielt darauf ab, die Auswirkungen von LLMs auf die medizinische Ausbildung und Wissensbewertung weiter zu untersuchen, indem sie die Leistung von ChatGPT 4, Gemini 1.5 Pro und Cohere-Command R+ bei der türkischen Aufnahmeprüfung für die medizinische Facharztausbildung bewertet.
Diese Studie untersucht die Anwendung fortschrittlicher KI-Modelle (insbesondere ChatGPT 4, Gemini 1.5 Pro, Command R+ und Llama 3 70B) in der medizinischen Ausbildung und Bewertung, wobei der Schwerpunkt auf ihrer Leistung bei der Lösung von Prüfungsfragen für medizinische Fachgebiete liegt. Die Studie bewertet die Fähigkeit dieser Modelle, eine umfassende und systematische Analyse von Fragen der türkischen Aufnahmeprüfung für die medizinische Facharztausbildung durchzuführen, und hebt das Potenzial von KI in der Medizin hervor, wenn Faktoren wie Interpretationsfähigkeit und Genauigkeit berücksichtigt werden. Die Ergebnisse deuten darauf hin, dass KI-Modelle den medizinischen Ausbildungs- und Bewertungsprozess erheblich unterstützen und neue Anwendungs- und Forschungsbereiche eröffnen können. Das Hauptziel dieses Artikels ist die Bewertung des rasanten Fortschritts der KI-Technologie und der Vergleich der Reaktionsfähigkeit verschiedener KI-Modelle. Die Studie führt eine vergleichende Analyse von ChatGPT 4, Gemini 1.5 Pro, Command R+ und Llama 3 70B durch, wobei ihre Leistung bei 240 Fragen der türkischen Aufnahmeprüfung für die medizinische Facharztausbildung im ersten Semester 2021 bewertet wird.
Dieser Vergleich soll die Entwicklung und die Unterschiede der KI-Technologien aufzeigen und dabei ihren Nutzen in spezialisierten Bereichen wie der medizinischen Ausbildung und der Prüfungsvorbereitung hervorheben. Das Endziel ist es, Einblicke zu geben, die den Benutzern helfen, das am besten geeignete Lernwerkzeug für ihre spezifischen Bedürfnisse auszuwählen.
Methoden
Die Fragen wurden den LLMs auf Türkisch gestellt. Die Fragen wurden von der offiziellen Website des Studentenauswahl- und Vermittlungszentrums (ÖSYM) bezogen und lagen in Form von Multiple-Choice-Fragen vor (mit fünf Optionen von A bis E), wobei nur eine die beste Antwort war. Die Antworten wurden von den LLMs auf Türkisch gegeben.
Der Bewertungsprozess basierte auf den vom Studentenauswahl- und Vermittlungszentrum veröffentlichten richtigen Antworten. In dem Artikel heißt es: “Die ‘richtige’ Antwort auf die Fragen des KI-Modells wurde gemäß den vom Studentenauswahl- und Vermittlungszentrum veröffentlichten Antworten definiert. Nur die Antworten, die gemäß den Anweisungen im Fragetext als richtig identifiziert wurden, wurden als ‘richtig’ akzeptiert”. Da die Fragen und Antworten auf Türkisch waren, umfasste der Bewertungsprozess den Vergleich der türkischen Antworten der LLMs mit dem offiziellen türkischen Antwortschlüssel des Studentenauswahl- und Vermittlungszentrums.
Datensatz für die medizinische Ausbildung
In dieser Studie werden ChatGPT 4, Gemini 1.5 Pro, Command R+ und Llama 3 70B verwendet, um die Fähigkeiten von KI-Modellen bei der Bewertung von medizinischem Wissen und Fallstudien zu testen. Die Studie wurde an Fragen der türkischen Aufnahmeprüfung für die medizinische Facharztausbildung durchgeführt, die am 21. März 2021 stattfand. Die türkische Aufnahmeprüfung für die medizinische Facharztausbildung ist eine vom Studentenauswahl- und Vermittlungszentrum organisierte Prüfung, die aus 240 Fragen besteht. Die Fragen zum grundlegenden Wissen in der ersten Kategorie testen das Wissen und die Ethik, die für den Abschluss einer medizinischen Ausbildung erforderlich sind. Die zweite Kategorie sind Fallstudien, die eine Reihe von Krankheiten abdecken, die analytisches Denken und Schlussfolgerungsfähigkeiten messen.
Schwierigkeitsgrade der Fragen
Die Schwierigkeitsgrade der Fragen wurden anhand der offiziellen Daten zur Leistung der Prüfungsteilnehmer eingeteilt, die vom Studentenauswahl- und Vermittlungszentrum veröffentlicht wurden. Insbesondere wurde die vom Zentrum gemeldete korrekte Antwortrate für jede Frage verwendet, um die Fragen in fünf Schwierigkeitsgrade einzuteilen:
- Stufe 1 (am einfachsten): Fragen mit einer korrekten Antwortrate von 80 % oder mehr.
- Stufe 2: Fragen mit einer korrekten Antwortrate zwischen 60 % und 79,9 %.
- Stufe 3 (mittel): Fragen mit einer korrekten Antwortrate zwischen 40 % und 59,9 %.
- Stufe 4: Fragen mit einer korrekten Antwortrate zwischen 20 % und 39,9 %.
- Stufe 5 (am schwierigsten): Fragen mit einer korrekten Antwortrate von 19,9 % oder weniger.
Die “richtige” Antwort auf die Fragen des KI-Modells wurde gemäß den vom Studentenauswahl- und Vermittlungszentrum veröffentlichten Antworten definiert. Nur die Antworten, die gemäß den Anweisungen im Fragetext als richtig identifiziert wurden, wurden als “richtig” akzeptiert. Darüber hinaus wurde der Schwierigkeitsgrad jeder Frage anhand der vom Studentenauswahl- und Vermittlungszentrum veröffentlichten korrekten Antwortrate in die Stufen 1 bis 5 eingeteilt. Fragen mit einer korrekten Antwortrate von 80 % und mehr wurden als am einfachsten (Stufe 1) eingestuft, während Fragen mit einer korrekten Antwortrate von 19,9 % und weniger als am schwierigsten (Stufe 5) eingestuft wurden.
Wissens- und Fallbereiche
Die türkische Aufnahmeprüfung für die medizinische Facharztausbildung ist ein wichtiger Schritt für türkische Medizinstudenten, die sich spezialisieren möchten. Sie bewertet das Wissen und die Fallkompetenz der Kandidaten in zwei Schlüsselbereichen. Das Verständnis des Unterschieds zwischen diesen Bereichen ist für eine angemessene Vorbereitung unerlässlich. Der Wissensbereich konzentriert sich auf die Bewertung des theoretischen Verständnisses und des Faktenwissens der Kandidaten in ihrem gewählten medizinischen Bereich. Er testet die Beherrschung grundlegender Konzepte und Prinzipien und vermittelt mit der Spezialisierung verbundene medizinische Informationen. Er stellt den spezifischen Bereich des medizinischen Wissens dar, der getestet wird, z. B. grundlegende medizinische Wissenschaften (Anatomie, Biochemie, Physiologie usw.) und klinische Wissenschaften (Innere Medizin, Chirurgie, Pädiatrie usw.). Der Fallbereich hingegen stellt reale Szenarien oder Situationen dar, in denen Wissen angewendet wird, z. B. Problemlösung, analytisches Denken, kritisches Denken, Entscheidungsfindung und die Anwendung von Konzepten auf reale Situationen.
Prompt Engineering
Prompt Engineering ist die Gestaltung und Feinabstimmung von natürlichsprachlichen Prompts, um bestimmte Antworten von einem Sprachmodell oder einem KI-System zu erhalten. Im April 2024 haben wir Antworten gesammelt, indem wir die Sprachmodelle direkt über ihre jeweiligen Weboberflächen abfragten.
Um eine faire Bewertung der Rohleistung jedes Modells zu gewährleisten, wurde eine strenge Methodenkontrolle bei der Art und Weise der Präsentation der Fragen für die LLMs implementiert. Jede Frage wurde separat eingegeben, und die Sitzung wurde zurückgesetzt, bevor eine neue Frage gestellt wurde, um zu verhindern, dass die Modelle auf der Grundlage früherer Interaktionen lernen oder sich anpassen.
Datenanalyse
Alle Analysen wurden mit Microsoft Office Excel und der Software Python durchgeführt. Um die Leistung der LLMs bei unterschiedlichen Schwierigkeitsgraden der Fragen zu vergleichen, wurde ein ungepaarter Chi-Quadrat-Test durchgeführt. Zur Bestimmung der statistischen Signifikanz wurde ein p-Wert-Schwellenwert von p < 0,05 verwendet. Die Analyse bewertete, ob die Genauigkeit der Modelle je nach Schwierigkeitsgrad der Frage variierte.
Ethische Überlegungen
Diese Studie verwendet nur Informationen, die im Internet veröffentlicht wurden, und bezieht keine menschlichen Probanden ein. Daher war keine Genehmigung der Ethikkommission der Universität Baskent erforderlich.
Ergebnisse
Die durchschnittliche Anzahl der richtigen Antworten der Prüfungsteilnehmer, die an der Grundprüfung der medizinischen Wissenschaften im ersten Semester der türkischen Aufnahmeprüfung für die medizinische Facharztausbildung 2021 teilnahmen, betrug 51,63. Die durchschnittliche Anzahl der richtigen Antworten bei der Prüfung der klinischen medizinischen Wissenschaften betrug 63,95. Die durchschnittliche Anzahl der richtigen Antworten bei der Prüfung der klinischen medizinischen Wissenschaften war höher als bei der Prüfung der grundlegenden medizinischen Wissenschaften. Parallel zu dieser Situation war die KI-Technologie auch bei der Beantwortung der Prüfung der klinischen medizinischen Wissenschaften erfolgreicher.
KI-Leistung
Die Leistung der KI-Plattformen wurde anhand der gleichen Metriken bewertet, die für menschliche Prüfungsteilnehmer verwendet wurden.
ChatGPT 4:
ChatGPT 4 erzielte in den grundlegenden medizinischen Wissenschaften einen Durchschnittswert von 103 richtigen Antworten und in den klinischen medizinischen Wissenschaften einen Durchschnittswert von 110 richtigen Antworten. Dies entspricht einer Gesamtgenauigkeit von 88,75 %, was die durchschnittliche Leistung der menschlichen Prüfungsteilnehmer in beiden Teilen deutlich übertrifft (p < 0,001).
Llama 3 70B:
Llama 3 70B erzielte in den grundlegenden medizinischen Wissenschaften einen Durchschnittswert von 95 richtigen Antworten und in den klinischen medizinischen Wissenschaften einen Durchschnittswert von 95 richtigen Antworten. Dies entspricht einer Gesamtgenauigkeit von 79,17 %, was ebenfalls deutlich über der durchschnittlichen menschlichen Leistung liegt (p < 0,01).
Gemini 1.5 Pro:
Gemini 1.5 Pro erzielte in den grundlegenden medizinischen Wissenschaften einen Durchschnittswert von 94 richtigen Antworten und in den klinischen medizinischen Wissenschaften einen Durchschnittswert von 93 richtigen Antworten. Dies entspricht einer Gesamtgenauigkeit von 78,13 %, was deutlich über der durchschnittlichen menschlichen Leistung liegt (p < 0,01).
Command R+:
Command R+ erzielte in den grundlegenden medizinischen Wissenschaften einen Durchschnittswert von 60 richtigen Antworten und in den klinischen medizinischen Wissenschaften einen Durchschnittswert von 60 richtigen Antworten. Dies entspricht einer Gesamtgenauigkeit von 50 %, was keinen signifikanten Unterschied zur durchschnittlichen menschlichen Leistung in den grundlegenden medizinischen Wissenschaften darstellt (p = 0,12), aber in den klinischen medizinischen Wissenschaften deutlich niedriger ist (p < 0,05).
Die Leistung der KI-Plattformen wurde anhand der gleichen Metriken bewertet, die für menschliche Prüfungsteilnehmer verwendet wurden.
Abbildung 3 vergleicht die Genauigkeit verschiedener LLMs je nach Schwierigkeitsgrad der Frage - ChatGPT 4: Das Modell mit der besten Leistung. Mit zunehmendem Schwierigkeitsgrad der Frage nimmt die Genauigkeit zu und nähert sich selbst bei den schwierigsten Fragen 70 % - Llama 3 70B: Ein Modell mit moderater Leistung. Mit zunehmendem Schwierigkeitsgrad der Frage nimmt die Genauigkeit zuerst zu und dann ab. Bei den schwierigsten Fragen liegt die Genauigkeit bei etwa 25 %. Gemini 1.5 70B: Es zeigt eine ähnliche Leistung wie Llama 3 70B. Mit zunehmendem Schwierigkeitsgrad der Frage nimmt die Genauigkeit zuerst zu und dann ab. Bei den schwierigsten Fragen liegt die Genauigkeit bei etwa 20 %. Command R+: Das Modell mit der schlechtesten Leistung. Die Genauigkeit nimmt mit zunehmendem Schwierigkeitsgrad der Frage ab und bleibt bei den schwierigsten Fragen bei etwa 15 %.
Zusammenfassend lässt sich sagen, dass ChatGPT 4 das Modell ist, das am wenigsten vom Schwierigkeitsgrad der Frage beeinflusst wird und die höchste Gesamtgenauigkeit aufweist. Llama 3 70B und Gemini 1.5 Pro zeigen eine moderate Leistung, während Command R+ eine geringere Erfolgsquote aufweist als die anderen Modelle. Mit zunehmendem Schwierigkeitsgrad der Frage nimmt die Genauigkeit der Modelle ab. Dies deutet darauf hin, dass LLMs noch Verbesserungen benötigen, um komplexe Fragen zu verstehen und richtig zu beantworten.
In Tabelle 1 sticht das ChatGPT 4-Modell mit einer Erfolgsquote von 88,75 % als das Modell mit der besten Leistung hervor. Dies deutet auf eine solide Fähigkeit hin, Fragen zu verstehen und genau zu beantworten. Das Llama 3 70B-Modell folgt mit einer Erfolgsquote von 79,17 % an zweiter Stelle. Obwohl es hinter dem ChatGPT 4-Modell zurückbleibt, zeigt es dennoch eine hohe Kompetenz bei der Beantwortung von Fragen. Das Gemini 1.5 Pro-Modell folgt dicht dahinter mit einer Erfolgsquote von 78,13 %. Seine Leistung ist vergleichbar mit der des Llama 3 70B-Modells, was darauf hindeutet, dass es über starke Fähigkeiten zur Beantwortung von Fragen verfügt. Das Command R+-Modell schneidet hingegen schlechter ab als die anderen Modelle und weist eine Erfolgsquote von 50 % auf. Dies deutet darauf hin, dass es bei bestimmten Fragen Schwierigkeiten haben oder weiter verfeinert werden muss, um seine Leistung zu verbessern. Die Verteilung der richtigen Antworten über verschiedene Schwierigkeitsgrade hinweg. Beispielsweise schneiden alle Modelle bei einfachen Fragen (Schwierigkeitsgrad 1) gut ab, wobei das ChatGPT 4-Modell eine perfekte Punktzahl erzielt. Bei Fragen mit mittlerem Schwierigkeitsgrad (Stufen 2 und 3) schneiden die ChatGPT 4- und Llama 3 70B-Modelle weiterhin gut ab.
Im Gegensatz dazu beginnt das Gemini 1.5 Pro-Modell einige Schwächen zu zeigen. Bei schwierigen Fragen (Stufen 4 und 5) nimmt die Leistung aller Modelle ab, wobei das Command R+-Modell am meisten zu kämpfen hat. Insgesamt liefern diese Ergebnisse wertvolle Einblicke in die Stärken und Schwächen jedes KI-Modells und können zukünftige Entwicklungs- und Verbesserungsarbeiten informieren.
In Tabelle 3 erzielt die Biochemie in den grundlegenden medizinischen Wissenschaften eine perfekte Punktzahl für ChatGPT 4, was seine außergewöhnliche Fähigkeit zur Beantwortung von Fragen in diesem Bereich beweist. Llama 3 70B und Gemini 1.5 Pro schneiden ebenfalls gut ab, aber Command R+ schneidet mit einer Genauigkeit von 50 % schlecht ab. Die Modelle mit der besten Leistung (ChatGPT 4 und Llama 3 70B) in Pharmakologie, Pathologie und Mikrobiologie zeigen eine starke Informationskonsistenz mit Genauigkeitsraten zwischen 81 % und 90 %. Gemini 1.5 Pro und Command R+ schneiden schlechter ab, zeigen aber dennoch eine gute Leistung. Anatomie und Physiologie stellen die Modelle vor einige Herausforderungen. ChatGPT 4 und Meta AI-Llama 3 70B schneiden gut ab, während Gemini 1.5 Pro und Command R+ mit einer Genauigkeit von unter 70 % schlecht abschneiden.
Pädiatrie in den klinischen medizinischen Wissenschaften ist für alle Modelle von entscheidender Bedeutung, wobei ChatGPT 4 eine nahezu perfekte Punktzahl (90 %) erzielt. Llama 3 70B folgt dicht dahinter, und selbst Command R+ erzielt eine Genauigkeit von 43 %. Die Leistung in Innerer Medizin und Allgemeinchirurgie ist besser als die der besten Modelle mit Genauigkeitsraten zwischen 79 % und 90 %. Gemini 1.5 Pro und Command R+ schneiden schlechter ab, zeigen aber dennoch eine gute Leistung. Bei Fachgebieten wie Anästhesie und Reanimation, Notfallmedizin, Neurologie und Dermatologie wurden weniger Fragen eingereicht, aber die Modelle schneiden insgesamt gut ab. ChatGPT 4 und Llama 3 70B zeigen in diesen Bereichen eine außergewöhnliche Genauigkeit.
In Bezug auf den Modellvergleich ist ChatGPT 4 das Modell mit der besten Leistung in den meisten Bereichen mit einer Gesamtgenauigkeit von 88,75 %. Seine Stärke liegt in seiner Fähigkeit, Fragen der grundlegenden und klinischen medizinischen Wissenschaften genau zu beantworten. Llama 3 70B folgt dicht dahinter mit einer Gesamtgenauigkeit von 79,17 %. Obwohl es nicht ganz mit der Leistung von ChatGPT 4 mithalten kann, zeigt es dennoch eine starke Wissenskonsistenz in allen Bereichen. Gemini 1.5 Pro und Command R+ schneiden schlechter ab und weisen eine Gesamtgenauigkeit von 78,13 % bzw. 50 % auf. Obwohl sie in bestimmten Bereichen vielversprechend sind, haben sie Schwierigkeiten, die Konsistenz über alle Bereiche hinweg aufrechtzuerhalten.
Kurz gesagt, ChatGPT 4 ist derzeit das am besten geeignete Modell, um Fragen zu medizinisch-wissenschaftlichen Themen in allen Bereichen zu beantworten. Gemini 1.5 Pro und Command R+ zeigen Potenzial, müssen aber deutlich verbessert werden, um mit den Modellen mit der besten Leistung konkurrieren zu können.
In Tabelle 4 beträgt die Genauigkeit von ChatGPT 4 im Wissensbereich in den grundlegenden medizinischen Wissenschaften 86,7 % (85/98) und übertrifft damit andere Modelle. ChatGPT 4 schneidet erneut am besten ab und erzielt im Wissensbereich in den klinischen medizinischen Wissenschaften eine Genauigkeit von 89,7 % (61/68). Im Fallbereich beträgt die Genauigkeit von ChatGPT 4 in den grundlegenden medizinischen Wissenschaften 81,8 % (18/22). In den klinischen medizinischen Wissenschaften zeigt ChatGPT 4 eine ähnliche Leistung mit einer Genauigkeit von 94,2 % (49/52).
Der paarweise Vergleich der Modelle zeigt, dass ChatGPT 4 in beiden Bereichen und Fragetypen deutlich besser abschneidet als andere Modelle. Llama 3 70B und Gemini 1.5 Pro zeigen eine ähnliche Leistung, während Command R+ schlechter abschneidet. Basierend auf dieser Analyse können wir schlussfolgern, dass ChatGPT 4 eine überlegene Leistung sowohl im Wissens- als auch im Fallbereich sowie in den grundlegenden und klinischen medizinischen Wissenschaften zeigt.
Statistische Analyse
Die Leistung der LLMs wurde mit Microsoft Office Excel und Python (Version 3.10.2) analysiert. Um die Leistung der Modelle bei verschiedenen Schwierigkeitsgraden der Fragen zu vergleichen, wurde ein ungepaarter Chi-Quadrat-Test durchgeführt. Für jedes KI-Modell wurden Kontingenztabellen mit den richtigen und falschen Antworten nach Schwierigkeitsgrad erstellt, und es wurde ein Chi-Quadrat-Test angewendet, um festzustellen, ob es signifikante Unterschiede in der Leistung über die Schwierigkeitsgrade hinweg gibt. Zur Bestimmung der statistischen Signifikanz wurde ein p-Wert-Schwellenwert von <0,05 verwendet. Der p-Wert für ChatGPT 4 beträgt 0,00028 und ist bei p < 0,05 signifikant, was auf einen signifikanten Unterschied in der Leistung über verschiedene Schwierigkeitsgrade hinweg hindeutet. Der p-Wert für Gemini 1.5 Pro beträgt 0,047 und ist bei p < 0,05 signifikant, was auf einen signifikanten Unterschied in der Leistung über verschiedene Schwierigkeitsgrade hinweg hindeutet. Der p-Wert für Command R+ beträgt 0,197 und ist bei p < 0,05 nicht signifikant, was auf keinen signifikanten Unterschied in der Leistung über verschiedene Schwierigkeitsgrade hinweg hindeutet. Der p-Wert für Llama 3 70B: 0,118, p-Wert: 0,118 und ist bei p < 0,05 nicht signifikant, was auf keinen signifikanten Unterschied in der Leistung über verschiedene Schwierigkeitsgrade hinweg hindeutet.
Die Richtigkeit von ChatGPT 4 und Gemini 1.5 Pro bei unterschiedlichen Schwierigkeitsgraden der Fragen weist einen statistisch signifikanten Unterschied auf, was darauf hindeutet, dass ihre Leistung je nach Schwierigkeitsgrad der Frage erheblich variiert. Command R+ und Llama 3 70B zeigen keine signifikanten Leistungsunterschiede über die Schwierigkeitsgrade hinweg, was darauf hindeutet, dass die Leistung unabhängig vom Schwierigkeitsgrad der Frage konsistenter ist. Diese Ergebnisse deuten möglicherweise auf unterschiedliche Stärken und Schwächen der verschiedenen Modelle im Umgang mit der Komplexität und den Themen, die mit unterschiedlichen Schwierigkeitsgraden verbunden sind, hin.
Diskussion
Die TUS ist eine wichtige nationale Prüfung für türkische Medizinstudenten, die eine Facharztausbildung anstreben. Die Prüfung besteht aus Multiple-Choice-Fragen, die grundlegende und klinische Wissenschaften abdecken, und verfügt über ein zentralisiertes Rangsystem, das die Rangfolge der Fachgebiete bestimmt.
Bei der Bewertung der Leistung von großen Sprachmodellen bei der TUS ist GPT-4 das Modell mit der besten Leistung. Ebenso ist ChatGPT ein leistungsstarkes KI-Modell, das im Bereich der Chirurgie eine nahezu oder über dem menschlichen Niveau liegende Leistung erbringt und 71 % bzw. 68 % der Multiple-Choice-Fragen SCORE und Data-B richtig beantwortet. Darüber hinaus schneidet ChatGPT bei der Prüfung im Bereich der öffentlichen Gesundheit gut ab, übertrifft die aktuelle Bestehensquote und liefert einzigartige Einblicke. Diese Ergebnisse unterstreichen die herausragende Leistung von GPT-4 und ChatGPT bei der medizinischen Bewertung und demonstrieren ihr Potenzial zur Verbesserung der medizinischen Ausbildung und zur potenziellen diagnostischen Unterstützung.
Für medizinische Ausbilder und Prüfer wirft die zunehmende Genauigkeit von LLMs wichtige Fragen bezüglich der Prüfungsgestaltung und -bewertung auf. Wenn KI-Modelle standardisierte medizinische Prüfungen mit hoher Genauigkeit lösen können, müssen zukünftige Bewertungen möglicherweise Fragen zu höherem Denken und klinischer Beurteilung einbeziehen, die über das einfache Abrufen von Informationen hinausgehen. Darüber hinaus könnten türkische medizinische Einrichtungen KI-gestützte Bildungsstrategien erforschen, z. B. adaptive Lernsysteme, die Lernmaterialien auf die individuellen Bedürfnisse der Studenten zuschneiden.
Aus nationaler Sicht unterstreicht diese Studie die wachsende Bedeutung von KI in der medizinischen Ausbildung in der Türkei. Da diese LLMs türkischsprachige medizinische Fragen gut beantworten, können sie die Kluft zwischen Studenten in unterversorgten Gebieten und dem Zugang zu hochwertigen Bildungsressourcen überbrücken. Darüber hinaus sollten politische Entscheidungsträger überlegen, wie KI-Modelle in die Programme zur kontinuierlichen medizinischen Ausbildung und zum lebenslangen Lernen für türkische Gesundheitsfachkräfte integriert werden können.
Zusammenfassend lässt sich sagen, dass die Rolle von KI-Modellen wie ChatGPT-4 in der medizinischen Ausbildung sorgfältig bewertet werden sollte, obwohl sie eine außergewöhnliche Genauigkeit aufweisen. Die potenziellen Vorteile des KI-gestützten Lernens sind enorm, aber die richtige Umsetzung erfordert, dass diese Werkzeuge verantwortungsvoll und ethisch eingesetzt und mit menschlicher Expertise kombiniert werden.
Einschränkungen
Diese Studie liefert wertvolle Einblicke in die Leistung von großen Sprachmodellen (LLMs) bei der türkischen Aufnahmeprüfung für die medizinische Facharztausbildung (TUS), aber es müssen einige wichtige Einschränkungen anerkannt werden, um die Ergebnisse in den Kontext zu stellen und zukünftige Forschung zu leiten. Erstens ist es ungewiss, ob die Trainingsdaten der in dieser Studie bewerteten KI-Modelle TUS-Fragen enthielten. Da frühere TUS-Fragen öffentlich zugänglich sind, könnten die in dieser Studie verwendeten Fragen Teil der Trainingsdaten der Modelle gewesen sein. Dies wirft Bedenken auf, ob die Leistung der Modelle ein echtes Verständnis widerspiegelt oder lediglich die Fähigkeit, sich an bestimmte Fragen zu erinnern. Zukünftige Studien sollten Methoden entwickeln, um zu bewerten, ob KI-Modelle eine echte Denkfähigkeit zeigen oder sich auf auswendig gelernte Informationen verlassen.
Zweitens besteht die Möglichkeit, dass KI-Modelle Verzerrungen aufweisen, die aus ihren Trainingsdaten stammen. Diese Verzerrungen könnten aus einem Ungleichgewicht in der Repräsentation bestimmter medizinischer Zustände, Bevölkerungsgruppen oder Standpunkte in den Trainingsdaten resultieren. Beispielsweise kann die Leistung der Modelle auf Türkisch aufgrund der Unterschiede in der Menge und Qualität der verfügbaren Trainingsdaten in jeder Sprache von der Leistung auf Englisch abweichen. Darüber hinaus sind diese Modelle möglicherweise weniger genau bei der Beantwortung von Fragen, die Kenntnisse der lokalen türkischen Gesundheitspraktiken oder des kulturellen Kontexts erfordern. Diese Verzerrungen könnten die Allgemeingültigkeit der Ergebnisse einschränken und ethische Bedenken hinsichtlich der Verwendung von KI in der medizinischen Ausbildung und Praxis aufwerfen.
Eine dritte Einschränkung besteht darin, dass sich die Studie nur auf Multiple-Choice-Fragen konzentriert. In der realen klinischen Praxis müssen Gesundheitsfachkräfte über Fähigkeiten wie das Erschließen komplexer Fälle, das Interpretieren mehrdeutiger Ergebnisse und das Treffen von Entscheidungen unter Unsicherheit verfügen. Darüber hinaus ist die Fähigkeit, Diagnosen, Behandlungspläne und Risiken auf klare und mitfühlende Weise an Patienten und Kollegen zu kommunizieren, von entscheidender Bedeutung. Die Fähigkeit von KI-Modellen, diese Aufgaben zu erfüllen, wurde noch nicht getestet, und ihre Fähigkeiten können durch ihr aktuelles Design und Training eingeschränkt sein. Zukünftige Studien sollten KI-Modelle in realistischeren Situationen bewerten, z. B. in klinischen Fallsimulationen und offenen Bewertungen.
Viertens enthielt die Studie keine offenen Fragen. Offene Fragen sind entscheidend für die Bewertung höherer kognitiver Fähigkeiten wie kritisches Denken, Informationssynthese und klinisches Denken. Diese Fragetypen erfordern die Fähigkeit, kohärente und kontextbezogene Antworten zu generieren, anstatt einfach die richtige Option aus einer Liste auszuwählen. Die Leistung von KI-Modellen bei solchen Aufgaben kann sich erheblich von ihrer Leistung bei Multiple-Choice-Fragen unterscheiden, was einen wichtigen Bereich für zukünftige Forschung darstellt.
Eine fünfte Einschränkung besteht darin, dass die KI-Modelle nicht unter Zeitdruck getestet wurden. Menschliche Prüfungsteilnehmer unterliegen während der Prüfungen strengen Zeitlimits, was ihre Leistung beeinflussen kann. Im Gegensatz dazu