Bewertung der LLM-Leistung: Genauigkeit und Konsistenz
Unser Hauptziel war die Bewertung der Genauigkeit der Antworten führender LLMs auf Fragen zur CVD-Prävention. Wir konzentrierten uns auf BARD (Googles Sprachmodell), ChatGPT-3.5 und ChatGPT-4.0 (OpenAIs Modelle) sowie ERNIE (Baidus Modell). Ein Satz von 75 sorgfältig erstellten Fragen zur CVD-Prävention wurde jedem LLM vorgelegt, wobei die Antworten anhand ihrer Angemessenheit bewertet wurden (kategorisiert als angemessen, grenzwertig oder unangemessen).
Leistung in englischer Sprache
In der englischen Sprache zeigten die LLMs eine bemerkenswerte Genauigkeit. BARD erreichte eine "angemessene" Bewertung von 88,0 %, ChatGPT-3.5 erreichte 92,0 % und ChatGPT-4.0 übertraf dies mit einer Bewertung von 97,3 %. Diese Ergebnisse deuten darauf hin, dass LLMs englischsprachigen Benutzern, die eine Anleitung zur CVD-Prävention suchen, wertvolle Informationen liefern können.
Leistung in chinesischer Sprache
Die Analyse wurde auf Abfragen in chinesischer Sprache ausgeweitet, wobei die Leistung der LLMs variierte. ERNIE erreichte eine "angemessene" Bewertung von 84,0 %, ChatGPT-3.5 erreichte 88,0 % und ChatGPT-4.0 erreichte 85,3 %. Obwohl die Ergebnisse im Allgemeinen positiv waren, deuteten sie auch auf einen leichten Leistungsabfall im Vergleich zum Englischen hin, was auf eine potenzielle Sprachverzerrung in diesen Modellen hindeutet.
Zeitliche Verbesserung und Selbstwahrnehmung
Über die anfängliche Genauigkeit hinaus untersuchten wir die Fähigkeit der LLMs, ihre Antworten im Laufe der Zeit zu verbessern, sowie ihre Selbstwahrnehmung der Korrektheit. Dies umfasste die Bewertung, wie die Modelle auf zunächst suboptimal bereitgestellte Antworten reagierten und ob sie Fehler erkennen und korrigieren konnten, wenn sie dazu aufgefordert wurden.
Verbesserte Antworten im Laufe der Zeit
Die Analyse ergab, dass LLMs eine zeitliche Verbesserung aufweisen. Bei zunächst suboptimalen Antworten verbesserten sich BARD und ChatGPT-3.5 um 67 % (6/9 bzw. 4/6), während ChatGPT-4.0 eine perfekte Verbesserungsrate von 100 % erzielte (2/2). Dies deutet darauf hin, dass LLMs aus Benutzerinteraktionen und Feedback lernen, was im Laufe der Zeit zu genaueren und zuverlässigeren Informationen führt.
Selbstwahrnehmung der Korrektheit
Wir untersuchten auch die Fähigkeit der LLMs, die Korrektheit ihrer Antworten zu erkennen. BARD und ChatGPT-4.0 übertrafen ChatGPT-3.5 in diesem Bereich und zeigten eine bessere Selbstwahrnehmung der Genauigkeit der von ihnen bereitgestellten Informationen. Diese Funktion ist besonders in medizinischen Kontexten wertvoll, in denen falsche Informationen schwerwiegende Folgen haben können.
ERNIEs Leistung in Chinesisch
Die Analyse chinesischer Eingabeaufforderungen ergab, dass sich ERNIE durch zeitliche Verbesserung und Selbstwahrnehmung der Korrektheit auszeichnete. Dies deutet darauf hin, dass ERNIE gut geeignet ist, chinesischsprachigen Benutzern, die eine Anleitung zur CVD-Prävention suchen, genaue und zuverlässige Informationen bereitzustellen.
Umfassende Bewertung von LLM-Chatbots
Um eine umfassende Bewertung zu gewährleisten, die gängige und beliebte LLM-Chatbots umfasst, umfasste diese Studie vier prominente Modelle: ChatGPT-3.5 und ChatGPT-4.0 von OpenAI, BARD von Google und ERNIE von Baidu. Die Bewertung englischer Eingabeaufforderungen umfasste ChatGPT 3.5, ChatGPT 4 und BARD; für chinesische Eingabeaufforderungen umfasste die Bewertung ChatGPT 3.5, ChatGPT 4 und ERNIE. Die Modelle wurden mit ihren Standardkonfigurationen und Temperatureinstellungen verwendet, ohne dass diese Parameter während der Analyse angepasst wurden.
Fragengenerierung und Chatbot-Antwortbewertung
Das American College of Cardiology und die American Heart Association bieten Richtlinien und Empfehlungen zur CVD-Prävention, die Informationen zu Risikofaktoren, diagnostischen Tests und Behandlungsoptionen sowie Patientenschulung und Selbstmanagementstrategien umfassen. Zwei erfahrene Kardiologen generierten Fragen zur CVD-Prävention und formulierten sie ähnlich wie Patienten, die sich bei Ärzten erkundigen würden, um Relevanz und Verständlichkeit aus Patientensicht sicherzustellen. Dieser patientenzentrierte und leitlinienbasierte Ansatz führte zu einem endgültigen Satz von 300 Fragen, die verschiedene Bereiche abdeckten. Diese Fragen wurden dann ins Chinesische übersetzt, wobei die angemessene Verwendung von konventionellen und internationalen Einheiten sichergestellt wurde.
Verblindung und zufällig geordnete Bewertung
Um sicherzustellen, dass die Bewerter nicht in der Lage waren, den Ursprung der Antwort zwischen verschiedenen LLM-Chatbots zu unterscheiden, wurden alle chatbot-spezifischen Funktionen manuell verdeckt. Die Bewertung wurde verblindet und zufällig geordnet durchgeführt, wobei Antworten von drei Chatbots innerhalb des Fragensatzes zufällig gemischt wurden. Die Antworten von drei Chatbots wurden zufällig drei Runden zugeordnet, in einem Verhältnis von 1:1:1, zur verblindeten Bewertung durch drei Kardiologen, mit einem Wash-out-Intervall von 48 Stunden zwischen den Runden, um Rezenzeffekte zu mildern.
Methodik zur Genauigkeitsbewertung
Das primäre Ergebnis war die Leistung bei der Beantwortung primärer Fragen zur CVD-Prävention. Insbesondere wurde ein zweistufiger Ansatz verwendet, um die Antworten zu bewerten. Im ersten Schritt überprüfte ein Kardiologen-Panel alle von LLM-Chatbots generierten Antworten und bewertete sie in Bezug auf Expertenkonsens und Richtlinien entweder als "angemessen", "grenzwertig" oder "unangemessen". Im zweiten Schritt wurde ein Mehrheitskonsensansatz verwendet, wobei die endgültige Bewertung für jede Chatbot-Antwort auf der häufigsten Bewertung unter den drei Bewertern basierte. In Szenarien, in denen kein Mehrheitskonsens unter den drei Bewertern erzielt werden konnte, wurde ein leitender Kardiologe konsultiert, um die Bewertung abzuschließen.
Analyse der wichtigsten Ergebnisse
Die Daten zeigten, dass LLM-Chatbots im Allgemeinen bei englischen Eingabeaufforderungen besser abschnitten als bei chinesischen. Insbesondere für englische Eingabeaufforderungen zeigten BARD, ChatGPT-3.5 und ChatGPT-4.0 ähnliche Summenwerte. Beim Vergleich der Anteile der "angemessenen" Bewertung hatte ChatGPT-4.0 einen deutlich höheren Prozentsatz im Vergleich zu ChatGPT-3.5 und Google Bard. Für chinesische Eingabeaufforderungen hatte ChatGPT3.5 einen höheren Summenwert, gefolgt von ChatGPT-4.0 und Ernie. Die Unterschiede waren jedoch nicht statistisch signifikant. In ähnlicher Weise hatte ChatGPT-3.5 einen höheren Anteil an "angemessener Bewertung" für chinesische Eingabeaufforderungen im Vergleich zu ChatGPT-4.0 und ERNIE, aber die Unterschiede waren nicht statistisch signifikant.
Leistung in verschiedenen CVD-Präventionsbereichen
Die Analyse konzentrierte sich auf "angemessene" Bewertungen in verschiedenen CVD-Präventionsbereichen. Bemerkenswerterweise schnitt ChatGPT-4.0 in den meisten Bereichen durchweg gut ab, mit besonders hohen Bewertungen in den Bereichen "Dyslipidämie", "Lebensstil", "Biomarker und Entzündung" sowie "DM und CKD". BARD zeigte jedoch eine suboptimale Leistung im Vergleich zu ChatGPT4.0 und ChatGPT-3.5, insbesondere im Bereich "Lebensstil". Die Ergebnisse zeigten, dass alle drei LLM-Chatbots im Bereich "Lebensstil" gut abschnitten, mit 100 % "angemessenen" Bewertungen (Ergänzungstabelle S6). Es wurden jedoch Unterschiede in der Leistung in anderen Bereichen beobachtet, wobei einige Modelle eine größere Wirksamkeit in bestimmten Präventionsbereichen zeigten.
Auswirkungen auf die Gesundheitskompetenz
Die Ergebnisse der Studie haben wichtige Auswirkungen auf die Bemühungen zur Verbesserung der kardiovaskulären Gesundheitskompetenz. Da sich Einzelpersonen zunehmend an Online-Ressourcen für medizinische Informationen wenden, haben LLMs das Potenzial, als wertvolle Werkzeuge zur Verbesserung des Verständnisses der CVD-Prävention zu dienen. Durch die Bereitstellung genauer und zugänglicher Informationen können LLMs Wissenslücken schließen und Einzelpersonen befähigen, fundierte Entscheidungen über ihre Gesundheit zu treffen.
Leistungsunterschiede
Die Studie zeigte auch signifikante Leistungsunterschiede von LLMs in verschiedenen Sprachen. Die Feststellung, dass LLMs im Allgemeinen bei englischen Eingabeaufforderungen besser abschnitten als bei chinesischen, unterstreicht das Potenzial für Sprachverzerrungen in diesen Modellen. Die Behebung dieses Problems ist entscheidend, um sicherzustellen, dass LLMs allen Einzelpersonen, unabhängig von ihrer Muttersprache, einen gleichberechtigten Zugang zu genauen medizinischen Informationen bieten.
Die Rolle sprachspezifischer Modelle
Die Analyse von ERNIEs Leistung in Chinesisch liefert wertvolle Einblicke in die Rolle sprachspezifischer LLMs. ERNIEs Stärken in der zeitlichen Verbesserung und der Selbstwahrnehmung der Korrektheit deuten darauf hin, dass Modelle, die auf bestimmte Sprachen zugeschnitten sind, sprachliche Nuancen und kulturelle Kontexte effektiv berücksichtigen können. Die Weiterentwicklung und Verfeinerung sprachspezifischer LLMs kann von entscheidender Bedeutung sein, um die Bereitstellung medizinischer Informationen für verschiedene Bevölkerungsgruppen zu optimieren.
Einschränkungen und zukünftige Richtungen
Obwohl diese Studie wertvolle Einblicke in die Fähigkeiten von LLMs bei der Beantwortung von Fragen zur CVD-Prävention bietet, ist es wichtig, bestimmte Einschränkungen anzuerkennen. Die verwendeten Fragen stellten einen kleinen Teil der Fragen im Bereich der CVD-Prävention dar. Die Verallgemeinerbarkeit der Ergebnisse unterliegt den Auswirkungen stochastischer Antworten. Darüber hinaus erfordert die rasche Entwicklung von LLMs eine kontinuierliche Forschung, um aktualisierte Iterationen und aufkommende Modelle zu berücksichtigen. Zukünftige Studien sollten den Umfang der Fragen erweitern, die Auswirkungen verschiedener Interaktionsmuster mit LLMs untersuchen und die ethischen Aspekte im Zusammenhang mit ihrer Verwendung in medizinischen Kontexten untersuchen.
Schlussfolgerung
Zusammenfassend unterstreichen diese Ergebnisse das Versprechen von LLMs als Werkzeuge zur Verbesserung des öffentlichen Verständnisses der kardiovaskulären Gesundheit, betonen aber auch die Notwendigkeit einer sorgfältigen Bewertung und kontinuierlichen Verfeinerung, um Genauigkeit, Fairness und verantwortungsvolle Verbreitung medizinischer Informationen zu gewährleisten. Der Weg nach vorn umfasst kontinuierliche vergleichende Bewertungen, die Beseitigung von Sprachverzerrungen und die Nutzung der Stärken sprachspezifischer Modelle, um einen gleichberechtigten Zugang zu genauen und zuverlässigen Anleitungen zur CVD-Prävention zu fördern.