Evaluatie van LLM-prestaties: Nauwkeurigheid en Consistentie
Ons belangrijkste doel was het beoordelen van de nauwkeurigheid van antwoorden die werden gegeven door toonaangevende LLM’s bij het beantwoorden van vragen over CVD-preventie. We hebben ons gericht op BARD (het taalmodel van Google), ChatGPT-3.5 en ChatGPT-4.0 (de modellen van OpenAI) en ERNIE (het model van Baidu). Een set van 75 zorgvuldig samengestelde CVD-preventievragen werd aan elke LLM gesteld, waarbij de antwoorden werden beoordeeld op hun geschiktheid (gecategoriseerd als geschikt, borderline of ongeschikt).
Engelse Taalprestaties
In de Engelse taal toonden de LLM’s opmerkelijke nauwkeurigheid. BARD behaalde een "geschikte" beoordeling van 88,0%, ChatGPT-3.5 scoorde 92,0% en ChatGPT-4.0 blonk uit met een beoordeling van 97,3%. Deze resultaten suggereren dat LLM’s waardevolle informatie kunnen verstrekken aan Engelssprekende gebruikers, die op zoek zijn naar begeleiding bij CVD-preventie.
Chinese Taalprestaties
De analyse strekte zich uit tot vragen in de Chinese taal, waarbij de prestaties van LLM’s varieerden. ERNIE behaalde een "geschikte" beoordeling van 84,0%, ChatGPT-3.5 scoorde 88,0% en ChatGPT-4.0 bereikte 85,3%. Hoewel de resultaten over het algemeen positief waren, wezen ze ook op een lichte daling in prestaties in vergelijking met het Engels, wat duidt op mogelijke taalvooroordelen in deze modellen.
Tijdelijke Verbetering en Zelfbewustzijn
Naast de initiële nauwkeurigheid onderzochten we het vermogen van de LLM’s om hun antwoorden in de loop van de tijd te verbeteren en hun zelfbewustzijn van correctheid. Dit omvatte het beoordelen hoe de modellen reageerden op suboptimale antwoorden, die aanvankelijk werden verstrekt en of ze fouten konden identificeren en corrigeren wanneer ze daartoe werden aangezet.
Verbeterde Reacties in de Loop van de Tijd
De analyse onthulde dat LLM’s tijdelijke verbetering vertonen. Wanneer ze werden geconfronteerd met initieel suboptimale antwoorden, verbeterden BARD en ChatGPT-3.5 met 67% (respectievelijk 6/9 en 4/6), terwijl ChatGPT-4.0 een perfecte verbeteringsscore van 100% behaalde (2/2). Dit suggereert dat LLM’s leren van gebruikersinteracties en feedback, wat in de loop van de tijd leidt tot nauwkeurigere en betrouwbaardere informatie.
Zelfbewustzijn van Correctheid
We onderzochten ook het vermogen van de LLM’s om de correctheid van hun antwoorden te herkennen. BARD en ChatGPT-4.0 presteerden op dit gebied beter dan ChatGPT-3.5 en toonden een beter zelfbewustzijn van de nauwkeurigheid van de informatie, die ze verstrekten. Deze functie is met name waardevol in medische contexten, waar onjuiste informatie ernstige gevolgen kan hebben.
ERNIE’s Prestaties in het Chinees
De analyse van Chinese prompts onthulde dat ERNIE uitblonk in tijdelijke verbetering en zelfbewustzijn van correctheid. Dit suggereert dat ERNIE goed geschikt is voor het verstrekken van nauwkeurige en betrouwbare informatie aan Chinees sprekende gebruikers, die op zoek zijn naar CVD-preventieadvies.
Uitgebreide Evaluatie van LLM-Chatbots
Om een uitgebreide evaluatie te garanderen, die populaire LLM-chatbots omvat, bevatte deze studie vier prominente modellen: ChatGPT-3.5 en ChatGPT-4.0 van OpenAI, BARD van Google en ERNIE van Baidu. De evaluatie van Engelse prompts omvatte ChatGPT 3.5, ChatGPT 4 en BARD; voor Chinese prompts omvatte de evaluatie ChatGPT 3.5, ChatGPT 4 en ERNIE. De modellen werden gebruikt met hun standaardconfiguraties en temperatuurinstellingen, zonder aanpassingen aan deze parameters tijdens de analyse.
Vraaggeneratie en Chatbot Response Evaluatie
Het American College of Cardiology en de American Heart Association verstrekken richtlijnen en aanbevelingen voor CVD-preventie, die informatie omvatten over risicofactoren, diagnostische tests en behandelingsopties, evenals patiënteneducatie en strategieën voor zelfmanagement. Twee ervaren cardiologen genereerden vragen met betrekking tot CVD-preventie en formuleerden ze op dezelfde manier als waarop patiënten vragen aan artsen zouden stellen, om relevantie en begrijpelijkheid vanuit het perspectief van een patiënt te waarborgen. Deze patiëntgerichte en op richtlijnen gebaseerde benadering leverde een uiteindelijke set van 300 vragen op, die verschillende domeinen omvatten. Deze vragen werden vervolgens vertaald in het Chinees, waarbij werd gezorgd voor het juiste gebruik van conventionele en internationale eenheden.
Blindeer- en Willekeurig Geordende Beoordeling
Om ervoor te zorgen dat de cijferaars niet in staat waren om de oorsprong van het antwoord te onderscheiden tussen verschillende LLM-chatbots, werden alle chatbot-specifieke functies handmatig verborgen. De evaluatie werd uitgevoerd op een blinde en willekeurig geordende manier, waarbij antwoorden van drie chatbots willekeurig werden geschud binnen de vragenreeks. De antwoorden van drie chatbots werden willekeurig toegewezen aan 3 rondes, in een verhouding van 1:1:1, voor blinde beoordeling door drie cardiologen, met een tussenpoos van 48 uur tussen de rondes om recency bias te minimaliseren.
Nauwkeurigheid Evaluatiemethodologie
De primaire uitkomst was de prestatie bij het beantwoorden van primaire CVD-preventievragen. In het bijzonder werd een tweestapsaanpak gebruikt om de reacties te evalueren. In de eerste stap beoordeelde een panel van cardiologen alle LLM Chatbot-gegenereerde reacties en beoordeelde ze deze als "geschikt", "borderline" of "ongeschikt", in relatie tot deskundige consensus en richtlijnen. In de tweede stap werd een aanpak op basis van meerderheidsconsensus gebruikt, waarbij de definitieve beoordeling voor elke chatbotreactie was gebaseerd op de meest voorkomende beoordeling van de drie beoordelaars. In scenario’s waarin geen meerderheidsconsensus kon worden bereikt tussen de drie beoordelaars, werd een senior cardioloog geraadpleegd om de beoordeling te voltooien.
Analyse van Belangrijkste Bevindingen
De gegevens onthulden dat LLM-chatbot over het algemeen beter presteerde met Engelse prompts dan met Chinese prompts. In het bijzonder vertoonden BARD, ChatGPT-3.5 en ChatGPT-4.0 voor Engelse prompts vergelijkbare totalsommen. Bij het vergelijken van de verhoudingen van de beoordeling "geschikt", had ChatGPT-4.0 een opvallend hoger percentage in vergelijking met ChatGPT-3.5 en Google Bard. Voor Chinese prompts had ChatGPT3.5 een hogere totalsom, gevolgd door ChatGPT-4.0 en Ernie. De verschillen waren echter niet statistisch significant. Evenzo had ChatGPT-3.5 een hoger percentage van de "geschikte beoordeling" voor Chinese prompts, in vergelijking met ChatGPT-4.0 en ERNIE, maar de verschillen waren niet statistisch significant.
Prestaties over CVD-Preventiedomeinen
De analyse was gericht op "geschikte" beoordelingen in verschillende CVD-preventiedomeinen. Opmerkelijk is dat ChatGPT-4.0 consequent goed presteerde in de meeste domeinen, met name hoge beoordelingen in de domeinen "dyslipidemie", "leefstijl", "biomarker en ontsteking" en "DM en CKD". BARD vertoonde echter suboptimale prestaties in vergelijking met ChatGPT4.0 en ChatGPT-3.5, met name in het domein "leefstijl". De bevindingen benadrukten dat alle drie de LLM-Chatbots goed presteerden in het domein "leefstijl", met 100% "geschikte" beoordelingen (Aanvullende tabel S6). Er werden echter variaties in de prestaties waargenomen over andere domeinen, waarbij sommige modellen een grotere werkzaamheid vertoonden in specifieke preventiedomeinen.
Implicaties voor Gezondheidsvaardigheden
De bevindingen van het onderzoek hebben belangrijke implicaties voor inspanningen om de cardiovasculaire gezondheidsvaardigheden te verbeteren. Naarmate individuen zich steeds meer wenden tot onlinebronnen voor medische informatie, hebben LLM’s het potentieel om te dienen als waardevolle hulpmiddelen om het begrip van CVD-preventie te verbeteren. Door nauwkeurige en toegankelijke informatie te verstrekken, kunnen LLM’s kenniskloven overbruggen en individuen in staat stellen om weloverwogen beslissingen te nemen over hun gezondheid.
Verschillen in Prestaties
Het onderzoek onthulde ook belangrijke verschillen in LLM-prestaties tussen verschillende talen. De bevinding dat LLM’s over het algemeen beter presteerden met Engelse prompts dan met Chinese prompts, benadrukt het potentieel voor taalvooroordelen in deze modellen. Het aanpakken van dit probleem is cruciaal om ervoor te zorgen dat LLM’s gelijke toegang bieden tot nauwkeurige medische informatie voor alle individuen, ongeacht hun moedertaal.
De Rol van Taal-Specifieke Modellen
De analyse van ERNIE’s prestaties in het Chinees biedt waardevolle inzichten in de rol van taalspecifieke LLM’s. ERNIE’s sterke punten in tijdelijke verbetering en zelfbewustzijn van correctheid suggereren dat modellen, die zijn afgestemd op specifieke talen, effectief de taalkundige nuances en culturele contexten kunnen aanpakken. Verdere ontwikkeling en verfijning van taalspecifieke LLM’s kunnen essentieel zijn om de levering van medische informatie aan verschillende populaties te optimaliseren.
Beperkingen en Toekomstige Richtingen
Hoewel deze studie waardevolle inzichten biedt in de mogelijkheden van LLM’s bij het beantwoorden van CVD-preventievragen, is het essentieel om bepaalde beperkingen te erkennen. De gebruikte vragen vertegenwoordigden een klein deel van de vragen in termen van CVD-preventie. De generaliseerbaarheid van bevindingen is onderhevig aan de impact van stochastische reacties. Bovendien vereist de snelle evolutie van LLM’s voortdurend onderzoek om geüpdatete iteraties en opkomende modellen te accommoderen. Toekomstige onderzoeken moeten de reikwijdte van vragen uitbreiden, de impact van verschillende interactiepatronen met LLM’s onderzoeken en de ethische overwegingen onderzoeken rond hun gebruik in medische contexten.
Conclusie
Deze bevindingen onderstrepen de belofte van LLM’s als hulpmiddelen om het publieke begrip van cardiovasculaire gezondheid te vergroten, terwijl ze ook de noodzaak benadrukken van een zorgvuldige evaluatie en voortdurende verfijning om nauwkeurigheid, eerlijkheid en verantwoorde verspreiding van medische informatie te waarborgen. De weg voorwaarts omvat continue vergelijkende evaluaties, het aanpakken van taalvooroordelen en het benutten van de sterke punten van taalspecifieke modellen om gelijke toegang tot nauwkeurige en betrouwbare CVD-preventiebegeleiding te bevorderen.