Анализ на езикови модели за CVD превенция

Оценка на ефективността на езиковите модели: Точност и последователност

Основната ни цел беше да оценим точността на отговорите, предоставени от водещи езикови модели (LLMs), когато им бяха зададени въпроси, свързани с превенцията на сърдечно-съдови заболявания (CVD). Съсредоточихме се върху BARD (езиковият модел на Google), ChatGPT-3.5 и ChatGPT-4.0 (моделите на OpenAI) и ERNIE (моделът на Baidu). Бяха зададени общо 75 щателно разработени въпроса за превенция на CVD на всеки LLM, като отговорите бяха оценени въз основа на тяхната уместност (категоризирани като подходящи, гранични или неподходящи).

Ефективност на английски език

На английски език, LLMs демонстрираха забележителна точност. BARD постигна рейтинг на „подходящ“ от 88.0%, ChatGPT-3.5 постигна 92.0%, а ChatGPT-4.0 се отличи с рейтинг 97.3%. Тези резултати показват, че LLMs могат да предоставят ценна информация на англоговорящите потребители, търсещи насоки за превенция на CVD.

Ефективност на китайски език

Анализът се разшири и до заявки на китайски език, където ефективността на LLMs варираше. ERNIE постигна рейтинг „подходящ“ от 84.0%, ChatGPT-3.5 постигна 88.0%, а ChatGPT-4.0 достигна 85.3%. Въпреки че резултатите бяха като цяло положителни, те също така показаха лек спад в ефективността в сравнение с английския, което предполага потенциална езикова пристрастност в тези модели.

Временно подобрение и самосъзнание

Освен първоначалната точност, ние изследвахме способността на LLMs да подобряват отговорите си с течение на времето и самосъзнанието им за правилност. Това включваше оценка на това как моделите реагират на неоптимални отговори, предоставени първоначално, и дали могат да идентифицират и коригират грешки, когато бъдат подканени.

Подобрени отговори с течение на времето

Анализът показа, че LLMs проявяват временно подобрение. Когато бяха представени първоначално неоптимални отговори, BARD и ChatGPT-3.5 се подобриха с 67% (съответно 6/9 и 4/6), докато ChatGPT-4.0 постигна перфектен 100% процент на подобрение (2/2). Това предполага, че LLMs се учат от потребителските взаимодействия и обратна връзка, което води до по-точна и надеждна информация с течение на времето.

Самосъзнание за правилност

Също така изследвахме способността на LLMs да разпознават правилността на отговорите си. BARD и ChatGPT-4.0 превъзхождат ChatGPT-3.5 в тази област, показвайки по-добро самосъзнание за точността на информацията, която предоставят. Тази функция е особено ценна в медицински контекст, където неверните данни могат да имат сериозни последици.

Ефективността на ERNIE на китайски език

Анализът на китайските подкани разкри, че ERNIE се отличава с временно подобрение и самосъзнание за правилност. Това предполага, че ERNIE е много подходящ за предоставяне на точна и надеждна информация на китайскоговорящите потребители, търсещи насоки за превенция на CVD.

Цялостна оценка на LLM Chatbots

Това проучване включва четири видни модела, за да се осигури цялостна оценка, която включва общи и известни LLM-чатботове: ChatGPT-3.5 и ChatGPT-4.0 от OpenAI, BARD от Google и ERNIE от Baidu. Оценката на английските подкани включваше ChatGPT 3.5, ChatGPT 4 и BARD; за китайските подкани оценката включваше ChatGPT 3.5, ChatGPT 4 и ERNIE. Моделите бяха използвани с техните конфигурации по подразбиране и температурни настройки, без промени в тези параметри по време на анализа.

Генериране на въпроси и оценка на отговорите на Chatbot

Американският колеж по кардиология и Американската сърдечна асоциация предоставят насоки и препоръки за превенция на CVD, обхващащи информация за рисковите фактори, диагностичните тестове и възможностите за лечение, както и образование на пациентите и стратегии за самоконтрол. Двама опитни кардиолози генерираха въпроси, свързани с превенцията на CVD, рамкирайки ги подобно на това как пациентите биха се консултирали с лекарите, за да осигурят уместност и разбираемост от гледна точка на пациента. Този ориентиран към пациента и базиран на насоки подход даде окончателен набор от 300 въпроса, обхващащи различни области. След това тези въпроси бяха преведени на китайски, осигурявайки подходящо използване на конвенционални и международни единици.

Заслепяване и произволно подредено оценяване

За да се гарантира, че оценителите не могат да различат произхода на отговора сред различните LLM Chatbots, всички специфични за чатбота функции бяха скрити ръчно. Оценката беше проведена по заслепен и произволно подреден начин, като отговорите от три чатбота бяха произволно разбъркани в рамките на набора от въпроси. Отговорите от три чатбота бяха произволно зададени на 3 кръга, в съотношение 1:1:1, за заслепена оценка от трима кардиолози, с 48-часов период на изчакване между кръговете за намаляване на последиците от пристрастието на скорошността.

Методология за оценка на точността

Основният резултат беше представянето при отговор на основни въпроси за превенция на CVD. По-конкретно, беше използван подход от две стъпки за оценка на отговорите. В първата стъпка панел от кардиолози прегледа всички отговори, генерирани от LLM Chatbot, и ги оценява или като „подходящи”, „гранични” или „неподходящи”, във връзка с експертния консенсус и насоки. Във втората стъпка беше използван подход на консенсус на мнозинството, при който окончателната оценка за всеки отговор на чатбот се основаваше на най-често срещаната оценка, оценена сред трите оценители. В сценарии, в които не може да бъде постигнат консенсус на мнозинството сред трите оценители, беше извършена консултация със старши кардиолог за финализиране на оценката.

Анализ на основните констатации

Данните разкриха, че LLM-чатбот се представя обикновено по-добре с английски подкани, отколкото с китайски подкани. По-конкретно, за английски подкани BARD, ChatGPT-3.5 и ChatGPT-4.0 демонстрираха сходни общи резултати. Когато се сравняват пропорциите на рейтинга „подходящ””, ChatGPT-4.0 има забележимо по-висок процент в сравнение с ChatGPT-3.5 и Google Bard. За китайски подкани ChatGPT3.5 имаше по-висок общ резултат, следван от ChatGPT-4.0 и Ernie. Въпреки това разликите не бяха статистически значими. По същия начин, ChatGPT-3.5 имаше по-висок дял на рейтинга „подходящ”” за китайски подкани, в сравнение с ChatGPT-4.0 и ERNIE, но разликите не бяха статистически значими.

Ефективност в различните области на превенция на CVD

Анализът се фокусира върху „подходяща” оценка в различните области на превенция на CVD. Забележително е, че ChatGPT-4.0 постоянно се представяше добре в повечето области, с особено високи оценки в областите „дислипидемия”, „начин на живот”, „биомаркер и възпаление” и „DM и CKD”. Въпреки това, BARD показа неоптимална ефективност в сравнение с ChatGPT4.0 и ChatGPT-3.5, особено в областта „начин на живот”. Констатациите подчертаха, че всичките три LLM-Chatbots се представиха добре в областта „начин на живот”, със 100% „подходящи” оценки (Допълнителна таблица S6). Въпреки това, вариации в ефективността бяха наблюдавани в други области, като някои модели показват по-голяма ефикасност в специфични области на превенция.

Последици за здравната грамотност

Констатациите на проучването имат важни последици за усилията за подобряване на здравната грамотност по отношение на сърдечно-съдовите заболявания. Тъй като хората все повече се обръщат към онлайн ресурси за медицинска информация, LLMs имат потенциала да служат като ценни инструменти за подобряване на разбирането на превенцията на CVD. Чрез предоставяне на точна и достъпна информация, LLMs могат да преодолеят пропуските в знанията и да дадат възможност на хората да вземат информирани решения относно здравето си.

Различия в изпълнението

Проучването също така разкри значителни различия в ефективността на LLM при различните езици. Откритието, че LLMs обикновено се представят по-добре с английски подкани, отколкото с китайски подкани, подчертава потенциала за езикова пристрастност в тези модели. Справянето с този проблем е от решаващо значение, за да се гарантира, че LLMs предоставят справедлив достъп до точна медицинска информация за всички хора, независимо от техния роден език.

Ролята на специфичните за езика модели

Анализът на ефективността на ERNIE на китайски език предоставя ценна представа за ролята на специфичните за езика LLMs. Силните страни на ERNIE в временното подобрение и самосъзнанието за правилност предполагат, че моделите, адаптирани за конкретни езици, могат ефективно да се справят с езиковите нюанси и културните контексти. По-нататъшното развитие и усъвършенстване на специфичните за езика LLMs може да бъде от съществено значение за оптимизиране на предоставянето на медицинска информация на различни популации.

Ограничения и бъдещи насоки

Въпреки че това проучване предоставя ценна информация за възможностите на LLMs в отговор на заявки за превенция на CVD, от съществено значение е да се признаят някои ограничения. Използваните въпроси представляваха малка част от въпросите по отношение на превенцията на CVD. Обобщаемостта на констатациите е обект на въздействието на стохастичните отговори. Освен това бързата еволюция на LLMs изисква текущи изследвания, за да се приспособят актуализирани итерации и нововъзникващи модели. Бъдещите проучвания трябва да разширят обхвата на въпросите, да проучат въздействието на различните модели на взаимодействие с LLMs и да проучат етичните съображения, свързани с тяхното използване в медицински контексти.

Заключение

В заключение, тези констатации подчертават обещанието на LLMs като инструменти за подобряване на общественото разбиране на сърдечно-съдовото здраве, като същевременно подчертават необходимостта от внимателна оценка и текущо усъвършенстване, за да се гарантира точност, справедливост и отговорно разпространение на медицинска информация. Пътят напред включва непрекъснати сравнителни оценки, справяне с езиковите пристрастия и използване на силните страни на специфичните за езика модели за насърчаване на справедлив достъп до точни и надеждни насоки за превенция на CVD.