Оценка Языковых Моделей в Профилактике Сердца

Оценка Языковых Моделей в Профилактике Сердечно-Сосудистых Заболеваний: Сравнительный Анализ Производительности

Возникновение крупных языковых моделей (LLMs) открывает интригующие возможности для решения проблем, связанных с общественными запросами о профилактике сердечно-сосудистых заболеваний (ССЗ). Эти модели, обладающие способностью понимать и отвечать подобно человеку, все чаще используются в качестве источников медицинской информации. Однако остаются вопросы относительно надежности и точности предоставляемой ими информации, особенно на разных языках. Этот анализ углубляется в всестороннюю оценку нескольких известных LLMs, конкретно изучая их возможности при ответе на вопросы о профилактике ССЗ как на английском, так и на китайском языках.

Оценка Производительности LLM: Точность и Последовательность

Основная цель заключалась в оценке точности ответов, предоставляемых ведущими LLMs, при предъявлении вопросов, связанных с профилактикой ССЗ. Мы сосредоточились на BARD (языковая модель Google), ChatGPT-3.5 и ChatGPT-4.0 (модели OpenAI) и ERNIE (модель Baidu). Набору из 75 тщательно разработанных вопросов о профилактике ССЗ был задан каждой LLM, при этом ответы оценивались на основе их уместности (категоризированной как уместная, пограничная или неуместная).

Производительность на Английском Языке

На английском языке LLMs продемонстрировали заметную точность. BARD достиг «уместной» оценки в 88,0%, ChatGPT-3.5 набрал 92,0%, а ChatGPT-4.0 преуспел с оценкой 97,3%. Эти результаты показывают, что LLMs могут предоставлять ценную информацию англоязычным пользователям, ищущим руководство по профилактике ССЗ.

Производительность на Китайском Языке

Анализ был расширен до китайских языковых запросов, где производительность LLMs варьировалась. ERNIE достиг «уместного» рейтинга 84,0%, ChatGPT-3.5 набрал 88,0%, а ChatGPT-4.0 достиг 85,3%. Хотя результаты были в целом положительными, они также указали на небольшое снижение производительности по сравнению с английским, что указывает на потенциальное смещение в этих моделях по отношению к языкам.

Временное Улучшение и Самосознание

Помимо начальной точности, мы исследовали способность LLMs улучшать свои ответы с течением времени и их самосознание относительно правильности. Это включало оценку того, как модели реагировали на субоптимальные ответы, предоставленные изначально, и могли ли они идентифицировать и исправлять ошибки при появлении запроса.

Улучшенные Ответы с Течением Времени

Анализ показал, что LLMs демонстрируют временное улучшение. Когда были представлены первоначально субоптимальные ответы, BARD и ChatGPT-3.5 улучшились на 67% (6/9 и 4/6 соответственно), в то время как ChatGPT-4.0 достиг идеального 100% показателя улучшений (2/2). Это говорит о том, что LLMs учатся на взаимодействиях с пользователями и обратной связи, что приводит к более точной и надежной информации с течением времени.

Самосознание Правильности

Мы также изучили способность LLMs распознавать правильность своих ответов. BARD и ChatGPT-4.0 превзошли ChatGPT-3.5 в этой области, продемонстрировав лучшее самосознание точности предоставляемой ими информации. Эта функция особенно ценна в медицинском контексте, где неверная информация может иметь серьезные последствия.

Производительность ERNIE на Китайском Языке

Анализ китайских запросов показал, что ERNIE преуспел во временном улучшении и самосознании правильности. Это говорит о том, что ERNIE хорошо подходит для предоставления точной и надежной информации китайскоязычным пользователям, ищущим руководство по профилактике ССЗ.

Комплексная Оценка Чат-Ботов LLM

Чтобы обеспечить комплексную оценку, которая включает в себя общие и популярные LLM-чат-боты, это исследование включило четыре известные модели: ChatGPT-3.5 и ChatGPT-4.0 от OpenAI, BARD от Google и ERNIE от Baidu. Оценка английских запросов включала ChatGPT 3.5, ChatGPT 4 и BARD; для китайских запросов оценка включала ChatGPT 3.5, ChatGPT 4 и ERNIE. Модели использовались с их конфигурациями по умолчанию и настройками температуры, без корректировки этих параметров во время анализа.

Формирование Вопросов и Оценка Ответов Чат-Ботов

Американский колледж кардиологии и Американская кардиологическая ассоциация предоставляют руководства и рекомендации по профилактике ССЗ, включающие информацию о факторах риска, диагностических тестах и вариантах лечения, а также об образовании пациентов и стратегиях самостоятельного управления. Два опытных кардиолога составили вопросы, связанные с профилактикой ССЗ, сформулировав их аналогично тому, как пациенты обращаются к врачам, чтобы обеспечить релевантность и понятность с точки зрения пациента. Этот ориентированный на пациента и основанный на руководящих принципах подход привел к окончательному набору из 300 вопросов, охватывающих различные области. Затем эти вопросы были переведены на китайский язык, что обеспечило надлежащее использование общепринятых и международных единиц измерения.

Ослепление и Случайный Порядок Оценки

Чтобы гарантировать, что оценщики не смогут различить происхождение ответа среди различных LLM-чат-ботов, любые специфичные для чат-ботов функции были скрыты вручную. Оценка проводилась в слепой и случайно упорядоченной форме, при этом ответы от трех чат-ботов случайным образом перемешивались в наборе вопросов. Ответы от трех чат-ботов были случайным образом назначены на 3 раунда в соотношении 1:1:1 для слепой оценки тремя кардиологами с 48-часовым интервалом между раундами для смягчения эффекта недавности.

Методология Оценки Точности

Основным результатом была производительность при ответах на основные вопросы профилактики ССЗ. В частности, для оценки ответов использовался двухэтапный подход. На первом этапе группа кардиологов просмотрела все ответы, сгенерированные LLM-чат-ботом, и оценила их как «уместные», «пограничные» или «неуместные» по отношению к экспертному консенсусу и руководствам. На втором этапе использовался подход большинства консенсуса, в котором окончательный рейтинг для каждого ответа чат-бота основывался на наиболее распространенной оценке, выставленной среди трех оценщиков. В сценариях, когда консенсус большинства не мог быть достигнут среди трех оценщиков, для завершения рейтинга был проконсультирован старший кардиолог.

Анализ Ключевых Выводов

Данные показали, что LLM-чат-бот в целом работал лучше с английскими запросами, чем с китайскими. В частности, для английских подсказок BARD, ChatGPT-3.5 и ChatGPT-4.0 продемонстрировали одинаковые суммарные баллы. При сравнении пропорций «уместного» рейтинга, ChatGPT-4.0 имел заметно более высокий процент по сравнению с ChatGPT-3.5 и Google Bard. Для китайских подсказок ChatGPT3.5 имел более высокий суммарный балл, затем ChatGPT-4.0 и Ernie. Однако различия не были статистически значимыми. Аналогичным образом, ChatGPT-3.5 имел более высокую долю «уместной оценки» для китайских подсказок по сравнению с ChatGPT-4.0 и ERNIE, но различия не были статистически значимыми.

Производительность в Различных Областях Профилактики ССЗ

Анализ был сосредоточен на «уместных» рейтингах в различных областях профилактики ССЗ. Примечательно, что ChatGPT-4.0 последовательно хорошо работал в большинстве областей, с особенно высокими рейтингами в областях «дислипидемия», «образ жизни», «биомаркер и воспаление» и «DM и CKD». Однако BARD показал субоптимальную производительность по сравнению с ChatGPT4.0 и ChatGPT-3.5, особенно в области «образ жизни». Результаты показали, что все три LLM-чат-бота хорошо работали в области «образ жизни» со 100% «уместными» рейтингами (Дополнительная таблица S6). Однако различия в производительности наблюдались в других областях, при этом некоторые модели показывали большую эффективность в конкретных областях профилактики.

Последствия для Медицинской Грамотности

Результаты исследования имеют важные последствия для усилий по повышению медицинской грамотности в отношении сердечно-сосудистых заболеваний. Поскольку люди все чаще обращаются к онлайн-ресурсам за медицинской информацией, LLMs могут служить ценными инструментами для улучшения понимания профилактики ССЗ. Предоставляя точную и доступную информацию, LLMs могут преодолеть пробелы в знаниях и дать людям возможность принимать обоснованные решения о своем здоровье.

Различия в Производительности

Исследование также выявило значительные различия в производительности LLM на разных языках. Тот факт, что LLMs в целом работали лучше с английскими подсказками, чем с китайскими подсказками, подчеркивает возможность языкового смещения в этих моделях. Решение этой проблемы имеет решающее значение для обеспечения того, чтобы LLMs предоставляли равноправный доступ к точной медицинской информации для всех людей, независимо от их родного языка.

Роль Языково-Специфичных Моделей

Анализ производительности ERNIE на китайском языке предоставляет ценную информацию о роли языково-специфичных LLMs. Сильные стороны ERNIE во временном улучшении и самосознании правильности предполагают, что модели, адаптированные для конкретных языков, могут эффективно решать лингвистические нюансы и культурные контексты. Дальнейшее развитие и усовершенствование языково-специфичных LLMs может иметь важное значение для оптимизации предоставления медицинской информации различным группам населения.

Ограничения и Будущие Направления

Хотя это исследование предоставляет ценную информацию о возможностях LLMs при ответе на вопросы о профилактике ССЗ, важно признать определенные ограничения. Использованные вопросы представляли собой небольшую часть вопросов с точки зрения профилактики ССЗ. Обобщаемость результатов зависит от влияния стохастических ответов. Кроме того, быстрое развитие LLMs требует постоянных исследований для адаптации к обновленным итерациям и возникающим моделям. Будущие исследования должны расширить объем вопросов, изучить влияние различных моделей взаимодействия с LLMs и исследовать этические соображения, связанные с их использованием в медицинском контексте.

Заключение

В заключение, эти результаты подчеркивают перспективу LLMs в качестве инструментов для улучшения общественного понимания здоровья сердечно-сосудистой системы, а также подчеркивают необходимость тщательной оценки и постоянного совершенствования для обеспечения точности, справедливости и ответственного распространения медицинской информации. Путь вперед включает в себя постоянные сравнительные оценки, устранение языковых смещений и использование сильных сторон языково-специфичных моделей для содействия равноправному доступу к точным и надежным рекомендациям по профилактике ССЗ.