ИИ в мед. обр.: Оценка ЯМ в TUS

Введение

В последние годы достижения в области искусственного интеллекта (ИИ) и технологий, таких как большие языковые модели (LLM), привели к потенциальным преобразованиям в медицинском образовании и методах оценки знаний. В частности, эти разработки могут сделать медицинскую информацию более доступной и оценки более интерактивными.

Предыдущие исследования изучали производительность LLM в различных медицинских лицензионных экзаменах, таких как экзамен на получение лицензии врача в США (USMLE) и экзамен на получение лицензии врача в Японии (JMLE), но эти экзамены существенно отличаются от TUS по структуре и содержанию. TUS фокусируется на фундаментальных и клинических науках, уделяя особое внимание турецкому медицинскому контексту, что предоставляет уникальную возможность оценить возможности LLM в уникальной среде оценки. Это исследование направлено на то, чтобы заполнить этот пробел, оценив производительность четырех ведущих LLM в TUS. Кроме того, в этом исследовании изучается потенциальное влияние этих результатов на разработку учебных программ, медицинскую подготовку с помощью ИИ и будущее медицинской оценки в Турции. В частности, мы изучаем, как производительность LLM может информировать разработку более эффективных образовательных ресурсов и стратегий оценки, адаптированных к турецкому медицинскому учебному плану. Это исследование не только способствует пониманию производительности конкретного языка, но и способствует более широкому обсуждению того, как эффективно интегрировать ИИ в глобальное медицинское образование и оценку.

Результаты этих исследований показывают, что ChatGPT и аналогичные LLM могут играть значительную роль в медицинском образовании и процессе оценки знаний. Искусственный интеллект и LLM в методах поиска и оценки медицинской информации могут позволить разработку инновационных подходов и методов обучения, особенно в медицинском образовании. Это исследование направлено на дальнейшее изучение влияния LLM на медицинское образование и оценку знаний путем оценки производительности ChatGPT 4, Gemini 1.5 Pro и Cohere-Command R+ на вступительном экзамене в Турции для специализированного обучения в медицине.

Это исследование изучает применение передовых моделей искусственного интеллекта (ИИ), особенно ChatGPT 4, Gemini 1.5 Pro, Command R+ и Llama 3 70B, в медицинском образовании и оценке, уделяя особое внимание их производительности при решении экзаменационных вопросов по медицине. В исследовании оценивается способность этих моделей проводить всесторонний и систематический анализ вопросов вступительного экзамена для специализированного обучения в медицине в Турции, подчеркивая потенциал ИИ в медицине при рассмотрении таких факторов, как возможности интерпретации и точность. Результаты показывают, что модели ИИ могут значительно способствовать процессу медицинского образования и оценки, открывая пути для новых приложений и областей исследований. Основная цель этой статьи - оценить быстрое развитие технологий ИИ и сравнить возможности ответа различных моделей ИИ. В исследовании проводится сравнительный анализ ChatGPT 4, Gemini 1.5 Pro, Command R+ и Llama 3 70B, оценивая их производительность в 240 вопросах первого семестра вступительного экзамена в Турции для специализированного обучения в медицине 2021 года.

Это сравнение направлено на то, чтобы прояснить траекторию и различия технологий ИИ, уделяя особое внимание их полезности в специализированных областях, таких как медицинское образование и подготовка к экзаменам. Конечная цель состоит в том, чтобы предоставить понимание, помогающее пользователям выбирать наиболее подходящие инструменты обучения для их конкретных потребностей.

Методы

Вопросы задавались LLM на турецком языке. Вопросы были получены с официального веб-сайта Центра отбора и размещения студентов в виде вопросов с множественным выбором (с пятью вариантами от A до E) с одним лучшим ответом. Ответы были предоставлены LLM на турецком языке.

Процесс оценки был основан на правильных ответах, опубликованных Центром отбора и размещения студентов. В статье упоминается: ‘Правильный’ ответ на вопросы моделей искусственного интеллекта определялся на основе ответов, опубликованных Центром отбора и размещения студентов. Правильным считался только тот ответ, который был определен как правильный в соответствии с инструкциями в тексте вопроса. Поскольку вопросы и ответы были на турецком языке, процесс оценки включал сравнение ответов LLM на турецком языке с официальным ключом ответов на турецком языке, предоставленным Центром отбора и размещения студентов.

Набор данных для медицинского образования

В этом исследовании ChatGPT 4, Gemini 1.5 Pro, Command R+ и Llama 3 70B использовались для проверки возможностей моделей искусственного интеллекта в оценке медицинских знаний и случаев. Исследование было проведено по вопросам вступительного экзамена для специализированного обучения в медицине в Турции, состоявшегося 21 марта 2021 года. Вступительный экзамен для специализированного обучения в медицине в Турции - это экзамен, организованный Центром отбора и размещения студентов и включающий 240 вопросов. Вопросы по базовым знаниям в первой категории проверяют знания и этику, необходимые для завершения медицинского образования. Вторая категория - это вопросы по случаям, охватывающие многие заболевания, измеряющие аналитическое мышление и способность к рассуждению.

Классификация сложности вопросов

Уровни сложности вопросов были классифицированы на основе официальных данных об успеваемости кандидатов, опубликованных Центром отбора и размещения студентов. В частности, процент правильных ответов на каждый вопрос, о котором сообщает Центр, использовался для классификации вопросов по пяти уровням сложности:

  • Уровень 1 (самый простой): вопросы с процентом правильных ответов 80% или выше.
  • Уровень 2: вопросы с процентом правильных ответов от 60% до 79,9%.
  • Уровень 3 (средний): вопросы с процентом правильных ответов от 40% до 59,9%.
  • Уровень 4: вопросы с процентом правильных ответов от 20% до 39,9%.
  • Уровень 5 (самый сложный): вопросы с процентом правильных ответов 19,9% или ниже.

‘Правильный’ ответ на вопросы моделей искусственного интеллекта определялся на основе ответов, опубликованных Центром отбора и размещения студентов. Правильным считался только тот ответ, который был определен как правильный в соответствии с инструкциями в тексте вопроса. Кроме того, уровень сложности каждого вопроса был классифицирован по уровням от 1 до 5 на основе процента правильных ответов, опубликованного Центром отбора и размещения студентов. Вопросы с процентом правильных ответов 80% и выше считались самыми простыми (уровень 1), а вопросы с процентом правильных ответов 19,9% и ниже считались самыми сложными (уровень 5).

Области знаний и случаев

Вступительный экзамен для специализированного обучения в медицине в Турции, являющийся важным шагом для выпускников медицинских вузов Турции, стремящихся к специализации, оценивает знания и области случаев кандидатов в двух ключевых областях. Понимание различий между этими областями имеет решающее значение для адекватной подготовки. Область знаний фокусируется на оценке теоретического понимания и фактических знаний кандидатов в выбранной ими области медицины. Она проверяет знание основных понятий и принципов и устанавливает медицинскую информацию, относящуюся к специальности. Она представляет собой конкретную область медицинских знаний, которые проверяются, например, фундаментальные медицинские науки (анатомия, биохимия, физиология и т. д.) и клинические науки (внутренние болезни, хирургия, педиатрия и т. д.) Область случаев, с другой стороны, представляет собой реальные сценарии или ситуации применения знаний, такие как решение проблем, аналитическое мышление, критическое мышление, принятие решений и применение концепций к реальным ситуациям.

Инженерия подсказок

Инженерия подсказок - это проектирование и точная настройка подсказок на естественном языке для получения определенных ответов от языковой модели или системы ИИ. В апреле 2024 года мы собрали ответы, напрямую запросив языковые модели через их соответствующие веб-интерфейсы.

Для обеспечения справедливой оценки сырых возможностей каждой модели был реализован строгий метод контроля в способе представления вопросов LLM. Каждый вопрос был введен отдельно, и сеанс был сброшен перед представлением нового вопроса, чтобы предотвратить обучение или адаптацию моделей на основе предыдущих взаимодействий.

Анализ данных

Все анализы проводились с использованием программного обеспечения Microsoft Office Excel и Python. Для сравнения производительности LLM при различной сложности вопросов был проведен непарный хи-квадрат тест. Пороговое значение p со значением p < 0,05 использовалось для определения статистической значимости. Анализ оценивал, варьируется ли точность модели в зависимости от уровня сложности вопроса.

Этические соображения

В этом исследовании использовалась только информация, опубликованная в Интернете, и не участвовали люди. Поэтому одобрение этического комитета Университета Башкент не требуется.

Результаты

Среднее количество правильных ответов у кандидатов, сдававших экзамен по базовым медицинским наукам в первой сессии вступительного экзамена для специализированного обучения в медицине в Турции в 2021 году, составило 51,63. Среднее количество правильных ответов на экзамене по клиническим медицинским наукам составило 63,95. Среднее количество правильных ответов на экзамене по клиническим медицинским наукам было выше, чем на экзамене по базовым медицинским наукам. Параллельно с этой ситуацией технология искусственного интеллекта также более успешно отвечала на экзамен по клиническим медицинским наукам.

Производительность ИИ

Производительность платформ ИИ оценивалась с использованием тех же показателей, что и у кандидатов-людей.

  • ChatGPT 4:

    ChatGPT 4 набрал в среднем 103 правильных ответа в разделе базовых медицинских наук и 110 правильных ответов в разделе клинических медицинских наук. Это представляет собой общую точность 88,75%, что значительно лучше, чем средние показатели кандидатов-людей в обоих разделах (p < 0,001).

  • Llama 3 70B:

    Llama 3 70B набрал в среднем 95 правильных ответов в разделе базовых медицинских наук и 95 правильных ответов в разделе клинических медицинских наук. Это представляет собой общую точность 79,17%, что также значительно выше, чем средние показатели людей (p < 0,01).

  • Gemini 1.5 Pro:

    Gemini 1.5 Pro набрал в среднем 94 правильных ответа в разделе базовых медицинских наук и 93 правильных ответа в разделе клинических медицинских наук. Это представляет собой общую точность 78,13%, что значительно выше, чем средние показатели людей (p < 0,01).

  • Command R+:

    Command R+ набрал в среднем 60 правильных ответов в разделе базовых медицинских наук и 60 правильных ответов в разделе клинических медицинских наук. Это представляет собой общую точность 50%, что статистически не отличается от средней производительности человека в разделе базовых медицинских наук (p = 0,12), но значительно ниже в разделе клинических медицинских наук (p < 0,05).

Производительность платформ ИИ оценивалась с использованием тех же показателей, что и у кандидатов-людей.

На рисунке 3 сравнивается точность различных LLM в зависимости от сложности вопроса - ChatGPT 4: модель с наилучшей производительностью. Точность увеличивается с увеличением сложности вопроса, даже при самых сложных вопросах она приближается к 70% - Llama 3 70B: модель со средней производительностью. Точность сначала увеличивается, а затем уменьшается с увеличением сложности вопроса. Ее точность составляет около 25% при самых сложных вопросах. Gemini 1.5 70B: ее производительность аналогична Llama 3 70B. Точность сначала увеличивается, а затем уменьшается с увеличением сложности вопроса. Ее точность составляет около 20% при самых сложных вопросах. Command R+: модель с наименьшей производительностью. Ее точность уменьшается с увеличением сложности вопроса и остается на уровне около 15% при самых сложных вопросах.

В целом, ChatGPT 4 - это модель, наименее подверженная влиянию сложности вопросов, и имеет самую высокую общую точность. Llama 3 70B и Gemini 1.5 Pro показали среднюю производительность, а Command R+ имеет более низкий уровень успеха, чем другие модели. Точность моделей снижается с увеличением сложности вопросов. Это указывает на то, что LLM все еще нуждаются в улучшении в понимании и правильном ответе на сложные вопросы

В таблице 1 модель ChatGPT 4 выделяется как модель с наилучшей производительностью с уровнем успеха 88,75%. Это указывает на ее надежную способность понимать и точно отвечать на вопросы. Модель Llama 3 70B занимает второе место с уровнем успеха 79,17%. Хотя она отстает от модели ChatGPT 4, она по-прежнему демонстрирует высокий уровень владения ответами на вопросы. Модель Gemini 1.5 Pro следует за ней с успехом 78,13%. Ее производительность сопоставима с моделью Llama 3 70B, что указывает на ее сильные возможности ответа на вопросы. С другой стороны, модель Command R+ отстает от других моделей с успехом 50%. Это указывает на то, что у нее могут быть трудности с определенными вопросами или ей требуется дальнейшая точная настройка для повышения производительности. Распределение правильных ответов по различным уровням сложности. Например, все модели хорошо работали с простыми вопросами (уровень сложности 1), при этом модель ChatGPT 4 показала идеальный результат. С вопросами средней сложности (уровни 2 и 3) модели ChatGPT 4 и Llama 3 70B продолжали показывать хорошие результаты.

Напротив, модель Gemini 1.5 Pro начала проявлять некоторые слабости. С трудными вопросами (уровни 4 и 5) производительность всех моделей снизилась, при этом модель Command R+ испытывала наибольшие трудности. В целом, эти результаты дают ценную информацию о сильных и слабых сторонах каждой модели ИИ и могут информировать будущие усилия по разработке и улучшению

В таблице 3 биохимия в базовых медицинских науках получила идеальный результат от ChatGPT 4, что свидетельствует о ее выдающейся способности отвечать на вопросы в этой области. Llama 3 70B и Gemini 1.5 Pro также показали хорошие результаты, но Command R+ показал плохой результат с точностью 50%. Модели с наилучшей производительностью в фармакологии, патологии и микробиологии (ChatGPT 4 и Llama 3 70B) показали сильную согласованность информации, с точностью от 81% до 90%. Gemini 1.5 Pro и Command R+ отстают, но все же показывают хорошие результаты. Анатомия и физиология создали некоторые проблемы для моделей. ChatGPT 4 и Meta AI-Llama 3 70B показали хорошие результаты, в то время как Gemini 1.5 Pro и Command R+ показали плохие результаты с точностью ниже 70%.

Педиатрия в клинических медицинских науках была важна для всех моделей, при этом ChatGPT 4 получил почти идеальный результат (90%). Llama 3 70B следовал за ней близко, и даже Command R+ достиг точности 43%. Производительность во внутренней медицине и общей хирургии превзошла лучшие модели, с точностью от 79% до 90%. Gemini 1.5 Pro и Command R+ отстают, но все же показывают хорошие результаты. Меньшее количество вопросов было представлено по таким специальностям, как анестезия и реанимация, неотложная медицинская помощь, неврология и дерматология, но модели в целом показали хорошие результаты. ChatGPT 4 и Llama 3 70B продемонстрировали выдающуюся точность в этих областях

Что касается сравнения моделей, ChatGPT 4 является моделью с наилучшей производительностью в большинстве областей, с общей точностью 88,75%. Ее преимущество заключается в ее способности точно отвечать на вопросы как по базовым, так и по клиническим медицинским наукам. Llama 3 70B следует за ней близко, с общей точностью 79,17%. Хотя она не может полностью сравниться с производительностью ChatGPT 4, она по-прежнему демонстрирует сильную согласованность знаний в различных областях. Gemini 1.5 Pro и Command R+ отстают, с общей точностью 78,13% и 50% соответственно. Хотя они демонстрируют перспективные результаты в определенных областях, им трудно поддерживать согласованность во всех областях

Короче говоря, ChatGPT 4 в настоящее время является наиболее подходящей моделью для ответа на вопросы медицинских наук в различных областях. Gemini 1.5 Pro и Command R+ демонстрируют потенциал, но им требуются значительные улучшения, чтобы конкурировать с моделями с наилучшей производительностью

В таблице 4, что касается области знаний, ChatGPT 4 показал точность 86,7% (85/98) в области базовых медицинских наук, превзойдя другие модели. ChatGPT 4 снова показал лучшие результаты, с точностью 89,7% (61/68) в области клинических медицинских наук. Что касается области случаев, ChatGPT 4 показал точность 81,8% (18/22) в области базовых медицинских наук. В области клинических медицинских наук ChatGPT 4 показал аналогичную производительность, с точностью 94,2% (49/52)

Парные сравнения моделей показывают, что ChatGPT 4 значительно превзошел другие модели в обеих областях и типах вопросов. Llama 3 70B и Gemini 1.5 Pro показали аналогичные результаты, в то время как Command R+ отставал. На основе этого анализа мы можем сделать вывод, что ChatGPT 4 демонстрирует выдающуюся производительность как в области знаний, так и в области случаев, а также в области базовых и клинических медицинских наук.

Статистический анализ

Производительность LLM анализировалась с использованием Microsoft Office Excel и Python (версия 3.10.2). Для сравнения производительности моделей на различных уровнях сложности вопросов был проведен непарный хи-квадрат тест. Для каждого ИИ модели была построена таблица сопряженности правильных и неправильных ответов по уровням сложности, и был применен хи-квадрат тест для определения того, существуют ли статистически значимые различия в производительности на разных уровнях сложности. Пороговое значение p со значением <0,05 использовалось для определения статистической значимости. Значение p для ChatGPT 4 составляет 0,00028 и является значимым при p < 0,05, что указывает на значительные различия в производительности на разных уровнях сложности. Значение p для Gemini 1.5 Pro составляет 0,047 и является значимым при p < 0,05, что указывает на значительные различия в производительности на разных уровнях сложности. Значение p для Command R+ составляет 0,197 и не является значимым при p < 0,05, что указывает на отсутствие значительных различий в производительности на разных уровнях сложности. Значение p для Llama 3 70B: 0,118, p-значение: 0,118 и не является значимым при p < 0,05, что указывает на отсутствие значительных различий в производительности на разных уровнях сложности.

Правильность ChatGPT 4 и Gemini 1.5 Pro на разных уровнях сложности вопросов показывает статистически значимые различия, что указывает на то, что их производительность значительно варьируется в зависимости от сложности вопроса. Command R+ и Llama 3 70B не показали значительных различий в производительности по уровням сложности, что указывает на более согласованную производительность независимо от сложности вопроса. Эти результаты могут указывать на то, что различные модели имеют разные сильные и слабые стороны в обработке сложностей и тем, связанных с различными сложностями.

Обсуждение

TUS - это важный национальный экзамен для выпускников медицинских вузов Турции, стремящихся к специализированной подготовке. Экзамен включает вопросы с множественным выбором, охватывающие базовые и клинические науки, и имеет централизованную систему ранжирования, определяющую рейтинг специализированных программ

При оценке производительности больших языковых моделей в TUS, GPT-4 является моделью с наилучшей производительностью. Аналогичным образом, ChatGPT является мощной моделью ИИ, демонстрирующей производительность на уровне человека или выше в области хирургии, правильно отвечая на 71% и 68% вопросов с множественным выбором SCORE и Data-B соответственно. Кроме того, ChatGPT превзошел результаты в экзаменах по общественному здравоохранению, превысив текущие показатели прохождения и предоставив уникальные идеи. Эти результаты подчеркивают выдающуюся производительность GPT-4 и ChatGPT в медицинских оценках, демонстрируя их потенциал для улучшения медицинского образования и потенциальных диагностических средств.

Для медицинских преподавателей и экзаменаторов все более высокая точность LLM поднимает важные вопросы о разработке экзаменов и оценке. Если модели ИИ могут решать стандартизированные медицинские экзамены с высокой точностью, будущие оценки могут потребовать включения вопросов высшего порядка рассуждений и клинического суждения, выходящих за рамки простого вспоминания. Кроме того, турецкие медицинские учреждения могут изучить стратегии образования с помощью ИИ, такие как адаптивные системы обучения, которые адаптируют учебные материалы к индивидуальным потребностям студентов.

С национальной точки зрения, это исследование подчеркивает растущую важность ИИ в медицинском образовании в Турции. Поскольку эти LLM хорошо работают с медицинскими вопросами на турецком языке, они могут сократить разрыв в доступе к качественным образовательным ресурсам для студентов в недостаточно обслуживаемых районах. Кроме того, политики должны рассмотреть, как интегрировать модели ИИ в программы непрерывного медицинского образования и обучения на протяжении всей жизни для специалистов здравоохранения в Турции.

В заключение, хотя модели ИИ, такие как ChatGPT-4, демонстрируют исключительную точность, их роль в медицинском образовании следует тщательно оценить. Потенциальные преимущества обучения с помощью ИИ огромны, но правильная реализация требует обеспечения того, чтобы эти инструменты использовались ответственным, этичным образом и в сочетании с человеческим опытом.

Ограничения

Это исследование предоставляет ценную информацию о производительности больших языковых моделей (LLM) на вступительном экзамене для специализированного обучения в медицине в Турции (TUS), но важно признать несколько важных ограничений, чтобы придать результатам контекст и направить будущие исследования. Во-первых, остается неопределенным, содержатся ли вопросы TUS в данных обучения моделей ИИ, оцененных в этом исследовании. Поскольку прошлые вопросы TUS общедоступны, вопросы, использованные в этом исследовании, могли быть частью данных обучения моделей. Это вызывает обеспокоенность по поводу того, отражает ли производительность моделей истинное понимание или просто способность запоминать конкретные вопросы. Будущие исследования должны разработать методы оценки того, демонстрируют ли модели ИИ истинные возможности рассуждения или полагаются на запоминание информации.

Во-вторых, модели ИИ потенциально могут проявлять предвзятость, проистекающую из их данных обучения. Эти предвзятости могут возникнуть из-за несбалансированного представления определенных медицинских состояний, групп населения или перспектив в данных обучения. Например, производительность модели на турецком языке может отличаться от производительности на английском из-за различий в количестве и качестве доступных данных обучения для каждого языка. Кроме того, эти модели могут быть менее точными при ответе на вопросы, требующие знания местных медицинских практик или культурного контекста Турции. Эти предвзятости могут ограничить обобщаемость результатов и вызвать обеспокоенность по поводу этических соображений при использовании ИИ в медицинском образовании и практике.

Третье ограничение заключается в том, что исследование фокусируется только на вопросах с множественным выбором. В реальной клинической практике специалисты здравоохранения должны обладать навыками, такими как рассуждение о сложных случаях, интерпретация неоднозначных результатов и принятие решений в условиях неопределенности. Кроме того, способность четко и сочувственно сообщать диагнозы, варианты лечения и риски пациентам и коллегам имеет решающее значение. Способность моделей ИИ выполнять эти задачи еще не проверена, и их возможности могут быть ограничены их текущей конструкцией и обучением. Будущие исследования должны оценивать модели ИИ в более реалистичных условиях, таких как клинические симуляции случаев и оценки с открытым ответом.

В-четвертых, исследование не включало вопросы с открытым ответом. Вопросы с открытым ответом имеют решающее значение для оценки когнитивных навыков высшего порядка, таких как критическое мышление, синтез информации и клиническое рассуждение. Эти типы вопросов требуют способности генерировать последовательные и контекстуально релевантные ответы, а не просто выбирать правильный вариант из списка. Производительность моделей ИИ в таких задачах может значительно отличаться от их производительности в вопросах с множественным выбором, что представляет собой важную область для будущих исследований.

В-пятых, модели ИИ не тестировались в условиях временного давления. Кандидаты-люди подвергаются строгим временным ограничениям во время экзаменов, что может повлиять на их производительность. Напротив, модели ИИ в этом исследовании не подвергались временному давлению, что позволило им работать без давления времени