Въведение
Напредъкът в изкуствения интелект (AI) и технологиите, като големите езикови модели (ГЕМ), доведе до потенциални трансформации в медицинското образование и методите за оценка на знанията. По-специално, тези развития могат да направят медицинската информация по-лесно достъпна и да направят оценките по-интерактивни.
Предишни изследвания са изследвали представянето на ГЕМ в различни медицински лицензионни изпити, като USMLE (Изпит за лицензиране на лекари в САЩ) и JMLE (Японски изпит за лицензиране на лекари), но тези изпити се различават значително от TUS (Изпит за специализация по медицина в Турция) по структура и съдържание. TUS се фокусира върху фундаменталните и клиничните науки и обръща специално внимание на турския медицински контекст, което предоставя уникална възможност за оценка на възможностите на ГЕМ в уникална среда за оценка. Това проучване има за цел да запълни тази празнина чрез оценка на представянето на четири водещи ГЕМ в TUS. Освен това, това проучване изследва потенциалното въздействие на тези открития върху дизайна на учебните програми, подпомаганото от AI медицинско обучение и бъдещето на медицинските оценки в Турция. По-конкретно, ние изследваме как представянето на ГЕМ може да послужи за разработване на по-ефективни образователни ресурси и стратегии за оценка, пригодени към турската медицинска учебна програма. Това изследване не само допринася за разбирането на специфичното езиково представяне, но и за по-широката дискусия за това как ефективно да се интегрира AI в глобалното медицинско образование и оценка.
Резултатите от тези проучвания показват, че ChatGPT и подобни ГЕМ могат да играят важна роля в медицинското образование и процесите на оценка на знанията. AI и ГЕМ в извличането на медицинска информация и методите за оценка могат да позволят разработването на иновативни подходи и методи на обучение, особено в медицинското образование. Това проучване има за цел да изследва допълнително въздействието на ГЕМ върху медицинското образование и оценката на знанията чрез оценка на представянето на ChatGPT 4, Gemini 1.5 Pro и Cohere-Command R+ на изпита за специализация по медицина в Турция.
Това проучване изследва приложенията на усъвършенствани модели на изкуствен интелект (AI), особено ChatGPT 4, Gemini 1.5 Pro, Command R+ и Llama 3 70B в медицинското образование и оценка, с акцент върху тяхното представяне при решаване на въпроси от медицински специализирани изпити. Проучването оценява способността на тези модели да извършват цялостен и систематичен анализ на въпросите от изпита за специализация по медицина в Турция, като подчертава потенциала на AI в медицината, когато се обмислят фактори като способност за интерпретация и точност. Резултатите показват, че AI моделите могат значително да улеснят процесите на медицинско образование и оценка, отваряйки пътища за нови приложения и области на изследване. Основната цел на тази статия е да оцени бързия напредък в AI технологиите и да сравни отзивчивостта на различните AI модели. Проучването предоставя сравнителен анализ на ChatGPT 4, Gemini 1.5 Pro, Command R+ и Llama 3 70B, оценявайки тяхното представяне на 240 въпроса от първия семестър на изпита за специализация по медицина в Турция през 2021 г.
Това сравнение има за цел да изясни траекторията и разликите в AI технологиите, с акцент върху тяхната полезност в специализирани области като медицинско образование и подготовка за изпити. Крайната цел е да се предоставят прозрения, които да помогнат на потребителите да изберат най-подходящите инструменти за обучение за техните специфични нужди.
Методология
Въпросите са зададени на ГЕМ на турски език. Въпросите са получени от официалния уебсайт на Центъра за подбор и настаняване на студенти, под формата на въпроси с множество възможности за избор (с пет възможности от A до E), само с един най-добър отговор. Отговорите са предоставени от ГЕМ на турски език.
Процесът на оценка се основава на верните отговори, публикувани от Центъра за подбор и настаняване на студенти. Статията споменава: ‘Верният’ отговор на въпросите на AI модела се определя според отговорите, публикувани от Центъра за подбор и настаняване на студенти. Само отговорите, определени като верни въз основа на инструкциите в текста на въпроса, се приемат като ‘верни’. Тъй като въпросите и отговорите са на турски, процесът на оценка включва сравняване на турските отговори на ГЕМ с официалния ключ за отговори на турски език, предоставен от Центъра за подбор и настаняване на студенти.
Набор от данни за медицинско образование
Това проучване използва ChatGPT 4, Gemini 1.5 Pro, Command R+ и Llama 3 70B за тестване на способностите на AI моделите в медицинските знания и оценка на случаи. Проучването е проведено върху въпроси от изпита за специализация по медицина в Турция, проведен на 21 март 2021 г. Изпитът за специализация по медицина в Турция е изпит, организиран от Центъра за подбор и настаняване на студенти, който включва 240 въпроса. Въпросите за фундаментални знания от първа категория тестват знанията и етиката, необходими за завършване на медицинско образование. Втората категория са въпроси за случаи, които обхващат много заболявания, които измерват аналитичното мислене и способностите за разсъждение.
Класификация на трудността на въпросите
Нивото на трудност на въпросите е класифицирано въз основа на официалните данни за представянето на кандидатите, публикувани от Центъра за подбор и настаняване на студенти. По-конкретно, процентът на верните отговори за всеки въпрос, отчетен от центъра, е използван за разделяне на въпросите на пет нива на трудност:
- Ниво 1 (Най-лесни): Въпроси с процент на верните отговори 80% или повече.
- Ниво 2: Въпроси с процент на верните отговори между 60% и 79,9%.
- Ниво 3 (Средни): Въпроси с процент на верните отговори между 40% и 59,9%.
- Ниво 4: Въпроси с процент на верните отговори между 20% и 39,9%.
- Ниво 5 (Най-трудни): Въпроси с процент на верните отговори 19,9% или по-малко.
‘Верният’ отговор на въпросите на AI модела се определя според отговорите, публикувани от Центъра за подбор и настаняване на студенти. Само отговорите, определени като верни въз основа на инструкциите в текста на въпроса, се приемат като ‘верни’. Освен това, нивото на трудност на всеки въпрос е разделено на нива от 1 до 5 въз основа на процента на верните отговори, публикуван от Центъра за подбор и настаняване на студенти. Въпросите с процент на верните отговори 80% или повече се считат за най-лесни (ниво 1), докато въпросите с процент на верните отговори 19,9% или по-малко се считат за най-трудни (ниво 5).
Области на знания и случаи
Изпитът за специализация по медицина в Турция е ключова стъпка за завършилите медицина в Турция, които се специализират, оценявайки знанията и случаите на кандидатите в две ключови области. Разбирането на разликите между тези области е от съществено значение за адекватната подготовка. Областта на знанията се фокусира върху оценката на теоретичното разбиране и фактическите знания на кандидатите в избраната от тях медицинска област. Той тества владеенето на основни понятия и принципи и установява медицинска информация, свързана със специалността. Той представлява специфичната област на медицински знания, която се тества, като например фундаментални медицински науки (анатомия, биохимия, физиология и др.) и клинични науки (вътрешни болести, хирургия, педиатрия и др.) Областта на случаите, от друга страна, представлява реални сценарии или ситуации, в които се прилагат знанията, като например решаване на проблеми, аналитично мислене, критично мислене, вземане на решения и прилагане на концепции към реални ситуации.
Инженеринг на подкани
Инженерингът на подкани е проектирането и фината настройка на подкани на естествен език за получаване на специфични отговори от езиков модел или AI система. През април 2024 г. ние събрахме отговори, като директно изпратихме заявки към езиковите модели чрез техните уеб интерфейси.
За да се гарантира справедлива оценка на суровите възможности на всеки модел, беше приложен строг методологичен контрол в начина, по който бяха представени въпросите на ГЕМ. Всеки въпрос беше въведен отделно и сесията беше нулирана преди да бъде зададен нов въпрос, за да се предотврати моделът да се учи или адаптира въз основа на предишни взаимодействия.
Анализ на данни
Всички анализи са извършени с помощта на софтуера Microsoft Office Excel и Python. За да се сравни представянето на ГЕМ в различни трудности на въпросите, беше извършен несдвоен хи-квадрат тест. Праг на p-стойност от p < 0,05 е използван за определяне на статистическата значимост. Анализът оцени дали точността на модела варира в зависимост от нивото на трудност на въпроса.
Етични съображения
Това проучване използва само информация, публикувана в интернет, и не включва човешки субекти. Следователно не е необходимо одобрение от Етичната комисия на университета Башкент.
Резултати
Средният брой верни отговори на кандидатите, които са участвали в изпита по фундаментални медицински науки на първия срок на изпита за специализация по медицина в Турция през 2021 г., е 51,63. Средният брой верни отговори на изпита по клинични медицински науки е 63,95. Средният брой верни отговори на изпита по клинични медицински науки е по-висок от изпита по фундаментални медицински науки. Успоредно с тази ситуация, AI технологиите също бяха по-успешни в отговорите на изпита по клинични медицински науки.
AI производителност
Производителността на AI платформите е оценена с помощта на същите показатели, както и за човешките кандидати.
ChatGPT 4:
ChatGPT 4 получи среден резултат от 103 верни отговора в частта за фундаментални медицински науки и 110 верни отговора в частта за клинични медицински науки. Това представлява 88,75% обща точност, което е значително по-добре от средния човешки кандидат и в двете части (p < 0,001).
Llama 3 70B:
Llama 3 70B получи среден резултат от 95 верни отговора в частта за фундаментални медицински науки и 95 верни отговора в частта за клинични медицински науки. Това представлява 79,17% обща точност, което също е значително по-добре от средната човешка производителност (p < 0,01).
Gemini 1.5 Pro:
Gemini 1.5 Pro получи среден резултат от 94 верни отговора в частта за фундаментални медицински науки и 93 верни отговора в частта за клинични медицински науки. Това представлява 78,13% обща точност, което е значително по-добре от средната човешка производителност (p < 0,01).
Command R+:
Command R+ получи среден резултат от 60 верни отговора в частта за фундаментални медицински науки и 60 верни отговора в частта за клинични медицински науки. Това представлява 50% обща точност, което не е значително по-различно от средната човешка производителност в частта за фундаментални медицински науки (p = 0,12), но е значително по-ниско в частта за клинични медицински науки (p < 0,05).
Производителността на AI платформите е оценена с помощта на същите показатели, както и за човешките кандидати.
Фигура 3 сравнява точността на различните ГЕМ според трудността на въпроса - ChatGPT 4: Моделът с най-добро представяне. С увеличаването на трудността на въпроса точността се увеличава и достига близо 70% дори при най-предизвикателните въпроси - Llama 3 70B: Модел с умерено представяне. С увеличаването на трудността на въпроса точността първо се увеличава, а след това намалява. Точността му е около 25% при най-предизвикателните въпроси. Gemini 1.5 70B: Представя се подобно на Llama 3 70B. С увеличаването на трудността на въпроса точността първо се увеличава, а след това намалява. Точността му е около 20% при най-предизвикателните въпроси. Command R+: Моделът с най-ниско представяне. Точността му намалява с увеличаването на трудността на въпроса и остава около 15% при най-предизвикателните въпроси
В обобщение, ChatGPT 4 е моделът, който е най-малко засегнат от трудността на въпроса и има най-висока обща точност. Llama 3 70B и Gemini 1.5 Pro имат умерено представяне, докато Command R+ има по-нисък процент на успеваемост от останалите модели. Точността на моделите намалява с увеличаването на трудността на въпроса. Това показва, че ГЕМ все още се нуждаят от подобрение в разбирането и правилния отговор на сложни въпроси
В таблица 1 моделът ChatGPT 4 се откроява като моделът с най-добро представяне с 88,75% успеваемост. Това показва, че има солидна способност да разбира и да отговаря точно на въпроси. Моделът Llama 3 70B е на второ място със 79,17% успеваемост. Въпреки че изостава от модела ChatGPT 4, той все още демонстрира високо ниво на владеене при отговорите на въпроси. Моделът Gemini 1.5 Pro е непосредствено след него със 78,13% успеваемост. Производителността му е сравнима с тази на модела Llama 3 70B, което показва, че има силни възможности за отговор на въпроси. Моделът Command R+, от друга страна, изостава от другите модели с 50% успеваемост. Това предполага, че може да има затруднения с определени въпроси или се нуждае от допълнителна фина настройка за подобряване на производителността. Разпределение на верните отговори в различните нива на трудност. Например всички модели се представят добре на лесни въпроси (ниво на трудност 1), като моделът ChatGPT 4 постига перфектен резултат. На въпроси със средна трудност (нива 2 и 3) моделите ChatGPT 4 и Llama 3 70B продължават да се представят добре.
За разлика от тях, моделът Gemini 1.5 Pro започва да показва някои слабости. На трудни въпроси (нива 4 и 5) производителността на всички модели намалява, като моделът Command R+ се бори най-много. Като цяло, тези резултати предоставят ценна представа за силните и слабите страни на всеки AI модел и могат да информират бъдещите усилия за разработване и подобрение
В таблица 3 биохимията във фундаменталните медицински науки получава перфектен резултат от ChatGPT 4, което доказва изключителната му способност да отговаря на въпроси в тази област. Llama 3 70B и Gemini 1.5 Pro също се представят добре, но Command R+ се представя зле с 50% точност. Моделите с най-добро представяне (ChatGPT 4 и Llama 3 70B) във фармакологията, патологията и микробиологията демонстрират силна последователност на информацията с точност между 81% и 90%. Gemini 1.5 Pro и Command R+ изостават, но все пак се представят добре. Анатомията и физиологията поставят някои предизвикателства пред моделите. ChatGPT 4 и Meta AI-Llama 3 70B се представят добре, докато Gemini 1.5 Pro и Command R+ се представят зле с точност под 70%.
Педиатрията в клиничните медицински науки е от решаващо значение за всички модели, като ChatGPT 4 постига почти перфектен резултат (90%). Llama 3 70B е непосредствено след него и дори Command R+ постига 43% точност. Вътрешните болести и общата хирургия се представят по-добре от най-добрите модели с точност между 79% и 90%. Gemini 1.5 Pro и Command R+ изостават, но все пак се представят добре. Специалности като анестезия и реанимация, спешна медицина, неврология и дерматология представят по-малко въпроси, но моделите като цяло се представят добре. ChatGPT 4 и Llama 3 70B демонстрират изключителна точност в тези области
По отношение на сравнението на моделите, ChatGPT 4 е моделът с най-добро представяне в повечето области с обща точност от 88,75%. Силната му страна е способността му да отговаря точно на въпроси по фундаментални и клинични медицински науки. Llama 3 70B е непосредствено след него с обща точност от 79,17%. Въпреки че не може да се сравни напълно с производителността на ChatGPT 4, той все пак демонстрира силна последователност на знанията в различните области. Gemini 1.5 Pro и Command R+ изостават с обща точност съответно от 78,13% и 50%. Въпреки че демонстрират надежда в някои области, те се борят да поддържат последователност във всички области
Накратко, ChatGPT 4 е в момента най-подходящият модел за отговор на въпроси по медицински науки в различните области. Gemini 1.5 Pro и Command R+ демонстрират потенциал, но се нуждаят от значително подобрение, за да се конкурират с моделите с най-добро представяне
В таблица 4, по отношение на областта на знанията, ChatGPT 4 има точност от 86,7% (85/98) във фундаменталните медицински науки, което е по-добре от другите модели. ChatGPT 4 отново се представя най-добре с точност от 89,7% (61/68) в клиничните медицински науки. По отношение на областта на случаите, ChatGPT 4 има точност от 81,8% (18/22) във фундаменталните медицински науки. В клиничните медицински науки ChatGPT 4 се представя подобно с точност от 94,2% (49/52)
Сдвоеното сравнение на моделите показва, че ChatGPT 4 се представя значително по-добре от другите модели и в двете области и видове въпроси. Llama 3 70B и Gemini 1.5 Pro се представят подобно, докато Command R+ изостава. Въз основа на този анализ можем да заключим, че ChatGPT 4 демонстрира превъзходна производителност в областите на знанията и случаите, както и във фундаменталните и клиничните медицински науки.
Статистически анализ
Производителността на ГЕМ е анализирана с помощта на Microsoft Office Excel и Python (версия 3.10.2). За да се сравни производителността на моделите в различните нива на трудност на въпросите, е извършен несдвоен хи-квадрат тест. За всеки AI модел са конструирани таблици за непредвидени обстоятелства на верни и грешни отговори, разделени по ниво на трудност, и е приложен хи-квадрат тест, за да се определи дали има статистически значима разлика в производителността в различните нива на трудност. Праг на p-стойност < 0,05 е използван за определяне на статистическата значимост. p-стойността на ChatGPT 4 е 0,00028 и е значима при p < 0,05, което показва, че има значителна разлика в производителността в различните нива на трудност. p-стойността на Gemini 1.5 Pro е 0,047 и е значима при p < 0,05, което показва, че има значителна разлика в производителността в различните нива на трудност. p-стойността на Command R+ е 0,197 и не е значима при p < 0,05, което показва, че няма значителна разлика в производителността в различните нива на трудност. p-стойността на Llama 3 70B: 0,118, p-стойността: 0,118 и не е значима при p < 0,05, което показва, че няма значителна разлика в производителността в различните нива на трудност.
Точността на ChatGPT 4 и Gemini 1.5 Pro при различните трудности на въпросите показва статистически значима разлика, което показва, че производителността им варира значително в зависимост от трудността на въпроса. Command R+ и Llama 3 70B не показват значителна разлика в производителността в нивата на трудност, което показва, че производителността е по-последователна, независимо от трудността на въпроса. Тези резултати могат да показват, че различните модели имат различни силни и слаби страни при справянето със сложността и темите, свързани с различните трудности.
Дискусия
TUS е ключов национален изпит за завършилите медицина в Турция, които търсят специализирано обучение. Изпитът се състои от въпроси с множествен избор, обхващащи фундаментални и клинични науки, и има централизирана система за класиране, която определя класирането за специализирани курсове
При оценката на представянето на големите езикови модели на TUS, GPT-4 е моделът с най-добро представяне. По същия начин, ChatGPT е мощен AI модел, който демонстрира представяне близо или над човешкото ниво в областта на хирургията, като отговаря правилно съответно на 71% и 68% от въпросите с множествен избор SCORE и Data-B. Освен това, ChatGPT се представя отлично на изпитите по обществено здраве, като надвишава текущия процент на преминаване и предоставя уникални прозрения. Тези открития подчертават превъзходното представяне на GPT-4 и ChatGPT в медицинските оценки, демонстрирайки техния потенциал за подобряване на медицинското образование и потенциално подпомагане на диагностиката.
За медицинските преподаватели и изпитващи, нарастващата точност на ГЕМ повдига важни въпроси относно дизайна на изпитите и оценката. Ако AI моделите могат да решават стандартизирани медицински изпити с висока точност, бъдещите оценки може да трябва да включат въпроси за разсъждение от по-висок порядък и клинична преценка, които надхвърлят простото запомняне. Освен това, турските медицински институции могат да проучат образователни стратегии, подпомагани от AI, като например адаптивни системи за обучение, които персонализират учебните материали според индивидуалните нужди на студентите.
От национална гледна точка, това проучване подчертава нарастващото значение на AI в медицинското образование в Турция. Тъй като тези ГЕМ се представят добре на турски медицински въпроси, те могат да преодолеят пропастта в достъпа на студентите в необслужвани райони до висококачествени образователни ресурси. Освен това, лицата, определящи политиките, трябва да обмислят как да интегрират AI моделите в програмите за продължаващо медицинско образование и учене през целия живот за турските здравни специалисти.
В заключение, въпреки че AI моделите като ChatGPT-4 демонстрират забележителна точност, ролята им в медицинското образование трябва да бъде оценена внимателно. Потенциалните ползи от обучението, подпомагано от AI, са огромни, но правилното изпълнение изисква да се гарантира, че тези инструменти се използват по отговорен и етичен начин и се комбинират с човешка експертиза.
Ограничения
Това проучване предоставя ценни прозрения за представянето на големите езикови модели (ГЕМ) на изпита за специализация по медицина в Турция (TUS), но е важно да се признаят няколко важни ограничения, за да се даде контекст на резултатите и да се ръководят бъдещите изследвания. Първо, не е сигурно дали обучителните данни на AI моделите, оценени в това проучване, съдържат въпроси от TUS. Тъй като минали въпроси от TUS са публично достъпни, възможно е въпросите, използвани в това проучване, да са били част от обучителните данни на модела. Това поражда опасения относно това дали производителността на модела отразява истинско разбиране или просто способността да се запомнят конкретни въпроси. Бъдещите изследвания трябва да разработят методи за оценка дали AI моделите демонстрират истинска способност за разсъждение или разчитат на запомнена информация.
Второ, възможно е AI моделите да проявяват отклонения, произтичащи от техните обучителни данни. Тези отклонения могат да произтичат от небалансираното представяне на определени медицински състояния, популации или гледни точки в обучителните данни. Например, производителността на модела на турски език може да се различава от английската поради разликите в количеството и качеството на обучителните данни, налични на всеки език. Освен това, тези модели може да са по-малко точни при отговорите на въпроси, които изискват разбиране на турската местна медицинска практика или културен контекст. Тези отклонения могат да ограничат обобщимостта на резултатите и да повдигнат етични опасения относно използването на AI в медицинското образование и практика.
Третото ограничение е, че проучването се фокусира само върху въпроси с множествен избор. В реалната клинична практика здравните специалисти трябва да притежават умения като разсъждение върху сложни случаи, тълкуване на двусмислени открития и вземане на решения при несигурност. Освен това, способността да се предават диагнози, възможности за лечение и рискове на пациентите и колегите по ясен и състрадателен начин е от съществено значение. Способността на AI моделите да изпълняват тези задачи не е тествана и може да бъде ограничена от техния текущ дизайн и обучение. Бъдещите изследвания трябва да оценят AI моделите в по-реалистични настройки, като симулации на клинични случаи и оценки с отворен отговор.
Четвърто, проучването не включва въпроси с отворен отговор. Въпросите с отворен отговор са от съществено значение за оценката на познавателните умения от по-висок порядък, като критично мислене, синтез на информация и клинично разсъждение. Тези видове въпроси изискват способността да се генерират последователни и контекстуално уместни отговори, вместо просто да се избира правилната опция от списък. Производителността на AI моделите при такива задачи може да се различава значително от производителността им при въпроси с множествен избор, което представлява важна област за бъдещи изследвания.
Петото ограничение е, че AI моделите не са тествани под натиск на времето. Човешките кандидати са подложени на строги времеви ограничения по време на изпити, което може да повлияе на тяхното представяне. За разлика от тях, AI моделите в това проучване не са подложени на натиск на времето, което им позволява да работят без натиска на навременна среда.