AI katika Elimu ya Udaktari: Tathmini ya Lugha Kubwa

Utangulizi

Katika miaka ya hivi karibuni, maendeleo ya kiteknolojia kama vile akili bandia (AI) na miundo mikubwa ya lugha (LLM) yameleta mabadiliko yanayoweza kutokea katika elimu ya udaktari na mbinu za tathmini ya maarifa. Hasa, maendeleo haya yanaweza kurahisisha upatikanaji wa taarifa za matibabu, na kufanya tathmini kuwa shirikishi zaidi.

Utafiti wa awali umechungua uwezo wa LLM katika mitihani mbalimbali ya leseni za udaktari, kama vile Mtihani wa Leseni ya Matibabu ya Marekani (USMLE) na Mtihani wa Leseni ya Matibabu ya Japani (JMLE), lakini mitihani hii inatofautiana sana na TUS katika muundo na maudhui. TUS inalenga sayansi ya msingi na sayansi ya kliniki, na inazingatia sana mazingira ya matibabu ya Kituruki, ambayo hutoa fursa ya kipekee ya kutathmini uwezo wa LLM katika mazingira ya kipekee ya tathmini. Utafiti huu unalenga kujaza pengo hili kwa kutathmini uwezo wa LLM nne zinazoongoza katika TUS. Zaidi ya hayo, utafiti huu unachunguza athari zinazoweza kutokea za matokeo haya kwenye muundo wa mtaala, mafunzo ya matibabu yanayosaidiwa na AI, na mustakabali wa tathmini ya matibabu nchini Uturuki. Hasa, tunaangalia jinsi ufanisi wa LLM unavyoweza kusaidia katika kuendeleza rasilimali bora za elimu na mikakati ya tathmini iliyoundwa mahususi kwa mtaala wa matibabu wa Kituruki. Uchunguzi huu hausaidii tu katika kuelewa ufanisi wa lugha fulani, lakini pia unachangia mjadala mpana kuhusu jinsi ya kuunganisha AI kwa ufanisi katika elimu na tathmini ya matibabu duniani kote.

Matokeo ya tafiti hizi yanaonyesha kwamba ChatGPT na LLM zinazofanana zinaweza kuchukua jukumu muhimu katika elimu ya matibabu na mchakato wa tathmini ya maarifa. Akili bandia na LLM katika upatikanaji wa taarifa za matibabu na mbinu za tathmini zinaweza kuwezesha uundaji wa mbinu bunifu na mbinu za kujifunza, hasa katika elimu ya matibabu. Utafiti huu unalenga kuchunguza zaidi athari za LLM kwenye elimu ya matibabu na tathmini ya maarifa kwa kutathmini ufanisi wa ChatGPT 4, Gemini 1.5 Pro, na Cohere-Command R+ katika Mtihani wa Kuingia Mafunzo ya Kitaalamu ya Udaktari nchini Uturuki.

Utafiti huu unachunguza matumizi ya miundo ya hali ya juu ya akili bandia (AI), hasa ChatGPT 4, Gemini 1.5 Pro, Command R+, na Llama 3 70B katika elimu na tathmini ya matibabu, huku tukizingatia utendaji wao katika kutatua maswali ya mitihani ya kitaalamu ya udaktari. Utafiti huo unatathmini uwezo wa miundo hii kufanya uchambuzi wa kina na wa kimfumo wa maswali ya Mtihani wa Kuingia Mafunzo ya Kitaalamu ya Udaktari nchini Uturuki, na kuangazia uwezekano wa AI katika dawa wakati wa kuzingatia mambo kama vile uwezo wa ufafanuzi na usahihi. Matokeo yanaonyesha kuwa miundo ya AI inaweza kuchangia kwa kiasi kikubwa elimu ya matibabu na mchakato wa tathmini, ikifungua njia za maombi mapya na maeneo ya utafiti. Madhumuni makuu ya makala haya ni kutathmini maendeleo ya haraka ya teknolojia ya AI na kulinganisha uwezo wa kujibu wa miundo tofauti ya AI. Utafiti huu unatoa uchambuzi linganishi wa ChatGPT 4, Gemini 1.5 Pro, Command R+, na Llama 3 70B, ukipima utendaji wao katika maswali 240 kutoka muhula wa kwanza wa Mtihani wa Kuingia Mafunzo ya Kitaalamu ya Udaktari nchini Uturuki wa 2021.

Ulinganisho huu unalenga kufafanua mwelekeo na tofauti za teknolojia ya AI, huku tukizingatia ufanisi wao katika maeneo maalum kama vile elimu ya matibabu na maandalizi ya mitihani. Lengo kuu ni kutoa maarifa yanayosaidia watumiaji kuchagua zana bora zaidi za kujifunzia zinazolingana na mahitaji yao mahususi.

Mbinu

Maswali haya yaliulizwa kwa LLM kwa Kituruki. Maswali hayo yalipatikana kutoka kwa tovuti rasmi ya Kituo cha Uteuzi na Uwekaji Wanafunzi, katika muundo wa maswali ya chaguo nyingi (yenye chaguo tano kutoka A hadi E), na jibu moja bora. Majibu yalitolewa na LLM kwa Kituruki.

Mchakato wa tathmini ulitegemea majibu sahihi yaliyochapishwa na Kituo cha Uteuzi na Uwekaji Wanafunzi. Makala inasema: ‘Jibu ‘sahihi’ kwa swali la miundo ya akili bandia linafafanuliwa kulingana na majibu yaliyochapishwa na Kituo cha Uteuzi na Uwekaji Wanafunzi. Ni majibu tu yanayothibitishwa kuwa sahihi kulingana na maelezo katika maandishi ya swali ndiyo yanakubaliwa kama ‘sahihi’’. Kwa kuwa maswali na majibu yote ni ya Kituruki, mchakato wa tathmini unahusisha kulinganisha majibu ya Kituruki ya LLM na ufunguo rasmi wa majibu ya Kituruki uliotolewa na Kituo cha Uteuzi na Uwekaji Wanafunzi.

Hifadhidata ya Elimu ya Matibabu

Utafiti huu unatumia ChatGPT 4, Gemini 1.5 Pro, Command R+ na Llama 3 70B ili kujaribu uwezo wa miundo ya akili bandia katika maarifa ya matibabu na tathmini ya kesi. Utafiti huo ni juu ya maswali kutoka Mtihani wa Kuingia Mafunzo ya Kitaalamu ya Udaktari nchini Uturuki uliofanyika Machi 21, 2021. Mtihani wa Kuingia Mafunzo ya Kitaalamu ya Udaktari nchini Uturuki ni mtihani unaoandaliwa na Kituo cha Uteuzi na Uwekaji Wanafunzi, na unajumuisha maswali 240. Maswali ya maarifa ya msingi katika kategoria ya kwanza yanajaribu maarifa na maadili yanayohitajika ili kukamilisha elimu ya matibabu. Kategoria ya pili ni maswali ya kesi, yanayoshughulikia magonjwa mengi ambayo yanapima uwezo wa kufikiri na kutoa hoja.

Uainishaji wa Ugumu wa Swali

Kiwango cha ugumu wa swali kimeainishwa kulingana na data rasmi ya ufanisi wa watahiniwa iliyochapishwa na Kituo cha Uteuzi na Uwekaji Wanafunzi. Hasa, kiwango cha majibu sahihi kilichoripotiwa na kituo kwa kila swali kilitumika kugawanya maswali katika viwango vitano vya ugumu:

  • Kiwango cha 1 (rahisi zaidi): Maswali yenye kiwango cha majibu sahihi ya 80% au zaidi.
  • Kiwango cha 2: Maswali yenye kiwango cha majibu sahihi kati ya 60% na 79.9%.
  • Kiwango cha 3 (cha kati): Maswali yenye kiwango cha majibu sahihi kati ya 40% na 59.9%.
  • Kiwango cha 4: Maswali yenye kiwango cha majibu sahihi kati ya 20% na 39.9%.
  • Kiwango cha 5 (kigumu zaidi): Maswali yenye kiwango cha majibu sahihi ya 19.9% au chini.

Jibu ‘sahihi’ kwa swali la miundo ya akili bandia linafafanuliwa kulingana na majibu yaliyochapishwa na Kituo cha Uteuzi na Uwekaji Wanafunzi. Ni majibu tu yanayothibitishwa kuwa sahihi kulingana na maelezo katika maandishi ya swali ndiyo yanakubaliwa kama ‘sahihi’. Zaidi ya hayo, kiwango cha ugumu wa kila swali kimegawanywa katika viwango 1 hadi 5 kulingana na kiwango cha majibu sahihi kilichochapishwa na Kituo cha Uteuzi na Uwekaji Wanafunzi. Maswali yenye kiwango cha majibu sahihi ya 80% na zaidi yanachukuliwa kuwa rahisi zaidi (kiwango cha 1), huku maswali yenye kiwango cha majibu sahihi ya 19.9% na chini yanachukuliwa kuwa magumu zaidi (kiwango cha 5).

Maeneo ya Maarifa na Kesi

Mtihani wa Kuingia Mafunzo ya Kitaalamu ya Udaktari nchini Uturuki ni hatua muhimu kwa wahitimu wa matibabu nchini Uturuki wanaotafuta utaalamu, unatathmini maarifa na maeneo ya kesi ya watahiniwa katika maeneo mawili muhimu. Kuelewa tofauti kati ya maeneo haya ni muhimu kwa maandalizi ya kutosha. Eneo la maarifa linaangazia kutathmini uelewa wa kinadharia na maarifa ya kweli ya watahiniwa ndani ya uwanja wao wa matibabu waliochagua. Inajaribu ujuzi wa dhana na kanuni za msingi, na kuanzisha taarifa za matibabu zinazohusiana na taaluma. Inawakilisha eneo maalum la maarifa ya matibabu linalojaribiwa, kama vile sayansi ya msingi ya matibabu (anatomy, biochemistry, physiology, nk.) na sayansi ya kliniki (dawa ya ndani, upasuaji, watoto, nk.) Eneo la kesi, kwa upande mwingine, linawakilisha matukio au hali halisi ambapo maarifa yanatumika, kama vile utatuzi wa matatizo, mawazo ya uchambuzi, mawazo muhimu, kufanya maamuzi na kutumia dhana katika hali halisi.

Uhandisi wa Ushawishi

Uhandisi wa ushawishi ni kubuni na kurekebisha ushawishi wa lugha asilia ili kupata majibu maalum kutoka kwa muundo wa lugha au mfumo wa AI. Mnamo Aprili 2024, tulikusanya majibu kwa kuhoji moja kwa moja miundo ya lugha kupitia kiolesura chao cha wavuti.

Ili kuhakikisha tathmini ya haki ya uwezo wa asili wa kila muundo, njia kali za udhibiti zilitekelezwa katika jinsi maswali yaliwasilishwa kwa LLM. Kila swali liliingizwa kibinafsi, na kikao kilirejeshwa kabla ya swali jipya kuulizwa, ili kuzuia muundo kujifunza au kukabiliana kulingana na mwingiliano wa awali.

Uchambuzi wa Data

Uchambuzi wote ulifanyika kwa kutumia Microsoft Office Excel na programu ya Python. Ili kulinganisha ufanisi wa LLM katika ugumu tofauti wa swali, mtihani wa chi-mraba usio na jozi ulifanyika. Kikomo cha thamani ya p cha p < 0.05 kilitumika kuamua umuhimu wa takwimu. Uchambuzi huo ulitathmini ikiwa usahihi wa muundo ulitofautiana kulingana na kiwango cha ugumu wa swali.

Mambo ya Kimaadili

Utafiti huu unatumia tu taarifa zilizochapishwa kwenye mtandao na hauhusishi washiriki binadamu. Kwa hivyo, kibali cha Kamati ya Maadili ya Chuo Kikuu cha Baskent hakihitajiki.

Matokeo

Watahiniwa walioshiriki katika mtihani wa sayansi ya matibabu ya msingi wa muhula wa kwanza wa Mtihani wa Kuingia Mafunzo ya Kitaalamu ya Udaktari nchini Uturuki wa 2021 walikuwa na wastani wa majibu sahihi 51.63. Mtihani wa sayansi ya matibabu ya kliniki ulikuwa na wastani wa majibu sahihi 63.95. Mtihani wa sayansi ya matibabu ya kliniki ulikuwa na wastani wa majibu sahihi zaidi kuliko mtihani wa sayansi ya matibabu ya msingi. Sambamba na hali hii, teknolojia ya akili bandia pia ilifanikiwa zaidi kujibu mtihani wa sayansi ya matibabu ya kliniki.

Ufanisi wa AI

Ufanisi wa majukwaa ya AI ulitathminiwa kwa kutumia vipimo sawa na watahiniwa binadamu.

  • ChatGPT 4:

    ChatGPT 4 ilipata wastani wa alama za majibu sahihi 103 katika sehemu ya sayansi ya matibabu ya msingi na wastani wa alama za majibu sahihi 110 katika sehemu ya sayansi ya matibabu ya kliniki. Hii inawakilisha usahihi wa jumla wa 88.75%, ambao ni bora zaidi kuliko wastani wa watahiniwa binadamu katika sehemu zote mbili (p < 0.001).

  • Llama 3 70B:

    Llama 3 70B ilipata wastani wa alama za majibu sahihi 95 katika sehemu ya sayansi ya matibabu ya msingi na wastani wa alama za majibu sahihi 95 katika sehemu ya sayansi ya matibabu ya kliniki. Hii inawakilisha usahihi wa jumla wa 79.17%, ambayo pia ni kubwa zaidi kuliko ufanisi wa wastani wa binadamu (p < 0.01).

  • Gemini 1.5 Pro:

    Gemini 1.5 Pro ilipata wastani wa alama za majibu sahihi 94 katika sehemu ya sayansi ya matibabu ya msingi na wastani wa alama za majibu sahihi 93 katika sehemu ya sayansi ya matibabu ya kliniki. Hii inawakilisha usahihi wa jumla wa 78.13%, ambayo ni kubwa zaidi kuliko ufanisi wa wastani wa binadamu (p < 0.01).

  • Command R+:

    Command R+ ilipata wastani wa alama za majibu sahihi 60 katika sehemu ya sayansi ya matibabu ya msingi na wastani wa alama za majibu sahihi 60 katika sehemu ya sayansi ya matibabu ya kliniki. Hii inawakilisha usahihi wa jumla wa 50%, ambayo haina tofauti kubwa na ufanisi wa wastani wa binadamu katika sehemu ya sayansi ya matibabu ya msingi (p = 0.12), lakini ni ndogo sana katika sehemu ya sayansi ya matibabu ya kliniki (p < 0.05).

Ufanisi wa majukwaa ya AI ulitathminiwa kwa kutumia vipimo sawa na watahiniwa binadamu.

Mchoro 3 unalinganisha usahihi wa LLM tofauti kulingana na ugumu wa swali - ChatGPT 4: Muundo bora zaidi. Usahihi unaongezeka kadri ugumu wa swali unavyoongezeka, hata katika maswali magumu zaidi unakaribia 70% - Llama 3 70B: Muundo wa ufanisi wa wastani. Usahihi huongezeka kwanza na kisha kupungua kadri ugumu wa swali unavyoongezeka. Usahihi wake ni karibu 25% katika maswali magumu zaidi. Gemini 1.5 70B: Ufanisi wake unafanana na Llama 3 70B. Usahihi huongezeka kwanza na kisha kupungua kadri ugumu wa swali unavyoongezeka. Usahihi wake ni karibu 20% katika maswali magumu zaidi. Command R+: Muundo wa ufanisi mdogo zaidi. Usahihi wake hupungua kadri ugumu wa swali unavyoongezeka, na unabaki karibu 15% katika maswali magumu zaidi

Kwa ujumla, ChatGPT 4 ni muundo ambao hauathiriwi sana na ugumu wa swali na una usahihi wa juu zaidi kwa ujumla. Llama 3 70B na Gemini 1.5 Pro zina ufanisi wa wastani, huku Command R+ ina kiwango cha mafanikio kidogo kuliko miundo mingine. Usahihi wa miundo hupungua kadri ugumu wa swali unavyoongezeka. Hii inaonyesha kwamba LLM bado zinahitaji kuboreshwa katika kuelewa na kujibu kwa usahihi maswali magumu

Katika Jedwali la 1, muundo wa ChatGPT 4 unaongoza kwa ufanisi wa 88.75%, na kuwa muundo bora zaidi. Hii inaonyesha kwamba ina uwezo thabiti wa kuelewa na kujibu maswali kwa usahihi. Muundo wa Llama 3 70B unashika nafasi ya pili kwa ufanisi wa 79.17%. Ingawa iko nyuma ya muundo wa ChatGPT 4, bado inaonyesha kiwango cha juu cha ustadi katika kujibu maswali. Muundo wa Gemini 1.5 Pro unafuata kwa karibu, ukiwa na kiwango cha mafanikio cha 78.13%. Ufanisi wake ni sawa na muundo wa Llama 3 70B, unaonyesha kwamba una uwezo mkubwa wa kujibu maswali. Kwa upande mwingine, muundo wa Command R+ uko nyuma ya miundo mingine, ukiwa na kiwango cha mafanikio cha 50%. Hii inaonyesha kwamba inaweza kuwa na matatizo na maswali fulani au inahitaji marekebisho zaidi ili kuboresha ufanisi. Usambazaji wa majibu sahihi katika viwango tofauti vya ugumu. Kwa mfano, miundo yote inafanya vizuri katika maswali rahisi (kiwango cha ugumu 1), huku muundo wa ChatGPT 4 ukipata alama kamili. Katika maswali ya ugumu wa kati (viwango 2 na 3), miundo ya ChatGPT 4 na Llama 3 70B inaendelea kufanya vizuri.

Kinyume chake, muundo wa Gemini 1.5 Pro unaanza kuonyesha udhaifu fulani. Katika maswali magumu (viwango 4 na 5), ufanisi wa miundo yote unapungua, huku muundo wa Command R+ ukihangaika zaidi. Kwa ujumla, matokeo haya yanatoa maarifa muhimu katika kuelewa nguvu na udhaifu wa kila muundo wa AI na yanaweza kusaidia katika maendeleo na juhudi za uboreshaji za baadaye

Katika Jedwali la 3, biochemistry katika sayansi ya matibabu ya msingi ilipata alama kamili kutoka kwa ChatGPT 4, ikionyesha uwezo wake bora wa kujibu maswali katika eneo hili. Llama 3 70B na Gemini 1.5 Pro pia zilifanya vizuri, lakini Command R+ ilifanya vibaya na usahihi wa 50%. Miundo bora zaidi katika pharmacology, pathology, na microbiology (ChatGPT 4 na Llama 3 70B) ilionyesha ufanisi mkubwa wa habari, huku usahihi ukiwa kati ya 81% na 90%. Gemini 1.5 Pro na Command R+ ziliachwa nyuma, lakini bado zilifanya vizuri. Anatomy na physiology ziliwasilisha changamoto fulani kwa miundo. ChatGPT 4 na Meta AI-Llama 3 70B zilifanya vizuri, huku Gemini 1.5 Pro na Command R+ zilifanya vibaya kwa usahihi chini ya 70%.

Pediatrics katika sayansi ya matibabu ya kliniki ilikuwa muhimu kwa miundo yote, huku ChatGPT 4 ikipata alama karibu kamili (90%). Llama 3 70B ilifuata kwa karibu, na hata Command R+ ilifikia usahihi wa 43%. Dawa ya ndani na upasuaji wa jumla zilifanya vizuri zaidi kuliko miundo bora zaidi, huku usahihi ukiwa kati ya 79% na 90%. Gemini 1.5 Pro na Command R+ ziliachwa nyuma, lakini bado zilifanya vizuri. Maswali machache yaliwasilishwa kutoka kwa taaluma kama vile anesthesia na resuscitation, dawa ya dharura, neurology, na dermatology, lakini miundo ilifanya vizuri kwa ujumla. ChatGPT 4 na Llama 3 70B zilionyesha usahihi bora katika maeneo haya

Kuhusu ulinganisho wa muundo, ChatGPT 4 ndiyo muundo bora zaidi katika maeneo mengi, ikiwa na usahihi wa jumla wa 88.75%. Nguvu zake ziko katika uwezo wake wa kujibu kwa usahihi maswali ya sayansi ya matibabu ya msingi na kliniki. Llama 3 70B ilifuata kwa karibu, ikiwa na usahihi wa jumla wa 79.17%. Ingawa haikuweza kulingana kabisa na ufanisi wa ChatGPT 4, bado ilionyesha ufanisi mkubwa wa habari katika maeneoyote. Gemini 1.5 Pro na Command R+ ziliachwa nyuma, ikiwa na usahihi wa jumla wa 78.13% na 50%, mtawalia. Ingawa zilionyesha tumaini katika maeneo fulani, zilikuwa na matatizo ya kudumisha ufanisi katika maeneo yote

Kwa kifupi, ChatGPT 4 ndiyo muundo unaofaa zaidi kwa sasa kwa kujibu maswali ya sayansi ya matibabu katika maeneo yote. Gemini 1.5 Pro na Command R+ zinaonyesha uwezekano, lakini zinahitaji uboreshaji mkubwa ili kushindana na miundo bora zaidi

Katika Jedwali la 4, kuhusu eneo la maarifa, ChatGPT 4 ilikuwa na usahihi wa 86.7% (85/98) katika sayansi ya matibabu ya msingi, ikiwa bora kuliko miundo mingine. ChatGPT 4 ilifanya vizuri tena, ikiwa na usahihi wa 89.7% (61/68) katika sayansi ya matibabu ya kliniki. Kuhusu eneo la kesi, ChatGPT 4 ilikuwa na usahihi wa 81.8% (18/22) katika sayansi ya matibabu ya msingi. Katika sayansi ya matibabu ya kliniki, ChatGPT 4 ilifanya sawa, ikiwa na usahihi wa 94.2% (49/52)

Ulinganisho wa jozi wa miundo unaonyesha kwamba ChatGPT 4 ilikuwa bora zaidi kuliko miundo mingine katika maeneo yote mawili na aina za swali. Llama 3 70B na Gemini 1.5 Pro zilifanya sawa, huku Command R+ ikiachwa nyuma. Kulingana na uchambuzi huu, tunaweza kuhitimisha kwamba ChatGPT 4 ilionyesha ufanisi bora katika maeneo ya maarifa na kesi na katika sayansi ya matibabu ya msingi na kliniki.

Uchambuzi wa Takwimu

Ufanisi wa LLM ulifanywa kwa kutumia Microsoft Office Excel na Python (toleo la 3.10.2). Ili kulinganisha ufanisi wa miundo katika viwango tofauti vya ugumu wa swali, mtihani wa chi-mraba usio na jozi ulifanyika. Jedwali la dharura liliundwa kwa kila muundo wa AI kwa majibu sahihi na yasiyo sahihi yaliyogawanywa na kiwango cha ugumu, na mtihani wa chi-mraba ulitumiwa kuamua ikiwa kulikuwa na tofauti kubwa za takwimu katika ufanisi katika viwango vya ugumu. Kikomo cha thamani ya p cha <0.05 kilitumiwa kuamua umuhimu wa takwimu. Thamani ya p ya ChatGPT 4 ilikuwa 0.00028, na ilikuwa kubwa kwa p < 0.05, ikionyesha kwamba kulikuwa na tofauti kubwa katika ufanisi katika viwango tofauti vya ugumu. Thamani ya p ya Gemini 1.5 Pro ilikuwa 0.047, na ilikuwa kubwa kwa p < 0.05, ikionyesha kwamba kulikuwa na tofauti kubwa katika ufanisi katika viwango tofauti vya ugumu. Thamani ya p ya Command R+ ilikuwa 0.197, na haikuwa kubwa kwa p < 0.05, ikionyesha kwamba hakukuwa na tofauti kubwa katika ufanisi katika viwango tofauti vya ugumu. Thamani ya p ya Llama 3 70B: 0.118, thamani ya p: 0.118, na haikuwa kubwa kwa p < 0.05, ikionyesha kwamba hakukuwa na tofauti kubwa katika ufanisi katika viwango tofauti vya ugumu.

Usahihi wa ChatGPT 4 na Gemini 1.5 Pro katika ugumu tofauti wa swali ulionyesha tofauti kubwa za takwimu, ikionyesha kwamba ufanisi wao unabadilika sana na ugumu wa swali. Command R+ na Llama 3 70B hazikuonyesha tofauti kubwa za ufanisi katika viwango vya ugumu, ikionyesha kwamba ufanisi ulikuwa sawa zaidi bila kujali ugumu wa swali. Matokeo haya yanaweza kuonyesha kwamba miundo tofauti ina nguvu na udhaifu tofauti katika kushughulikia utata na mada zinazohusiana na ugumu tofauti.

Majadiliano

TUS ni mtihani muhimu wa kitaifa kwa wahitimu wa matibabu nchini Uturuki wanaotafuta mafunzo ya kitaalamu. Mtihani huo unajumuisha maswali ya chaguo nyingi yanayoshughulikia sayansi ya msingi na kliniki, na una mfumo wa orodha uliojilimbikizia ambao huamua nafasi za kozi za kitaalamu

Katika kutathmini ufanisi wa miundo mikubwa ya lugha katika TUS, GPT-4 ndiyo ilikuwa muundo bora zaidi. Vile vile, ChatGPT ni muundo wenye nguvu wa AI ambao ulionyesha ufanisi karibu au juu ya kiwango cha binadamu katika uwanja wa upasuaji, ukijibu kwa usahihi 71% na 68% ya maswali ya chaguo nyingi ya SCORE na Data-B, mtawalia. Zaidi ya hayo, ChatGPT ilifanya vizuri sana katika mitihani ya afya ya umma, ikizidi viwango vya sasa vya kupita na kutoa maarifa ya kipekee. Matokeo haya yanaangazia ufanisi bora wa GPT-4 na ChatGPT katika tathmini ya matibabu, yakionyesha uwezo wao wa kuboresha elimu ya matibabu na misaada ya uwezekano wa uchunguzi.

Kwa waelimishaji na wataalamu wa mitihani wa matibabu, usahihi unaoongezeka wa LLM unazua maswali muhimu kuhusu muundo wa mitihani na tathmini. Ikiwa miundo ya AI inaweza kutatua mitihani sanifu ya matibabu kwa usahihi wa hali ya juu, tathmini za baadaye zinaweza kuhitaji kujumuisha maswali ya kufikiri ya juu zaidi na hukumu ya kliniki ambayo huenda zaidi ya kukumbuka tu. Zaidi ya hayo, taasisi za matibabu nchini Uturuki zinaweza kuchunguza mikakati ya elimu inayosaidiwa na AI, kama vile mifumo ya kujifunza inayoweza kubadilika ambayo hurekebisha vifaa vya kujifunzia kulingana na mahitaji ya kibinafsi ya wanafunzi.

Kwa mtazamo wa kitaifa, utafiti huu unaangazia umuhimu unaoongezeka wa AI katika elimu ya matibabu nchini Uturuki. Kwa kuwa LLM hizi zinafanya vizuri katika maswali ya matibabu ya Kituruki, zinaweza kuziba pengo la upatikanaji wa rasilimali bora za elimu kwa wanafunzi katika maeneo yasiyo na huduma nzuri. Zaidi ya hayo, watunga sera wanapaswa kuzingatia jinsi ya kuunganisha miundo ya AI katika elimu ya matibabu inayoendelea na programu za kujifunza maisha yote kwa wataalamu wa afya wa Kituruki.

Kwa ujumla, ingawa miundo ya AI kama vile ChatGPT-4 inaonyesha usahihi wa ajabu, jukumu lake katika elimu ya matibabu linapaswa kutathminiwa kwa uangalifu. Faida zinazoweza kutokea za kujifunza kunakosaidiwa na AI ni kubwa, lakini utekelezaji sahihi unahitaji kuhakikisha kwamba zana hizi zinatumika kwa njia ya kuwajibika na ya kimaadili, na kuunganishwa na utaalamu wa binadamu.

Mapungufu

Utafiti huu unatoa maarifa muhimu katika ufanisi wa miundo mikubwa ya lugha (LLM) katika Mtihani wa Kuingia Mafunzo ya Kitaalamu ya Udaktari nchini Uturuki (TUS), lakini ni muhimu kukiri mapungufu kadhaa muhimu ili kufanya matokeo yawe na muktadha na kuongoza utafiti wa baadaye. Kwanza, haijulikani ikiwa data ya mafunzo ya miundo ya AI iliyotathminiwa katika utafiti huu ilijumuisha maswali ya TUS. Kwa kuwa maswali ya zamani ya TUS yanapatikana hadharani, maswali yaliyotumiwa katika utafiti huu yanaweza kuwa sehemu ya data ya mafunzo ya muundo. Hii inazua wasiwasi kuhusu ikiwa ufanisi wa muundo unaonyesha uelewa wa kweli au kumbukumbu tu ya uwezo wa maswali maalum. Utafiti wa baadaye unapaswa kuendeleza mbinu za kutathmini ikiwa miundo ya AI inaonyesha uwezo wa kufikiri wa kweli au inategemea taarifa zilizokumbukwa.

Pili, miundo ya AI ina uwezekano wa kuonyesha upendeleo unaotokana na data yake ya mafunzo. Upendeleo huu unaweza kutokana na uwakilishi usio sawa wa hali fulani za matibabu, watu, au mitazamo katika data ya mafunzo. Kwa mfano, ufanisi wa muundo katika Kituruki unaweza kutofautiana na Kiingereza kwa sababu ya tofauti katika idadi na ubora wa data ya mafunzo inayopatikana katika kila lugha. Zaidi ya hayo, miundo hii inaweza kuwa isiyo sahihi sana katika kujibu maswali yanayohitaji kuelewa mazoea ya afya ya ndani ya Kituruki au mazingira ya kitamaduni. Upendeleo huu unaweza kupunguza uenezaji wa matokeo na kuzua wasiwasi wa kimaadili kuhusu matumizi ya AI katika elimu na mazoezi ya matibabu.

Kikomo cha tatu ni kwamba utafiti huo unaangazia tu maswali ya chaguo nyingi. Katika mazoezi ya kliniki ya ulimwengu halisi, wataalamu wa afya wanahitaji kuwa na ujuzi kama vile kufikiri kesi ngumu, kufasiri matokeo yasiyo wazi, na kufanya maamuzi katika hali ya kutokuwa na uhakika. Zaidi ya hayo, uwezo wa kuwasilisha utambuzi, mipango ya matibabu, na hatari kwa wagonjwa na wenzake kwa njia iliyo wazi na ya huruma ni muhimu. Uwezo wa miundo ya AI kufanya kazi hizi haujajaribiwa, na uwezo wao unaweza kuwa mdogo na muundo wao wa sasa na mafunzo. Utafiti wa baadaye unapaswa kutathmini miundo ya AI katika hali halisi zaidi, kama vile uigaji wa kesi za kliniki na tathmini zilizo wazi.

Nne, utafiti huo haukujumuisha maswali ya wazi. Maswali ya wazi ni muhimu kwa kutathmini ujuzi wa utambuzi wa juu kama vile kufikiri muhimu, muhtasari wa taarifa, na kufikiri kimantiki. Aina hizi za maswali zinahitaji uwezo wa kutoa majibu yanayoendana na muktadha badala ya kuchagua tu chaguo sahihi kutoka kwenye orodha. Ufanisi wa miundo ya AI katika kazi kama hizi unaweza kutofautiana sana na ufanisi wao katika maswali ya chaguo nyingi, ambayo inawakilisha eneo muhimu la utafiti wa baadaye.

Kikomo cha tano ni kwamba miundo ya AI haikujaribiwa chini ya shinikizo la wakati. Watahiniwa binadamu wanazuiliwa na mipaka kali ya wakati wakati wa mitihani, ambayo inaweza kuathiri ufanisi wao. Kinyume chake, miundo ya AI katika utafiti huu haikuwekwa chini ya shinikizo la wakati, ambayo iliwawezesha kufanya kazi bila shinikizo la mazingira yaliyopangwa.