वैद्यकीय शिक्षणात AI: TUS परीक्षेत LLM चे मूल्यमापन

परिचय

अलिकडच्या वर्षांत, कृत्रिम बुद्धिमत्ता (AI) आणि मोठ्या भाषेतील मॉडेल (LLM) यांसारख्या तंत्रज्ञानातील प्रगतीमुळे वैद्यकीय शिक्षण आणि ज्ञान मूल्यांकनाच्या पद्धतींमध्ये संभाव्य बदल घडून आले आहेत. विशेषतः, या विकासामुळे वैद्यकीय माहिती अधिक सुलभ झाली आहे आणि मूल्यांकन अधिक संवादात्मक झाले आहे.

पूर्वीच्या संशोधनात USMLE आणि JMLE सारख्या विविध वैद्यकीय परवाना परीक्षांमध्ये LLM च्या कामगिरीचा शोध घेण्यात आला आहे, परंतु या परीक्षांची रचना आणि सामग्री TUS पेक्षा लक्षणीयरीत्या वेगळी आहे. TUS मूलभूत विज्ञान आणि क्लिनिकल सायन्सवर लक्ष केंद्रित करते आणि विशेषतः तुर्की वैद्यकीय संदर्भावर लक्ष केंद्रित करते, जे LLM च्या क्षमतांचे मूल्यांकन करण्यासाठी एक अद्वितीय संधी प्रदान करते. या अभ्यासाचा उद्देश TUS मध्ये चार आघाडीच्या LLM च्या कामगिरीचे मूल्यांकन करून ही तूट भरून काढणे आहे. याव्यतिरिक्त, हा अभ्यास अभ्यासक्रम रचना, AI-सहाय्यक वैद्यकीय प्रशिक्षण आणि तुर्कीमधील वैद्यकीय मूल्यांकनाच्या भविष्यावर या निष्कर्षांच्या संभाव्य प्रभावांचा शोध घेतो. विशेषतः, आम्ही तपास करतो की LLM ची कामगिरी अधिक प्रभावी, तुर्की वैद्यकीय अभ्यासक्रमांसाठी तयार केलेले शैक्षणिक संसाधने आणि मूल्यांकन धोरणे विकसित करण्यासाठी माहिती कशी देऊ शकते. हे अन्वेषण केवळ विशिष्ट भाषेच्या कामगिरीमध्ये योगदान देत नाही, तर जागतिक वैद्यकीय शिक्षण आणि मूल्यांकनामध्ये AI ला प्रभावीपणे कसे समाकलित करावे याबद्दल विस्तृत चर्चेला देखील मदत करते.

या अभ्यासाचे निष्कर्ष दर्शवतात की ChatGPT आणि तत्सम LLM वैद्यकीय शिक्षण आणि ज्ञान मूल्यांकन प्रक्रियेत महत्त्वपूर्ण भूमिका बजावू शकतात. वैद्यकीय माहिती पुनर्प्राप्ती आणि मूल्यांकन पद्धतींमधील AI आणि LLM मुळे नाविन्यपूर्ण दृष्टीकोन आणि शिक्षण पद्धतींचा विकास होऊ शकतो, विशेषत: वैद्यकीय शिक्षणात. या अभ्यासाचा उद्देश ChatGPT 4, Gemini 1.5 Pro आणि Cohere-Command R+ यांच्या तुर्की वैद्यकीय विशेषज्ञता प्रशिक्षण प्रवेश परीक्षेत (TUS) केलेल्या कामगिरीचे मूल्यांकन करून वैद्यकीय शिक्षण आणि ज्ञान मूल्यांकनावर LLM च्या प्रभावाचा अधिक तपास करणे आहे.

हा अभ्यास प्रगत कृत्रिम बुद्धिमत्ता (AI) मॉडेल (विशेषत: ChatGPT 4, Gemini 1.5 Pro, Command R+ आणि Llama 3 70B) च्या वैद्यकीय शिक्षण आणि मूल्यमापनातील उपयोजनांचा शोध घेतो, वैद्यकीय विशेषज्ञता परीक्षांमधील समस्या सोडवण्यातील त्यांच्या कामगिरीवर लक्ष केंद्रित करतो. हा अभ्यास तुर्की वैद्यकीय विशेषज्ञता प्रशिक्षण प्रवेश परीक्षेतील प्रश्नांचे सर्वसमावेशक आणि पद्धतशीर विश्लेषण करण्याच्या या मॉडेलच्या क्षमतेचे मूल्यांकन करतो, स्पष्टीकरण क्षमता आणि अचूकता यांसारख्या घटकांचा विचार करताना वैद्यकशास्त्रातील AI ची क्षमता अधोरेखित करतो. अभ्यासाचे निष्कर्ष दर्शवतात की AI मॉडेल वैद्यकीय शिक्षण आणि मूल्यांकन प्रक्रियेस लक्षणीयरीत्या मदत करू शकतात, नवीन अनुप्रयोग आणि संशोधन क्षेत्रांसाठी मार्ग उघडतात. या पेपरचा मुख्य उद्देश AI तंत्रज्ञानातील जलद प्रगतीचे मूल्यांकन करणे आणि विविध AI मॉडेलच्या प्रतिसादात्मकतेची तुलना करणे आहे. या अभ्यासात ChatGPT 4, Gemini 1.5 Pro, Command R+ आणि Llama 3 70B यांचे तुलनात्मक विश्लेषण केले आहे, ज्यात 2021 च्या तुर्की वैद्यकीय विशेषज्ञता प्रशिक्षण प्रवेश परीक्षेच्या पहिल्या सत्रातील 240 प्रश्नांमधील त्यांच्या कामगिरीचे मूल्यांकन केले आहे.

हे तुलनात्मक विश्लेषण AI तंत्रज्ञानाचा विकास आणि फरक स्पष्ट करण्याच्या उद्देशाने केले आहे, विशेषत: वैद्यकीय शिक्षण आणि परीक्षा तयारी यांसारख्या विशेष क्षेत्रांमध्ये त्यांची उपयुक्तता यावर लक्ष केंद्रित केले आहे. अंतिम उद्दिष्ट अंतर्दृष्टी प्रदान करणे आहे, जेणेकरून वापरकर्त्यांना त्यांच्या विशिष्ट गरजांसाठी सर्वात योग्य शिक्षण साधन निवडण्यास मदत होईल.

पद्धती

हे प्रश्न LLM ला तुर्की भाषेत विचारले गेले. हे प्रश्न विद्यार्थी निवड आणि प्लेसमेंट सेंटरच्या अधिकृत वेबसाइटवरून प्राप्त केले गेले, जे एकाधिक निवड स्वरूपात (A ते E पर्यंत पाच पर्याय) होते, ज्यामध्ये फक्त एक सर्वोत्तम उत्तर होते. उत्तरे LLM द्वारे तुर्की भाषेत प्रदान केली गेली.

मूल्यांकन प्रक्रिया विद्यार्थी निवड आणि प्लेसमेंट सेंटरने प्रकाशित केलेल्या योग्य उत्तरांवर आधारित होती. लेखात नमूद केले आहे: ‘कृत्रिम बुद्धिमत्ता मॉडेलच्या प्रश्नाचे ‘योग्य’ उत्तर विद्यार्थी निवड आणि प्लेसमेंट सेंटरने प्रकाशित केलेल्या उत्तरांनुसार परिभाषित केले आहे. प्रश्नातील मजकुरात दिलेल्या सूचनांनुसार निश्चित केलेले उत्तरच ‘योग्य’ म्हणून स्वीकारले जाईल.’ प्रश्न आणि उत्तरे दोन्ही तुर्की भाषेत असल्याने, मूल्यांकन प्रक्रियेत LLM च्या तुर्की भाषेतील उत्तरांची तुलना विद्यार्थी निवड आणि प्लेसमेंट सेंटरने पुरवलेल्या अधिकृत तुर्की भाषेतील उत्तर की सोबत करणे समाविष्ट होते.

वैद्यकीय शिक्षण डेटासेट

या अभ्यासात ChatGPT 4, Gemini 1.5 Pro, Command R+ आणि Llama 3 70B चा वापर वैद्यकीय ज्ञान आणि केस मूल्यांकनाच्या बाबतीत कृत्रिम बुद्धिमत्ता मॉडेलची क्षमता तपासण्यासाठी करण्यात आला आहे. हा अभ्यास 21 मार्च 2021 रोजी झालेल्या तुर्की वैद्यकीय विशेषज्ञता प्रशिक्षण प्रवेश परीक्षेतील प्रश्नांवर आधारित आहे. तुर्की वैद्यकीय विशेषज्ञता प्रशिक्षण प्रवेश परीक्षा ही विद्यार्थी निवड आणि प्लेसमेंट सेंटरद्वारे आयोजित केलेली परीक्षा आहे, ज्यामध्ये 240 प्रश्न आहेत. पहिल्या श्रेणीतील मूलभूत ज्ञानाचे प्रश्न वैद्यकीय शिक्षण पूर्ण करण्यासाठी आवश्यक ज्ञान आणि नैतिकता तपासतात. दुसरी श्रेणी केस प्रश्नांची आहे, ज्यामध्ये अनेक रोगांचे विश्लेषण करण्याची आणि तर्क करण्याची क्षमता तपासली जाते.

प्रश्नांचे काठिण्य वर्गीकरण

प्रश्नांची काठिण्य पातळी विद्यार्थी निवड आणि प्लेसमेंट सेंटरने प्रकाशित केलेल्या अधिकृत उमेदवार कामगिरी डेटावर आधारित वर्गीकृत केली जाते. विशेषतः, प्रत्येक प्रश्नासाठी केंद्राने नोंदवलेल्या योग्य उत्तरांची टक्केवारी प्रश्नांना पाच काठिण्य स्तरांमध्ये विभागण्यासाठी वापरली जाते:

  • स्तर 1 (सर्वात सोपे): 80% किंवा त्याहून अधिक योग्य उत्तरांची टक्केवारी असलेले प्रश्न.
  • स्तर 2: 60% ते 79.9% दरम्यान योग्य उत्तरांची टक्केवारी असलेले प्रश्न.
  • स्तर 3 (मध्यम): 40% ते 59.9% दरम्यान योग्य उत्तरांची टक्केवारी असलेले प्रश्न.
  • स्तर 4: 20% ते 39.9% दरम्यान योग्य उत्तरांची टक्केवारी असलेले प्रश्न.
  • स्तर 5 (सर्वात कठीण): 19.9% किंवा त्याहून कमी योग्य उत्तरांची टक्केवारी असलेले प्रश्न.

कृत्रिम बुद्धिमत्ता मॉडेलच्या प्रश्नाचे ‘योग्य’ उत्तर विद्यार्थी निवड आणि प्लेसमेंट सेंटरने प्रकाशित केलेल्या उत्तरांनुसार परिभाषित केले आहे. प्रश्नातील मजकुरात दिलेल्या सूचनांनुसार निश्चित केलेले उत्तरच ‘योग्य’ म्हणून स्वीकारले जाईल. याव्यतिरिक्त, प्रत्येक प्रश्नाची काठिण्य पातळी विद्यार्थी निवड आणि प्लेसमेंट सेंटरने प्रकाशित केलेल्या योग्य उत्तरांच्या टक्केवारीनुसार 1 ते 5 पर्यंत वर्गीकृत केली जाते. 80% आणि त्याहून अधिक योग्य उत्तरांची टक्केवारी असलेले प्रश्न सर्वात सोपे (स्तर 1) मानले जातात, तर 19.9% आणि त्याहून कमी योग्य उत्तरांची टक्केवारी असलेले प्रश्न सर्वात कठीण (स्तर 5) मानले जातात.

ज्ञान आणि केस डोमेन

तुर्की वैद्यकीय विशेषज्ञता प्रशिक्षण प्रवेश परीक्षा ही तुर्कीमधील वैद्यकीय पदवीधरांसाठी विशेषज्ञता मिळवण्याकरिता एक महत्त्वपूर्ण पाऊल आहे, जी दोन महत्त्वाच्या क्षेत्रांतील उमेदवारांच्या ज्ञानाचे आणि केस डोमेनचे मूल्यांकन करते. या क्षेत्रांमधील फरक समजून घेणे तयारीसाठी आवश्यक आहे. ज्ञान डोमेन उमेदवारांच्या सैद्धांतिक समजांचे आणि तथ्यात्मक ज्ञानाचे मूल्यांकन करण्यावर लक्ष केंद्रित करते. हे मूलभूत संकल्पना आणि तत्त्वांचे ज्ञान तपासते आणि तज्ञांशी संबंधित वैद्यकीय माहिती स्थापित करते. हे चाचणी घेतलेल्या विशिष्ट वैद्यकीय ज्ञानाचे क्षेत्र दर्शवते, जसे की मूलभूत वैद्यकीय विज्ञान (शरीर रचना, जैव रसायनशास्त्र, शरीरक्रियाशास्त्र इ.) आणि क्लिनिकल सायन्स (अंतर्गत औषध, शस्त्रक्रिया, बालरोग इ.). दुसरीकडे, केस डोमेन वास्तविक परिस्थिती किंवा घटनांचे प्रतिनिधित्व करते, जसे की समस्या सोडवणे, विश्लेषणात्मक विचार, गंभीर विचार, निर्णय घेणे आणि वास्तविक परिस्थितीत संकल्पना लागू करणे.

प्रॉम्प्ट अभियांत्रिकी

प्रॉम्प्ट अभियांत्रिकी ही नैसर्गिक भाषेतील प्रॉम्प्ट्सची रचना आणि सूक्ष्म-ट्यूनिंग करण्याची प्रक्रिया आहे, जी भाषेतील मॉडेल किंवा AI प्रणालीकडून विशिष्ट प्रतिसाद मिळवण्यासाठी केली जाते. एप्रिल 2024 मध्ये, आम्ही भाषेतील मॉडेलला थेट त्यांच्या संबंधित वेब इंटरफेसद्वारे प्रश्न विचारून प्रतिसाद गोळा केले.

प्रत्येक मॉडेलच्या मूळ क्षमतेचे निष्पक्ष मूल्यांकन सुनिश्चित करण्यासाठी, LLM ला प्रश्न सादर करण्याच्या पद्धतीत कठोर नियंत्रण ठेवण्यात आले. प्रत्येक प्रश्न स्वतंत्रपणे प्रविष्ट केला गेला आणि मॉडेलला मागील संवादांवर आधारित शिकण्यास किंवा जुळवून घेण्यास प्रतिबंध करण्यासाठी नवीन प्रश्न विचारण्यापूर्वी सत्र रीसेट केले गेले.

डेटा विश्लेषण

सर्व विश्लेषणे मायक्रोसॉफ्ट ऑफिस एक्सेल आणि पायथन सॉफ्टवेअर वापरून केली गेली. LLM च्या विविध प्रश्नांच्या अडचणीनुसार केलेल्या कामगिरीची तुलना करण्यासाठी, अनपेयर्ड काई-स्क्वेअर चाचणी (Unpaired Chi-Square Test) केली गेली. सांख्यिकीय महत्त्व निश्चित करण्यासाठी p < 0.05 ची p-व्हॅल्यू थ्रेशोल्ड वापरली गेली. या विश्लेषणाने प्रश्नांच्या अडचणीच्या पातळीनुसार मॉडेलच्या अचूकतेमध्ये बदल होतो की नाही याचे मूल्यांकन केले.

नैतिक विचार

या अभ्यासात केवळ इंटरनेटवर प्रकाशित झालेल्या माहितीचा वापर केला गेला आहे आणि त्यात मानवी विषयांचा समावेश नाही. त्यामुळे, बास्केंट युनिव्हर्सिटी एथिक्स कमिटीच्या मंजुरीची आवश्यकता नाही.

निकाल

2021 च्या तुर्की वैद्यकीय विशेषज्ञता प्रशिक्षण प्रवेश परीक्षेच्या पहिल्या सत्रातील मूलभूत वैद्यकीय विज्ञान परीक्षेत सहभागी झालेल्या उमेदवारांच्या योग्य उत्तरांची सरासरी संख्या 51.63 होती. क्लिनिकल वैद्यकीय विज्ञान परीक्षेत योग्य उत्तरांची सरासरी संख्या 63.95 होती. क्लिनिकल वैद्यकीय विज्ञान परीक्षेत योग्य उत्तरांची सरासरी संख्या मूलभूत वैद्यकीय विज्ञान परीक्षेपेक्षा जास्त होती. या परिस्थितीच्या समांतर, कृत्रिम बुद्धिमत्ता तंत्रज्ञान देखील क्लिनिकल वैद्यकीय विज्ञान परीक्षेत अधिक यशस्वी ठरले.

AI कार्यप्रदर्शन

AI प्लॅटफॉर्मचे कार्यप्रदर्शन मानवी परीक्षार्थींसाठी वापरल्या जाणार्‍या समान मेट्रिक्स वापरून मोजले जाते.

  • ChatGPT 4:

    ChatGPT 4 ने मूलभूत वैद्यकीय विज्ञान विभागात 103 योग्य उत्तरांचे सरासरी गुण मिळवले, तर क्लिनिकल वैद्यकीय विज्ञान विभागात 110 योग्य उत्तरांचे सरासरी गुण मिळवले. हे 88.75% चे एकूण अचूकतेचे प्रतिनिधित्व करते, जे दोन्ही विभागांतील सरासरी मानवी परीक्षार्थींपेक्षा लक्षणीयरीत्या चांगले आहे (p < 0.001).

  • Llama 3 70B:

    Llama 3 70B ने मूलभूत वैद्यकीय विज्ञान विभागात 95 योग्य उत्तरांचे सरासरी गुण मिळवले, तर क्लिनिकल वैद्यकीय विज्ञान विभागात 95 योग्य उत्तरांचे सरासरी गुण मिळवले. हे 79.17% चे एकूण अचूकतेचे प्रतिनिधित्व करते, जे सरासरी मानवी कार्यक्षमतेपेक्षा लक्षणीयरीत्या जास्त आहे (p < 0.01).

  • Gemini 1.5 Pro:

    Gemini 1.5 Pro ने मूलभूत वैद्यकीय विज्ञान विभागात 94 योग्य उत्तरांचे सरासरी गुण मिळवले, तर क्लिनिकल वैद्यकीय विज्ञान विभागात 93 योग्य उत्तरांचे सरासरी गुण मिळवले. हे 78.13% चे एकूण अचूकतेचे प्रतिनिधित्व करते, जे सरासरी मानवी कार्यक्षमतेपेक्षा लक्षणीयरीत्या जास्त आहे (p < 0.01).

  • Command R+:

    Command R+ ने मूलभूत वैद्यकीय विज्ञान विभागात 60 योग्य उत्तरांचे सरासरी गुण मिळवले, तर क्लिनिकल वैद्यकीय विज्ञान विभागात 60 योग्य उत्तरांचे सरासरी गुण मिळवले. हे 50% चे एकूण अचूकतेचे प्रतिनिधित्व करते, जे मूलभूत वैद्यकीय विज्ञान विभागातील सरासरी मानवी कार्यक्षमतेपेक्षा लक्षणीयरीत्या वेगळे नाही (p = 0.12), परंतु क्लिनिकल वैद्यकीय विज्ञान विभागात लक्षणीयरीत्या कमी आहे (p < 0.05).

AI प्लॅटफॉर्मचे कार्यप्रदर्शन मानवी परीक्षार्थींसाठी वापरल्या जाणार्‍या समान मेट्रिक्स वापरून मोजले जाते.

आकृती 3 प्रश्नांच्या अडचणीनुसार विविध LLM च्या अचूकतेची तुलना करते - ChatGPT 4: सर्वोत्तम कामगिरी करणारे मॉडेल. प्रश्नांची अडचण वाढल्यास अचूकता वाढते, अगदी सर्वात आव्हानात्मक प्रश्नांमध्येही 70% च्या जवळपास अचूकता असते - Llama 3 70B: मध्यम कामगिरी करणारे मॉडेल. प्रश्नांची अडचण वाढल्यास अचूकता आधी वाढते आणि नंतर कमी होते. सर्वात आव्हानात्मक प्रश्नांमध्ये त्याची अचूकता सुमारे 25% आहे. Gemini 1.5 70B: त्याची कामगिरी Llama 3 70B प्रमाणेच आहे. प्रश्नांची अडचण वाढल्यास अचूकता आधी वाढते आणि नंतर कमी होते. सर्वात आव्हानात्मक प्रश्नांमध्ये त्याची अचूकता सुमारे 20% आहे. Command R+: सर्वात कमी कामगिरी करणारे मॉडेल. त्याची अचूकता प्रश्नांची अडचण वाढल्यास कमी होते आणि सर्वात आव्हानात्मक प्रश्नांमध्ये सुमारे 15% राहते

एकंदरीत, ChatGPT 4 हे प्रश्नांच्या अडचणीमुळे सर्वात कमी प्रभावित होणारे मॉडेल आहे आणि त्याची एकूण अचूकता सर्वाधिक आहे. Llama 3 70B आणि Gemini 1.5 Pro मध्यम कामगिरी करतात, तर Command R+ ची यशस्विता इतर मॉडेलपेक्षा कमी आहे. प्रश्नांची अडचण वाढल्यास मॉडेलची अचूकता कमी होते. हे दर्शवते की LLM ला जटिल प्रश्न समजून घेण्यात आणि त्यांची अचूक उत्तरे देण्यात अजून सुधारणा करण्याची आवश्यकता आहे.

तक्ता 1 मध्ये, ChatGPT 4 मॉडेल 88.75% च्या यशस्वितेसह सर्वोत्तम कामगिरी करणारे मॉडेल ठरले आहे. हे दर्शवते की प्रश्नांची उत्तरे अचूकपणे समजून घेण्याची आणि देण्याची त्याची क्षमता चांगली आहे. Llama 3 70B मॉडेल 79.17% च्या यशस्वितेसह दुसर्‍या क्रमांकावर आहे. जरी ते ChatGPT 4 मॉडेलपेक्षा मागे असले, तरी ते प्रश्नांची उत्तरे देण्याची उच्च पातळी दर्शवते. Gemini 1.5 Pro मॉडेल 78.13% च्या यशस्वितेसह तिसर्‍या क्रमांकावर आहे. त्याची कामगिरी Llama 3 70B मॉडेलच्या जवळपास आहे, जी प्रश्नांची उत्तरे देण्याची त्याची मजबूत क्षमता दर्शवते. दुसरीकडे, Command R+ मॉडेल इतर मॉडेलपेक्षा मागे आहे, त्याची यशस्विता 50% आहे. हे दर्शवते की त्याला विशिष्ट प्रश्नांमध्ये अडचणी येऊ शकतात किंवा त्याची कामगिरी सुधारण्यासाठी अधिक सूक्ष्म-ट्यूनिंगची आवश्यकता आहे. योग्य उत्तरांचे वितरण वेगवेगळ्या अडचणीच्या स्तरांवर आधारित आहे. उदाहरणार्थ, सर्व मॉडेलने सोप्या प्रश्नांमध्ये (अडचण स्तर 1) चांगली कामगिरी केली, ज्यात ChatGPT 4 मॉडेलने परिपूर्ण गुण मिळवले. मध्यम अडचणीच्या प्रश्नांमध्ये (स्तर 2 आणि 3), ChatGPT 4 आणि Llama 3 70B मॉडेलने चांगली कामगिरी करणे सुरू ठेवले.

याउलट, Gemini 1.5 Pro मॉडेलमध्ये काही कमतरता दिसून येऊ लागल्या. कठीण प्रश्नांमध्ये (स्तर 4 आणि 5), सर्व मॉडेलच्या कामगिरीत घट झाली, ज्यात Command R+ मॉडेलला सर्वाधिक संघर्ष करावा लागला. एकंदरीत, हे निकाल प्रत्येक AI मॉडेलच्या सामर्थ्य आणि कमकुवतपणाबद्दल मौल्यवान अंतर्दृष्टी देतात आणि भविष्यातील विकास आणि सुधारणा प्रयत्नांना मार्गदर्शन करू शकतात

तक्ता 3 मध्ये, मूलभूत वैद्यकीय विज्ञानातील जैव रसायनशास्त्र (Biochemistry) विषयात ChatGPT 4 ला परिपूर्ण गुण मिळाले आहेत, जे या क्षेत्रातील प्रश्नांची उत्तरे देण्याची त्याची उत्कृष्ट क्षमता सिद्ध करते. Llama 3 70B आणि Gemini 1.5 Pro यांनी देखील चांगली कामगिरी केली, परंतु Command R+ ची अचूकता 50% होती, त्यामुळे त्याची कामगिरी समाधानकारक नव्हती. औषधशास्त्र (Pharmacology), रोगशास्त्र (Pathology) आणि सूक्ष्म जीवशास्त्र (Microbiology) मध्ये सर्वोत्तम कामगिरी करणार्‍या मॉडेलनी (ChatGPT 4 आणि Llama 3 70B) माहितीची तीव्र सुसंगतता दर्शविली, त्यांची अचूकता 81% ते 90% दरम्यान होती. Gemini 1.5 Pro आणि Command R+ मागे राहिले, परंतु त्यांनी अजूनही चांगली कामगिरी केली. शरीर रचना (Anatomy) आणि शरीरक्रियाशास्त्र (Physiology) विषयांनी मॉडेलला काही प्रमाणात आव्हान दिले. ChatGPT 4 आणि Meta AI-Llama 3 70B यांनी चांगली कामगिरी केली, तर Gemini 1.5 Pro आणि Command R+ ची अचूकता 70% पेक्षा कमी होती, त्यामुळे त्यांची कामगिरी समाधानकारक नव्हती.

क्लिनिकल वैद्यकीय विज्ञानातील बालरोग (Pediatrics) विषय सर्व मॉडेलसाठी महत्त्वाचा होता, ज्यात ChatGPT 4 ने जवळजवळ परिपूर्ण गुण (90%) मिळवले. Llama 3 70B ने चांगली कामगिरी केली आणि Command R+ ने देखील 43% अचूकता मिळवली. अंतर्गत औषध (Internal Medicine) आणि सामान्य शस्त्रक्रिया (General Surgery) विषयात सर्वोत्तम मॉडेलने चांगली कामगिरी केली, त्यांची अचूकता 79% ते 90% दरम्यान होती. Gemini 1.5 Pro आणि Command R+ मागे राहिले, परंतु त्यांनी अजूनही चांगली कामगिरी केली. भूलशास्त्र (Anesthesiology) आणि पुनरुज्जीवन (Resuscitation), आपत्कालीन औषध (Emergency Medicine), न्यूरोलॉजी (Neurology) आणि त्वचाविज्ञान (Dermatology) यांसारख्या विषयांतील प्रश्नांची संख्या कमी होती, परंतु मॉडेलने एकंदरीत चांगली कामगिरी केली. ChatGPT 4 आणि Llama 3 70B ने या क्षेत्रांमध्ये उत्कृष्ट अचूकता दर्शविली

मॉडेलच्या तुलनेत, ChatGPT 4 हे बहुतेक क्षेत्रांमध्ये सर्वोत्तम कामगिरी करणारे मॉडेल आहे, ज्याची एकूण अचूकता 88.75% आहे. मूलभूत वैद्यकीय आणि क्लिनिकल वैद्यकीय विज्ञान प्रश्नांची अचूक उत्तरे देण्याची त्याची क्षमता हे त्याचे वैशिष्ट्य आहे. Llama 3 70B 79.17% च्या एकूण अचूकतेसह दुसर्‍या क्रमांकावर आहे. जरी ते ChatGPT 4 च्या कामगिरीशी पूर्णपणे जुळत नसले, तरी ते विविध क्षेत्रांमध्ये ज्ञानाची तीव्र सुसंगतता दर्शवते. Gemini 1.5 Pro आणि Command R+ मागे राहिले, ज्यांची एकूण अचूकता अनुक्रमे 78.13% आणि 50% आहे. जरी त्यांनी काही क्षेत्रांमध्ये आशादायक कामगिरी दर्शविली, तरी त्यांना सर्व क्षेत्रांमध्ये सुसंगतता राखण्यात अडचण आली

थोडक्यात, ChatGPT 4 हे सध्या विविध क्षेत्रांतील वैद्यकीय विज्ञान प्रश्नांची उत्तरे देण्यासाठी सर्वोत्तम मॉडेल आहे. Gemini 1.5 Pro आणि Command R+ क्षमता दर्शवतात, परंतु सर्वोत्तम कामगिरी करणार्‍या मॉडेलशी स्पर्धा करण्यासाठी त्यांना लक्षणीय सुधारणा करण्याची आवश्यकता आहे

तक्ता 4 मध्ये, ज्ञान क्षेत्रात, ChatGPT 4 ची मूलभूत वैद्यकीय विज्ञानातील अचूकता 86.7% (85/98) आहे, जी इतर मॉडेलपेक्षा चांगली आहे. ChatGPT 4 ने पुन्हा सर्वोत्तम कामगिरी केली, क्लिनिकल वैद्यकीय विज्ञानातील अचूकता 89.7% (61/68) आहे. केस क्षेत्रात, ChatGPT 4 ची मूलभूत वैद्यकीय विज्ञानातील अचूकता 81.8% (18/22) आहे. क्लिनिकल वैद्यकीय विज्ञानात ChatGPT 4 ची कामगिरी समान आहे, अचूकता 94.2% (49/52) आहे

मॉडेलची जोडीनुसार तुलना दर्शवते की ChatGPT 4 दोन्ही क्षेत्रात आणि प्रश्नांच्या प्रकारात इतर मॉडेलपेक्षा लक्षणीयरीत्या चांगले आहे. Llama 3 70B आणि Gemini 1.5 Pro ची कामगिरी समान आहे, तर Command R+ मागे आहे. या विश्लेषणाच्या आधारे, आपण असा निष्कर्ष काढू शकतो की ChatGPT 4 ज्ञान आणि केस क्षेत्रात तसेच मूलभूत वैद्यकीय विज्ञान आणि क्लिनिकल वैद्यकीय विज्ञान क्षेत्रात उत्कृष्ट कामगिरी दर्शवते.

सांख्यिकीय विश्लेषण

LLM च्या कामगिरीचे विश्लेषण मायक्रोसॉफ्ट ऑफिस एक्सेल आणि पायथन (आवृत्ती 3.10.2) वापरून केले गेले. विविध प्रश्नांच्या अडचणीच्या पातळीनुसार मॉडेलच्या कामगिरीची तुलना करण्यासाठी, अनपेयर्ड काई-स्क्वेअर चाचणी (Unpaired Chi-Square Test) केली गेली. प्रत्येक AI मॉडेलच्या योग्य आणि अयोग्य उत्तरांसाठी अडचणीच्या पातळीनुसार कॉन्टिंगेंसी टेबल (Contingency Table) तयार केले गेले आणि अडचणीच्या पातळीनुसार कामगिरीमध्ये सांख्यिकीयदृष्ट्या महत्त्वपूर्ण फरक आहे की नाही हे निर्धारित करण्यासाठी काई-स्क्वेअर चाचणी लागू केली गेली. सांख्यिकीय महत्त्व निश्चित करण्यासाठी <0.05 ची p-व्हॅल्यू थ्रेशोल्ड वापरली गेली. ChatGPT 4 ची p-व्हॅल्यू 0.00028 आहे आणि ती p < 0.05 असताना महत्त्वपूर्ण आहे, जी दर्शवते की वेगवेगळ्या अडचणीच्या पातळीनुसार कामगिरीमध्ये महत्त्वपूर्ण फरक आहे. Gemini 1.5 Pro ची p-व्हॅल्यू 0.047 आहे आणि ती p < 0.05 असताना महत्त्वपूर्ण आहे, जी दर्शवते की वेगवेगळ्या अडचणीच्या पातळीनुसार कामगिरीमध्ये महत्त्वपूर्ण फरक आहे. Command R+ ची p-व्हॅल्यू 0.197 आहे आणि ती p < 0.05 असताना महत्त्वपूर्ण नाही, जी दर्शवते की वेगवेगळ्या अडचणीच्या पातळीनुसार कामगिरीमध्ये महत्त्वपूर्ण फरक नाही. Llama 3 70B ची p-व्हॅल्यू 0.118 आहे आणि ती p < 0.05 असताना महत्त्वपूर्ण नाही, जी दर्शवते की वेगवेगळ्या अडचणीच्या पातळीनुसार कामगिरीमध्ये महत्त्वपूर्ण फरक नाही.

ChatGPT 4 आणि Gemini 1.5 Pro च्या अचूकतेमध्ये वेगवेगळ्या प्रश्नांच्या अडचणीनुसार सांख्यिकीयदृष्ट्या महत्त्वपूर्ण फरक दिसून येतो, जे दर्शवते की प्रश्नांच्या अडचणीनुसार त्यांच्या कामगिरीत लक्षणीय बदल होतो. Command R+ आणि Llama 3 70B ने अडचणीच्या पातळीनुसार कामगिरीमध्ये महत्त्वपूर्ण फरक दर्शविला नाही, जे दर्शवते की प्रश्नांची अडचण काहीही असो, त्यांची कामगिरी अधिक सुसंगत आहे. हे निकाल सूचित करतात की वेगवेगळ्या मॉडेलमध्ये वेगवेगळ्या अडचणींशी संबंधित जटिलता आणि विषयांना हाताळण्यात वेगवेगळी सामर्थ्ये आणि कमकुवतपणा आहेत.

चर्चा

TUS ही तुर्कीमधील वैद्यकीय पदवीधरांसाठी विशेषज्ञता प्रशिक्षणासाठी एक महत्त्वपूर्ण राष्ट्रीय परीक्षा आहे. या परीक्षेत मूलभूत विज्ञान आणि क्लिनिकल सायन्सवर आधारित अनेक निवड प्रश्नांचा समावेश असतो आणि व्यावसायिक अभ्यासक्रमांमध्ये रँकिंग निश्चित करण्यासाठी केंद्रित रँकिंग प्रणाली असते

TUS मध्ये मोठ्या भाषेतील मॉडेलच्या कामगिरीचे मूल्यांकन करताना, GPT-4 हे सर्वोत्तम कामगिरी करणारे मॉडेल ठरले. त्याचप्रमाणे, ChatGPT हे एक शक्तिशाली AI मॉडेल आहे, ज्याने शस्त्रक्रिया क्षेत्रात मानवी पातळीच्या जवळपास कामगिरी दर्शविली, ज्याने अनुक्रमे 71% आणि 68% बहुपर्यायी प्रश्न SCORE आणि Data-B अचूकपणे सोडवले. याव्यतिरिक्त, ChatGPT ने सार्वजनिक आरोग्य परीक्षेत उत्कृष्ट कामगिरी केली, सध्याच्या उत्तीर्ण दरापेक्षा जास्त गुण मिळवले आणि अद्वितीय अंतर्दृष्टी प्रदान केली. हे निष्कर्ष GPT-4 आणि ChatGPT च्या वैद्यकीय मूल्यांकनातील उत्कृष्ट कामगिरीवर प्रकाश टाकतात, वैद्यकीय शिक्षण आणि संभाव्य निदान सहाय्य वाढवण्याची त्यांची क्षमता दर्शवतात.

वैद्यकीय शिक्षणतज्ज्ञ आणि परीक्षकांसाठी, LLM ची वाढती अचूकता परीक्षा रचना आणि मूल्यांकनासंदर्भात महत्त्वपूर्ण प्रश्न निर्माण करते. जर AI मॉडेल मानकीकृत वैद्यकीय परीक्षा उच्च अचूकतेने सोडवू शकत असतील, तर भविष्यातील मूल्यांकनांमध्ये साध्या स्मरणशक्तीपेक्षा उच्च-स्तरीय तर्क आणि क्लिनिकल निर्णयावर आधारित प्रश्नांचा समावेश करणे आवश्यक असू शकते. याव्यतिरिक्त, तुर्कीमधील वैद्यकीय संस्था AI-सहाय्यक शिक्षण धोरणे शोधू शकतात, जसे की विद्यार्थ्यांच्या वैयक्तिक गरजेनुसार तयार केलेली शिक्षण सामग्री प्रदान करणार्‍या शिकाऊ प्रणाली.

राष्ट्रीय दृष्टिकोनातून, हा अभ्यास तुर्कीमधील वैद्यकीय शिक्षणात AI चे महत्त्व दर्शवितो. तुर्की भाषेतील वैद्यकीय प्रश्नांमध्ये LLM ची चांगली कामगिरी लक्षात घेता, ते कमी सेवा असलेल्या भागांतील विद्यार्थ्यांना उच्च-गुणवत्तेची शैक्षणिक संसाधने मिळवण्यासाठी मदत करू शकतात. याव्यतिरिक्त, धोरण निर्मात्यांनी AI मॉडेलला तुर्कीमधील आरोग्यसेवा व्यावसायिकांसाठी चालू वैद्यकीय शिक्षण आणि आजीवन शिक्षण कार्यक्रमांमध्ये कसे समाकलित करावे याचा विचार केला पाहिजे.

थोडक्यात, ChatGPT-4 सारख्या AI मॉडेलने उल्लेखनीय अचूकता दर्शविली असली, तरी वैद्यकीय शिक्षणातील त्यांची भूमिका काळजीपूर्वक तपासली जावी. AI-सहाय्यक शिक्षणाचे संभाव्य फायदे खूप मोठे आहेत, परंतु योग्य अंमलबजावणीसाठी हे सुनिश्चित करणे आवश्यक आहे की ही साधने जबाबदारीने, नैतिक पद्धतीने आणि मानवी तज्ञांच्या संयोगाने वापरली जातील.

मर्यादा

हा अभ्यास तुर्की वैद्यकीय विशेषज्ञता प्रशिक्षण प्रवेश परीक्षेत (TUS) मोठ्या भाषेतील मॉडेल (LLM) च्या कामगिरीबद्दल मौल्यवान अंतर्दृष्टी प्रदान करतो, परंतु अभ्यासाचे निष्कर्ष संदर्भात ठेवण्यासाठी आणि भविष्यातील संशोधनाला मार्गदर्शन करण्यासाठी काही महत्त्वपूर्ण मर्यादा ओळखणे आवश्यक आहे. सर्वप्रथम, या अभ्यासात मूल्यांकन केलेल्या AI मॉडेलच्या प्रशिक्षण डेटामध्ये TUS प्रश्नांचा समावेश आहे की नाही हे निश्चित नाही. भूतकाळातील TUS प्रश्न सार्वजनिकपणे उपलब्ध असल्याने, या अभ्यासात वापरलेले प्रश्न मॉडेलच्या प्रशिक्षण डेटाचा भाग असू शकतात. यामुळे मॉडेलची कामगिरी खर्‍या समजाचे प्रतिबिंब आहे की केवळ विशिष्ट प्रश्न लक्षात ठेवण्याची क्षमता आहे याबद्दल चिंता निर्माण होते. भविष्यातील अभ्यासांनी AI मॉडेल खरी तर्क क्षमता दर्शवतात की लक्षात ठेवलेल्या माहितीवर अवलंबून असतात याचे मूल्यांकन करण्यासाठी पद्धती विकसित केल्या पाहिजेत.

दुसरे म्हणजे, AI मॉडेलमध्ये त्यांच्या प्रशिक्षण डेटामधून उद्भवणारे पूर्वग्रह दर्शविण्याची क्षमता आहे. हे पूर्वग्रह प्रशिक्षण डेटामध्ये काही वैद्यकीय परिस्थिती, लोकसंख्या किंवा दृष्टिकोन यांच्या असंतुलित प्रतिनिधित्वामुळे उद्भवू शकतात. उदाहरणार्थ, प्रत्येक भाषेत उपलब्ध असलेल्या प्रशिक्षण डेटाच्या प्रमाणात आणि गुणवत्तेत भिन्नता असल्यामुळे, तुर्की भाषेतील मॉडेलची कामगिरी इंग्रजीपेक्षा वेगळी असू शकते. याव्यतिरिक्त, तुर्कीमधील स्थानिक आरोग्य पद्धती किंवा सांस्कृतिक संदर्भांचे ज्ञान आवश्यक असलेल्या प्रश्नांची उत्तरे देण्यात हे मॉडेल कमी अचूक असू शकतात. हे पूर्वग्रह निकालांच्या व्यापकतेला मर्यादित करू शकतात आणि वैद्यकीय शिक्षण आणि सरावांमध्ये AI चा वापर करण्याच्या नैतिक चिंतेस जन्म देऊ शकतात.

तिसरी मर्यादा म्हणजे, हा अभ्यास केवळ बहुपर्यायी प्रश्नांवर लक्ष केंद्रित करतो. वास्तविक जगातील क्लिनिकल सरावांमध्ये, आरोग्यसेवा व्यावसायिकांकडे जटिल प्रकरणांवर तर्क करणे, संदिग्ध निष्कर्षांचे स्पष्टीकरण करणे आणि अनिश्चिततेत निर्णय घेण्याची कौशल्ये असणे आवश्यक आहे. याव्यतिरिक्त, निदान, उपचार योजना आणि धोके स्पष्ट आणि सहानुभूतीपूर्ण पद्धतीने रूग्णांना आणि सहकार्‍यांना सांगण्याची क्षमता महत्त्वपूर्ण आहे. AI मॉडेलमध्ये ही कार्ये करण्याची क्षमता अजून तपासली गेली नाही आणि त्यांची क्षमता त्यांच्या सध्याच्या रचना आणि प्रशिक्षणामुळे मर्यादित असू शकते. भविष्यातील अभ्यासांनी AI मॉडेलचे अधिक वास्तविक परिस्थितीत मूल्यांकन केले पाहिजे, जसे की क्लिनिकल केस सिम्युलेशन आणि मुक्त-उत्तरांचे मूल्यांकन.

चौथी मर्यादा म्हणजे, या अभ्यासात मुक्त-उत्तरांच्या प्रश्नांचा समावेश केलेला नाही. उच्च-स्तरीय संज्ञानात्मक कौशल्ये (जसे की गंभीर विचार, माहिती संश्लेषण आणि क्लिनिकल तर्क) यांचे मूल्यांकन करण्यासाठी मुक्त-उत्तरांचे प्रश्न महत्त्वपूर्ण आहेत. या प्रकारच्या प्रश्नांना सूचीमधून योग्य पर्याय निवडण्याऐवजी सुसंगत आणि संदर्भाशी संबंधित प्रतिसाद निर्माण करण्याची क्षमता आवश्यक असते. AI मॉडेलची अशा कार्यांमधील कामगिरी बहुपर्यायी प्रश्नांमधील कामगिरीपेक्षा खूप वेगळी असू शकते, जे भविष्यातील संशोधनासाठी एक महत्त्वाचे क्षेत्र दर्शवते.

पाचवी मर्यादा म्हणजे, AI मॉडेलची चाचणी वेळेच्या दबावाखाली घेण्यात आलेली नाही. मानवी परीक्षार्थींना परीक्षेदरम्यान कठोर वेळेच्या निर्बंधांना सामोरे जावे लागते, ज्यामुळे त्यांच्या कामगिरीवर परिणाम होतो. याउलट, या अभ्यासातील AI मॉडेलवर वेळेचा दबाव नव्हता, ज्यामुळे त्यांना वेळेच्या दबावाशिवाय