चिकित्सा शिक्षा में AI: एक मूल्यांकन

चिकित्सा शिक्षा में AI की भूमिका: तुर्की चिकित्सा विशेषता प्रशिक्षण प्रवेश परीक्षा में बड़े भाषा मॉडल का मूल्यांकन

परिचय

हाल के वर्षों में, कृत्रिम बुद्धिमत्ता (AI) और बड़े भाषा मॉडल (LLM) जैसी तकनीकी प्रगति ने चिकित्सा शिक्षा और ज्ञान मूल्यांकन विधियों में संभावित परिवर्तन लाए हैं। विशेष रूप से, ये विकास चिकित्सा जानकारी को अधिक सुलभ बना सकते हैं और मूल्यांकन को अधिक इंटरैक्टिव बना सकते हैं।

पिछले अध्ययनों ने विभिन्न चिकित्सा लाइसेंस परीक्षाओं, जैसे कि संयुक्त राज्य चिकित्सा लाइसेंस परीक्षा (USMLE) और जापानी चिकित्सा लाइसेंस परीक्षा (JMLE) में LLM के प्रदर्शन का पता लगाया है, लेकिन इन परीक्षाओं की संरचना और सामग्री TUS से काफी भिन्न है। TUS बुनियादी विज्ञान और नैदानिक ​​विज्ञान पर केंद्रित है, और तुर्की चिकित्सा संदर्भ पर विशेष ध्यान देता है, जो एक अद्वितीय मूल्यांकन वातावरण में LLM की क्षमताओं का आकलन करने का एक अनूठा अवसर प्रदान करता है। इस अध्ययन का उद्देश्य चार प्रमुख LLM के TUS में प्रदर्शन का मूल्यांकन करके इस अंतर को भरना है। इसके अतिरिक्त, यह अध्ययन पाठ्यक्रम डिजाइन, AI-सहायता प्राप्त चिकित्सा प्रशिक्षण और तुर्की चिकित्सा मूल्यांकन के भविष्य पर इन निष्कर्षों के संभावित प्रभावों का पता लगाता है। विशेष रूप से, हम जांच करते हैं कि LLM का प्रदर्शन कैसे अधिक प्रभावी, तुर्की चिकित्सा पाठ्यक्रम के अनुरूप शैक्षिक संसाधनों और मूल्यांकन रणनीतियों के विकास को सूचित कर सकता है। यह जांच न केवल विशिष्ट भाषा के प्रदर्शन को समझने में मदद करती है, बल्कि वैश्विक चिकित्सा शिक्षा और मूल्यांकन में AI को प्रभावी ढंग से एकीकृत करने के बारे में व्यापक चर्चा में भी योगदान करती है।

इन अध्ययनों के परिणाम बताते हैं कि ChatGPT और इसी तरह के LLM चिकित्सा शिक्षा और ज्ञान मूल्यांकन प्रक्रियाओं में महत्वपूर्ण भूमिका निभा सकते हैं। चिकित्सा सूचना पुनर्प्राप्ति और मूल्यांकन विधियों में कृत्रिम बुद्धिमत्ता और LLM चिकित्सा शिक्षा में विशेष रूप से नवीन दृष्टिकोण और शिक्षण विधियों के विकास को सक्षम कर सकते हैं। इस अध्ययन का उद्देश्य ChatGPT 4, Gemini 1.5 Pro और Cohere-Command R+ के तुर्की चिकित्सा विशेषता प्रशिक्षण प्रवेश परीक्षा में प्रदर्शन का मूल्यांकन करके चिकित्सा शिक्षा और ज्ञान मूल्यांकन पर LLM के प्रभाव की और जांच करना है।

यह अध्ययन उन्नत कृत्रिम बुद्धिमत्ता (AI) मॉडल (विशेष रूप से ChatGPT 4, Gemini 1.5 Pro, Command R+ और Llama 3 70B) के चिकित्सा शिक्षा और मूल्यांकन में अनुप्रयोगों का पता लगाता है, जिसमें चिकित्सा विशेषता परीक्षा प्रश्नों को हल करने में उनके प्रदर्शन पर ध्यान केंद्रित किया गया है। अध्ययन में तुर्की चिकित्सा विशेषता प्रशिक्षण प्रवेश परीक्षा के प्रश्नों का व्यापक और व्यवस्थित विश्लेषण करने के लिए इन मॉडलों की क्षमताओं का मूल्यांकन किया गया, जिसमें व्याख्यात्मक क्षमताओं और सटीकता जैसे कारकों पर विचार करते हुए चिकित्सा में AI की क्षमता पर प्रकाश डाला गया। अध्ययन के निष्कर्ष बताते हैं कि AI मॉडल चिकित्सा शिक्षा और मूल्यांकन प्रक्रियाओं को महत्वपूर्ण रूप से सुविधाजनक बना सकते हैं, नए अनुप्रयोगों और अनुसंधान के क्षेत्रों के लिए मार्ग प्रशस्त कर सकते हैं। इस लेख का मुख्य उद्देश्य AI प्रौद्योगिकियों में तेजी से प्रगति का मूल्यांकन करना और विभिन्न AI मॉडलों की प्रतिक्रिया क्षमताओं की तुलना करना है। इस अध्ययन में ChatGPT 4, Gemini 1.5 Pro, Command R+ और Llama 3 70B की तुलनात्मक विश्लेषण किया गया, जिसमें 2021 के तुर्की चिकित्सा विशेषता प्रशिक्षण प्रवेश परीक्षा के पहले सेमेस्टर के 240 प्रश्नों में उनके प्रदर्शन का मूल्यांकन किया गया।

इस तुलना का उद्देश्य AI प्रौद्योगिकियों के विकास पथ और अंतर को स्पष्ट करना है, जिसमें चिकित्सा शिक्षा और परीक्षा की तैयारी जैसे विशिष्ट क्षेत्रों में उनकी उपयोगिता पर ध्यान केंद्रित किया गया है। अंतिम लक्ष्य उपयोगकर्ताओं को उनकी विशिष्ट आवश्यकताओं के लिए सबसे उपयुक्त शिक्षण उपकरण चुनने में मदद करने के लिए अंतर्दृष्टि प्रदान करना है।

विधि

ये प्रश्न LLM को तुर्की भाषा में पूछे गए थे। ये प्रश्न छात्र चयन और प्लेसमेंट केंद्र की आधिकारिक वेबसाइट से प्राप्त किए गए थे, बहुविकल्पीय प्रश्न प्रारूप (A से E तक पांच विकल्पों के साथ) में, केवल एक सर्वश्रेष्ठ उत्तर के साथ। उत्तर LLM द्वारा तुर्की भाषा में प्रदान किए गए थे।

मूल्यांकन प्रक्रिया छात्र चयन और प्लेसमेंट केंद्र द्वारा जारी किए गए सही उत्तरों पर आधारित थी। लेख में उल्लेख किया गया है: ‘कृत्रिम बुद्धिमत्ता मॉडल के प्रश्नों का ‘सही’ उत्तर छात्र चयन और प्लेसमेंट केंद्र द्वारा जारी किए गए उत्तरों के अनुसार परिभाषित किया गया है। केवल प्रश्न पाठ में दिए गए निर्देशों के अनुसार निर्धारित किए गए उत्तरों को ‘सही’ के रूप में स्वीकार किया जाता है। चूंकि प्रश्न और उत्तर दोनों तुर्की भाषा में हैं, इसलिए मूल्यांकन प्रक्रिया में LLM के तुर्की उत्तरों की तुलना छात्र चयन और प्लेसमेंट केंद्र द्वारा प्रदान किए गए आधिकारिक तुर्की उत्तर कुंजी से करना शामिल है।

चिकित्सा शिक्षा डेटासेट

इस अध्ययन ने चिकित्सा ज्ञान और मामले के मूल्यांकन के संदर्भ में कृत्रिम बुद्धिमत्ता मॉडल की क्षमताओं का परीक्षण करने के लिए ChatGPT 4, Gemini 1.5 Pro, Command R+ और Llama 3 70B का उपयोग किया। अध्ययन 21 मार्च, 2021 को आयोजित तुर्की चिकित्सा विशेषता प्रशिक्षण प्रवेश परीक्षा के प्रश्नों पर किया गया था। तुर्की चिकित्सा विशेषता प्रशिक्षण प्रवेश परीक्षा छात्र चयन और प्लेसमेंट केंद्र द्वारा आयोजित एक परीक्षा है, जिसमें 240 प्रश्न शामिल हैं। पहली श्रेणी में बुनियादी ज्ञान के प्रश्न होते हैं जो चिकित्सा शिक्षा को पूरा करने के लिए आवश्यक ज्ञान और नैतिकता का परीक्षण करते हैं। दूसरी श्रेणी मामले के प्रश्न हैं, जिसमें बड़ी संख्या में मापने वाली विश्लेषणात्मक सोच और तर्क क्षमता वाले रोगों को शामिल किया गया है।

प्रश्न कठिनाई वर्गीकरण

प्रश्नों के कठिनाई स्तर को छात्र चयन और प्लेसमेंट केंद्र द्वारा जारी किए गए आधिकारिक उम्मीदवार प्रदर्शन डेटा के अनुसार वर्गीकृत किया गया है। विशेष रूप से, केंद्र द्वारा रिपोर्ट किए गए प्रत्येक प्रश्न के लिए सही उत्तर दर का उपयोग प्रश्नों को पाँच कठिनाई स्तरों में विभाजित करने के लिए किया गया था:

  • स्तर 1 (सबसे आसान): 80% या उससे अधिक की सही उत्तर दर वाले प्रश्न।
  • स्तर 2: 60% से 79.9% के बीच सही उत्तर दर वाले प्रश्न।
  • स्तर 3 (मध्यम): 40% से 59.9% के बीच सही उत्तर दर वाले प्रश्न।
  • स्तर 4: 20% से 39.9% के बीच सही उत्तर दर वाले प्रश्न।
  • स्तर 5 (सबसे कठिन): 19.9% या उससे कम की सही उत्तर दर वाले प्रश्न।

कृत्रिम बुद्धिमत्ता मॉडल के प्रश्नों का ‘सही’ उत्तर छात्र चयन और प्लेसमेंट केंद्र द्वारा जारी किए गए उत्तरों के अनुसार परिभाषित किया गया है। केवल प्रश्न पाठ में दिए गए निर्देशों के अनुसार निर्धारित किए गए उत्तरों को ‘सही’ के रूप में स्वीकार किया जाता है। इसके अतिरिक्त, प्रत्येक प्रश्न के कठिनाई स्तर को छात्र चयन और प्लेसमेंट केंद्र द्वारा जारी किए गए सही उत्तर दर के अनुसार 1 से 5 के स्तरों में विभाजित किया गया है। 80% और उससे अधिक की सही उत्तर दर वाले प्रश्नों को सबसे आसान (स्तर 1) माना जाता है, जबकि 19.9% और उससे कम की सही उत्तर दर वाले प्रश्नों को सबसे कठिन (स्तर 5) माना जाता है।

ज्ञान और केस डोमेन

तुर्की चिकित्सा विशेषता प्रशिक्षण प्रवेश परीक्षा तुर्की चिकित्सा स्नातकों के लिए विशेषज्ञता की दिशा में एक महत्वपूर्ण कदम है, जो उम्मीदवारों के ज्ञान और केस डोमेन में ज्ञान का मूल्यांकन करता है। पूरी तैयारी के लिए इन डोमेन के बीच अंतर को समझना महत्वपूर्ण है। ज्ञान डोमेन सैद्धांतिक समझ और तथ्यात्मक ज्ञान के मूल्यांकन पर केंद्रित है जो उम्मीदवारों के अपने चुने हुए चिकित्सा क्षेत्र के भीतर है। यह मूलभूत अवधारणाओं और सिद्धांतों में महारत का परीक्षण करता है, और उस चिकित्सा जानकारी को स्थापित करता है जो विशेषज्ञता के लिए प्रासंगिक है। यह उस विशिष्ट चिकित्सा ज्ञान क्षेत्र का प्रतिनिधित्व करता है जिसका परीक्षण किया जा रहा है, जैसे कि बुनियादी चिकित्सा विज्ञान (शारीरिक रचना, जैव रसायन, शरीर विज्ञान, आदि) और नैदानिक ​​विज्ञान (आंतरिक चिकित्सा, सर्जरी, बाल रोग विज्ञान, आदि) केस डोमेन, दूसरी ओर, वास्तविक परिदृश्यों या स्थितियों में ज्ञान के अनुप्रयोग का प्रतिनिधित्व करता है, जैसे कि समस्यासमाधान, विश्लेषणात्मक सोच, महत्वपूर्ण सोच, निर्णय लेना और वास्तविक स्थितियों पर अवधारणाओं को लागू करना।

प्रॉम्प्ट इंजीनियरिंग

प्रॉम्प्ट इंजीनियरिंग प्राकृतिक भाषा संकेतों को डिजाइन और ठीक करने की प्रक्रिया है ताकि भाषा मॉडल या AI प्रणाली से विशिष्ट प्रतिक्रियाएं प्राप्त की जा सकें। अप्रैल 2024 में, हमने उनकी संबंधित वेब इंटरफेस के माध्यम से सीधे भाषा मॉडल को प्रश्न करके प्रतिक्रियाएं एकत्र कीं।

प्रत्येक मॉडल की मूल क्षमताओं का निष्पक्ष मूल्यांकन सुनिश्चित करने के लिए, LLM को प्रश्न प्रस्तुत करने के तरीके में कठोर विधि संबंधी नियंत्रण लागू किए गए थे। प्रत्येक प्रश्न को अलग-अलग दर्ज किया गया था, और नए प्रश्न प्रस्तुत करने से पहले सत्र को रीसेट किया गया था, ताकि मॉडल को पिछली बातचीत के आधार पर सीखने या अनुकूलन करने से रोका जा सके।

डेटा विश्लेषण

सभी विश्लेषण Microsoft Office Excel और Python सॉफ़्टवेयर का उपयोग करके किए गए थे। विभिन्न प्रश्न कठिनाई पर LLM के प्रदर्शन की तुलना करने के लिए, अपेयर किए गए काई-वर्ग परीक्षण किए गए थे। p < 0.05 के p-वैल्यू थ्रेशोल्ड का उपयोग सांख्यिकीय महत्व निर्धारित करने के लिए किया गया था। विश्लेषण ने मूल्यांकन किया कि क्या मॉडल सटीकता प्रश्न कठिनाई स्तर से भिन्न है।

नैतिक विचार

इस अध्ययन ने केवल इंटरनेट पर प्रकाशित जानकारी का उपयोग किया, जिसमें मानव विषयों को शामिल नहीं किया गया। इसलिए, बास्केंट विश्वविद्यालय नैतिक समिति से अनुमोदन की आवश्यकता नहीं थी।

परिणाम

2021 की तुर्की चिकित्सा विशेषता प्रशिक्षण प्रवेश परीक्षा के पहले चरण में बुनियादी चिकित्सा विज्ञान परीक्षा में भाग लेने वाले उम्मीदवारों के सही उत्तरों की औसत संख्या 51.63 थी। नैदानिक ​​चिकित्सा विज्ञान परीक्षा के लिए सही उत्तरों की औसत संख्या 63.95 थी। नैदानिक ​​चिकित्सा विज्ञान परीक्षा के लिए सही उत्तरों की औसत संख्या बुनियादी चिकित्सा विज्ञान परीक्षा से अधिक थी। इस स्थिति के समानांतर, कृत्रिम बुद्धिमत्ता तकनीकें भी नैदानिक ​​चिकित्सा विज्ञान परीक्षा का उत्तर देने में अधिक सफल रहीं।

AI प्रदर्शन

AI प्लेटफॉर्म के प्रदर्शन का मूल्यांकन मानव उम्मीदवारों के समान मेट्रिक्स का उपयोग करके किया गया था।

  • ChatGPT 4:

    ChatGPT 4 ने बुनियादी चिकित्सा विज्ञान अनुभाग में 103 सही उत्तरों का औसत स्कोर प्राप्त किया और नैदानिक ​​चिकित्सा विज्ञान अनुभाग में 110 सही उत्तरों का औसत स्कोर प्राप्त किया। यह 88.75% की समग्र सटीकता का प्रतिनिधित्व करता है, जो दोनों अनुभागों में औसत मानव उम्मीदवारों से काफी बेहतर है (p < 0.001)।

  • Llama 3 70B:

    Llama 3 70B ने बुनियादी चिकित्सा विज्ञान अनुभाग में 95 सही उत्तरों का औसत स्कोर प्राप्त किया और नैदानिक ​​चिकित्सा विज्ञान अनुभाग में 95 सही उत्तरों का औसत स्कोर प्राप्त किया। यह 79.17% की समग्र सटीकता का प्रतिनिधित्व करता है, जो औसत मानव प्रदर्शन से भी काफी अधिक है (p < 0.01)।

  • Gemini 1.5 Pro:

    Gemini 1.5 Pro ने बुनियादी चिकित्सा विज्ञान अनुभाग में 94 सही उत्तरों का औसत स्कोर प्राप्त किया और नैदानिक ​​चिकित्सा विज्ञान अनुभाग में 93 सही उत्तरों का औसत स्कोर प्राप्त किया। यह 78.13% की समग्र सटीकता का प्रतिनिधित्व करता है, जो औसत मानव प्रदर्शन से काफी अधिक है (p < 0.01)।

  • Command R+:

    Command R+ ने बुनियादी चिकित्सा विज्ञान अनुभाग में 60 सही उत्तरों का औसत स्कोर प्राप्त किया और नैदानिक ​​चिकित्सा विज्ञान अनुभाग में 60 सही उत्तरों का औसत स्कोर प्राप्त किया। यह 50% की समग्र सटीकता का प्रतिनिधित्व करता है, जो बुनियादी चिकित्सा विज्ञान अनुभाग में औसत मानव प्रदर्शन से काफी भिन्न नहीं है (p = 0.12), लेकिन नैदानिक ​​चिकित्सा विज्ञान अनुभाग में काफी कम है (p < 0.05)।

AI प्लेटफॉर्म के प्रदर्शन का मूल्यांकन मानव उम्मीदवारों के समान मेट्रिक्स का उपयोग करके किया गया था।

चित्र 3 विभिन्न LLM की सटीकता की तुलना प्रश्न कठिनाई के आधार पर करता है - ChatGPT 4: सबसे अच्छा प्रदर्शन करने वाला मॉडल। प्रश्न कठिनाई बढ़ने पर सटीकता बढ़ती है, यहां तक ​​कि सबसे चुनौतीपूर्ण प्रश्नों पर भी लगभग 70% तक पहुंच जाती है - Llama 3 70B: मध्यम प्रदर्शन करने वाला मॉडल। प्रश्न कठिनाई बढ़ने पर सटीकता पहले बढ़ती है और फिर घटती है। सबसे चुनौतीपूर्ण प्रश्नों पर, इसकी सटीकता लगभग 25% है। Gemini 1.5 70B: इसका प्रदर्शन Llama 3 70B के समान है। प्रश्न कठिनाई बढ़ने पर सटीकता पहले बढ़ती है और फिर घटती है। सबसे चुनौतीपूर्ण प्रश्नों पर, इसकी सटीकता लगभग 20% है। Command R+: सबसे कम प्रदर्शन करने वाला मॉडल। इसकी सटीकता प्रश्न कठिनाई बढ़ने के साथ घटती है, और सबसे चुनौतीपूर्ण प्रश्नों पर लगभग 15% पर बनी रहती है

संक्षेप में, ChatGPT 4 सबसे अच्छा मॉडल है जो प्रश्न कठिनाई से सबसे कम प्रभावित होता है और इसकी समग्र सटीकता सबसे अधिक है। Llama 3 70B और Gemini 1.5 Pro ने मध्यम प्रदर्शन किया, जबकि Command R+ अन्य मॉडलों की तुलना में कम सफल रहा। प्रश्न कठिनाई बढ़ने के साथ मॉडल की सटीकता घट जाती है। यह दर्शाता है कि LLM को जटिल प्रश्नों को समझने और सही ढंग से उत्तर देने में अभी भी सुधार की आवश्यकता है

तालिका 1 में, ChatGPT 4 मॉडल 88.75% की सफलता दर के साथ सर्वश्रेष्ठ प्रदर्शन करने वाले मॉडल के रूप में उभरा है। इससे पता चलता है कि इसमें प्रश्नों को समझने और सटीक रूप से उत्तर देने की अच्छी क्षमता है। Llama 3 70B मॉडल 79.17% की सफलता दर के साथ दूसरे स्थान पर रहा। हालांकि यह ChatGPT 4 मॉडल से पीछे है, लेकिन इसने अभी भी प्रश्नों का उत्तर देने में उच्च स्तर की दक्षता प्रदर्शित की है। Gemini 1.5 Pro मॉडल 78.13% की सफलता दर के साथ इसके बाद है। इसका प्रदर्शन Llama 3 70B मॉडल के समान है, जो प्रश्नों का उत्तर देने में इसकी मजबूत क्षमता का संकेत देता है। दूसरी ओर, Command R+ मॉडल 50% की सफलता दर के साथ अन्य मॉडलों से पीछे है। इससे पता चलता है कि इसे कुछ विशिष्ट प्रश्नों पर कठिनाई हो सकती है, या प्रदर्शन में सुधार के लिए इसे और ठीक करने की आवश्यकता है। सही उत्तरों का वितरण अलग-अलग कठिनाई स्तरों पर है। उदाहरण के लिए, सभी मॉडलों ने आसान प्रश्नों (कठिनाई स्तर 1) पर अच्छा प्रदर्शन किया, जिसमें ChatGPT 4 मॉडल ने पूर्ण अंक प्राप्त किए। मध्यम कठिनाई वाले प्रश्नों (स्तर 2 और 3) पर, ChatGPT 4 और Llama 3 70B मॉडल ने अच्छा प्रदर्शन करना जारी रखा।

इसके विपरीत, Gemini 1.5 Pro मॉडल ने कुछ कमजोरियां दिखाना शुरू कर दिया। कठिन प्रश्नों (स्तर 4 और 5) पर, सभी मॉडलों के प्रदर्शन में गिरावट आई, जिसमें Command R+ मॉडल सबसे अधिक संघर्ष कर रहा था। कुल मिलाकर, ये परिणाम प्रत्येक AI मॉडल की ताकत और कमजोरियों को समझने के लिए मूल्यवान अंतर्दृष्टि प्रदान करते हैं, और भविष्य के विकास और सुधार के प्रयासों को सूचित कर सकते हैं

तालिका 3 में, बुनियादी चिकित्सा विज्ञान में जैव रसायन ने ChatGPT 4 के लिए पूर्ण अंक प्राप्त किए, जो इस क्षेत्र में प्रश्नों का उत्तर देने में इसकी उत्कृष्ट क्षमता को प्रमाणित करता है। Llama 3 70B और Gemini 1.5 Pro ने भी अच्छा प्रदर्शन किया, लेकिन Command R+ ने 50% की सटीकता के साथ खराब प्रदर्शन किया। फार्माकोलॉजी, पैथोलॉजी और माइक्रोबायोलॉजी में सबसे अच्छा प्रदर्शन करने वाले मॉडल (ChatGPT 4 और Llama 3 70B) ने 81% से 90% के बीच सटीकता के साथ मजबूत सूचना स्थिरता प्रदर्शित की। Gemini 1.5 Pro और Command R+ पीछे रह गए, लेकिन फिर भी अच्छा प्रदर्शन किया। शारीरिक रचना और शरीर विज्ञान ने मॉडल के लिए कुछ चुनौतियां पेश कीं। ChatGPT 4 और Meta AI-Llama 3 70B ने अच्छा प्रदर्शन किया, जबकि Gemini 1.5 Pro और Command R+ ने 70% से कम सटीकता के साथ खराब प्रदर्शन किया।

नैदानिक ​​चिकित्सा विज्ञान में बाल रोग सभी मॉडलों के लिए महत्वपूर्ण था, जिसमें ChatGPT 4 ने लगभग पूर्ण अंक प्राप्त किए (90%)। Llama 3 70B इसके बाद था, और यहां तक ​​कि Command R+ ने भी 43% सटीकता हासिल की। आंतरिक चिकित्सा और सामान्य सर्जरी ने सर्वश्रेष्ठ मॉडल से बेहतर प्रदर्शन किया, जिसमें सटीकता 79% से 90% के बीच थी। Gemini 1.5 Pro और Command R+ पीछे रह गए, लेकिन फिर भी अच्छा प्रदर्शन किया। एनेस्थीसिया और पुनर्जीवन, आपातकालीन चिकित्सा, तंत्रिका विज्ञान और त्वचा विज्ञान जैसे विशेषज्ञता ने कम प्रश्न प्रस्तुत किए, लेकिन मॉडल ने कुल मिलाकर अच्छा प्रदर्शन किया। ChatGPT4 और Llama 3 70B ने इन क्षेत्रों में उत्कृष्ट सटीकता प्रदर्शित की

मॉडल की तुलना के बारे में, ChatGPT 4 अधिकांश क्षेत्रों में सबसे अच्छा प्रदर्शन करने वाला मॉडल है, जिसकी समग्र सटीकता 88.75% है। इसकी ताकत बुनियादी चिकित्सा और नैदानिक ​​चिकित्सा विज्ञान के प्रश्नों का सटीक उत्तर देने की क्षमता में निहित है। Llama 3 70B 79.17% की समग्र सटीकता के साथ इसके बाद है। हालांकि यह ChatGPT 4 के प्रदर्शन के पूरी तरह से बराबर नहीं है, लेकिन इसने विभिन्न क्षेत्रों में मजबूत ज्ञान स्थिरता प्रदर्शित की है। Gemini 1.5 Pro और Command R+ पीछे रह गए, जिनकी समग्र सटीकता क्रमशः 78.13% और 50% थी। हालांकि उन्होंने कुछ क्षेत्रों में आशाजनक प्रदर्शन किया, लेकिन वे सभी क्षेत्रों में स्थिरता बनाए रखने के लिए संघर्ष कर रहे थे

संक्षेप में, ChatGPT 4 वर्तमान में विभिन्न क्षेत्रों में चिकित्सा विज्ञान के प्रश्नों का उत्तर देने के लिए सबसे उपयुक्त मॉडल है। Gemini 1.5 Pro और Command R+ क्षमता दिखाते हैं, लेकिन सर्वश्रेष्ठ प्रदर्शन करने वाले मॉडल के साथ प्रतिस्पर्धा करने के लिए महत्वपूर्ण सुधार की आवश्यकता है

तालिका 4 में, ज्ञान डोमेन के बारे में, ChatGPT 4 ने बुनियादी चिकित्सा विज्ञान क्षेत्र में 86.7% (85/98) की सटीकता के साथ अन्य मॉडलों से बेहतर प्रदर्शन किया। ChatGPT 4 ने एक बार फिर नैदानिक ​​चिकित्सा विज्ञान क्षेत्र में 89.7% (61/68) की सटीकता के साथ सर्वश्रेष्ठ प्रदर्शन किया। मामले के डोमेन के बारे में, ChatGPT 4 ने बुनियादी चिकित्सा विज्ञान क्षेत्र में 81.8% (18/22) की सटीकता हासिल की। नैदानिक ​​चिकित्सा विज्ञान क्षेत्र में, ChatGPT 4 का प्रदर्शन समान था, जिसमें 94.2% (49/52) की सटीकता थी

मॉडलों की जोड़ीदार तुलना से पता चला कि ChatGPT 4 ने दोनों क्षेत्रों और प्रश्न प्रकारों में अन्य मॉडलों से काफी बेहतर प्रदर्शन किया। Llama 3 70B और Gemini 1.5 Pro ने समान प्रदर्शन किया, जबकि Command R+ पीछे रह गया। इस विश्लेषण के आधार पर, हम निष्कर्ष निकाल सकते हैं कि ChatGPT 4 ने ज्ञान और मामले के क्षेत्रों, और बुनियादी चिकित्सा विज्ञान और नैदानिक ​​चिकित्सा विज्ञान क्षेत्रों दोनों में उत्कृष्ट प्रदर्शन किया।

सांख्यिकीय विश्लेषण

LLM के प्रदर्शन का विश्लेषण Microsoft Office Excel और Python (संस्करण 3.10.2) का उपयोग करके किया गया था। विभिन्न प्रश्न कठिनाई स्तरों पर मॉडलों के प्रदर्शन की तुलना करने के लिए, अपेयर किए गए काई-वर्ग परीक्षण किए गए थे। प्रत्येक AI मॉडल के लिए सही और गलत उत्तरों के लिए कठिनाई स्तर के अनुसार आकस्मिकता तालिकाएं बनाई गईं, और कठिनाई स्तरों में प्रदर्शन में सांख्यिकीय रूप से महत्वपूर्ण अंतर है या नहीं यह निर्धारित करने के लिए काई-वर्ग परीक्षण लागू किया गया। सांख्यिकीय महत्व निर्धारित करने के लिए <0.05 के p-वैल्यू थ्रेशोल्ड का उपयोग किया गया था। ChatGPT 4 का p-वैल्यू 0.00028 था, और p < 0.05 पर महत्वपूर्ण था, जो दर्शाता है कि अलग-अलग कठिनाई स्तरों में प्रदर्शन में महत्वपूर्ण अंतर है। Gemini 1.5 Pro का p-वैल्यू 0.047 था, और p < 0.05 पर महत्वपूर्ण था, जो दर्शाता है कि अलग-अलग कठिनाई स्तरों में प्रदर्शन में महत्वपूर्ण अंतर है। Command R+ का p-वैल्यू 0.197 था, और p < 0.05 पर महत्वपूर्ण नहीं था, जो दर्शाता है कि अलग-अलग कठिनाई स्तरों में प्रदर्शन में कोई महत्वपूर्ण अंतर नहीं है। Llama 3 70B का p-वैल्यू: 0.118, p-वैल्यू: 0.118, और p < 0.05 पर महत्वपूर्ण नहीं था, जो दर्शाता है कि अलग-अलग कठिनाई स्तरों में प्रदर्शन में कोई महत्वपूर्ण अंतर नहीं है।

अलग-अलग प्रश्न कठिनाई पर ChatGPT 4 और Gemini 1.5 Pro की शुद्धता ने सांख्यिकीय रूप से महत्वपूर्ण अंतर दिखाया, जो दर्शाता है कि उनका प्रदर्शन प्रश्न कठिनाई में अंतर के साथ महत्वपूर्ण रूप से बदलता है। Command R+ और Llama 3 70B ने कठिनाई स्तरों पर महत्वपूर्ण प्रदर्शन अंतर नहीं दिखाया, जो दर्शाता है कि प्रश्न कठिनाई की परवाह किए बिना प्रदर्शन अधिक सुसंगत था। ये परिणाम यह संकेत दे सकते हैं कि अलग-अलग मॉडल में अलग-अलग कठिनाई से जुड़ी जटिलताओं और विषयों को संभालने में अलग-अलग ताकत और कमजोरियां हैं।

चर्चा

TUS तुर्की चिकित्सा स्नातकों के लिए विशेषज्ञता प्रशिक्षण प्राप्त करने के लिए एक महत्वपूर्ण राष्ट्रीय परीक्षा है। परीक्षा में बुनियादी विज्ञान और नैदानिक ​​विज्ञान को कवर करने वाले बहुविकल्पीय प्रश्न शामिल होते हैं, और इसमें विशेषज्ञता कार्यक्रमों की रैंकिंग निर्धारित करने के लिए एक केंद्रित रैंकिंग प्रणाली होती है

TUS पर बड़े भाषा मॉडल के प्रदर्शन का मूल्यांकन करते समय, GPT-4 सबसे अच्छा प्रदर्शन करने वाला मॉडल था। इसी तरह, ChatGPT एक शक्तिशाली AI मॉडल है जिसने सर्जरी के क्षेत्र में मानव स्तर के प्रदर्शन के करीब या उससे ऊपर दिखाया है, जिसमें SCORE और Data-B बहुविकल्पीय प्रश्नों के क्रमशः 71% और 68% सही उत्तर दिए हैं। इसके अतिरिक्त, ChatGPT ने सार्वजनिक स्वास्थ्य परीक्षा में उत्कृष्ट प्रदर्शन किया, वर्तमान पास दर को पार कर गया और विशिष्ट अंतर्दृष्टि प्रदान की। ये निष्कर्ष चिकित्सा मूल्यांकन में GPT-4 और ChatGPT के असाधारण प्रदर्शन पर प्रकाश डालते हैं, जो चिकित्सा शिक्षा को बढ़ाने और संभावित नैदानिक ​​सहायता के लिए उनकी क्षमता का प्रदर्शन करते हैं।

चिकित्सा शिक्षकों और परीक्षकों के लिए, LLM की बढ़ती सटीकता परीक्षा डिजाइन और मूल्यांकन के बारे में महत्वपूर्ण प्रश्न उठाती है। यदि AI मॉडल मानकीकृत चिकित्सा परीक्षा को उच्च सटीकता के साथ हल कर सकते हैं, तो भविष्य के आकलन में सरल याद करने से परे उच्च-क्रम तर्क और नैदानिक ​​निर्णय के प्रश्नों को शामिल करने की आवश्यकता हो सकती है। इसके अतिरिक्त, तुर्की चिकित्सा संस्थान AI-सहायता प्राप्त शैक्षिक रणनीतियों का पता लगा सकते हैं, जैसे कि छात्रों की व्यक्तिगत जरूरतों के अनुसार सीखने की सामग्री तैयार करने के लिए अनुकूली शिक्षण प्रणाली।

राष्ट्रीय दृष्टिकोण से, यह अध्ययन तुर्की चिकित्सा शिक्षा में AI के बढ़ते महत्व पर प्रकाश डालता है। चूंकि ये LLM तुर्की भाषा में चिकित्सा प्रश्नों में अच्छा प्रदर्शन करते हैं, इसलिए वे कम सेवा वाले क्षेत्रों में छात्रों के लिए उच्च गुणवत्ता वाले शैक्षिक संसाधनों तक पहुंच के अंतर को पाट सकते हैं। इसके अतिरिक्त, नीति निर्माताओं को यह विचार करना चाहिए कि AI मॉडल को तुर्की स्वास्थ्य सेवा पेशेवरों के सतत चिकित्सा शिक्षा और आजीवन सीखने के कार्यक्रमों में कैसे एकीकृत किया जाए।

संक्षेप में, हालांकि ChatGPT-4 जैसे AI मॉडल असाधारण सटीकता प्रदर्शित करते हैं, लेकिन चिकित्सा शिक्षा में उनकी भूमिका का सावधानीपूर्वक मूल्यांकन किया जाना चाहिए। AI-सहायता प्राप्त सीखने के संभावित लाभ बहुत अधिक हैं, लेकिन सही कार्यान्वयन यह सुनिश्चित करना आवश्यक है कि इन उपकरणों का उपयोग जिम्मेदारी से, नैतिक तरीके से और मानव विशेषज्ञता के साथ संयोजन में किया जाए।

सीमाएँ

यह अध्ययन तुर्की चिकित्सा विशेषता प्रशिक्षण प्रवेश परीक्षा (TUS) में बड़े भाषा मॉडल (LLM) के प्रदर्शन में मूल्यवान अंतर्दृष्टि प्रदान करता है, लेकिन अध्ययन के निष्कर्षों को प्रासंगिक बनाने और भविष्य के अनुसंधान का मार्गदर्शन करने के लिए कई महत्वपूर्ण सीमाओं को स्वीकार करना आवश्यक है। सबसे पहले, यह अनिश्चित है कि इस अध्ययन में मूल्यांकन किए गए AI मॉडल के प्रशिक्षण डेटा में TUS प्रश्न शामिल हैं या नहीं। चूंकि पिछले TUS प्रश्न सार्वजनिक रूप से उपलब्ध हैं, इसलिए इस अध्ययन में उपयोग किए गए प्रश्न मॉडल के प्रशिक्षण डेटा का हिस्सा हो सकते हैं। इससे इस चिंता का कारण बनता है कि क्या मॉडल का प्रदर्शन वास्तविक समझ को दर्शाता है या केवल विशिष्ट प्रश्नों को याद करने की क्षमता को दर्शाता है। भविष्य के अनुसंधान में AI मॉडल वास्तविक तर्क क्षमता प्रदर्शित करते हैं या याद की गई जानकारी पर निर्भर करते हैं यह मूल्यांकन करने के लिए विधियों का विकास किया जाना चाहिए।

दूसरे, AI मॉडल में उनके प्रशिक्षण डेटा से उत्पन्न होने वाले पूर्वाग्रहों को प्रदर्शित करने की क्षमता है। ये पूर्वाग्रह प्रशिक्षण डेटा में कुछ चिकित्सा स्थितियों, आबादी या दृष्टिकोणों के असंतुलित प्रतिनिधित्व से उत्पन्न हो सकते हैं। उदाहरण के लिए, प्रत्येक भाषा में उपलब्ध प्रशिक्षण डेटा की मात्रा और गुणवत्ता में अंतर के कारण, तुर्की भाषा में मॉडल का प्रदर्शन अंग्रेजी से अलग हो सकता है। इसके अतिरिक्त, स्थानीय स्वास्थ्य सेवा प्रथाओं या सांस्कृतिक संदर्भों को समझने की आवश्यकता वाले प्रश्नों का उत्तर देने में ये मॉडल कम सटीक हो सकते हैं। ये पूर्वाग्रह अध्ययन के निष्कर्षों की सामान्यता को सीमित कर सकते हैं, और चिकित्सा शिक्षा और अभ्यास में AI का उपयोग करने के बारे में नैतिक चिंताओं को बढ़ा सकते हैं।

तीसरी सीमा यह है कि अध्ययन केवल बहुविकल्पीय प्रश्नों पर केंद्रित है। वास्तविक दुनिया के नैदानिक ​​अभ्यास में, स्वास्थ्य सेवा पेशेवरों को जटिल मामलों में तर्क करने, अस्पष्ट निष्कर्षों की व्याख्या करने और अनिश्चितता में निर्णय लेने जैसे कौशल की आवश्यकता होती है। इसके अतिरिक्त, रोगियों और सहकर्मियों को स्पष्ट और सहानुभूतिपूर्ण तरीके से निदान, उपचार योजनाएं और जोखिम बताने की क्षमता महत्वपूर्ण है। इन कार्यों को करने के लिए AI मॉडल की क्षमता का परीक्षण नहीं किया गया है, और उनकी क्षमता उनके वर्तमान डिजाइन और प्रशिक्षण द्वारा सीमित हो सकती है। भविष्य के अनुसंधान में AI मॉडल का मूल्यांकन अधिक वास्तविक स्थितियों में किया जाना चाहिए, जैसे कि नैदानिक ​​मामले सिमुलेशन और खुले अंत वाले मूल्यांकन।

चौथा, इस अध्ययन में खुले अंत वाले प्रश्न शामिल नहीं थे। महत्वपूर्ण सोच, सूचना संश्लेषण और नैदानिक ​​तर्क जैसे उच्च-क्रम संज्ञानात्मक कौशल का मूल्यांकन करने के लिए खुले अंत वाले प्रश्न आवश्यक हैं। इन प्रकार के प्रश्नों के लिए सूची से सही विकल्प का चयन करने के बजाय सुसंगत और प्रासंगिक प्रतिक्रिया उत्पन्न करने की क्षमता की आवश्यकता होती है। AI मॉडल का प्रदर्शन ऐसे कार्यों पर बहुविकल्पीय प्रश्नों पर उनके प्रदर्शन से बहुत अलग हो सकता है, जो भविष्य के अनुसंधान के लिए एक महत्वपूर्ण क्षेत्र का प्रतिनिधित्व करता है।

पांचवीं सीमा यह है कि AI मॉडल का परीक्षण समय के दबाव में नहीं किया गया था। मानव उम्मीदवारों पर परीक्षा के दौरान सख्त समय सीमाएं लगाई जाती हैं, जो उनके प्रदर्शन को प्रभावित करती हैं। इसके विपरीत, इस अध्ययन में AI मॉडल पर समय का दबाव नहीं था, जिससे वे समयबद्ध वातावरण के दबाव के बिना