மருத்துவக் கல்வியில் AI: ஓர் மதிப்பீடு

அறிமுகம்

சமீபத்திய ஆண்டுகளில், செயற்கை நுண்ணறிவு (AI) மற்றும் பெரிய மொழி மாதிரிகள் (LLM) போன்ற தொழில்நுட்ப முன்னேற்றங்கள் மருத்துவக் கல்வி மற்றும் அறிவை மதிப்பிடும் முறைகளில் புரட்சியை ஏற்படுத்தும் திறனைக் கொண்டுள்ளன. குறிப்பாக, இந்த வளர்ச்சிகள் மருத்துவத் தகவல்களை எளிதில் அணுகக்கூடியதாகவும், மதிப்பீடுகளை மேலும் ஊடாடும் விதமாகவும் மாற்றக்கூடும்.

முந்தைய ஆய்வுகள் அமெரிக்க மருத்துவ உரிமத் தேர்வு (USMLE) மற்றும் ஜப்பானிய மருத்துவ உரிமத் தேர்வு (JMLE) போன்ற பல்வேறு மருத்துவ உரிமத் தேர்வுகளில் LLMகளின் செயல்திறனை ஆராய்ந்துள்ளன. ஆனால் இந்தத் தேர்வுகள் TUS இலிருந்து கட்டமைப்பு மற்றும் உள்ளடக்கம் ஆகியவற்றில் கணிசமாக வேறுபடுகின்றன. TUS அடிப்படை அறிவியல் மற்றும் மருத்துவ அறிவியல் இரண்டிலும் கவனம் செலுத்துகிறது. குறிப்பாக துருக்கிய மருத்துவ சூழலுக்கு அதிக முக்கியத்துவம் அளிக்கிறது. இது ஒரு தனித்துவமான மதிப்பீட்டுச் சூழலில் LLMகளின் திறன்களை மதிப்பிடுவதற்கு ஒரு தனித்துவமான வாய்ப்பை வழங்குகிறது. இந்த ஆய்வானது நான்கு முன்னணி LLMகளின் செயல்திறனை TUS இல் மதிப்பீடு செய்வதன் மூலம் இந்த இடைவெளியை நிரப்புவதை நோக்கமாகக் கொண்டுள்ளது. மேலும், இந்த ஆய்வானது பாடத்திட்ட வடிவமைப்பு, AI உதவியுடன் மருத்துவப் பயிற்சி, மற்றும் துருக்கியில் மருத்துவ மதிப்பீடுகளின் எதிர்காலம் ஆகியவற்றில் இந்த கண்டுபிடிப்புகளின் சாத்தியமான தாக்கங்களை ஆராய்கிறது. குறிப்பாக, துருக்கிய மருத்துவ பாடத்திட்டத்திற்கு ஏற்ற கல்வி ஆதாரங்கள் மற்றும் மதிப்பீட்டு உத்திகளை உருவாக்குவதற்கு LLMகளின் செயல்திறன் எவ்வாறு உதவும் என்பதை நாங்கள் ஆராய்கிறோம். இந்த ஆய்வு குறிப்பிட்ட மொழியின் செயல்திறனைப் புரிந்துகொள்ள உதவுவது மட்டுமல்லாமல், உலகளாவிய மருத்துவக் கல்வி மற்றும் மதிப்பீட்டில் AIஐ எவ்வாறு திறம்பட ஒருங்கிணைப்பது என்பது பற்றிய பரந்த விவாதத்திற்கும் பங்களிக்கிறது.

இந்த ஆய்வுகளின் முடிவுகள், ChatGPT மற்றும் ஒத்த LLMகள் மருத்துவக் கல்வி மற்றும் அறிவை மதிப்பிடும் செயல்பாட்டில் முக்கிய பங்கு வகிக்க முடியும் என்பதைக் காட்டுகின்றன. மருத்துவத் தகவல் மீட்டெடுப்பு மற்றும் மதிப்பீட்டு முறைகளில் செயற்கை நுண்ணறிவு மற்றும் LLMகள் புதுமையான அணுகுமுறைகள் மற்றும் கற்றல் முறைகளை உருவாக்க உதவுகின்றன. குறிப்பாக மருத்துவக் கல்வியில் இது மிகவும் பயனுள்ளதாக இருக்கும். ChatGPT 4, Gemini 1.5 Pro மற்றும் Cohere-Command R+ ஆகியவற்றின் செயல்திறனை துருக்கிய மருத்துவ நிபுணத்துவப் பயிற்சி நுழைவுத் தேர்வில் மதிப்பீடு செய்வதன் மூலம், LLMகளின் தாக்கம் மருத்துவக் கல்வி மற்றும் அறிவை மதிப்பிடுவதில் எவ்வாறு உள்ளது என்பதை மேலும் ஆராய்வதை இந்த ஆய்வு நோக்கமாகக் கொண்டுள்ளது.

இந்த ஆய்வானது மேம்பட்ட செயற்கை நுண்ணறிவு (AI) மாதிரிகள், குறிப்பாக ChatGPT 4, Gemini 1.5 Pro, Command R+ மற்றும் Llama 3 70B ஆகியவற்றின் பயன்பாட்டை மருத்துவக் கல்வி மற்றும் மதிப்பீட்டில் ஆராய்கிறது. மருத்துவ நிபுணத்துவத் தேர்வு கேள்விகளைத் தீர்ப்பதில் அவற்றின் செயல்திறனில் கவனம் செலுத்துகிறது. மருத்துவத் தேர்வு கேள்விகளை முழுமையாகவும் முறையாகவும் பகுப்பாய்வு செய்வதற்கான இந்த மாதிரிகளின் திறனை இந்த ஆய்வு மதிப்பிடுகிறது. விளக்கமளிக்கும் திறன் மற்றும் துல்லியம் போன்ற காரணிகளைக் கருத்தில் கொள்ளும்போது, மருத்துவத்தில் AIயின் சாத்தியத்தை இது எடுத்துக்காட்டுகிறது. AI மாதிரிகள் மருத்துவக் கல்வி மற்றும் மதிப்பீட்டு செயல்முறையை கணிசமாக மேம்படுத்த முடியும் என்றும், புதிய பயன்பாடுகள் மற்றும் ஆராய்ச்சி பகுதிகளுக்கு வழிகளைத் திறக்கலாம் என்றும் கண்டுபிடிப்புகள் குறிப்பிடுகின்றன. AI தொழில்நுட்பத்தின் விரைவான முன்னேற்றத்தை மதிப்பிடுவதும், வெவ்வேறு AI மாதிரிகளின் பதிலளிக்கும் திறன்களை ஒப்பிடுவதும் இந்த கட்டுரையின் முக்கிய நோக்கமாகும். இந்த ஆய்வு ChatGPT 4, Gemini 1.5 Pro, Command R+ மற்றும் Llama 3 70B ஆகியவற்றை ஒப்பீட்டு பகுப்பாய்வு செய்து, 2021 ஆம் ஆண்டு துருக்கிய மருத்துவ நிபுணத்துவப் பயிற்சி நுழைவுத் தேர்வின் முதல் பருவத்தில் உள்ள 240 கேள்விகளில் அவற்றின் செயல்திறனை மதிப்பிடுகிறது.

இந்த ஒப்பீடு AI தொழில்நுட்பத்தின் வளர்ச்சிப் பாதை மற்றும் வேறுபாடுகளை தெளிவுபடுத்துவதை நோக்கமாகக் கொண்டுள்ளது. மருத்துவக் கல்வி மற்றும் தேர்வுத் தயாரிப்பு போன்ற சிறப்பு பகுதிகளில் அவற்றின் பயன்பாட்டினை மையமாகக் கொண்டுள்ளது. இறுதி இலக்கு என்னவென்றால், பயனர்கள் தங்களின் குறிப்பிட்ட தேவைகளுக்கு மிகவும் பொருத்தமான கற்றல் கருவிகளைத் தேர்ந்தெடுக்க உதவும் நுண்ணறிவுகளை வழங்குவதாகும்.

முறைகள்

கேள்விகள் LLM களுக்கு துருக்கிய மொழியில் கேட்கப்பட்டன. மாணவர் தேர்வு மற்றும் இட ஒதுக்கீடு மையத்தின் அதிகாரப்பூர்வ இணையதளத்தில் இருந்து கேள்விகள் பெறப்பட்டன. அவை பல தேர்வு கேள்விகளாக (A முதல் E வரையிலான ஐந்து தேர்வுகள்) வடிவமைக்கப்பட்டிருந்தன. அவற்றில் ஒரே ஒரு சரியான பதில் மட்டுமே இருந்தது. LLM களால் பதில்கள் துருக்கிய மொழியில் வழங்கப்பட்டன.

மாணவர் தேர்வு மற்றும் இட ஒதுக்கீடு மையம் வெளியிட்ட சரியான பதில்களின் அடிப்படையில் மதிப்பீட்டு செயல்முறை இருந்தது. “செயற்கை நுண்ணறிவு மாதிரிகளுக்கான கேள்விகளின் ‘சரியான’ பதில்கள் மாணவர் தேர்வு மற்றும் இட ஒதுக்கீடு மையம் வெளியிட்ட பதில்களின் அடிப்படையில் வரையறுக்கப்படுகின்றன. கேள்வி உரையில் உள்ள அறிவுறுத்தல்களின்படி சரியானவை என்று தீர்மானிக்கப்பட்ட பதில்கள் மட்டுமே ‘சரியானவை’ என்று ஏற்றுக்கொள்ளப்படும்” என்று கட்டுரை குறிப்பிடுகிறது. கேள்விகளும் பதில்களும் துருக்கிய மொழியில் இருப்பதால், LLMகளின் துருக்கிய பதில்களை மாணவர் தேர்வு மற்றும் இட ஒதுக்கீடு மையம் வழங்கிய அதிகாரப்பூர்வ துருக்கிய பதில் விசையுடன் ஒப்பிடுவது மதிப்பீட்டு செயல்பாட்டில் அடங்கும்.

மருத்துவக் கல்வித் தரவுத்தொகுப்பு

இந்த ஆய்வில் ChatGPT 4, Gemini 1.5 Pro, Command R+ மற்றும் Llama 3 70B ஆகியவை மருத்துவ அறிவு மற்றும் நிகழ்வு மதிப்பீட்டில் செயற்கை நுண்ணறிவு மாதிரிகளின் திறனைச் சோதிக்க பயன்படுத்தப்பட்டன. 2021 ஆம் ஆண்டு மார்ச் 21 அன்று நடைபெற்ற துருக்கிய மருத்துவ நிபுணத்துவப் பயிற்சி நுழைவுத் தேர்வின் கேள்விகள் குறித்து ஆய்வு நடத்தப்பட்டது. துருக்கிய மருத்துவ நிபுணத்துவப் பயிற்சி நுழைவுத் தேர்வு மாணவர் தேர்வு மற்றும் இட ஒதுக்கீடு மையத்தால் நடத்தப்படும் தேர்வு ஆகும். இதில் 240 கேள்விகள் உள்ளன. முதல் பிரிவில் உள்ள அடிப்படை அறிவு கேள்விகள் மருத்துவக் கல்வியை முடிக்கத் தேவையான அறிவு மற்றும் நெறிமுறைகளை சோதிக்கின்றன. இரண்டாவது வகை நிகழ்வு கேள்விகள். இவை பகுப்பாய்வு சிந்தனை மற்றும் பகுத்தறிவு திறன்களை அளவிடும் பல நோய்களை உள்ளடக்கியது.

கேள்வி கடினத்தன்மை வகைப்பாடு

கேள்விகளின் கடினத்தன்மை மாணவர் தேர்வு மற்றும் இட ஒதுக்கீடு மையம் வெளியிட்ட அதிகாரப்பூர்வ தேர்வு செயல்திறன் தரவுகளின் அடிப்படையில் வகைப்படுத்தப்படுகிறது. குறிப்பாக, ஒவ்வொரு கேள்விக்கும் மையம் தெரிவிக்கும் சரியான பதில்களின் விகிதம், கேள்விகளை ஐந்து கடினத்தன்மை நிலைகளாகப் பிரிக்கப் பயன்படுகிறது:

  • நிலை 1 (எளிதானது): சரியான பதில் விகிதம் 80% அல்லது அதற்கு மேல் உள்ள கேள்விகள்.
  • நிலை 2: சரியான பதில் விகிதம் 60% முதல் 79.9% வரை உள்ள கேள்விகள்.
  • நிலை 3 (நடுத்தரமானது): சரியான பதில் விகிதம் 40% முதல் 59.9% வரை உள்ள கேள்விகள்.
  • நிலை 4: சரியான பதில் விகிதம் 20% முதல் 39.9% வரை உள்ள கேள்விகள்.
  • நிலை 5 (கடினமானது): சரியான பதில் விகிதம் 19.9% அல்லது அதற்கும் குறைவான கேள்விகள்.

செயற்கை நுண்ணறிவு மாதிரிகளுக்கான கேள்விகளின் ‘சரியான’ பதில்கள் மாணவர் தேர்வு மற்றும் இட ஒதுக்கீடு மையம் வெளியிட்ட பதில்களின் அடிப்படையில் வரையறுக்கப்படுகின்றன. கேள்வி உரையில் உள்ள அறிவுறுத்தல்களின்படி சரியானவை என்று தீர்மானிக்கப்பட்ட பதில்கள் மட்டுமே ‘சரியானவை’ என்று ஏற்றுக்கொள்ளப்படும். மேலும், ஒவ்வொரு கேள்வியின் கடினத்தன்மை நிலை மாணவர் தேர்வு மற்றும் இட ஒதுக்கீடு மையம் வெளியிட்ட சரியான பதில் விகிதத்தின் அடிப்படையில் 1 முதல் 5 வரையிலான நிலைகளாகப் பிரிக்கப்படுகிறது. சரியான பதில் விகிதம் 80% மற்றும் அதற்கு மேல் உள்ள கேள்விகள் எளிதானவை எனக் கருதப்படுகின்றன (நிலை 1), அதே நேரத்தில் சரியான பதில் விகிதம் 19.9% மற்றும் அதற்கும் குறைவான கேள்விகள் மிகவும் கடினமானவை எனக் கருதப்படுகின்றன (நிலை 5).

அறிவு மற்றும் நிகழ்வு களங்கள்

துருக்கிய மருத்துவ நிபுணத்துவப் பயிற்சி நுழைவுத் தேர்வு துருக்கிய மருத்துவப் பட்டதாரிகள் நிபுணத்துவம் பெறுவதற்கான ஒரு முக்கியமான படியாகும். இது அறிவு மற்றும் நிகழ்வு களங்கள் என இரண்டு முக்கிய துறைகளில் தேர்வர்களின் அறிவை மதிப்பிடுகிறது. இந்தத் துறைகளுக்கு இடையிலான வேறுபாட்டைப் புரிந்துகொள்வது முழுமையான தயாரிப்புக்கு இன்றியமையாதது. அறிவுத் துறை அவர்கள் தேர்ந்தெடுத்த மருத்துவத் துறையில் தேர்வர்களின் கோட்பாட்டு புரிதல் மற்றும் உண்மை அறிவை மதிப்பிடுவதில் கவனம் செலுத்துகிறது. இது அடிப்படை கருத்துக்கள் மற்றும் கொள்கைகளின் தேர்ச்சியை சோதிக்கிறது. நிபுணத்துவத்துடன் தொடர்புடைய மருத்துவ தகவல்களை உருவாக்குகிறது. இது அடிப்படை மருத்துவ அறிவியல் (உடற்கூறியல், உயிர் வேதியியல், உடலியல் போன்றவை) மற்றும் மருத்துவ அறிவியல் (உள் மருத்துவம், அறுவை சிகிச்சை, குழந்தை மருத்துவம் போன்றவை) போன்ற குறிப்பிட்ட மருத்துவ அறிவுத் துறையைக் குறிக்கிறது. மறுபுறம், நிகழ்வுத் துறை, சிக்கலைத் தீர்ப்பது, பகுப்பாய்வு சிந்தனை, விமர்சன சிந்தனை, முடிவெடுத்தல் மற்றும் உண்மையான சூழ்நிலைகளில் கருத்துகளைப் பயன்படுத்துவது போன்ற உண்மையான காட்சிகள் அல்லது சூழ்நிலைகளைக் குறிக்கிறது.

தூண்டல் பொறியியல்

தூண்டல் பொறியியல் என்பது மொழி மாதிரிகள் அல்லது AI அமைப்புகளிலிருந்து குறிப்பிட்ட பதில்களைப் பெறுவதற்காக இயற்கை மொழி தூண்டுதல்களை வடிவமைத்து மேம்படுத்துவதாகும். 2024 ஆம் ஆண்டு ஏப்ரல் மாதத்தில், அந்தந்த வலை இடைமுகங்கள் மூலம் மொழி மாதிரிகளை நேரடியாக விசாரித்து பதில்களை சேகரித்தோம்.

ஒவ்வொரு மாதிரியின் அடிப்படை திறன்களின் நியாயமான மதிப்பீட்டை உறுதி செய்வதற்காக, LLMகளுக்கு கேள்விகளை முன்வைப்பதில் கடுமையான முறையான கட்டுப்பாடு செயல்படுத்தப்பட்டது. ஒவ்வொரு கேள்வியும் தனித்தனியாக உள்ளிடப்பட்டது. புதிய கேள்வியை எழுப்புவதற்கு முன்பு அமர்வு மீட்டமைக்கப்பட்டது. முந்தைய தொடர்புகளின் அடிப்படையில் மாதிரிகள் கற்றுக்கொள்வதைத் அல்லது தழுவுவதைத் தடுக்க இது செய்யப்பட்டது.

தரவு பகுப்பாய்வு

அனைத்து பகுப்பாய்வுகளும் மைக்ரோசாஃப்ட் ஆபிஸ் எக்செல் மற்றும் பைதான் மென்பொருளைப் பயன்படுத்தி மேற்கொள்ளப்பட்டன. வெவ்வேறு கேள்வி சிரமங்களில் LLMகளின் செயல்திறனை ஒப்பிடுவதற்கு, பொருத்தமற்ற கை-சதுர சோதனை நடத்தப்பட்டது. புள்ளிவிவர முக்கியத்துவத்தை தீர்மானிக்க p < 0.05 இன் p-மதிப்பு வரம்பு பயன்படுத்தப்பட்டது. கேள்வி சிரம அளவுகளால் மாதிரி துல்லியம் மாறுபடுகிறதா என்பதை இந்த பகுப்பாய்வு மதிப்பீடு செய்தது.

நெறிமுறை பரிசீலனைகள்

இந்த ஆய்வானது இணையத்தில் வெளியிடப்பட்ட தகவல்களை மட்டுமே பயன்படுத்துகிறது. இதில் மனித பாடங்கள் எதுவும் சம்பந்தப்படவில்லை. எனவே, பாஸ்கென்ட் பல்கலைக்கழக நெறிமுறைக் குழுவின் ஒப்புதல் தேவையில்லை.

முடிவுகள்

2021 ஆம் ஆண்டு துருக்கிய மருத்துவ நிபுணத்துவப் பயிற்சி நுழைவுத் தேர்வின் முதல் பருவத்தில் அடிப்படை மருத்துவ அறிவியல் தேர்வில் பங்கேற்ற தேர்வர்களின் சராசரி சரியான பதில்களின் எண்ணிக்கை 51.63 ஆகும். மருத்துவ அறிவியல் தேர்வில் சராசரி சரியான பதில்களின் எண்ணிக்கை 63.95 ஆகும். அடிப்படை மருத்துவ அறிவியல் தேர்வை விட மருத்துவ அறிவியல் தேர்வில் சராசரி சரியான பதில்களின் எண்ணிக்கை அதிகமாக இருந்தது. இதற்கு இணையாக, செயற்கை நுண்ணறிவு தொழில்நுட்பமும் மருத்துவ அறிவியல் தேர்வுக்கு வெற்றிகரமாக பதிலளித்தது.

AI செயல்திறன்

AI தளங்களின் செயல்திறன் மனித தேர்வர்களுக்கு பயன்படுத்தப்படும் அதே அளவீடுகளைப் பயன்படுத்தி மதிப்பிடப்படுகிறது.

  • ChatGPT 4:

    ChatGPT 4 அடிப்படை மருத்துவ அறிவியல் பிரிவில் சராசரியாக 103 சரியான பதில்களைப் பெற்றது. மருத்துவ அறிவியல் பிரிவில் சராசரியாக 110 சரியான பதில்களைப் பெற்றது. இது 88.75% ஒட்டுமொத்த துல்லியத்தைக் குறிக்கிறது. இது இரண்டு பிரிவுகளிலும் உள்ள சராசரி மனித தேர்வாளர்களை விட கணிசமாக உயர்ந்தது (p < 0.001).

  • Llama 3 70B:

    Llama 3 70B அடிப்படை மருத்துவ அறிவியல் பிரிவில் சராசரியாக 95 சரியான பதில்களைப் பெற்றது. மருத்துவ அறிவியல் பிரிவில் சராசரியாக 95 சரியான பதில்களைப் பெற்றது. இது 79.17% ஒட்டுமொத்த துல்லியத்தைக் குறிக்கிறது. இதுவும் சராசரி மனித செயல்திறனை விட கணிசமாக அதிகமாகும் (p < 0.01).

  • Gemini 1.5 Pro:

    Gemini 1.5 Pro அடிப்படை மருத்துவ அறிவியல் பிரிவில் சராசரியாக 94 சரியான பதில்களைப் பெற்றது. மருத்துவ அறிவியல் பிரிவில் சராசரியாக 93 சரியான பதில்களைப் பெற்றது. இது 78.13% ஒட்டுமொத்த துல்லியத்தைக் குறிக்கிறது. இது சராசரி மனித செயல்திறனை விட கணிசமாக அதிகமாகும் (p < 0.01).

  • Command R+:

    Command R+ அடிப்படை மருத்துவ அறிவியல் பிரிவில் சராசரியாக 60 சரியான பதில்களைப் பெற்றது. மருத்துவ அறிவியல் பிரிவில் சராசரியாக 60 சரியான பதில்களைப் பெற்றது. இது 50% ஒட்டுமொத்த துல்லியத்தைக் குறிக்கிறது. இது அடிப்படை மருத்துவ அறிவியல் பிரிவில் உள்ள சராசரி மனித செயல்திறனுடன் குறிப்பிடத்தக்க அளவில் வேறுபடவில்லை (p = 0.12), ஆனால் மருத்துவ அறிவியல் பிரிவில் கணிசமாக குறைவாக இருந்தது (p < 0.05).

AI தளங்களின் செயல்திறன் மனித தேர்வர்களுக்கு பயன்படுத்தப்படும் அதே அளவீடுகளைப் பயன்படுத்தி மதிப்பிடப்படுகிறது.

படம் 3 கேள்வி சிரமத்தின் அடிப்படையில் வெவ்வேறு LLMகளின் துல்லியத்தை ஒப்பிடுகிறது - ChatGPT 4: சிறந்த செயல்திறன் கொண்ட மாதிரி. கேள்வி சிரமம் அதிகரிக்கும் போது, துல்லியம் அதிகரிக்கிறது, மிகவும் சவாலான கேள்விகளிலும் கிட்டத்தட்ட 70%ஐ நெருங்குகிறது - Llama 3 70B: மிதமான செயல்திறன் கொண்ட மாதிரி. கேள்வி சிரமம் அதிகரிக்கும் போது, துல்லியம் முதலில் அதிகரித்து பின்னர் குறைகிறது. மிகவும் சவாலான கேள்விகளில், அதன் துல்லியம் சுமார் 25% ஆகும். Gemini 1.5 70B: இதன் செயல்திறன் Llama 3 70B ஐப் போன்றது. கேள்வி சிரமம் அதிகரிக்கும் போது, துல்லியம் முதலில் அதிகரித்து பின்னர் குறைகிறது. மிகவும் சவாலான கேள்விகளில், அதன் துல்லியம் சுமார் 20% ஆகும். Command R+: குறைந்த செயல்திறன் கொண்ட மாதிரி. இதன் துல்லியம் கேள்வி சிரமம் அதிகரிக்கும் போது குறைகிறது, மேலும் மிகவும் சவாலான கேள்விகளில் சுமார் 15% ஆக பராமரிக்கப்படுகிறது.

சுருக்கமாக, ChatGPT 4 கேள்வி சிரமத்தால் மிகக் குறைவாகவே பாதிக்கப்படும் மாதிரி, மேலும் அதிக ஒட்டுமொத்த துல்லியத்தையும் கொண்டுள்ளது. Llama 3 70B மற்றும் Gemini 1.5 Pro மிதமான செயல்திறனைக் கொண்டிருந்தன. மற்ற மாதிரிகளை விட Command R+ குறைவான வெற்றியைப் பெற்றது. கேள்வி சிரமம் அதிகரிக்கும் போது, மாதிரிகளின் துல்லியம் குறைகிறது. சிக்கலான கேள்விகளைப் புரிந்துகொள்வதிலும் சரியான பதிலளிப்பதிலும் LLMகளுக்கு இன்னும் மேம்பாடு தேவை என்பதை இது குறிக்கிறது.

அட்டவணை 1 இல், ChatGPT 4 மாதிரி 88.75% வெற்றியுடன் தனித்து விளங்குகிறது. இது கேள்விகளைப் புரிந்துகொண்டு துல்லியமாக பதிலளிப்பதற்கான உறுதியான திறனைக் குறிக்கிறது. Llama 3 70B மாதிரி 79.17% வெற்றியுடன் இரண்டாவது இடத்தில் உள்ளது. இது ChatGPT 4 ஐ விடக் குறைவாக இருந்தாலும், கேள்விகளுக்குப் பதிலளிப்பதில் அதிக அளவிலான திறமையை வெளிப்படுத்துகிறது. Gemini 1.5 Pro மாதிரி 78.13% வெற்றியுடன் நெருக்கமாகப் பின்தொடர்கிறது. இதன் செயல்திறன் Llama 3 70B மாதிரியைப் போன்றது, இது கேள்விகளுக்குப் பதிலளிப்பதில் ஒரு வலுவான திறனைக் குறிக்கிறது. மறுபுறம், Command R+ மாதிரி மற்ற மாதிரிகளை விடக் குறைவாக உள்ளது, இதன் வெற்றி விகிதம் 50% ஆகும். இது குறிப்பிட்ட கேள்விகளில் சிரமங்களை எதிர்கொள்ளக்கூடும் அல்லது செயல்திறனை மேம்படுத்த மேலும் சரிசெய்தல் தேவை என்பதை இது குறிக்கிறது. வெவ்வேறு சிரம அளவுகளில் சரியான பதில்களின் விநியோகம். உதாரணமாக, அனைத்து மாதிரிகளும் எளிய கேள்விகளில் (சிரமம் நிலை 1) நன்றாகச் செய்தன. ChatGPT 4 மாதிரி சரியான மதிப்பெண்களைப் பெற்றது. நடுத்தர சிரமம் உள்ள கேள்விகளில் (நிலை 2 மற்றும் 3), ChatGPT 4 மற்றும் Llama 3 70B மாதிரிகள் தொடர்ந்து சிறப்பாகச் செய்தன.

இதற்கு மாறாக, Gemini 1.5 Pro மாதிரி சில பலவீனங்களைக் காட்டத் தொடங்கியது. கடினமான கேள்விகளில் (நிலை 4 மற்றும் 5), அனைத்து மாதிரிகளின் செயல்திறனும் குறைந்தது. Command R+ மாதிரி மிகவும் சிரமப்பட்டது. ஒட்டுமொத்தமாக, இந்த முடிவுகள் ஒவ்வொரு AI மாதிரியின் பலம் மற்றும் பலவீனங்களைப் பற்றிய மதிப்புமிக்க நுண்ணறிவுகளை வழங்குகின்றன. எதிர்கால மேம்பாடு மற்றும் மேம்பாட்டு முயற்சிகளுக்கு இது தகவல்களை வழங்கக்கூடும்.

அட்டவணை 3 இல், ChatGPT 4 உயிர்வேதியியலில் சரியான மதிப்பெண்களைப் பெற்றது, இது அந்தத் துறையில் கேள்விகளுக்குப் பதிலளிப்பதில் அதன் சிறந்த திறனை நிரூபிக்கிறது. Llama 3 70B மற்றும் Gemini 1.5 Pro ஆகியவையும் நன்றாகச் செய்தன, ஆனால் Command R+ 50% துல்லியத்துடன் மோசமாகச் செய்தது. மருந்தியல், நோயியல் மற்றும் நுண்ணுயிரியலில் சிறந்த செயல்திறன் கொண்ட மாதிரிகள் (ChatGPT 4 மற்றும் Llama 3 70B) வலுவான தகவல்களைக் காட்டுகின்றன. துல்லியம் 81% முதல் 90% வரை இருந்தது. Gemini 1.5 Pro மற்றும் Command R+ பின்தங்கின, ஆனால் இன்னும் நன்றாகச் செய்தன. உடற்கூறியல் மற்றும் உடலியல் மாதிரிகளுக்கு சில சவால்களை அளித்தன. ChatGPT 4 மற்றும் Meta AI-Llama 3 70B நன்றாகச் செய்தன. Gemini 1.5 Pro மற்றும் Command R+ 70% க்கும் குறைவான துல்லியத்துடன் மோசமாகச் செய்தன.

மருத்துவ அறிவியலில் குழந்தை மருத்துவம் அனைத்து மாதிரிகளுக்கும் முக்கியமானதாக இருந்தது. ChatGPT 4 கிட்டத்தட்ட சரியான மதிப்பெண்களைப் பெற்றது (90%). Llama 3 70B நெருக்கமாகப் பின்தொடர்ந்தது, Command R+ கூட 43% துல்லியத்தை அடைந்தது. உள் மருத்துவம் மற்றும் பொது அறுவை சிகிச்சை சிறந்த மாதிரிகளை விட சிறப்பாகச் செய்தன, துல்லியம் 79% முதல் 90% வரை இருந்தது. Gemini 1.5 Pro மற்றும் Command R+ பின்தங்கின, ஆனால் இன்னும் நன்றாகச் செய்தன. மயக்கவியல் மற்றும் புத்துயிர் பெறுதல், அவசர மருத்துவம், நரம்பியல் மற்றும் தோல் மருத்துவம் போன்ற துறைகளில் குறைந்த கேள்விகள் சமர்ப்பிக்கப்பட்டன, ஆனால் மாதிரிகள் ஒட்டுமொத்தமாக நன்றாகச் செய்தன. ChatGPT 4 மற்றும் Llama 3 70B இந்தத் துறைகளில் சிறந்த துல்லியத்தை வெளிப்படுத்தின.

மாதிரி ஒப்பீடு குறித்து, ChatGPT 4 பெரும்பாலான துறைகளில் சிறந்த செயல்திறன் கொண்ட மாதிரி, இதன் ஒட்டுமொத்த துல்லியம் 88.75% ஆகும். அடிப்படை மற்றும் மருத்துவ அறிவியல் கேள்விகளுக்கு துல்லியமாகப் பதிலளிக்கும் திறன் இதன் பலமாகும். Llama 3 70B நெருக்கமாகப் பின்தொடர்ந்தது, இதன் ஒட்டுமொத்த துல்லியம் 79.17% ஆகும். இது ChatGPT 4 இன் செயல்திறனுடன் முழுமையாக பொருந்தவில்லை என்றாலும், இது பல்வேறு துறைகளில் வலுவான அறிவைப் பராமரிக்கிறது. Gemini 1.5 Pro மற்றும் Command R+ பின்தங்கின, இதன் ஒட்டுமொத்த துல்லியம் முறையே 78.13% மற்றும் 50% ஆகும். சில துறைகளில் அவை நம்பிக்கையை வெளிப்படுத்தினாலும், எல்லா துறைகளிலும் ஒருமைப்பாட்டை பராமரிப்பது கடினமாக இருந்தது.

சுருக்கமாக, ChatGPT 4 தற்போது பல்வேறு துறைகளில் மருத்துவ அறிவியல் கேள்விகளுக்கு பதிலளிக்க மிகவும் பொருத்தமான மாதிரி ஆகும். Gemini 1.5 Pro மற்றும் Command R+ சாத்தியத்தை வெளிப்படுத்துகின்றன. ஆனால் சிறந்த செயல்திறன் கொண்ட மாதிரியுடன் போட்டியிட குறிப்பிடத்தக்க மேம்பாடுகள் தேவை.

அட்டவணை 4 இல், அறிவுத் துறையைப் பொறுத்தவரை, ChatGPT 4 அடிப்படை மருத்துவ அறிவியல் துறையில் 86.7% (85/98) துல்லியத்துடன் மற்ற மாதிரிகளை விட சிறப்பாகச் செயல்பட்டது. ChatGPT 4 மீண்டும் சிறப்பாகச் செயல்பட்டது, மருத்துவ அறிவியல் துறையில் 89.7% (61/68) துல்லியத்துடன் இருந்தது. நிகழ்வுத் துறையைப் பொறுத்தவரை, ChatGPT 4 அடிப்படை மருத்துவ அறிவியல் துறையில் 81.8% (18/22) துல்லியத்துடன் இருந்தது. மருத்துவ அறிவியல் துறையில், ChatGPT 4 இதே போன்ற செயல்திறனை வெளிப்படுத்தியது, துல்லியம் 94.2% (49/52) ஆகும்.

மாதிரிகளின் ஜோடி ஒப்பீடு காட்டுகிறது, ChatGPT 4 இரண்டு துறைகளிலும் கேள்வி வகைகளிலும் மற்ற மாதிரிகளை விட கணிசமாக சிறப்பாகச் செயல்படுகிறது. Llama 3 70B மற்றும் Gemini 1.5 Pro ஆகியவை ஒத்த செயல்திறனைக் கொண்டிருந்தன, அதே நேரத்தில் Command R+ பின்தங்கியது. இந்த பகுப்பாய்வின்படி, ChatGPT 4 அறிவு மற்றும் நிகழ்வுத் துறைகளிலும், அடிப்படை மற்றும் மருத்துவ அறிவியல் துறைகளிலும் சிறந்த செயல்திறனைக் காட்டுகிறது என்று நாம் முடிவு செய்யலாம்.

புள்ளிவிவர பகுப்பாய்வு

LLMகளின் செயல்திறன் மைக்ரோசாஃப்ட் ஆபிஸ் எக்செல் மற்றும் பைதான் (பதிப்பு 3.10.2) ஐப் பயன்படுத்தி பகுப்பாய்வு செய்யப்பட்டது. வெவ்வேறு கேள்வி சிரம நிலைகளில் மாதிரிகளின் செயல்திறனை ஒப்பிடுவதற்கு, பொருத்தமற்ற கை-சதுர சோதனை நடத்தப்பட்டது. ஒவ்வொரு AI மாதிரியின் சரியான மற்றும் தவறான பதில்களுக்காக சிரம நிலையின் அடிப்படையில் ஒரு நெடுவரிசை அட்டவணை கட்டப்பட்டது. சிரம அளவுகளில் செயல்திறனில் புள்ளிவிவர முக்கியத்துவம் வாய்ந்த வேறுபாடு இருக்கிறதா என்பதை தீர்மானிக்க கை-சதுர சோதனை பயன்படுத்தப்பட்டது. புள்ளிவிவர முக்கியத்துவத்தை தீர்மானிக்க <0.05 இன் p-மதிப்பு வரம்பு பயன்படுத்தப்பட்டது. ChatGPT 4 இன் p-மதிப்பு 0.00028 ஆகும். இது p < 0.05 இல் குறிப்பிடத்தக்கது. இது வெவ்வேறு சிரம அளவுகளில் செயல்திறனில் குறிப்பிடத்தக்க வேறுபாடு உள்ளது என்பதை காட்டுகிறது. Gemini 1.5 Pro இன் p-மதிப்பு 0.047 ஆகும். இது p < 0.05 இல் குறிப்பிடத்தக்கது. இது வெவ்வேறு சிரம அளவுகளில் செயல்திறனில் குறிப்பிடத்தக்க வேறுபாடு உள்ளது என்பதைக் காட்டுகிறது. Command R+ இன் p-மதிப்பு 0.197 ஆகும். இது p < 0.05 இல் குறிப்பிடத்தக்கது அல்ல. இது வெவ்வேறு சிரம அளவுகளில் செயல்திறனில் குறிப்பிடத்தக்க வேறுபாடு இல்லை என்பதைக் காட்டுகிறது. Llama 3 70B இன் p-மதிப்பு: 0.118, p-மதிப்பு: 0.118 ஆகும். இது p < 0.05 இல் குறிப்பிடத்தக்கது அல்ல. இது வெவ்வேறு சிரம அளவுகளில் செயல்திறனில் குறிப்பிடத்தக்க வேறுபாடு இல்லை என்பதைக் காட்டுகிறது.

வெவ்வேறு கேள்வி சிரமங்களில் ChatGPT 4 மற்றும் Gemini 1.5 Pro இன் சரியான தன்மை புள்ளிவிவர ரீதியாக குறிப்பிடத்தக்க வேறுபாட்டைக் காட்டுகிறது. அவற்றின் செயல்திறன் கேள்வி சிரமத்தின் படி கணிசமாக மாறுபடும் என்பதைக் காட்டுகிறது. Command R+ மற்றும் Llama 3 70B சிரம நிலைகளில் குறிப்பிடத்தக்க செயல்திறன் வேறுபாட்டை வெளிப்படுத்தவில்லை. கேள்வி சிரமம் எதுவாக இருந்தாலும், செயல்திறன் அதிகமாக சீராக இருந்தது என்பதைக் காட்டுகிறது. இந்த முடிவுகள் வெவ்வேறு மாதிரிகள் வெவ்வேறு சிரமங்களுடன் தொடர்புடைய சிக்கல்கள் மற்றும் தலைப்புகளைக் கையாள்வதில் வெவ்வேறு பலம் மற்றும் பலவீனங்களைக் கொண்டிருக்கலாம் என்பதைக் குறிக்கின்றன.

கலந்துரையாடல்

துருக்கிய மருத்துவப் பட்டதாரிகள் நிபுணத்துவப் பயிற்சியை மேற்கொள்வதற்கு TUS ஒரு முக்கியமான தேசியத் தேர்வு ஆகும். இந்தத் தேர்வில் அடிப்படை அறிவியல் மற்றும் மருத்துவ அறிவியல் ஆகியவற்றை உள்ளடக்கிய பல தேர்வு கேள்விகள் உள்ளன. நிபுணத்துவ பாடத்திட்டத்தின் தரவரிசையைத் தீர்மானிக்கும் மையப்படுத்தப்பட்ட தரவரிசை அமைப்பு உள்ளது.

TUS இல் பெரிய மொழி மாதிரிகளின் செயல்திறனை மதிப்பிடும்போது, GPT-4 சிறந்த செயல்திறன் கொண்ட மாதிரியாக இருந்தது. அதேபோல, ChatGPT ஒரு வலுவான AI மாதிரி. அறுவை சிகிச்சையில் மனித அளவிலான செயல்திறனை வெளிப்படுத்துகிறது. முறையே 71% மற்றும் 68% பல தேர்வு கேள்விகளுக்கு சரியான பதிலளித்துள்ளது. கூடுதலாக, ChatGPT பொது சுகாதார தேர்வில் சிறப்பாகச் செயல்பட்டது. தற்போதைய தேர்ச்சி விகிதத்தை மீறி தனித்துவமான நுண்ணறிவுகளை வழங்கியது. இந்த கண்டுபிடிப்புகள் மருத்துவ மதிப்பீட்டில் GPT-4 மற்றும் ChatGPT இன் சிறந்த செயல்திறனை எடுத்துக்காட்டுகின்றன. மருத்துவக் கல்வியை மேம்படுத்துவதற்கும் சாத்தியமான நோயறிதல் உதவிக்கும் அவற்றின் திறனைக் காட்டுகின்றன.

மருத்துவக் கல்வியாளர்கள் மற்றும் தேர்வாளர்களுக்கு, LLMகளின் துல்லியம் அதிகரித்து வருவது தேர்வு வடிவமைப்பு மற்றும் மதிப்பீடு குறித்து முக்கியமான கேள்விகளை எழுப்புகிறது. AI மாதிரியானது தரப்படுத்தப்பட்ட மருத்துவத் தேர்வுகளை அதிக துல்லியத்துடன் தீர்க்க முடியும் என்றால், எதிர்கால மதிப்பீடுகள் எளிய நினைவுகூருதலைத் தாண்டிய உயர்-வரிசை பகுத்தறிவு மற்றும் மருத்துவ தீர்ப்பு கேள்விகளை இணைக்க வேண்டியிருக்கும். கூடுதலாக, துருக்கிய மருத்துவ நிறுவனங்கள் மாணவர்களின் தனிப்பட்ட தேவைகளுக்கு ஏற்ப கற்றல் பொருட்களைத் தயாரிப்பதற்கான தகவமைப்பு கற்றல் அமைப்புகள் போன்ற AI உதவியுடன் கல்வி உத்திகளை ஆராயலாம்.

தேசிய கண்ணோட்டத்தில், இந்த ஆய்வானது துருக்கிய மருத்துவக் கல்வியில் AIயின் முக்கியத்துவம் அதிகரித்து வருவதை எடுத்துக்காட்டுகிறது. இந்த LLMகள் துருக்கிய மருத்துவ கேள்விகளில் சிறப்பாக செயல்படுவதால், அவை தரமான கல்வி ஆதாரங்களை அணுகுவதில் பின்தங்கியுள்ள பகுதிகளின் மாணவர்களுக்கு ஒரு பாலமாக அமையலாம். மேலும், கொள்கை வகுப்பாளர்கள் AI மாதிரிகளை துருக்கிய சுகாதார நிபுணர்களின் தொடர் மருத்துவக் கல்வி மற்றும் வாழ்நாள் கற்றல் திட்டங்களில் எவ்வாறு ஒருங்கிணைப்பது என்பதைக் கருத்தில் கொள்ள வேண்டும்.

முடிவில், ChatGPT-4 போன்ற AI மாதிரிகள் குறிப்பிடத்தக்க துல்லியத்தை வெளிப்படுத்தினாலும், மருத்துவக் கல்வியில் அதன் பங்கை கவனமாக மதிப்பீடு செய்ய வேண்டும். AI உதவியுடன் கற்கும் சாத்தியமான நன்மைகள் அதிகமாக உள்ளன. ஆனால் சரியான செயலாக்கம் இந்த கருவிகள் பொறுப்புடனும் நெறிமுறையுடனும் பயன்படுத்தப்படுவதையும், மனித நிபுணத்துவத்துடன் இணைந்து பயன்படுத்தப்படுவதையும் உறுதி செய்ய வேண்டும்.

வரம்புகள்

இந்த ஆய்வானது துருக்கிய மருத்துவ நிபுணத்துவப் பயிற்சி நுழைவுத் தேர்வில் (TUS) பெரிய மொழி மாதிரிகள் (LLM) வெளிப்படுத்தும் செயல்திறன் குறித்து மதிப்புமிக்க நுண்ணறிவுகளை வழங்குகிறது. ஆனால் ஆய்வின் முடிவுகள் சூழல் உணர்வுடன் இருக்கவும் எதிர்கால ஆய்வுக்கு வழிகாட்டவும் பல முக்கியமான வரம்புகளை ஒப்புக்கொள்ள வேண்டும். முதலாவதாக, இந்த ஆய்வில் மதிப்பிடப்பட்ட AI மாதிரிகளின் பயிற்சித் தரவுகளில் TUS கேள்விகள் உள்ளடக்கப்பட்டுள்ளதா என்பது உறுதியாகத் தெரியவில்லை. கடந்தகால TUS கேள்விகள் பகிரங்கமாக கிடைக்கப்பெறுவதால், இந்த ஆய்வில் பயன்படுத்தப்பட்ட கேள்விகள் மாதிரி பயிற்சித் தரவின் ஒரு பகுதியாக இருந்திருக்கலாம். இது மாதிரியின் செயல்திறன் உண்மையான புரிதலை பிரதிபலிக்கிறதா அல்லது குறிப்பிட்ட கேள்விகளை நினைவில் கொள்ளும் திறனை மட்டுமே பிரதிபலிக்கிறதா என்பது குறித்து கவலைகளை எழுப்புகிறது. AI மாதிரிகள் உண்மையான பகுத்தறிவு திறனை வெளிப்படுத்துகிறதா அல்லது தகவல்களை நினைவில் கொள்வதை நம்பியுள்ளதா என்பதை மதிப்பிடும் முறைகளை எதிர்கால ஆய்வுகள் உருவாக்க வேண்டும்.

இரண்டாவதாக, AI மாதிரிகள் அவற்றின் பயிற்சித் தரவுகளிலிருந்து வரும் சார்புகளை வெளிப்படுத்த வாய்ப்புள்ளது. இந்த சார்புகள் பயிற்சித் தரவில் சில மருத்துவ நிலைமைகள், மக்கள் அல்லது பார்வைகளின் சமநிலையற்ற பிரதிநிதித்துவத்திலிருந்து வரலாம். உதாரணமாக, ஒவ்வொரு மொழியிலும் கிடைக்கும் பயிற்சித் தரவின் அளவு மற்றும் தரம் ஆகியவற்றில் வேறுபாடுகள் இருப்பதால், துருக்கிய மொழியில் மாதிரியின் செயல்திறன் ஆங்கிலத்தில் இருந்து வேறுபடலாம். மேலும், துருக்கிய உள்ளூர் மருத்துவ நடைமுறைகள் அல்லது கலாச்சார பின்னணியைப் புரிந்துகொள்ள வேண்டிய கேள்விகளுக்கு இந்த மாதிரிகள் சரியாக பதிலளிக்காமல் இருக்கலாம். இந்த சார்புகள் ஆய்வின் முடிவுகளின் பொதுவான தன்மையைக் கட்டுப்படுத்தலாம். மருத்துவக் கல்வி மற்றும் பயிற்சியில் AI ஐப் பயன்படுத்துவதில் நெறிமுறை கவலைகளை எழுப்பலாம்.

மூன்றாவது வரம்பு என்னவென்றால், இந்த ஆய்வானது பல தேர்வு கேள்விகளில் மட்டுமே கவனம் செலுத்தியது. உண்மையான மருத்துவ நடைமுறையில், மருத்துவ நிபுணர்கள் சிக்கலான நிகழ்வுகளை பகுத்தறிவது, தெளிவற்ற கண்டுபிடிப்புகளை விளக்குவது மற்றும் நிச்சயமற்ற நிலையில் முடிவுகளை எடுப்பது போன்ற திறன்களைக் கொண்டிருக்க வேண்டும். மேலும், தெளிவான மற்றும் இரக்கமுள்ள முறையில் நோயாளிகள் மற்றும் சக ஊழியர்களுக்கு நோயறிதல்கள், சிகிச்சை விருப்பங்கள் மற்றும் அபாயங்களை தெரிவிக்கும் திறன் மிகவும் முக்கியமானது. இந்த பணிகளைச் செய்வதற்கான AI மாதிரிகளின் திறன் இன்னும் சோதிக்கப்படவில்லை. அவற்றின் தற்போதைய வடிவமைப்பு மற்றும் பயிற்சியால் அவற்றின் திறன்கள் குறைவாக இருக்கலாம். எதிர்கால ஆய்வுகள் மருத்துவ நிகழ்வு உருவகப்படுத்துதல்கள் மற்றும் திறந்தநிலை மதிப்பீடுகள் போன்ற இன்னும் யதார்த்தமான சூழல்களில் AI மாதிரிகளை மதிப்பிட வேண்டும்.

நான்காவது வரம்பு என்னவென்றால், இந்த ஆய்வில் திறந்தநிலை கேள்விகள் சேர்க்கப்படவில்லை. திறந்தநிலை கேள்விகள் விமர்சன சிந்தனை, தகவல்களை ஒருங்கிணைத்தல் மற்றும் மருத்துவ பகுத்தறிவு போன்ற உயர்-வரிசை அறிவாற்றல் திறன்களை மதிப்பிடுவதற்கு முக்கியமானவை. இந்த வகையான கேள்விகளுக்கு ஒரு பட்டியலிலிருந்து சரியான விருப்பத்தைத் தேர்ந்தெடுப்பதற்கு பதிலாக, ஒருமைப்பாடு மற்றும் சூழலுக்கு தொடர்புடைய பதில்களை உருவாக்கும் திறன் தேவைப்படுகிறது. அத்தகைய பணிகளில் AI மாதிரிகளின் செயல்திறன் பல தேர்வு கேள்விகளில் அவற்றின் செயல்திறனிலிருந்து மிகவும் வேறுபடலாம். இது எதிர்கால ஆய்வின் முக்கியமான பகுதியை பிரதிபலிக்கிறது.

ஐந்தாவது வரம்பு என்னவென்றால், AI மாதிரிகள் நேர அழுத்தத்தின் கீழ் சோதிக்கப்படவில்லை. மனித தேர்வாளர்கள் தேர்வு நேரத்தில் கடுமையான நேரக் கட்டுப்பாடுகளுக்கு உட்படுத்தப்படுகிறார்கள். இது அவர்களின் செயல்திறனை பாதிக்கும். இதற்கு மாறாக, இந்த ஆய்வில் உள்ள AI மாதிரிகள் நேர அழுத்தத்திற்கு உட்படுத்தப்படவில்லை. இது நேர இடைவெளியின் அழுத்தமின்றி