వైద్య విద్యలో AI: TUS పరీక్ష మూల్యాంకనం

వైద్య విద్యలో AI పాత్ర: టర్కీ వైద్య ప్రత్యేక శిక్షణ ప్రవేశ పరీక్షలో పెద్ద భాషా నమూనాల మూల్యాంకనం

పరిచయం

ఇటీవలి సంవత్సరాలలో, కృత్రిమ మేధస్సు (AI) మరియు పెద్ద భాషా నమూనాలు (LLM) వంటి సాంకేతిక పురోగతులు వైద్య విద్య మరియు జ్ఞానాన్ని అంచనా వేసే పద్ధతులకు ఒక రూపాంతరీకరణ సామర్థ్యాన్ని అందించాయి. ప్రత్యేకించి, ఈ పరిణామాలు వైద్య సమాచారాన్ని మరింత సులభంగా అందుబాటులోకి తీసుకురావడానికి మరియు అంచనాలను మరింత ఇంటరాక్టివ్‌గా చేయడానికి సహాయపడతాయి.

USMLE మరియు JMLE వంటి వివిధ వైద్య లైసెన్సింగ్ పరీక్షలలో LLMల పనితీరును మునుపటి అధ్యయనాలు పరిశీలించాయి, అయితే ఈ పరీక్షలు TUS నుండి నిర్మాణం మరియు కంటెంట్‌లో గణనీయంగా విభిన్నంగా ఉంటాయి. TUS ప్రాథమిక మరియు క్లినికల్ సైన్స్‌లపై దృష్టి పెడుతుంది. ప్రత్యేకించి టర్కిష్ వైద్య నేపథ్యానికి సంబంధించినది, ఇది ప్రత్యేకమైన మూల్యాంకన వాతావరణంలో LLMల సామర్థ్యాలను అంచనా వేయడానికి ఒక ప్రత్యేకమైన అవకాశాన్ని అందిస్తుంది. ఈ అధ్యయనం నాలుగు ప్రముఖ LLMల పనితీరును TUSలో అంచనా వేయడం ద్వారా ఈ అంతరాన్ని పూరించడానికి లక్ష్యంగా పెట్టుకుంది. అంతేకాకుండా, ఈ పరిశోధనలు పాఠ్యాంశాల రూపకల్పన, AI-సహాయక వైద్య శిక్షణ మరియు టర్కీలో వైద్య అంచనాల భవిష్యత్తుపై వాటి సంభావ్య చిక్కులను అన్వేషిస్తాయి. ప్రత్యేకంగా, టర్కిష్ వైద్య పాఠ్యాంశాలకు అనుగుణంగా మరింత ప్రభావవంతమైన విద్యా వనరులు మరియు అంచనా వ్యూహాలను అభివృద్ధి చేయడానికి LLMల పనితీరు ఎలా సహాయపడుతుందో మేము పరిశీలిస్తాము. ఈ విచారణ నిర్దిష్ట భాష పనితీరును అర్థం చేసుకోవడానికి మాత్రమే కాకుండా, ప్రపంచ వైద్య విద్య మరియు అంచనాలో AIని సమర్థవంతంగా ఎలా సమగ్రపరచాలనే దాని గురించి విస్తృత చర్చకు కూడా సహాయపడుతుంది.

ఈ అధ్యయనాల ఫలితాలు ChatGPT మరియు సారూప్య LLMలు వైద్య విద్య మరియు జ్ఞాన మూల్యాంకన ప్రక్రియలలో ముఖ్యమైన పాత్ర పోషిస్తాయని సూచిస్తున్నాయి. వైద్య సమాచార పునరుద్ధరణ మరియు అంచనా పద్ధతుల్లోని కృత్రిమ మేధస్సు మరియు LLMలు వినూత్న విధానాలు మరియు అభ్యాస పద్ధతుల అభివృద్ధిని అనుమతిస్తాయి, ముఖ్యంగా వైద్య విద్యలో. టర్కీ వైద్య ప్రత్యేక శిక్షణ ప్రవేశ పరీక్షలో ChatGPT 4, Gemini 1.5 Pro మరియు Cohere-Command R+ యొక్క పనితీరును అంచనా వేయడం ద్వారా వైద్య విద్య మరియు జ్ఞాన మూల్యాంకనంపై LLMల ప్రభావం గురించి మరింత పరిశోధించడానికి ఈ అధ్యయనం లక్ష్యంగా పెట్టుకుంది.

ఈ అధ్యయనం ఆధునిక కృత్రిమ మేధస్సు (AI) నమూనాల అనువర్తనాలను అన్వేషిస్తుంది, ప్రత్యేకంగా ChatGPT 4, Gemini 1.5 Pro, Command R+ మరియు Llama 3 70B వైద్య విద్య మరియు అంచనాలో, వైద్య ప్రత్యేక పరీక్ష సమస్యలను పరిష్కరించడంలో వాటి పనితీరుపై దృష్టి సారించింది. వివరణాత్మక సామర్థ్యం మరియు ఖచ్చితత్వం వంటి అంశాలను పరిగణనలోకి తీసుకుంటే, టర్కీ వైద్య ప్రత్యేక శిక్షణ ప్రవేశ పరీక్ష ప్రశ్నలను సమగ్రంగా మరియు క్రమపద్ధతిలో విశ్లేషించగల ఈ నమూనాల సామర్థ్యాన్ని ఈ అధ్యయనం అంచనా వేస్తుంది. వైద్యంలో AI యొక్క సామర్థ్యాన్ని నొక్కి చెబుతుంది. AI నమూనాలు వైద్య విద్య మరియు అంచనా ప్రక్రియలను గణనీయంగా మెరుగుపరుస్తాయని ఫలితాలు సూచిస్తున్నాయి, కొత్త అప్లికేషన్‌లు మరియు పరిశోధనలకు మార్గం సుగమం చేస్తున్నాయి. ఈ కథనం యొక్క ప్రధాన ఉద్దేశ్యం AI సాంకేతిక పరిజ్ఞానం యొక్క వేగవంతమైన పురోగతిని అంచనా వేయడం మరియు వివిధ AI నమూనాల ప్రతిస్పందనలను పోల్చడం. ChatGPT 4, Gemini 1.5 Pro, Command R+ మరియు Llama 3 70B యొక్క తులనాత్మక విశ్లేషణ నిర్వహించబడింది, 2021లో టర్కీ వైద్య ప్రత్యేక శిక్షణ ప్రవేశ పరీక్ష యొక్క మొదటి సెమిస్టర్‌లో 240 ప్రశ్నలకు వాటి పనితీరును అంచనా వేసింది.

ఈ పోలిక AI సాంకేతిక పరిజ్ఞానం యొక్క పథం మరియు వ్యత్యాసాలను వెల్లడించడానికి లక్ష్యంగా పెట్టుకుంది, వైద్య విద్య మరియు పరీక్షల తయారీ వంటి ప్రత్యేక రంగాలలో వాటి ఉపయుక్తతపై దృష్టి సారించింది. తుది లక్ష్యం ఏమిటంటే, వినియోగదారులు వారి నిర్దిష్ట అవసరాలకు బాగా సరిపోయే అభ్యాస సాధనాన్ని ఎంచుకోవడానికి సహాయపడే అంతర్దృష్టులను అందించడం.

పద్ధతులు

LLMలకు ప్రశ్నలు టర్కిష్ భాషలో అడగబడ్డాయి. విద్యార్థుల ఎంపిక మరియు ప్లేస్‌మెంట్ సెంటర్ యొక్క అధికారిక వెబ్‌సైట్ నుండి ప్రశ్నలు పొందబడ్డాయి, బహుళ ఎంపిక ఆకృతిలో (A నుండి E వరకు ఐదు ఎంపికలతో) ఉత్తమ సమాధానం ఒకటి మాత్రమే ఉంటుంది. LLMల ద్వారా టర్కిష్‌లో సమాధానాలు అందించబడ్డాయి.

విద్యార్థుల ఎంపిక మరియు ప్లేస్‌మెంట్ సెంటర్ విడుదల చేసిన సరైన సమాధానాలపై మూల్యాంకన ప్రక్రియ ఆధారపడింది. వ్యాసంలో ఇలా పేర్కొనబడింది: ‘AI నమూనాల ప్రశ్నలకు ‘సరైన’ సమాధానం విద్యార్థుల ఎంపిక మరియు ప్లేస్‌మెంట్ సెంటర్ విడుదల చేసిన సమాధానాల ఆధారంగా నిర్వచించబడింది. ప్రశ్న వచనంలోని సూచనల ప్రకారం సరిగ్గా గుర్తించబడిన సమాధానాలు మాత్రమే ‘సరైనవి’గా అంగీకరించబడ్డాయి.’ ప్రశ్నలు మరియు సమాధానాలు రెండూ టర్కిష్‌లో ఉన్నందున, LLMల టర్కిష్ సమాధానాలను విద్యార్థుల ఎంపిక మరియు ప్లేస్‌మెంట్ సెంటర్ అందించిన అధికారిక టర్కిష్ సమాధానాల కీతో పోల్చడం మూల్యాంకన ప్రక్రియలో ఉంటుంది.

వైద్య విద్యా డేటా సెట్

వైద్య పరిజ్ఞానం మరియు కేసుల మూల్యాంకనంలో AI నమూనాల సామర్థ్యాన్ని పరీక్షించడానికి ఈ అధ్యయనం ChatGPT 4, Gemini 1.5 Pro, Command R+ మరియు Llama 3 70B లను ఉపయోగించింది. 2021 మార్చి 21న జరిగిన టర్కీ వైద్య ప్రత్యేక శిక్షణ ప్రవేశ పరీక్షలోని ప్రశ్నలపై ఈ అధ్యయనం జరిగింది. టర్కీ వైద్య ప్రత్యేక శిక్షణ ప్రవేశ పరీక్ష అనేది విద్యార్థుల ఎంపిక మరియు ప్లేస్‌మెంట్ సెంటర్ నిర్వహించే పరీక్ష, ఇందులో 240 ప్రశ్నలు ఉంటాయి. మొదటి వర్గంలోని ప్రాథమిక పరిజ్ఞానం ప్రశ్నలు వైద్య విద్యను పూర్తి చేయడానికి అవసరమైన పరిజ్ఞానం మరియు నీతిని పరీక్షిస్తాయి. రెండవ వర్గం కేసు ప్రశ్నలు, ఇది అనేక కొలమాన విశ్లేషణాత్మక ఆలోచన మరియు తార్కిక సామర్థ్యాలను కలిగి ఉంటుంది.

ప్రశ్న కష్టం యొక్క వర్గీకరణ

ప్రశ్నల కష్టం స్థాయి విద్యార్థుల ఎంపిక మరియు ప్లేస్‌మెంట్ సెంటర్ విడుదల చేసిన అధికారిక అభ్యర్థి పనితీరు డేటా ఆధారంగా వర్గీకరించబడింది. ప్రత్యేకంగా, ప్రతి ప్రశ్నకు కేంద్రం నివేదించిన సరైన సమాధాన రేటు ప్రశ్నలను ఐదు కష్టం స్థాయిలుగా విభజించడానికి ఉపయోగించబడింది:

  • స్థాయి 1 (సులభమైనది): సరైన సమాధాన రేటు 80% లేదా అంతకంటే ఎక్కువ ఉన్న ప్రశ్నలు.
  • స్థాయి 2: సరైన సమాధాన రేటు 60% మరియు 79.9% మధ్య ఉన్న ప్రశ్నలు.
  • స్థాయి 3 (సగటు): సరైన సమాధాన రేటు 40% మరియు 59.9% మధ్య ఉన్న ప్రశ్నలు.
  • స్థాయి 4: సరైన సమాధాన రేటు 20% మరియు 39.9% మధ్య ఉన్న ప్రశ్నలు.
  • స్థాయి 5 (అత్యంత కష్టమైనది): సరైన సమాధాన రేటు 19.9% లేదా అంతకంటే తక్కువ ఉన్న ప్రశ్నలు.

AI నమూనాల ప్రశ్నలకు ‘సరైన’ సమాధానం విద్యార్థుల ఎంపిక మరియు ప్లేస్‌మెంట్ సెంటర్ విడుదల చేసిన సమాధానాల ఆధారంగా నిర్వచించబడింది. ప్రశ్న వచనంలోని సూచనల ప్రకారం సరిగ్గా గుర్తించబడిన సమాధానాలు మాత్రమే ‘సరైనవి’గా అంగీకరించబడ్డాయి. అదనంగా, విద్యార్థుల ఎంపిక మరియు ప్లేస్‌మెంట్ సెంటర్ విడుదల చేసిన సరైన సమాధానాల రేటు ఆధారంగా ప్రతి ప్రశ్నకు కష్టం స్థాయి 1 నుండి 5 వరకు విభజించబడింది. 80% మరియు అంతకంటే ఎక్కువ సరైన సమాధానాల రేటు ఉన్న ప్రశ్నలు సులభమైనవిగా (స్థాయి 1) పరిగణించబడ్డాయి, అయితే 19.9% మరియు అంతకంటే తక్కువ సరైన సమాధానాల రేటు ఉన్న ప్రశ్నలు అత్యంత కష్టమైనవిగా (స్థాయి 5) పరిగణించబడ్డాయి.

పరిజ్ఞానం మరియు కేసు ప్రాంతాలు

టర్కీ వైద్య ప్రత్యేక శిక్షణ ప్రవేశ పరీక్ష అనేది టర్కీ వైద్య పట్టభద్రులు ప్రత్యేకత సాధించడానికి ఒక కీలకమైన దశ, ఇది ఇద్దరు ముఖ్య రంగాలలో అభ్యర్థుల పరిజ్ఞానం మరియు కేసు ప్రాంతాలను అంచనా వేస్తుంది. ఈ ప్రాంతాల మధ్య వ్యత్యాసాన్ని అర్థం చేసుకోవడం పూర్తిగా సిద్ధం కావడానికి చాలా అవసరం. పరిజ్ఞాన ప్రాంతం వారు ఎంచుకున్న వైద్య రంగంలోని సైద్ధాంతిక అవగాహన మరియు వాస్తవ పరిజ్ఞానాన్ని అంచనా వేయడంపై దృష్టి పెడుతుంది. ఇది ప్రాథమిక భావనలు మరియు సూత్రాలపై పట్టును పరీక్షిస్తుంది మరియు ప్రత్యేకతకు సంబంధించిన వైద్య సమాచారాన్ని స్థాపిస్తుంది. ఇది పరీక్షించబడుతున్న నిర్దిష్ట వైద్య పరిజ్ఞాన ప్రాంతాన్ని సూచిస్తుంది, ఉదాహరణకు ప్రాథమిక వైద్య శాస్త్రాలు (శరీర నిర్మాణ శాస్త్రం, జీవరసాయన శాస్త్రం, శరీరధర్మ శాస్త్రం మొదలైనవి) మరియు క్లినికల్ సైన్సెస్ (అంతర్గత వైద్యం, శస్త్రచికిత్స, పిల్లల వైద్యం మొదలైనవి) కేసు ప్రాంతం, మరోవైపు, సమస్య పరిష్కారం, విశ్లేషణాత్మక ఆలోచన, విమర్శనాత్మక ఆలోచన, నిర్ణయం తీసుకోవడం మరియు నిజమైన పరిస్థితులకు భావనలను వర్తింపజేయడం వంటి నిజమైన దృశ్యాలు లేదా సందర్భాలను సూచిస్తుంది.

ప్రాంప్ట్ ఇంజనీరింగ్

ప్రాంప్ట్ ఇంజనీరింగ్ అనేది భాషా నమూనా లేదా AI వ్యవస్థ నుండి నిర్దిష్ట ప్రతిస్పందనను పొందడానికి సహజ భాషా ప్రాంప్ట్‌లను రూపొందించడం మరియు చక్కగా ట్యూన్ చేయడం. 2024 ఏప్రిల్‌లో, మేము వాటి సంబంధిత వెబ్ ఇంటర్‌ఫేస్‌ల ద్వారా భాషా నమూనాలను నేరుగా ప్రశ్నించడం ద్వారా ప్రతిస్పందనలను సేకరించాము.

ప్రతి నమూనా యొక్క అసలైన సామర్థ్యాలను నిష్పక్షపాతంగా అంచనా వేయడానికి, LLMలకు ప్రశ్నలను అందించే విధానంలో కఠినమైన పద్ధతి నియంత్రణ అమలు చేయబడింది. ప్రతి ప్రశ్న విడిగా నమోదు చేయబడింది మరియు కొత్త ప్రశ్నను అడగడానికి ముందు సెషన్‌ను రీసెట్ చేయడం జరిగింది, తద్వారా మునుపటి పరస్పర చర్యల ఆధారంగా నమూనా నేర్చుకోవడం లేదా స్వీకరించడం జరగకుండా నిరోధించబడింది.

డేటా విశ్లేషణ

అన్ని విశ్లేషణలు Microsoft Office Excel మరియు Python సాఫ్ట్‌వేర్‌ను ఉపయోగించి నిర్వహించబడ్డాయి. వివిధ ప్రశ్న కష్టాలపై LLMల పనితీరును పోల్చడానికి, జత చేయని కై-స్క్వేర్ పరీక్షలు నిర్వహించబడ్డాయి. గణాంక ప్రాముఖ్యతను గుర్తించడానికి p < 0.05 యొక్క p-విలువ థ్రెషోల్డ్ ఉపయోగించబడింది. ఈ విశ్లేషణ ప్రశ్న కష్టం స్థాయిని బట్టి నమూనా ఖచ్చితత్వం మారుతుందో లేదో అంచనా వేసింది.

నైతిక పరిశీలనలు

ఈ అధ్యయనం ఇంటర్నెట్‌లో ప్రచురించబడిన సమాచారాన్ని మాత్రమే ఉపయోగిస్తుంది మరియు మానవ విషయాలను కలిగి ఉండదు. కాబట్టి, బాస్కెంట్ విశ్వవిద్యాలయ నైతిక కమిటీ నుండి అనుమతి అవసరం లేదు.

ఫలితాలు

2021 టర్కీ వైద్య ప్రత్యేక శిక్షణ ప్రవేశ పరీక్ష యొక్క మొదటి దశలో ప్రాథమిక వైద్య శాస్త్ర పరీక్షకు హాజరైన అభ్యర్థుల సగటు సరైన సమాధానాల సంఖ్య 51.63. క్లినికల్ వైద్య శాస్త్ర పరీక్షకు సగటు సరైన సమాధానాల సంఖ్య 63.95. ప్రాథమిక వైద్య శాస్త్ర పరీక్ష కంటే క్లినికల్ వైద్య శాస్త్ర పరీక్షకు సగటు సరైన సమాధానాల సంఖ్య ఎక్కువగా ఉంది. ఈ పరిస్థితికి సమాంతరంగా, కృత్రిమ మేధస్సు సాంకేతిక పరిజ్ఞానం కూడా క్లినికల్ వైద్య శాస్త్ర పరీక్షకు మరింత విజయవంతంగా సమాధానం ఇచ్చింది.

AI పనితీరు

మానవ అభ్యర్థులకు ఉపయోగించిన అదే కొలమానాలను ఉపయోగించి AI ప్లాట్‌ఫారమ్‌ల పనితీరు అంచనా వేయబడింది.

  • ChatGPT 4:

    ChatGPT 4 ప్రాథమిక వైద్య శాస్త్ర విభాగంలో 103 సరైన సమాధానాల సగటు స్కోరును పొందింది మరియు క్లినికల్ వైద్య శాస్త్ర విభాగంలో 110 సరైన సమాధానాల సగటు స్కోరును పొందింది. ఇది 88.75% యొక్క మొత్తం ఖచ్చితత్వాన్ని సూచిస్తుంది, ఇది రెండు విభాగాల్లోని సగటు మానవ అభ్యర్థుల కంటే గణనీయంగా మెరుగ్గా ఉంది (p < 0.001).

  • Llama 3 70B:

    Llama 3 70B ప్రాథమిక వైద్య శాస్త్ర విభాగంలో 95 సరైన సమాధానాల సగటు స్కోరును పొందింది మరియు క్లినికల్ వైద్య శాస్త్ర విభాగంలో 95 సరైన సమాధానాల సగటు స్కోరును పొందింది.ఇది 79.17% యొక్క మొత్తం ఖచ్చితత్వాన్ని సూచిస్తుంది, ఇది సగటు మానవ పనితీరు కంటే గణనీయంగా ఎక్కువ (p < 0.01).

  • Gemini 1.5 Pro:

    Gemini 1.5 Pro ప్రాథమిక వైద్య శాస్త్ర విభాగంలో 94 సరైన సమాధానాల సగటు స్కోరును పొందింది మరియు క్లినికల్ వైద్య శాస్త్ర విభాగంలో 93 సరైన సమాధానాల సగటు స్కోరును పొందింది. ఇది 78.13% యొక్క మొత్తం ఖచ్చితత్వాన్ని సూచిస్తుంది, ఇది సగటు మానవ పనితీరు కంటే గణనీయంగా ఎక్కువ (p < 0.01).

  • Command R+:

    Command R+ ప్రాథమిక వైద్య శాస్త్ర విభాగంలో 60 సరైన సమాధానాల సగటు స్కోరును పొందింది మరియు క్లినికల్ వైద్య శాస్త్ర విభాగంలో 60 సరైన సమాధానాల సగటు స్కోరును పొందింది. ఇది 50% యొక్క మొత్తం ఖచ్చితత్వాన్ని సూచిస్తుంది, ఇది ప్రాథమిక వైద్య శాస్త్ర విభాగంలోని సగటు మానవ పనితీరుతో గణనీయంగా భిన్నంగా లేదు (p = 0.12), అయితే క్లినికల్ వైద్య శాస్త్ర విభాగంలో గణనీయంగా తక్కువ (p < 0.05).

మానవ అభ్యర్థులకు ఉపయోగించిన అదే కొలమానాలను ఉపయోగించి AI ప్లాట్‌ఫారమ్‌ల పనితీరు అంచనా వేయబడింది.

వివిధ LLMల ఖచ్చితత్వాన్ని పోల్చడానికి చిత్రం 3. ChatGPT 4: ఉత్తమంగా పనిచేసే నమూనా. ప్రశ్న కష్టం పెరిగేకొద్దీ, ఖచ్చితత్వం పెరుగుతుంది మరియు అత్యంత సవాలుతో కూడిన ప్రశ్నలపై కూడా దాదాపు 70%కి చేరుకుంటుంది. Llama 3 70B: మధ్యస్థ పనితీరు గల నమూనా. ప్రశ్న కష్టం పెరిగేకొద్దీ, ఖచ్చితత్వం మొదట పెరుగుతుంది, తరువాత తగ్గుతుంది. అత్యంత సవాలుతో కూడిన ప్రశ్నలపై దీని ఖచ్చితత్వం దాదాపు 25%. Gemini 1.5 70B: దీని పనితీరు Llama 3 70Bకి సమానంగా ఉంటుంది. ప్రశ్న కష్టం పెరిగేకొద్దీ, ఖచ్చితత్వం మొదట పెరుగుతుంది, తరువాత తగ్గుతుంది. అత్యంత సవాలుతో కూడిన ప్రశ్నలపై దీని ఖచ్చితత్వం దాదాపు 20%. Command R+: అత్యల్ప పనితీరు గల నమూనా. దీని ఖచ్చితత్వం ప్రశ్న కష్టం పెరిగేకొద్దీ తగ్గుతుంది మరియు అత్యంత సవాలుతో కూడిన ప్రశ్నలపై 15% వద్ద ఉంటుంది.

సారాంశంలో, ChatGPT 4 ప్రశ్న కష్టంతో చాలా తక్కువ ప్రభావితమైన నమూనా మరియు మొత్తం ఖచ్చితత్వం చాలా ఎక్కువగా ఉంది. Llama 3 70B మరియు Gemini 1.5 Pro మధ్యస్థంగా పనిచేస్తాయి, అయితే Command R+ యొక్క విజయ శాతం ఇతర నమూనాల కంటే తక్కువగా ఉంది. ప్రశ్న కష్టం పెరిగేకొద్దీ, నమూనాల ఖచ్చితత్వం తగ్గుతుంది. సంక్లిష్ట ప్రశ్నలను అర్థం చేసుకోవడంలో మరియు సరిగ్గా సమాధానం ఇవ్వడంలో LLMలకు ఇంకా మెరుగుదల అవసరమని ఇది సూచిస్తుంది.

పట్టిక 1లో, ChatGPT 4 నమూనా 88.75% విజయంతో ఉత్తమంగా పనిచేసే నమూనాగా నిలుస్తుంది. ప్రశ్నలను అర్థం చేసుకోవడానికి మరియు ఖచ్చితంగా సమాధానం ఇవ్వడానికి దీనికి బలమైన సామర్థ్యం ఉందని ఇది సూచిస్తుంది. Llama 3 70B నమూనా 79.17% విజయంతో రెండవ స్థానంలో ఉంది. ఇది ChatGPT 4 నమూనా కంటే వెనుకబడి ఉన్నప్పటికీ, ఇది ప్రశ్నలకు సమాధానం ఇవ్వడంలో అధిక స్థాయి నైపుణ్యాన్ని ప్రదర్శిస్తుంది. Gemini 1.5 Pro నమూనా 78.13% విజయంతో వెంటనే ఉంది. దీని పనితీరు Llama 3 70B నమూనాతో సమానంగా ఉంటుంది, ఇది బలమైన ప్రశ్న సమాధాన సామర్థ్యాలను సూచిస్తుంది. మరోవైపు, Command R+ నమూనా ఇతర నమూనాల కంటే వెనుకబడి ఉంది, దీని విజయం రేటు 50%. ఇది నిర్దిష్ట ప్రశ్నలపై ఇబ్బందులను ఎదుర్కొంటుందని లేదా పనితీరును మెరుగుపరచడానికి మరింత చక్కగా ట్యూన్ చేయవలసి ఉంటుందని ఇది సూచిస్తుంది. వివిధ కష్టం స్థాయిలలో సరైన సమాధానాల పంపిణీ. ఉదాహరణకు, అన్ని నమూనాలు సులభమైన ప్రశ్నలపై (కష్టం స్థాయి 1) బాగా పని చేశాయి, ఇక్కడ ChatGPT 4 నమూనా ఖచ్చితమైన స్కోర్‌ను సాధించింది. మధ్యస్థ కష్టంతో కూడిన ప్రశ్నలపై (స్థాయి 2 మరియు 3), ChatGPT 4 మరియు Llama 3 70B నమూనాలు బాగా పనిచేస్తూనే ఉన్నాయి.

దీనికి విరుద్ధంగా, Gemini 1.5 Pro నమూనా కొన్ని బలహీనతలను చూపించడం ప్రారంభించింది. కష్టమైన ప్రశ్నలపై (స్థాయి 4 మరియు 5), అన్ని నమూనాల పనితీరు క్షీణించింది, Command R+ నమూనా ఎక్కువగా కష్టపడింది. మొత్తంమీద, ఈ ఫలితాలు ప్రతి AI నమూనా యొక్క బలాలు మరియు బలహీనతలను అర్థం చేసుకోవడానికి విలువైన అంతర్దృష్టులను అందిస్తాయి మరియు భవిష్యత్తులో అభివృద్ధి మరియు మెరుగుదల ప్రయత్నాలకు తెలియజేయగలవు.

పట్టిక 3లో, ప్రాథమిక వైద్య శాస్త్రంలోని జీవరసాయన శాస్త్రం ChatGPT 4 యొక్క ఖచ్చితమైన స్కోర్‌ను పొందింది, ఆ రంగంలో ప్రశ్నలకు సమాధానం ఇవ్వడానికి దీని అసాధారణ సామర్థ్యాన్ని రుజువు చేసింది. Llama 3 70B మరియు Gemini 1.5 Pro కూడా బాగా పని చేశాయి, కానీ Command R+ 50% ఖచ్చితత్వంతో పేలవంగా పనిచేసింది. ఫార్మకాలజీ, పాథాలజీ మరియు మైక్రోబయాలజీలో అత్యుత్తమంగా పనిచేసే నమూనాలు (ChatGPT 4 మరియు Llama 3 70B) బలమైన సమాచార అనుగుణ్యతను ప్రదర్శిస్తాయి, 81% నుండి 90% వరకు ఖచ్చితత్వంతో ఉంటాయి. Gemini 1.5 Pro మరియు Command R+ వెనుకబడి ఉన్నాయి, కానీ ఇప్పటికీ బాగా పని చేశాయి. శరీర నిర్మాణ శాస్త్రం మరియు శరీరధర్మ శాస్త్రం నమూనాలకు కొన్ని సవాళ్లను అందించాయి. ChatGPT 4 మరియు Meta AI-Llama 3 70B బాగా పని చేశాయి, అయితే Gemini 1.5 Pro మరియు Command R+ యొక్క ఖచ్చితత్వం 70% కంటే తక్కువగా ఉంది, అవి పేలవంగా పనిచేస్తున్నాయి.

క్లినికల్ వైద్య శాస్త్రంలోని పిల్లల వైద్యం అన్ని నమూనాలకు చాలా ముఖ్యమైనది, ఇక్కడ ChatGPT 4 దాదాపు ఖచ్చితమైన స్కోర్‌ను పొందింది (90%). Llama 3 70B వెంటనే ఉంది మరియు Command R+ కూడా 43% ఖచ్చితత్వాన్ని సాధించింది. అంతర్గత వైద్యం మరియు సాధారణ శస్త్రచికిత్స అత్యుత్తమ నమూనాల కంటే బాగా పని చేశాయి, ఖచ్చితత్వం 79% నుండి 90% వరకు ఉంది. Gemini 1.5 Pro మరియు Command R+ వెనుకబడి ఉన్నాయి, కానీ ఇప్పటికీ బాగా పని చేశాయి. అనస్థీషియా మరియు పునరుజ్జీవనం, అత్యవసర వైద్యం, న్యూరాలజీ మరియు చర్మవ్యాధి శాస్త్రం వంటి ప్రత్యేకతలు కొన్ని ప్రశ్నలను సమర్పించాయి, కానీ నమూనాలు సాధారణంగా బాగా పని చేశాయి. ChatGPT 4 మరియు Llama 3 70B ఈ రంగాలలో అసాధారణమైన ఖచ్చితత్వాన్ని ప్రదర్శించాయి.

నమూనాల పోలిక విషయానికి వస్తే, ChatGPT 4 చాలా రంగాలలో ఉత్తమంగా పనిచేసే నమూనా, మొత్తం ఖచ్చితత్వం 88.75%. ప్రాథమిక మరియు క్లినికల్ వైద్య శాస్త్ర ప్రశ్నలకు ఖచ్చితంగా సమాధానం ఇవ్వగల సామర్థ్యం దీని బలం. Llama 3 70B వెంటనే ఉంది, మొత్తం ఖచ్చితత్వం 79.17%. ఇది ChatGPT 4 యొక్క పనితీరుతో పూర్తిగా సరిపోలలేకపోయినప్పటికీ, ఇది వివిధ రంగాలలో బలమైన పరిజ్ఞాన అనుగుణ్యతను ప్రదర్శిస్తుంది. Gemini 1.5 Pro మరియు Command R+ వెనుకబడి ఉన్నాయి, మొత్తం ఖచ్చితత్వం వరుసగా 78.13% మరియు 50%. అవి కొన్ని రంగాలలో ఆశను చూపించినప్పటికీ, అవి అన్ని రంగాలలో స్థిరత్వాన్ని కొనసాగించడానికి కష్టపడ్డాయి.

సంక్షిప్తంగా చెప్పాలంటే, వివిధ రంగాల్లోని వైద్య శాస్త్ర ప్రశ్నలకు సమాధానం ఇవ్వడానికి ChatGPT 4 ప్రస్తుతం అత్యంత అనుకూలమైన నమూనా. Gemini 1.5 Pro మరియు Command R+ సామర్థ్యాన్ని ప్రదర్శిస్తాయి, కానీ ఉత్తమంగా పనిచేసే నమూనాలతో పోటీ పడటానికి గణనీయమైన మెరుగుదలలు అవసరం.

పట్టిక 4లో, పరిజ్ఞాన ప్రాంతం విషయానికి వస్తే, ప్రాథమిక వైద్య శాస్త్ర రంగంలో ChatGPT 4 యొక్క ఖచ్చితత్వం 86.7% (85/98), ఇది ఇతర నమూనాల కంటే మెరుగ్గా ఉంది. క్లినికల్ వైద్య శాస్త్ర రంగంలో ChatGPT 4 మళ్లీ ఉత్తమంగా పనిచేసింది, దీని ఖచ్చితత్వం 89.7% (61/68). కేసు ప్రాంతం విషయానికి వస్తే, ప్రాథమిక వైద్య శాస్త్ర రంగంలో ChatGPT 4 యొక్క ఖచ్చితత్వం 81.8% (18/22). క్లినికల్ వైద్య శాస్త్ర రంగంలో, ChatGPT 4 యొక్క పనితీరు సమానంగా ఉంది, దీని ఖచ్చితత్వం 94.2% (49/52).

నమూనాల జత పోలికలో, రెండు ప్రాంతాలు మరియు ప్రశ్న రకాల్లో ChatGPT 4 ఇతర నమూనాల కంటే గణనీయంగా మెరుగ్గా ఉంది. Llama 3 70B మరియు Gemini 1.5 Pro సమానంగా పని చేశాయి, అయితే Command R+ వెనుకబడి ఉంది. ఈ విశ్లేషణ ఆధారంగా, ChatGPT 4 పరిజ్ఞానం మరియు కేసు ప్రాంతాలలో మరియు ప్రాథమిక వైద్య శాస్త్రం మరియు క్లినికల్ వైద్య శాస్త్ర రంగాలలో అసాధారణమైన పనితీరును ప్రదర్శిస్తుందని మనం నిర్ధారించవచ్చు.

గణాంక విశ్లేషణ

LLMల పనితీరును Microsoft Office Excel మరియు Python (సంస్కరణ 3.10.2) ఉపయోగించి విశ్లేషించారు. వివిధ ప్రశ్న కష్టం స్థాయిలలో నమూనాల పనితీరును పోల్చడానికి, జత చేయని కై-స్క్వేర్ పరీక్షలు నిర్వహించబడ్డాయి. ప్రతి AI నమూనా యొక్క సరైన మరియు తప్పు సమాధానాల కోసం కష్టం స్థాయి ఆధారంగా కంటింజెన్సీ పట్టికలు నిర్మించబడ్డాయి మరియు కష్టం స్థాయిలలో పనితీరులో గణాంకపరంగా గణనీయమైన వ్యత్యాసం ఉందో లేదో తెలుసుకోవడానికి కై-స్క్వేర్ పరీక్ష వర్తింపజేయబడింది. గణాంక ప్రాముఖ్యతను గుర్తించడానికి <0.05 యొక్క p-విలువ థ్రెషోల్డ్ ఉపయోగించబడింది. ChatGPT 4 యొక్క p-విలువ 0.00028 మరియు p < 0.05 వద్ద ముఖ్యమైనది, విభిన్న కష్టం స్థాయిలలో పనితీరులో గణనీయమైన వ్యత్యాసం ఉందని సూచిస్తుంది. Gemini 1.5 Pro యొక్క p-విలువ 0.047 మరియు p < 0.05 వద్ద ముఖ్యమైనది, విభిన్న కష్టం స్థాయిలలో పనితీరులో గణనీయమైన వ్యత్యాసం ఉందని సూచిస్తుంది. Command R+ యొక్క p-విలువ 0.197 మరియు p < 0.05 వద్ద ముఖ్యమైనది కాదు, విభిన్న కష్టం స్థాయిలలో పనితీరులో గణనీయమైన వ్యత్యాసం లేదని సూచిస్తుంది. Llama 3 70B యొక్క p-విలువ: 0.118, p-విలువ: 0.118 మరియు p < 0.05 వద్ద ముఖ్యమైనది కాదు, విభిన్న కష్టం స్థాయిలలో పనితీరులో గణనీయమైన వ్యత్యాసం లేదని సూచిస్తుంది.

ChatGPT 4 మరియు Gemini 1.5 Pro యొక్క ఖచ్చితత్వం విభిన్న ప్రశ్న కష్టంపై గణాంకపరంగా ముఖ్యమైన వ్యత్యాసాన్ని చూపుతుంది, ఇది ప్రశ్న కష్టాన్ని బట్టి వాటి పనితీరు గణనీయంగా మారుతుందని సూచిస్తుంది. Command R+ మరియు Llama 3 70B కష్టం స్థాయిలలో గణనీయమైన పనితీరు వ్యత్యాసాన్ని చూపించలేదు, ఇది ప్రశ్న కష్టంతో సంబంధం లేకుండా పనితీరు మరింత స్థిరంగా ఉందని సూచిస్తుంది. విభిన్న కష్టంతో సంబంధం ఉన్న సంక్లిష్టతలు మరియు విషయాలను నిర్వహించడంలో విభిన్న నమూనాలకు విభిన్న బలాలు మరియు బలహీనతలు ఉన్నాయని ఈ ఫలితాలు సూచిస్తాయి.

చర్చ

TUS అనేది టర్కీ వైద్య పట్టభద్రులు ప్రత్యేక శిక్షణను కొనసాగించడానికి ఒక కీలకమైన జాతీయ పరీక్ష. ఈ పరీక్షలో ప్రాథమిక మరియు క్లినికల్ శాస్త్రాలను కవర్ చేసే బహుళ ఎంపిక ప్రశ్నలు ఉంటాయి మరియు ప్రత్యేక కోర్సు ర్యాంకింగ్‌లను నిర్ణయించడానికి కేంద్రీకృత ర్యాంకింగ్ వ్యవస్థ ఉంటుంది.

TUSపై పెద్ద భాషా నమూనాల పనితీరును అంచనా వేసేటప్పుడు, GPT-4 ఉత్తమంగా పనిచేసే నమూనా. అదేవిధంగా, ChatGPT ఒక శక్తివంతమైన AI నమూనా మరియు శస్త్రచికిత్స రంగంలో మానవ స్థాయికి దగ్గరగా లేదా అంతకంటే ఎక్కువ పనితీరును ప్రదర్శించింది, వరుసగా 71% మరియు 68% బహుళ ఎంపిక ప్రశ్నలకు SCORE మరియు Data-B లకు సమాధానం ఇచ్చింది. అదనంగా, ChatGPT ప్రజా ఆరోగ్య పరీక్షలో రాణించింది, ప్రస్తుత ఉత్తీర్ణత రేటును అధిగమించింది మరియు ప్రత్యేకమైన అంతర్దృష్టులను అందించింది. ఈ పరిశోధనలు GPT-4 మరియు ChatGPT వైద్య మూల్యాంకనాలలో అసాధారణమైన పనితీరును నొక్కి చెబుతాయి, వైద్య విద్యను మెరుగుపరచడానికి మరియు సంభావ్య రోగ నిర్ధారణ సహాయానికి వాటి సామర్థ్యాన్ని ప్రదర్శిస్తాయి.

వైద్య విద్యావేత్తలు మరియు పరీక్షకులు కోసం, LLMల యొక్క పెరుగుతున్న ఖచ్చితత్వం పరీక్ష రూపకల్పన మరియు మూల్యాంకనం గురించి ముఖ్యమైన ప్రశ్నలను లేవనెత్తుతుంది. AI నమూనాలు ప్రామాణిక వైద్య పరీక్షలను అధిక ఖచ్చితత్వంతో పరిష్కరించగలిగితే, భవిష్యత్తులోని మూల్యాంకనాలు సాధారణ జ్ఞాపకశక్తికి మించిన ఉన్నత స్థాయి తార్కికం మరియు క్లినికల్ తీర్పు ప్రశ్నలను చేర్చవలసి ఉంటుంది. అదనంగా, టర్కీ వైద్య సంస్థలు AI-సహాయక విద్యా వ్యూహాలను అన్వేషించవచ్చు, ఉదాహరణకు విద్యార్థుల వ్యక్తిగత అవసరాలకు అనుగుణంగా అభ్యాస సామగ్రిని రూపొందించడానికి అనుకూల అభ్యాస వ్యవస్థలు.

జాతీయ దృక్పథం నుండి, ఈ అధ్యయనం టర్కీ వైద్య విద్యలో AI యొక్క పెరుగుతున్న ప్రాముఖ్యతను హైలైట్ చేస్తుంది. ఈ LLMలు టర్కిష్ వైద్య ప్రశ్నలలో బాగా పనిచేస్తున్నందున, అవి తక్కువ సేవలు అందుబాటులో ఉన్న ప్రాంతాల్లోని విద్యార్థులకు నాణ్యమైన విద్యా వనరులను పొందడంలో అంతరాన్ని పూరించగలవు. అదనంగా, పాలసీ రూపకర్తలు టర్కీ ఆరోగ్య సంరక్షణ నిపుణుల కొనసాగుతున్న వైద్య విద్య మరియు జీవితకాల అభ్యాస కార్యక్రమాలలో AI నమూనాలను ఎలా చేర్చాలో పరిగణించాలి.

సారాంశంలో, ChatGPT-4 వంటి AI నమూనాలు అసాధారణమైన ఖచ్చితత్వాన్ని ప్రదర్శించినప్పటికీ, వైద్య విద్యలో దాని పాత్రను జాగ్రత్తగా అంచనా వేయాలి. AI-సహాయక అభ్యాసం యొక్క సంభావ్య ప్రయోజనాలు చాలా ఉన్నాయి, అయితే సరైన అమలు ఈ సాధనాలను బాధ్యతాయుతంగా మరియు నైతికంగా ఉపయోగించేలా చూసుకోవడం అవసరం మరియు మానవ నైపుణ్యంతో కలిపి ఉపయోగించాలి.

పరిమితులు

ఈ అధ్యయనం టర్కీ వైద్య ప్రత్యేక శిక్షణ ప్రవేశ పరీక్షలో (TUS) పెద్ద భాషా నమూనాల (LLM) పనితీరుపై విలువైన అంతర్దృష్టులను అందిస్తుంది, అయితే అధ్యయన ఫలితాలను సందర్భోచితంగా ఉంచడానికి మరియు భవిష్యత్తు పరిశోధనకు మార్గనిర్దేశం చేయడానికి అనేక ముఖ్యమైన పరిమితులను గుర్తించడం అవసరం. మొదటగా, ఈ అధ్యయనంలో అంచనా వేసిన AI నమూనాల శిక్షణ డేటాలో TUS ప్రశ్నలు ఉన్నాయా అనేది అనిశ్చితంగా ఉంది. గత TUS ప్రశ్నలు బహిరంగంగా అందుబాటులో ఉన్నందున, ఈ అధ్యయనంలో ఉపయోగించిన ప్రశ్నలు నమూనా శిక్షణ డేటాలో భాగమై ఉండవచ్చు. నమూనా పనితీరు నిజమైన అవగాహనను ప్రతిబింబిస్తుందా లేదా నిర్దిష్ట ప్రశ్నలను గుర్తుంచుకునే సామర్థ్యాన్ని మాత్రమే ప్రతిబింబిస్తుందా అనే దాని గురించి ఇది ఆందోళనలను లేవనెత్తుతుంది. AI నమూనాలు నిజమైన తార్కిక సామర్థ్యాన్ని ప్రదర్శిస్తున్నాయా లేదా గుర్తుంచుకున్న సమాచారంపై ఆధారపడుతున్నాయా అని అంచనా వేయడానికి భవిష్యత్తు పరిశోధన పద్ధతులను అభివృద్ధి చేయాలి.

రెండవది, AI నమూనాలు వాటి శిక్షణ డేటా నుండి ఉత్పన్నమయ్యే పక్షపాతాలను ప్రదర్శించే అవకాశం ఉంది. ఈ పక్షపాతాలు శిక్షణ డేటాలో కొన్ని వైద్య పరిస్థితులు, జనాభాలు లేదా దృక్పథాల ప్రాతినిధ్యం యొక్క అసమతుల్యత నుండి ఉత్పన్నం కావచ్చు. ఉదాహరణకు, ప్రతి భాషలో అందుబాటులో ఉన్న శిక్షణ డేటా పరిమాణం మరియు నాణ్యతలో వ్యత్యాసం కారణంగా టర్కిష్ భాషలో నమూనా యొక్క పనితీరు ఆంగ్లంలో కంటే భిన్నంగా ఉండవచ్చు. అదనంగా, టర్కీలోని స్థానిక వైద్య విధానాలు లేదా సాంస్కృతిక నేపథ్యాన్ని అర్థం చేసుకోవలసిన ప్రశ్నలకు సమాధానం ఇవ్వడంలో ఈ నమూనాలు అంత ఖచ్చితమైనవి కాకపోవచ్చు. ఈ పక్షపాతాలు అధ్యయన ఫలితాల సాధారణీకరణను పరిమితం చేయవచ్చు మరియు వైద్య విద్య మరియు ఆచరణలో AIని ఉపయోగించడంలో నైతిక ఆందోళనలను రేకెత్తించవచ్చు.

మూడవ పరిమితి ఏమిటంటే, ఈ అధ్యయనం బహుళ ఎంపిక ప్రశ్నలపై మాత్రమే దృష్టి పెట్టింది. వాస్తవ ప్రపంచ క్లినికల్ ఆచరణలో, వైద్య నిపుణులు సంక్లిష్ట కేసులను తార్కికంగా విశ్లేషించడం, అస్పష్టమైన ఫలితాలను అర్థం చేసుకోవడం మరియు అనిశ్చితిలో నిర్ణయాలు తీసుకోవడం వంటి నైపుణ్యాలను కలిగి ఉండాలి. అదనంగా, రోగులకు మరియు సహోద్యోగులకు స్పష్టమైన మరియు దయగల మార్గంలో రోగ నిర్ధారణలు, చికిత్స ఎంపికలు మరియు ప్రమాదాలను తెలియజేయగల సామర్థ్యం చాలా అవసరం. AI నమూనాలు ఈ పనులను నిర్వహించే సామర్థ్యం ఇంకా పరీక్షించబడలేదు మరియు వాటి ప్రస్తుత రూపకల్పన మరియు శిక్షణ ద్వారా వాటి సామర్థ్యం పరిమితం చేయబడవచ్చు. భవిష్యత్తు పరిశోధన క్లినికల్ కేసు సిమ్యులేషన్‌లు మరియు బహిరంగ మూల్యాంకనాలు వంటి మరింత వాస్తవిక పరిస్థితులలో AI నమూనాలను అంచనా వేయాలి.

నాల్గవది, ఈ అధ్యయనంలో బహిరంగ ప్రశ్నలు చేర్చబడలేదు. విమర్శనాత్మక ఆలోచన, సమాచార సంశ్లేషణ మరియు క్లినికల్ తార్కికం వంటి ఉన్నత స్థాయి అభిజ్ఞా నైపుణ్యాలను అంచనా వేయడానికి బహిరంగ ప్రశ్నలు చాలా అవసరం. ఈ రకమైన ప్రశ్నలకు జాబితా నుండి సరైన ఎంపికను ఎంచుకోవడం కంటే సందర్భోచితమైన ప్రతిస్పందనలను ఉత్పత్తి చేయగల సామర్థ్యం అవసరం. AI నమూనాల పనితీరు బహుళ ఎంపిక ప్రశ్నలపై వాటి పనితీరు కంటే చాలా భిన్నంగా ఉండవచ్చు, ఇది భవిష్యత్తు పరిశోధనకు ముఖ్యమైన రంగం.

ఐదవ పరిమితి ఏమిటంటే, AI నమూనాలను సమయ ఒత్తిడిలో పరీక్షించలేదు. మానవ అభ్యర్థులు పరీక్ష సమయంలో కఠినమైన సమయ పరిమితులకు లోబడి ఉంటారు, ఇది వారి పనితీరును ప్రభావితం చేస్తుంది. దీనికి విరుద్ధంగా, ఈ అధ్యయనంలోని AI నమూనాలు సమయ ఒత్తిడికి గురికాలేదు, ఇది సమయం లేని వాతావరణంలో వాటిని అంచనా వేయడానికి అనుమతిస్తుంది.