طبّی تعلیم میں AI کا کردار

تعارف

حالیہ برسوں میں، مصنوعی ذہانت (AI) اور بڑے لسانی ماڈلز (LLM) جیسی تکنیکی ترقیوں نے طبی تعلیم اور علم کی تشخیص کے طریقوں میں ممکنہ تبدیلیوں کے لیے راہ ہموار کی ہے۔ خاص طور پر، یہ پیش رفتیں طبی معلومات تک رسائی کو آسان بنا سکتی ہیں اور تشخیص کو مزید انٹرایکٹو بنا سکتی ہیں۔

پچھلی تحقیق نے ریاستہائے متحدہ امریکہ کے طبی لائسنسنگ امتحان (USMLE) اور جاپان کے طبی لائسنسنگ امتحان (JMLE) جیسے مختلف طبی لائسنسنگ امتحانات میں LLM کی کارکردگی کا جائزہ لیا ہے، لیکن ان امتحانات کی ساخت اور مواد میں TUS سے نمایاں فرق ہے۔ TUS بنیادی سائنس اور طبی سائنس پر توجہ مرکوز کرتا ہے، اور خاص طور پر ترکی کے طبی پس منظر پر توجہ دیتا ہے، جو کہ ایک منفرد تشخیصی ماحول میں LLM کی صلاحیتوں کا جائزہ لینے کا ایک منفرد موقع فراہم کرتا ہے۔ اس تحقیق کا مقصد چار معروف LLM کی TUS میں کارکردگی کا جائزہ لے کر اس خلا کو پُر کرنا ہے۔ مزید برآں، یہ تحقیق نصاب کے ڈیزائن، AI کی مدد سے طبی تربیت، اور ترکی میں طبی تشخیص کے مستقبل پر ان نتائج کے ممکنہ اثرات کا جائزہ لیتی ہے۔ خاص طور پر، ہم اس بات کی تحقیقات کرتے ہیں کہ LLM کی کارکردگی کس طرح زیادہ موثر، اور ترکی کے طبی نصاب کے مطابق تعلیمی وسائل اور تشخیصی حکمت عملیوں کی ترقی کے لیے معلومات فراہم کر سکتی ہے۔ یہ تحقیق نہ صرف مخصوص زبان کی کارکردگی کو سمجھنے میں معاون ہے بلکہ عالمی طبی تعلیم اور تشخیص میں AI کو مؤثر طریقے سے ضم کرنے کے بارے میں وسیع تر گفتگو میں بھی مدد کرتی ہے۔

ان مطالعات کے نتائج سے پتہ چلتا ہے کہ ChatGPT اور اسی طرح کے LLM طبی تعلیم اور علم کی تشخیص کے عمل میں اہم کردار ادا کر سکتے ہیں۔ طبی معلومات کی بازیافت اور تشخیصی طریقوں میں مصنوعی ذہانت اور LLM اختراعی طریقوں اور سیکھنے کے طریقوں کی ترقی کو ممکن بنا سکتے ہیں، خاص طور پر طبی تعلیم میں۔ اس تحقیق کا مقصد ChatGPT 4، Gemini 1.5 Pro اور Cohere-Command R+ کی ترکی میں طبی تخصیص کے تربیتی داخلہ امتحان میں کارکردگی کا جائزہ لے کر طبی تعلیم اور علم کی تشخیص پر LLM کے اثرات کی مزید تحقیقات کرنا ہے۔

یہ تحقیق جدید مصنوعی ذہانت (AI) ماڈلز (خاص طور پر ChatGPT 4، Gemini 1.5 Pro، Command R+ اور Llama 3 70B) کے طبی تعلیم اور تشخیص میں استعمال کا جائزہ لیتی ہے، جس میں طبی پیشہ ورانہ امتحانات کے مسائل کو حل کرنے میں ان کی کارکردگی پر توجہ مرکوز کی گئی ہے۔ اس تحقیق میں ترکی کے طبی تخصیص کے تربیتی داخلہ امتحان کے مسائل کا جامع اور منظم تجزیہ کرنے کے لیے ان ماڈلز کی صلاحیت کا جائزہ لیا گیا ہے، جس میں وضاحت کی صلاحیت اور درستگی جیسے عوامل پر غور کرتے ہوئے طب میں AI کے امکانات کو اجاگر کیا گیا ہے۔ نتائج سے پتہ چلتا ہے کہ AI ماڈلز طبی تعلیم اور تشخیص کے عمل میں نمایاں طور پر سہولت فراہم کر سکتے ہیں، جس سے نئی ایپلی کیشنز اور تحقیق کے شعبوں کے لیے راہیں کھلتی ہیں۔ اس مضمون کا بنیادی مقصد AI ٹیکنالوجی کی تیز رفتار پیش رفت کا جائزہ لینا اور مختلف AI ماڈلز کے ردعمل کا موازنہ کرنا ہے۔ اس تحقیق میں ChatGPT 4، Gemini 1.5 Pro، Command R+ اور Llama 3 70B کا تقابلی تجزیہ کیا گیا ہے، جس میں 2021 کے ترکی کے طبی تخصیص کے تربیتی داخلہ امتحان کے پہلے سمسٹر کے 240 سوالات میں ان کی کارکردگی کا جائزہ لیا گیا ہے۔

اس موازنے کا مقصد AI ٹیکنالوجی کی ترقی کی رفتار اور اختلافات کو واضح کرنا ہے، جس میں طبی تعلیم اور امتحان کی تیاری جیسے خصوصی شعبوں میں ان کی افادیت پر توجہ مرکوز کی گئی ہے۔ حتمی مقصد بصیرت فراہم کرنا ہے تاکہ صارفین کو ان کی مخصوص ضروریات کے لیے موزوں ترین مطالعاتی ٹولز کا انتخاب کرنے میں مدد مل سکے۔

طریقہ کار

یہ سوالات ترکی زبان میں LLM سے پوچھے گئے۔ یہ سوالات اسٹوڈنٹ سلیکشن اینڈ پلیسمنٹ سینٹر کی آفیشل ویب سائٹ سے حاصل کیے گئے تھے، اور ان میں متعدد انتخابی سوالات کی شکل اختیار کی گئی تھی (A سے E تک پانچ آپشنز کے ساتھ)، جن میں سے صرف ایک بہترین جواب تھا۔ جوابات LLM نے ترکی زبان میں فراہم کیے تھے۔

تشخیصی عمل اسٹوڈنٹ سلیکشن اینڈ پلیسمنٹ سینٹر کی جانب سے جاری کردہ درست جوابات پر مبنی تھا۔ مضمون میں ذکر کیا گیا ہے: ‘مصنوعی ذہانت ماڈلز کے سوالات کے ‘درست’ جوابات اسٹوڈنٹ سلیکشن اینڈ پلیسمنٹ سینٹر کی جانب سے جاری کردہ جوابات کے مطابق متعین کیے گئے تھے۔ صرف وہی جوابات ‘درست’ تسلیم کیے گئے جو سوال کے متن میں دی گئی ہدایات کے مطابق درست قرار پائے۔’ چونکہ سوالات اور جوابات دونوں ترکی زبان میں تھے، اس لیے تشخیصی عمل میں LLM کے ترکی جوابات کا اسٹوڈنٹ سلیکشن اینڈ پلیسمنٹ سینٹر کی جانب سے فراہم کردہ آفیشل ترکی جوابات کی کلید سے موازنہ کرنا شامل تھا۔

طبی تعلیمی ڈیٹا سیٹ

اس تحقیق میں ChatGPT 4، Gemini 1.5 Pro، Command R+ اور Llama 3 70B کا استعمال کرتے ہوئے AI ماڈلز کی طبی معلومات اور کیسز کے تشخیص میں صلاحیت کا تجربہ کیا گیا ہے۔ یہ تحقیق 21 مارچ 2021 کو منعقد ہونے والے ترکی کے طبی تخصیص کے تربیتی داخلہ امتحان کے سوالات پر کی گئی ہے۔ ترکی کا طبی تخصیص کا تربیتی داخلہ امتحان ایک امتحان ہے جو اسٹوڈنٹ سلیکشن اینڈ پلیسمنٹ سینٹر کے زیر اہتمام منعقد ہوتا ہے، اور اس میں 240 سوالات شامل ہوتے ہیں۔ پہلی قسم میں بنیادی معلومات کے سوالات شامل ہیں جو طبی تعلیم مکمل کرنے کے لیے درکار علم اور اخلاقیات کا جائزہ لیتے ہیں۔ دوسری قسم میں کیس کے سوالات شامل ہیں، جو بہت سی ایسی بیماریوں کا احاطہ کرتے ہیں جن میں تجزیاتی سوچ اور استدلال کی صلاحیتوں کی پیمائش کی جاتی ہے۔

سوال کی مشکل کی درجہ بندی

سوالات کی مشکل کی سطح اسٹوڈنٹ سلیکشن اینڈ پلیسمنٹ سینٹر کی جانب سے جاری کردہ آفیشل امیدواروں کی کارکردگی کے اعداد و شمار کے مطابق درجہ بندی کی گئی ہے۔ خاص طور پر، سینٹر کی جانب سے رپورٹ کردہ ہر سوال کی درست جوابی شرح کو سوالات کو پانچ مشکل سطحوں میں تقسیم کرنے کے لیے استعمال کیا گیا:

  • سطح 1 (آسان ترین): وہ سوالات جن کی درست جوابی شرح 80% یا اس سے زیادہ ہو۔
  • سطح 2: وہ سوالات جن کی درست جوابی شرح 60% سے 79.9% کے درمیان ہو۔
  • سطح 3 (متوسط): وہ سوالات جن کی درست جوابی شرح 40% سے 59.9% کے درمیان ہو۔
  • سطح 4: وہ سوالات جن کی درست جوابی شرح 20% سے 39.9% کے درمیان ہو۔
  • سطح 5 (مشکل ترین): وہ سوالات جن کی درست جوابی شرح 19.9% یا اس سے کم ہو۔

مصنوعی ذہانت ماڈلز کے سوالات کے ‘درست’ جوابات اسٹوڈنٹ سلیکشن اینڈ پلیسمنٹ سینٹر کی جانب سے جاری کردہ جوابات کے مطابق متعین کیے گئے تھے۔ صرف وہی جوابات ‘درست’ تسلیم کیے گئے جو سوال کے متن میں دی گئی ہدایات کے مطابق درست قرار پائے۔ مزید برآں، ہر سوال کی مشکل کی سطح اسٹوڈنٹ سلیکشن اینڈ پلیسمنٹ سینٹر کی جانب سے جاری کردہ درست جوابی شرح کے مطابق 1 سے 5 کی سطحوں میں تقسیم کی گئی تھی۔ وہ سوالات جن کی درست جوابی شرح 80% یا اس سے زیادہ تھی، انہیں آسان ترین (سطح 1) سمجھا گیا، جبکہ وہ سوالات جن کی درست جوابی شرح 19.9% یا اس سے کم تھی، انہیں مشکل ترین (سطح 5) سمجھا گیا۔

علم اور کیس کے شعبے

ترکی کا طبی تخصیص کا تربیتی داخلہ امتحان ترکی کے طبی فارغ التحصیل طلباء کے لیے پیشہ ورانہ مہارت حاصل کرنے کی جانب ایک اہم قدم ہے، جو امیدواروں کے علم اور کیس کے شعبوں میں دو اہم شعبوں میں مہارت کا جائزہ لیتا ہے۔ ان شعبوں کے درمیان فرق کو سمجھنا مکمل تیاری کے لیے بہت ضروری ہے۔ علم کا شعبہ امیدواروں کی جانب سے منتخب کردہ طبی شعبے کے اندر نظریاتی سمجھ بوجھ اور حقائق پر مبنی معلومات کا جائزہ لینے پر توجہ مرکوز کرتا ہے۔ یہ بنیادی تصورات اور اصولوں پر عبور حاصل کرنے کی جانچ کرتا ہے، اور پیشہ ورانہ مہارت سے متعلق طبی معلومات قائم کرتا ہے۔ یہ زیرِ امتحان طبی معلومات کے مخصوص شعبے کی نمائندگی کرتا ہے، جیسے کہ بنیادی طبی سائنس (اناتومی، بائیو کیمسٹری، فزیالوجی وغیرہ) اور طبی سائنس (اندرونی طب، جراحی، اطفال وغیرہ)۔ کیس کا شعبہ، دوسری طرف، حقیقی زندگی کے مناظر یا حالات میں معلومات کے اطلاق کی نمائندگی کرتا ہے، جیسے کہ مسائل کو حل کرنا، تجزیاتی سوچ، تنقیدی سوچ، فیصلہ سازی اور تصورات کو حقیقی حالات پر لاگو کرنا۔

پرامپٹ انجینئرنگ

پرامپٹ انجینئرنگ قدرتی زبان کے اشارے کو ڈیزائن اور بہتر بنانے کا عمل ہے تاکہ لسانی ماڈل یا AI سسٹم سے مخصوص جوابات حاصل کیے جا سکیں۔ اپریل 2024 میں، ہم نے لسانی ماڈلز کو ان کے متعلقہ ویب انٹرفیس کے ذریعے براہ راست سوالات پوچھ کر جوابات جمع کیے۔

ہر ماڈل کی اصل صلاحیتوں کا منصفانہ جائزہ یقینی بنانے کے لیے، LLM کو سوالات پیش کرنے کے طریقے میں سخت طریقہ کار کے ضوابط نافذ کیے گئے۔ ہر سوال کو انفرادی طور پر درج کیا گیا تھا، اور نئے سوالات پیش کرنے سے پہلے سیشن کو ری سیٹ کیا گیا تھا، تاکہ ماڈلز کو پچھلے تعاملات کی بنیاد پر سیکھنے یا موافقت کرنے سے روکا جا سکے۔

ڈیٹا تجزیہ

تمام تجزیے مائیکروسافٹ آفس ایکسل اور پائتھون سافٹ ویئر کا استعمال کرتے ہوئے کیے گئے۔ LLM کی کارکردگی کا مختلف سوالات کی مشکلات کی بنیاد پر موازنہ کرنے کے لیے، غیر جوڑے کائی مربع ٹیسٹ کیے گئے۔ شماریاتی اہمیت کا تعین کرنے کے لیے p < 0.05 کی p-value کی حد استعمال کی گئی۔ اس تجزیے میں اس بات کا جائزہ لیا گیا کہ کیا ماڈل کی درستگی سوال کی مشکل کی سطح کے لحاظ سے مختلف ہے۔

اخلاقی تحفظات

اس تحقیق میں صرف انٹرنیٹ پر شائع شدہ معلومات استعمال کی گئی ہیں اور اس میں انسانی مضامین شامل نہیں ہیں۔ لہذا، باسکینٹ یونیورسٹی کی اخلاقی کمیٹی کی منظوری کی ضرورت نہیں تھی۔

نتائج

2021 کے ترکی کے طبی تخصیص کے تربیتی داخلہ امتحان کے پہلے مرحلے میں بنیادی طبی سائنس کے امتحان میں شرکت کرنے والے امیدواروں کی درست جوابات کی اوسط تعداد 51.63 تھی۔ طبی سائنس کے امتحان میں درست جوابات کی اوسط تعداد 63.95 تھی۔ طبی سائنس کے امتحان میں درست جوابات کی اوسط تعداد بنیادی طبی سائنس کے امتحان سے زیادہ تھی۔ اس صورتحال کے متوازی، مصنوعی ذہانت کی ٹیکنالوجی بھی طبی سائنس کے امتحان کے سوالات کے جوابات دینے میں زیادہ کامیاب رہی۔

AI کی کارکردگی

AI پلیٹ فارمز کی کارکردگی کا جائزہ لینے کے لیے وہی میٹرکس استعمال کیے گئے جو انسانی امیدواروں کے لیے استعمال ہوتے ہیں۔

  • ChatGPT 4:

    ChatGPT 4 نے بنیادی طبی سائنس کے حصے میں 103 درست جوابات کی اوسط اسکور حاصل کیا، اور طبی سائنس کے حصے میں 110 درست جوابات کی اوسط اسکور حاصل کیا۔ یہ 88.75% کی مجموعی درستگی کی نمائندگی کرتا ہے، جو دونوں حصوں میں اوسط انسانی امیدواروں سے نمایاں طور پر بہتر ہے (p < 0.001)۔

  • Llama 3 70B:

    Llama 3 70B نے بنیادی طبی سائنس کے حصے میں 95 درست جوابات کی اوسط اسکور حاصل کی، اور طبی سائنس کے حصے میں 95 درست جوابات کی اوسط اسکور حاصل کی۔ یہ 79.17% کی مجموعی درستگی کی نمائندگی کرتا ہے، جو اوسط انسانی کارکردگی سے نمایاں طور پر زیادہ ہے (p < 0.01)۔

  • Gemini 1.5 Pro:

    Gemini 1.5 Pro نے بنیادی طبی سائنس کے حصے میں 94 درست جوابات کی اوسط اسکور حاصل کی، اور طبی سائنس کے حصے میں 93 درست جوابات کی اوسط اسکور حاصل کی۔ یہ 78.13% کی مجموعی درستگی کی نمائندگی کرتا ہے، جو اوسط انسانی کارکردگی سے نمایاں طور پر زیادہ ہے (p < 0.01)۔

  • Command R+:

    Command R+ نے بنیادی طبی سائنس کے حصے میں 60 درست جوابات کی اوسط اسکور حاصل کی، اور طبی سائنس کے حصے میں 60 درست جوابات کی اوسط اسکور حاصل کی۔ یہ 50% کی مجموعی درستگی کی نمائندگی کرتا ہے، جو بنیادی طبی سائنس کے حصے میں اوسط انسانی کارکردگی سے نمایاں طور پر مختلف نہیں ہے (p = 0.12)، لیکن طبی سائنس کے حصے میں نمایاں طور پر کم ہے (p < 0.05)۔

AI پلیٹ فارمز کی کارکردگی کا جائزہ لینے کے لیے وہی میٹرکس استعمال کیے گئے جو انسانی امیدواروں کے لیے استعمال ہوتے ہیں۔

شکل 3 مختلف LLM کی جانب سے سوال کی مشکل کے مطابق درستگی کا موازنہ کرتی ہے-ChatGPT 4: بہترین کارکردگی کا مظاہرہ کرنے والا ماڈل۔ سوال کی مشکل میں اضافے کے ساتھ درستگی میں اضافہ ہوتا ہے، یہاں تک کہ سب سے مشکل سوالات میں بھی یہ 70% کے قریب رہتی ہے-Llama 3 70B: معتدل کارکردگی کا مظاہرہ کرنے والا ماڈل۔ سوال کی مشکل میں اضافے کے ساتھ درستگی میں پہلے اضافہ ہوتا ہے پھر کمی واقع ہوتی ہے۔ سب سے مشکل سوالات میں اس کی درستگی تقریباً 25% ہے۔ Gemini 1.5 70B: اس کی کارکردگی Llama 3 70B سے ملتی جلتی ہے۔ سوال کی مشکل میں اضافے کے ساتھ درستگی میں پہلے اضافہ ہوتا ہے پھر کمی واقع ہوتی ہے۔ سب سے مشکل سوالات میں اس کی درستگی تقریباً 20% ہے۔ Command R+: سب سے کم کارکردگی کا مظاہرہ کرنے والا ماڈل۔ اس کی درستگی سوال کی مشکل میں اضافے کے ساتھ کم ہوتی ہے، اور سب سے مشکل سوالات میں یہ تقریباً 15% رہتی ہے۔

مختصر یہ کہ ChatGPT 4 وہ ماڈل ہے جو سوال کی مشکل سے سب سے کم متاثر ہوتا ہے اور اس کی مجموعی درستگی سب سے زیادہ ہے۔ Llama 3 70B اور Gemini 1.5 Pro نے معتدل کارکردگی کا مظاہرہ کیا، جبکہ Command R+ کی کامیابی کی شرح دیگر ماڈلز سے کم ہے۔ سوال کی مشکل میں اضافے کے ساتھ ماڈلز کی درستگی میں کمی واقع ہوتی ہے۔ یہ ظاہر کرتا ہے کہ LLM کو پیچیدہ سوالات کو سمجھنے اور ان کے درست جوابات دینے میں ابھی بہتری کی ضرورت ہے۔

جدول 1 میں، ChatGPT 4 ماڈل 88.75% کی کامیابی کی شرح کے ساتھ نمایاں طور پر بہتر کارکردگی کا مظاہرہ کرنے والا ماڈل ہے۔ یہ ظاہر کرتا ہے کہ اس میں سوالات کو سمجھنے اور درست جوابات دینے کی ٹھوس صلاحیت موجود ہے۔ Llama 3 70B ماڈل 79.17% کی کامیابی کی شرح کے ساتھ دوسرے نمبر پر ہے۔ اگرچہ یہ ChatGPT 4 ماڈل سے پیچھے ہے، لیکن اس نے سوالات کے جوابات دینے میں اعلیٰ سطح کی مہارت کا مظاہرہ کیا ہے۔ Gemini 1.5 Pro ماڈل 78.13% کی کامیابی کی شرح کے ساتھ اس کے بعد آتا ہے۔ اس کی کارکردگی Llama 3 70B ماڈل کے مساوی ہے، جو ظاہر کرتا ہے کہ اس میں سوالات کے جوابات دینے کی مضبوط صلاحیت موجود ہے۔ دوسری جانب، Command R+ ماڈل دیگر ماڈلز سے پیچھے ہے، اس کی کامیابی کی شرح 50% ہے۔ یہ ظاہر کرتا ہے کہ اسے مخصوص سوالات میں مشکلات کا سامنا کرنا پڑ سکتا ہے، یا کارکردگی کو بہتر بنانے کے لیے مزید بہتر کرنے کی ضرورت ہے۔ درست جوابات مختلف مشکل سطحوں پر تقسیم ہیں۔ مثال کے طور پر، تمام ماڈلز نے آسان سوالات (مشکل کی سطح 1) میں اچھی کارکردگی کا مظاہرہ کیا، جہاں ChatGPT 4 ماڈل نے کامل اسکور حاصل کیا۔ درمیانی مشکل کے سوالات (سطح 2 اور 3) میں، ChatGPT 4 اور Llama 3 70B ماڈلز نے اچھی کارکردگی کا مظاہرہ جاری رکھا۔

اس کے مقابلے میں، Gemini 1.5 Pro ماڈل نے کچھ کمزوریاں ظاہر کرنا شروع کر دیں۔ مشکل سوالات (سطح 4 اور 5) میں، تمام ماڈلز کی کارکردگی میں کمی واقع ہوئی، جہاں Command R+ ماڈل کو سب سے زیادہ مشکلات کا سامنا کرنا پڑا۔ مجموعی طور پر، یہ نتائج ہر AI ماڈل کی خوبیوں اور کمزوریوں کو سمجھنے کے لیے قیمتی بصیرت فراہم کرتے ہیں، اور مستقبل میں ترقی اور بہتری کے لیے معلومات فراہم کر سکتے ہیں۔

جدول 3 میں، بنیادی طبی سائنس میں بائیو کیمسٹری نے ChatGPT 4 کے لیے کامل اسکور حاصل کیا، جو اس شعبے میں سوالات کے جوابات دینے کی اس کی بہترین صلاحیت کو ثابت کرتا ہے۔ Llama 3 70B اور Gemini 1.5 Pro نے بھی اچھی کارکردگی کا مظاہرہ کیا، لیکن Command R+ کی درستگی کی شرح 50% تھی، اور اس نے ناقص کارکردگی کا مظاہرہ کیا۔ فارماکولوجی، پیتھالوجی اور مائکروبائیولوجی میں بہترین کارکردگی کا مظاہرہ کرنے والے ماڈلز (ChatGPT 4 اور Llama 3 70B) نے معلومات کی مضبوط مطابقت کا مظاہرہ کیا، اور ان کی درستگی کی شرح 81% سے 90% کے درمیان تھی۔ Gemini 1.5 Pro اور Command R+ پیچھے رہے، لیکن انہوں نے پھر بھی اچھی کارکردگی کا مظاہرہ کیا۔ اناتومی اور فزیالوجی نے ماڈلز کو کچھ چیلنجز سے دوچار کیا۔ ChatGPT 4 اور Meta AI-Llama 3 70B نے اچھی کارکردگی کا مظاہرہ کیا، جبکہ Gemini 1.5 Pro اور Command R+ کی درستگی کی شرح 70% سے کم تھی، اور انہوں نے ناقص کارکردگی کا مظاہرہ کیا۔

طبی سائنس میں اطفال تمام ماڈلز کے لیے اہم تھا، جہاں ChatGPT 4 نے کامل اسکور (90%) کے قریب اسکور حاصل کیا۔ Llama 3 70B اس کے بعد آتا ہے، یہاں تک کہ Command R+ نے بھی 43% کی درستگی حاصل کی۔ اندرونی طب اور جنرل سرجری نے بہترین ماڈلز سے بہتر کارکردگی کا مظاہرہ کیا، اور ان کی درستگی کی شرح 79% سے 90% کے درمیان تھی۔ Gemini 1.5 Pro اور Command R+ پیچھے رہے، لیکن انہوں نے پھر بھی اچھی کارکردگی کا مظاہرہ کیا۔ اینستھیزیا اور ریسیسیٹیشن، ایمرجنسی میڈیسن، نیورولوجی اور ڈرماٹولوجی جیسے شعبوں سے کم سوالات جمع کرائے گئے، لیکن ماڈلز نے مجموعی طور پراچھی کارکردگی کا مظاہرہ کیا۔ ChatGPT 4 اور Llama 3 70B نے ان شعبوں میں بہترین درستگی کا مظاہرہ کیا۔

ماڈلز کے موازنے کے حوالے سے، ChatGPT 4 زیادہ تر شعبوں میں بہترین کارکردگی کا مظاہرہ کرنے والا ماڈل ہے، اور اس کی مجموعی درستگی کی شرح 88.75% ہے۔ اس کی طاقت اس کی بنیادی طبی اور طبی سائنس کے سوالات کے درست جوابات دینے کی صلاحیت میں مضمر ہے۔ Llama 3 70B اس کے بعد آتا ہے، اور اس کی مجموعی درستگی کی شرح 79.17% ہے۔ اگرچہ یہ ChatGPT 4 کی کارکردگی کا مکمل طور پر مقابلہ نہیں کر پاتا، لیکن اس نے تمام شعبوں میں معلومات کی مضبوط مطابقت کا مظاہرہ کیا ہے۔ Gemini 1.5 Pro اور Command R+ پیچھے رہے، اور ان کی مجموعی درستگی کی شرح بالترتیب 78.13% اور 50% ہے۔ اگرچہ انہوں نے کچھ شعبوں میں امید افزا کارکردگی کا مظاہرہ کیا، لیکن انہیں تمام شعبوں میں مطابقت برقرار رکھنے میں مشکلات کا سامنا کرنا پڑا۔

مختصر یہ کہ ChatGPT 4 اس وقت تمام شعبوں میں طبی سائنس کے سوالات کے جوابات دینے کے لیے بہترین ماڈل ہے۔ Gemini 1.5 Pro اور Command R+ نے صلاحیت ظاہر کی ہے، لیکن بہترین کارکردگی کا مظاہرہ کرنے والے ماڈلز سے مقابلہ کرنے کے لیے ان میں نمایاں بہتری کی ضرورت ہے۔

جدول 4 میں، علم کے شعبے کے حوالے سے، ChatGPT 4 نے بنیادی طبی سائنس کے شعبے میں 86.7% (85/98) کی درستگی حاصل کی، جو دیگر ماڈلز سے بہتر ہے۔ ChatGPT 4 نے ایک بار پھر بہترین کارکردگی کا مظاہرہ کیا، اور طبی سائنس کے شعبے میں 89.7% (61/68) کی درستگی حاصل کی۔ کیس کے شعبے کے حوالے سے، ChatGPT 4 نے بنیادی طبی سائنس کے شعبے میں 81.8% (18/22) کی درستگی حاصل کی۔ طبی سائنس کے شعبے میں، ChatGPT 4 کی کارکردگی ملتی جلتی رہی، اور اس نے 94.2% (49/52) کی درستگی حاصل کی۔

ماڈلز کے جوڑوں کے موازنے سے ظاہر ہوتا ہے کہ ChatGPT 4 نے دونوں شعبوں اور سوالات کی اقسام میں دیگر ماڈلز سے نمایاں طور پر بہتر کارکردگی کا مظاہرہ کیا۔ Llama 3 70B اور Gemini 1.5 Pro نے ملتی جلتی کارکردگی کا مظاہرہ کیا، جبکہ Command R+ پیچھے رہا۔ اس تجزیے کی بنیاد پر، ہم یہ نتیجہ اخذ کر سکتے ہیں کہ ChatGPT 4 نے علم اور کیس کے شعبوں کے ساتھ ساتھ بنیادی طبی سائنس اور طبی سائنس کے شعبوں میں بھی بہترین کارکردگی کا مظاہرہ کیا۔

شماریاتی تجزیہ

LLM کی کارکردگی کا تجزیہ مائیکروسافٹ آفس ایکسل اور پائتھون (ورژن 3.10.2) کا استعمال کرتے ہوئے کیا گیا۔ مختلف سوالات کی مشکل کی سطحوں پر ماڈلز کی کارکردگی کا موازنہ کرنے کے لیے، غیر جوڑے کائی مربع ٹیسٹ کیے گئے۔ ہر AI ماڈل کے درست اور غلط جوابات کے لیے مشکل کی سطح کے لحاظ سے کونٹینجنسی ٹیبل بنائے گئے، اور مشکل کی سطحوں پر کارکردگی میں شماریاتی طور پر نمایاں فرق ہے یا نہیں اس کا تعین کرنے کے لیے کائی مربع ٹیسٹ کا اطلاق کیا گیا۔ شماریاتی اہمیت کا تعین کرنے کے لیے <0.05 کی p-value کی حد استعمال کی گئی۔ ChatGPT 4 کی p-value 0.00028 ہے، اور یہ p < 0.05 پر نمایاں ہے، جو ظاہر کرتا ہے کہ مختلف مشکل سطحوں پر کارکردگی میں نمایاں فرق موجود ہے۔ Gemini 1.5 Pro کی p-value 0.047 ہے، اور یہ p < 0.05 پر نمایاں ہے، جو ظاہر کرتا ہے کہ مختلف مشکل سطحوں پر کارکردگی میں نمایاں فرق موجود ہے۔ Command R+ کی p-value 0.197 ہے، اور یہ p < 0.05 پر غیر نمایاں ہے، جو ظاہر کرتا ہے کہ مختلف مشکل سطحوں پر کارکردگی میں نمایاں فرق موجود نہیں ہے۔ Llama 3 70B کی p-value: 0.118، p-value: 0.118 ہے، اور یہ p < 0.05 پر غیر نمایاں ہے، جو ظاہر کرتا ہے کہ مختلف مشکل سطحوں پر کارکردگی میں نمایاں فرق موجود نہیں ہے۔

ChatGPT 4 اور Gemini 1.5 Pro کی درستگی میں مختلف سوالات کی مشکل پر شماریاتی طور پر نمایاں فرق ظاہر ہوتا ہے، جو ظاہر کرتا ہے کہ ان کی کارکردگی سوال کی مشکل کے لحاظ سے نمایاں طور پر تبدیل ہوتی ہے۔ Command R+ اور Llama 3 70B نے مشکل کی سطح پر کارکردگی میں نمایاں فرق ظاہر نہیں کیا، جو ظاہر کرتا ہے کہ سوال کی مشکل سے قطع نظر ان کی کارکردگی زیادہ مطابقت پذیر ہے۔ یہ نتائج ظاہر کر سکتے ہیں کہ مختلف ماڈلز میں مختلف مشکل سے وابستہ پیچیدگیوں اور موضوعات سے نمٹنے میں مختلف خوبیاں اور کمزوریاں موجود ہیں۔

بحث

TUS ترکی کے طبی فارغ التحصیل طلباء کے لیے پیشہ ورانہ تربیت حاصل کرنے کے لیے ایک اہم قومی امتحان ہے۔ اس امتحان میں متعدد انتخابی سوالات شامل ہوتے ہیں جو بنیادی سائنس اور طبی سائنس کا احاطہ کرتے ہیں، اور اس میں پیشہ ورانہ پروگراموں میں درجہ بندی کا تعین کرنے کے لیے مرکزی درجہ بندی کا نظام موجود ہے۔

TUS میں بڑے لسانی ماڈلز کی کارکردگی کا جائزہ لیتے وقت، GPT-4 بہترین کارکردگی کا مظاہرہ کرنے والا ماڈل تھا۔ اسی طرح، ChatGPT ایک طاقتور AI ماڈل ہے، جو جراحی کے شعبے میں انسانی سطح کے قریب یا اس سے زیادہ کارکردگی کا مظاہرہ کرتا ہے، اور اس نے بالترتیب 71% اور 68% کثیر انتخابی سوالات SCORE اور Data-B کے درست جوابات دیے۔ مزید برآں، ChatGPT نے عوامی صحت کے امتحان میں بہترین کارکردگی کا مظاہرہ کیا، اور اس نے کامیابی کی موجودہ شرح کو بھی عبور کیا اور منفرد بصیرت فراہم کی۔ ان نتائج سے طبی تشخیص میں GPT-4 اور ChatGPT کی بہترین کارکردگی کو اجاگر کیا گیا ہے، اور طبی تعلیم کو بہتر بنانے اور ممکنہ تشخیصی معاونت فراہم کرنے کے ان کے امکانات کو ظاہر کیا گیا ہے۔

طبی تعلیم دینے والوں اور امتحانی افسران کے لیے، LLM کی بڑھتی ہوئی درستگی امتحان کے ڈیزائن اور تشخیص کے حوالے سے اہم سوالات اٹھاتی ہے۔ اگر AI ماڈلز معیاری طبی امتحانات کو اعلیٰ درستگی کے ساتھ حل کر سکتے ہیں، تو مستقبل کی تشخیص میں اعلیٰ درجے کے استدلال اور طبی فیصلے کے سوالات کو شامل کرنے کی ضرورت ہو سکتی ہے جو سادہ یاد دہانی سے بالاتر ہوں۔ مزید برآں، ترکی کے طبی ادارے AI کی مدد سے تعلیمی حکمت عملیوں کو تلاش کر سکتے ہیں، جیسے کہ طلباء کی انفرادی ضروریات کے مطابق مطالعاتی مواد کو تیار کرنے کے لیے موافقت پذیر نظام۔

قومی نقطہ نظر سے، یہ تحقیق ترکی میں طبی تعلیم میں AI کی بڑھتی ہوئی اہمیت کو اجاگر کرتی ہے۔ چونکہ یہ LLM ترکی زبان میں طبی سوالات کے درست جوابات دینے میں اچھی کارکردگی کا مظاہرہ کر رہے ہیں، اس لیے وہ کم خدمت والے علاقوں کے طلباء کے لیے اعلیٰ معیار کے تعلیمی وسائل تک رسائی کے فرق کو پُر کر سکتے ہیں۔ مزید برآں، پالیسی سازوں کو اس بات پر غور کرنا چاہیے کہ ترکی کے صحت کی دیکھ بھال کرنے والے پیشہ ور افراد کی مسلسل طبی تعلیم اور زندگی بھر سیکھنے کے پروگراموں میں AI ماڈلز کو کیسے ضم کیا جائے۔

خلاصہ یہ کہ اگرچہ ChatGPT-4 جیسے AI ماڈلز نے غیر معمولی درستگی کا مظاہرہ کیا ہے، لیکن طبی تعلیم میں ان کے کردار کا احتیاط سے جائزہ لینا چاہیے۔ AI کی مدد سے سیکھنے کے ممکنہ فوائد بہت زیادہ ہیں، لیکن درست نفاذ اس بات کو یقینی بنانے کی ضرورت ہے کہ ان ٹولز کو ذمہ دارانہ، اخلاقی طریقے سے استعمال کیا جائے، اور انسانی مہارت کے ساتھ جوڑا جائے۔

حدود

یہ تحقیق ترکی کے طبی تخصیص کے تربیتی داخلہ امتحان (TUS) میں بڑے لسانی ماڈلز (LLM) کی کارکردگی کے بارے میں قیمتی بصیرت فراہم کرتی ہے، لیکن نتائج کو سیاق و سباق میں رکھنے اور مستقبل کی تحقیق کی رہنمائی کرنے کے لیے چند اہم حدود کو تسلیم کرنا ضروری ہے۔ سب سے پہلے، یہ بات یقینی نہیں ہے کہ اس تحقیق میں جائزہ لیے گئے AI ماڈلز کے تربیتی ڈیٹا میں TUS کے سوالات شامل ہیں یا نہیں۔ چونکہ ماضی کے TUS کے سوالات عوامی طور پر دستیاب ہیں، اس لیے یہ ممکن ہے کہ اس تحقیق میں استعمال ہونے والے سوالات ماڈل کے تربیتی ڈیٹا کا حصہ ہوں۔ اس سے اس بات پر تشویش پیدا ہوتی ہے کہ آیا ماڈل کی کارکردگی حقیقی سمجھ بوجھ کی عکاسی کرتی ہے یا محض مخصوص سوالات کو یاد رکھنے کی صلاحیت کی عکاسی کرتی ہے۔ مستقبل کی تحقیق کو ایسے طریقے تیار کرنے چاہئیں جو اس بات کا جائزہ لیں کہ آیا AI ماڈلز حقیقی استدلال کی صلاحیت کا مظاہرہ کرتے ہیں یا یاد کی گئی معلومات پر انحصار کرتے ہیں۔

دوسرا، AI ماڈلز میں اپنے تربیتی ڈیٹا سے حاصل ہونے والے تعصبات کو ظاہر کرنے کا امکان موجود ہے۔ یہ تعصبات تربیتی ڈیٹا میں طبی حالات، آبادیوں یا نقطہ نظر کی غیر متوازن نمائندگی سے پیدا ہو سکتے ہیں۔ مثال کے طور پر، ہر زبان میں دستیاب تربیتی ڈیٹا کی مقدار اور معیار میں فرق کی وجہ سے، ماڈلز کی کارکردگی ترکی زبان میں انگریزی سے مختلف ہو سکتی ہے۔ مزید برآں، یہ ماڈلز ان سوالات کے جوابات دینے میں کم درست ہو سکتے ہیں جن کے لیے ترکی کی مقامی طبی مشقوں یا ثقافتی سیاق و سباق کو سمجھنے کی ضرورت ہوتی ہے۔ یہ تعصبات نتائج کی عمومیت کو محدود کر سکتے ہیں، اور طبی تعلیم اور مشق میں AI کے استعمال کے بارے میں اخلاقی تشویشات کو جنم دے سکتے ہیں۔

تیسری حد یہ ہے کہ یہ تحقیق صرف متعدد انتخابی سوالات پر توجہ مرکوز کرتی ہے۔ حقیقی دنیا کی طبی مشق میں، طبی پیشہ ور افراد کو ایسی مہارتوں کی ضرورت ہوتی ہے جیسے کہ پیچیدہ کیسز کی منطق، مبہم نتائج کی تشریح، اور غیر یقینی صورتحال میں فیصلے لینا۔ مزید برآں، تشخیص، علاج کے منصوبوں اور خطرات کے بارے میں مریضوں اور ساتھیوں کو واضح اور ہمدردانہ انداز میں آگاہ کرنے کی صلاحیت بہت ضروری ہے۔ AI ماڈلز کی جانب سے ان کاموں کو انجام دینے کی صلاحیت کی جانچ نہیں کی گئی ہے، اور ان کی صلاحیتیں ان کے موجودہ ڈیزائن اور تربیت سے محدود ہو سکتی ہیں۔ مستقبل کی تحقیق کو زیادہ حقیقت پسندانہ حالات میں AI ماڈلز کا جائزہ لینا چاہیے، جیسے کہ طبی کیس کی نقالی اور کھلے عام تشخیص۔

چوتھی، اس تحقیق میں کھلے عام سوالات شامل نہیں کیے گئے۔ کھلے عام سوالات اعلیٰ درجے کی علمی مہارتوں کا جائزہ لینے کے لیے بہت ضروری ہیں، جیسے کہ تنقیدی سوچ، معلومات کی ترکیب، اور طبی استدلال۔ ان قسم کے سوالات میں فہرست سے صحیح آپشن کا انتخاب کرنے کے بجائے مربوط اور سیاق و سباق سے متعلق جوابات تیار کرنے کی صلاحیت کی ضرورت ہوتی ہے۔ AI ماڈلز کی جانب سے اس طرح کے کاموں پر کارکردگی متعدد انتخابی سوالات پر ان کی کارکردگی سے بہت مختلف ہو سکتی ہے، جو مستقبل کی تحقیق کے لیے ایک اہم شعبہ ہے۔

پانچویں حد یہ ہے کہ AI ماڈلز کو وقت کے دباؤ میں جانچا نہیں گیا تھا۔ انسانی امیدواروں کو امتحانات کے دوران وقت کی سخت پابندیوں کا سامنا کرنا پڑتا ہے، جو ان کی کارکردگی کو متاثر کر سکتا ہے۔ اس کے برعکس، اس تحقیق میں AI ماڈلز پر وقت کا کوئی دباؤ نہیں تھا، جس سے وہ مقررہ وقت کی پابندی کے بغیر