চিকিৎসা শিক্ষায় এআই: একটি মূল্যায়ন

ভূমিকা

সাম্প্রতিক বছরগুলিতে, কৃত্রিম বুদ্ধিমত্তা (AI) এবং বৃহৎ ভাষা মডেল (LLM)-এর মতো প্রযুক্তির অগ্রগতি চিকিৎসা শিক্ষা এবং জ্ঞান মূল্যায়ন পদ্ধতিতে একটি সম্ভাব্য পরিবর্তন এনেছে। বিশেষ করে, এই উন্নয়নগুলি চিকিৎসা তথ্যকে আরও সহজে উপলব্ধ করতে এবং মূল্যায়নকে আরও ইন্টারেক্টিভ করতে পারে।

পূর্ববর্তী গবেষণাগুলি ইউনাইটেড স্টেটস মেডিকেল লাইসেন্সিং এক্সামিনেশন (USMLE) এবং জাপানি মেডিকেল লাইসেন্সিং এক্সামিনেশন (JMLE)-এর মতো বিভিন্ন চিকিৎসা লাইসেন্সিং পরীক্ষায় LLM-এর কর্মক্ষমতা অন্বেষণ করেছে, তবে এই পরীক্ষাগুলির কাঠামো এবং বিষয়বস্তু TUS থেকে উল্লেখযোগ্যভাবে আলাদা। TUS মৌলিক বিজ্ঞান এবং ক্লিনিক্যাল বিজ্ঞানের উপর দৃষ্টি নিবদ্ধ করে এবং বিশেষভাবে তুর্কি চিকিৎসা প্রেক্ষাপটকে গুরুত্ব দেয়, যা একটি অনন্য মূল্যায়ন পরিবেশে LLM-এর ক্ষমতা মূল্যায়নের একটি বিশেষ সুযোগ প্রদান করে। এই গবেষণাটি চারটি প্রধান LLM-এর TUS-এ কর্মক্ষমতা মূল্যায়ন করে এই ব্যবধান পূরণ করার চেষ্টা করেছে। উপরন্তু, এই গবেষণাটি পাঠ্যক্রম নকশা, AI-সহায়ক চিকিৎসা প্রশিক্ষণ এবং তুরস্কের চিকিৎসা মূল্যায়নের ভবিষ্যতের উপর এই আবিষ্কারগুলির সম্ভাব্য প্রভাবগুলি অন্বেষণ করে। বিশেষভাবে, আমরা অনুসন্ধান করি যে LLM-এর কর্মক্ষমতা কীভাবে আরও কার্যকর শিক্ষা সম্পদ এবং মূল্যায়ন কৌশলগুলির বিকাশের জন্য তথ্য সরবরাহ করতে পারে, যা তুর্কি চিকিৎসা পাঠ্যক্রমের জন্য বিশেষভাবে তৈরি করা হয়েছে। এই অনুসন্ধানটি শুধুমাত্র নির্দিষ্ট ভাষার কর্মক্ষমতা বুঝতে সহায়ক নয়, বরং বিশ্বব্যাপী চিকিৎসা শিক্ষা এবং মূল্যায়নে কীভাবে কার্যকরভাবে AI-কে সংহত করা যায় সে সম্পর্কে একটি বৃহত্তর আলোচনাতেও অবদান রাখে।

এই গবেষণাগুলির ফলাফল থেকে জানা যায় যে ChatGPT এবং অনুরূপ LLM চিকিৎসা শিক্ষা এবং জ্ঞান মূল্যায়ন প্রক্রিয়ায় একটি গুরুত্বপূর্ণ ভূমিকা পালন করতে পারে। চিকিৎসা তথ্য পুনরুদ্ধার এবং মূল্যায়ন পদ্ধতিতে কৃত্রিম বুদ্ধিমত্তা এবং LLM উদ্ভাবনী পদ্ধতি এবং শেখার পদ্ধতির বিকাশকে সক্ষম করতে পারে, বিশেষ করে চিকিৎসা শিক্ষায়। এই গবেষণাটি তুরস্কের মেডিকেল বিশেষ প্রশিক্ষণ প্রবেশিকা পরীক্ষায় ChatGPT 4, Gemini 1.5 Pro এবং Cohere-Command R+-এর কর্মক্ষমতা মূল্যায়ন করে চিকিৎসা শিক্ষা এবং জ্ঞান মূল্যায়নের উপর LLM-এর প্রভাব আরও তদন্ত করার লক্ষ্যে কাজ করে।

এই গবেষণাটি উন্নত কৃত্রিম বুদ্ধিমত্তা (AI) মডেলগুলির (বিশেষত ChatGPT 4, Gemini 1.5 Pro, Command R+ এবং Llama 3 70B) চিকিৎসা শিক্ষা এবং মূল্যায়নে প্রয়োগের বিষয়গুলি অন্বেষণ করে, যেখানে চিকিৎসা বিশেষ পরীক্ষার সমস্যা সমাধানে তাদের কর্মক্ষমতার উপর জোর দেওয়া হয়েছে। এই গবেষণাটি তুর্কি মেডিকেল বিশেষ প্রশিক্ষণ প্রবেশিকা পরীক্ষার প্রশ্নগুলির একটি বিস্তৃত এবং পদ্ধতিগত বিশ্লেষণ করার জন্য এই মডেলগুলির ক্ষমতা মূল্যায়ন করে, যেখানে ব্যাখ্যা করার ক্ষমতা এবং নির্ভুলতার মতো বিষয়গুলি বিবেচনা করে চিকিৎসা ক্ষেত্রে AI-এর সম্ভাবনা তুলে ধরা হয়েছে। গবেষণার ফলাফলগুলি ইঙ্গিত করে যে AI মডেলগুলি চিকিৎসা শিক্ষা এবং মূল্যায়ন প্রক্রিয়াকে উল্লেখযোগ্যভাবে সহায়তা করতে পারে, যা নতুন অ্যাপ্লিকেশন এবং গবেষণার ক্ষেত্রগুলির জন্য পথ খুলে দেয়। এই নিবন্ধের প্রধান উদ্দেশ্য হল AI প্রযুক্তির দ্রুত অগ্রগতি মূল্যায়ন করা এবং বিভিন্ন AI মডেলের প্রতিক্রিয়াশীলতার তুলনা করা। এই গবেষণায় ChatGPT 4, Gemini 1.5 Pro, Command R+ এবং Llama 3 70B-এর একটি তুলনামূলক বিশ্লেষণ করা হয়েছে, যেখানে 2021 সালের তুর্কি মেডিকেল বিশেষ প্রশিক্ষণ প্রবেশিকা পরীক্ষার প্রথম সেমিস্টারের 240টি প্রশ্নের মধ্যে তাদের কর্মক্ষমতা মূল্যায়ন করা হয়েছে।

এই তুলনাটির লক্ষ্য হল AI প্রযুক্তির অগ্রগতি এবং পার্থক্যগুলি তুলে ধরা, যেখানে চিকিৎসা শিক্ষা এবং পরীক্ষার প্রস্তুতির মতো বিশেষ ক্ষেত্রগুলিতে তাদের কার্যকারিতার উপর জোর দেওয়া হয়েছে। চূড়ান্ত লক্ষ্য হল এমন ধারণা প্রদান করা, যা ব্যবহারকারীদের তাদের নির্দিষ্ট চাহিদাগুলির জন্য সবচেয়ে উপযুক্ত সরঞ্জাম নির্বাচন করতে সহায়তা করবে।

পদ্ধতি

প্রশ্নগুলি LLM-কে তুর্কি ভাষায় জিজ্ঞাসা করা হয়েছিল। প্রশ্নগুলি ছাত্র নির্বাচন এবং স্থান নির্ধারণ কেন্দ্রের অফিসিয়াল ওয়েবসাইট থেকে নেওয়া হয়েছিল, যা বহু নির্বাচনী প্রশ্ন আকারে ছিল (A থেকে E পর্যন্ত পাঁচটি বিকল্প সহ), যেখানে শুধুমাত্র একটি সেরা উত্তর ছিল। উত্তরগুলি LLM দ্বারা তুর্কি ভাষায় প্রদান করা হয়েছিল।

মূল্যায়ন প্রক্রিয়াটি ছাত্র নির্বাচন এবং স্থান নির্ধারণ কেন্দ্র দ্বারা প্রকাশিত সঠিক উত্তরের উপর ভিত্তি করে তৈরি করা হয়েছিল। নিবন্ধে উল্লেখ করা হয়েছে: “কৃত্রিম বুদ্ধিমত্তা মডেলগুলির প্রশ্নের ‘সঠিক’ উত্তর ছাত্র নির্বাচন এবং স্থান নির্ধারণ কেন্দ্র দ্বারা প্রকাশিত উত্তর অনুসারে সংজ্ঞায়িত করা হয়েছে। শুধুমাত্র প্রশ্নের পাঠ্যে দেওয়া নির্দেশাবলী অনুসারে যে উত্তরটি সঠিক হিসাবে নির্ধারিত হয়েছে, সেটি ‘সঠিক’ হিসাবে গ্রহণ করা হয়েছে।” যেহেতু প্রশ্ন এবং উত্তর উভয়ই তুর্কি ভাষায় ছিল, তাই মূল্যায়ন প্রক্রিয়ার মধ্যে LLM-এর তুর্কি উত্তরগুলিকে ছাত্র নির্বাচন এবং স্থান নির্ধারণ কেন্দ্র দ্বারা সরবরাहित অফিসিয়াল তুর্কি উত্তর কী-এর সাথে তুলনা করা হয়েছিল।

মেডিকেল শিক্ষা ডেটাসেট

এই গবেষণাটি চিকিৎসা জ্ঞান এবং কেস মূল্যায়নের ক্ষেত্রে কৃত্রিম বুদ্ধিমত্তা মডেলগুলির ক্ষমতা পরীক্ষা করার জন্য ChatGPT 4, Gemini 1.5 Pro, Command R+ এবং Llama 3 70B ব্যবহার করে। এই গবেষণাটি 2021 সালের 21শে মার্চ অনুষ্ঠিত তুর্কি মেডিকেল বিশেষ প্রশিক্ষণ প্রবেশিকা পরীক্ষার প্রশ্নগুলির উপর ভিত্তি করে তৈরি করা হয়েছে। তুর্কি মেডিকেল বিশেষ প্রশিক্ষণ প্রবেশিকা পরীক্ষা হল ছাত্র নির্বাচন এবং স্থান নির্ধারণ কেন্দ্র দ্বারা আয়োজিত একটি পরীক্ষা, जिसमें 240টি প্রশ্ন রয়েছে। প্রথম শ্রেণীতে মৌলিক জ্ঞানের প্রশ্নগুলি চিকিৎসা শিক্ষা শেষ করার জন্য প্রয়োজনীয় জ্ঞান এবং नैतिकता পরীক্ষা করে। দ্বিতীয় শ্রেণীটি কেস প্রশ্ন, जिसमें অনেক রোগের বিশ্লেষণাত্মক চিন্তা और যুক্তির ক্ষমতা পরিমাপ করা হয়।

প্রশ্নের কাঠিন্যের শ্রেণীবিভাগ

প্রশ্নের কাঠিন্যের স্তরটি ছাত্র নির্বাচন এবং স্থান নির্ধারণ কেন্দ্র द्वारा प्रकाशित आधिकारिक পরীক্ষার্থীর কর্মক্ষমতা ডেটার উপর ভিত্তি করে শ্রেণীবদ্ধ করা হয়েছে। বিশেষভাবে, কেন্দ্র द्वारा প্রতিটি প্রশ্নের সঠিক উত্তরের হার रिपोर्ट করা হয়েছে, যা प्रश्नগুলি পাঁচটি কাঠিন্যের স্তরে বিভক্ত করতে ব্যবহৃত হয়েছে:

  • স্তর 1 (সবচেয়ে সহজ): যে প্রশ্নগুলির সঠিক উত্তরের হার ৮০% বা তার বেশি।
  • স্তর 2: যে প্রশ্নগুলির সঠিক উত্তরের হার ৬০% থেকে ৭৯.৯%-এর মধ্যে।
  • স্তর 3 (মাঝারি): যে প্রশ্নগুলির সঠিক উত্তরের হার ৪০% থেকে ৫৯.৯%-এর মধ্যে।
  • স্তর 4: যে প্রশ্নগুলির সঠিক উত্তরের হার ২০% থেকে ৩৯.৯%-এর মধ্যে।
  • স্তর 5 (সবচেয়ে কঠিন): যে প্রশ্নগুলির সঠিক উত্তরের হার ১৯.৯% বা তার কম।

কৃত্রিম বুদ্ধিমত্তা মডেলগুলির প্রশ্নের “সঠিক” উত্তর ছাত্র নির্বাচন এবং স্থান নির্ধারণ কেন্দ্র দ্বারা প্রকাশিত উত্তর অনুসারে সংজ্ঞায়িত করা হয়েছে। শুধুমাত্র প্রশ্নের পাঠ্যে দেওয়া নির্দেশাবলী অনুসারে যে উত্তরটি সঠিক হিসাবে নির্ধারিত হয়েছে, সেটি “সঠিক” হিসাবে গ্রহণ করা হয়েছে। উপরন্তু, প্রতিটি প্রশ্নের কাঠিন্যের স্তর ছাত্র নির্বাচন এবং স্থান নির্ধারণ কেন্দ্র द्वारा प्रकाशित সঠিক উত্তরের হারের উপর ভিত্তি করে ১ থেকে ৫ স্তরে বিভক্ত করা হয়েছে। যে প্রশ্নগুলির সঠিক উত্তরের হার ৮০% এবং তার বেশি, সেগুলি সবচেয়ে সহজ (স্তর ১) হিসাবে বিবেচিত হয়েছে, যেখানে যে প্রশ্নগুলির সঠিক উত্তরের হার ১৯.৯% এবং তার কম, সেগুলি সবচেয়ে কঠিন (স্তর ৫) হিসাবে বিবেচিত হয়েছে।

জ্ঞান এবং কেস ক্ষেত্র

তুর্কি মেডিকেল বিশেষ প্রশিক্ষণ প্রবেশিকা পরীক্ষা হল তুরস্কের মেডিকেল গ্র্যাজুয়েটদের জন্য বিশেষত্ব অর্জনের একটি গুরুত্বপূর্ণ পদক্ষেপ, যা দুটি গুরুত্বপূর্ণ ক্ষেত্রে জ্ঞান এবং কেস ক্ষেত্রগুলিতে পরীক্ষার্থীদের মূল্যায়ন করে। এই ক্ষেত্রগুলির মধ্যে পার্থক্য বোঝা সম্পূর্ণরূপে প্রস্তুতির জন্য অপরিহার্য। জ্ঞান ক্ষেত্রটি পরীক্ষার্থীদের তাদের নির্বাচিত চিকিৎসা ক্ষেত্রের মধ্যে তাত্ত্বিক বোঝাপড়া এবং বাস্তবিক জ্ঞান মূল্যায়ন করার উপর দৃষ্টি নিবদ্ধ করে। এটি মৌলিক ধারণা এবং নীতিগুলির উপর দক্ষতা এবং বিশেষত্বের সাথে সম্পর্কিত চিকিৎসা তথ্যের উপর ভিত্তি করে তৈরি করা হয়েছে। এটি পরীক্ষার অধীনে থাকা নির্দিষ্ট চিকিৎসা জ্ঞানের ক্ষেত্রকে উপস্থাপন করে, যেমন মৌলিক চিকিৎসা বিজ্ঞান (শারীরস্থান, জৈব রসায়ন, শারীরবিদ্যা ইত্যাদি) এবং ক্লিনিক্যাল বিজ্ঞান (অভ্যন্তরীণ চিকিৎসা, সার্জারি, পেডিয়াট্রিক্স ইত্যাদি)। অন্যদিকে, কেস ক্ষেত্রটি বাস্তব পরিস্থিতি বা প্রেক্ষাপটগুলির প্রয়োগকৃত জ্ঞানের প্রতিনিধিত্ব করে, যেমন সমস্যা সমাধান, বিশ্লেষণাত্মক চিন্তা, সমালোচনামূলক চিন্তা, সিদ্ধান্ত গ্রহণ এবং বাস্তব পরিস্থিতিতে ধারণা প্রয়োগ করা।

প্রম্পট ইঞ্জিনিয়ারিং

প্রম্পট ইঞ্জিনিয়ারিং হল প্রাকৃতিক ভাষা প্রম্পট ডিজাইন এবং ফাইন-টিউনিং করা, যাতে ভাষা মডেল বা AI সিস্টেম থেকে নির্দিষ্ট প্রতিক্রিয়া পাওয়া যায়। ২০২৪ সালের এপ্রিল মাসে, আমরা তাদের নিজ নিজ ওয়েব ইন্টারফেসের মাধ্যমে সরাসরি ভাষা মডেলগুলিকে জিজ্ঞাসা করে প্রতিক্রিয়া সংগ্রহ করেছি।

প্রতিটি মডেলের মৌলিক ক্ষমতাগুলির একটি নিরপেক্ষ মূল্যায়ন নিশ্চিত করার জন্য, LLM-এর কাছে প্রশ্ন উপস্থাপনের পদ্ধতিতে কঠোর পদ্ধতিগত নিয়ন্ত্রণ প্রয়োগ করা হয়েছিল। প্রতিটি প্রশ্ন আলাদাভাবে প্রবেশ করানো হয়েছিল এবং নতুন প্রশ্ন উত্থাপনের আগে সেশন রিসেট করা হয়েছিল, যাতে মডেল পূর্ববর্তী মিথস্ক্রিয়াগুলির উপর ভিত্তি করে শিখতে বা খাপ খাইয়ে নিতে না পারে।

ডেটা বিশ্লেষণ

সমস্ত বিশ্লেষণ Microsoft Office Excel এবং Python সফ্টওয়্যার ব্যবহার করে করা হয়েছে। বিভিন্ন প্রশ্নের কাঠিন্যের উপর LLM-এর কর্মক্ষমতা তুলনা করার জন্য, অপ্রয়োজনীয় কাই-স্কোয়ার পরীক্ষা করা হয়েছে। পরিসংখ্যানগত তাৎপর্য নির্ধারণের জন্য p < 0.05-এর p-মান থ্রেশহোল্ড ব্যবহার করা হয়েছে। এই বিশ্লেষণে মূল্যায়ন করা হয়েছে যে প্রশ্নের কাঠিন্যের স্তরের কারণে মডেলের নির্ভুলতা পরিবর্তিত হয় কিনা।

নৈতিক বিবেচনা

এই গবেষণাটি শুধুমাত্র ইন্টারনেটে প্রকাশিত তথ্য ব্যবহার করে, जिसमें মানুষের কোনো বিষয় জড়িত নয়। অতএব, Baskent University-এর নৈতিক কমিটির অনুমোদনের প্রয়োজন নেই।

ফলাফল

২০২১ সালের তুর্কি মেডিকেল বিশেষ প্রশিক্ষণ প্রবেশিকা পরীক্ষার প্রথম পর্বে অংশগ্রহণকারী পরীক্ষার্থীদের মৌলিক চিকিৎসা বিজ্ঞান পরীক্ষায় গড় সঠিক উত্তরের সংখ্যা ছিল ৫১.৬৩। ক্লিনিক্যাল চিকিৎসা বিজ্ঞান পরীক্ষায় গড় সঠিক উত্তরের সংখ্যা ছিল ৬৩.৯৫। ক্লিনিক্যাল চিকিৎসা বিজ্ঞান পরীক্ষায় গড় সঠিক উত্তরের সংখ্যা মৌলিক চিকিৎসা বিজ্ঞান পরীক্ষা থেকে বেশি ছিল। এই পরিস্থিতির সাথে সঙ্গতি রেখে, কৃত্রিম বুদ্ধিমত্তা প্রযুক্তিও ক্লিনিক্যাল চিকিৎসা বিজ্ঞান পরীক্ষায় আরও সফলভাবে উত্তর দিয়েছে।

AI কর্মক্ষমতা

AI প্ল্যাটফর্মগুলির কর্মক্ষমতা মানব পরীক্ষার্থীদের মতো একই মেট্রিক ব্যবহার করে মূল্যায়ন করা হয়েছে।

  • ChatGPT 4:

    ChatGPT 4 মৌলিক চিকিৎসা বিজ্ঞান বিভাগে ১০৩টি সঠিক উত্তরের গড় স্কোর এবং ক্লিনিক্যাল চিকিৎসা বিজ্ঞান বিভাগে ১১০টি সঠিক উত্তরের গড় স্কোর অর্জন করেছে। এটি সামগ্রিকভাবে ৮৮.৭৫% নির্ভুলতার প্রতিনিধিত্ব করে, যা উভয় বিভাগের গড় মানব পরীক্ষার্থীদের থেকে উল্লেখযোগ্যভাবে ভাল (p < 0.001)।

  • Llama 3 70B:

    Llama 3 70B মৌলিক চিকিৎসা বিজ্ঞান বিভাগে ৯৫টি সঠিক উত্তরের গড় স্কোর এবং ক্লিনিক্যাল চিকিৎসা বিজ্ঞান বিভাগে ৯৫টি সঠিক উত্তরের গড় স্কোর অর্জন করেছে। এটি সামগ্রিকভাবে ৭৯.১৭% নির্ভুলতার প্রতিনিধিত্ব করে, যা গড় মানব কর্মক্ষমতা থেকেও উল্লেখযোগ্যভাবে বেশি (p < 0.01)।

  • Gemini 1.5 Pro:

    Gemini 1.5 Pro মৌলিক চিকিৎসা বিজ্ঞান বিভাগে ৯৪টি সঠিক উত্তরের গড় স্কোর এবং ক্লিনিক্যাল চিকিৎসা বিজ্ঞান বিভাগে ৯৩টি সঠিক উত্তরের গড় স্কোর অর্জন করেছে। এটি সামগ্রিকভাবে ৭৮.১৩% নির্ভুলতার প্রতিনিধিত্ব করে, যা গড় মানব কর্মক্ষমতা থেকে উল্লেখযোগ্যভাবে বেশি (p < 0.01)।

  • Command R+:

    Command R+ মৌলিক চিকিৎসা বিজ্ঞান বিভাগে ৬০টি সঠিক উত্তরের গড় স্কোর এবং ক্লিনিক্যাল চিকিৎসা বিজ্ঞান বিভাগে ৬০টি সঠিক উত্তরের গড় স্কোর অর্জন করেছে। এটি সামগ্রিকভাবে ৫০% নির্ভুলতার প্রতিনিধিত্ব করে, যা মৌলিক চিকিৎসা বিজ্ঞান বিভাগের গড় মানব কর্মক্ষমতার সাথে উল্লেখযোগ্যভাবে ভিন্ন নয় (p = 0.12), কিন্তু ক্লিনিক্যাল চিকিৎসা বিজ্ঞান বিভাগে উল্লেখযোগ্যভাবে কম (p < 0.05)।

AI প্ল্যাটফর্মগুলির কর্মক্ষমতা মানব পরীক্ষার্থীদের মতো একই মেট্রিক ব্যবহার করে মূল্যায়ন করা হয়েছে।

চিত্র ৩ বিভিন্ন LLM-এর প্রশ্নের কাঠিন্য অনুসারে নির্ভুলতা তুলনা করে - ChatGPT 4: সেরা পারফর্মিং মডেল। প্রশ্নের কাঠিন্য বাড়ার সাথে সাথে নির্ভুলতা বাড়ে, এমনকি সবচেয়ে চ্যালেঞ্জিং প্রশ্নগুলিতেও ৭০%-এর কাছাকাছি থাকে - Llama 3 70B: মাঝারি পারফর্মিং মডেল। প্রশ্নের কাঠিন্য বাড়ার সাথে সাথে নির্ভুলতা প্রথমে বাড়ে তারপর কমে যায়। সবচেয়ে চ্যালেঞ্জিং প্রশ্নগুলিতে এর নির্ভুলতা প্রায় ২৫%। Gemini 1.5 70B: এর কর্মক্ষমতা Llama 3 70B-এর অনুরূপ। প্রশ্নের কাঠিন্য বাড়ার সাথে সাথে নির্ভুলতা প্রথমে বাড়ে তারপর কমে যায়। সবচেয়ে চ্যালেঞ্জিং প্রশ্নগুলিতে এর নির্ভুলতা প্রায় ২০%। Command R+: সর্বনিম্ন পারফর্মিং মডেল। প্রশ্নের কাঠিন্য বাড়ার সাথে সাথে এর নির্ভুলতা কমে যায় এবং সবচেয়ে চ্যালেঞ্জিং প্রশ্নগুলিতে প্রায় ১৫%-এ থাকে।

সংক্ষেপে, ChatGPT 4 হল প্রশ্নের কাঠিন্য দ্বারা সবচেয়ে কম প্রভাবিত মডেল এবং এর সামগ্রিক নির্ভুলতা সবচেয়ে বেশি। Llama 3 70B এবং Gemini 1.5 Pro মাঝারি পারফর্ম করে, যেখানে Command R+-এর সাফল্যের হার অন্যান্য মডেলের চেয়ে কম। প্রশ্নের কাঠিন্য বাড়ার সাথে সাথে মডেলগুলির নির্ভুলতা কমে যায়। এটি ইঙ্গিত করে যে LLM-গুলির জটিল প্রশ্ন বোঝা এবং সঠিকভাবে উত্তর দেওয়ার ক্ষেত্রে উন্নতির প্রয়োজন রয়েছে।

সারণী ১-এ, ChatGPT 4 মডেলটি ৮৮.৭৫% সাফল্যের হার নিয়ে সেরা পারফর্মিং মডেল হিসাবে নিজেকে আলাদা করেছে। এটি ইঙ্গিত করে যে এটির প্রশ্ন বোঝা এবং সঠিকভাবে উত্তর দেওয়ার একটি শক্তিশালী ক্ষমতা রয়েছে। Llama 3 70B মডেলটি ৭৯.১৭% সাফল্যের হার নিয়ে দ্বিতীয় অবস্থানে রয়েছে। যদিও এটি ChatGPT 4 মডেল থেকে পিছিয়ে রয়েছে, তবে এটি এখনও প্রশ্নগুলির উত্তর দেওয়ার ক্ষেত্রে একটি উচ্চ স্তরের দক্ষতা প্রদর্শন করে। Gemini 1.5 Pro মডেলটি ৭৮.১৩% সাফল্যের হার নিয়ে সামান্য পিছিয়ে রয়েছে। এর কর্মক্ষমতা Llama 3 70B মডেলের সাথে তুলনীয়, যা ইঙ্গিত করে যে এটির একটি শক্তিশালী প্রশ্ন উত্তর দেওয়ার ক্ষমতা রয়েছে। অন্যদিকে, Command R+ মডেলটি ৫০% সাফল্যের হার নিয়ে অন্যান্য মডেলের চেয়ে পিছিয়ে রয়েছে। এটি ইঙ্গিত করে যে নির্দিষ্ট প্রশ্নগুলির ক্ষেত্রে এটির অসুবিধা হতে পারে অথবা কর্মক্ষমতা উন্নত করার জন্য আরও ফাইন-টিউনিংয়ের প্রয়োজন হতে পারে। বিভিন্ন কাঠিন্য স্তরের উপর সঠিক উত্তরের বিতরণ। উদাহরণস্বরূপ, সমস্ত মডেল সহজ প্রশ্নগুলিতে (কাঠিন্য স্তর ১) ভাল পারফর্ম করেছে, যেখানে ChatGPT 4 মডেলটি নিখুঁত স্কোর অর্জন করেছে। মাঝারি কাঠিন্যের প্রশ্নগুলিতে (স্তর ২ এবং ৩), ChatGPT 4 এবং Llama 3 70B মডেলগুলি ভাল পারফর্ম করা অব্যাহত রেখেছে।

তুলনামূলকভাবে, Gemini 1.5 Pro মডেলটি কিছু দুর্বলতা দেখাতে শুরু করেছে। কঠিন প্রশ্নগুলিতে (স্তর ৪ এবং ৫), সমস্ত মডেলের কর্মক্ষমতা হ্রাস পেয়েছে, যেখানে Command R+ মডেলটি সবচেয়ে বেশি সংগ্রাম করেছে। সাধারণভাবে, এই ফলাফলগুলি প্রতিটি AI মডেলের শক্তি এবং দুর্বলতা সম্পর্কে মূল্যবান ধারণা প্রদান করে এবং ভবিষ্যতের বিকাশ এবং উন্নতির প্রচেষ্টাকে জানাতে পারে।

সারণী ৩-এ, মৌলিক চিকিৎসা বিজ্ঞানের জৈব রসায়ন ChatGPT 4-এর নিখুঁত স্কোর অর্জন করেছে, যা এই ক্ষেত্রে প্রশ্নের উত্তর দেওয়ার জন্য এটির ব্যতিক্রমী ক্ষমতা প্রমাণ করে। Llama 3 70B এবং Gemini 1.5 Pro-ও ভাল পারফর্ম করেছে, কিন্তু Command R+-এর নির্ভুলতা ৫০% ছিল, যা দুর্বল কর্মক্ষমতা নির্দেশ করে। ফার্মাকোলজি, প্যাথলজি এবং মাইক্রোবায়োলজিতে সেরা পারফর্মিং মডেলগুলি (ChatGPT 4 এবং Llama 3 70B) তথ্যের একটি শক্তিশালী ধারাবাহিকতা দেখিয়েছে, যেখানে নির্ভুলতা ৮১% থেকে ৯০%-এর মধ্যে ছিল। Gemini 1.5 Pro এবং Command R+ পিছিয়ে ছিল, কিন্তু তবুও ভালো পারফর্ম করেছে। শারীরস্থান এবং শারীরবিদ্যা মডেলগুলির জন্য কিছু চ্যালেঞ্জ তৈরি করেছে। ChatGPT 4 এবং Meta AI-Llama 3 70B ভাল পারফর্ম করেছে, যেখানে Gemini 1.5 Pro এবং Command R+-এর নির্ভুলতা ৭০%-এর নিচে ছিল, যা দুর্বল কর্মক্ষমতা নির্দেশ করে।

ক্লিনিক্যাল চিকিৎসা বিজ্ঞানের পেডিয়াট্রিক্স সমস্ত মডেলের জন্য গুরুত্বপূর্ণ ছিল, যেখানে ChatGPT 4 প্রায় নিখুঁত স্কোর (৯০%) অর্জন করেছে। Llama 3 70B ঘনিষ্ঠভাবে অনুসরণ করেছে, এমনকি Command R+-ও ৪৩% নির্ভুলতা অর্জন করেছে। অভ্যন্তরীণ চিকিৎসা এবং সাধারণ সার্জারির কর্মক্ষমতা সেরা মডেলগুলির চেয়েও ভালো ছিল, যেখানে নির্ভুলতা ৭৯% থেকে ৯০%-এর মধ্যে ছিল। Gemini 1.5 Pro এবং Command R+ পিছিয়ে ছিল, কিন্তু তবুও ভালো পারফর্ম করেছে। অ্যানেস্থেশিয়া এবং রিসাসিটেশন, জরুরি চিকিৎসা, নিউরোলজি এবং ডার্মাটোলজি-এর মতো বিশেষত্বগুলিতে কম প্রশ্ন জমা দেওয়া হয়েছিল, কিন্তু মডেলগুলি সাধারণভাবে ভাল পারফর্ম করেছে। ChatGPT 4 এবং Llama 3 70B এই ক্ষেত্রগুলিতে ব্যতিক্রমী নির্ভুলতা দেখিয়েছে।

মডেল তুলনা সম্পর্কে, ChatGPT 4 হল বেশিরভাগ ক্ষেত্রে সেরা পারফর্মিং মডেল, যেখানে সামগ্রিক নির্ভুলতা ৮৮.৭৫%। এর শক্তি হল মৌলিক চিকিৎসা এবং ক্লিনিক্যাল চিকিৎসা বিজ্ঞান উভয় প্রশ্নের নির্ভুলভাবে উত্তর দেওয়ার ক্ষমতা। Llama 3 70B ৭৯.১৭% সামগ্রিক নির্ভুলতা নিয়ে ঘনিষ্ঠভাবে অনুসরণ করেছে। যদিও এটি ChatGPT 4-এর কর্মক্ষমতার সাথে সম্পূর্ণরূপে মেলে না, তবুও এটি বিভিন্ন ক্ষেত্রে জ্ঞানের একটি শক্তিশালী ধারাবাহিকতা দেখিয়েছে। Gemini 1.5 Pro এবং Command R+ পিছিয়ে ছিল, যেখানে সামগ্রিক নির্ভুলতা ছিল যথাক্রমে ৭৮.১৩% এবং ৫০%। যদিও তারা কিছু ক্ষেত্রে আশা দেখিয়েছে, তবে সমস্ত ক্ষেত্রে ধারাবাহিকতা বজায় রাখতে তারা সংগ্রাম করেছে।

সংক্ষেপে, ChatGPT 4 হল বর্তমানে বিভিন্ন ক্ষেত্রের চিকিৎসা বিজ্ঞানের প্রশ্নের উত্তর দেওয়ার জন্য সবচেয়ে উপযুক্ত মডেল। Gemini 1.5 Pro এবং Command R+ সম্ভাবনা দেখিয়েছে, কিন্তু সেরা পারফর্মিং মডেলগুলির সাথে প্রতিযোগিতা করার জন্য তাদের উল্লেখযোগ্য উন্নতির প্রয়োজন।

সারণী ৪-এ, জ্ঞান ক্ষেত্র সম্পর্কে, ChatGPT 4 মৌলিক চিকিৎসা বিজ্ঞান ক্ষেত্রে ৮৬.৭% (৮৫/৯৮) নির্ভুলতা নিয়ে অন্যান্য মডেলের চেয়ে ভালো পারফর্ম করেছে। ChatGPT 4 আবারও সেরা পারফর্ম করেছে, ক্লিনিক্যাল চিকিৎসা বিজ্ঞান ক্ষেত্রে ৮৯.৭% (৬১/৬৮) নির্ভুলতা নিয়ে। কেস ক্ষেত্র সম্পর্কে, ChatGPT 4 মৌলিক চিকিৎসা বিজ্ঞান ক্ষেত্রে ৮১.৮% (১৮/২২) নির্ভুলতা নিয়ে ভালো পারফর্ম করেছে। ক্লিনিক্যাল চিকিৎসা বিজ্ঞান ক্ষেত্রে, ChatGPT 4 অনুরূপ পারফর্ম করেছে, যেখানে নির্ভুলতা ছিল ৯৪.২% (৪৯/৫২)।

মডেলগুলির জুড়ি তুলনা দেখায় যে ChatGPT 4 উভয় ক্ষেত্র এবং প্রশ্নের ধরনে অন্যান্য মডেলের চেয়ে উল্লেখযোগ্যভাবে ভালো পারফর্ম করেছে। Llama 3 70B এবং Gemini 1.5 Pro একই রকম পারফর্ম করেছে, যেখানে Command R+ পিছিয়ে ছিল। এই বিশ্লেষণের উপর ভিত্তি করে, আমরা এই সিদ্ধান্তে উপনীত হতে পারি যে ChatGPT 4 জ্ঞান এবং কেস ক্ষেত্র উভয় ক্ষেত্রেই এবং মৌলিক চিকিৎসা বিজ্ঞান এবং ক্লিনিক্যাল চিকিৎসা বিজ্ঞান উভয় ক্ষেত্রেই ব্যতিক্রমী কর্মক্ষমতা দেখিয়েছে।

পরিসংখ্যানগত বিশ্লেষণ

LLM-এর কর্মক্ষমতা Microsoft Office Excel এবং Python (সংস্করণ ৩.১০.২) ব্যবহার করে বিশ্লেষণ করা হয়েছে। বিভিন্ন প্রশ্নের কাঠিন্যের স্তরের উপর মডেলগুলির কর্মক্ষমতা তুলনা করার জন্য, অপ্রয়োজনীয় কাই-স্কোয়ার পরীক্ষা করা হয়েছে। প্রতিটি AI মডেলের সঠিক এবং ভুল উত্তরের জন্য কাঠিন্য স্তর অনুসারে কন্টিনজেন্সি টেবিল তৈরি করা হয়েছে এবং বিভিন্ন কাঠিন্য স্তরের মধ্যে কর্মক্ষমতার মধ্যে পরিসংখ্যানগতভাবে উল্লেখযোগ্য পার্থক্য আছে কিনা তা নির্ধারণের জন্য কাই-স্কোয়ার পরীক্ষা প্রয়োগ করা হয়েছে। পরিসংখ্যানগত তাৎপর্য নির্ধারণের জন্য <0.05-এর p-মান থ্রেশহোল্ড ব্যবহার করা হয়েছে। ChatGPT 4-এর p-মান হল 0.00028, যা p < 0.05-এ উল্লেখযোগ্য এবং বিভিন্ন কাঠিন্য স্তরের মধ্যে কর্মক্ষমতার মধ্যে একটি উল্লেখযোগ্য পার্থক্য নির্দেশ করে। Gemini 1.5 Pro-এর p-মান হল 0.047, যা p < 0.05-এ উল্লেখযোগ্য এবং বিভিন্ন কাঠিন্য স্তরের মধ্যে কর্মক্ষমতার মধ্যে একটি উল্লেখযোগ্য পার্থক্য নির্দেশ করে। Command R+-এর p-মান হল 0.197, যা p < 0.05-এ তাৎপর্যপূর্ণ নয় এবং বিভিন্ন কাঠিন্য স্তরের মধ্যে কর্মক্ষমতার মধ্যে কোনো উল্লেখযোগ্য পার্থক্য নির্দেশ করে না। Llama 3 70B-এর p-মান: 0.118, p-মান: 0.118, যা p < 0.05-এ তাৎপর্যপূর্ণ নয় এবং বিভিন্ন কাঠিন্য স্তরের মধ্যে কর্মক্ষমতার মধ্যে কোনো উল্লেখযোগ্য পার্থক্য নির্দেশ করে না।

বিভিন্ন প্রশ্নের কাঠিন্যের উপর ChatGPT 4 এবং Gemini 1.5 Pro-এর সঠিকতা পরিসংখ্যানগতভাবে উল্লেখযোগ্য পার্থক্য দেখিয়েছে, যা ইঙ্গিত করে যে প্রশ্নের কাঠিন্যের সাথে সাথে তাদের কর্মক্ষমতা উল্লেখযোগ্যভাবে পরিবর্তিত হয়। Command R+ এবং Llama 3 70B কাঠিন্যের স্তরের মধ্যে উল্লেখযোগ্য কর্মক্ষমতা পার্থক্য দেখায়নি, যা ইঙ্গিত করে যে প্রশ্নের কাঠিন্য নির্বিশেষে কর্মক্ষমতা আরও ধারাবাহিক। এই ফলাফলগুলি ইঙ্গিত দিতে পারে যে বিভিন্ন মডেলের বিভিন্ন কাঠিন্যের সাথে সম্পর্কিত জটিলতা এবং বিষয়গুলি মোকাবেলার ক্ষেত্রে বিভিন্ন শক্তি এবং দুর্বলতা রয়েছে।

আলোচনা

TUS হল তুরস্কের মেডিকেল গ্র্যাজুয়েটদের জন্য বিশেষ প্রশিক্ষণ অর্জনের একটি গুরুত্বপূর্ণ জাতীয় পরীক্ষা। এই পরীক্ষায় মৌলিক বিজ্ঞান এবং ক্লিনিক্যাল বিজ্ঞান উভয় ক্ষেত্রেই মাল্টিপল চয়েস প্রশ্ন রয়েছে এবং বিশেষত্ব কোর্সের র‌্যাঙ্কিং নির্ধারণের জন্য একটি কেন্দ্রীভূত র‌্যাঙ্কিং সিস্টেম রয়েছে।

TUS-এ বৃহৎ ভাষা মডেলগুলির কর্মক্ষমতা মূল্যায়নের সময়, GPT-4 হল সেরা পারফর্মিং মডেল। একইভাবে, ChatGPT হল একটি শক্তিশালী AI মডেল, যা সার্জারির ক্ষেত্রে মানুষের স্তরের কাছাকাছি বা তার উপরে পারফর্ম করেছে, যথাক্রমে ৭১% এবং ৬৮% মাল্টিপল চয়েস প্রশ্ন SCORE এবং Data-B সঠিকভাবে উত্তর দিয়েছে। উপরন্তু, ChatGPT জনস্বাস্থ্য পরীক্ষায় অসাধারণ পারফর্ম করেছে, বর্তমান পাসের হারকে ছাড়িয়ে গেছে এবং অনন্য ধারণা প্রদান করেছে। এই আবিষ্কারগুলি চিকিৎসা মূল্যায়নে GPT-4 এবং ChatGPT-এর অসাধারণ কর্মক্ষমতা তুলে ধরে, যা চিকিৎসা শিক্ষা এবং সম্ভাব্য রোগ নির্ণয় সহায়কগুলিকে উন্নত করার তাদের সম্ভাবনা প্রদর্শন করে।

মেডিকেল শিক্ষাবিদ এবং পরীক্ষকদের জন্য, LLM-এর ক্রমবর্ধমান নির্ভুলতা পরীক্ষা ডিজাইন এবং মূল্যায়ন সম্পর্কে গুরুত্বপূর্ণ প্রশ্ন উত্থাপন করে। যদি AI মডেলগুলি উচ্চ নির্ভুলতার সাথে স্ট্যান্ডার্ডাইজড মেডিকেল পরীক্ষাগুলি সমাধান করতে পারে, তবে ভবিষ্যতের মূল্যায়নগুলিতে সরল স্মরণকালের বাইরে উচ্চ স্তরের যুক্তি এবং ক্লিনিক্যাল বিচারের প্রশ্নগুলি অন্তর্ভুক্ত করা প্রয়োজন হতে পারে। উপরন্তু, তুরস্কের মেডিকেল প্রতিষ্ঠানগুলি AI-সহায়ক শিক্ষা কৌশলগুলি অন্বেষণ করতে পারে, যেমন শিক্ষার্থীদের ব্যক্তিগত চাহিদা অনুযায়ী শেখার উপকরণ তৈরি করার জন্য অভিযোজিত শেখার সিস্টেম।

একটি জাতীয় দৃষ্টিকোণ থেকে, এই গবেষণাটি তুরস্কের চিকিৎসা শিক্ষায় AI-এর ক্রমবর্ধমান গুরুত্ব তুলে ধরে। যেহেতু এই LLM-গুলি তুর্কি ভাষার মেডিকেল প্রশ্নগুলিতে ভাল পারফর্ম করে, তাই তারা দুর্বল পরিষেবাযুক্ত অঞ্চলের শিক্ষার্থীদের জন্য উচ্চ মানের শিক্ষা সংস্থানগুলিতে অ্যাক্সেসের ব্যবধান পূরণ করতে পারে। উপরন্তু, নীতিনির্ধারকদের বিবেচনা করা উচিত যে কীভাবে তুরস্কের স্বাস্থ্যসেবা পেশাদারদের জন্য চলমান চিকিৎসা শিক্ষা এবং জীবনব্যাপী শিক্ষা প্রোগ্রামে AI মডেলগুলিকে সংহত করা যায়।

সংক্ষেপে, যদিও ChatGPT-4-এর মতো AI মডেলগুলি অসাধারণ নির্ভুলতা প্রদর্শন করেছে, তবে চিকিৎসা শিক্ষায় তাদের ভূমিকা সাবধানে মূল্যায়ন করা উচিত। AI-সহায়ক শিক্ষার সম্ভাব্য সুবিধাগুলি বিশাল, তবে সঠিক বাস্তবায়ন নিশ্চিত করতে হবে যে এই সরঞ্জামগুলি দায়িত্বশীল, নৈতিক উপায়ে ব্যবহার করা হয়েছে এবং মানব দক্ষতার সাথে একত্রিত করা হয়েছে।

সীমাবদ্ধতা

এই গবেষণাটি তুর্কি মেডিকেল বিশেষ প্রশিক্ষণ প্রবেশিকা পরীক্ষায় (TUS) বৃহৎ ভাষা মডেলগুলির (LLM) কর্মক্ষমতা সম্পর্কে মূল্যবান ধারণা প্রদান করে, তবে গবেষণার ফলাফলগুলিকে প্রেক্ষাপটে রাখতে এবং ভবিষ্যতের গবেষণাকে গাইড করার জন্য কয়েকটি গুরুত্বপূর্ণ সীমাবদ্ধতা স্বীকার করা অপরিহার্য। প্রথমত, এই গবেষণায় মূল্যায়ন করা AI মডেলগুলির প্রশিক্ষণ ডেটাতে TUS প্রশ্ন অন্তর্ভুক্ত ছিল কিনা তা নিশ্চিত নয়। যেহেতু অতীতের TUS প্রশ্নগুলি প্রকাশ্যে উপলব্ধ, তাই এই গবেষণায় ব্যবহৃত প্রশ্নগুলি মডেলের প্রশিক্ষণ ডেটার অংশ হতে পারে। এটি উদ্বেগের কারণ যে মডেলগুলির কর্মক্ষমতা প্রকৃত বোঝাপড়াকে প্রতিফলিত করে নাকি কেবল নির্দিষ্ট প্রশ্ন মুখস্থ করার ক্ষমতাকে প্রতিফলিত করে। ভবিষ্যতের গবেষণায় AI মডেলগুলি প্রকৃত যুক্তির ক্ষমতা প্রদর্শন করে নাকি মুখস্থ তথ্যের উপর নির্ভর করে তা মূল্যায়ন করার পদ্ধতি তৈরি করা উচিত।

দ্বিতীয়ত, AI মডেলগুলির প্রশিক্ষণ ডেটা থেকে উদ্ভূত পক্ষপাতিত্ব দেখানোর সম্ভাবনা রয়েছে। এই পক্ষপাতিত্বগুলি প্রশিক্ষণ ডেটাতে কিছু চিকিৎসা পরিস্থিতি, জনসংখ্যা বা দৃষ্টিভঙ্গির প্রতিনিধিত্বের ভারসাম্যহীনতা থেকে উদ্ভূত হতে পারে। উদাহরণস্বরূপ, প্রতিটি ভাষায় উপলব্ধ প্রশিক্ষণ ডেটার পরিমাণ এবং মানের পার্থক্যের কারণে, তুর্কি ভাষায় মডেলগুলির কর্মক্ষমতা ইংরেজির থেকে আলাদা হতে পারে। উপরন্তু, এই মডেলগুলি তুর্কি স্থানীয় চিকিৎসা অনুশীলন বা সাংস্কৃতিক প্রেক্ষাপট সম্পর্কে বোঝার প্রয়োজন এমন প্রশ্নের উত্তর দেওয়ার ক্ষেত্রে কম সঠিক হতে পারে। এই পক্ষপাতিত্বগুলি গবেষণার ফলাফলের সাধারণীকরণকে সীমাবদ্ধ করতে পারে এবং চিকিৎসা শিক্ষা এবং অনুশীলনে AI ব্যবহারের নৈতিক উদ্বেগ উত্থাপন করতে পারে।

তৃতীয় সীমাবদ্ধতা হল, এই গবেষণাটি শুধুমাত্র মাল্টিপল চয়েস প্রশ্নের উপর দৃষ্টি নিবদ্ধ করেছে। বাস্তব ক্লিনিক্যাল অনুশীলনে, স্বাস্থ্যসেবা পেশাদারদের জটিল কেসগুলির যুক্তি তৈরি করা, অস্পষ্ট আবিষ্কারগুলি ব্যাখ্যা করা এবং অনিশ্চয়তার মধ্যে সিদ্ধান্ত নেওয়ার মতো দক্ষতা থাকতে হবে। উপরন্তু, একটি সুস্পষ্ট এবং সহানুভূতিশীল উপায়ে রোগী এবং সহকর্মীদের কাছে রোগ নির্ণয়, চিকিৎসা পরিকল্পনা এবং ঝুঁকি জানানোর ক্ষমতা অত্যন্ত গুরুত্বপূর্ণ। AI মডেলগুলির এই কাজগুলি সম্পাদন করার ক্ষমতা এখনও পরীক্ষা করা হয়নি এবং তাদের বর্তমান নকশা এবং প্রশিক্ষণ দ্বারা সীমাবদ্ধ থাকতে পারে। ভবিষ্যতের গবেষণাগুলিতে ক্লিনিক্যাল কেস সিমুলেশন এবং ওপেন-এন্ডেড মূল্যায়নগুলির মতো আরও বাস্তব পরিস্থিতিতে AI মডেলগুলির মূল্যায়ন করা উচিত।

চতুর্থত, এই গবেষণায় ওপেন-এন্ডেড প্রশ্ন অন্তর্ভুক্ত করা হয়নি। সমালোচনামূলক চিন্তা, তথ্য সংশ্লেষণ এবং ক্লিনিক্যাল যুক্তির মতো উচ্চ স্তরের জ্ঞানীয় দক্ষতা মূল্যায়নের জন্য ওপেন-এন্ডেড প্রশ্ন অপরিহার্য। এই ধরনের প্রশ্নগুলির জন্য তালিকা থেকে সঠিক বিকল্পটি নির্বাচন করার পরিবর্তে একটি সুসংগত এবং প্রাসঙ্গিক প্রতিক্রিয়া তৈরি করার ক্ষমতা প্রয়োজন। AI মডেলগুলির এই ধরনের কাজের উপর কর্মক্ষমতা মাল্টিপল চয়েস প্রশ্নের কর্মক্ষমতা থেকে অনেক আলাদা হতে পারে, যা ভবিষ্যতের গবেষণার জন্য একটি গুরুত্বপূর্ণ ক্ষেত্র উপস্থাপন করে।

পঞ্চম সীমাবদ্ধতা হল, AI মডেলগুলি সময়ের চাপে পরীক্ষা করা হয়নি। পরীক্ষার সময় মানব পরীক্ষার্থীরা কঠোর সময়সীমার মধ্যে থাকে, যা তাদের কর্মক্ষমতাকে প্রভাবিত করতে পারে। বিপরীতে, এই গবেষণায় AI মডেলগুলি সময়ের চাপে ছিল না, যা তাদের সময়সীমার চাপের পরিবেশ ছাড়াই কাজ করতে দিয়েছে।