مقدمه
پیشرفتهای اخیر در هوش مصنوعی (AI) و مدلهای زبان بزرگ (LLM) پتانسیل دگرگون کردن آموزش پزشکی و روشهای ارزیابی دانش را دارند. بهطور خاص، این پیشرفتها میتوانند دسترسی به اطلاعات پزشکی را آسانتر کرده و ارزیابیها را تعاملیتر سازند.
مطالعات قبلی عملکرد LLMها را در آزمونهای مختلف مجوز پزشکی مانند آزمون مجوز پزشکی ایالات متحده (USMLE) و آزمون مجوز پزشکی ژاپن (JMLE) بررسی کردهاند، اما این آزمونها تفاوتهای قابلتوجهی در ساختار و محتوا با آزمون دستیاری تخصصی پزشکی ترکیه (TUS) دارند. TUS بر علوم پایه و علوم بالینی با تمرکز ویژه بر زمینه پزشکی ترکیه متمرکز است، که فرصتی منحصربهفرد برای ارزیابی تواناییهای LLM در یک محیط ارزیابی متمایز فراهم میکند. این مطالعه با ارزیابی عملکرد چهار LLM برتر در TUS، به دنبال پر کردن این شکاف است. علاوه بر این، این مطالعه پیامدهای بالقوه این یافتهها را برای طراحی برنامه درسی، آموزش پزشکی با کمک هوش مصنوعی و آینده ارزیابی پزشکی در ترکیه بررسی میکند. بهطور خاص، ما بررسی میکنیم که چگونه عملکرد LLMها میتواند به توسعه منابع آموزشی و استراتژیهای ارزیابی مؤثرتر و متناسب با برنامه درسی پزشکی ترکیه کمک کند. این بررسی نهتنها به درک عملکرد زبان خاص کمک میکند، بلکه به بحث گستردهتری در مورد چگونگی ادغام مؤثر هوش مصنوعی در آموزش و ارزیابی پزشکی در سطح جهانی کمک میکند.
نتایج این مطالعات نشان میدهد که ChatGPT و LLMهای مشابه میتوانند نقش مهمی در آموزش پزشکی و فرآیندهای ارزیابی دانش ایفا کنند. هوش مصنوعی و LLMها در بازیابی اطلاعات پزشکی و روشهای ارزیابی میتوانند امکان توسعه رویکردهای نوآورانه و روشهای یادگیری را فراهم کنند، بهویژه در آموزش پزشکی. این مطالعه با ارزیابی عملکرد ChatGPT 4، Gemini 1.5 Pro و Cohere-Command R+ در آزمون دستیاری تخصصی پزشکی ترکیه، به دنبال بررسی بیشتر تأثیر LLMها بر آموزش پزشکی و ارزیابی دانش است.
این مطالعه کاربرد مدلهای پیشرفته هوش مصنوعی (AI) (بهویژه ChatGPT 4، Gemini 1.5 Pro، Command R+ و Llama 3 70B) را در آموزش و ارزیابی پزشکی، با تأکید بر عملکرد آنها در حل مسائل امتحان تخصصی پزشکی بررسی میکند. این مطالعه توانایی این مدلها را برای تجزیهوتحلیل جامع و سیستماتیک مسائل آزمون دستیاری تخصصی پزشکی ترکیه ارزیابی میکند و بر پتانسیل هوش مصنوعی در پزشکی در هنگام در نظر گرفتن عواملی مانند قابلیت تفسیر و دقت تأکید میکند. نتایج نشان میدهد که مدلهای هوش مصنوعی میتوانند بهطور قابلتوجهی فرآیندهای آموزش و ارزیابی پزشکی را تسهیل کنند و راه را برای کاربردها و حوزههای تحقیقاتی جدید باز کنند. هدف اصلی این مقاله ارزیابی پیشرفتهای سریع در فناوری هوش مصنوعی و مقایسه پاسخگویی مدلهای مختلف هوش مصنوعی است. این مطالعه یک تحلیل مقایسهای از ChatGPT 4، Gemini 1.5 Pro، Command R+ و Llama 3 70B ارائه میدهد و عملکرد آنها را در ۲۴۰ سؤال از ترم اول آزمون دستیاری تخصصی پزشکی ترکیه در سال ۲۰۲۱ ارزیابی میکند.
هدف از این مقایسه، روشن کردن مسیر و تمایزات توسعه فناوری هوش مصنوعی، با تأکید بر سودمندی آنها در زمینههای تخصصی مانند آموزش پزشکی و آمادگی برای امتحان است. هدف نهایی ارائه بینشی است که به کاربران در انتخاب ابزار یادگیری مناسبتر برای نیازهای خاص خود کمک کند.
روشها
این سؤالات به زبان ترکی از LLMها پرسیده شد. این سؤالات از وبسایت رسمی مرکز انتخاب و استقرار دانشجو (ÖSYM) بهصورت سؤالات چندگزینهای (با پنج گزینه A تا E) با یک پاسخ بهینه دریافت شدند. پاسخها توسط LLMها به زبان ترکی ارائه شدند.
فرآیند ارزیابی بر اساس پاسخهای صحیح منتشر شده توسط مرکز انتخاب و استقرار دانشجو بود. در مقاله آمده است: ‘پاسخ ‘صحیح’ برای سؤالات مدلهای هوش مصنوعی مطابق با پاسخهای منتشر شده توسط مرکز انتخاب و استقرار دانشجو تعریف شده است. فقط پاسخهایی که مطابق با دستورالعملهای موجود در متن سؤال صحیح تشخیص داده میشوند، بهعنوان ‘صحیح’ پذیرفته میشوند.’ ازآنجاییکه سؤالات و پاسخها هر دو به زبان ترکی هستند، فرآیند ارزیابی شامل مقایسه پاسخهای ترکی LLMها با کلید پاسخ رسمی ترکی ارائهشده توسط مرکز انتخاب و استقرار دانشجو است.
مجموعه داده آموزش پزشکی
این مطالعه از ChatGPT 4، Gemini 1.5 Pro، Command R+ و Llama 3 70B برای آزمایش توانایی مدلهای هوش مصنوعی در ارزیابی دانش پزشکی و موارد استفاده میکند. این مطالعه در مورد سؤالات آزمون دستیاری تخصصی پزشکی ترکیه که در ۲۱ مارس ۲۰۲۱ برگزار شد، انجام شد. آزمون دستیاری تخصصی پزشکی ترکیه امتحانی است که توسط مرکز انتخاب و استقرار دانشجو برگزار میشود و شامل ۲۴۰ سؤال است. سؤالات دانش پایه در دسته اول، دانش و اخلاق لازم برای تکمیل آموزش پزشکی را آزمایش میکند. دسته دوم سؤالات موردی است که بسیاری از بیماریها را در بر میگیرد که تفکر تحلیلی و تواناییهای استدلال را اندازهگیری میکند.
طبقهبندی دشواری سؤال
سطح دشواری سؤالات بر اساس دادههای رسمی عملکرد داوطلب منتشر شده توسط مرکز انتخاب و استقرار دانشجو طبقهبندی میشود. بهطور خاص، نرخ پاسخ صحیح گزارششده توسط مرکز برای هر سؤال برای طبقهبندی سؤالات به پنج سطح دشواری استفاده میشود:
- سطح ۱ (سادهترین): سؤالاتی با نرخ پاسخ صحیح ۸۰٪ یا بیشتر.
- سطح ۲: سؤالاتی با نرخ پاسخ صحیح بین ۶۰٪ تا ۷۹٫۹٪.
- سطح ۳ (متوسط): سؤالاتی با نرخ پاسخ صحیح بین ۴۰٪ تا ۵۹٫۹٪.
- سطح ۴: سؤالاتی با نرخ پاسخ صحیح بین ۲۰٪ تا ۳۹٫۹٪.
- سطح ۵ (دشوارترین): سؤالاتی با نرخ پاسخ صحیح ۱۹٫۹٪ یا کمتر.
پاسخ ‘صحیح’ برای سؤالات مدلهای هوش مصنوعی مطابق با پاسخهای منتشر شده توسط مرکز انتخاب و استقرار دانشجو تعریف شده است. فقط پاسخهایی که مطابق با دستورالعملهای موجود در متن سؤال صحیح تشخیص داده میشوند، بهعنوان ‘صحیح’ پذیرفته میشوند. علاوه بر این، سطح دشواری هر سؤال بر اساس نرخ پاسخ صحیح منتشر شده توسط مرکز انتخاب و استقرار دانشجو به سطح ۱ تا ۵ طبقهبندی میشود. سؤالاتی با نرخ پاسخ صحیح ۸۰٪ و بالاتر سادهترین (سطح ۱) در نظر گرفته میشوند، درحالیکه سؤالاتی با نرخ پاسخ صحیح ۱۹٫۹٪ و پایینتر دشوارترین (سطح ۵) در نظر گرفته میشوند.
حوزههای دانش و موردی
آزمون دستیاری تخصصی پزشکی ترکیه یک گام مهم برای فارغالتحصیلان پزشکی در ترکیه برای تخصص است و دانش و حوزههای موردی نامزدها را ارزیابی میکند. درک تمایز بین این حوزهها برای آمادگی کافی بسیار مهم است. حوزه دانش بر ارزیابی درک نظری و دانش واقعی نامزدها در حوزه پزشکی انتخابی آنها متمرکز است. این حوزه تسلط بر مفاهیم و اصول اساسی را آزمایش میکند و اطلاعات پزشکی مرتبط با تخصص را ایجاد میکند. این حوزه نشاندهنده حوزه دانش پزشکی خاصی است که در حال آزمایش است، مانند علوم پایه پزشکی (آناتومی، بیوشیمی، فیزیولوژی و غیره) و علوم بالینی (داخلی، جراحی، اطفال و غیره). از سوی دیگر، حوزههای موردی نشاندهنده سناریوها یا موقعیتهای دنیای واقعی برای کاربرد دانش، مانند حل مسئله، تفکر تحلیلی، تفکر انتقادی، تصمیمگیری و اعمال مفاهیم در موقعیتهای واقعی است.
مهندسی پرامپت
مهندسی پرامپت طراحی و تنظیم دقیق پرامپتهای زبان طبیعی برای به دست آوردن پاسخهای خاص از یک مدل زبان یا سیستم هوش مصنوعی است. در آوریل ۲۰۲۴، ما با پرسیدن مستقیم از مدلهای زبانی از طریق رابطهای وب مربوطه، پاسخها را جمعآوری کردیم.
برای اطمینان از یک ارزیابی منصفانه از قابلیتهای اصلی هر مدل، یک روش کنترلی دقیق در نحوه ارائه سؤالات به LLMها اعمال شد. هر سؤال بهطور جداگانه وارد میشد و قبل از ارائه یک سؤال جدید، جلسه بازنشانی میشد تا از یادگیری یا سازگاری مدل بر اساس تعاملات قبلی جلوگیری شود.
تحلیل دادهها
تمام تحلیلها با استفاده از نرمافزارهای Microsoft Office Excel و Python انجام شد. برای مقایسه عملکرد LLMها در سطوح مختلف دشواری سؤال، آزمون مجذور کای ناپارامتری انجام شد. از آستانه مقدار p < ۰٫۰۵ برای تعیین اهمیت آماری استفاده شد. این تحلیل ارزیابی کرد که آیا دقت مدل بسته به سطح دشواری سؤال متفاوت است یا خیر.
ملاحظات اخلاقی
این مطالعه فقط از اطلاعات منتشرشده در اینترنت استفاده میکند و شامل افراد انسانی نمیشود. بنابراین، نیازی به تأیید کمیته اخلاق دانشگاه باشکنت نیست.
نتایج
میانگین تعداد پاسخهای صحیح برای داوطلبانی که در آزمون علوم پایه پزشکی در دوره اول آزمون دستیاری تخصصی پزشکی ترکیه در سال ۲۰۲۱ شرکت کردند، ۵۱٫۶۳ بود. میانگین تعداد پاسخهای صحیح برای آزمون علوم بالینی پزشکی ۶۳٫۹۵ بود. میانگین تعداد پاسخهای صحیح برای آزمون علوم بالینی پزشکی بیشتر از آزمون علوم پایه پزشکی بود. به موازات این وضعیت، فناوریهای هوش مصنوعی نیز در پاسخگویی به آزمون علوم بالینی پزشکی موفقتر بودند.
عملکرد هوش مصنوعی
عملکرد پلتفرمهای هوش مصنوعی با استفاده از معیارهای مشابه داوطلبان انسانی ارزیابی شد.
ChatGPT 4:
ChatGPT 4 میانگین نمره ۱۰۳ پاسخ صحیح در بخش علوم پایه پزشکی و میانگین نمره ۱۱۰ پاسخ صحیح در بخش علوم بالینی پزشکی کسب کرد. این نشاندهنده دقت کلی ۸۸٫۷۵٪ است که بهطور قابلتوجهی از میانگین داوطلبان انسانی در هر دو بخش بهتر است (p < ۰٫۰۰۱).
Llama 3 70B:
Llama 3 70B میانگین نمره ۹۵ پاسخ صحیح در بخش علوم پایه پزشکی و میانگین نمره ۹۵ پاسخ صحیح در بخش علوم بالینی پزشکی کسب کرد. این نشاندهنده دقت کلی ۷۹٫۱۷٪ است که این نیز بهطور قابلتوجهی بالاتر از عملکرد متوسط انسانی است (p < ۰٫۰۱).
Gemini 1.5 Pro:
Gemini 1.5 Pro میانگین نمره ۹۴ پاسخ صحیح در بخش علوم پایه پزشکی و میانگین نمره ۹۳ پاسخ صحیح در بخش علوم بالینی پزشکی کسب کرد. این نشاندهنده دقت کلی ۷۸٫۱۳٪ است که این بهطور قابلتوجهی بالاتر از عملکرد متوسط انسانی است (p < ۰٫۰۱).
Command R+:
Command R+ میانگین نمره ۶۰ پاسخ صحیح در بخش علوم پایه پزشکی و میانگین نمره ۶۰ پاسخ صحیح در بخش علوم بالینی پزشکی کسب کرد. این نشاندهنده دقت کلی ۵۰٪ است که تفاوت معناداری با میانگین عملکرد انسانی در بخش علوم پایه پزشکی ندارد (p = ۰٫۱۲)، اما در بخش علوم بالینی پزشکی بهطور قابلتوجهی کمتر است (p < ۰٫۰۵).
عملکرد پلتفرمهای هوش مصنوعی با استفاده از معیارهای مشابه داوطلبان انسانی ارزیابی شد.
شکل ۳ دقت LLMهای مختلف را بر اساس دشواری سؤال مقایسه میکند - ChatGPT 4: بهترین مدل. با افزایش دشواری سؤال، دقت افزایش مییابد، حتی در چالشبرانگیزترین سؤالات نیز به ۷۰٪ نزدیک میشود - Llama 3 70B: مدل با عملکرد متوسط. با افزایش دشواری سؤال، دقت ابتدا افزایش مییابد و سپس کاهش مییابد. در چالشبرانگیزترین سؤالات، دقت آن حدود ۲۵٪ است. Gemini 1.5 70B: عملکرد آن مشابه Llama 3 70B است. با افزایش دشواری سؤال، دقت ابتدا افزایش مییابد و سپس کاهش مییابد. در چالشبرانگیزترین سؤالات، دقت آن حدود ۲۰٪ است. Command R+: مدل با کمترین عملکرد. دقت آن با افزایش دشواری سؤال کاهش مییابد و در چالشبرانگیزترین سؤالات حدود ۱۵٪ باقی میماند.
بهطور خلاصه، ChatGPT 4 مدلی است که کمترین تأثیر را از دشواری سؤال میپذیرد و بهطورکلی بالاترین دقت را دارد. Llama 3 70B و Gemini 1.5 Pro عملکرد متوسطی دارند، درحالیکه Command R+ میزان موفقیت کمتری نسبت به سایر مدلها دارد. با افزایش دشواری سؤال، دقت مدلها کاهش مییابد. این نشان میدهد که LLMها هنوز در درک و پاسخ صحیح به سؤالات پیچیده نیاز به پیشرفت دارند.
در جدول ۱، مدل ChatGPT 4 با نرخ موفقیت ۸۸٫۷۵٪ متمایز است و به بهترین مدل تبدیل میشود. این نشان میدهد که توانایی محکمی برای درک و پاسخ دقیق به سؤالات دارد. مدل Llama 3 70B با نرخ موفقیت ۷۹٫۱۷٪ در رتبه دوم قرار دارد. اگرچه از مدل ChatGPT 4 عقب است، اما همچنان سطح بالایی از مهارت در پاسخگویی به سؤالات را نشان میدهد. مدل Gemini 1.5 Pro با نرخ موفقیت ۷۸٫۱۳٪ در پی آن قرار دارد. عملکرد آن با مدل Llama 3 70B قابلمقایسه است که نشاندهنده توانایی قوی آن در پاسخگویی به سؤالات است. از سوی دیگر، مدل Command R+ با نرخ موفقیت ۵۰٪ از مدلهای دیگر عقب است. این نشان میدهد که ممکن است در سؤالات خاص مشکل داشته باشد یا نیاز به تنظیم دقیقتری برای بهبود عملکرد داشته باشد. توزیع پاسخهای صحیح در سطوح مختلف دشواری. بهعنوانمثال، همه مدلها در سؤالات ساده (سطح دشواری ۱) عملکرد خوبی داشتند، جایی که مدل ChatGPT 4 نمره کاملی به دست آورد. در سؤالات با دشواری متوسط (سطح ۲ و ۳)، مدلهای ChatGPT 4 و Llama 3 70B به عملکرد خوب خود ادامه دادند.
در مقابل، مدل Gemini 1.5 Pro شروع به نشان دادن برخی ضعفها کرد. در سؤالات دشوار (سطح ۴ و ۵)، عملکرد همه مدلها کاهش یافت و مدل Command R+ بیشتر از همه با مشکل مواجه شد. بهطورکلی، این نتایج بینشهای ارزشمندی را در مورد نقاط قوت و ضعف هر مدل هوش مصنوعی ارائه میدهند و میتوانند برای تلاشهای توسعه و بهبود آینده مورد استفاده قرار گیرند.
در جدول ۳، بیوشیمی در علوم پایه پزشکی نمره کاملی را از ChatGPT 4 کسب کرد و توانایی برجسته آن را در پاسخگویی به سؤالات در این زمینه نشان داد. Llama 3 70B و Gemini 1.5 Pro نیز عملکرد خوبی داشتند، اما Command R+ با دقت ۵۰٪ عملکرد ضعیفی داشت. بهترین مدلها در فارماکولوژی، پاتولوژی و میکروبیولوژی (ChatGPT 4 و Llama 3 70B) سازگاری اطلاعات قوی را نشان میدهند و دقت بین ۸۱٪ تا ۹۰٪ دارند. Gemini 1.5 Pro و Command R+ عقب هستند، اما همچنان عملکرد خوبی دارند. آناتومی و فیزیولوژی چالشهایی را برای مدلها ایجاد کرد. ChatGPT 4 و Meta AI-Llama 3 70B عملکرد خوبی داشتند، درحالیکه دقت Gemini 1.5 Pro و Command R+ کمتر از ۷۰٪ بود و عملکرد ضعیفی داشتند.
در علوم بالینی پزشکی، اطفال برای همه مدلها مهم بود، جایی که ChatGPT 4 نمره نزدیک به کاملی (۹۰٪) به دست آورد. Llama 3 70B به دنبال آن قرار گرفت و حتی Command R+ نیز به دقت ۴۳٪ دست یافت. عملکرد در پزشکی داخلی و جراحی عمومی بهتر از بهترین مدلها بود و دقت بین ۷۹٪ تا ۹۰٪ بود. Gemini 1.5 Pro و Command R+ عقب هستند، اما همچنان عملکرد خوبی دارند. تخصصهایی مانند بیهوشی و احیا، طب اورژانس، نورولوژی و پوست سؤالات کمتری ارائه کردند، اما مدلها بهطورکلی عملکرد خوبی داشتند. ChatGPT 4 و Llama 3 70B دقت برجستهای را در این زمینهها نشان دادند.
در مورد مقایسه مدل، ChatGPT 4 بهترین مدل در بیشتر زمینهها است و دقت کلی ۸۸٫۷۵٪ دارد. نقطه قوت آن این است که میتواند بهطور دقیق به سؤالات علوم پایه پزشکی و علوم بالینی پزشکی پاسخ دهد. Llama 3 70B به دنبال آن قرار دارد و دقت کلی ۷۹٫۱۷٪ دارد. اگرچه نمیتواند بهطور کامل با عملکرد ChatGPT 4 رقابت کند، اما همچنان سازگاری دانش قوی را در زمینههای مختلف نشان میدهد. Gemini 1.5 Pro و Command R+ عقب هستند و دقت کلی به ترتیب ۷۸٫۱۳٪ و ۵۰٪ دارند. اگرچه در برخی زمینهها امیدواری نشان میدهند، اما در حفظ سازگاری در همه زمینهها با مشکل مواجه هستند.
بهطور خلاصه، ChatGPT 4 در حال حاضر مناسبترین مدل برای پاسخگویی به سؤالات علوم پزشکی در زمینههای مختلف است. Gemini 1.5 Pro و Command R+ پتانسیل نشان میدهند، اما برای رقابت با بهترین مدلها نیاز به بهبود قابلتوجهی دارند.
در جدول ۴، در مورد حوزه دانش، ChatGPT 4 در علوم پایه پزشکی دقت ۸۶٫۷٪ (۸۵/۹۸) دارد و از سایر مدلها بهتر است. ChatGPT 4 دوباره بهترین عملکرد را دارد و در علوم بالینی پزشکی دقت ۸۹٫۷٪ (۶۱/۶۸) دارد. در مورد حوزه موردی، ChatGPT 4 در علوم پایه پزشکی دقت ۸۱٫۸٪ (۱۸/۲۲) دارد. در علوم بالینی پزشکی، ChatGPT 4 عملکرد مشابهی دارد و دقت ۹۴٫۲٪ (۴۹/۵۲) دارد.
مقایسه زوجی مدلها نشان میدهد که ChatGPT 4 بهطور قابلتوجهی در هر دو حوزه و نوع سؤال از سایر مدلها بهتر است. Llama 3 70B و Gemini 1.5 Pro عملکرد مشابهی دارند، درحالیکه Command R+ عقب است. بر اساس این تحلیل، میتوان نتیجه گرفت که ChatGPT 4 عملکرد برجستهای را در حوزههای دانش و موردی و همچنین در علوم پایه پزشکی و علوم بالینی پزشکی نشان میدهد.
تحلیل آماری
عملکرد LLMها با استفاده از Microsoft Office Excel و Python (نسخه ۳٫۱۰٫۲) تحلیل شد. برای مقایسه عملکرد مدلها در سطوح مختلف دشواری سؤال، آزمون مجذور کای ناپارامتری انجام شد. جدول توافقی برای پاسخهای صحیح و غلط هر مدل هوش مصنوعی بر اساس سطح دشواری ایجاد شد و آزمون مجذور کای برای تعیین اینکه آیا تفاوتهای معناداری آماری در عملکرد در بین سطوح دشواری وجود دارد یا خیر، اعمال شد. از آستانه مقدار p < ۰٫۰۵ برای تعیین اهمیت آماری استفاده شد. مقدار p برای ChatGPT 4 برابر با ۰٫۰۰۰۲۸ است و در p < ۰٫۰۵ معنادار است، که نشان میدهد تفاوت معناداری در عملکرد در بین سطوح دشواری مختلف وجود دارد. مقدار p برای Gemini 1.5 Pro برابر با ۰٫۰۴۷ است و در p < ۰٫۰۵ معنادار است، که نشان میدهد تفاوت معناداری در عملکرد در بین سطوح دشواری مختلف وجود دارد. مقدار p برای Command R+ برابر با ۰٫۱۹۷ است و در p < ۰٫۰۵ معنادار نیست، که نشان میدهد تفاوت معناداری در عملکرد در بین سطوح دشواری مختلف وجود ندارد. مقدار p برای Llama 3 70B: ۰٫۱۱۸، مقدار p: ۰٫۱۱۸، و در p < ۰٫۰۵ معنادار نیست، که نشان میدهد تفاوت معناداری در عملکرد در بین سطوح دشواری مختلف وجود ندارد.
صحت ChatGPT 4 و Gemini 1.5 Pro در سطوح دشواری مختلف سؤال تفاوت آماری معناداری را نشان میدهد، که نشان میدهد عملکرد آنها بهطور قابلتوجهی با دشواری سؤال تغییر میکند. Command R+ و Llama 3 70B تفاوت معناداری در عملکرد در سطوح دشواری نشان ندادند، که نشان میدهد عملکرد صرفنظر از دشواری سؤال سازگارتر است. این نتایج ممکن است نشان دهد که مدلهای مختلف نقاط قوت و ضعف متفاوتی در پرداختن به پیچیدگیها و موضوعات مرتبط با دشواریهای مختلف دارند.
بحث
TUS یک آزمون ملی حیاتی برای فارغالتحصیلان پزشکی در ترکیه است که به دنبال آموزش تخصصی هستند. این آزمون شامل سؤالات چندگزینهای است که علوم پایه و علوم بالینی را پوشش میدهد و دارای یک سیستم رتبهبندی متمرکز است که رتبهها را برای برنامههای تخصصی تعیین میکند.
در ارزیابی عملکرد مدلهای زبان بزرگ در TUS، GPT-4 بهترین مدل بود. بهطور مشابه، ChatGPT یک مدل هوش مصنوعی قدرتمند است که عملکردی نزدیک یا بالاتر از سطح انسانی در حوزه جراحی از خود نشان داده است و به ترتیب ۷۱٪ و ۶۸٪ سؤالات چندگزینهای SCORE و Data-B را بهدرستی پاسخ داده است. علاوه بر این، ChatGPT در آزمون بهداشت عمومی عملکرد خوبی داشته و از نرخ قبولی فعلی فراتر رفته و بینشهای منحصربهفردی را ارائه داده است. این یافتهها عملکرد برتر GPT-4 و ChatGPT را در ارزیابی پزشکی برجسته میکند و پتانسیل آنها را برای تقویت آموزش پزشکی و کمکهای تشخیصی بالقوه نشان میدهد.
برای مربیان و ممتحنان پزشکی، افزایش دقت LLMها سؤالات مهمی را در مورد طراحی و ارزیابی آزمون ایجاد میکند. اگر مدلهای هوش مصنوعی بتوانند با دقت بالا آزمونهای پزشکی استاندارد را حل کنند، ارزیابیهای آینده ممکن است نیاز به گنجاندن سؤالاتی داشته باشند که استدلال مرتبه بالاتر و قضاوت بالینی را فراتر از یادآوری ساده ارزیابی میکنند. علاوه بر این، موسسات پزشکی در ترکیه میتوانند استراتژیهای آموزشی با کمک هوش مصنوعی مانند سیستمهای یادگیری تطبیقی را بررسی کنند که مواد یادگیری را متناسب با نیازهای فردی دانشآموزان تنظیم میکنند.
از منظر ملی، این مطالعه اهمیت روزافزون هوش مصنوعی در آموزش پزشکی در ترکیه را برجسته میکند. ازآنجاییکه این LLMها در مسائل پزشکی ترکی عملکرد خوبی دارند، میتوانند شکاف بین دانشجویان در مناطق کمخدمت را با منابع آموزشی با کیفیت پر کنند. علاوه بر این، سیاستگذاران باید در نظر بگیرند که چگونه مدلهای هوش مصنوعی را در آموزش مداوم پزشکی و برنامههای یادگیری مادامالعمر برای متخصصان مراقبتهای بهداشتی در ترکیه ادغام کنند.
بهطور خلاصه، درحالیکه مدلهای هوش مصنوعی مانند ChatGPT-4 دقت فوقالعادهای از خود نشان میدهند، نقش آنها در آموزش پزشکی باید بهدقت ارزیابی شود. مزایای بالقوه یادگیری با کمک هوش مصنوعی بسیار زیاد است، اما اجرای صحیح نیازمند اطمینان از استفاده مسئولانه و اخلاقی از این ابزارها و ترکیب آنها با تخصص انسانی است.
محدودیتها
این مطالعه بینشهای ارزشمندی را در مورد عملکرد مدلهای زبان بزرگ (LLM) در آزمون دستیاری تخصصی پزشکی ترکیه (TUS) ارائه میدهد، اما باید چندین محدودیت مهم را برای زمینهسازی نتایج و هدایت تحقیقات آینده تصدیق کرد. اولاً، مشخص نیست که آیا دادههای آموزشی مدلهای هوش مصنوعی ارزیابیشده در این مطالعه شامل سؤالات TUS بوده است یا خیر. ازآنجاییکه سؤالات TUS گذشته بهصورت عمومی در دسترس هستند، این احتمال وجود دارد که سؤالات مورداستفاده در این مطالعه بخشی از دادههای آموزشی مدلها بوده باشند. این امر نگرانیهایی را در مورد اینکه آیا عملکرد مدلها نشاندهنده درک واقعی است یا صرفاً توانایی بهخاطر سپردن سؤالات خاص را منعکس میکند، ایجاد میکند. مطالعات آینده باید روشهایی را برای ارزیابی اینکه آیا مدلهای هوش مصنوعی توانایی استدلال واقعی را نشان میدهند یا به اطلاعات حفظشده تکیه میکنند، توسعه دهند.
ثانیاً، مدلهای هوش مصنوعی بهطور بالقوه تعصبهایی را نشان میدهند که از دادههای آموزشی آنها ناشی میشوند. این تعصبها ممکن است از عدم تعادل در بازنمایی برخی شرایط پزشکی، جمعیتها یا دیدگاهها در دادههای آموزشی ناشی شوند. بهعنوانمثال، عملکرد مدلها در زبان ترکی ممکن است به دلیل تفاوت در میزان و کیفیت دادههای آموزشی موجود در هر زبان با زبان انگلیسی متفاوت باشد. علاوه بر این، ممکن است این مدلها در پاسخگویی به سؤالاتی که نیاز به درک شیوههای مراقبتهای بهداشتی محلی یا زمینههای فرهنگی در ترکیه دارند، کمتر دقیق باشند. این تعصبها ممکن است عمومیت یافتههای این مطالعه را محدود کرده و نگرانیهای اخلاقی را در مورد استفاده از هوش مصنوعی در آموزش و عمل پزشکی ایجاد کنند.
سومین محدودیت این است که این مطالعه فقط بر سؤالات چندگزینهای متمرکز است. در عمل بالینی دنیای واقعی، متخصصان مراقبتهای بهداشتی نیاز به داشتن مهارتهایی مانند استدلال در مورد موارد پیچیده، تفسیر یافتههای مبهم و تصمیمگیری در شرایط عدم قطعیت دارند. علاوه بر این، توانایی انتقال تشخیص، گزینههای درمانی و خطرات به روشی واضح و دلسوزانه به بیماران و همکاران ضروری است. توانایی مدلهای هوش مصنوعی برای انجام این وظایف هنوز آزمایش نشده است و ممکن است تواناییهای آنها با طراحی و آموزش فعلی آنها محدود شود. مطالعات آینده باید مدلهای هوش مصنوعی را در تنظیمات واقعیتری مانند شبیهسازیهای موارد بالینی و ارزیابیهای پاسخ آزاد ارزیابی کنند.
چهارم، این مطالعه شامل سؤالات پاسخ آزاد نشد. سؤالات پاسخ آزاد برای ارزیابی مهارتهای شناختی مرتبه بالاتر مانند تفکر انتقادی، سنتز اطلاعات و استدلال بالینی ضروری هستند. این نوع سؤالات نیاز به توانایی تولید پاسخهای منسجم و مرتبط با متن دارند، نهفقط انتخاب گزینه صحیح از یک لیست. عملکرد مدلهای هوش مصنوعی در چنین وظایفی ممکن است بسیار متفاوت از عملکرد آنها در سؤالات چندگزینهای باشد، که نشاندهنده یک زمینه مهم برای تحقیقات آینده است.
پنجمین محدودیت این است که مدلهای هوش مصنوعی در شرایط فشار زمانی آزمایش نشدند. داوطلبان انسانی در طول امتحانات با محدودیتهای زمانی شدیدی مواجه میشوند که میتواند بر عملکرد آنها تأثیر بگذارد. در مقابل، مدلهای هوش مصنوعی در این مطالعه تحت فشار زمانی نبودند، که به آنها اجازه میدهد بدون فشار یک محیط زمانبندی شده به سؤالات رسیدگی کنند.