نقش هوش مصنوعی در آموزش پزشکی

مقدمه

پیشرفت‌های اخیر در هوش مصنوعی (AI) و مدل‌های زبان بزرگ (LLM) پتانسیل دگرگون کردن آموزش پزشکی و روش‌های ارزیابی دانش را دارند. به‌طور خاص، این پیشرفت‌ها می‌توانند دسترسی به اطلاعات پزشکی را آسان‌تر کرده و ارزیابی‌ها را تعاملی‌تر سازند.

مطالعات قبلی عملکرد LLMها را در آزمون‌های مختلف مجوز پزشکی مانند آزمون مجوز پزشکی ایالات متحده (USMLE) و آزمون مجوز پزشکی ژاپن (JMLE) بررسی کرده‌اند، اما این آزمون‌ها تفاوت‌های قابل‌توجهی در ساختار و محتوا با آزمون دستیاری تخصصی پزشکی ترکیه (TUS) دارند. TUS بر علوم پایه و علوم بالینی با تمرکز ویژه بر زمینه پزشکی ترکیه متمرکز است، که فرصتی منحصربه‌فرد برای ارزیابی توانایی‌های LLM در یک محیط ارزیابی متمایز فراهم می‌کند. این مطالعه با ارزیابی عملکرد چهار LLM برتر در TUS، به دنبال پر کردن این شکاف است. علاوه بر این، این مطالعه پیامدهای بالقوه این یافته‌ها را برای طراحی برنامه درسی، آموزش پزشکی با کمک هوش مصنوعی و آینده ارزیابی پزشکی در ترکیه بررسی می‌کند. به‌طور خاص، ما بررسی می‌کنیم که چگونه عملکرد LLMها می‌تواند به توسعه منابع آموزشی و استراتژی‌های ارزیابی مؤثرتر و متناسب با برنامه درسی پزشکی ترکیه کمک کند. این بررسی نه‌تنها به درک عملکرد زبان خاص کمک می‌کند، بلکه به بحث گسترده‌تری در مورد چگونگی ادغام مؤثر هوش مصنوعی در آموزش و ارزیابی پزشکی در سطح جهانی کمک می‌کند.

نتایج این مطالعات نشان می‌دهد که ChatGPT و LLMهای مشابه می‌توانند نقش مهمی در آموزش پزشکی و فرآیندهای ارزیابی دانش ایفا کنند. هوش مصنوعی و LLMها در بازیابی اطلاعات پزشکی و روش‌های ارزیابی می‌توانند امکان توسعه رویکردهای نوآورانه و روش‌های یادگیری را فراهم کنند، به‌ویژه در آموزش پزشکی. این مطالعه با ارزیابی عملکرد ChatGPT 4، Gemini 1.5 Pro و Cohere-Command R+ در آزمون دستیاری تخصصی پزشکی ترکیه، به دنبال بررسی بیشتر تأثیر LLMها بر آموزش پزشکی و ارزیابی دانش است.

این مطالعه کاربرد مدل‌های پیشرفته هوش مصنوعی (AI) (به‌ویژه ChatGPT 4، Gemini 1.5 Pro، Command R+ و Llama 3 70B) را در آموزش و ارزیابی پزشکی، با تأکید بر عملکرد آن‌ها در حل مسائل امتحان تخصصی پزشکی بررسی می‌کند. این مطالعه توانایی این مدل‌ها را برای تجزیه‌وتحلیل جامع و سیستماتیک مسائل آزمون دستیاری تخصصی پزشکی ترکیه ارزیابی می‌کند و بر پتانسیل هوش مصنوعی در پزشکی در هنگام در نظر گرفتن عواملی مانند قابلیت تفسیر و دقت تأکید می‌کند. نتایج نشان می‌دهد که مدل‌های هوش مصنوعی می‌توانند به‌طور قابل‌توجهی فرآیندهای آموزش و ارزیابی پزشکی را تسهیل کنند و راه را برای کاربردها و حوزه‌های تحقیقاتی جدید باز کنند. هدف اصلی این مقاله ارزیابی پیشرفت‌های سریع در فناوری هوش مصنوعی و مقایسه پاسخگویی مدل‌های مختلف هوش مصنوعی است. این مطالعه یک تحلیل مقایسه‌ای از ChatGPT 4، Gemini 1.5 Pro، Command R+ و Llama 3 70B ارائه می‌دهد و عملکرد آن‌ها را در ۲۴۰ سؤال از ترم اول آزمون دستیاری تخصصی پزشکی ترکیه در سال ۲۰۲۱ ارزیابی می‌کند.

هدف از این مقایسه، روشن کردن مسیر و تمایزات توسعه فناوری هوش مصنوعی، با تأکید بر سودمندی آن‌ها در زمینه‌های تخصصی مانند آموزش پزشکی و آمادگی برای امتحان است. هدف نهایی ارائه بینشی است که به کاربران در انتخاب ابزار یادگیری مناسب‌تر برای نیازهای خاص خود کمک کند.

روش‌ها

این سؤالات به زبان ترکی از LLMها پرسیده شد. این سؤالات از وب‌سایت رسمی مرکز انتخاب و استقرار دانشجو (ÖSYM) به‌صورت سؤالات چندگزینه‌ای (با پنج گزینه A تا E) با یک پاسخ بهینه دریافت شدند. پاسخ‌ها توسط LLMها به زبان ترکی ارائه شدند.

فرآیند ارزیابی بر اساس پاسخ‌های صحیح منتشر شده توسط مرکز انتخاب و استقرار دانشجو بود. در مقاله آمده است: ‘پاسخ ‘صحیح’ برای سؤالات مدل‌های هوش مصنوعی مطابق با پاسخ‌های منتشر شده توسط مرکز انتخاب و استقرار دانشجو تعریف شده است. فقط پاسخ‌هایی که مطابق با دستورالعمل‌های موجود در متن سؤال صحیح تشخیص داده می‌شوند، به‌عنوان ‘صحیح’ پذیرفته می‌شوند.’ ازآنجایی‌که سؤالات و پاسخ‌ها هر دو به زبان ترکی هستند، فرآیند ارزیابی شامل مقایسه پاسخ‌های ترکی LLMها با کلید پاسخ رسمی ترکی ارائه‌شده توسط مرکز انتخاب و استقرار دانشجو است.

مجموعه داده آموزش پزشکی

این مطالعه از ChatGPT 4، Gemini 1.5 Pro، Command R+ و Llama 3 70B برای آزمایش توانایی مدل‌های هوش مصنوعی در ارزیابی دانش پزشکی و موارد استفاده می‌کند. این مطالعه در مورد سؤالات آزمون دستیاری تخصصی پزشکی ترکیه که در ۲۱ مارس ۲۰۲۱ برگزار شد، انجام شد. آزمون دستیاری تخصصی پزشکی ترکیه امتحانی است که توسط مرکز انتخاب و استقرار دانشجو برگزار می‌شود و شامل ۲۴۰ سؤال است. سؤالات دانش پایه در دسته اول، دانش و اخلاق لازم برای تکمیل آموزش پزشکی را آزمایش می‌کند. دسته دوم سؤالات موردی است که بسیاری از بیماری‌ها را در بر می‌گیرد که تفکر تحلیلی و توانایی‌های استدلال را اندازه‌گیری می‌کند.

طبقه‌بندی دشواری سؤال

سطح دشواری سؤالات بر اساس داده‌های رسمی عملکرد داوطلب منتشر شده توسط مرکز انتخاب و استقرار دانشجو طبقه‌بندی می‌شود. به‌طور خاص، نرخ پاسخ صحیح گزارش‌شده توسط مرکز برای هر سؤال برای طبقه‌بندی سؤالات به پنج سطح دشواری استفاده می‌شود:

  • سطح ۱ (ساده‌ترین): سؤالاتی با نرخ پاسخ صحیح ۸۰٪ یا بیشتر.
  • سطح ۲: سؤالاتی با نرخ پاسخ صحیح بین ۶۰٪ تا ۷۹٫۹٪.
  • سطح ۳ (متوسط): سؤالاتی با نرخ پاسخ صحیح بین ۴۰٪ تا ۵۹٫۹٪.
  • سطح ۴: سؤالاتی با نرخ پاسخ صحیح بین ۲۰٪ تا ۳۹٫۹٪.
  • سطح ۵ (دشوارترین): سؤالاتی با نرخ پاسخ صحیح ۱۹٫۹٪ یا کمتر.

پاسخ ‘صحیح’ برای سؤالات مدل‌های هوش مصنوعی مطابق با پاسخ‌های منتشر شده توسط مرکز انتخاب و استقرار دانشجو تعریف شده است. فقط پاسخ‌هایی که مطابق با دستورالعمل‌های موجود در متن سؤال صحیح تشخیص داده می‌شوند، به‌عنوان ‘صحیح’ پذیرفته می‌شوند. علاوه بر این، سطح دشواری هر سؤال بر اساس نرخ پاسخ صحیح منتشر شده توسط مرکز انتخاب و استقرار دانشجو به سطح ۱ تا ۵ طبقه‌بندی می‌شود. سؤالاتی با نرخ پاسخ صحیح ۸۰٪ و بالاتر ساده‌ترین (سطح ۱) در نظر گرفته می‌شوند، درحالی‌که سؤالاتی با نرخ پاسخ صحیح ۱۹٫۹٪ و پایین‌تر دشوارترین (سطح ۵) در نظر گرفته می‌شوند.

حوزه‌های دانش و موردی

آزمون دستیاری تخصصی پزشکی ترکیه یک گام مهم برای فارغ‌التحصیلان پزشکی در ترکیه برای تخصص است و دانش و حوزه‌های موردی نامزدها را ارزیابی می‌کند. درک تمایز بین این حوزه‌ها برای آمادگی کافی بسیار مهم است. حوزه دانش بر ارزیابی درک نظری و دانش واقعی نامزدها در حوزه پزشکی انتخابی آن‌ها متمرکز است. این حوزه تسلط بر مفاهیم و اصول اساسی را آزمایش می‌کند و اطلاعات پزشکی مرتبط با تخصص را ایجاد می‌کند. این حوزه نشان‌دهنده حوزه دانش پزشکی خاصی است که در حال آزمایش است، مانند علوم پایه پزشکی (آناتومی، بیوشیمی، فیزیولوژی و غیره) و علوم بالینی (داخلی، جراحی، اطفال و غیره). از سوی دیگر، حوزه‌های موردی نشان‌دهنده سناریوها یا موقعیت‌های دنیای واقعی برای کاربرد دانش، مانند حل مسئله، تفکر تحلیلی، تفکر انتقادی، تصمیم‌گیری و اعمال مفاهیم در موقعیت‌های واقعی است.

مهندسی پرامپت

مهندسی پرامپت طراحی و تنظیم دقیق پرامپت‌های زبان طبیعی برای به دست آوردن پاسخ‌های خاص از یک مدل زبان یا سیستم هوش مصنوعی است. در آوریل ۲۰۲۴، ما با پرسیدن مستقیم از مدل‌های زبانی از طریق رابط‌های وب مربوطه، پاسخ‌ها را جمع‌آوری کردیم.

برای اطمینان از یک ارزیابی منصفانه از قابلیت‌های اصلی هر مدل، یک روش کنترلی دقیق در نحوه ارائه سؤالات به LLMها اعمال شد. هر سؤال به‌طور جداگانه وارد می‌شد و قبل از ارائه یک سؤال جدید، جلسه بازنشانی می‌شد تا از یادگیری یا سازگاری مدل بر اساس تعاملات قبلی جلوگیری شود.

تحلیل داده‌ها

تمام تحلیل‌ها با استفاده از نرم‌افزارهای Microsoft Office Excel و Python انجام شد. برای مقایسه عملکرد LLMها در سطوح مختلف دشواری سؤال، آزمون مجذور کای ناپارامتری انجام شد. از آستانه مقدار p < ۰٫۰۵ برای تعیین اهمیت آماری استفاده شد. این تحلیل ارزیابی کرد که آیا دقت مدل بسته به سطح دشواری سؤال متفاوت است یا خیر.

ملاحظات اخلاقی

این مطالعه فقط از اطلاعات منتشرشده در اینترنت استفاده می‌کند و شامل افراد انسانی نمی‌شود. بنابراین، نیازی به تأیید کمیته اخلاق دانشگاه باشکنت نیست.

نتایج

میانگین تعداد پاسخ‌های صحیح برای داوطلبانی که در آزمون علوم پایه پزشکی در دوره اول آزمون دستیاری تخصصی پزشکی ترکیه در سال ۲۰۲۱ شرکت کردند، ۵۱٫۶۳ بود. میانگین تعداد پاسخ‌های صحیح برای آزمون علوم بالینی پزشکی ۶۳٫۹۵ بود. میانگین تعداد پاسخ‌های صحیح برای آزمون علوم بالینی پزشکی بیشتر از آزمون علوم پایه پزشکی بود. به موازات این وضعیت، فناوری‌های هوش مصنوعی نیز در پاسخگویی به آزمون علوم بالینی پزشکی موفق‌تر بودند.

عملکرد هوش مصنوعی

عملکرد پلتفرم‌های هوش مصنوعی با استفاده از معیارهای مشابه داوطلبان انسانی ارزیابی شد.

  • ChatGPT 4:

    ChatGPT 4 میانگین نمره ۱۰۳ پاسخ صحیح در بخش علوم پایه پزشکی و میانگین نمره ۱۱۰ پاسخ صحیح در بخش علوم بالینی پزشکی کسب کرد. این نشان‌دهنده دقت کلی ۸۸٫۷۵٪ است که به‌طور قابل‌توجهی از میانگین داوطلبان انسانی در هر دو بخش بهتر است (p < ۰٫۰۰۱).

  • Llama 3 70B:

    Llama 3 70B میانگین نمره ۹۵ پاسخ صحیح در بخش علوم پایه پزشکی و میانگین نمره ۹۵ پاسخ صحیح در بخش علوم بالینی پزشکی کسب کرد. این نشان‌دهنده دقت کلی ۷۹٫۱۷٪ است که این نیز به‌طور قابل‌توجهی بالاتر از عملکرد متوسط انسانی است (p < ۰٫۰۱).

  • Gemini 1.5 Pro:

    Gemini 1.5 Pro میانگین نمره ۹۴ پاسخ صحیح در بخش علوم پایه پزشکی و میانگین نمره ۹۳ پاسخ صحیح در بخش علوم بالینی پزشکی کسب کرد. این نشان‌دهنده دقت کلی ۷۸٫۱۳٪ است که این به‌طور قابل‌توجهی بالاتر از عملکرد متوسط انسانی است (p < ۰٫۰۱).

  • Command R+:

    Command R+ میانگین نمره ۶۰ پاسخ صحیح در بخش علوم پایه پزشکی و میانگین نمره ۶۰ پاسخ صحیح در بخش علوم بالینی پزشکی کسب کرد. این نشان‌دهنده دقت کلی ۵۰٪ است که تفاوت معناداری با میانگین عملکرد انسانی در بخش علوم پایه پزشکی ندارد (p = ۰٫۱۲)، اما در بخش علوم بالینی پزشکی به‌طور قابل‌توجهی کمتر است (p < ۰٫۰۵).

عملکرد پلتفرم‌های هوش مصنوعی با استفاده از معیارهای مشابه داوطلبان انسانی ارزیابی شد.

شکل ۳ دقت LLMهای مختلف را بر اساس دشواری سؤال مقایسه می‌کند - ChatGPT 4: بهترین مدل. با افزایش دشواری سؤال، دقت افزایش می‌یابد، حتی در چالش‌برانگیزترین سؤالات نیز به ۷۰٪ نزدیک می‌شود - Llama 3 70B: مدل با عملکرد متوسط. با افزایش دشواری سؤال، دقت ابتدا افزایش می‌یابد و سپس کاهش می‌یابد. در چالش‌برانگیزترین سؤالات، دقت آن حدود ۲۵٪ است. Gemini 1.5 70B: عملکرد آن مشابه Llama 3 70B است. با افزایش دشواری سؤال، دقت ابتدا افزایش می‌یابد و سپس کاهش می‌یابد. در چالش‌برانگیزترین سؤالات، دقت آن حدود ۲۰٪ است. Command R+: مدل با کمترین عملکرد. دقت آن با افزایش دشواری سؤال کاهش می‌یابد و در چالش‌برانگیزترین سؤالات حدود ۱۵٪ باقی می‌ماند.

به‌طور خلاصه، ChatGPT 4 مدلی است که کمترین تأثیر را از دشواری سؤال می‌پذیرد و به‌طورکلی بالاترین دقت را دارد. Llama 3 70B و Gemini 1.5 Pro عملکرد متوسطی دارند، درحالی‌که Command R+ میزان موفقیت کمتری نسبت به سایر مدل‌ها دارد. با افزایش دشواری سؤال، دقت مدل‌ها کاهش می‌یابد. این نشان می‌دهد که LLMها هنوز در درک و پاسخ صحیح به سؤالات پیچیده نیاز به پیشرفت دارند.

در جدول ۱، مدل ChatGPT 4 با نرخ موفقیت ۸۸٫۷۵٪ متمایز است و به بهترین مدل تبدیل می‌شود. این نشان می‌دهد که توانایی محکمی برای درک و پاسخ دقیق به سؤالات دارد. مدل Llama 3 70B با نرخ موفقیت ۷۹٫۱۷٪ در رتبه دوم قرار دارد. اگرچه از مدل ChatGPT 4 عقب است، اما همچنان سطح بالایی از مهارت در پاسخگویی به سؤالات را نشان می‌دهد. مدل Gemini 1.5 Pro با نرخ موفقیت ۷۸٫۱۳٪ در پی آن قرار دارد. عملکرد آن با مدل Llama 3 70B قابل‌مقایسه است که نشان‌دهنده توانایی قوی آن در پاسخگویی به سؤالات است. از سوی دیگر، مدل Command R+ با نرخ موفقیت ۵۰٪ از مدل‌های دیگر عقب است. این نشان می‌دهد که ممکن است در سؤالات خاص مشکل داشته باشد یا نیاز به تنظیم دقیق‌تری برای بهبود عملکرد داشته باشد. توزیع پاسخ‌های صحیح در سطوح مختلف دشواری. به‌عنوان‌مثال، همه مدل‌ها در سؤالات ساده (سطح دشواری ۱) عملکرد خوبی داشتند، جایی که مدل ChatGPT 4 نمره کاملی به دست آورد. در سؤالات با دشواری متوسط (سطح ۲ و ۳)، مدل‌های ChatGPT 4 و Llama 3 70B به عملکرد خوب خود ادامه دادند.

در مقابل، مدل Gemini 1.5 Pro شروع به نشان دادن برخی ضعف‌ها کرد. در سؤالات دشوار (سطح ۴ و ۵)، عملکرد همه مدل‌ها کاهش یافت و مدل Command R+ بیشتر از همه با مشکل مواجه شد. به‌طورکلی، این نتایج بینش‌های ارزشمندی را در مورد نقاط قوت و ضعف هر مدل هوش مصنوعی ارائه می‌دهند و می‌توانند برای تلاش‌های توسعه و بهبود آینده مورد استفاده قرار گیرند.

در جدول ۳، بیوشیمی در علوم پایه پزشکی نمره کاملی را از ChatGPT 4 کسب کرد و توانایی برجسته آن را در پاسخگویی به سؤالات در این زمینه نشان داد. Llama 3 70B و Gemini 1.5 Pro نیز عملکرد خوبی داشتند، اما Command R+ با دقت ۵۰٪ عملکرد ضعیفی داشت. بهترین مدل‌ها در فارماکولوژی، پاتولوژی و میکروبیولوژی (ChatGPT 4 و Llama 3 70B) سازگاری اطلاعات قوی را نشان می‌دهند و دقت بین ۸۱٪ تا ۹۰٪ دارند. Gemini 1.5 Pro و Command R+ عقب هستند، اما همچنان عملکرد خوبی دارند. آناتومی و فیزیولوژی چالش‌هایی را برای مدل‌ها ایجاد کرد. ChatGPT 4 و Meta AI-Llama 3 70B عملکرد خوبی داشتند، درحالی‌که دقت Gemini 1.5 Pro و Command R+ کمتر از ۷۰٪ بود و عملکرد ضعیفی داشتند.

در علوم بالینی پزشکی، اطفال برای همه مدل‌ها مهم بود، جایی که ChatGPT 4 نمره نزدیک به کاملی (۹۰٪) به دست آورد. Llama 3 70B به دنبال آن قرار گرفت و حتی Command R+ نیز به دقت ۴۳٪ دست یافت. عملکرد در پزشکی داخلی و جراحی عمومی بهتر از بهترین مدل‌ها بود و دقت بین ۷۹٪ تا ۹۰٪ بود. Gemini 1.5 Pro و Command R+ عقب هستند، اما همچنان عملکرد خوبی دارند. تخصص‌هایی مانند بیهوشی و احیا، طب اورژانس، نورولوژی و پوست سؤالات کمتری ارائه کردند، اما مدل‌ها به‌طورکلی عملکرد خوبی داشتند. ChatGPT 4 و Llama 3 70B دقت برجسته‌ای را در این زمینه‌ها نشان دادند.

در مورد مقایسه مدل، ChatGPT 4 بهترین مدل در بیشتر زمینه‌ها است و دقت کلی ۸۸٫۷۵٪ دارد. نقطه قوت آن این است که می‌تواند به‌طور دقیق به سؤالات علوم پایه پزشکی و علوم بالینی پزشکی پاسخ دهد. Llama 3 70B به دنبال آن قرار دارد و دقت کلی ۷۹٫۱۷٪ دارد. اگرچه نمی‌تواند به‌طور کامل با عملکرد ChatGPT 4 رقابت کند، اما همچنان سازگاری دانش قوی را در زمینه‌های مختلف نشان می‌دهد. Gemini 1.5 Pro و Command R+ عقب هستند و دقت کلی به ترتیب ۷۸٫۱۳٪ و ۵۰٪ دارند. اگرچه در برخی زمینه‌ها امیدواری نشان می‌دهند، اما در حفظ سازگاری در همه زمینه‌ها با مشکل مواجه هستند.

به‌طور خلاصه، ChatGPT 4 در حال حاضر مناسب‌ترین مدل برای پاسخگویی به سؤالات علوم پزشکی در زمینه‌های مختلف است. Gemini 1.5 Pro و Command R+ پتانسیل نشان می‌دهند، اما برای رقابت با بهترین مدل‌ها نیاز به بهبود قابل‌توجهی دارند.

در جدول ۴، در مورد حوزه دانش، ChatGPT 4 در علوم پایه پزشکی دقت ۸۶٫۷٪ (۸۵/۹۸) دارد و از سایر مدل‌ها بهتر است. ChatGPT 4 دوباره بهترین عملکرد را دارد و در علوم بالینی پزشکی دقت ۸۹٫۷٪ (۶۱/۶۸) دارد. در مورد حوزه موردی، ChatGPT 4 در علوم پایه پزشکی دقت ۸۱٫۸٪ (۱۸/۲۲) دارد. در علوم بالینی پزشکی، ChatGPT 4 عملکرد مشابهی دارد و دقت ۹۴٫۲٪ (۴۹/۵۲) دارد.

مقایسه زوجی مدل‌ها نشان می‌دهد که ChatGPT 4 به‌طور قابل‌توجهی در هر دو حوزه و نوع سؤال از سایر مدل‌ها بهتر است. Llama 3 70B و Gemini 1.5 Pro عملکرد مشابهی دارند، درحالی‌که Command R+ عقب است. بر اساس این تحلیل، می‌توان نتیجه گرفت که ChatGPT 4 عملکرد برجسته‌ای را در حوزه‌های دانش و موردی و همچنین در علوم پایه پزشکی و علوم بالینی پزشکی نشان می‌دهد.

تحلیل آماری

عملکرد LLMها با استفاده از Microsoft Office Excel و Python (نسخه ۳٫۱۰٫۲) تحلیل شد. برای مقایسه عملکرد مدل‌ها در سطوح مختلف دشواری سؤال، آزمون مجذور کای ناپارامتری انجام شد. جدول توافقی برای پاسخ‌های صحیح و غلط هر مدل هوش مصنوعی بر اساس سطح دشواری ایجاد شد و آزمون مجذور کای برای تعیین اینکه آیا تفاوت‌های معناداری آماری در عملکرد در بین سطوح دشواری وجود دارد یا خیر، اعمال شد. از آستانه مقدار p < ۰٫۰۵ برای تعیین اهمیت آماری استفاده شد. مقدار p برای ChatGPT 4 برابر با ۰٫۰۰۰۲۸ است و در p < ۰٫۰۵ معنادار است، که نشان می‌دهد تفاوت معناداری در عملکرد در بین سطوح دشواری مختلف وجود دارد. مقدار p برای Gemini 1.5 Pro برابر با ۰٫۰۴۷ است و در p < ۰٫۰۵ معنادار است، که نشان می‌دهد تفاوت معناداری در عملکرد در بین سطوح دشواری مختلف وجود دارد. مقدار p برای Command R+ برابر با ۰٫۱۹۷ است و در p < ۰٫۰۵ معنادار نیست، که نشان می‌دهد تفاوت معناداری در عملکرد در بین سطوح دشواری مختلف وجود ندارد. مقدار p برای Llama 3 70B: ۰٫۱۱۸، مقدار p: ۰٫۱۱۸، و در p < ۰٫۰۵ معنادار نیست، که نشان می‌دهد تفاوت معناداری در عملکرد در بین سطوح دشواری مختلف وجود ندارد.

صحت ChatGPT 4 و Gemini 1.5 Pro در سطوح دشواری مختلف سؤال تفاوت آماری معناداری را نشان می‌دهد، که نشان می‌دهد عملکرد آن‌ها به‌طور قابل‌توجهی با دشواری سؤال تغییر می‌کند. Command R+ و Llama 3 70B تفاوت معناداری در عملکرد در سطوح دشواری نشان ندادند، که نشان می‌دهد عملکرد صرف‌نظر از دشواری سؤال سازگارتر است. این نتایج ممکن است نشان دهد که مدل‌های مختلف نقاط قوت و ضعف متفاوتی در پرداختن به پیچیدگی‌ها و موضوعات مرتبط با دشواری‌های مختلف دارند.

بحث

TUS یک آزمون ملی حیاتی برای فارغ‌التحصیلان پزشکی در ترکیه است که به دنبال آموزش تخصصی هستند. این آزمون شامل سؤالات چندگزینه‌ای است که علوم پایه و علوم بالینی را پوشش می‌دهد و دارای یک سیستم رتبه‌بندی متمرکز است که رتبه‌ها را برای برنامه‌های تخصصی تعیین می‌کند.

در ارزیابی عملکرد مدل‌های زبان بزرگ در TUS، GPT-4 بهترین مدل بود. به‌طور مشابه، ChatGPT یک مدل هوش مصنوعی قدرتمند است که عملکردی نزدیک یا بالاتر از سطح انسانی در حوزه جراحی از خود نشان داده است و به ترتیب ۷۱٪ و ۶۸٪ سؤالات چندگزینه‌ای SCORE و Data-B را به‌درستی پاسخ داده است. علاوه بر این، ChatGPT در آزمون بهداشت عمومی عملکرد خوبی داشته و از نرخ قبولی فعلی فراتر رفته و بینش‌های منحصربه‌فردی را ارائه داده است. این یافته‌ها عملکرد برتر GPT-4 و ChatGPT را در ارزیابی پزشکی برجسته می‌کند و پتانسیل آن‌ها را برای تقویت آموزش پزشکی و کمک‌های تشخیصی بالقوه نشان می‌دهد.

برای مربیان و ممتحنان پزشکی، افزایش دقت LLMها سؤالات مهمی را در مورد طراحی و ارزیابی آزمون ایجاد می‌کند. اگر مدل‌های هوش مصنوعی بتوانند با دقت بالا آزمون‌های پزشکی استاندارد را حل کنند، ارزیابی‌های آینده ممکن است نیاز به گنجاندن سؤالاتی داشته باشند که استدلال مرتبه بالاتر و قضاوت بالینی را فراتر از یادآوری ساده ارزیابی می‌کنند. علاوه بر این، موسسات پزشکی در ترکیه می‌توانند استراتژی‌های آموزشی با کمک هوش مصنوعی مانند سیستم‌های یادگیری تطبیقی را بررسی کنند که مواد یادگیری را متناسب با نیازهای فردی دانش‌آموزان تنظیم می‌کنند.

از منظر ملی، این مطالعه اهمیت روزافزون هوش مصنوعی در آموزش پزشکی در ترکیه را برجسته می‌کند. ازآنجایی‌که این LLMها در مسائل پزشکی ترکی عملکرد خوبی دارند، می‌توانند شکاف بین دانشجویان در مناطق کم‌خدمت را با منابع آموزشی با کیفیت پر کنند. علاوه بر این، سیاست‌گذاران باید در نظر بگیرند که چگونه مدل‌های هوش مصنوعی را در آموزش مداوم پزشکی و برنامه‌های یادگیری مادام‌العمر برای متخصصان مراقبت‌های بهداشتی در ترکیه ادغام کنند.

به‌طور خلاصه، درحالی‌که مدل‌های هوش مصنوعی مانند ChatGPT-4 دقت فوق‌العاده‌ای از خود نشان می‌دهند، نقش آن‌ها در آموزش پزشکی باید به‌دقت ارزیابی شود. مزایای بالقوه یادگیری با کمک هوش مصنوعی بسیار زیاد است، اما اجرای صحیح نیازمند اطمینان از استفاده مسئولانه و اخلاقی از این ابزارها و ترکیب آن‌ها با تخصص انسانی است.

محدودیت‌ها

این مطالعه بینش‌های ارزشمندی را در مورد عملکرد مدل‌های زبان بزرگ (LLM) در آزمون دستیاری تخصصی پزشکی ترکیه (TUS) ارائه می‌دهد، اما باید چندین محدودیت مهم را برای زمینه‌سازی نتایج و هدایت تحقیقات آینده تصدیق کرد. اولاً، مشخص نیست که آیا داده‌های آموزشی مدل‌های هوش مصنوعی ارزیابی‌شده در این مطالعه شامل سؤالات TUS بوده است یا خیر. ازآنجایی‌که سؤالات TUS گذشته به‌صورت عمومی در دسترس هستند، این احتمال وجود دارد که سؤالات مورداستفاده در این مطالعه بخشی از داده‌های آموزشی مدل‌ها بوده باشند. این امر نگرانی‌هایی را در مورد اینکه آیا عملکرد مدل‌ها نشان‌دهنده درک واقعی است یا صرفاً توانایی به‌خاطر سپردن سؤالات خاص را منعکس می‌کند، ایجاد می‌کند. مطالعات آینده باید روش‌هایی را برای ارزیابی اینکه آیا مدل‌های هوش مصنوعی توانایی استدلال واقعی را نشان می‌دهند یا به اطلاعات حفظ‌شده تکیه می‌کنند، توسعه دهند.

ثانیاً، مدل‌های هوش مصنوعی به‌طور بالقوه تعصب‌هایی را نشان می‌دهند که از داده‌های آموزشی آن‌ها ناشی می‌شوند. این تعصب‌ها ممکن است از عدم تعادل در بازنمایی برخی شرایط پزشکی، جمعیت‌ها یا دیدگاه‌ها در داده‌های آموزشی ناشی شوند. به‌عنوان‌مثال، عملکرد مدل‌ها در زبان ترکی ممکن است به دلیل تفاوت در میزان و کیفیت داده‌های آموزشی موجود در هر زبان با زبان انگلیسی متفاوت باشد. علاوه بر این، ممکن است این مدل‌ها در پاسخگویی به سؤالاتی که نیاز به درک شیوه‌های مراقبت‌های بهداشتی محلی یا زمینه‌های فرهنگی در ترکیه دارند، کمتر دقیق باشند. این تعصب‌ها ممکن است عمومیت یافته‌های این مطالعه را محدود کرده و نگرانی‌های اخلاقی را در مورد استفاده از هوش مصنوعی در آموزش و عمل پزشکی ایجاد کنند.

سومین محدودیت این است که این مطالعه فقط بر سؤالات چندگزینه‌ای متمرکز است. در عمل بالینی دنیای واقعی، متخصصان مراقبت‌های بهداشتی نیاز به داشتن مهارت‌هایی مانند استدلال در مورد موارد پیچیده، تفسیر یافته‌های مبهم و تصمیم‌گیری در شرایط عدم قطعیت دارند. علاوه بر این، توانایی انتقال تشخیص، گزینه‌های درمانی و خطرات به روشی واضح و دلسوزانه به بیماران و همکاران ضروری است. توانایی مدل‌های هوش مصنوعی برای انجام این وظایف هنوز آزمایش نشده است و ممکن است توانایی‌های آن‌ها با طراحی و آموزش فعلی آن‌ها محدود شود. مطالعات آینده باید مدل‌های هوش مصنوعی را در تنظیمات واقعی‌تری مانند شبیه‌سازی‌های موارد بالینی و ارزیابی‌های پاسخ آزاد ارزیابی کنند.

چهارم، این مطالعه شامل سؤالات پاسخ آزاد نشد. سؤالات پاسخ آزاد برای ارزیابی مهارت‌های شناختی مرتبه بالاتر مانند تفکر انتقادی، سنتز اطلاعات و استدلال بالینی ضروری هستند. این نوع سؤالات نیاز به توانایی تولید پاسخ‌های منسجم و مرتبط با متن دارند، نه‌فقط انتخاب گزینه صحیح از یک لیست. عملکرد مدل‌های هوش مصنوعی در چنین وظایفی ممکن است بسیار متفاوت از عملکرد آن‌ها در سؤالات چندگزینه‌ای باشد، که نشان‌دهنده یک زمینه مهم برای تحقیقات آینده است.

پنجمین محدودیت این است که مدل‌های هوش مصنوعی در شرایط فشار زمانی آزمایش نشدند. داوطلبان انسانی در طول امتحانات با محدودیت‌های زمانی شدیدی مواجه می‌شوند که می‌تواند بر عملکرد آن‌ها تأثیر بگذارد. در مقابل، مدل‌های هوش مصنوعی در این مطالعه تحت فشار زمانی نبودند، که به آن‌ها اجازه می‌دهد بدون فشار یک محیط زمان‌بندی شده به سؤالات رسیدگی کنند.