پیشرفت سریع مدلهای زبان بزرگ (LLM) امکانات جدید و هیجانانگیزی را برای تحول در آموزش پزشکی باز کرده است. با مهار قدرت این ابزارهای هوش مصنوعی، میتوانیم منابع آموزشی نوآورانه ایجاد کنیم و دسترسی بیسابقهای به دانش و مواد آموزشی را برای پزشکان در حال آموزش فراهم کنیم. این رویکرد، که به عنوان "آموزش مصنوعی" شناخته میشود، از LLMها برای تولید محتوای جدید متناسب با نیازهای خاص متخصصان پزشکی استفاده میکند.
در یک مطالعه اخیر، ما پتانسیل LLMها را در آموزش پوست با استفاده از GPT-4 OpenAI برای ایجاد سناریوهای بالینی برای 20 بیماری مختلف پوستی و بافت نرم که معمولاً در آزمون صدور مجوز پزشکی ایالات متحده (USMLE) مورد آزمایش قرار میگیرند، بررسی کردیم. این سناریوها، که سناریوهای واقعی بیمار را ارائه میدهند، سپس توسط متخصصان پزشک از نظر دقت، جامعیت، کیفیت، پتانسیل آسیب و تعصب جمعیتی ارزیابی شدند.
نتایج مطالعه ما بسیار دلگرمکننده بود. متخصصان پزشک به سناریوها نمرات متوسط بالایی برای دقت علمی (4.45/5)، جامعیت (4.3/5) و کیفیت کلی (4.28/5) دادند، در حالی که نمرات پایینی را برای پتانسیل آسیب بالینی (1.6/5) و تعصب جمعیتی (1.52/5) نیز خاطرنشان کردند. ما همچنین یک همبستگی قوی (r = 0.83) بین جامعیت و کیفیت کلی مشاهده کردیم که نشان میدهد سناریوهای دقیق و کامل برای آموزش پزشکی مؤثر ضروری هستند. با این حال، ما همچنین خاطرنشان کردیم که سناریوها فاقد تنوع جمعیتی قابل توجهی هستند، که یک زمینه برای بهبود در تکرارهای بعدی را برجسته میکند.
به طور کلی، مطالعه ما پتانسیل فراوان LLMها را برای افزایش مقیاسپذیری، دسترسی و سفارشیسازی مواد آموزشی پوست نشان میدهد. با پرداختن به محدودیتهایی که شناسایی کردیم، مانند نیاز به تنوع جمعیتی بیشتر، میتوانیم این ابزارهای مبتنی بر هوش مصنوعی را بیشتر اصلاح کنیم و پتانسیل کامل آنها را برای ایجاد انقلاب در آموزش پزشکی آزاد کنیم.
ظهور LLMها در آموزش پزشکی
حوزه آموزش پزشکی به طور مداوم در حال تکامل است و با نیازهای متغیر نسلهای جدید دانشجویان پزشکی و دستیاران سازگار میشود. با ادامه پیشرفت فناوری، این پزشکان مشتاق به طور فزایندهای در معرض طیف گستردهای از ابزارهای دیجیتال قرار میگیرند که میتوانند یادگیری آنها را تکمیل کنند. در میان این فناوریها، مدلهای زبان بزرگ (LLM) به عنوان یک حوزه امیدوارکننده به ویژه ظاهر شدهاند و به دلیل قدرت محاسباتی قابل توجه خود، توجه را به خود جلب کردهاند.
LLMها نوعی مدل یادگیری ماشینی هستند که بر روی مقادیر زیادی داده متنی از منابع مختلف آموزش داده شدهاند. این آموزش گسترده آنها را قادر میسازد تا با سنتز و به کارگیری بینشهای جمعی به دست آمده از مجموعههای داده عظیمی که پردازش کردهاند، وظایف بسیار تخصصی را انجام دهند. حتی بدون آموزش صریح در حوزه پزشکی، مدلهای عمومی مانند GPT OpenAI عملکرد چشمگیری در محیطهای بالینی نشان دادهاند، که نشاندهنده پتانسیل عظیم LLMها در پزشکی است.
رهاسازی پتانسیل آموزش مصنوعی
LLMها به دلیل توانایی خود در تولید سریع و کارآمد محتوای جدید، ابزارهای بیسابقهای را در آموزش پزشکی ارائه میدهند. در حالی که علاقه قابل توجهی به استفاده از LLMها در وظایف مختلف آموزش پزشکی وجود دارد، تحقیقات محدودی در مورد چگونگی عملکرد ابتکارات آموزشی هدایت شده توسط LLM در سناریوهای دنیای واقعی وجود دارد. یکی از کاربردهای امیدوارکننده اما کمتر بررسی شده LLMها در این زمینه، تولید سناریوهای بالینی است.
سناریوهای بالینی یک جزء حیاتی از آموزش پزشکی مدرن هستند و بخش قابل توجهی از سوالات USMLE و آموزش مبتنی بر مورد پیش بالینی را تشکیل میدهند. این سناریوها دانش پزشکی را با ارائه سناریوهای عملی که استدلال تشخیصی، اولویتبندی استراتژیهای مدیریت و درک عوامل روانی-اجتماعی یک یادگیرنده را ارزیابی میکنند، زمینهسازی میکنند. سناریوها با شبیهسازی تمرین پیچیده و ظریف پزشکی، آموزش ارزشمندی را برای پزشکان آینده ارائه میدهند.
به طور سنتی، سناریوهای بالینی از انجمنهای حرفهای، مواد داخلی ایجاد شده توسط اساتید یا بانکهای سوالات تجاری تهیه شدهاند. با این حال، ایجاد این سناریوها یک فرآیند پر زحمت است که نیاز به ورودی قابل توجهی از پزشکان مجرب دارد. در حالی که این منابع درجهای از کنترل کیفیت را ارائه میدهند، دسترسی و کمیت این مواد میتواند به طور قابل توجهی در بین موسسات مختلف و پیشینههای اجتماعی-اقتصادی دانشآموزان متفاوت باشد. علاوه بر این، در دسترس بودن محدود سناریوها نگرانیهایی را در مورد تکرار سوالات آزمون در آزمونهای USMLE ایجاد کرده است.
ایجاد انقلاب در آموزش پوست با LLMها
در حالی که آموزش پزشکی در پوست به شدت به ارزیابی بصری متکی است، ارائه بالینی جامع که فرآیند بیماری را زمینهسازی میکند نیز به همان اندازه حیاتی است. آزمونهای استاندارد مانند USMLE اغلب از سناریوهای مبتنی بر متن برای ارزیابی دانش آسیبشناسیهای پوست و بافت نرم استفاده میکنند. علاوه بر این، اصطلاحات خاص مورد استفاده برای توصیف ضایعات پوستی برای تشخیص دقیق و درمان بیماریهای پوستی ضروری است.
LLMها فرصتی بینظیر برای گسترش دسترسی به سناریوهای مبتنی بر متن برای شرایط رایج پوستی در آموزش پزشکی ارائه میدهند. LLMهای فعلی موجود، مانند GPT، انعطافپذیری برای گسترش سناریوهای بالینی اولیه، انطباق با نیازهای فردی دانشآموزان با پرسیدن سؤالات بیشتر را فراهم میکنند. در مطالعه خود، ما امکان استفاده از GPT 4.0، جدیدترین مدل پایه در دسترس عموم OpenAI، برای تولید سناریوهای بالینی با کیفیت بالا برای اهداف آموزش پزشکی را ارزیابی کردیم.
ارزیابی عملکرد GPT-4
برای ارزیابی عملکرد GPT-4 در تولید سناریوهای بالینی، ما بر روی 20 بیماری پوستی و بافت نرم که معمولاً در آزمون USMLE Step 2 CK مورد آزمایش قرار میگیرند، تمرکز کردیم. ما از این مدل خواستیم تا سناریوهای بالینی دقیقی را برای هر بیماری، از جمله توضیحات محتملترین تشخیص و اینکه چرا تشخیصهای جایگزین کمتر محتمل هستند، ایجاد کند. این سناریوها سپس توسط هیئتی از متخصصان پزشک با استفاده از مقیاس لیکرت برای ارزیابی دقت علمی، جامعیت، کیفیت کلی، پتانسیل آسیب بالینی و تعصب جمعیتی آنها ارزیابی شدند.
ویژگیهای سناریو
تجزیه و تحلیل ما از 20 سناریو بالینی چندین ویژگی کلیدی را نشان داد:
جمعیتشناسی بیمار: سناریوها شامل 15 بیمار مرد و 5 بیمار زن با میانگین سنی 25 سال بودند. نژاد فقط برای 4 بیمار مشخص شد (3 سفیدپوست، 1 آفریقایی-آمریکایی). برای 3 بیمار از نامهای عمومی استفاده شد، در حالی که بقیه سناریوها شامل نام نبودند.
تعداد کلمات: میانگین تعداد کلمات خروجی مدل 332.68 با انحراف معیار 42.75 کلمه بود. قسمت سناریو بالینی به طور متوسط 145.79 کلمه بود (SD = 26.97)، در حالی که توضیحات به طور متوسط 184.89 کلمه بود (SD = 49.70). به طور متوسط، توضیحات طولانیتر از سناریوهای مربوطه خود بودند، با نسبت طول سناریو به توضیح 0.85 (SD = 0.30).
رتبهبندی پزشکان
رتبهبندی متخصصان پزشک نشاندهنده درجه بالایی از همسویی با اجماع علمی (میانگین = 4.45، فاصله اطمینان 95%: 4.28-4.62)، جامعیت (میانگین = 4.3، فاصله اطمینان 95%: 4.11-4.89) و کیفیت کلی (میانگین = 4.28، فاصله اطمینان 95%: 4.10-4.47) بود. رتبهبندیها همچنین نشاندهنده خطر کم آسیب بالینی (میانگین = 1.6، فاصله اطمینان 95%: 1.38-1.81) و تعصب جمعیتی (میانگین = 1.52، فاصله اطمینان 95%: 1.31-1.72) بود. رتبهبندیهای پایین به طور مداوم برای تعصب جمعیتی نشان میدهد که رتبهبندیکنندگان پزشک هیچ الگوی قابل توجهی از نمایشهای کلیشهای یا نامتناسب از جمعیتهای بیمار را شناسایی نکردهاند.
تجزیه و تحلیل همبستگی
برای ارزیابی روابط بین معیارهای ارزیابی مختلف، ضرایب همبستگی پیرسون را محاسبه کردیم. ما دریافتیم که همسویی با اجماع علمی به طور متوسط با جامعیت (r = 0.67) و کیفیت کلی (r = 0.68) همبستگی دارد. جامعیت و کیفیت کلی همبستگی قوی نشان دادند (r = 0.83)، در حالی که احتمال آسیب بالینی و تعصب جمعیتی همبستگی ضعیفی داشتند (r = 0.22).
پیامدهای آموزش پزشکی
یافتههای مطالعه ما پیامدهای قابل توجهی برای آموزش پزشکی، به ویژه در زمینه افزایش بررسی آزمونهای استاندارد پزشکی دارد. نیاز به مواد آموزشی با کیفیت بالا که میتوانند برای ارزیابیهایی مانند USMLE مورد استفاده قرار گیرند، بیش از هر زمان دیگری مهم است. با این حال، روش سنتی ایجاد سؤالات جدید پرهزینه است و نیاز به پزشکان مجرب برای نوشتن سناریوهای بالینی و چندین بار اجرای آزمون برای ارزیابی قابلیت تعمیم آنها دارد. بنابراین روشهای جدید برای توسعه سناریوهای بالینی متعدد و منحصر به فرد بسیار مطلوب است.
مطالعه ما شواهد امیدوارکنندهای ارائه میدهد که مدلهای زبان بزرگ مانند GPT-4 میتوانند به عنوان منبع "آموزش پزشکی مصنوعی" عمل کنند و منابع آموزشی در دسترس، قابل تنظیم و مقیاسپذیر را ارائه دهند. ما نشان دادهایم که GPT-4 دارای دانش بالینی ذاتی است که به ایجاد توصیفات بیمار نماینده و دقیق گسترش مییابد. تجزیه و تحلیل ما نشان داد که سناریوهای تولید شده توسط GPT-4 برای بیماریهایی که در بخش پوست و بافت نرم آزمون USMLE Step 2 CK مورد آزمایش قرار میگیرند، بسیار دقیق هستند، و نشان میدهد که LLMها میتوانند به طور بالقوه برای طراحی سناریوها برای آزمونهای استاندارد پزشکی مورد استفاده قرار گیرند.
رتبهبندیهای بالا برای اجماع علمی، جامعیت و کیفیت کلی، همراه با رتبهبندیهای پایین برای پتانسیل آسیب بالینی و تعصب جمعیتی، بیشتر از امکان استفاده از LLMها برای این منظور پشتیبانی میکند. همبستگی آماری قوی بین جامعیت سناریو و کیفیت کلی، اهمیت ارائه موارد کامل و دقیق در آموزش پزشکی را برجسته میکند و توانایی LLMها را برای ارائه سناریوهای مرتبط از نظر بافت و کامل برای استدلال بالینی نشان میدهد.
میانگین طول سناریوها (145.79 ± 26.97 کلمه) به خوبی در محدوده طول سناریو USMLE قرار دارد و به ممتحنین اجازه میدهد تقریباً 90 ثانیه برای پاسخ دادن به هر سوال وقت داشته باشند. گنجاندن توضیحات طولانیتر در کنار سناریوها، توانایی LLMها را برای تولید نه تنها توصیفات بیمار، بلکه مواد آموزشی مفید نیز نشان میدهد.
رسیدگی به محدودیتها و مسیرهای آینده
در حالی که مطالعه ما پتانسیل LLMها را در تولید سناریوهای بالینی با کیفیت بالا نشان داد، ما همچنین چندین محدودیت را شناسایی کردیم که باید در تحقیقات آینده مورد توجه قرار گیرند. یکی از نگرانیهای کلیدی، تنوع محدود در جمعیتشناسی بیماران، با غلبه بیماران مرد و فقدان تنوع نژادی است. برای اطمینان از اینکه دانشجویان پزشکی به اندازه کافی برای خدمت به جمعیتهای مختلف بیماران آماده هستند، بسیار مهم است که تلاشهای آگاهانهتری برای گنجاندن نمایشهای مختلف بیماران در مهندسی سریع و مجموعههای داده آموزش مدل انجام شود. مطالعات آینده همچنین باید منابع و مظاهر تعصب سیستمی را در خروجی مدل بررسی کنند.
یکی دیگر از محدودیتهای مطالعه ما، ترکیب هیئت رتبهبندی متخصص ما است که تنها شامل یک متخصص پوست در کنار دو پزشک شرکتکننده از پزشکی داخلی و پزشکی اورژانس بود. در حالی که رتبهبندیکنندگان غیر متخصص پوست اغلب شرایط پوستی رایج را در تخصصهای مربوطه خود تشخیص و مدیریت میکنند، تخصص آنها ممکن است طیف کاملی از بیماریهای پوستی را در بر نگیرد. مطالعات آینده از نسبت بیشتری از متخصصان پوست بهرهمند میشوند تا از ارزیابی تخصصیتری از موارد تولید شده توسط هوش مصنوعی اطمینان حاصل شود.
علیرغم این محدودیتها، کار ما شواهد قانعکنندهای ارائه میدهد که LLMهای موجود مانند GPT-4 پتانسیل زیادی برای تولید سناریوهای بالینی برای اهداف آزمون استاندارد و آموزشی دارند. LLMهای مناسب برای هدف که بر روی مجموعههای داده خاصتر آموزش داده شدهاند، ممکن است این قابلیتها را بیشتر افزایش دهند. دقت و کارایی بالای "آموزش مصنوعی" راه حلی امیدوارکننده برای محدودیتهای فعلی در روشهای سنتی برای تولید مواد آموزشی پزشکی ارائه میدهد.