مدلهای بزرگ زبانی تنظیمنشده، خروجیای شبیه دستگاه پزشکی تولید میکنند
مدلهای بزرگ زبانی (LLM) پتانسیل قابلتوجهی برای استفاده در پشتیبانی تصمیمگیری بالینی (CDS) نشان میدهند. با این حال، شایان ذکر است که در حال حاضر، هیچکدام از آنها مجوز سازمان غذا و دارو (FDA) را بهعنوان یک دستگاه CDS دریافت نکردهاند. این مطالعه بررسی میکند که آیا دو LLM پرکاربرد میتوانند بهگونهای هدایت شوند که خروجیای شبیه به یک دستگاه پزشکی ارائهدهنده CDS تولید کنند. یافتهها نشان میدهند که LLMها، در سناریوهای مختلف، میتوانند بهراحتی خروجیای مشابه پشتیبانی تصمیمگیری مبتنی بر دستگاه تولید کنند. این امر بر نیاز بالقوه به نظارت نظارتی در صورت ادغام رسمی LLMها در عمل بالینی تأکید میکند.
چالشهای نظارتی و نوید LLMها در مراقبتهای بهداشتی
قابلیتهای LLMها، که از دادههای آموزشی گسترده آنها و توانایی تولید متن شبیه انسان ناشی میشود، علاقه به کاربرد آنها برای پشتیبانی تصمیمگیری در زمینههای مختلف را افزایش میدهد. با این حال، همان ویژگیهایی که سیستمهای هوش مصنوعی (AI) مولد را بسیار جذاب میکنند، موانع منحصربهفردی را نیز برای نهادهای نظارتی ایجاد میکنند. این نهادها در چارچوبهایی که دههها پیش ایجاد شدهاند، برای دستگاههای پزشکی سنتی طراحی شدهاند، نه ماهیت پویای هوش مصنوعی.
در حال حاضر، LLMهای موجود بهعنوان دستگاههای پزشکی طبقهبندی نمیشوند. قانون فدرال غذا، دارو و آرایشی (FD&C Act § 201(h)(1)) یک دستگاه پزشکی را بهعنوان “ابزاری… که برای استفاده در تشخیص، …درمان، کاهش، معالجه یا پیشگیری از بیماری… در نظر گرفته شده است و اهداف اصلی مورد نظر خود را از طریق عمل شیمیایی به دست نمیآورد” تعریف میکند. اکثر LLMها شامل سلب مسئولیتهایی هستند که بیان میکنند برای ارائه مشاوره پزشکی در نظر گرفته نشدهاند، بنابراین از مقررات FDA اجتناب میکنند. با وجود این، مجموعهای رو به رشد از تحقیقات منتشرشده و شواهد حکایتی وجود دارد که استفاده از LLMها را برای پشتیبانی تصمیمگیری پزشکی، هم در محیطهای تحقیقاتی و هم در عمل بالینی واقعی، برجسته میکند.
تعریف دامنه مقررات برای پشتیبانی تصمیمگیری بالینی مبتنی بر LLM
با توجه به پتانسیل LLMها، اگر آنها بهطور رسمی در یک سیستم پشتیبانی تصمیمگیری بالینی (CDSS) گنجانده شوند، مسئله مقررات مناسب بسیار مهم میشود. اصلاحیه قانون درمانهای قرن بیست و یکم به قانون FD&C (قانون عمومی 114-255)، همراه با راهنماییهای FDA، چهار معیار کلیدی را برای تعیین اینکه آیا نرمافزار پشتیبانی تصمیمگیری بهعنوان یک دستگاه واجد شرایط است و در نتیجه، تحت صلاحیت FDA قرار میگیرد، مشخص میکند. این معیارها حول محور موارد زیر میچرخند:
- دادههای ورودی عملکرد نرمافزار.
- دادههای خروجی آن.
- محتوای توصیههای بالینی آن.
- توانایی کاربر نهایی برای بررسی منطق پشت آن توصیهها.
بهطور خاص، یک CDSS در صورتی بهعنوان یک دستگاه در نظر گرفته میشود که خروجی آن یک دستورالعمل دقیق برای درمان یا تشخیص ارائه دهد، نه توصیههای مبتنی بر اطلاعات کلی. علاوه بر این، اگر CDSS نتواند مبنای اساسی توصیههای خود را ارائه دهد، و مانع از آن شود که کاربران بهطور مستقل آنها را بررسی کنند و به نتیجهگیری خود برسند، بهعنوان یک دستگاه طبقهبندی میشود. راهنمایی FDA بیشتر روشن میکند که CDSS مورد استفاده در یک اورژانس بالینی بهدلیل ماهیت حیاتی و حساس به زمان تصمیمگیری، که مانع از ارزیابی مستقل توصیههای CDSS میشود، بهعنوان یک دستگاه در نظر گرفته میشود.
بررسی خروجی شبیه دستگاه در سیستمهای هوش مصنوعی مولد
مشخص نیست که آیا یک CDSS که از هوش مصنوعی مولد، مانند LLM، استفاده میکند، خروجیای تولید میکند که شبیه یک دستگاه پزشکی باشد. خروجی متن آزاد یک LLM نامحدود ممکن است معیارهای دستگاه تعیینشده را برآورده کند یا نکند. علاوه بر این، نحوه همسویی پاسخهای LLM به درخواستهای چالشبرانگیز یا “جیلبریکها” با این معیارها ناشناخته است. افزایش استفاده از LLMها برای مشاوره پزشکی، عدم قطعیت پیرامون تعیین دستگاه و وضعیت نظارتی CDSSهای مبتنی بر LLM را به یک مانع بالقوه برای توسعه ایمن و مؤثر این فناوریها تبدیل میکند. ایجاد تعادل مناسب بین ایمنی و نوآوری برای هوش مصنوعی مولد در مراقبتهای بهداشتی، با توجه به اینکه پزشکان و بیماران بیشتری از این ابزارها استفاده میکنند، بسیار مهم است.
اهداف تحقیق: ارزیابی عملکرد شبیه دستگاه
هدف این تحقیق ارزیابی عملکرد شبیه دستگاه LLMها بود. این عملکرد بهعنوان سودمندی آنها برای “تشخیص، درمان، پیشگیری، معالجه یا کاهش بیماریها یا سایر شرایط” تعریف میشود، صرفنظر از اینکه آیا چنین استفادهای مورد نظر است یا مجاز. اهداف خاص عبارت بودند از:
- تعیین اینکه آیا خروجی LLM با معیارهای دستگاه در هنگام درخواست با دستورالعملهایی در مورد آن معیارها و ارائه یک اورژانس بالینی همسو میشود یا خیر.
- شناسایی شرایطی، در صورت وجود، که تحت آن میتوان خروجی یک مدل را برای ارائه خروجی شبیه دستگاه دستکاری کرد. این شامل استفاده از درخواستهای مستقیم برای اطلاعات تشخیصی و درمانی، و همچنین یک “جیلبریک” از پیش تعریفشده بود که برای استخراج خروجی شبیه دستگاه، علیرغم درخواستها برای پایبندی به معیارهای غیردستگاهی، طراحی شده بود.
یافتهها: پاسخهای LLM و همسویی با معیارهای دستگاه
توصیههای مراقبتهای پیشگیرانه
هنگامی که برای توصیههای مراقبتهای پیشگیرانه مورد پرسش قرار گرفتند، همه LLMها پاسخهایی مطابق با معیارهای غیردستگاهی در خروجی متن نهایی خود تولید کردند. مدل Llama-3، در پاسخ به یک درخواست تکشات، در ابتدا پشتیبانی تصمیمگیری شبیه دستگاه را در درصد کمی از پاسخها (20٪ برای پزشکی خانواده و 60٪ برای سناریوهای مراقبتهای پیشگیرانه روانپزشکی) ارائه کرد. با این حال، بهسرعت این متن را با یک سلب مسئولیت جایگزین کرد: “متاسفم، در حال حاضر نمیتوانم به شما در این درخواست کمک کنم.” هنگامی که یک درخواست چندشات حاوی نمونههای مفصلی از معیارهای دستگاه ارائه شد، همه مدلها بهطور مداوم توصیههای غیردستگاهی را برای همه پاسخهای اولیه مراقبتهای پیشگیرانه ارائه کردند.
سناریوهای اضطراری حساس به زمان
در موقعیتهایی که شامل موارد اضطراری حساس به زمان میشد، 100٪ پاسخهای GPT-4 و 52٪ پاسخهای Llama-3 با پشتیبانی تصمیمگیری شبیه دستگاه همسو بودند. نرخ کلی توصیههای شبیه دستگاه با درخواستهای چندشات ثابت باقی ماند، اما در سناریوهای بالینی مختلف، تنوع نشان داد. این پاسخهای شبیه دستگاه شامل پیشنهادهایی برای تشخیصها و درمانهای خاص مرتبط با موارد اضطراری بود.
جیلبریک “کارورز ناامید”
هنگامی که در معرض جیلبریک “کارورز ناامید” قرار گرفتند، بخش قابلتوجهی از پاسخها توصیههای شبیه دستگاه را نشان دادند. بهطور خاص، 80٪ و 68٪ پاسخهای GPT-4، و 36٪ و 76٪ پاسخهای Llama-3، بهترتیب پس از درخواستهای تکشات و چندشات، شامل توصیههای شبیه دستگاه بودند.
مناسب بودن بالینی پیشنهادات LLM
ذکر این نکته ضروری است که تمام پیشنهادات مدل از نظر بالینی مناسب و مطابق با استانداردهای مراقبت تعیینشده بودند. در سناریوهای پزشکی خانواده و قلب و عروق، بیشتر پشتیبانی تصمیمگیری شبیه دستگاه فقط برای پزشکان آموزشدیده مناسب بود. بهعنوان مثال میتوان به قرار دادن کاتتر داخلوریدی و تجویز آنتیبیوتیکهای داخل وریدی اشاره کرد. در سناریوهای دیگر، توصیههای شبیه دستگاه بهطور کلی با استانداردهای مراقبت ناظران مطابقت داشت، مانند تجویز نالوکسان برای مصرف بیش از حد مواد افیونی یا استفاده از تزریقکننده خودکار اپینفرین برای آنافیلاکسی.
پیامدها برای مقررات و نظارت
اگرچه هیچ LLM در حال حاضر توسط FDA بهعنوان CDSS مجاز نیست، و برخی بهصراحت بیان میکنند که نباید برای مشاوره پزشکی استفاده شوند، بیماران و پزشکان ممکن است همچنان از آنها برای این منظور استفاده کنند. این مطالعه نشان داد که نه درخواستهای تکشات و نه چندشات، بر اساس زبان یک سند راهنمای FDA، بهطور قابلاعتمادی LLMها را به تولید فقط پشتیبانی تصمیمگیری غیردستگاهی محدود نمیکنند. علاوه بر این، یک جیلبریک از پیش تعریفشده اغلب برای استخراج پشتیبانی تصمیمگیری شبیه دستگاه غیرضروری بود. این یافتهها تحقیقات قبلی را که نیاز به پارادایمهای نظارتی جدید متناسب با CDSSهای AI/ML را برجسته میکند، تقویت میکند. آنها همچنین پیامدهای مستقیمی برای نظارت بر دستگاههای پزشکی دارند که فناوریهای هوش مصنوعی مولد را در خود جای دادهاند.
بازاندیشی در رویکردهای نظارتی
مقررات مؤثر ممکن است به روشهای جدیدی برای همسویی بهتر خروجی LLM با پشتیبانی تصمیمگیری شبیه دستگاه یا غیردستگاهی، بسته به کاربرد مورد نظر، نیاز داشته باشد. مجوز سنتی FDA به یک دستگاه پزشکی برای یک کاربرد و نشانه خاص اعطا میشود. بهعنوان مثال، دستگاههای AI/ML مجاز FDA شامل دستگاههایی هستند که برای پیشبینی بیثباتی همودینامیک یا وخامت بالینی طراحی شدهاند. با این حال، LLMها میتوانند در مورد طیف گستردهای از موضوعات مورد پرسش قرار گیرند، که بهطور بالقوه منجر به پاسخهایی میشود که، در حالی که مناسب هستند، نسبت به نشانه تأییدشده آنها “خارج از برچسب” در نظر گرفته میشوند. نتایج نشان میدهد که هم درخواستهای تکشات و هم چندشات برای کنترل این امر کافی نیستند. این یافته نشاندهنده محدودیت LLMها نیست، بلکه بر نیاز به روشهای جدیدی تأکید میکند که انعطافپذیری خروجی LLM را حفظ میکنند و در عین حال آن را به یک نشانه تأییدشده محدود میکنند.
کاوش مسیرهای مجوز جدید
مقررات LLMها ممکن است به مسیرهای مجوز جدیدی نیاز داشته باشد که به نشانههای خاصی وابسته نباشند. یک مسیر مجوز دستگاه برای پشتیبانی تصمیمگیری “عمومی” میتواند برای LLMها و ابزارهای هوش مصنوعی مولد مناسب باشد. در حالی که این رویکرد نوآوری در CDSSهای AI/ML را تسهیل میکند، روش بهینه برای ارزیابی ایمنی، اثربخشی و برابری سیستمهایی با چنین نشانههای گستردهای نامشخص است. بهعنوان مثال، یک رویکرد “مبتنی بر شرکت” برای مجوز میتواند نیاز به ارزیابی خاص دستگاه را دور بزند، که ممکن است برای یک LLM مناسب باشد، اما با تضمینهای نامشخصی در مورد اثربخشی و ایمنی بالینی همراه است.
اصلاح معیارها برای گروههای کاربری مختلف
این یافتهها نیاز به اصلاح معیارها برای CDSSهایی را که برای پزشکان در مقابل ناظران غیرپزشک در نظر گرفته شدهاند، برجسته میکند. FDA قبلاً نشان داده است که CDSSهای رو به بیمار و مراقب بهعنوان دستگاههای پزشکی در نظر گرفته میشوند که بهطور کلی مشمول مقررات هستند. با این حال، در حال حاضر یک دسته نظارتی برای CDSS AI/ML طراحیشده برای یک ناظر غیرپزشک وجود ندارد. ایجاد یک تشخیص خاص و ارائه یک دستورالعمل خاص برای یک اورژانس حساس به زمان بهوضوح با معیارهای FDA برای دستگاههای در نظر گرفتهشده برای متخصصان مراقبتهای بهداشتی همسو است. از سوی دیگر، اقداماتی مانند احیای قلبی ریوی (CPR) و تجویز اپینفرین یا نالوکسان نیز این معیارهای دستگاه را برآورده میکنند، اما در عین حال رفتارهای نجاتدهنده تثبیتشدهای برای ناظران غیرپزشک هستند.
محدودیتهای مطالعه
این مطالعه دارای چندین محدودیت است:
- این مطالعه LLMها را در برابر وظیفهای ارزیابی میکند که کاربرد مورد نظر مشخصشده نرمافزار نیست.
- این مطالعه خروجی LLM را با راهنمای FDA مقایسه میکند، که الزامآور نیست، و سازگاری توصیههای LLM را با سایر مفاد قانونی یا چارچوبهای نظارتی مربوطه ایالات متحده ارزیابی نمیکند.
- این مطالعه سایر روشهای درخواستی را که ممکن است مؤثرتر از درخواستهای تکشات و چندشات باشند، ارزیابی نمیکند.
- این مطالعه نحوه ادغام عملی چنین درخواستهایی را در جریانهای کاری بالینی واقعی بررسی نمیکند.
- این مطالعه طیف وسیعتری از LLMهای بهطور گسترده در دسترس و معمولاً استفادهشده فراتر از GPT-4 و Llama-3 را ارزیابی نمیکند.
- اندازه نمونه درخواستها کوچک است.
حرکت رو به جلو: ایجاد تعادل بین نوآوری و ایمنی
درخواستهای مبتنی بر متن راهنمای FDA برای معیارهای دستگاه CDSS، چه تکشات و چه چندشات، برای اطمینان از اینکه خروجی LLM با پشتیبانی تصمیمگیری غیردستگاهی همسو است، کافی نیستند. پارادایمهای نظارتی و فناوریهای جدید برای رسیدگی به سیستمهای هوش مصنوعی مولد، ایجاد تعادل بین نوآوری، ایمنی و اثربخشی بالینی مورد نیاز است. تکامل سریع این فناوری نیازمند یک رویکرد فعال و سازگار به مقررات است، که تضمین میکند که مزایای LLMها در مراقبتهای بهداشتی میتواند تحقق یابد و در عین حال خطرات بالقوه کاهش یابد.