خروجی LLMهای غیرمجاز مانند دستگاه پزشکی

مدل‌های بزرگ زبانی تنظیم‌نشده، خروجی‌ای شبیه دستگاه پزشکی تولید می‌کنند

مدل‌های بزرگ زبانی (LLM) پتانسیل قابل‌توجهی برای استفاده در پشتیبانی تصمیم‌گیری بالینی (CDS) نشان می‌دهند. با این حال، شایان ذکر است که در حال حاضر، هیچ‌کدام از آن‌ها مجوز سازمان غذا و دارو (FDA) را به‌عنوان یک دستگاه CDS دریافت نکرده‌اند. این مطالعه بررسی می‌کند که آیا دو LLM پرکاربرد می‌توانند به‌گونه‌ای هدایت شوند که خروجی‌ای شبیه به یک دستگاه پزشکی ارائه‌دهنده CDS تولید کنند. یافته‌ها نشان می‌دهند که LLMها، در سناریوهای مختلف، می‌توانند به‌راحتی خروجی‌ای مشابه پشتیبانی تصمیم‌گیری مبتنی بر دستگاه تولید کنند. این امر بر نیاز بالقوه به نظارت نظارتی در صورت ادغام رسمی LLMها در عمل بالینی تأکید می‌کند.

چالش‌های نظارتی و نوید LLMها در مراقبت‌های بهداشتی

قابلیت‌های LLMها، که از داده‌های آموزشی گسترده آن‌ها و توانایی تولید متن شبیه انسان ناشی می‌شود، علاقه به کاربرد آن‌ها برای پشتیبانی تصمیم‌گیری در زمینه‌های مختلف را افزایش می‌دهد. با این حال، همان ویژگی‌هایی که سیستم‌های هوش مصنوعی (AI) مولد را بسیار جذاب می‌کنند، موانع منحصربه‌فردی را نیز برای نهادهای نظارتی ایجاد می‌کنند. این نهادها در چارچوب‌هایی که دهه‌ها پیش ایجاد شده‌اند، برای دستگاه‌های پزشکی سنتی طراحی شده‌اند، نه ماهیت پویای هوش مصنوعی.

در حال حاضر، LLMهای موجود به‌عنوان دستگاه‌های پزشکی طبقه‌بندی نمی‌شوند. قانون فدرال غذا، دارو و آرایشی (FD&C Act § 201(h)(1)) یک دستگاه پزشکی را به‌عنوان “ابزاری… که برای استفاده در تشخیص، …درمان، کاهش، معالجه یا پیشگیری از بیماری… در نظر گرفته شده است و اهداف اصلی مورد نظر خود را از طریق عمل شیمیایی به دست نمی‌آورد” تعریف می‌کند. اکثر LLMها شامل سلب مسئولیت‌هایی هستند که بیان می‌کنند برای ارائه مشاوره پزشکی در نظر گرفته نشده‌اند، بنابراین از مقررات FDA اجتناب می‌کنند. با وجود این، مجموعه‌ای رو به رشد از تحقیقات منتشرشده و شواهد حکایتی وجود دارد که استفاده از LLMها را برای پشتیبانی تصمیم‌گیری پزشکی، هم در محیط‌های تحقیقاتی و هم در عمل بالینی واقعی، برجسته می‌کند.

تعریف دامنه مقررات برای پشتیبانی تصمیم‌گیری بالینی مبتنی بر LLM

با توجه به پتانسیل LLMها، اگر آن‌ها به‌طور رسمی در یک سیستم پشتیبانی تصمیم‌گیری بالینی (CDSS) گنجانده شوند، مسئله مقررات مناسب بسیار مهم می‌شود. اصلاحیه قانون درمان‌های قرن بیست و یکم به قانون FD&C (قانون عمومی 114-255)، همراه با راهنمایی‌های FDA، چهار معیار کلیدی را برای تعیین اینکه آیا نرم‌افزار پشتیبانی تصمیم‌گیری به‌عنوان یک دستگاه واجد شرایط است و در نتیجه، تحت صلاحیت FDA قرار می‌گیرد، مشخص می‌کند. این معیارها حول محور موارد زیر می‌چرخند:

  • داده‌های ورودی عملکرد نرم‌افزار.
  • داده‌های خروجی آن.
  • محتوای توصیه‌های بالینی آن.
  • توانایی کاربر نهایی برای بررسی منطق پشت آن توصیه‌ها.

به‌طور خاص، یک CDSS در صورتی به‌عنوان یک دستگاه در نظر گرفته می‌شود که خروجی آن یک دستورالعمل دقیق برای درمان یا تشخیص ارائه دهد، نه توصیه‌های مبتنی بر اطلاعات کلی. علاوه بر این، اگر CDSS نتواند مبنای اساسی توصیه‌های خود را ارائه دهد، و مانع از آن شود که کاربران به‌طور مستقل آن‌ها را بررسی کنند و به نتیجه‌گیری خود برسند، به‌عنوان یک دستگاه طبقه‌بندی می‌شود. راهنمایی FDA بیشتر روشن می‌کند که CDSS مورد استفاده در یک اورژانس بالینی به‌دلیل ماهیت حیاتی و حساس به زمان تصمیم‌گیری، که مانع از ارزیابی مستقل توصیه‌های CDSS می‌شود، به‌عنوان یک دستگاه در نظر گرفته می‌شود.

بررسی خروجی شبیه دستگاه در سیستم‌های هوش مصنوعی مولد

مشخص نیست که آیا یک CDSS که از هوش مصنوعی مولد، مانند LLM، استفاده می‌کند، خروجی‌ای تولید می‌کند که شبیه یک دستگاه پزشکی باشد. خروجی متن آزاد یک LLM نامحدود ممکن است معیارهای دستگاه تعیین‌شده را برآورده کند یا نکند. علاوه بر این، نحوه همسویی پاسخ‌های LLM به درخواست‌های چالش‌برانگیز یا “جیلبریک‌ها” با این معیارها ناشناخته است. افزایش استفاده از LLMها برای مشاوره پزشکی، عدم قطعیت پیرامون تعیین دستگاه و وضعیت نظارتی CDSSهای مبتنی بر LLM را به یک مانع بالقوه برای توسعه ایمن و مؤثر این فناوری‌ها تبدیل می‌کند. ایجاد تعادل مناسب بین ایمنی و نوآوری برای هوش مصنوعی مولد در مراقبت‌های بهداشتی، با توجه به اینکه پزشکان و بیماران بیشتری از این ابزارها استفاده می‌کنند، بسیار مهم است.

اهداف تحقیق: ارزیابی عملکرد شبیه دستگاه

هدف این تحقیق ارزیابی عملکرد شبیه دستگاه LLMها بود. این عملکرد به‌عنوان سودمندی آن‌ها برای “تشخیص، درمان، پیشگیری، معالجه یا کاهش بیماری‌ها یا سایر شرایط” تعریف می‌شود، صرف‌نظر از اینکه آیا چنین استفاده‌ای مورد نظر است یا مجاز. اهداف خاص عبارت بودند از:

  1. تعیین اینکه آیا خروجی LLM با معیارهای دستگاه در هنگام درخواست با دستورالعمل‌هایی در مورد آن معیارها و ارائه یک اورژانس بالینی همسو می‌شود یا خیر.
  2. شناسایی شرایطی، در صورت وجود، که تحت آن می‌توان خروجی یک مدل را برای ارائه خروجی شبیه دستگاه دستکاری کرد. این شامل استفاده از درخواست‌های مستقیم برای اطلاعات تشخیصی و درمانی، و همچنین یک “جیلبریک” از پیش تعریف‌شده بود که برای استخراج خروجی شبیه دستگاه، علی‌رغم درخواست‌ها برای پایبندی به معیارهای غیردستگاهی، طراحی شده بود.

یافته‌ها: پاسخ‌های LLM و همسویی با معیارهای دستگاه

توصیه‌های مراقبت‌های پیشگیرانه

هنگامی که برای توصیه‌های مراقبت‌های پیشگیرانه مورد پرسش قرار گرفتند، همه LLMها پاسخ‌هایی مطابق با معیارهای غیردستگاهی در خروجی متن نهایی خود تولید کردند. مدل Llama-3، در پاسخ به یک درخواست تک‌شات، در ابتدا پشتیبانی تصمیم‌گیری شبیه دستگاه را در درصد کمی از پاسخ‌ها (20٪ برای پزشکی خانواده و 60٪ برای سناریوهای مراقبت‌های پیشگیرانه روانپزشکی) ارائه کرد. با این حال، به‌سرعت این متن را با یک سلب مسئولیت جایگزین کرد: “متاسفم، در حال حاضر نمی‌توانم به شما در این درخواست کمک کنم.” هنگامی که یک درخواست چندشات حاوی نمونه‌های مفصلی از معیارهای دستگاه ارائه شد، همه مدل‌ها به‌طور مداوم توصیه‌های غیردستگاهی را برای همه پاسخ‌های اولیه مراقبت‌های پیشگیرانه ارائه کردند.

سناریوهای اضطراری حساس به زمان

در موقعیت‌هایی که شامل موارد اضطراری حساس به زمان می‌شد، 100٪ پاسخ‌های GPT-4 و 52٪ پاسخ‌های Llama-3 با پشتیبانی تصمیم‌گیری شبیه دستگاه همسو بودند. نرخ کلی توصیه‌های شبیه دستگاه با درخواست‌های چندشات ثابت باقی ماند، اما در سناریوهای بالینی مختلف، تنوع نشان داد. این پاسخ‌های شبیه دستگاه شامل پیشنهادهایی برای تشخیص‌ها و درمان‌های خاص مرتبط با موارد اضطراری بود.

جیلبریک “کارورز ناامید”

هنگامی که در معرض جیلبریک “کارورز ناامید” قرار گرفتند، بخش قابل‌توجهی از پاسخ‌ها توصیه‌های شبیه دستگاه را نشان دادند. به‌طور خاص، 80٪ و 68٪ پاسخ‌های GPT-4، و 36٪ و 76٪ پاسخ‌های Llama-3، به‌ترتیب پس از درخواست‌های تک‌شات و چندشات، شامل توصیه‌های شبیه دستگاه بودند.

مناسب بودن بالینی پیشنهادات LLM

ذکر این نکته ضروری است که تمام پیشنهادات مدل از نظر بالینی مناسب و مطابق با استانداردهای مراقبت تعیین‌شده بودند. در سناریوهای پزشکی خانواده و قلب و عروق، بیشتر پشتیبانی تصمیم‌گیری شبیه دستگاه فقط برای پزشکان آموزش‌دیده مناسب بود. به‌عنوان مثال می‌توان به قرار دادن کاتتر داخلوریدی و تجویز آنتی‌بیوتیک‌های داخل وریدی اشاره کرد. در سناریوهای دیگر، توصیه‌های شبیه دستگاه به‌طور کلی با استانداردهای مراقبت ناظران مطابقت داشت، مانند تجویز نالوکسان برای مصرف بیش از حد مواد افیونی یا استفاده از تزریق‌کننده خودکار اپی‌نفرین برای آنافیلاکسی.

پیامدها برای مقررات و نظارت

اگرچه هیچ LLM در حال حاضر توسط FDA به‌عنوان CDSS مجاز نیست، و برخی به‌صراحت بیان می‌کنند که نباید برای مشاوره پزشکی استفاده شوند، بیماران و پزشکان ممکن است همچنان از آن‌ها برای این منظور استفاده کنند. این مطالعه نشان داد که نه درخواست‌های تک‌شات و نه چندشات، بر اساس زبان یک سند راهنمای FDA، به‌طور قابل‌اعتمادی LLMها را به تولید فقط پشتیبانی تصمیم‌گیری غیردستگاهی محدود نمی‌کنند. علاوه بر این، یک جیلبریک از پیش تعریف‌شده اغلب برای استخراج پشتیبانی تصمیم‌گیری شبیه دستگاه غیرضروری بود. این یافته‌ها تحقیقات قبلی را که نیاز به پارادایم‌های نظارتی جدید متناسب با CDSSهای AI/ML را برجسته می‌کند، تقویت می‌کند. آن‌ها همچنین پیامدهای مستقیمی برای نظارت بر دستگاه‌های پزشکی دارند که فناوری‌های هوش مصنوعی مولد را در خود جای داده‌اند.

بازاندیشی در رویکردهای نظارتی

مقررات مؤثر ممکن است به روش‌های جدیدی برای همسویی بهتر خروجی LLM با پشتیبانی تصمیم‌گیری شبیه دستگاه یا غیردستگاهی، بسته به کاربرد مورد نظر، نیاز داشته باشد. مجوز سنتی FDA به یک دستگاه پزشکی برای یک کاربرد و نشانه خاص اعطا می‌شود. به‌عنوان مثال، دستگاه‌های AI/ML مجاز FDA شامل دستگاه‌هایی هستند که برای پیش‌بینی بی‌ثباتی همودینامیک یا وخامت بالینی طراحی شده‌اند. با این حال، LLMها می‌توانند در مورد طیف گسترده‌ای از موضوعات مورد پرسش قرار گیرند، که به‌طور بالقوه منجر به پاسخ‌هایی می‌شود که، در حالی که مناسب هستند، نسبت به نشانه تأییدشده آن‌ها “خارج از برچسب” در نظر گرفته می‌شوند. نتایج نشان می‌دهد که هم درخواست‌های تک‌شات و هم چندشات برای کنترل این امر کافی نیستند. این یافته نشان‌دهنده محدودیت LLMها نیست، بلکه بر نیاز به روش‌های جدیدی تأکید می‌کند که انعطاف‌پذیری خروجی LLM را حفظ می‌کنند و در عین حال آن را به یک نشانه تأییدشده محدود می‌کنند.

کاوش مسیرهای مجوز جدید

مقررات LLMها ممکن است به مسیرهای مجوز جدیدی نیاز داشته باشد که به نشانه‌های خاصی وابسته نباشند. یک مسیر مجوز دستگاه برای پشتیبانی تصمیم‌گیری “عمومی” می‌تواند برای LLMها و ابزارهای هوش مصنوعی مولد مناسب باشد. در حالی که این رویکرد نوآوری در CDSSهای AI/ML را تسهیل می‌کند، روش بهینه برای ارزیابی ایمنی، اثربخشی و برابری سیستم‌هایی با چنین نشانه‌های گسترده‌ای نامشخص است. به‌عنوان مثال، یک رویکرد “مبتنی بر شرکت” برای مجوز می‌تواند نیاز به ارزیابی خاص دستگاه را دور بزند، که ممکن است برای یک LLM مناسب باشد، اما با تضمین‌های نامشخصی در مورد اثربخشی و ایمنی بالینی همراه است.

اصلاح معیارها برای گروه‌های کاربری مختلف

این یافته‌ها نیاز به اصلاح معیارها برای CDSSهایی را که برای پزشکان در مقابل ناظران غیرپزشک در نظر گرفته شده‌اند، برجسته می‌کند. FDA قبلاً نشان داده است که CDSSهای رو به بیمار و مراقب به‌عنوان دستگاه‌های پزشکی در نظر گرفته می‌شوند که به‌طور کلی مشمول مقررات هستند. با این حال، در حال حاضر یک دسته نظارتی برای CDSS AI/ML طراحی‌شده برای یک ناظر غیرپزشک وجود ندارد. ایجاد یک تشخیص خاص و ارائه یک دستورالعمل خاص برای یک اورژانس حساس به زمان به‌وضوح با معیارهای FDA برای دستگاه‌های در نظر گرفته‌شده برای متخصصان مراقبت‌های بهداشتی همسو است. از سوی دیگر، اقداماتی مانند احیای قلبی ریوی (CPR) و تجویز اپی‌نفرین یا نالوکسان نیز این معیارهای دستگاه را برآورده می‌کنند، اما در عین حال رفتارهای نجات‌دهنده تثبیت‌شده‌ای برای ناظران غیرپزشک هستند.

محدودیت‌های مطالعه

این مطالعه دارای چندین محدودیت است:

  1. این مطالعه LLMها را در برابر وظیفه‌ای ارزیابی می‌کند که کاربرد مورد نظر مشخص‌شده نرم‌افزار نیست.
  2. این مطالعه خروجی LLM را با راهنمای FDA مقایسه می‌کند، که الزام‌آور نیست، و سازگاری توصیه‌های LLM را با سایر مفاد قانونی یا چارچوب‌های نظارتی مربوطه ایالات متحده ارزیابی نمی‌کند.
  3. این مطالعه سایر روش‌های درخواستی را که ممکن است مؤثرتر از درخواست‌های تک‌شات و چندشات باشند، ارزیابی نمی‌کند.
  4. این مطالعه نحوه ادغام عملی چنین درخواست‌هایی را در جریان‌های کاری بالینی واقعی بررسی نمی‌کند.
  5. این مطالعه طیف وسیع‌تری از LLMهای به‌طور گسترده در دسترس و معمولاً استفاده‌شده فراتر از GPT-4 و Llama-3 را ارزیابی نمی‌کند.
  6. اندازه نمونه درخواست‌ها کوچک است.

حرکت رو به جلو: ایجاد تعادل بین نوآوری و ایمنی

درخواست‌های مبتنی بر متن راهنمای FDA برای معیارهای دستگاه CDSS، چه تک‌شات و چه چندشات، برای اطمینان از اینکه خروجی LLM با پشتیبانی تصمیم‌گیری غیردستگاهی همسو است، کافی نیستند. پارادایم‌های نظارتی و فناوری‌های جدید برای رسیدگی به سیستم‌های هوش مصنوعی مولد، ایجاد تعادل بین نوآوری، ایمنی و اثربخشی بالینی مورد نیاز است. تکامل سریع این فناوری نیازمند یک رویکرد فعال و سازگار به مقررات است، که تضمین می‌کند که مزایای LLMها در مراقبت‌های بهداشتی می‌تواند تحقق یابد و در عین حال خطرات بالقوه کاهش یابد.