هوش مصنوعی متن‌باز در تشخیص پزشکی همتای مدل‌های انحصاری

پیشروی بی‌وقفه هوش مصنوعی همچنان به بازآفرینی صنایع ادامه می‌دهد و شاید هیچ‌کجا به اندازه حوزه پزشکی، مخاطرات بالاتر و پتانسیل عمیق‌تر نباشد. سال‌هاست که قدرتمندترین مدل‌های هوش مصنوعی، به‌ویژه مدل‌های زبان بزرگ (LLMs) که قادر به پردازش و تولید متن شبه‌انسانی هستند، عمدتاً پشت دیوارهای محافظ غول‌های فناوری قرار داشته‌اند. این سیستم‌های انحصاری، مانند GPT-4 که به‌طور گسترده مورد بحث قرار گرفته از OpenAI، استعداد قابل‌توجهی از خود نشان داده‌اند، حتی تا قلمرو پیچیده تشخیص پزشکی نیز گسترش یافته‌اند. با این حال، ماهیت ‘جعبه سیاه’ آن‌ها و لزوم ارسال اطلاعات حساس به سرورهای خارجی، موانع قابل‌توجهی برای پذیرش گسترده و ایمن در محیط‌های مراقبت‌های بهداشتی ایجاد کرده است، جایی که حریم خصوصی بیمار فقط یک اولویت نیست، بلکه یک الزام است. یک سؤال حیاتی باقی مانده بود: آیا دنیای نوظهور هوش مصنوعی متن‌باز می‌تواند چالش را بپذیرد و قدرت قابل مقایسه‌ای را بدون به خطر انداختن کنترل و محرمانگی ارائه دهد؟

یافته‌های اخیر که از سالن‌های معتبر دانشکده پزشکی هاروارد (HMS) منتشر شده است، نشان می‌دهد که پاسخ یک ‘بله’ قاطع است و نقطه عطفی بالقوه در کاربرد هوش مصنوعی در محیط‌های بالینی را نشان می‌دهد. محققان به‌دقت یک مدل متن‌باز پیشرو را با همتای انحصاری پرآوازه‌اش مقایسه کردند و نتایجی را کشف کردند که می‌تواند دسترسی به ابزارهای کمکی تشخیصی پیشرفته را دموکراتیک کند.

یک مدعی جدید وارد عرصه تشخیص می‌شود

در مطالعه‌ای که توجه جوامع پزشکی و فناوری را به خود جلب کرده است، محققان HMS مدل متن‌باز Llama 3.1 405B را در برابر GPT-4 قدرتمند قرار دادند. زمین آزمایش مجموعه‌ای با دقت انتخاب شده از 70 مطالعه موردی پزشکی چالش‌برانگیز بود. این‌ها سناریوهای معمولی نبودند؛ آن‌ها معماهای تشخیصی پیچیده‌ای را نشان می‌دادند که اغلب در عمل بالینی با آن‌ها مواجه می‌شویم. هدف روشن بود: ارزیابی هوش تشخیصی هر مدل هوش مصنوعی به‌صورت رودررو.

نتایج منتشر شده اخیر، چشمگیر بود. مدل Llama 3.1 405B، که به‌صورت رایگان برای دانلود، بازرسی و اصلاح در دسترس کاربران است، دقت تشخیصی برابر با، و در برخی معیارها حتی فراتر از، GPT-4 را نشان داد. به‌طور خاص، هنگام ارزیابی صحت پیشنهاد تشخیصی اولیه ارائه شده توسط هر مدل، Llama 3.1 405B برتری داشت. علاوه بر این، هنگام در نظر گرفتن تشخیص نهایی پیشنهاد شده پس از پردازش جزئیات مورد، رقیب متن‌باز دوباره توانایی خود را در برابر معیار تثبیت شده ثابت کرد.

این دستاورد نه تنها به خاطر خود عملکرد، بلکه به خاطر آنچه نشان می‌دهد، قابل توجه است. برای اولین بار، یک ابزار متن‌باز به‌راحتی در دسترس و شفاف ثابت کرده است که قادر به عملکرد در همان سطح بالای سیستم‌های پیشرو منبع بسته در وظیفه دشوار تشخیص پزشکی بر اساس مطالعات موردی است. Arjun K. Manrai ’08، استاد HMS که بر این تحقیق نظارت داشت، برابری در عملکرد را ‘بسیار قابل توجه’ توصیف کرد، به‌ویژه با توجه به زمینه تاریخی.

مزیت متن‌باز: گشودن قفل حریم خصوصی داده‌ها و سفارشی‌سازی

تغییردهنده واقعی بازی که توسط مطالعه هاروارد برجسته شده است، در تفاوت اساسی بین مدل‌های متن‌باز و انحصاری نهفته است: دسترسی‌پذیری و کنترل. مدل‌های انحصاری مانند GPT-4 معمولاً از کاربران می‌خواهند که داده‌ها را برای پردازش به سرورهای ارائه‌دهنده ارسال کنند. در مراقبت‌های بهداشتی، این بلافاصله زنگ خطر را به صدا در می‌آورد. اطلاعات بیمار - علائم، سابقه پزشکی، نتایج آزمایش - از حساس‌ترین داده‌های قابل تصور است که توسط مقررات سختگیرانه‌ای مانند HIPAA در ایالات متحده محافظت می‌شود. چشم‌انداز انتقال این داده‌ها به خارج از شبکه امن بیمارستان، حتی برای بهره‌مندی بالقوه از تجزیه و تحلیل پیشرفته هوش مصنوعی، یک مانع بزرگ بوده است.

مدل‌های متن‌باز، مانند Llama 3.1 405B، اساساً این پویایی را تغییر می‌دهند. از آنجا که کد و پارامترهای مدل به‌صورت عمومی در دسترس هستند، مؤسسات می‌توانند آن را در زیرساخت امن خود دانلود و مستقر کنند.

  • حاکمیت داده‌ها: بیمارستان‌ها می‌توانند هوش مصنوعی را کاملاً روی سرورهای محلی یا ابرهای خصوصی خود اجرا کنند. داده‌های بیمار هرگز نیازی به خروج از محیط محافظت شده مؤسسه ندارند و به‌طور مؤثر نگرانی‌های مربوط به حریم خصوصی مرتبط با انتقال داده‌های خارجی را از بین می‌برند. این مفهوم اغلب به‌عنوان آوردن ‘مدل به داده‌ها’ به جای ارسال ‘داده‌ها به مدل’ نامیده می‌شود.
  • امنیت پیشرفته: نگه داشتن فرآیند در داخل سازمان به‌طور قابل توجهی سطح حمله را برای نقض احتمالی داده‌های مربوط به ارائه‌دهندگان هوش مصنوعی شخص ثالث کاهش می‌دهد. کنترل بر محیط عملیاتی کاملاً در اختیار مؤسسه مراقبت‌های بهداشتی باقی می‌ماند.
  • شفافیت و قابلیت حسابرسی: مدل‌های متن‌باز به محققان و پزشکان اجازه می‌دهند تا به‌طور بالقوه معماری مدل را بازرسی کنند و تا حدی، فرآیندهای تصمیم‌گیری آن را بهتر از سیستم‌های انحصاری غیرشفاف درک کنند. این شفافیت می‌تواند اعتماد بیشتری را ایجاد کند و اشکال‌زدایی یا اصلاح را تسهیل کند.

Thomas A. Buckley، دانشجوی دکترا در برنامه هوش مصنوعی در پزشکی هاروارد و نویسنده اول این مطالعه، بر این مزیت حیاتی تأکید کرد. او اظهار داشت: ‘مدل‌های متن‌باز تحقیقات علمی جدیدی را باز می‌کنند زیرا می‌توانند در شبکه خود بیمارستان مستقر شوند’. این قابلیت فراتر از پتانسیل نظری رفته و در را برای کاربرد عملی و ایمن باز می‌کند.

علاوه بر این، ماهیت متن‌باز امکان سطوح بی‌سابقه‌ای از سفارشی‌سازی را فراهم می‌کند. بیمارستان‌ها و گروه‌های تحقیقاتی اکنون می‌توانند این مدل‌های پایه قدرتمند را با استفاده از داده‌های بیمار خاص خود تنظیم دقیق کنند.

  • تنظیم ویژه جمعیت: یک مدل می‌تواند برای انعکاس بهتر جمعیت‌شناسی، بیماری‌های شایع و چالش‌های بهداشتی منحصربه‌فرد یک جمعیت محلی یا منطقه‌ای خاص که توسط یک سیستم بیمارستانی خدمات‌رسانی می‌شود، تطبیق داده شود.
  • همسویی با پروتکل: رفتار هوش مصنوعی می‌تواند برای همسویی با مسیرهای تشخیصی خاص بیمارستان، پروتکل‌های درمانی یا استانداردهای گزارش‌دهی تنظیم شود.
  • کاربردهای تخصصی: محققان می‌توانند نسخه‌های بسیار تخصصی از مدل را متناسب با حوزه‌های پزشکی خاص، مانند پشتیبانی از تفسیر تحلیل تصویر رادیولوژی، غربالگری گزارش آسیب‌شناسی، یا شناسایی الگوهای بیماری نادر توسعه دهند.

Buckley در مورد این پیامد توضیح داد: ‘محققان اکنون می‌توانند مستقیماً از هوش مصنوعی بالینی پیشرفته با داده‌های بیمار استفاده کنند… بیمارستان‌ها می‌توانند از داده‌های بیمار برای توسعه مدل‌های سفارشی استفاده کنند (به‌عنوان مثال، برای همسویی با جمعیت بیمار خود)’. این پتانسیل برای ابزارهای هوش مصنوعی سفارشی، که به‌طور ایمن در داخل سازمان توسعه یافته‌اند، نشان‌دهنده یک جهش قابل توجه به جلو است.

زمینه: موج شوک هوش مصنوعی در موارد پیچیده

تحقیقات تیم هاروارد در مورد Llama 3.1 405B در خلاء انجام نشد. این تا حدی از امواج ایجاد شده توسط تحقیقات قبلی، به‌ویژه یک مقاله قابل توجه در سال 2023 الهام گرفته شده بود. آن مطالعه مهارت شگفت‌انگیز مدل‌های GPT را در مقابله با برخی از گیج‌کننده‌ترین موارد بالینی منتشر شده در مجله معتبر New England Journal of Medicine (NEJM) به نمایش گذاشت. این ‘Case Records of the Massachusetts General Hospital’ در NEJM در محافل پزشکی افسانه‌ای هستند - موارد پیچیده و اغلب گیج‌کننده‌ای که حتی پزشکان باتجربه را نیز به چالش می‌کشند.

Buckley به یاد آورد: ‘این مقاله توجه زیادی را به خود جلب کرد و اساساً نشان داد که این مدل زبان بزرگ، ChatGPT، به نوعی می‌تواند این موارد بالینی فوق‌العاده چالش‌برانگیز را حل کند، که به نوعی مردم را شوکه کرد’. این ایده که یک هوش مصنوعی، اساساً یک ماشین تطبیق الگوی پیچیده که بر روی مقادیر عظیمی از متن آموزش دیده است، می‌تواند اسرار تشخیصی را که اغلب به شهود بالینی عمیق و تجربه نیاز دارند، کشف کند، هم جذاب بود و هم برای برخی، نگران‌کننده.

Buckley افزود: ‘این موارد به‌طور بدنامی دشوار هستند’. ‘آن‌ها برخی از چالش‌برانگیزترین مواردی هستند که در Mass General Hospital دیده می‌شوند، بنابراین برای پزشکان ترسناک هستند، و به همان اندازه ترسناک است وقتی یک مدل هوش مصنوعی می‌تواند همین کار را انجام دهد’. این نمایش قبلی پتانسیل خام LLMها را در پزشکی برجسته کرد، اما همچنین فوریت رسیدگی به مسائل مربوط به حریم خصوصی و کنترل ذاتی سیستم‌های انحصاری را تشدید کرد. اگر هوش مصنوعی اینقدر توانا می‌شد، اطمینان از اینکه می‌توان از آن به‌طور ایمن و اخلاقی با داده‌های واقعی بیمار استفاده کرد، امری حیاتی شد.

انتشار مدل Llama 3.1 405B توسط Meta نشان‌دهنده یک نقطه عطف بالقوه بود. مقیاس عظیم مدل - که با ‘405B’ آن نشان داده می‌شود، اشاره به 405 میلیارد پارامتر (متغیرهایی که مدل در طول آموزش برای پیش‌بینی تنظیم می‌کند) - سطح جدیدی از پیچیدگی را در جامعه متن‌باز نشان می‌داد. این مقیاس عظیم نشان می‌داد که ممکن است پیچیدگی لازم برای رقابت با عملکرد مدل‌های انحصاری سطح بالا مانند GPT-4 را داشته باشد. Buckley توضیح داد: ‘این تقریباً اولین باری بود که ما در نظر گرفتیم، اوه، شاید اتفاق واقعاً متفاوتی در مدل‌های متن‌باز در حال رخ دادن است’، و انگیزه آزمایش Llama 3.1 405B در حوزه پزشکی را توضیح داد.

ترسیم آینده: تحقیق و ادغام در دنیای واقعی

تأیید اینکه مدل‌های متن‌باز با عملکرد بالا برای وظایف حساس پزشکی قابل دوام هستند، پیامدهای عمیقی دارد. همانطور که پروفسور Manrai تأکید کرد، این تحقیق ‘مطالعات و آزمایش‌های جدید زیادی را باز و ممکن می‌سازد’. توانایی کار مستقیم با داده‌های بیمار در شبکه‌های امن بیمارستانی، بدون موانع اخلاقی و لجستیکی اشتراک‌گذاری داده‌های خارجی، یک گلوگاه بزرگ را برای تحقیقات هوش مصنوعی بالینی برطرف می‌کند.

امکانات را تصور کنید:

  • پشتیبانی تصمیم‌گیری در زمان واقعی: ابزارهای هوش مصنوعی مستقیماً در سیستم‌های پرونده الکترونیک سلامت (EHR) ادغام شده‌اند، داده‌های ورودی بیمار را در زمان واقعی تجزیه و تحلیل می‌کنند تا تشخیص‌های بالقوه را پیشنهاد دهند، مقادیر حیاتی آزمایشگاهی را علامت‌گذاری کنند، یا تداخلات دارویی بالقوه را شناسایی کنند، همه اینها در حالی که داده‌ها به‌طور ایمن در سیستم بیمارستان باقی می‌مانند.
  • چرخه‌های تحقیقاتی شتاب‌یافته: محققان می‌توانند به‌سرعت فرضیه‌های هوش مصنوعی را با استفاده از مجموعه داده‌های بزرگ و محلی آزمایش و اصلاح کنند، که به‌طور بالقوه کشف نشانگرهای تشخیصی جدید یا اثربخشی درمان‌ها را تسریع می‌کند.
  • توسعه ابزارهای فوق تخصصی: تیم‌ها می‌توانند بر روی ساخت دستیاران هوش مصنوعی برای تخصص‌های پزشکی خاص یا رویه‌های پیچیده خاص تمرکز کنند که بر روی داده‌های داخلی بسیار مرتبط آموزش دیده‌اند.

پارادایم تغییر می‌کند، همانطور که Manrai به‌طور خلاصه بیان کرد: ‘با این مدل‌های متن‌باز، می‌توانید مدل را به داده‌ها بیاورید، به جای اینکه داده‌های خود را به مدل ارسال کنید’. این بومی‌سازی به مؤسسات مراقبت‌های بهداشتی و محققان قدرت می‌بخشد و نوآوری را در عین رعایت استانداردهای سختگیرانه حریم خصوصی تقویت می‌کند.

عنصر ضروری انسانی: هوش مصنوعی به‌عنوان کمک‌خلبان، نه کاپیتان

علیرغم عملکرد چشمگیر و پتانسیل امیدوارکننده ابزارهای هوش مصنوعی مانند Llama 3.1 405B، محققان درگیر به‌سرعت هیجان را با دوز حیاتی واقع‌گرایی تعدیل می‌کنند. هوش مصنوعی، هر چقدر هم که پیچیده باشد، هنوز - و شاید هرگز - جایگزینی برای پزشکان انسانی نیست. هم Manrai و هم Buckley تأکید کردند که نظارت انسانی کاملاً ضروری باقی می‌ماند.

مدل‌های هوش مصنوعی، از جمله LLMها، محدودیت‌های ذاتی دارند:

  • فقدان درک واقعی: آن‌ها در تشخیص الگو و ترکیب اطلاعات بر اساس داده‌های آموزشی خود برتری دارند، اما فاقد شهود بالینی واقعی، عقل سلیم و توانایی درک ظرایف زمینه زندگی بیمار، وضعیت عاطفی یا نشانه‌های غیرکلامی هستند.
  • پتانسیل برای سوگیری: مدل‌های هوش مصنوعی می‌توانند سوگیری‌های موجود در داده‌های آموزشی خود را به ارث ببرند، که به‌طور بالقوه منجر به توصیه‌ها یا تشخیص‌های جانبدارانه می‌شود، به‌ویژه برای گروه‌های بیمار کمتر نمایندگی شده. مدل‌های متن‌باز در اینجا مزیت بالقوه‌ای ارائه می‌دهند، زیرا داده‌ها و فرآیندهای آموزشی گاهی اوقات می‌توانند با دقت بیشتری بررسی شوند، اما خطر همچنان باقی است.
  • ‘توهمات’ و خطاها: LLMها شناخته شده‌اند که گاهی اوقات اطلاعاتی با ظاهر قابل قبول اما نادرست تولید می‌کنند (که ‘توهمات’ نامیده می‌شوند). در زمینه پزشکی، چنین خطاهایی می‌تواند عواقب شدیدی داشته باشد.
  • ناتوانی در مدیریت موارد جدید: در حالی که آن‌ها می‌توانند الگوهای شناخته شده را پردازش کنند، هوش مصنوعی ممکن است با تظاهرات واقعاً جدید بیماری یا ترکیبات منحصربه‌فرد علائم که به‌خوبی در داده‌های آموزشی آن‌ها نشان داده نشده‌اند، دست و پنجه نرم کند.

بنابراین، نقش پزشکان و سایر متخصصان مراقبت‌های بهداشتی کاهش نمی‌یابد، بلکه متحول می‌شود. آن‌ها به تأییدکنندگان، مفسران و تصمیم‌گیرندگان نهایی حیاتی تبدیل می‌شوند. Buckley توضیح داد: ‘همکاران بالینی ما واقعاً مهم بوده‌اند، زیرا آن‌ها می‌توانند آنچه را که مدل تولید می‌کند بخوانند و آن را به‌صورت کیفی ارزیابی کنند’. خروجی هوش مصنوعی صرفاً یک پیشنهاد است، بخشی از داده‌ها که باید در تصویر بالینی گسترده‌تر به‌طور انتقادی ارزیابی شود. ‘این نتایج تنها زمانی قابل اعتماد هستند که بتوانید آن‌ها را توسط پزشکان ارزیابی کنید’.

Manrai این احساس را تکرار کرد و هوش مصنوعی را نه به‌عنوان یک تشخیص‌دهنده مستقل، بلکه به‌عنوان یک دستیار ارزشمند تصور کرد. در یک بیانیه مطبوعاتی قبلی، او این ابزارها را به‌عنوان ‘کمک‌خلبانان ارزشمند برای پزشکان پرمشغله’ توصیف کرد، مشروط بر اینکه ‘عاقلانه استفاده شوند و به‌طور مسئولانه در زیرساخت‌های بهداشتی فعلی گنجانده شوند’. کلید در ادغام متفکرانه نهفته است، جایی که هوش مصنوعی قابلیت‌های انسانی را تقویت می‌کند - شاید با خلاصه‌سازی سریع تاریخچه‌های گسترده بیمار، پیشنهاد تشخیص‌های افتراقی برای موارد پیچیده، یا علامت‌گذاری خطرات بالقوه - به جای تلاش برای جایگزینی قضاوت پزشک.

Manrai هشدار داد: ‘اما همچنان حیاتی است که پزشکان به هدایت این تلاش‌ها کمک کنند تا اطمینان حاصل شود که هوش مصنوعی برای آن‌ها کار می‌کند’. توسعه و استقرار هوش مصنوعی بالینی باید یک تلاش مشترک باشد که توسط نیازها و تخصص کسانی که در خط مقدم مراقبت از بیمار هستند هدایت شود و اطمینان حاصل شود که فناوری به جای دیکته کردن، در خدمت عمل پزشکی است. مطالعه هاروارد نشان می‌دهد که ابزارهای قدرتمند و ایمن در حال در دسترس شدن هستند؛ گام حیاتی بعدی، استفاده مسئولانه از آن‌ها است.