پیشروی بیوقفه هوش مصنوعی همچنان به بازآفرینی صنایع ادامه میدهد و شاید هیچکجا به اندازه حوزه پزشکی، مخاطرات بالاتر و پتانسیل عمیقتر نباشد. سالهاست که قدرتمندترین مدلهای هوش مصنوعی، بهویژه مدلهای زبان بزرگ (LLMs) که قادر به پردازش و تولید متن شبهانسانی هستند، عمدتاً پشت دیوارهای محافظ غولهای فناوری قرار داشتهاند. این سیستمهای انحصاری، مانند GPT-4 که بهطور گسترده مورد بحث قرار گرفته از OpenAI، استعداد قابلتوجهی از خود نشان دادهاند، حتی تا قلمرو پیچیده تشخیص پزشکی نیز گسترش یافتهاند. با این حال، ماهیت ‘جعبه سیاه’ آنها و لزوم ارسال اطلاعات حساس به سرورهای خارجی، موانع قابلتوجهی برای پذیرش گسترده و ایمن در محیطهای مراقبتهای بهداشتی ایجاد کرده است، جایی که حریم خصوصی بیمار فقط یک اولویت نیست، بلکه یک الزام است. یک سؤال حیاتی باقی مانده بود: آیا دنیای نوظهور هوش مصنوعی متنباز میتواند چالش را بپذیرد و قدرت قابل مقایسهای را بدون به خطر انداختن کنترل و محرمانگی ارائه دهد؟
یافتههای اخیر که از سالنهای معتبر دانشکده پزشکی هاروارد (HMS) منتشر شده است، نشان میدهد که پاسخ یک ‘بله’ قاطع است و نقطه عطفی بالقوه در کاربرد هوش مصنوعی در محیطهای بالینی را نشان میدهد. محققان بهدقت یک مدل متنباز پیشرو را با همتای انحصاری پرآوازهاش مقایسه کردند و نتایجی را کشف کردند که میتواند دسترسی به ابزارهای کمکی تشخیصی پیشرفته را دموکراتیک کند.
یک مدعی جدید وارد عرصه تشخیص میشود
در مطالعهای که توجه جوامع پزشکی و فناوری را به خود جلب کرده است، محققان HMS مدل متنباز Llama 3.1 405B را در برابر GPT-4 قدرتمند قرار دادند. زمین آزمایش مجموعهای با دقت انتخاب شده از 70 مطالعه موردی پزشکی چالشبرانگیز بود. اینها سناریوهای معمولی نبودند؛ آنها معماهای تشخیصی پیچیدهای را نشان میدادند که اغلب در عمل بالینی با آنها مواجه میشویم. هدف روشن بود: ارزیابی هوش تشخیصی هر مدل هوش مصنوعی بهصورت رودررو.
نتایج منتشر شده اخیر، چشمگیر بود. مدل Llama 3.1 405B، که بهصورت رایگان برای دانلود، بازرسی و اصلاح در دسترس کاربران است، دقت تشخیصی برابر با، و در برخی معیارها حتی فراتر از، GPT-4 را نشان داد. بهطور خاص، هنگام ارزیابی صحت پیشنهاد تشخیصی اولیه ارائه شده توسط هر مدل، Llama 3.1 405B برتری داشت. علاوه بر این، هنگام در نظر گرفتن تشخیص نهایی پیشنهاد شده پس از پردازش جزئیات مورد، رقیب متنباز دوباره توانایی خود را در برابر معیار تثبیت شده ثابت کرد.
این دستاورد نه تنها به خاطر خود عملکرد، بلکه به خاطر آنچه نشان میدهد، قابل توجه است. برای اولین بار، یک ابزار متنباز بهراحتی در دسترس و شفاف ثابت کرده است که قادر به عملکرد در همان سطح بالای سیستمهای پیشرو منبع بسته در وظیفه دشوار تشخیص پزشکی بر اساس مطالعات موردی است. Arjun K. Manrai ’08، استاد HMS که بر این تحقیق نظارت داشت، برابری در عملکرد را ‘بسیار قابل توجه’ توصیف کرد، بهویژه با توجه به زمینه تاریخی.
مزیت متنباز: گشودن قفل حریم خصوصی دادهها و سفارشیسازی
تغییردهنده واقعی بازی که توسط مطالعه هاروارد برجسته شده است، در تفاوت اساسی بین مدلهای متنباز و انحصاری نهفته است: دسترسیپذیری و کنترل. مدلهای انحصاری مانند GPT-4 معمولاً از کاربران میخواهند که دادهها را برای پردازش به سرورهای ارائهدهنده ارسال کنند. در مراقبتهای بهداشتی، این بلافاصله زنگ خطر را به صدا در میآورد. اطلاعات بیمار - علائم، سابقه پزشکی، نتایج آزمایش - از حساسترین دادههای قابل تصور است که توسط مقررات سختگیرانهای مانند HIPAA در ایالات متحده محافظت میشود. چشمانداز انتقال این دادهها به خارج از شبکه امن بیمارستان، حتی برای بهرهمندی بالقوه از تجزیه و تحلیل پیشرفته هوش مصنوعی، یک مانع بزرگ بوده است.
مدلهای متنباز، مانند Llama 3.1 405B، اساساً این پویایی را تغییر میدهند. از آنجا که کد و پارامترهای مدل بهصورت عمومی در دسترس هستند، مؤسسات میتوانند آن را در زیرساخت امن خود دانلود و مستقر کنند.
- حاکمیت دادهها: بیمارستانها میتوانند هوش مصنوعی را کاملاً روی سرورهای محلی یا ابرهای خصوصی خود اجرا کنند. دادههای بیمار هرگز نیازی به خروج از محیط محافظت شده مؤسسه ندارند و بهطور مؤثر نگرانیهای مربوط به حریم خصوصی مرتبط با انتقال دادههای خارجی را از بین میبرند. این مفهوم اغلب بهعنوان آوردن ‘مدل به دادهها’ به جای ارسال ‘دادهها به مدل’ نامیده میشود.
- امنیت پیشرفته: نگه داشتن فرآیند در داخل سازمان بهطور قابل توجهی سطح حمله را برای نقض احتمالی دادههای مربوط به ارائهدهندگان هوش مصنوعی شخص ثالث کاهش میدهد. کنترل بر محیط عملیاتی کاملاً در اختیار مؤسسه مراقبتهای بهداشتی باقی میماند.
- شفافیت و قابلیت حسابرسی: مدلهای متنباز به محققان و پزشکان اجازه میدهند تا بهطور بالقوه معماری مدل را بازرسی کنند و تا حدی، فرآیندهای تصمیمگیری آن را بهتر از سیستمهای انحصاری غیرشفاف درک کنند. این شفافیت میتواند اعتماد بیشتری را ایجاد کند و اشکالزدایی یا اصلاح را تسهیل کند.
Thomas A. Buckley، دانشجوی دکترا در برنامه هوش مصنوعی در پزشکی هاروارد و نویسنده اول این مطالعه، بر این مزیت حیاتی تأکید کرد. او اظهار داشت: ‘مدلهای متنباز تحقیقات علمی جدیدی را باز میکنند زیرا میتوانند در شبکه خود بیمارستان مستقر شوند’. این قابلیت فراتر از پتانسیل نظری رفته و در را برای کاربرد عملی و ایمن باز میکند.
علاوه بر این، ماهیت متنباز امکان سطوح بیسابقهای از سفارشیسازی را فراهم میکند. بیمارستانها و گروههای تحقیقاتی اکنون میتوانند این مدلهای پایه قدرتمند را با استفاده از دادههای بیمار خاص خود تنظیم دقیق کنند.
- تنظیم ویژه جمعیت: یک مدل میتواند برای انعکاس بهتر جمعیتشناسی، بیماریهای شایع و چالشهای بهداشتی منحصربهفرد یک جمعیت محلی یا منطقهای خاص که توسط یک سیستم بیمارستانی خدماترسانی میشود، تطبیق داده شود.
- همسویی با پروتکل: رفتار هوش مصنوعی میتواند برای همسویی با مسیرهای تشخیصی خاص بیمارستان، پروتکلهای درمانی یا استانداردهای گزارشدهی تنظیم شود.
- کاربردهای تخصصی: محققان میتوانند نسخههای بسیار تخصصی از مدل را متناسب با حوزههای پزشکی خاص، مانند پشتیبانی از تفسیر تحلیل تصویر رادیولوژی، غربالگری گزارش آسیبشناسی، یا شناسایی الگوهای بیماری نادر توسعه دهند.
Buckley در مورد این پیامد توضیح داد: ‘محققان اکنون میتوانند مستقیماً از هوش مصنوعی بالینی پیشرفته با دادههای بیمار استفاده کنند… بیمارستانها میتوانند از دادههای بیمار برای توسعه مدلهای سفارشی استفاده کنند (بهعنوان مثال، برای همسویی با جمعیت بیمار خود)’. این پتانسیل برای ابزارهای هوش مصنوعی سفارشی، که بهطور ایمن در داخل سازمان توسعه یافتهاند، نشاندهنده یک جهش قابل توجه به جلو است.
زمینه: موج شوک هوش مصنوعی در موارد پیچیده
تحقیقات تیم هاروارد در مورد Llama 3.1 405B در خلاء انجام نشد. این تا حدی از امواج ایجاد شده توسط تحقیقات قبلی، بهویژه یک مقاله قابل توجه در سال 2023 الهام گرفته شده بود. آن مطالعه مهارت شگفتانگیز مدلهای GPT را در مقابله با برخی از گیجکنندهترین موارد بالینی منتشر شده در مجله معتبر New England Journal of Medicine (NEJM) به نمایش گذاشت. این ‘Case Records of the Massachusetts General Hospital’ در NEJM در محافل پزشکی افسانهای هستند - موارد پیچیده و اغلب گیجکنندهای که حتی پزشکان باتجربه را نیز به چالش میکشند.
Buckley به یاد آورد: ‘این مقاله توجه زیادی را به خود جلب کرد و اساساً نشان داد که این مدل زبان بزرگ، ChatGPT، به نوعی میتواند این موارد بالینی فوقالعاده چالشبرانگیز را حل کند، که به نوعی مردم را شوکه کرد’. این ایده که یک هوش مصنوعی، اساساً یک ماشین تطبیق الگوی پیچیده که بر روی مقادیر عظیمی از متن آموزش دیده است، میتواند اسرار تشخیصی را که اغلب به شهود بالینی عمیق و تجربه نیاز دارند، کشف کند، هم جذاب بود و هم برای برخی، نگرانکننده.
Buckley افزود: ‘این موارد بهطور بدنامی دشوار هستند’. ‘آنها برخی از چالشبرانگیزترین مواردی هستند که در Mass General Hospital دیده میشوند، بنابراین برای پزشکان ترسناک هستند، و به همان اندازه ترسناک است وقتی یک مدل هوش مصنوعی میتواند همین کار را انجام دهد’. این نمایش قبلی پتانسیل خام LLMها را در پزشکی برجسته کرد، اما همچنین فوریت رسیدگی به مسائل مربوط به حریم خصوصی و کنترل ذاتی سیستمهای انحصاری را تشدید کرد. اگر هوش مصنوعی اینقدر توانا میشد، اطمینان از اینکه میتوان از آن بهطور ایمن و اخلاقی با دادههای واقعی بیمار استفاده کرد، امری حیاتی شد.
انتشار مدل Llama 3.1 405B توسط Meta نشاندهنده یک نقطه عطف بالقوه بود. مقیاس عظیم مدل - که با ‘405B’ آن نشان داده میشود، اشاره به 405 میلیارد پارامتر (متغیرهایی که مدل در طول آموزش برای پیشبینی تنظیم میکند) - سطح جدیدی از پیچیدگی را در جامعه متنباز نشان میداد. این مقیاس عظیم نشان میداد که ممکن است پیچیدگی لازم برای رقابت با عملکرد مدلهای انحصاری سطح بالا مانند GPT-4 را داشته باشد. Buckley توضیح داد: ‘این تقریباً اولین باری بود که ما در نظر گرفتیم، اوه، شاید اتفاق واقعاً متفاوتی در مدلهای متنباز در حال رخ دادن است’، و انگیزه آزمایش Llama 3.1 405B در حوزه پزشکی را توضیح داد.
ترسیم آینده: تحقیق و ادغام در دنیای واقعی
تأیید اینکه مدلهای متنباز با عملکرد بالا برای وظایف حساس پزشکی قابل دوام هستند، پیامدهای عمیقی دارد. همانطور که پروفسور Manrai تأکید کرد، این تحقیق ‘مطالعات و آزمایشهای جدید زیادی را باز و ممکن میسازد’. توانایی کار مستقیم با دادههای بیمار در شبکههای امن بیمارستانی، بدون موانع اخلاقی و لجستیکی اشتراکگذاری دادههای خارجی، یک گلوگاه بزرگ را برای تحقیقات هوش مصنوعی بالینی برطرف میکند.
امکانات را تصور کنید:
- پشتیبانی تصمیمگیری در زمان واقعی: ابزارهای هوش مصنوعی مستقیماً در سیستمهای پرونده الکترونیک سلامت (EHR) ادغام شدهاند، دادههای ورودی بیمار را در زمان واقعی تجزیه و تحلیل میکنند تا تشخیصهای بالقوه را پیشنهاد دهند، مقادیر حیاتی آزمایشگاهی را علامتگذاری کنند، یا تداخلات دارویی بالقوه را شناسایی کنند، همه اینها در حالی که دادهها بهطور ایمن در سیستم بیمارستان باقی میمانند.
- چرخههای تحقیقاتی شتابیافته: محققان میتوانند بهسرعت فرضیههای هوش مصنوعی را با استفاده از مجموعه دادههای بزرگ و محلی آزمایش و اصلاح کنند، که بهطور بالقوه کشف نشانگرهای تشخیصی جدید یا اثربخشی درمانها را تسریع میکند.
- توسعه ابزارهای فوق تخصصی: تیمها میتوانند بر روی ساخت دستیاران هوش مصنوعی برای تخصصهای پزشکی خاص یا رویههای پیچیده خاص تمرکز کنند که بر روی دادههای داخلی بسیار مرتبط آموزش دیدهاند.
پارادایم تغییر میکند، همانطور که Manrai بهطور خلاصه بیان کرد: ‘با این مدلهای متنباز، میتوانید مدل را به دادهها بیاورید، به جای اینکه دادههای خود را به مدل ارسال کنید’. این بومیسازی به مؤسسات مراقبتهای بهداشتی و محققان قدرت میبخشد و نوآوری را در عین رعایت استانداردهای سختگیرانه حریم خصوصی تقویت میکند.
عنصر ضروری انسانی: هوش مصنوعی بهعنوان کمکخلبان، نه کاپیتان
علیرغم عملکرد چشمگیر و پتانسیل امیدوارکننده ابزارهای هوش مصنوعی مانند Llama 3.1 405B، محققان درگیر بهسرعت هیجان را با دوز حیاتی واقعگرایی تعدیل میکنند. هوش مصنوعی، هر چقدر هم که پیچیده باشد، هنوز - و شاید هرگز - جایگزینی برای پزشکان انسانی نیست. هم Manrai و هم Buckley تأکید کردند که نظارت انسانی کاملاً ضروری باقی میماند.
مدلهای هوش مصنوعی، از جمله LLMها، محدودیتهای ذاتی دارند:
- فقدان درک واقعی: آنها در تشخیص الگو و ترکیب اطلاعات بر اساس دادههای آموزشی خود برتری دارند، اما فاقد شهود بالینی واقعی، عقل سلیم و توانایی درک ظرایف زمینه زندگی بیمار، وضعیت عاطفی یا نشانههای غیرکلامی هستند.
- پتانسیل برای سوگیری: مدلهای هوش مصنوعی میتوانند سوگیریهای موجود در دادههای آموزشی خود را به ارث ببرند، که بهطور بالقوه منجر به توصیهها یا تشخیصهای جانبدارانه میشود، بهویژه برای گروههای بیمار کمتر نمایندگی شده. مدلهای متنباز در اینجا مزیت بالقوهای ارائه میدهند، زیرا دادهها و فرآیندهای آموزشی گاهی اوقات میتوانند با دقت بیشتری بررسی شوند، اما خطر همچنان باقی است.
- ‘توهمات’ و خطاها: LLMها شناخته شدهاند که گاهی اوقات اطلاعاتی با ظاهر قابل قبول اما نادرست تولید میکنند (که ‘توهمات’ نامیده میشوند). در زمینه پزشکی، چنین خطاهایی میتواند عواقب شدیدی داشته باشد.
- ناتوانی در مدیریت موارد جدید: در حالی که آنها میتوانند الگوهای شناخته شده را پردازش کنند، هوش مصنوعی ممکن است با تظاهرات واقعاً جدید بیماری یا ترکیبات منحصربهفرد علائم که بهخوبی در دادههای آموزشی آنها نشان داده نشدهاند، دست و پنجه نرم کند.
بنابراین، نقش پزشکان و سایر متخصصان مراقبتهای بهداشتی کاهش نمییابد، بلکه متحول میشود. آنها به تأییدکنندگان، مفسران و تصمیمگیرندگان نهایی حیاتی تبدیل میشوند. Buckley توضیح داد: ‘همکاران بالینی ما واقعاً مهم بودهاند، زیرا آنها میتوانند آنچه را که مدل تولید میکند بخوانند و آن را بهصورت کیفی ارزیابی کنند’. خروجی هوش مصنوعی صرفاً یک پیشنهاد است، بخشی از دادهها که باید در تصویر بالینی گستردهتر بهطور انتقادی ارزیابی شود. ‘این نتایج تنها زمانی قابل اعتماد هستند که بتوانید آنها را توسط پزشکان ارزیابی کنید’.
Manrai این احساس را تکرار کرد و هوش مصنوعی را نه بهعنوان یک تشخیصدهنده مستقل، بلکه بهعنوان یک دستیار ارزشمند تصور کرد. در یک بیانیه مطبوعاتی قبلی، او این ابزارها را بهعنوان ‘کمکخلبانان ارزشمند برای پزشکان پرمشغله’ توصیف کرد، مشروط بر اینکه ‘عاقلانه استفاده شوند و بهطور مسئولانه در زیرساختهای بهداشتی فعلی گنجانده شوند’. کلید در ادغام متفکرانه نهفته است، جایی که هوش مصنوعی قابلیتهای انسانی را تقویت میکند - شاید با خلاصهسازی سریع تاریخچههای گسترده بیمار، پیشنهاد تشخیصهای افتراقی برای موارد پیچیده، یا علامتگذاری خطرات بالقوه - به جای تلاش برای جایگزینی قضاوت پزشک.
Manrai هشدار داد: ‘اما همچنان حیاتی است که پزشکان به هدایت این تلاشها کمک کنند تا اطمینان حاصل شود که هوش مصنوعی برای آنها کار میکند’. توسعه و استقرار هوش مصنوعی بالینی باید یک تلاش مشترک باشد که توسط نیازها و تخصص کسانی که در خط مقدم مراقبت از بیمار هستند هدایت شود و اطمینان حاصل شود که فناوری به جای دیکته کردن، در خدمت عمل پزشکی است. مطالعه هاروارد نشان میدهد که ابزارهای قدرتمند و ایمن در حال در دسترس شدن هستند؛ گام حیاتی بعدی، استفاده مسئولانه از آنها است.