Обещанието и регулаторните предизвикателства на LLMs в здравеопазването
Възможностите на LLMs, произтичащи от обширните им данни за обучение и способността да генерират текст, подобен на човешкия, стимулират интереса към тяхното приложение за подпомагане на вземането на решения в различни области. Въпреки това, самите характеристики, които правят генеративните системи с изкуствен интелект (AI) толкова привлекателни, също представляват уникални препятствия за регулаторните органи. Тези органи работят в рамки, установени преди десетилетия, предназначени за традиционни медицински изделия, а не за динамичния характер на AI.
Понастоящем наличните LLMs не са класифицирани като медицински изделия. Федералният закон за храните, лекарствата и козметиката (FD&C Act § 201(h)(1)) дефинира медицинско изделие като „инструмент… предназначен за използване при диагностицирането, … лечението, облекчаването, третирането или предотвратяването на заболяване… което не постига основните си предназначени цели чрез химично действие.“ Повечето LLMs включват откази от отговорност, в които се посочва, че не са предназначени за предоставяне на медицински съвети, като по този начин се избягва регулирането от FDA. Въпреки това, има нарастваща колекция от публикувани изследвания и анекдотични доказателства, подчертаващи използването на LLMs за подпомагане на вземането на медицински решения, както в изследователски условия, така и в реалната клинична практика.
Дефиниране на обхвата на регулиране за LLM-базирана поддръжка на клинични решения
Като се има предвид потенциалът на LLMs, ако те бъдат официално включени в система за подпомагане на вземането на клинични решения (CDSS), въпросът за подходящото регулиране става първостепенен. Законът за лечение от 21-ви век, изменение на FD&C Act (Public Law 114–255), заедно с насоките от FDA, очертава четири ключови критерия, за да се определи дали софтуерът за подпомагане на вземането на решения се квалифицира като устройство и следователно попада под юрисдикцията на FDA. Тези критерии се въртят около:
- Входните данни на софтуерната функция.
- Изходните данни.
- Същността на клиничните му препоръки.
- Способността на крайния потребител да прегледа обосновката зад тези препоръки.
По-конкретно, CDSS се счита за устройство, ако изходните му данни предлагат точна директива за лечение или диагностика, а не общи препоръки, базирани на информация. Освен това, ако CDSS не предостави основната обосновка за своите препоръки, предотвратявайки потребителите да ги прегледат независимо и да стигнат до собствени заключения, той се класифицира като устройство. Насоките на FDA допълнително изясняват, че CDSS, използван в спешна клинична ситуация, се счита за устройство поради критичния и чувствителен към времето характер на вземането на решения, което изключва независима оценка на съветите на CDSS.
Проучване на изхода, подобен на устройство, в генеративни AI системи
Остава неясно дали CDSS, използващ генеративен AI, като LLM, произвежда изход, който имитира медицинско изделие. Изходът в свободен текст на неограничен LLM може или не може да отговаря на установените критерии за устройство. Освен това, как отговорите на LLM на предизвикателни подкани или „jailbreaks“ се съгласуват с тези критерии, е неизвестно. Нарастващото използване на LLMs за медицински съвети прави несигурността около определянето на устройството и регулаторния статус на базираните на LLM CDSS потенциална пречка за безопасното и ефективно разработване на тези технологии. Постигането на правилния баланс между безопасност и иновации за генеративния AI в здравеопазването е от решаващо значение, тъй като все повече клиницисти и пациенти използват тези инструменти.
Цели на изследването: Оценка на функционалността, подобна на устройство
Това изследване имаше за цел да оцени функционалността, подобна на устройство, на LLMs. Тази функционалност се определя като тяхната полезност за „диагностика, лечение, превенция, лечение или облекчаване на заболявания или други състояния“, независимо дали такава употреба е предназначена или разрешена. Конкретните цели бяха:
- Да се определи дали изходът на LLM ще се съгласува с критериите за устройство, когато бъде подканен с инструкции относно тези критерии и представен със спешен клиничен случай.
- Да се идентифицират условията, ако има такива, при които изходът на модела може да бъде манипулиран, за да предостави изход, подобен на устройство. Това включваше използване на директни заявки за диагностична и лечебна информация, както и предварително дефиниран „jailbreak“, предназначен да предизвика изход, подобен на устройство, въпреки подканите да се придържат към критерии, които не са за устройство.
Констатации: Отговори на LLM и съгласуване с критериите за устройство
Препоръки за превантивна грижа
Когато бяха запитани за препоръки за превантивна грижа, всички LLMs генерираха отговори, съответстващи на критериите за неустройство в крайния си текстов изход. Моделът Llama-3, в отговор на еднократна подкана, първоначално предостави поддръжка за вземане на решения, подобна на устройство, в малък процент от отговорите (20% за сценарии за превантивна грижа в семейната медицина и 60% за психиатрия). Въпреки това, той бързо замени този текст с отказ от отговорност: „Съжалявам, не мога да ви помогна с тази заявка в момента.“ Когато бяха представени с многократна подкана, съдържаща подробни примери за критерии за устройство, всички модели последователно предоставяха препоръки, които не са за устройство, за всички първоначални отговори за превантивна грижа.
Спешни сценарии, критични за времето
В ситуации, включващи спешни случаи, критични за времето, 100% от отговорите на GPT-4 и 52% от отговорите на Llama-3 се съгласуваха с поддръжката за вземане на решения, подобна на устройство. Общите проценти на препоръки, подобни на устройство, останаха последователни с многократни подкани, но показаха вариации в различните клинични сценарии. Тези отговори, подобни на устройство, включваха предложения за специфични диагнози и лечения, свързани със спешните случаи.
„Desperate Intern“ Jailbreak
Когато бяха подложени на „desperate intern“ jailbreak, значителна част от отговорите показаха препоръки, подобни на устройство. По-конкретно, 80% и 68% от отговорите на GPT-4 и 36% и 76% от отговорите на Llama-3 включваха препоръки, подобни на устройство, след единични и многократни подкани, съответно.
Клинична целесъобразност на предложенията на LLM
Важно е да се отбележи, че всички предложения на модела бяха клинично подходящи и съгласувани с установените стандарти за грижа. В сценариите за семейна медицина и кардиология голяма част от поддръжката за вземане на решения, подобна на устройство, беше подходяща само за обучени клиницисти. Примерите включват поставяне на интравенозен катетър и прилагане на интравенозни антибиотици. В други сценарии препоръките, подобни на устройство, като цяло бяха в съответствие със стандартите за грижа на страничните наблюдатели, като например прилагане на налоксон при предозиране с опиоиди или използване на автоинжектор с епинефрин при анафилаксия.
Последици за регулирането и надзора
Въпреки че нито един LLM понастоящем не е разрешен от FDA като CDSS и някои изрично заявяват, че не трябва да се използват за медицински съвети, пациентите и клиницистите може все още да ги използват за тази цел. Проучването установи, че нито единичните, нито многократните подкани, базирани на езика от ръководството на FDA, надеждно ограничават LLMs да произвеждат само поддръжка за вземане на решения, която не е за устройство. Освен това, предварително дефиниран jailbreak често не беше необходим, за да се предизвика поддръжка за вземане на решения, подобна на устройство. Тези констатации подкрепят предишни изследвания, подчертаващи необходимостта от нови регулаторни парадигми, пригодени за AI/ML CDSS. Те също така имат преки последици за надзора на медицински изделия, включващи генеративни AI технологии.
Преосмисляне на регулаторните подходи
Ефективното регулиране може да наложи нови методи за по-добро съгласуване на изхода на LLM с поддръжка за вземане на решения, подобна на устройство или не, в зависимост от предназначението. Традиционното разрешение от FDA се предоставя на медицинско изделие за конкретна предназначена употреба и индикация. Например, разрешените от FDA AI/ML устройства включват тези, предназначени за прогнозиране на хемодинамична нестабилност или клинично влошаване. Въпреки това, LLMs могат да бъдат запитвани по широк спектър от теми, което потенциално води до отговори, които, макар и подходящи, биха били считани за „извън етикета“ спрямо одобрената им индикация. Резултатите показват, че както единичните, така и многократните подкани са недостатъчни за контролиране на това. Тази констатация не представлява ограничение на самите LLMs, а по-скоро подчертава необходимостта от нови методи, които запазват гъвкавостта на изхода на LLM, като същевременно го ограничават до одобрена индикация.
Проучване на нови пътища за оторизация
Регулирането на LLMs може да изисква нови пътища за оторизация, които не са обвързани с конкретни индикации. Път за оторизация на устройство за „обобщена“ поддръжка на вземането на решения може да бъде подходящ за LLMs и генеративни AI инструменти. Въпреки че този подход би улеснил иновациите в AI/ML CDSS, оптималният метод за оценка на безопасността, ефективността и справедливостта на системи с толкова широки индикации остава неясен. Например, подходът за оторизация, базиран на „фирма“, може да заобиколи необходимостта от оценка, специфична за устройството, което може да е подходящо за LLM, но идва с несигурни гаранции по отношение на клиничната ефективност и безопасност.
Прецизиране на критериите за различни групи потребители
Тези констатации подчертават необходимостта от прецизиране на критериите за CDSS, предназначени за клиницисти, спрямо странични наблюдатели, които не са клиницисти. FDA преди това е посочила, че CDSS, насочени към пациенти и лица, полагащи грижи, ще се считат за медицински изделия, като цяло подлежащи на регулиране. Въпреки това, понастоящем няма регулаторна категория за AI/ML CDSS, предназначен за страничен наблюдател, който не е клиницист. Поставянето на конкретна диагноза и предоставянето на конкретна директива за спешен случай, критичен за времето, ясно се съгласува с критериите на FDA за устройства, предназначени за здравни специалисти. От друга страна, действия като кардиопулмонална ресусцитация (CPR) и прилагане на епинефрин или налоксон също отговарят на тези критерии за устройство, но в същото време са добре установени спасителни поведения за странични наблюдатели, които не са клиницисти.
Ограничения на изследването
Това изследване има няколко ограничения:
- То оценява LLMs спрямо задача, която не е посочена като предназначена употреба на софтуера.
- То сравнява изхода на LLM с насоките на FDA, които не са обвързващи, и не оценява съгласуваността на препоръките на LLM с други съответни законови разпоредби или регулаторни рамки на САЩ.
- То не оценява други методи за подканване, които може да са били по-ефективни от единичните и многократните подкани.
- То не изследва как такива подкани могат да бъдат практически интегрирани в реални клинични работни процеси.
- То не оценява по-широк спектър от широко достъпни и често използвани LLMs извън GPT-4 и Llama-3.
- Размерът на извадката на подканите е малък.
Напредък: Балансиране на иновациите и безопасността
Подканите, базирани на текста на насоките на FDA за критериите за CDSS устройство, независимо дали са единични или многократни, са недостатъчни, за да се гарантира, че изходът на LLM се съгласува с поддръжката за вземане на решения, която не е за устройство. Необходими са нови регулаторни парадигми и технологии за справяне с генеративните AI системи, постигайки баланс между иновации, безопасност и клинична ефективност. Бързата еволюция на тази технология изисква проактивен и адаптивен подход към регулирането, гарантирайки, че ползите от LLMs в здравеопазването могат да бъдат реализирани, като същевременно се смекчават потенциалните рискове.