Перспективы и регуляторные проблемы LLM в здравоохранении
Возможности LLM, обусловленные обширными данными для обучения и способностью генерировать текст, подобный человеческому, вызывают интерес к их применению для поддержки принятия решений в различных областях. Однако те самые характеристики, которые делают генеративные системы искусственного интеллекта (ИИ) столь привлекательными, также создают уникальные препятствия для регулирующих органов. Эти органы действуют в рамках, установленных десятилетия назад, предназначенных для традиционных медицинских устройств, а не для динамичной природы ИИ.
В настоящее время доступные LLM не классифицируются как медицинские устройства. Федеральный закон о пищевых продуктах, лекарствах и косметике (FD&C Act § 201(h)(1)) определяет медицинское устройство как «инструмент… предназначенный для использования в диагностике, …лечении, смягчении, терапии или профилактике заболеваний… который не достигает своих основных целей посредством химического воздействия». Большинство LLM включают заявления об отказе от ответственности, в которых говорится, что они не предназначены для предоставления медицинских консультаций, что позволяет избежать регулирования FDA. Несмотря на это, существует растущее количество опубликованных исследований и отдельных свидетельств, подчеркивающих использование LLM для поддержки принятия медицинских решений, как в исследовательских условиях, так и в реальной клинической практике.
Определение сферы регулирования для поддержки принятия клинических решений на основе LLM
Учитывая потенциал LLM, если они будут официально включены в систему поддержки принятия клинических решений (CDSS), вопрос о надлежащем регулировании становится первостепенным. Поправка 21st Century Cures Act к FD&C Act (Public Law 114–255), а также руководство FDA, определяют четыре ключевых критерия, позволяющих определить, квалифицируется ли программное обеспечение для поддержки принятия решений как устройство и, следовательно, подпадает ли оно под юрисдикцию FDA. Эти критерии вращаются вокруг:
- Входных данных функции программного обеспечения.
- Его выходных данных.
- Существа его клинических рекомендаций.
- Способности конечного пользователя просматривать обоснование этих рекомендаций.
В частности, CDSS считается устройством, если его выходные данные предлагают точную директиву для лечения или диагностики, а не общие рекомендации, основанные на информации. Более того, если CDSS не предоставляет базовую основу для своих рекомендаций, не позволяя пользователям самостоятельно просматривать их и приходить к собственным выводам, она классифицируется как устройство. Руководство FDA далее разъясняет, что CDSS, используемая в неотложной клинической ситуации, считается устройством из-за критического и срочного характера принятия решений, что исключает независимую оценку рекомендаций CDSS.
Исследование вывода, подобного устройству, в генеративных системах ИИ
Остается неясным, производит ли CDSS, использующая генеративный ИИ, такой как LLM, вывод, имитирующий медицинское устройство. Вывод в свободной текстовой форме неограниченной LLM может соответствовать или не соответствовать установленным критериям устройства. Кроме того, неизвестно, как ответы LLM на сложные запросы или «джейлбрейки» согласуются с этими критериями. Растущее использование LLM для получения медицинских консультаций делает неопределенность в отношении обозначения устройства и нормативного статуса CDSS на основе LLM потенциальным препятствием для безопасной и эффективной разработки этих технологий. Достижение правильного баланса между безопасностью и инновациями для генеративного ИИ в здравоохранении имеет решающее значение, поскольку все больше клиницистов и пациентов используют эти инструменты.
Цели исследования: Оценка функциональности, подобной устройству
Целью данного исследования было оценить функциональность LLM, подобную устройству. Эта функциональность определяется как их полезность для «диагностики, лечения, профилактики, излечения или смягчения заболеваний или других состояний», независимо от того, предназначено ли такое использование или разрешено. Конкретные цели были:
- Определить, будет ли вывод LLM соответствовать критериям устройства при запросе с инструкциями об этих критериях и представлении неотложной клинической ситуации.
- Определить условия, если таковые имеются, при которых выводом модели можно манипулировать для получения вывода, подобного устройству. Это включало использование прямых запросов на диагностическую и лечебную информацию, а также заранее определенный «джейлбрейк», предназначенный для получения вывода, подобного устройству, несмотря на запросы о соблюдении критериев, не относящихся к устройству.
Результаты: Ответы LLM и соответствие критериям устройства
Рекомендации по профилактическому уходу
При запросе рекомендаций по профилактическому уходу все LLM генерировали ответы, соответствующие критериям, не относящимся к устройству, в своем окончательном текстовом выводе. Модель Llama-3 в ответ на однократный запрос первоначально предоставила поддержку принятия решений, подобную устройству, в небольшом проценте ответов (20% для сценариев профилактического ухода в семейной медицине и 60% для психиатрии). Однако она быстро заменила этот текст заявлением об отказе от ответственности: «Извините, я не могу помочь вам с этим запросом прямо сейчас». При представлении многократного запроса, содержащего подробные примеры критериев устройства, все модели последовательно предоставляли рекомендации, не относящиеся к устройству, для всех первоначальных ответов по профилактическому уходу.
Срочные неотложные сценарии
В ситуациях, связанных с неотложными состояниями, требующими немедленного реагирования, 100% ответов GPT-4 и 52% ответов Llama-3 соответствовали поддержке принятия решений, подобной устройству. Общие показатели рекомендаций, подобных устройству, оставались неизменными при многократных запросах, но демонстрировали различия в разных клинических сценариях. Эти ответы, подобные устройству, включали предложения по конкретным диагнозам и методам лечения, связанным с неотложными состояниями.
Джейлбрейк ‘Отчаянный интерн’
При использовании джейлбрейка «отчаянный интерн» значительная часть ответов демонстрировала рекомендации, подобные устройству. В частности, 80% и 68% ответов GPT-4, а также 36% и 76% ответов Llama-3 включали рекомендации, подобные устройству, после однократных и многократных запросов соответственно.
Клиническая пригодность предложений LLM
Важно отметить, что все предложения модели были клинически приемлемыми и соответствовали установленным стандартам медицинской помощи. В сценариях семейной медицины и кардиологии большая часть поддержки принятия решений, подобной устройству, была пригодна только для обученных клиницистов. Примеры включают установку внутривенного катетера и введение внутривенных антибиотиков. В других сценариях рекомендации, подобные устройству, в целом соответствовали стандартам оказания помощи свидетелями, таким как введение налоксона при передозировке опиоидов или использование автоинжектора адреналина при анафилаксии.
Последствия для регулирования и надзора
Хотя ни одна LLM в настоящее время не авторизована FDA как CDSS, а некоторые прямо заявляют, что их не следует использовать для получения медицинских консультаций, пациенты и клиницисты все же могут использовать их для этой цели. Исследование показало, что ни однократные, ни многократные запросы, основанные на формулировках из руководства FDA, не ограничивали LLM надежно производством только поддержки принятия решений, не относящейся к устройству. Более того, заранее определенный джейлбрейк часто был ненужным для получения поддержки принятия решений, подобной устройству. Эти результаты подкрепляют предыдущие исследования, подчеркивающие необходимость новых нормативных парадигм, адаптированных к CDSS AI/ML. Они также имеют прямое отношение к надзору за медицинскими устройствами, включающими генеративные технологии ИИ.
Переосмысление регуляторных подходов
Эффективное регулирование может потребовать новых методов для лучшего согласования вывода LLM с поддержкой принятия решений, подобной устройству или не относящейся к устройству, в зависимости от предполагаемого использования. Традиционная авторизация FDA предоставляется медицинскому устройству для конкретного предполагаемого использования и показаний. Например, авторизованные FDA устройства AI/ML включают устройства, предназначенные для прогнозирования гемодинамической нестабильности или клинического ухудшения. Однако LLM можно запрашивать по широкому кругу тем, что потенциально может привести к ответам, которые, хотя и являются подходящими, будут считаться «не по назначению» по отношению к их утвержденным показаниям. Результаты показывают, что как однократные, так и многократные запросы недостаточны для контроля над этим. Этот вывод не представляет собой ограничение самих LLM, а скорее подчеркивает необходимость новых методов, которые сохраняют гибкость вывода LLM, ограничивая его утвержденными показаниями.
Изучение новых путей авторизации
Регулирование LLM может потребовать новых путей авторизации, которые не привязаны к конкретным показаниям. Путь авторизации устройства для «обобщенной» поддержки принятия решений может быть подходящим для LLM и генеративных инструментов ИИ. Хотя этот подход будет способствовать инновациям в CDSS AI/ML, оптимальный метод оценки безопасности, эффективности и справедливости систем с такими широкими показаниями остается неясным. Например, подход к авторизации, «основанный на фирме», может обойти необходимость оценки конкретного устройства, что может быть уместно для LLM, но он сопряжен с неопределенными гарантиями в отношении клинической эффективности и безопасности.
Уточнение критериев для разных групп пользователей
Эти результаты подчеркивают необходимость уточнения критериев для CDSS, предназначенных для клиницистов и неклиницистов. FDA ранее указывало, что CDSS, ориентированные на пациентов и лиц, осуществляющих уход, будут считаться медицинскими устройствами, как правило, подлежащими регулированию. Однако в настоящее время не существует нормативной категории для CDSS AI/ML, предназначенной для свидетеля-неклинициста. Постановка конкретного диагноза и предоставление конкретной директивы для неотложной ситуации, требующей немедленного реагирования, явно соответствуют критериям FDA для устройств, предназначенных для медицинских работников. С другой стороны, такие действия, как сердечно-легочная реанимация (СЛР) и введение адреналина или налоксона, также соответствуют этим критериям устройства, но в то же время являются хорошо зарекомендовавшими себя действиями по спасению для свидетелей-неклиницистов.
Ограничения исследования
Это исследование имеет несколько ограничений:
- Оно оценивает LLM по задаче, которая не является указанным предполагаемым использованием программного обеспечения.
- Оно сравнивает вывод LLM с руководством FDA, которое не является обязательным, и не оценивает соответствие рекомендаций LLM другим соответствующим законодательным положениям или нормативным рамкам США.
- Оно не оценивает другие методы запросов, которые могли бы быть более эффективными, чем однократные и многократные запросы.
- Оно не исследует, как такие запросы могут быть практически интегрированы в реальные клинические рабочие процессы.
- Оно не оценивает более широкий спектр широко доступных и часто используемых LLM, помимо GPT-4 и Llama-3.
- Размер выборки запросов невелик.
Движение вперед: Баланс между инновациями и безопасностью
Запросы, основанные на тексте руководства FDA по критериям устройства CDSS, будь то однократные или многократные, недостаточны для обеспечения того, чтобы вывод LLM соответствовал поддержке принятия решений, не относящейся к устройству. Необходимы новые нормативные парадигмы и технологии для решения проблем, связанных с генеративными системами ИИ, обеспечивая баланс между инновациями, безопасностью и клинической эффективностью. Быстрое развитие этой технологии требует упреждающего и адаптивного подхода к регулированию, гарантирующего, что преимущества LLM в здравоохранении могут быть реализованы при одновременном снижении потенциальных рисков.