Неустанное развитие искусственного интеллекта продолжает преобразовывать отрасли, и, возможно, нигде ставки не так высоки, а потенциал не так глубок, как в области медицины. В течение многих лет самые мощные модели ИИ, особенно большие языковые модели (LLM), способные обрабатывать и генерировать текст, подобный человеческому, в основном находились за защитными стенами технологических гигантов. Эти проприетарные системы, такие как широко обсуждаемая GPT-4 от OpenAI, продемонстрировали замечательные способности, распространяющиеся даже на сложную область медицинской диагностики. Однако их природа ‘черного ящика’ и необходимость отправки конфиденциальной информации на внешние серверы создавали значительные препятствия для широкого и безопасного внедрения в медицинских учреждениях, где конфиденциальность пациентов — это не просто предпочтение, а требование. Оставался критический вопрос: сможет ли развивающийся мир ИИ с открытым исходным кодом справиться с этой задачей, предложив сопоставимую мощность без ущерба для контроля и конфиденциальности?
Недавние выводы, полученные в стенах почтенной Harvard Medical School (HMS), предполагают, что ответ — громкое ‘да’, что знаменует собой потенциальный переломный момент в применении ИИ в клинических условиях. Исследователи тщательно сравнили ведущую модель с открытым исходным кодом с ее известным проприетарным аналогом, обнаружив результаты, которые могут демократизировать доступ к передовым диагностическим средствам.
Новый претендент выходит на диагностическую арену
В исследовании, привлекшем внимание как медицинского, так и технологического сообществ, исследователи HMS противопоставили модель с открытым исходным кодом Llama 3.1 405B грозной GPT-4. Испытательной площадкой стал тщательно отобранный набор из 70 сложных медицинских случаев. Это были не рутинные сценарии; они представляли собой сложные диагностические головоломки, часто встречающиеся в клинической практике. Цель была ясна: оценить диагностическую проницательность каждой модели ИИ в прямом сравнении.
Результаты, опубликованные недавно, были поразительными. Модель Llama 3.1 405B, свободно доступная для загрузки, изучения и модификации пользователями, продемонстрировала диагностическую точность наравне с GPT-4, а по некоторым показателям даже превзошла ее. В частности, при оценке правильности первоначального диагностического предположения, предложенного каждой моделью, Llama 3.1 405B имела преимущество. Кроме того, при рассмотрении окончательного диагноза, предложенного после обработки деталей случая, претендент с открытым исходным кодом снова доказал свою состоятельность по сравнению с установленным эталоном.
Это достижение значимо не только само по себе, но и тем, что оно представляет. Впервые легкодоступный, прозрачный инструмент с открытым исходным кодом доказал свою способность работать на том же высоком уровне, что и ведущие системы с закрытым исходным кодом, в сложной задаче медицинской диагностики на основе клинических случаев. Arjun K. Manrai ’08, профессор HMS, руководивший исследованием, назвал паритет в производительности ‘довольно примечательным’, особенно учитывая исторический контекст.
Преимущество открытого исходного кода: разблокировка конфиденциальности данных и кастомизации
Настоящий прорыв, подчеркнутый исследованием Harvard, заключается в фундаментальном различии между моделями с открытым и закрытым исходным кодом: доступности и контроле. Проприетарные модели, такие как GPT-4, обычно требуют от пользователей отправки данных на серверы провайдера для обработки. В здравоохранении это немедленно вызывает тревогу. Информация о пациентах — симптомы, история болезни, результаты анализов — относится к наиболее чувствительным данным, защищенным строгими правилами, такими как HIPAA в Соединенных Штатах. Перспектива передачи этих данных за пределы защищенной сети больницы, даже ради потенциальной выгоды от расширенного анализа ИИ, была серьезным препятствием.
Модели с открытым исходным кодом, такие как Llama 3.1 405B, коренным образом меняют эту динамику. Поскольку код и параметры модели общедоступны, учреждения могут загружать и развертывать ее внутри своей собственной защищенной инфраструктуры.
- Суверенитет данных: Больницы могут запускать ИИ полностью на своих локальных серверах или в частных облаках. Данные пациентов никогда не покидают защищенную среду учреждения, что эффективно устраняет проблемы конфиденциальности, связанные с передачей данных внешним сторонам. Эту концепцию часто называют ‘доставкой модели к данным’, а не ‘отправкой данных к модели’.
- Повышенная безопасность: Сохранение процесса внутри учреждения значительно снижает поверхность атаки для потенциальных утечек данных, связанных со сторонними поставщиками ИИ. Контроль над операционной средой полностью остается у медицинского учреждения.
- Прозрачность и аудируемость: Модели с открытым исходным кодом позволяют исследователям и клиницистам потенциально изучать архитектуру модели и, в некоторой степени, лучше понимать процессы принятия решений, чем непрозрачные проприетарные системы. Эта прозрачность может способствовать большему доверию и облегчить отладку или доработку.
Thomas A. Buckley, аспирант программы ‘ИИ в медицине’ в Harvard и первый автор исследования, подчеркнул это критическое преимущество. ‘Модели с открытым исходным кодом открывают новые научные исследования, потому что их можно развернуть в собственной сети больницы’, — заявил он. Эта возможность выходит за рамки теоретического потенциала и открывает двери для практического, безопасного применения.
Более того, природа открытого исходного кода позволяет достичь беспрецедентного уровня кастомизации. Больницы и исследовательские группы теперь могут донастраивать эти мощные базовые модели, используя свои собственные специфические данные пациентов.
- Настройка под конкретную популяцию: Модель можно адаптировать, чтобы она лучше отражала демографию, распространенные заболевания и уникальные проблемы со здоровьем конкретной местной или региональной популяции, обслуживаемой больничной системой.
- Согласование с протоколами: Поведение ИИ можно скорректировать для соответствия конкретным диагностическим путям, протоколам лечения или стандартам отчетности больницы.
- Специализированные приложения: Исследователи могут разрабатывать узкоспециализированные версии модели, адаптированные для конкретных медицинских областей, таких как поддержка интерпретации анализа рентгенологических изображений, скрининг отчетов патологоанатомов или выявление паттернов редких заболеваний.
Buckley подробно остановился на этом следствии: ‘Исследователи теперь могут использовать передовой клинический ИИ непосредственно с данными пациентов… Больницы могут использовать данные пациентов для разработки пользовательских моделей (например, для согласования с их собственной популяцией пациентов)’. Этот потенциал для создания индивидуальных инструментов ИИ, безопасно разработанных внутри учреждения, представляет собой значительный скачок вперед.
Контекст: Ударная волна ИИ в сложных случаях
Исследование команды Harvard модели Llama 3.1 405B проводилось не в вакууме. Оно было частично вдохновлено резонансом, вызванным более ранними исследованиями, в частности, заметной статьей 2023 года. Это исследование продемонстрировало удивительную компетентность моделей GPT в решении некоторых из самых запутанных клинических случаев, опубликованных в престижном New England Journal of Medicine (NEJM). Эти ‘Клинические разборы случаев Massachusetts General Hospital’ из NEJM легендарны в медицинских кругах — сложные, часто сбивающие с толку случаи, которые бросают вызов даже опытным клиницистам.
‘Эта статья привлекла огромное внимание и, по сути, показала, что эта большая языковая модель, ChatGPT, каким-то образом может решать эти невероятно сложные клинические случаи, что своего рода шокировало людей’, — вспоминал Buckley. Идея о том, что ИИ, по сути, сложная машина для сопоставления с образцом, обученная на огромных объемах текста, может разгадывать диагностические тайны, часто требующие глубокой клинической интуиции и опыта, была одновременно захватывающей и, для некоторых, тревожной.
‘Эти случаи общеизвестно трудны’, — добавил Buckley. ‘Это одни из самых сложных случаев, наблюдаемых в Mass General Hospital, поэтому они пугают врачей, и не менее пугающе, когда модель ИИ может сделать то же самое’. Эта более ранняя демонстрация подчеркнула необузданный потенциал LLM в медицине, но также усилила настоятельную необходимость решения проблем конфиденциальности и контроля, присущих проприетарным системам. Если ИИ становился настолько способным, обеспечение его безопасного и этичного использования с реальными данными пациентов стало первостепенной задачей.
Выпуск модели Llama 3.1 405B от Meta стал потенциальным поворотным моментом. Сам масштаб модели — обозначенный как ‘405B’, что означает 405 миллиардов параметров (переменных, которые модель настраивает во время обучения для прогнозирования) — сигнализировал о новом уровне сложности в сообществе открытого исходного кода. Этот огромный масштаб предполагал, что она может обладать сложностью, необходимой для конкуренции с производительностью проприетарных моделей высшего уровня, таких как GPT-4. ‘Это был своего рода первый раз, когда мы подумали, о, возможно, в моделях с открытым исходным кодом происходит что-то действительно другое’, — отметил Buckley, объясняя мотивацию протестировать Llama 3.1 405B в медицинской области.
Намечая будущее: исследования и интеграция в реальный мир
Подтверждение того, что высокопроизводительные модели с открытым исходным кодом жизнеспособны для чувствительных медицинских задач, имеет глубокие последствия. Как подчеркнул профессор Manrai, исследование ‘разблокирует и открывает множество новых исследований и испытаний’. Возможность работать непосредственно с данными пациентов в защищенных больничных сетях, без этических и логистических препятствий, связанных с обменом данными с внешними сторонами, устраняет серьезное узкое место для клинических исследований ИИ.
Представьте себе возможности:
- Поддержка принятия решений в реальном времени: Инструменты ИИ, интегрированные непосредственно в системы электронных медицинских карт (EHR), анализирующие поступающие данные пациентов в реальном времени для предложения потенциальных диагнозов, выявления критических лабораторных показателей или определения потенциальных взаимодействий лекарств, при этом все данные надежно остаются в системе больницы.
- Ускоренные циклы исследований: Исследователи могли бы быстро тестировать и уточнять гипотезы ИИ, используя большие локальные наборы данных, потенциально ускоряя открытие новых диагностических маркеров или эффективности лечения.
- Разработка гиперспециализированных инструментов: Команды могли бы сосредоточиться на создании ИИ-ассистентов для нишевых медицинских специальностей или конкретных, сложных процедур, обученных на высокорелевантных внутренних данных.
Парадигма меняется, как лаконично выразился Manrai: ‘С этими моделями с открытым исходным кодом вы можете доставить модель к данным, а не отправлять ваши данные к модели’. Эта локализация расширяет возможности медицинских учреждений и исследователей, способствуя инновациям при соблюдении строгих стандартов конфиденциальности.
Незаменимый человеческий элемент: ИИ как второй пилот, а не капитан
Несмотря на впечатляющую производительность и многообещающий потенциал инструментов ИИ, таких как Llama 3.1 405B, участвующие исследователи спешат умерить волнение критической дозой реализма. Искусственный интеллект, каким бы сложным он ни был, еще не является — и, возможно, никогда не станет — заменой для людей-клиницистов. И Manrai, и Buckley подчеркнули, что человеческий надзор остается абсолютно необходимым.
Модели ИИ, включая LLM, имеют присущие им ограничения:
- Отсутствие истинного понимания: Они преуспевают в распознавании образов и синтезе информации на основе своих обучающих данных, но им не хватает подлинной клинической интуиции, здравого смысла и способности понимать нюансы жизненного контекста пациента, эмоционального состояния или невербальных сигналов.
- Потенциал предвзятости: Модели ИИ могут унаследовать предвзятости, присутствующие в их обучающих данных, что потенциально может привести к искаженным рекомендациям или диагнозам, особенно для недостаточно представленных групп пациентов. Модели с открытым исходным кодом здесь предлагают потенциальное преимущество, поскольку обучающие данные и процессы иногда можно изучить более внимательно, но риск остается.
- ‘Галлюцинации’ и ошибки: Известно, что LLM иногда генерируют правдоподобно звучащую, но неверную информацию (так называемые ‘галлюцинации’). В медицинском контексте такие ошибки могут иметь серьезные последствия.
- Неспособность справляться с новизной: Хотя они могут обрабатывать известные паттерны, ИИ может испытывать трудности с действительно новыми проявлениями болезни или уникальными комбинациями симптомов, плохо представленными в их обучающих данных.
Поэтому роль врачей и других медицинских работников не уменьшается, а скорее трансформируется. Они становятся критически важными валидаторами, интерпретаторами и конечными лицами, принимающими решения. ‘Наши клинические сотрудники были действительно важны, потому что они могут прочитать то, что генерирует модель, и оценить это качественно’, — объяснил Buckley. Вывод ИИ — это всего лишь предложение, часть данных, которую необходимо критически оценить в более широкой клинической картине. ‘Эти результаты заслуживают доверия только тогда, когда их могут оценить врачи’.
Manrai повторил это мнение, представляя ИИ не как автономного диагноста, а как ценного помощника. В предыдущем пресс-релизе он охарактеризовал эти инструменты как потенциальных ‘бесценных вторых пилотов для занятых клиницистов’, при условии, что они ‘используются мудро и ответственно интегрированы в текущую инфраструктуру здравоохранения’. Ключ заключается в продуманной интеграции, где ИИ дополняет человеческие возможности — возможно, быстро суммируя обширные истории болезни пациентов, предлагая дифференциальные диагнозы для сложных случаев или выявляя потенциальные риски — а не пытается подменить суждение клинициста.
‘Но остается критически важным, чтобы врачи помогали направлять эти усилия, чтобы убедиться, что ИИ работает для них’, — предостерег Manrai. Разработка и внедрение клинического ИИ должны быть совместными усилиями, руководствующимися потребностями и опытом тех, кто находится на переднем крае ухода за пациентами, гарантируя, что технология служит, а не диктует практику медицины. Исследование Harvard демонстрирует, что мощные, безопасные инструменты становятся доступными; следующий критический шаг — ответственное их использование.