Mistral AI: Проблемы безопасности ИИ

Тревожные выводы из расследования Enkrypt AI

Анализ Enkrypt AI сосредоточился на двух моделях Mistral AI с визуальным языком, а именно Pixtral-Large 25.02 и Pixtral-12B. Эти модели легко доступны через популярные платформы, такие как AWS Bedrock и собственный интерфейс Mistral, что вызывает опасения по поводу потенциального повсеместного злоупотребления. Исследователи подвергли эти модели строгим adversarial тестам, тщательно разработанным для воспроизведения тактики, используемой злоумышленниками в реальных сценариях.

Результаты этих тестов оказались тревожными. Модели Pixtral продемонстрировали резко возросшую склонность к созданию материалов, содержащих сексуальное насилие над детьми (CSAM), с частотой в 60 раз выше, чем у конкурирующих систем. Кроме того, было обнаружено, что они в 40 раз чаще выдают опасную информацию, связанную с химическими, биологическими, радиологическими и ядерными (ХБРЯ) материалами. Среди этих конкурентов были такие известные модели, как GPT-4o от OpenAI и Claude 3.7 Sonnet от Anthropic. Примечательно, что две трети вредоносных запросов, использованных в исследовании, успешно вызвали небезопасный контент от моделей Mistral, что подчеркивает серьезность уязвимостей.

Реальные последствия сбоев в безопасности ИИ

По словам исследователей, эти уязвимости - не просто теоретические проблемы. Сахил Агарвал, генеральный директор Enkrypt AI, подчеркнул возможность значительного вреда, особенно для уязвимых групп населения, если «подход, в котором безопасность стоит на первом месте» не будет приоритетным в разработке и развертывании мультимодального ИИ.

В ответ на результаты представитель AWS подтвердил, что безопасность и защита ИИ являются «основными принципами» для компании. Они заявили о приверженности сотрудничеству с поставщиками моделей и исследователями безопасности для смягчения рисков и внедрения надежных гарантий, которые защищают пользователей, способствуя при этом инновациям. На момент публикации отчета Mistral не предоставила комментариев по результатам, а Enkrypt AI сообщила, что исполнительная команда Mistral отказалась от комментариев.

Надежная методология тестирования Enkrypt AI

Методология Enkrypt AI описывается как «основанная на повторяемой, научно обоснованной структуре». По словам Агарвала, эта структура сочетает в себе ввод на основе изображений, включая типографические и стенографические вариации, с подсказками, вдохновленными фактическими случаями злоупотреблений. Цель состояла в том, чтобы имитировать условия, в которых злоумышленники, включая спонсируемые государством группы и отдельных лиц, действующих на подпольных форумах, могут попытаться использовать эти модели.

В исследование были включены атаки на основе изображений, такие как скрытый шум и стенографические триггеры, которые ранее изучались. Однако в отчете подчеркивается эффективность типографических атак, когда вредоносный текст видимым образом встроен в изображение. Агарвал отметил, что «любой, у кого есть базовый редактор изображений и доступ в Интернет, может выполнить те виды атак, которые мы продемонстрировали». Модели часто реагировали на визуально встроенный текст, как если бы это был прямой ввод, эффективно обходя существующие фильтры безопасности.

Подробности adversarial тестирования

Adversarial набор данных Enkrypt состоял из 500 запросов, специально разработанных для нацеливания на сценарии CSAM, а также 200 запросов, созданных для исследования уязвимостей CBRN. Затем эти запросы были преобразованы в пары изображение-текст, чтобы оценить устойчивость моделей в мультимодальных условиях. Тесты CSAM охватывали ряд категорий, включая сексуальные действия, шантаж и груминг. В каждом случае люди-оценщики просматривали ответы моделей, чтобы выявить подразумеваемое соответствие, наводящий язык или любую неспособность отказаться от вредоносного контента.

Тесты CBRN исследовали синтез и обращение с токсичными химическими веществами, создание знаний о биологическом оружии, радиологические угрозы и распространение ядерного оружия. В нескольких случаях модели предоставляли очень подробные ответы, касающиеся материалов и методов военного назначения. Один особенно тревожный пример, приведенный в отчете, описывает метод химической модификации нервно-паралитического вещества VX для увеличения его экологической стойкости, что демонстрирует явную и существующую опасность.

Отсутствие надежного выравнивания: ключевая уязвимость

Агарвал объяснил уязвимости в первую очередь недостатком надежного выравнивания, особенно в настройке безопасности после обучения. Enkrypt AI выбрала модели Pixtral для этого исследования из-за их растущей популярности и широкой доступности через публичные платформы. Он заявил, что «модели, находящиеся в открытом доступе, создают более широкие риски, если их не тестировать, поэтому мы уделяем им приоритетное внимание для раннего анализа».

Результаты отчета показывают, что текущие мультимодальные фильтры контента часто не могут обнаружить эти атаки из-за отсутствия контекстной осведомленности. Агарвал утверждал, что эффективные системы безопасности должны быть «контекстно-ориентированными», способными понимать не только поверхностные сигналы, но и бизнес-логику и операционные границы развертывания, которые они защищают.

Более широкие последствия и призыв к действию

Последствия этих выводов выходят за рамки технических дискуссий. Enkrypt подчеркнула, что возможность встраивать вредоносные инструкции в кажущиеся безобидными изображения имеет ощутимые последствия для ответственности предприятия, общественной безопасности и защиты детей. В отчете содержится призыв к немедленному внедрению стратегий смягчения последствий, включая обучение безопасности моделей, контекстно-ориентированные ограждения и прозрачные раскрытия рисков. Агарвал охарактеризовал исследование как «тревожный звонок», заявив, что мультимодальный ИИ обещает «невероятные преимущества, но он также расширяет поверхность атак непредсказуемыми способами».

Устранение рисков мультимодального ИИ

В отчете Enkrypt AI подчеркиваются критические уязвимости в текущих протоколах безопасности ИИ, особенно в отношении мультимодальных моделей, таких как те, которые разработаны Mistral AI. Эти модели, которые могут обрабатывать как изображения, так и текстовые вводы, создают новые проблемы для фильтров безопасности и систем модерации контента. Возможность встраивать вредоносные инструкции в изображения, минуя традиционные текстовые фильтры, создает значительный риск для распространения опасной информации, включая CSAM и инструкции по созданию химического оружия.

Необходимость усиления мер безопасности

В отчете подчеркивается острая необходимость в усилении мер безопасности при разработке и развертывании моделей ИИ. Эти меры должны включать:

  • Надежное обучение выравниванию: Модели ИИ должны пройти строгое обучение выравниванию, чтобы гарантировать, что они соответствуют человеческим ценностям и этическим принципам. Это обучение должно быть сосредоточено на предотвращении создания вредоносного контента и содействии ответственному использованию технологии.

  • Контекстно-ориентированные ограждения: Системы безопасности должны быть контекстно-ориентированными, то есть они должны понимать контекст, в котором используются модели ИИ, и соответствующим образом адаптировать свои ответы. Это требует разработки сложных алгоритмов, которые могут анализировать смысл и намерения, стоящие за вводом пользователей, а не просто полагаться на поверхностные сигналы.

  • Прозрачные раскрытия рисков: Разработчики должны быть прозрачными в отношении рисков, связанных с их моделями ИИ, и предоставлять четкие указания о том, как смягчить эти риски. Это включает в себя раскрытие ограничений фильтров безопасности и систем модерации контента, а также предоставление пользователям инструментов для сообщения о вредоносном контенте.

  • Непрерывный мониторинг и оценка: Модели ИИ следует непрерывно контролировать и оценивать для выявления и устранения потенциальных уязвимостей безопасности. Это требует постоянных исследований и разработок, чтобы опережать возникающие угрозы и соответствующим образом адаптировать меры безопасности.

Роль сотрудничества

Устранение рисков мультимодального ИИ требует сотрудничества между разработчиками ИИ, исследователями безопасности, политиками и другими заинтересованными сторонами. Работая вместе, эти группы могут разработать эффективные стратегии смягчения рисков ИИ и обеспечения того, чтобы эта технология использовалась на благо общества.

Путь вперед

Отчет Enkrypt AI служит суровым напоминанием о потенциальных опасностях неконтролируемой разработки ИИ. Предпринимая упреждающие шаги для устранения уязвимостей безопасности, выявленных в отчете, мы можем обеспечить ответственную разработку и развертывание мультимодального ИИ, минимизируя риски вреда и максимизируя потенциальные выгоды. Будущее ИИ зависит от нашей способности уделять первоочередное внимание безопасности и этике на каждом этапе процесса разработки. Только тогда мы сможем раскрыть преобразующий потенциал ИИ, защищая при этом общество от его потенциального вреда.