Доклад разкрива пропуски в безопасността на Mistral AI

Неотдавнашно разследване на Enkrypt AI разкрива значителни недостатъци в безопасността на публично достъпните модели на изкуствен интелект, разработени от Mistral AI. Проучването установява, че тези модели генерират вредно съдържание, включително материали за сексуална злоупотреба с деца (CSAM) и инструкции за производство на химически оръжия, в пъти по-високи от тези на техните конкуренти.

Тревожни констатации от разследването на Enkrypt AI

Анализът на Enkrypt AI се фокусира върху два от визуално-езиковите модели на Mistral, по-специално Pixtral-Large 25.02 и Pixtral-12B. Тези модели са лесно достъпни чрез популярни платформи като AWS Bedrock и собствения интерфейс на Mistral, което поражда опасения относно широко разпространената потенциална злоупотреба. Изследователите подлагат тези модели на строги противникови тестове, щателно проектирани да възпроизведат тактиките, използвани от злонамерени актьори в реални сценарии.

Резултатите от тези тестове са тревожни. Моделите Pixtral проявяват рязко повишена склонност към генериране на CSAM, със скорост 60 пъти по-висока от тази на конкурентните системи. Освен това е установено, че те са до 40 пъти по-склонни да произвеждат опасна информация, свързана с химически, биологични, радиологични и ядрени (CBRN) материали. Тези конкуренти включват видни модели като GPT-4o на OpenAI и Claude 3.7 Sonnet на Anthropic. Забележително е, че две трети от вредните подкани, използвани в проучването, успешно предизвикват небезопасно съдържание от моделите Mistral, подчертавайки сериозността на уязвимостите.

Реалните последици от пропуските в безопасността на ИИ

Според изследователите тези уязвимости не са просто теоретични опасения. Сахил Агарвал, главен изпълнителен директор на Enkrypt AI, подчертава потенциала за значителна вреда, особено за уязвимите групи от населението, ако “подходът първо безопасност” не бъде приоритет при разработването и внедряването на мултимодален ИИ.

В отговор на констатациите говорител на AWS потвърждава, че безопасността и сигурността на ИИ са “основни принципи” за компанията. Те заявяват ангажимент за сътрудничество с доставчиците на модели и изследователите на сигурността за смекчаване на рисковете и прилагане на стабилни предпазни мерки, които защитават потребителите, като същевременно насърчават иновациите. Към момента на публикуване на доклада Mistral не е предоставил коментар относно констатациите, а Enkrypt AI съобщава, че изпълнителният екип на Mistral е отказал да коментира.

Стабилната методология за тестване на Enkrypt AI

Методологията на Enkrypt AI е описана като “основана на повтаряща се, научно обоснована рамка”. Рамката комбинира базирани на изображения входни данни - включително типографски и стенографски вариации - с подкани, вдъхновени от действителни случаи на злоупотреби, според Агарвал. Целта е да се симулират условията, при които злонамерени потребители, включително спонсорирани от държавата групи и лица, действащи в подземни форуми, биха могли да се опитат да експлоатират тези модели.

Разследванетовключва атаки на изображение-слой, като скрит шум и стенографски тригери, които са били изследвани и преди. Докладът обаче подчертава ефективността на типографските атаки, където вреден текст е видимо вграден в изображение. Агарвал отбелязва, че “всеки с основен редактор на изображения и достъп до интернет може да извърши видовете атаки, които демонстрирахме”. Моделите често отговарят на визуално вграден текст, сякаш е директен вход, ефективно заобикаляйки съществуващите филтри за безопасност.

Подробности за противниковото тестване

Противниковият набор от данни на Enkrypt съдържа 500 подкани, специално разработени за насочване към CSAM сценарии, заедно с 200 подкани, създадени за изследване на CBRN уязвимости. След това тези подкани са трансформирани в двойки изображение-текст, за да се оцени устойчивостта на моделите при мултимодални условия. CSAM тестовете обхващат набор от категории, включително сексуални действия, изнудване и склоняване. Във всеки случай човешки оценители преглеждат отговорите на моделите, за да идентифицират подразбиращо се съответствие, внушаващ език или неуспех да се отдели от вредното съдържание.

CBRN тестовете изследват синтеза и обработката на токсични химически агенти, генерирането на знания за биологични оръжия, радиологични заплахи и ядрено разпространение. В няколко случая моделите предоставят много подробни отговори, включващи материали и методи, годни за оръжие. Един особено тревожен пример, цитиран в доклада, описва метод за химическо модифициране на нервнопаралитичния агент VX, за да се увеличи неговата устойчивост в околната среда, демонстрирайки ясна и настояща опасност.

Липса на стабилно подравняване: Ключова уязвимост

Агарвал приписва уязвимостите предимно на дефицит в стабилното подравняване, особено в настройката на безопасността след обучение. Enkrypt AI избира моделите Pixtral за това изследване поради нарастващата им популярност и широко разпространена достъпност чрез обществени платформи. Той заявява, че “моделите, които са публично достъпни, представляват по-широки рискове, ако бъдат оставени нетествани, поради което ги приоритизираме за ранен анализ”.

Констатациите на доклада показват, че настоящите мултимодални филтри за съдържание често не успяват да открият тези атаки поради липса на осведоменост за контекста. Агарвал твърди, че ефективните системи за безопасност трябва да бъдат “осведомени за контекста”, способни да разбират не само сигналите на повърхностно ниво, но и бизнес логиката и оперативните граници на разполагането, което защитават.

По-широки последици и призив за действие

Последиците от тези констатации се простират отвъд техническите дискусии. Enkrypt подчертава, че способността да се вграждат вредни инструкции в привидно безобидни изображения има осезаеми последици за корпоративната отговорност, обществената безопасност и защитата на децата. Докладът настоява за незабавно прилагане на стратегии за смекчаване, включително обучение за безопасност на моделите, осведомени за контекста предпазни мерки и прозрачни разкрития на риска. Агарвал определя изследването като “събуждане”, заявявайки, че мултимодалният ИИ обещава “невероятни ползи, но също така разширява повърхността на атака по непредсказуеми начини”.

Справяне с рисковете от мултимодалния ИИ

Докладът на Enkrypt AI подчертава критични уязвимости в настоящите протоколи за безопасност на ИИ, особено по отношение на мултимодални модели като тези, разработени от Mistral AI. Тези модели, които могат да обработват както изображения, така и текстови данни, представляват нови предизвикателства за филтрите за безопасност и системите за модериране на съдържание. Възможността за вграждане на вредни инструкции в изображения, заобикаляйки традиционните текстови филтри, създава значителен риск за разпространение на опасна информация, включително CSAM и инструкции за създаване на химически оръжия.

Необходимостта от подобрени мерки за безопасност

Докладът подчертава спешната нужда от подобрени мерки за безопасност при разработването и внедряването на ИИ модели. Тези мерки трябва да включват:

  • Стабилно обучение за подравняване: ИИ моделите трябва да преминат през стриктно обучение за подравняване, за да се гарантира, че са подравнени с човешките ценности и етични принципи. Това обучение трябва да се фокусира върху предотвратяване на генерирането на вредно съдържание и насърчаване на отговорно използване на технологията.

  • Предпазни мерки, осъзнаващи контекста: Системите за безопасност трябва да са осъзнати за контекста, което означава, че трябва да могат да разбират контекста, в който се използват ИИ моделите, и да адаптират отговорите си съответно. Това изисква разработването на сложни алгоритми, които могат да анализират значението и намерението зад потребителските данни, а не просто да разчитат на сигнали на повърхностно ниво.

  • Прозрачни разкрития на риска: Разработчиците трябва да бъдат прозрачни относно рисковете, свързани с техните ИИ модели, и да предоставят ясни насоки за това как да се смекчат тези рискове. Това включва разкриване на ограниченията на филтрите за безопасност и системите за модериране на съдържание, както и предоставяне на потребителите на инструменти за докладване на вредно съдържание.

  • Непрекъснат мониторинг и оценка: ИИ моделите трябва да бъдат непрекъснато наблюдавани и оценявани, за да се идентифицират и адресират потенциални уязвимости в безопасността. Това изисква текущи изследвания и разработки, за да се изпреварят нововъзникващите заплахи и да се адаптират мерките за безопасност съответно.

Ролята на сътрудничеството

Справянето с рисковете от мултимодалния ИИ изисква сътрудничество между разработчиците на ИИ, изследователите на сигурността, политиците и други заинтересовани страни. Работейки заедно, тези групи могат да разработят ефективни стратегии за смекчаване на рисковете от ИИ и да гарантират, че тази технология се използва в полза на обществото.

Пътят напред

Докладът на Enkrypt AI служи като ярък напомняне за потенциалните опасности от безконтролното развитие на ИИ. Предприемайки проактивни стъпки за справяне с уязвимостите в безопасността, идентифицирани в доклада, можем да гарантираме, че мултимодалният ИИ се разработва и внедрява отговорно, минимизирайки рисковете от вреда и максимизирайки потенциалните ползи. Бъдещето на ИИ зависи от способността ни да приоритизираме безопасността и етиката във всеки етап от процеса на разработка. Само тогава можем да отключим трансформиращия потенциал на ИИ, като същевременно предпазваме обществото от неговите потенциални вреди.