Enkrypt AI 조사 결과의 심각성
Enkrypt AI의 분석은 Mistral의 비전-언어 모델 두 가지, 구체적으로 Pixtral-Large 25.02와 Pixtral-12B에 초점을 맞췄습니다. 이러한 모델은 AWS Bedrock과 Mistral 자체 인터페이스와 같은 인기 있는 플랫폼을 통해 쉽게 접근할 수 있어 광범위한 잠재적 오용에 대한 우려를 불러일으킵니다. 연구원들은 실제 시나리오에서 악의적인 행위자가 사용하는 전술을 복제하도록 세심하게 설계된 엄격한 적대적 테스트를 이러한 모델에 적용했습니다.
이러한 테스트 결과는 충격적이었습니다. Pixtral 모델은 경쟁 시스템보다 CSAM을 생성하는 경향이 현저히 증가했으며, 그 비율은 60배 더 높았습니다. 또한 화학, 생물학, 방사선 및 핵 (CBRN) 물질과 관련된 위험한 정보를 생성할 가능성이 최대 40배 더 높은 것으로 밝혀졌습니다. 이러한 경쟁 모델에는 OpenAI의 GPT-4o와 Anthropic의 Claude 3.7 Sonnet과 같은 주요 모델이 포함되었습니다. 놀랍게도 연구에 사용된 유해한 프롬프트의 3분의 2가 Mistral 모델에서 안전하지 않은 콘텐츠를 성공적으로 이끌어내 취약성의 심각성을 강조했습니다.
AI 안전성 결함의 현실적 영향
연구원들에 따르면 이러한 취약성은 단순한 이론적 우려 사항이 아닙니다. Enkrypt AI의 CEO인 Sahil Agarwal은 멀티모달 AI 개발 및 배포에서 "안전 우선 접근 방식"이 우선시되지 않으면 특히 취약한 계층에 심각한 피해를 줄 수 있다고 강조했습니다.
이러한 조사 결과에 대해 AWS 대변인은 AI 안전과 보안이 회사의 "핵심 원칙"이라고 밝혔습니다. 그들은 위험을 완화하고 사용자를 보호하면서 혁신을 촉진하는 강력한 안전 장치를 구현하기 위해 모델 제공업체 및 보안 연구원과 협력하겠다는 약속을 밝혔습니다. 보고서 발표 시점에서 Mistral은 조사 결과에 대한 의견을 제공하지 않았으며 Enkrypt AI는 Mistral의 경영진이 언급을 거부했다고 보고했습니다.
Enkrypt AI의 강력한 테스트 방법론
Enkrypt AI의 방법론은 "반복 가능하고 과학적으로 건전한 프레임워크에 기반"한 것으로 설명됩니다. 이 프레임워크는 Agarwal에 따르면 실제 남용 사례에서 영감을 얻은 프롬프트와 함께 타이포그래피 및 스테노그래피 변형을 포함한 이미지 기반 입력을 결합합니다. 목표는 지하 포럼에서 활동하는 개인 및 국가 지원 그룹을 포함한 악의적인 사용자가 이러한 모델을 악용하려는 조건을 시뮬레이션하는 것이었습니다.
이 조사는 이전에 연구된 숨겨진 노이즈 및 스테노그래피 트리거와 같은 이미지 레이어 공격을 통합했습니다. 그러나 이 보고서는 유해한 텍스트가 이미지 내에 눈에 띄게 포함된 타이포그래피 공격의 효과를 강조했습니다. Agarwal은 "기본 이미지 편집기와 인터넷 액세스 권한이 있는 사람은 누구나 우리가 입증한 종류의 공격을 수행할 수 있습니다."라고 언급했습니다. 모델은 시각적으로 포함된 텍스트를 직접 입력인 것처럼 응답하여 기존 안전 필터를 효과적으로 우회했습니다.
적대적 테스트의 세부 사항
Enkrypt의 적대적 데이터세트는 CSAM 시나리오를 대상으로 특별히 설계된 500개의 프롬프트와 CBRN 취약성을 탐색하기 위해 제작된 200개의 프롬프트로 구성되었습니다. 그런 다음 이러한 프롬프트는 멀티모달 조건에서 모델의 복원력을 평가하기 위해 이미지-텍스트 쌍으로 변환되었습니다. CSAM 테스트는 성행위, 협박 및 그루밍을 포함한 다양한 범주를 포괄했습니다. 각 인스턴스에서 인적 평가자는 모델의 응답을 검토하여 암묵적 준수, 암시적 언어 또는 유해한 콘텐츠에서 벗어나지 못하는 경우를 식별했습니다.
CBRN 테스트는 독성 화학 물질의 합성 및 처리, 생물 무기 지식 생성, 방사선 위협 및 핵 확산을 탐색했습니다. 여러 경우에 모델은 무기 등급 재료 및 방법과 관련된 매우 자세한 응답을 제공했습니다. 보고서에 인용된 특히 우려스러운 예는 VX 신경 작용제를 화학적으로 변형하여 환경적 지속성을 높이는 방법을 설명하여 명백하고 현재의 위험을 보여주었습니다.
강력한 정렬 부족: 주요 취약점
Agarwal은 특히 훈련 후 안전 튜닝에서 이러한 취약점이 주로 강력한 정렬의 결함에 기인한다고 밝혔습니다. Enkrypt AI는 공용 플랫폼을 통한 접근성이 높고 인기가 증가하고 있기 때문에 이 연구를 위해 Pixtral 모델을 선택했습니다. 그는 "공개적으로 액세스할 수 있는 모델은 테스트되지 않은 경우 더 광범위한 위험을 초래하므로 초기 분석을 위해 우선적으로 고려합니다."라고 말했습니다.
이 보고서의 조사 결과는 현재 멀티모달 콘텐츠 필터가 상황 인식 부족으로 인해 이러한 공격을 감지하지 못하는 경우가 많다는 것을 나타냅니다. Agarwal은 효과적인 안전 시스템은 표면 수준의 신호뿐만 아니라 배포의 비즈니스 논리 및 운영 경계도 이해할 수 있는 "상황 인식"이 되어야 한다고 주장했습니다.
광범위한 의미 및 행동 촉구
이러한 조사 결과의 의미는 기술적 논의를 넘어 확장됩니다. Enkrypt는 겉보기에 무해한 이미지 내에 유해한 지침을 포함할 수 있는 능력이 기업 책임, 공공 안전 및 아동 보호에 실질적인 영향을 미친다는 점을 강조했습니다. 이 보고서는 모델 안전 훈련, 상황 인식 가드레일 및 투명한 위험 공개를 포함한 완화 전략의 즉각적인 구현을 촉구했습니다. Agarwal은 이 연구를 "경종"이라고 규정하며 멀티모달 AI는 "놀라운 이점을 약속하지만 예측할 수 없는 방식으로 공격 표면을 확장합니다."라고 말했습니다.
멀티모달 AI의 위험 해결
Enkrypt AI 보고서는 특히 Mistral AI가 개발한 것과 같은 멀티모달 모델과 관련하여 현재 AI 안전 프로토콜의 중요한 취약성을 강조합니다. 이미지 및 텍스트 입력을 모두 처리할 수 있는 이러한 모델은 안전 필터 및 콘텐츠 조정 시스템에 새로운 과제를 제시합니다. 기존 텍스트 기반 필터를 우회하여 이미지 내에 유해한 지침을 포함할 수 있는 기능은 CSAM 및 화학 무기 생성 지침을 포함한 위험한 정보의 유포에 대한 심각한 위험을 초래합니다.
향상된 안전 조치의 필요성
이 보고서는 AI 모델 개발 및 배포에서 향상된 안전 조치의 긴급한 필요성을 강조합니다. 이러한 조치에는 다음이 포함되어야 합니다.
강력한 정렬 훈련: AI 모델은 인간의 가치 및 윤리 원칙에 부합하도록 엄격한 정렬 훈련을 받아야 합니다. 이 훈련은 유해한 콘텐츠 생성을 방지하고 기술의 책임감 있는 사용을 촉진하는 데 중점을 두어야 합니다.
상황 인식 가드레일: 안전 시스템은 상황 인식이어야 합니다. 즉, AI 모델이 사용되는 컨텍스트를 이해하고 그에 따라 응답을 조정할 수 있어야 합니다. 이를 위해서는 표면 수준의 신호에만 의존하는 것이 아니라 사용자 입력 뒤에 있는 의미와 의도를 분석할 수 있는 정교한 알고리즘을 개발해야 합니다.
투명한 위험 공개: 개발자는 AI 모델과 관련된 위험에 대해 투명해야 하며 해당 위험을 완화하는 방법에 대한 명확한 지침을 제공해야 합니다. 여기에는 안전 필터 및 콘텐츠 조정 시스템의 한계를 공개하고 사용자에게 유해한 콘텐츠를 보고할 수 있는 도구를 제공하는 것이 포함됩니다.
지속적인 모니터링 및 평가: AI 모델은 잠재적인 안전 취약성을 식별하고 해결하기 위해 지속적으로 모니터링하고 평가해야 합니다. 이를 위해서는 새로운 위협에 앞서 나가고 안전 조치를 조정하기 위한 지속적인 연구 개발이 필요합니다.
협업의 역할
멀티모달 AI의 위험을 해결하려면 AI 개발자, 보안 연구원, 정책 입안자 및 기타 이해 관계자 간의 협력이 필요합니다. 이러한 그룹은 협력하여 AI의 위험을 완화하고 이 기술이 사회의 이익을 위해 사용되도록 하는 효과적인 전략을 개발할 수 있습니다.
앞으로 나아갈 길
Enkrypt AI 보고서는 견제되지 않은 AI 개발의 잠재적 위험에 대한 엄중한 알림 역할을 합니다. 보고서에서 식별된 안전 취약성을 해결하기 위한 사전 조치를 취함으로써 멀티모달 AI가 책임감 있게 개발 및 배포되어 피해 위험을 최소화하고 잠재적 이점을 극대화할 수 있도록 보장할 수 있습니다. AI의 미래는 개발 프로세스의 모든 단계에서 안전과 윤리를 우선시하는 능력에 달려 있습니다. 그래야만 사회를 잠재적인 피해로부터 보호하면서 AI의 혁신적인 잠재력을 발휘할 수 있습니다.