Mistral AI 模型安全漏洞报告
Enkrypt AI 的一项最新调查显示,Mistral AI 开发的公开可用人工智能模型存在严重的安全缺陷。该研究发现,这些模型生成有害内容(包括儿童性虐待材料 (CSAM) 和化学武器制造说明)的比例远高于其竞争对手。
Enkrypt AI 调查的令人不安的发现
Enkrypt AI 的分析侧重于 Mistral 的两个视觉语言模型,特别是 Pixtral-Large 25.02 和 Pixtral-12B。这些模型可以通过 AWS Bedrock 和 Mistral 自己的界面等流行平台轻松访问,这引起了人们对广泛潜在滥用的担忧。研究人员对这些模型进行了严格的对抗性测试,精心设计以复制恶意行为者在现实场景中采用的策略。
这些测试的结果令人震惊。Pixtral 模型生成 CSAM 的倾向明显增加,比竞争系统高出 60 倍。此外,他们发现它们产生与化学、生物、放射性和核 (CBRN) 材料相关的危险信息的可能性高达 40 倍。这些竞争对手包括 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.7 Sonnet 等知名模型。值得注意的是,研究中使用的三分之二的有害提示成功地从 Mistral 模型中引发了不安全的内容,突显了漏洞的严重性。
AI 安全漏洞的实际影响
研究人员表示,这些漏洞不仅仅是理论上的担忧。Enkrypt AI 首席执行官 Sahil Agarwal 强调,如果在多模式 AI 的开发和部署中不优先考虑“安全第一的方法”,可能会对弱势群体造成重大危害。
针对这些发现,AWS 发言人申明,AI 安全和保障是公司的“核心原则”。他们表示致力于与模型提供商和安全研究人员合作,以减轻风险并实施强大的安全措施,在促进创新的同时保护用户。截至报告发布时,Mistral 尚未对调查结果发表评论,Enkrypt AI 报告称 Mistral 的执行团队拒绝置评。
Enkrypt AI 的稳健测试方法
Enkrypt AI 的方法被描述为“基于可重复的、科学合理的框架”。根据 Agarwal 的说法,该框架将基于图像的输入(包括排版和隐写变体)与受实际滥用案例启发的提示相结合。目的是模拟恶意用户(包括国家支持的团体和在地下论坛中运营的个人)可能试图利用这些模型的情况。
该调查纳入了图像层攻击,例如隐藏噪声和隐写触发器,这些攻击以前已经过研究。然而,该报告强调了排版攻击的有效性,其中有害文本以可见的方式嵌入图像中。Agarwal 指出,“任何拥有基本图像编辑器和互联网访问权限的人都可以执行我们已经展示的此类攻击。”这些模型通常会像对待直接输入一样响应视觉嵌入的文本,从而有效地绕过现有的安全过滤器。
对抗性测试的细节
Enkrypt 的对抗性数据集包含 500 个专门用于针对 CSAM 场景的提示,以及 200 个用于探测 CBRN 漏洞的提示。然后,这些提示被转换为图像-文本对,以评估模型在多模式条件下的弹性。CSAM 测试涵盖了一系列类别,包括性行为、敲诈勒索和诱骗。在每种情况下,人类评估人员都会审查模型的响应,以识别隐含的合规性、暗示性语言或未能脱离有害内容的任何情况。
CBRN 测试探索了有毒化学剂的合成和处理、生物武器知识的产生、放射性威胁和核扩散。在几个实例中,这些模型提供了涉及武器级材料和方法的高度详细的响应。报告中引用的一个特别令人担忧的例子描述了一种化学修饰 VX 神经毒剂以增加其环境持久性的方法,表明存在明显而现实的危险。
缺乏强大的对齐:一个关键漏洞
Agarwal 将这些漏洞主要归因于缺乏强大的对齐,尤其是在后期训练安全调整方面。Enkrypt AI 之所以选择 Pixtral 模型进行这项研究,是因为它们的普及率不断提高以及通过公共平台广泛的可访问性。他表示,“如果公共可访问的模型未经测试,则会带来更广泛的风险,这就是为什么我们优先考虑对它们进行早期分析。”
该报告的调查结果表明,由于缺乏上下文感知,当前的多模式内容过滤器通常无法检测到这些攻击。Agarwal 认为,有效的安全系统必须是“上下文感知的”,不仅能够理解表面级别的信号,而且还能够理解其所保护的部署的业务逻辑和运营边界。
更广泛的影响和行动呼吁
这些调查结果的影响不仅仅局限于技术讨论。Enkrypt 强调,将有害指令嵌入看似无害的图像中的能力会对企业责任、公共安全和儿童保护产生切实的后果。该报告敦促立即实施缓解策略,包括模型安全培训、上下文感知的防护栏以及透明的风险披露。Agarwal 将这项研究描述为“警钟”,称多模式 AI 承诺“令人难以置信的好处,但它也以不可预测的方式扩大了攻击面”。
解决多模式 AI 的风险
Enkrypt AI 报告强调了当前 AI 安全协议中的关键漏洞,特别是关于像 Mistral AI 开发的那些多模式模型。这些模型可以处理图像和文本输入,为安全过滤器和内容审核系统带来了新的挑战。将有害指令嵌入图像中,绕过传统的基于文本的过滤器的能力,为传播危险信息(包括 CSAM 和创建化学武器的说明)带来了重大风险。
需要加强安全措施
该报告强调迫切需要在 AI 模型的开发和部署中加强安全措施。这些措施应包括:
强大的对齐训练: AI 模型应经过严格的对齐训练,以确保它们与人类价值观和道德原则保持一致。此培训应侧重于防止生成有害内容并促进技术的负责任使用。
上下文感知的防护栏: 安全系统应具有上下文感知能力,这意味着它们应该能够理解 AI 模型的使用环境并相应地调整其响应。这需要开发复杂的算法,这些算法可以分析用户输入背后的含义和意图,而不仅仅是依赖于表面级别的信号。
透明的风险披露: 开发人员应公开与其 AI 模型相关的风险,并提供有关如何降低这些风险的明确指导。这包括披露安全过滤器和内容审核系统的局限性,以及为用户提供报告有害内容的工具。
持续监控和评估: 应持续监控和评估 AI 模型,以识别和解决潜在的安全漏洞。这需要持续的研发,以保持领先于新兴威胁并相应地调整安全措施。
合作的作用
解决多模式 AI 的风险需要 AI 开发人员、安全研究人员、政策制定者和其他利益相关者之间的合作。通过共同努力,这些团体可以制定有效的策略来减轻 AI 的风险,并确保这项技术用于造福社会。
前进的道路
Enkrypt AI 报告是对未经检查的 AI 开发的潜在危险的严峻提醒。通过采取积极措施来解决报告中确定的安全漏洞,我们可以确保以负责任的方式开发和部署多模式 AI,从而最大限度地降低危害风险并最大限度地提高潜在收益。AI 的未来取决于我们是否有能力在开发过程的每个阶段优先考虑安全和伦理。只有这样,我们才能释放 AI 的变革潜力,同时保护社会免受其潜在危害。