Mistral Medium 3:欧洲AI的雄心与现实

Mistral Medium 3 的核心亮点

法国初创公司 Mistral AI 近期发布了其最新的多模态模型 Mistral Medium 3,引发了业界的广泛关注。Mistral 声称,该模型的性能能够比肩甚至超越 Claude Sonnet 3.7 的 90%,同时成本低于 DeepSeek V3,可谓是性价比之选。然而,实际测试结果却与官方宣传存在一定差距,引发了关于模型性能真实性的讨论。

Mistral 在其官方博客中列出了 Mistral Medium 3 的几个核心亮点:

  • 性能与成本的平衡: Mistral Medium 3 旨在实现顶尖性能的同时,将成本降低至原来的八分之一,并简化部署流程,从而加速企业应用。这一定位对于寻求高性能但预算有限的企业来说,无疑具有很强的吸引力。通过降低成本,Mistral 试图打破大型语言模型(LLM)应用的技术壁垒,使更多企业能够负担得起并从中受益。
  • 专业应用场景表现出色: 该模型在代码编写和多模态理解等专业应用场景中表现突出。代码编写能力是衡量 LLM 实用性的重要指标之一,尤其是在软件开发领域。多模态理解则意味着模型能够处理和整合来自不同来源的信息,例如文本、图像和音频,这对于更复杂的任务至关重要。
  • 企业级功能: Mistral Medium 3 提供一系列企业级功能,包括支持混合云部署、本地部署以及在 VPC 内部署、定制化后训练,以及集成到企业工具和系统中。这些功能旨在满足企业在安全性、可定制性和集成方面的特定需求。混合云部署允许企业在公共云和私有云之间灵活地分配工作负载,而本地部署则提供了更高的安全性。定制化后训练则使企业能够根据自身的数据和需求来微调模型,从而提高其在特定任务中的性能。

Mistral Medium 3 API 现已在 Mistral La Plateforme 和 Amazon Sagemaker 上线,并将很快登陆 IBM WatsonX、NVIDIA NIM、Azure AI Foundry 和 Google Cloud Vertex。这表明 Mistral 正在积极拓展其模型的部署渠道,使其能够更广泛地被用户访问和使用。通过与主流云平台和 AI 基础设施提供商合作,Mistral 能够将其模型集成到现有的企业工作流程中,从而简化部署过程并提高用户体验。

性能与成本的权衡

Mistral Medium 3 的一大卖点在于其在提供前沿性能的同时,实现了成本的大幅降低。官方数据显示,在各项基准测试中,Mistral Medium 3 的性能达到甚至超过了 Claude Sonnet 3.7 的 90%,但成本却显著降低(每百万 Token 的输入成本为 0.4 美元,输出成本为 2 美元)。这种性能与成本的平衡是许多企业在选择 LLM 时的关键考虑因素。在性能达到一定水平的前提下,成本越低,投资回报率越高。

此外,Mistral Medium 3 的性能也超越了 Llama 4 Maverick 和 Cohere Command A 等领先的开源模型。无论是 API 还是自主部署,Mistral Medium 3 的成本都要低于 DeepSeek V3。这意味着 Mistral Medium 3 不仅在性能上具有竞争力,而且在成本上也具有优势,这使其成为一个更具吸引力的选择。

Mistral Medium 3 还可以部署在任何云上,包括四个 GPU 及以上的自托管环境,为企业提供了更大的灵活性。这种灵活性使企业能够根据自身的基础设施和需求来选择最合适的部署方式。自托管环境则为企业提供了更高的控制权和安全性。

顶级性能的追求

Mistral 宣称,Mistral Medium 3 的目标是成为一款性能顶尖的模型,尤其是在编码和 STEM 任务中表现突出,性能直逼那些规模更大、速度更慢的竞争对手。这种追求卓越性能的目标反映了 Mistral 在 AI 领域的雄心壮志。

Mistral 提供的表格显示,Mistral Medium 3 的性能已经基本上超越了 Llama 4 Maverick 和 GPT-4o,接近 Claude Sonnet 3.7 以及 DeepSeek 3.1 的水平。然而,这些数据主要来自学术基准测试,可能无法完全反映模型在实际应用中的表现。学术基准测试通常侧重于模型的特定能力,例如语言理解和生成,而忽略了模型在实际应用中的复杂性和多样性。

人工评估的补充

为了更全面地评估 Mistral Medium 3 的性能,Mistral 还公布了第三方人工评估结果。人工评估更能代表真实世界的用例,可以弥补学术基准测试的不足。人工评估通常涉及让人们使用模型来完成各种任务,并根据他们的主观评价来评估模型的性能。

从人工评估结果来看,Mistral Medium 3 在编码领域表现出色,并且在各个方面都比其他竞争对手提供了更好的性能。这表明 Mistral Medium 3 在实际应用中可能具有一定的优势。然而,需要注意的是,人工评估的结果也可能受到评估者的主观偏见和经验的影响。

面向企业级应用的设计

Mistral Medium 3 在适应企业环境的能力方面优于其他 SOTA 模型。在企业面临通过 API 进行微调,或从零开始自部署并定制模型行为的艰难选择时,Mistral Medium 3 提供了一条将智能全面集成到企业系统中的途径。这种设计理念反映了 Mistral 对企业需求的深刻理解。

为了进一步满足企业需求,Mistral 还推出了由 Mistral Medium 3 模型驱动的 Le Chat Enterprise,一款面向企业的聊天机器人服务。Le Chat Enterprise 提供了一个 AI 智能体构建工具,并将 Mistral 的模型与 Gmail、Google Drive 和 SharePoint 等第三方服务整合,旨在解决企业面临的 AI 挑战,如工具碎片化、不安全的知识集成、僵化的模型以及缓慢的投资回报率等,为所有组织工作提供统一的 AI 平台。Le Chat Enterprise 的推出表明 Mistral 正在积极探索 LLM 在企业级应用中的潜力。通过将 LLM 与企业常用的工具和服务集成,Le Chat Enterprise 可以帮助企业提高工作效率和决策质量。

Le Chat Enterprise 很快将支持 MCP 协议,这是 Anthropic 提出的连接 AI 与数据系统和软件的标准。MCP 协议的支持将使 Le Chat Enterprise 能够更轻松地与企业现有的数据系统和软件集成,从而提高其互操作性和可扩展性。

Mistral 的未来展望

Mistral 在博客中透露,虽然 Mistral Small 和 Mistral Medium 已经发布,但在未来几周内,他们有一个“大”计划,也就是 Mistral Large。他们表示刚发布的 Mistral Medium 性能已经远胜 Llama 4 Maverick 等顶尖开源模型,Mistral Large 的性能更加值得期待。Mistral Large 的发布无疑将进一步提升 Mistral 在 AI 领域的竞争力,并为用户提供更多选择。

Mistral Large 的发布也预示着 Mistral 将继续投入大量资源来开发更强大的 LLM。通过不断提高模型的性能,Mistral 试图在 AI 领域保持领先地位。

实际测试的落差

尽管 Mistral 对 Mistral Medium 3 的性能充满信心,并声称其超越了 Claude Sonnet 3.7 的 90%,但实际测试结果却暴露出了一些问题。这种落差反映了 LLM 评估的复杂性和挑战性。

媒体和网友们迅速展开了对 Mistral Medium 3 的实测,结果却令人失望。在基于《纽约时报》Connections 栏目词汇分类题的评测中,Medium 3 处于倒数的位置,几乎找不到它的身影。在全新的 100 题测评中,它在前排模型中也排不上号。这些测试结果表明,Mistral Medium 3 在某些特定任务中的表现可能不如预期。

有用户测试 Medium 3 后表示,它的写作能力还是老样子,没有明显的进步。不过在 LLM 评测中,它倒是处在帕累托前沿。这表明 Mistral Medium 3 在写作方面的能力可能需要进一步提高。

Zhu Liang 的测试结果显示,Mistral Medium 3 在代码编写和文本生成方面表现都很扎实,在这两项评测中都跻身前五。这与 Mistral 官方的宣传相符,表明 Mistral Medium 3 在某些特定领域具有一定的优势。

在简单编码任务(Next.js TODO 应用)中:

  • 它生成了简洁明了的回复
  • 评分和 Gemini 2.5 Pro、Claude 3.5 Sonnet 差不多
  • 逊于 DeepSeek V3 (新) 和 GPT-4.1

在复杂编码任务(基准测试可视化)中:

  • 产生的平均结果与 Gemini 2.5 Pro 和 DeepSeek V3(新)相似
  • 不如 GPT-4.1、o3 和 Claude 3.7 Sonnet

在写作上:

  • 它的内容覆盖了大部分要点,但格式不正确
  • 评分与 DeepSeek V3 (新) 和 Claude 3.7 Sonnet 相近
  • 不如 GPT-4.1 和 Gemini 2.5 Pro

这些测试结果表明,Mistral Medium 3 在不同任务中的表现存在差异。在某些任务中,它的表现接近甚至超过了其他领先的模型,而在其他任务中,它的表现则相对较弱。

知名大佬“karminski-牙医”实测后发现,Mistral Medium 3 的性能并不像官方吹嘘的那么强大,甚至建议用户不必下载,以免浪费流量和硬盘空间。这表明 Mistral 在宣传其模型性能时可能存在夸大成分。

结论

Mistral Medium 3 作为欧洲 AI 领域的创新尝试,在性能和成本之间寻求平衡,并针对企业级应用进行了优化。然而,实际测试结果与官方宣传存在一定差距,表明 Mistral 在模型性能方面可能存在夸大宣传。这种现象在 AI 领域并不罕见,许多公司都倾向于夸大其模型的性能,以吸引投资者和用户。

尽管如此,Mistral Medium 3 仍然具有一定的潜力,尤其是在编码和文本生成等领域。未来,Mistral 需要进一步提升模型性能,并加强实际应用测试,以赢得用户的信任。同时,Mistral Large 的发布也值得期待,或许能够弥补 Mistral Medium 3 的不足,为用户带来更好的体验。

总而言之,Mistral Medium 3 的发布反映了欧洲在 AI 领域的积极探索和创新精神。虽然实际性能与预期存在差距,但 Mistral 仍然值得关注,其未来的发展值得期待。Mistral 的努力也为欧洲 AI 产业的发展注入了新的活力。