Mistral Medium 3:歐洲AI新秀的野心與現實

法國初創公司 Mistral AI 近期發布了其最新的多模態模型 Mistral Medium 3,引發了業界的廣泛關注。Mistral 聲稱,該模型的性能能夠比肩甚至超越 Claude Sonnet 3.7 的 90%,同時成本低於 DeepSeek V3,可謂是性價比之選。然而,實際測試結果卻與官方宣傳存在一定差距,引發了關於模型性能真實性的討論。

Mistral Medium 3 的核心亮點

Mistral 在其官方博客中列出了 Mistral Medium 3 的幾個核心亮點:

  • 性能與成本的平衡: Mistral Medium 3 旨在實現頂尖性能的同時,將成本降低至原來的八分之一,並簡化部署流程,從而加速企業應用。
  • 專業應用場景表現出色: 該模型在代碼編寫和多模態理解等專業應用場景中表現突出。
  • 企業級功能: Mistral Medium 3 提供一系列企業級功能,包括支持混合雲部署、本地部署以及在 VPC 內部部署、定制化後訓練,以及集成到企業工具和系統中。

Mistral Medium 3 API 現已在 Mistral La Plateforme 和 Amazon Sagemaker 上線,並將很快登陸 IBM WatsonX、NVIDIA NIM、Azure AI Foundry 和 Google Cloud Vertex。

性能與成本的權衡

Mistral Medium 3 的一大賣點在於其在提供前沿性能的同時,實現了成本的大幅降低。官方數據顯示,在各項基準測試中,Mistral Medium 3 的性能達到甚至超過了 Claude Sonnet 3.7 的 90%,但成本卻顯著降低(每百萬 Token 的輸入成本為 0.4 美元,輸出成本為 2 美元)。

此外,Mistral Medium 3 的性能也超越了 Llama 4 Maverick 和 Cohere Command A 等領先的開源模型。無論是 API 還是自主部署,Mistral Medium 3 的成本都要低於 DeepSeek V3。

Mistral Medium 3 還可以部署在任何雲上,包括四個 GPU 及以上的自託管環境,為企業提供了更大的靈活性。

頂級性能的追求

Mistral 宣稱,Mistral Medium 3 的目標是成為一款性能頂尖的模型,尤其是在編碼和 STEM 任務中表現突出,性能直逼那些規模更大、速度更慢的競爭對手。

Mistral 提供的表格顯示,Mistral Medium 3 的性能已經基本上超越了 Llama 4 Maverick 和 GPT-4o,接近 Claude Sonnet 3.7 以及 DeepSeek 3.1 的水平。然而,這些數據主要來自學術基準測試,可能無法完全反映模型在實際應用中的表現。

人工評估的補充

為了更全面地評估 Mistral Medium 3 的性能,Mistral 還公布了第三方人工評估結果。人工評估更能代表真實世界的用例,可以彌補學術基準測試的不足。

從人工評估結果來看,Mistral Medium 3 在編碼領域表現出色,並且在各個方面都比其他競爭對手提供了更好的性能。這表明 Mistral Medium 3 在實際應用中可能具有一定的優勢。

面向企業級應用的設計

Mistral Medium 3 在適應企業環境的能力方面優於其他 SOTA 模型。在企業面臨通過 API 進行微調,或從零開始自部署並定制模型行為的艱難選擇時,Mistral Medium 3 提供了一條將智能全面集成到企業系統中的途徑。

為了進一步滿足企業需求,Mistral 還推出了由 Mistral Medium 3 模型驅動的 Le Chat Enterprise,一款面向企業的聊天機器人服務。Le Chat Enterprise 提供了一個 AI 智能體構建工具,並將 Mistral 的模型與 Gmail、Google Drive 和 SharePoint 等第三方服務整合,旨在解決企業面臨的 AI 挑戰,如工具碎片化、不安全的知識集成、僵化的模型以及緩慢的投資回報率等,為所有組織工作提供統一的 AI 平台。

Le Chat Enterprise 很快將支持 MCP 協議,這是 Anthropic 提出的連接 AI 與數據系統和軟件的標準。

Mistral 的未來展望

Mistral 在博客中透露,雖然 Mistral Small 和 Mistral Medium 已經發布,但在未來幾週內,他們有一個「大」計劃,也就是 Mistral Large。他們表示剛發布的 Mistral Medium 性能已經遠勝 Llama 4 Maverick 等頂尖開源模型,Mistral Large 的性能更加值得期待。

Mistral Large 的發布無疑將進一步提升 Mistral 在 AI 領域的競爭力,並為用戶提供更多選擇。

實際測試的落差

儘管 Mistral 對 Mistral Medium 3 的性能充滿信心,並聲稱其超越了 Claude Sonnet 3.7 的 90%,但實際測試結果卻暴露出了一些問題。

媒體和網友們迅速展開了對 Mistral Medium 3 的實測,結果卻令人失望。在基於《紐約時報》Connections 欄目詞彙分類題的評測中,Medium 3 處於倒數的位置,幾乎找不到它的身影。在全新的 100 題测评中,它在前排模型中也排不上號。

有用户测试 Medium 3 后表示,它的写作能力还是老样子,没有明显的进步。不过在 LLM 评测中,它倒是处在帕累托前沿。

Zhu Liang 的測試結果顯示,Mistral Medium 3 在代碼編寫和文本生成方面表現都很紮實,在這兩項評測中都躋身前五。

在簡單編碼任務(Next.js TODO 應用)中:

  • 它生成了簡潔明了的回覆
  • 評分和 Gemini 2.5 Pro、Claude 3.5 Sonnet 差不多
  • 遜於 DeepSeek V3 (新) 和 GPT-4.1

在複雜編碼任務(基準測試可視化)中:

  • 產生的平均結果與 Gemini 2.5 Pro 和 DeepSeek V3(新)相似
  • 不如 GPT-4.1、o3 和 Claude 3.7 Sonnet

在寫作上:

  • 它的內容覆蓋了大部分要點,但格式不正確
  • 評分與 DeepSeek V3 (新) 和 Claude 3.7 Sonnet 相近
  • 不如 GPT-4.1 和 Gemini 2.5 Pro

知名大佬「karminski-牙醫」實測後發現,Mistral Medium 3 的性能並不象官方吹噓的那麼強大,甚至建議用戶不必下載,以免浪費流量和硬盤空間。

結論

Mistral Medium 3 作為歐洲 AI 領域的創新嘗試,在性能和成本之間尋求平衡,並針對企業級應用進行了優化。然而,實際測試結果與官方宣傳存在一定差距,表明 Mistral 在模型性能方面可能存在誇大宣傳。

儘管如此,Mistral Medium 3 仍然具有一定的潛力,尤其是在編碼和文本生成等領域。未來,Mistral 需要進一步提升模型性能,並加強實際應用測試,以贏得用戶的信任。同時,Mistral Large 的發布也值得期待,或許能夠彌補 Mistral Medium 3 的不足,為用戶帶來更好的體驗。

總而言之,Mistral Medium 3 的發布反映了歐洲在 AI 領域的積極探索和創新精神。雖然實際性能與預期存在差距,但 Mistral 仍然值得關注,其未來的發展值得期待。