法國新創公司 Mistral AI 近期發布了其最新的多模態模型 Mistral Medium 3,聲稱其性能可與強大的 Claude Sonnet 3.7 相媲美,且成本低於 DeepSeek V3。這一消息立即引發了科技界的廣泛關注。然而,用戶在實際測試後卻發現,這款模型的表現與官方宣傳存在較大差距,甚至有人建議用戶不必浪費時間和資源下載。
Mistral Medium 3 的官方宣傳
Mistral AI 在其官方部落格中強調了 Mistral Medium 3 的幾個核心亮點:
- 性能與成本的平衡: Mistral Medium 3 旨在提供頂尖性能的同時,將成本降低至原來的八分之一,從而加速企業應用。
- 專業應用場景的優勢: 該模型在程式碼編寫和多模態理解等專業領域表現出色。
- 企業級功能: Mistral Medium 3 提供一系列企業級功能,包括支援混合雲部署、本地部署以及在 VPC 內部部署,以及客製化後訓練和整合到企業工具和系統中。
Mistral Medium 3 API 已經在 Mistral La Plateforme 和 Amazon Sagemaker 上線,並計畫很快登陸 IBM WatsonX、NVIDIA NIM、Azure AI Foundry 和 Google Cloud Vertex。
性能指標的對比
Mistral AI 宣稱,在各項基準測試中,Mistral Medium 3 的性能達到甚至超過了 Claude Sonnet 3.7 的 90%,但成本卻顯著降低。具體來說,Mistral Medium 3 每百萬 Token 的輸入成本為 0.4 美元,輸出成本為 2 美元。
此外,Mistral Medium 3 的性能據稱超越了 Llama 4 Maverick 和 Cohere Command A 等領先的開源模型。無論是通過 API 還是自主部署,Mistral Medium 3 的成本都要低於 DeepSeek V3。該模型還可以在任何雲上部署,包括四個 GPU 及以上的自託管環境。
專注於企業級應用
Mistral AI 強調,Mistral Medium 3 的目標是成為一款性能頂尖的模型,尤其是在編碼和 STEM 任務中表現突出,性能直逼那些規模更大、速度更慢的競爭對手。
官方公布的數據顯示,Mistral Medium 3 的性能基本上超越了 Llama 4 Maverick 和 GPT-4o,接近 Claude Sonnet 3.7 以及 DeepSeek 3.1 的水平。
為了進一步驗證模型的性能,Mistral AI 還公布了第三方人工評估的結果,這些評估更能代表真實世界的用例。結果顯示,Mistral Medium 3 在編碼領域表現出色,並且在各個方面都比其他競爭對手提供了更好的性能。
Mistral Medium 3 在適應企業環境的能力方面也優於其他 SOTA 模型。它為企業提供了一條將智能全面整合到企業系統中的途徑,解決了企業在 API 微調和模型客製化方面的難題。
Le Chat Enterprise
Mistral AI 還推出了由 Mistral Medium 3 模型驅動的 Le Chat Enterprise,這是一款面向企業的聊天機器人服務。它提供了一個 AI 智能體構建工具,並將 Mistral 的模型與 Gmail、Google Drive 和 SharePoint 等第三方服務整合。
Le Chat Enterprise 旨在解決企業面臨的 AI 挑戰,如工具碎片化、不安全的知識整合、僵化的模型以及緩慢的投資回報率等,為所有組織工作提供統一的 AI 平台。
Le Chat Enterprise 很快將支援 MCP 協議,這是 Anthropic 提出的連接 AI 與數據系統和軟體的標準。
Mistral Large 的展望
Mistral AI 還在部落格中透露,雖然 Mistral Small 和 Mistral Medium 已經發布,但在未來幾週內,他們有一個「大」計畫,也就是 Mistral Large。他們表示,剛發布的 Mistral Medium 性能已經遠勝 Llama 4 Maverick 等頂尖開源模型,Mistral Large 的性能更加值得期待。
用戶實測的真實情況
然而,在 Mistral AI 大肆宣傳 Mistral Medium 3 的強大性能後,媒體和用戶們迅速展開了實際測試,結果卻令人大跌眼鏡。
性能測試的落差
在基於《紐約時報》 Connections 欄目詞彙分類題的評測中,Mistral Medium 3 的表現令人失望,幾乎找不到它的身影。在全新的 100 題测评中,它在前排模型中也排不上號。
一些用戶測試後表示,Mistral Medium 3 的寫作能力並沒有明顯的進步。不過,在 LLM 評測中,它倒是處在帕累托前沿。
Zhu Liang 的測試發現,Mistral Medium 3 在程式碼編寫和文字生成方面表現都很紮實,在這兩項評測中都躋身前五。
編碼任務的表現
在簡單編碼任務(Next.js TODO 應用)中,Mistral Medium 3 生成了簡潔明瞭的回覆,評分和 Gemini 2.5 Pro、Claude 3.5 Sonnet 差不多,但遜於 DeepSeek V3 (新) 和 GPT-4.1。
在複雜編碼任務(基準測試可視化)中,Mistral Medium 3 產生的平均結果與 Gemini 2.5 Pro 和 DeepSeek V3(新)相似,但不如 GPT-4.1、o3 和 Claude 3.7 Sonnet。
寫作能力評估
在寫作方面,Mistral Medium 3 的內容覆蓋了大部分要點,但格式不正確,評分與 DeepSeek V3 (新) 和 Claude 3.7 Sonnet 相近,不如 GPT-4.1 和 Gemini 2.5 Pro。
知名人士「karminski-牙醫」在實測後也表示,Mistral Medium 3 的性能並不像官方吹噓的那麼強,建議用戶不必下載,以免浪費流量和硬碟空間。
對比與反思
Mistral Medium 3 的案例再次提醒我們,在評估 AI 模型的性能時,不能僅僅依賴官方宣傳和基準測試結果,更要重視用戶的實際體驗和第三方評估。
官方宣傳往往會選擇性地展示模型的優勢,而忽略其不足之處。基準測試雖然可以提供一定的參考價值,但並不能完全反映模型在真實世界中的表現。用戶的實際體驗和第三方評估則更加客觀和全面,可以幫助我們更準確地了解模型的優缺點。
此外,AI 模型的性能也受到多種因素的影響,包括訓練數據、模型架構、優化算法等。不同的模型可能在不同的任務上表現出不同的優勢和劣勢。因此,在選擇 AI 模型時,需要根據具體的應用場景和需求進行綜合考慮。
Mistral Medium 3 的發布和用戶實測結果之間的巨大反差,也引發了人們對 AI 模型評估標準的討論。如何建立更加科學、客觀、全面的 AI 模型評估體系,是一個值得深入探討的問題。
行業影響
Mistral Medium 3 的事件也對整個 AI 行業產生了一定的影響。一方面,它提醒 AI 公司要更加注重用戶體驗,避免過度宣傳和虛假宣傳。另一方面,它也促使 AI 領域的從業者更加關注 AI 模型評估標準的制定和完善。
未來,隨著 AI 技術的不斷發展,AI 模型的性能將不斷提升,應用場景也將不斷拓展。我們需要以更加理性、客觀的態度看待 AI 技術,既要看到其巨大的潛力,也要認識到其局限性。只有這樣,才能更好地利用 AI 技術為人類社會創造價值。
總之,Mistral Medium 3 的案例是一個警示,提醒我們在評估 AI 模型時要保持批判性思維,不能盲目相信官方宣傳,而要結合實際體驗和第三方評估,做出理性的判斷。