フランスのスタートアップ企業、Mistral AIが先日発表した最新のマルチモーダルモデル、Mistral Medium 3は、業界で大きな注目を集めています。Mistralは、このモデルの性能がClaude Sonnet 3.7の90%に匹敵、あるいはそれを上回ると主張し、DeepSeek V3よりも低コストであることから、コストパフォーマンスに優れた選択肢であると謳っています。しかし、実際のテスト結果は公式発表とは一定のずれがあり、モデルの性能の信憑性について議論を呼んでいます。
Mistral Medium 3 の主な特徴
Mistralは、公式ブログでMistral Medium 3のいくつかの主な特徴を挙げています。
- 性能とコストのバランス: Mistral Medium 3は、最高の性能を実現すると同時に、コストを従来の8分の1に削減し、導入プロセスを簡素化することで、企業での応用を加速することを目指しています。
- 専門的な応用シーンでの優れた性能: このモデルは、コード作成やマルチモーダル理解などの専門的な応用シーンで優れた性能を発揮します。
- エンタープライズレベルの機能: Mistral Medium 3は、ハイブリッドクラウド環境への導入、オンプレミス環境への導入、VPC内への導入、カスタマイズされた事後学習、企業ツールやシステムへの統合など、一連のエンタープライズレベルの機能を提供します。
Mistral Medium 3 APIは、すでにMistral La PlateformeとAmazon Sagemakerで利用可能であり、まもなくIBM WatsonX、NVIDIA NIM、Azure AI Foundry、Google Cloud Vertexにも導入される予定です。
性能とコストのトレードオフ
Mistral Medium 3の大きなセールスポイントは、最先端の性能を提供しながら、コストを大幅に削減している点です。公式データによると、各種ベンチマークテストにおいて、Mistral Medium 3の性能はClaude Sonnet 3.7の90%に達し、あるいはそれを上回っていますが、コストは大幅に削減されています(100万トークンあたりの入力コストは0.4ドル、出力コストは2ドル)。
さらに、Mistral Medium 3の性能は、Llama 4 MaverickやCohere Command Aなどの主要なオープンソースモデルをも凌駕しています。APIとして利用する場合でも、自己導入する場合でも、Mistral Medium 3のコストはDeepSeek V3よりも低くなります。
Mistral Medium 3は、4つ以上のGPUを持つ自己ホスト環境を含む、あらゆるクラウドに導入できるため、企業に高い柔軟性を提供します。
最高性能の追求
Mistralは、Mistral Medium 3の目標は、特にコーディングやSTEM分野のタスクで優れた性能を発揮する、最高性能のモデルになることだと宣言しており、その性能は、より大規模で処理速度の遅い競合他社に匹敵するほどです。
Mistralが提供する表では、Mistral Medium 3の性能は、Llama 4 MaverickやGPT-4oをほぼ完全に上回り、Claude Sonnet 3.7やDeepSeek 3.1の水準に近づいていることが示されています。しかし、これらのデータは主に学術的なベンチマークテストからのものであり、実際のアプリケーションにおけるモデルの性能を完全に反映しているとは限りません。
人工評価による補完
Mistral Medium 3の性能をより包括的に評価するために、Mistralは第三者による人工評価の結果も公表しました。人工評価は、より現実世界のユースケースを代表するものであり、学術的なベンチマークテストの欠点を補うことができます。
人工評価の結果を見ると、Mistral Medium 3はコーディング分野で優れた性能を発揮しており、あらゆる面で他の競合他社よりも優れた性能を提供しています。これは、Mistral Medium 3が実際のアプリケーションにおいて一定の優位性を持つ可能性を示唆しています。
エンタープライズレベルのアプリケーションに向けた設計
Mistral Medium 3は、企業環境への適応能力において他のSOTAモデルよりも優れています。企業がAPIを通じて微調整するか、ゼロから自己導入してモデルの動作をカスタマイズするかという困難な選択に直面している場合、Mistral Medium 3は、インテリジェンスを企業システムに完全に統合する方法を提供します。
企業のニーズをさらに満たすために、MistralはMistral Medium 3モデルを搭載したLe Chat Enterpriseも発表しました。Le Chat Enterpriseは、企業向けのチャットボットサービスです。Le Chat Enterpriseは、AIインテリジェントエージェント構築ツールを提供し、MistralのモデルをGmail、Google Drive、SharePointなどのサードパーティサービスと統合することで、企業の直面するAIの課題、例えば、ツールの断片化、安全でない知識統合、硬直的なモデル、遅い投資回収率などを解決し、すべての組織の仕事に統一されたAIプラットフォームを提供することを目指しています。
Le Chat Enterpriseは、まもなくMCPプロトコルをサポートする予定です。これは、Anthropicが提案したAIとデータシステムおよびソフトウェアを接続するための標準です。
Mistral の将来展望
Mistralはブログで、Mistral SmallとMistral Mediumはすでにリリースされていますが、今後数週間以内に「大きな」計画、つまりMistral Largeがあると明らかにしました。彼らは、リリースされたばかりのMistral Mediumの性能は、Llama 4 Maverickなどの最先端のオープンソースモデルをすでに大きく上回っており、Mistral Largeの性能はさらに期待できると述べています。
Mistral Largeのリリースは、間違いなくMistralのAI分野における競争力をさらに高め、ユーザーにより多くの選択肢を提供することになるでしょう。
実際のテストとのずれ
MistralはMistral Medium 3の性能に自信を持ち、Claude Sonnet 3.7の90%を上回ると主張していますが、実際のテスト結果はいくつかの問題点を露呈しました。
メディアやネットユーザーはすぐにMistral Medium 3の実測を開始しましたが、その結果は期待外れでした。《ニューヨーク・タイムズ》のConnections欄の語彙分類問題に基づく評価では、Medium 3は最下位に位置し、その姿をほとんど見つけることができませんでした。新しい100問の評価では、上位モデルの中にランクインすることもできませんでした。
あるユーザーがMedium 3をテストした結果、その文章作成能力は以前と変わらず、目立った進歩は見られないと述べています。しかし、LLM評価では、パレートフロンティアに位置しています。
Zhu Liangのテスト結果によると、Mistral Medium 3はコード作成とテキスト生成の両方で堅実な性能を発揮し、両方の評価でトップ5にランクインしています。
簡単なコーディングタスク(Next.js TODOアプリ)では、
- 簡潔でわかりやすい回答を生成しました。
- 評価はGemini 2.5 Pro、Claude 3.5 Sonnetと同程度でした。
- DeepSeek V3 (新) と GPT-4.1には劣ります。
複雑なコーディングタスク(ベンチマークテストの可視化)では、
- Gemini 2.5 ProとDeepSeek V3(新)と同程度の平均的な結果を生み出しました。
- GPT-4.1、o3、Claude 3.7 Sonnetには劣ります。
文章作成では、
- ほとんどの要点を網羅しましたが、書式が正しくありませんでした。
- 評価はDeepSeek V3 (新) と Claude 3.7 Sonnetと同程度でした。
- GPT-4.1とGemini 2.5 Proには劣ります。
著名な「karminski-歯医者」氏が実際にテストした結果、Mistral Medium 3の性能は公式が宣伝するほど強力ではなく、ダウンロードしてもトラフィックとハードディスクの容量を無駄にするだけだとアドバイスしています。
結論
Mistral Medium 3は、欧州のAI分野における革新的な試みとして、性能とコストのバランスを追求し、エンタープライズレベルのアプリケーション向けに最適化されています。しかし、実際のテスト結果は公式発表とは一定のずれがあり、Mistralがモデルの性能について誇張した宣伝をしている可能性があることを示唆しています。
それでも、Mistral Medium 3は、特にコーディングやテキスト生成などの分野において一定の可能性を秘めています。今後、Mistralはモデルの性能をさらに向上させ、実際のアプリケーションテストを強化することで、ユーザーの信頼を獲得する必要があります。同時に、Mistral Largeのリリースも期待されており、Mistral Medium 3の欠点を補い、ユーザーにより良い体験をもたらす可能性があります。
結論として、Mistral Medium 3のリリースは、欧州におけるAI分野の積極的な探求と革新精神を反映しています。実際の性能は期待を下回るものの、Mistralは依然として注目に値し、その将来の発展が期待されます。