Mistral Medium 3:実力と宣伝のギャップ

Mistral Medium 3:ヨーロッパのAI新星の挑戦と現実の性能のギャップ

フランスのスタートアップ企業であるMistral AIは最近、最新のマルチモーダルモデルであるMistral Medium 3を発表し、その性能は強力なClaude Sonnet 3.7に匹敵し、DeepSeek V3よりも低コストであると主張しました。このニュースは直ちにテクノロジー業界で広範な注目を集めました。しかし、ユーザーが実際にテストした結果、このモデルのパフォーマンスは公式の宣伝とは大きく異なり、ユーザーは時間とリソースを浪費してダウンロードする必要はないと示唆する人もいました。

Mistral Medium 3の公式宣伝

Mistral AIは、公式ブログでMistral Medium 3のいくつかの主要なハイライトを強調しました。

  • 性能とコストのバランス: Mistral Medium 3は、最高の性能を提供しながらコストを従来の8分の1に削減し、企業のアプリケーションを加速することを目的としています。
  • 専門アプリケーションシナリオの利点: このモデルは、コーディングやマルチモーダル理解などの専門分野で優れたパフォーマンスを発揮します。
  • エンタープライズグレードの機能: Mistral Medium 3は、ハイブリッドクラウド展開、ローカル展開、VPC内展開、カスタマイズされた事後トレーニング、企業ツールおよびシステムへの統合など、一連のエンタープライズグレードの機能を提供します。

Mistral Medium 3 APIは、Mistral La PlateformeとAmazon Sagemakerですでにオンラインになっており、間もなくIBM WatsonX、NVIDIA NIM、Azure AI Foundry、Google Cloud Vertexに搭載される予定です。

性能指標の比較

Mistral AIは、さまざまなベンチマークテストで、Mistral Medium 3の性能がClaude Sonnet 3.7の90%に達し、それを超えることさえありますが、コストは大幅に削減されると主張しています。具体的には、Mistral Medium 3の100万トークンあたりの入力コストは0.4ドル、出力コストは2ドルです。

さらに、Mistral Medium 3の性能は、Llama 4 MaverickやCohere Command Aなどの主要なオープンソースモデルを上回ると言われています。APIまたは自主展開のいずれを使用しても、Mistral Medium 3のコストはDeepSeek V3よりも低くなります。このモデルは、4つ以上のGPUを含む自己ホスト環境を含む、あらゆるクラウドに展開することもできます。

エンタープライズグレードのアプリケーションに焦点を当てる

Mistral AIは、Mistral Medium 3の目標は、特にコーディングとSTEMタスクで優れたパフォーマンスを発揮し、より大規模で低速な競合他社に匹敵するパフォーマンスを発揮する、最高のパフォーマンスを発揮するモデルになることであると強調しています。

公式に公開されたデータによると、Mistral Medium 3の性能は基本的にLlama 4 MaverickとGPT-4oを超え、Claude Sonnet 3.7およびDeepSeek 3.1のレベルに近づいています。

モデルの性能をさらに検証するために、Mistral AIはサードパーティによる人工評価の結果も公開しました。これらの評価は、実際の使用例をより適切に表しています。結果は、Mistral Medium 3がコーディング分野で優れたパフォーマンスを発揮し、あらゆる面で他の競合他社よりも優れたパフォーマンスを提供することを示しています。

Mistral Medium 3は、企業環境に適応する能力においても他のSOTAモデルよりも優れています。企業にインテリジェンスを企業システムに完全に統合するための手段を提供し、APIの微調整とモデルのカスタマイズにおける企業の課題を解決します。

Le Chat Enterprise

Mistral AIは、Mistral Medium 3モデルを搭載したエンタープライズ向けのチャットボットサービスであるLe Chat Enterpriseも発表しました。AIインテリジェントエージェント構築ツールを提供し、MistralのモデルをGmail、Google Drive、SharePointなどのサードパーティサービスと統合します。

Le Chat Enterpriseは、ツールの断片化、安全でない知識の統合、硬直したモデル、投資収益率の遅さなど、企業が直面するAIの課題を解決し、すべての組織の作業に統一されたAIプラットフォームを提供することを目的としています。

Le Chat Enterpriseは、Anthropicが提案したAIをデータシステムおよびソフトウェアに接続するための標準であるMCPプロトコルをまもなくサポートします。

Mistral Largeの展望

Mistral AIはブログで、Mistral SmallとMistral Mediumがすでにリリースされていますが、今後数週間以内に「大きな」計画、つまりMistral Largeがあると明らかにしました。彼らは、リリースされたばかりのMistral Mediumの性能は、Llama 4 Maverickなどの主要なオープンソースモデルよりもはるかに優れており、Mistral Largeの性能はさらに期待できると述べています。

ユーザーが実際にテストした真実

しかし、Mistral AIがMistral Medium 3の強力なパフォーマンスを大々的に宣伝した後、メディアとユーザーはすぐに実際のテストを開始しましたが、その結果は非常に残念なものでした。

性能テストのギャップ

ニューヨークタイムズのConnectionsコラムの語彙分類問題に基づく評価では、Mistral Medium 3のパフォーマンスは期待外れであり、その姿を見つけることはほとんどできませんでした。新しい100の質問の評価では、最前線のモデルにもランクインしていません。

一部のユーザーはテスト後、Mistral Medium 3のライティングスキルに明らかな改善は見られないと述べています。ただし、LLMの評価では、パレートフロンティアに位置しています。

Zhu Liangのテストでは、Mistral Medium 3はコーディングとテキスト生成の両方で堅実なパフォーマンスを発揮し、これら2つの評価でトップ5に入っています。

コーディングタスクのパフォーマンス

単純なコーディングタスク(Next.js TODOアプリケーション)では、Mistral Medium 3は簡潔で明確な応答を生成し、Gemini 2.5 Pro、Claude 3.5 Sonnetと同等のスコアでしたが、DeepSeek V3(新規)とGPT-4.1よりも劣っていました。

複雑なコーディングタスク(ベンチマークテストの視覚化)では、Mistral Medium 3によって生成された平均結果はGemini 2.5 ProおよびDeepSeek V3(新規)と類似していましたが、GPT-4.1、o3、Claude 3.7 Sonnetほどではありませんでした。

ライティングスキル評価

ライティングの面では、Mistral Medium 3はほとんどの要点をカバーしていましたが、形式が正しくなく、DeepSeek V3(新規)およびClaude 3.7 Sonnetと同等のスコアでしたが、GPT-4.1およびGemini 2.5 Proほどではありませんでした。

著名な"karminski-歯科医"も実際にテストした後、Mistral Medium 3のパフォーマンスは公式の宣伝ほど強力ではないと述べ、トラフィックとハードドライブの容量を無駄にしないように、ユーザーはダウンロードする必要がないと推奨しました。

比較と考察

Mistral Medium 3のケースは、AIモデルの性能を評価する際には、公式の宣伝やベンチマークテストの結果だけに頼るのではなく、ユーザーの実際の体験やサードパーティの評価を重視する必要があることを改めて思い出させてくれます。

公式の宣伝は、モデルの利点を選択的に示し、欠点を無視することがよくあります。ベンチマークテストはある程度の参考価値を提供できますが、実際のモデルのパフォーマンスを完全に反映することはできません。ユーザーの実際の体験とサードパーティの評価は、より客観的かつ包括的であり、モデルの長所と短所をより正確に理解するのに役立ちます。

さらに、AIモデルの性能は、トレーニングデータ、モデルアーキテクチャ、最適化アルゴリズムなど、さまざまな要因の影響を受けます。異なるモデルは、異なるタスクで異なる長所と短所を示す場合があります。したがって、AIモデルを選択する際には、特定のアプリケーションシナリオと要件に基づいて総合的に考慮する必要があります。

Mistral Medium 3のリリースとユーザーの実際のテスト結果の間の大きなギャップは、AIモデルの評価基準に関する議論も引き起こしました。より科学的、客観的、包括的なAIモデル評価システムを確立する方法は、深く検討する価値のある問題です。

業界への影響

Mistral Medium 3の事件は、AI業界全体にも一定の影響を与えました。一方では、AI企業はユーザーエクスペリエンスをより重視し、過剰な宣伝や虚偽の宣伝を避ける必要があることを思い出させます。他方では、AI分野の専門家がAIモデルの評価基準の策定と改善により関心を寄せるよう促します。

将来的には、AI技術の継続的な開発により、AIモデルの性能は向上し続け、アプリケーションシナリオも拡大し続けます。私たちは、より合理的かつ客観的な態度でAI技術を見る必要があり、その大きな可能性に気づきながら、その限界も認識する必要があります。そうして初めて、AI技術をより有効に活用して、人間社会に価値を創造することができます。

要するに、Mistral Medium 3のケースは警告であり、AIモデルを評価する際には批判的思考を維持し、公式の宣伝を盲信せず、実際の体験とサードパーティの評価を組み合わせて合理的な判断を下す必要があることを思い出させます。