Phiファミリーの拡張:マルチモーダル機能の導入
Microsoftは、急成長するSLM分野への貢献として、コンパクトなモデル群であるPhiファミリーを提供しています。Phiの第4世代は12月に発表されましたが、今回、MicrosoftはPhi-4-multimodalとPhi-4-miniという2つの重要なモデルを追加し、ラインナップを強化します。これらの新しいモデルは、他のPhiファミリーモデルと同様に、Azure AI Foundry、Hugging Face、Nvidia API Catalogを通じて、寛容なMITライセンスの下で容易にアクセスできるようになります。
Phi-4-multimodalは、特に注目に値します。これは、「mixture-of-LoRAs’ (Low-Rank Adaptations)」と呼ばれる高度な技術を活用した56億パラメータのモデルです。このアプローチにより、モデルは音声、視覚入力、テキストデータを同時に処理できます。LoRAは、大規模言語モデルの特定のタスクにおけるパフォーマンスを向上させるための新しい方法であり、すべてのパラメータにわたる大規模なファインチューニングの必要性を回避します。代わりに、LoRAを使用する開発者は、モデルに少数の新しい重みを戦略的に挿入します。これらの新しく導入された重みのみがトレーニングされるため、処理が大幅に高速化され、メモリ効率が向上します。その結果、より軽量なモデルの集合体ができ、保存、共有、展開がはるかに容易になります。
この効率性の意味合いは大きいです。Phi-4-multimodalは、低遅延推論を実現します。つまり、情報を処理して応答を非常に迅速に提供できます。同時に、デバイス上での実行に最適化されています。これにより、計算オーバーヘッドが劇的に削減され、以前は必要な処理能力が不足していたデバイスで高度なAIアプリケーションを実行することが可能になります。
潜在的なユースケース:スマートフォンから金融サービスまで
Phi-4-multimodalの潜在的な用途は多岐にわたります。スマートフォンでシームレスに動作し、車両内の高度な機能を強化したり、軽量なエンタープライズアプリケーションを推進したりするモデルを想像してみてください。魅力的な例としては、多言語対応の金融サービスアプリケーションがあります。これは、さまざまな言語でのユーザーのクエリを理解して応答し、ドキュメントなどの視覚データを処理し、すべてユーザーのデバイス上で効率的に動作します。
業界アナリストは、Phi-4-multimodalの変革の可能性を認識しています。これは、特にモバイルデバイスや計算リソースが限られている環境向けのAI駆動型アプリケーションの作成に焦点を当てている開発者にとって、重要な前進と見なされています。
Forresterのバイスプレジデント兼プリンシパルアナリストであるCharlie Dai氏は、このモデルがテキスト、画像、音声処理を堅牢な推論機能と統合する能力を強調しています。彼は、この組み合わせがAIアプリケーションを強化し、開発者と企業に「汎用性、効率性、拡張性のあるソリューション」を提供すると強調しています。
Everest GroupのパートナーであるYugal Joshi氏は、このモデルが計算制約のある環境での展開に適していることを認めています。彼は、モバイルデバイスがすべての生成AIユースケースにとって理想的なプラットフォームではないかもしれないと指摘する一方で、新しいSLMは、Microsoftが大規模な計算インフラストラクチャへの依存を最小限に抑えることに焦点を当てた別のイニシアチブであるDeepSeekからインスピレーションを得ていることの反映であると見ています。
ベンチマークパフォーマンス:強みと成長分野
ベンチマークパフォーマンスに関しては、Phi-4-multimodalは、特に音声質問応答(QA)タスクにおいて、Gemini-2.0-FlashやGPT-4o-realtime-previewなどのモデルと比較してパフォーマンスギャップを示します。Microsoftは、Phi-4モデルのサイズが小さいほど、質問応答のための事実知識を保持する能力が本質的に制限されることを認めています。しかし、同社は、モデルの将来のイテレーションでこの機能を強化するための継続的な取り組みを強調しています。
それにもかかわらず、Phi-4-multimodalは他の分野で印象的な強みを示しています。特に、数学的および科学的推論、光学文字認識(OCR)、視覚科学推論を含むタスクにおいて、Gemini-2.0-Flash LiteやClaude-3.5-Sonnetを含むいくつかの人気のあるLLMを上回っています。これらは、教育ソフトウェアから科学研究ツールまで、幅広いアプリケーションにとって重要な機能です。
Phi-4-mini:コンパクトサイズ、印象的なパフォーマンス
Phi-4-multimodalと並んで、MicrosoftはPhi-4-miniも発表しました。このモデルはさらにコンパクトで、38億のパラメータを誇ります。これは、密なデコーダのみのTransformerアーキテクチャに基づいており、最大128,000トークンという印象的なシーケンスをサポートします。
MicrosoftのGenerative AI担当バイスプレジデントであるWeizhu Chen氏は、Phi-4-miniの小さなサイズにもかかわらず、その驚くべきパフォーマンスを強調しています。新しいモデルの詳細を説明するブログ投稿で、彼はPhi-4-miniが「推論、数学、コーディング、指示追従、関数呼び出しなどのテキストベースのタスクで、より大きなモデルを上回り続けている」と述べています。これは、さらに小さなモデルでも、特定のアプリケーションドメインで大きな価値を提供できる可能性を強調しています。
IBMのGraniteアップデート:推論能力の強化
SLMの進歩はMicrosoftに限定されません。IBMも、Graniteファウンデーションモデルファミリーのアップデートをリリースし、Granite 3.2 2Bおよび8Bモデルを発表しました。これらの新しいモデルは、推論能力を強化する重要な側面である「思考の連鎖」機能が改善されています。この改善により、モデルは以前のモデルと比較して優れたパフォーマンスを達成できます。
さらに、IBMは、ドキュメント理解タスク専用に設計された新しい視覚言語モデル(VLM)を発表しました。このVLMは、DocVQA、ChartQA、AI2D、OCRBench1などのベンチマークで、Llama 3.2 11BやPixtral 12Bなどの大幅に大きなモデルと同等またはそれ以上のパフォーマンスを示しています。これは、特定のドメインで競争力のあるパフォーマンスを提供する、より小さく、特殊化されたモデルの成長傾向を強調しています。
オンデバイスAIの未来:パラダイムシフト
Phi-4-multimodalとPhi-4-miniの導入、およびIBMのGraniteアップデートは、強力なAI機能が幅広いデバイスで容易に利用できる未来への重要な一歩を表しています。このシフトは、さまざまな業界やアプリケーションに大きな影響を与えます。
- AIの民主化: より小さく、より効率的なモデルは、大規模なコンピューティングリソースにアクセスできる人々だけでなく、より幅広い開発者やユーザーがAIを利用できるようにします。
- プライバシーとセキュリティの強化: オンデバイス処理により、機密データをクラウドに送信する必要性が減り、プライバシーとセキュリティが強化されます。
- 応答性と遅延の改善: ローカル処理により、クラウドベースのAIに関連する遅延がなくなり、応答時間が短縮され、よりシームレスなユーザーエクスペリエンスが実現します。
- オフライン機能: オンデバイスAIは、インターネット接続がなくても動作できるため、リモート環境や低接続環境でのアプリケーションの新しい可能性が開かれます。
- エネルギー消費量の削減: より小さなモデルは、動作に必要なエネルギーが少なく、モバイルデバイスのバッテリー寿命の延長と環境への影響の低減に貢献します。
- エッジコンピューティングアプリケーション: これには、自動運転、スマートマニュファクチャリング、遠隔医療などの分野が含まれます。
SLMの進歩は、AIの状況にパラダイムシフトをもたらしています。大規模言語モデルは引き続き重要な役割を果たしていますが、Phiファミリーのようなコンパクトで効率的なモデルの台頭は、AIがより普及し、アクセスしやすく、私たちの日常生活に統合される未来への道を開いています。焦点は、単なるサイズから、効率性、専門性、そして私たちが毎日使用するデバイス上で直接強力なAI機能を提供する能力へと移行しています。この傾向は加速する可能性が高く、さらに革新的なアプリケーションと、さまざまな分野でのAIの幅広い採用につながるでしょう。リソースに制約のあるデバイスで、マルチモーダル入力を理解するなどの複雑なタスクを実行できる能力は、人工知能の進化における新しい章を開きます。
ますますインテリジェントで有能なSLMを作成する競争が激化しており、Microsoftの新しい製品は大きな前進です。