Gemini 2.5：モデル知能の飛躍的進化 | ja

Google I/O 2025で、GoogleはGemini 2.5モデルシリーズに対する一連の画期的なアップデートと、2.5 Proモデルの推論能力を高めるように設計されたDeep Thinkと呼ばれる革新的な実験的機能を発表しました。これらの進歩は、人工知能の分野における大きな飛躍を示しており、開発者とユーザーに前例のないレベルのパフォーマンス、効率、および汎用性を提供します。

Gemini 2.5 Proモデルは、コーディングタスクの優れたソリューションとして開発者から広く評価されており、2.5 Flashモデルは大幅なアップグレードを受ける予定です。さらに、Googleは、2.5 Proモデル専用に調整された実験的な強化された推論モードであるDeep Thinkを含む、モデル全体にわたる新しい機能の範囲を導入しています。

以前の発表で、Googleは最新のインテリジェントモデルであるGemini 2.5 Proを発表し、開発者が優れたWebアプリケーションを作成できるようにI/Oアップデートのリリースを加速しました。本日、同社はGemini 2.5モデルシリーズのさらなる改良点を共有しており、注目すべき成果を誇っています。

Gemini 2.5 Proはすべての期待を上回り、学術ベンチマークで優れたパフォーマンスを発揮しています。WebDev ArenaおよびLMArenaのリーダーボードでトップの座を獲得し、コーディングおよび学習支援において世界をリードするモデルとしての地位を確立しました。
2.5 Proと2.5 Flashの両方に新しい機能が統合されています。これには、より自然で魅力的な会話体験のためのネイティブオーディオ出力、高度なセキュリティ対策、およびProject Marinerのコンピューター使用機能の統合が含まれます。2.5 Proモデルは、複雑な数学およびコーディングの問題に対する推論を改善するように設計された実験モードであるDeep Thinkによってさらに強化されます。
Googleは、Gemini APIおよびVertex AIにおける思考の要約を組み込むことで、開発者エクスペリエンスの向上に取り組んでいます。これらの要約は、透明性の向上、2.5 Proの思考予算の拡張による制御の強化、およびより広範なオープンソースツールへのアクセスを目的としたGemini APIおよびSDKにおけるMCPツールに対するサポートを提供します。
2.5 Flashモデルは、Geminiアプリ内で普遍的にアクセスできるようになりました。更新されたバージョンは、開発者向けのGoogle AI Studioおよびエンタープライズ向けのVertex AIで、6月上旬に利用可能になる予定であり、2.5 Proもまもなく続きます。

この目覚ましい進歩は、Googleのチームの絶え間ない献身の結果であり、テクノロジーを継続的に改善し、安全かつ責任ある方法で展開することに取り組んでいます。

2.5 Proの優れた性能の公開

2.5 Proモデルは最近アップデートされ、開発者がよりインタラクティブで機能豊富なWebアプリケーションを作成できるようになりました。ユーザーと開発者から寄せられた肯定的なフィードバックに大変感謝しており、ユーザーの意見に基づいて継続的な改善が引き続き実施されます。

学術ベンチマークでの優れたパフォーマンスに加えて、2.5 Proの最新の反復は、人気のあるコーディングリーダーボードであるWebDev Arenaでトップの座を獲得し、印象的なELOスコア1415を獲得しました。さまざまな基準に基づいて人間の好みを評価するLMArenaのすべてのリーダーボードでもリードしています。さらに、100万トークンのコンテキストウィンドウを備えた2.5 Proは、長文コンテキストとビデオ理解において最先端のパフォーマンスを提供します。

教育専門家との共同で開発されたモデルファミリーであるLearnLMを統合することにより、2.5 Proは学習向けの主要なモデルになりました。その教育法と有効性を評価する直接的な比較において、教育者と専門家は、多様なシナリオ全体で他のモデルよりもGemini 2.5 Proを支持しました。また、学習科学の5つの原則すべてにおいてトップモデルを上回り、学習用のAIシステムの構築に使用されています。これは、教育環境での効果、調整された効果的な教育戦略の提供を強調しています。

Deep Think：推論の限界を押し広げる

Googleは、Geminiの認識能力の限界を積極的に調査し、Deep Thinkと呼ばれる強化された推論モードの実験を開始しています。この革新的なモードは、最先端の研究技術を採用し、応答を策定する前に複数の仮説を評価できるようにします。このアプローチは意思決定プロセスを強化し、複雑な状況でより洗練されたニュアンスのある結果を可能にします。

Gemini 2.5 Pro Deep Thinkは、最も困難な数学ベンチマークの1つとして広く認識されている2025 USAMOで印象的なスコアを達成しました。また、競技会レベルのコーディングの要求の厳しいベンチマークであるLiveCodeBenchでも優れており、マルチモーダル推論を評価するMMMUで84.0％のスコアを達成しています。これらの結果は、複雑なタスクを処理するDeep Thinkの優れたパフォーマンスを強調しており、高度なAI問題解決の有望な未来を示唆しています。

2.5 Pro Deep Thinkは、可能なことの最前線を押し広げているため、Googleは綿密な安全評価を実施し、安全専門家からのさらなる意見を求めるために追加の時間をかけています。同社はまた、Gemini APIへのアクセスを選択したテスターに提供して、広く利用可能にする前にフィードバックを収集します。この慎重かつ意図的なアプローチは、高度なAI技術の責任ある展開を保証することを目的としています。

強化された2.5 Flashの紹介

効率的で費用対効果の高いことで知られる2.5 Flashモデルは、数多くの側面で改良されています。推論、マルチモダリティ、コード処理、および長いコンテキストに関する重要なベンチマーク全体で改善が見られ、同時に効率が向上し、評価で20〜30％少ないトークンを使用しています。これにより、最適化されたパフォーマンスとリソース管理が強調表示されます。

新しい2.5 Flashは現在、開発者向けのGoogle AI Studio、エンタープライズアプリケーション向けのVertex AI、および一般ユーザー向けのGeminiアプリでプレビューとして利用できます。6月上旬の一般公開が予定されており、本番環境でアクセスできるようになります。

Gemini 2.5の新機能

ネイティブオーディオ出力とLive APIの強化

Live APIは、オーディオビジュアル入力とネイティブオーディオ出力ダイアログのプレビューバージョンを導入し、ユーザーがより自然で表現力豊かなGeminiで会話体験を作成できるようにします。この機能により、より魅力的でインタラクティブなアプリケーションが可能になります。AIが生き生きとしたオーディオ応答を生成できる機能は、より直感的なコミュニケーション方法を作成することにより、ユーザーインタラクションを大幅に向上させます。

Live APIを使用すると、音色、アクセント、および話し方を調整できます。たとえば、ストーリーをナレーションするときに劇的な声を採用するように指示できます。また、ツールの使用もサポートしており、ユーザーに代わって検索を実行できます。音声制御の柔軟性と外部ツールへのアクセスにより、モデルは非常に汎用性が高く、多様なアプリケーションシナリオで価値があります。

ユーザーは、次の初期機能を試すことができます。

**感情的な対話：**モデルはユーザーの声に感情を検出し、それに応じて応答します。この機能により、AIに感情的な知性が追加され、インタラクションがよりパーソナライズされます。
**プロアクティブオーディオ：**モデルはバックグラウンドの会話を無視し、応答するタイミングを認識して、中断を最小限に抑え、明瞭さを向上させます。この機能により、インタラクションの質が向上し、より効率的で集中的なコミュニケーションが可能になります。
**Live APIでの思考：**モデルはGeminiの思考能力を活用して、より複雑なタスクをサポートします。これにより、複雑なタスクに取り組む際に、より深い分析と検討が可能になり、正確で洞察力に優れたソリューションを必要とする分野で非常に価値があります。

Googleはまた、2.5 Proと2.5 Flashの両方でテキスト読み上げ機能の新しいプレビューをリリースしています。これらは、ネイティブオーディオ出力を介した2つの音声でテキスト読み上げを可能にする、初の複数のスピーカーのサポートを提供します。この機能は、マルチメディアアプリケーションで魅力的なナレーションや対話を作成するのに特に役立ちます。

ネイティブオーディオダイアログと同様に、テキスト読み上げは表現力豊かで、ささやきなどの微妙なニュアンスをとらえることができます。24を超える言語をサポートし、それらをシームレスに切り替えるため、グローバルコミュニケーションに最適なツールです。言語の使用におけるこれらのニュアンスは、ユーザーエクスペリエンスを豊かにし、よりニュアンスのあるパーソナライズされたコミュニケーションプロセスを促進します。

このテキスト読み上げ機能は、Gemini APIで本日以降に利用可能になります。

強化されたコンピューターインターフェイス

Googleは、Project Marinerのコンピューター使用機能をGemini APIおよびVertex AIに導入しています。Automation Anywhere、UiPath、Browserbase、Autotab、The Interaction Company、Cartwheelなどの先進的な企業がその可能性を探求しています。Googleは、開発者がこの機能を試して革新的なプロジェクトやソリューションへの道を開くことができるように、今年の夏に幅広い展開を行うことを楽しみにしています。AIモデルをコンピューターインターフェイスに直接統合できるため、多様な業界でより合理化された生産的なワークフローソリューションが実現します。

優れたセキュリティ対策

Googleは、間接的な prompt injectionなどのセキュリティ上の脅威に対する保護を大幅に強化しました。これには、AIモデルによって取得されたデータに悪意のある命令を埋め込むことが含まれます。Googleの新しいセキュリティアプローチにより、ツールを使用中の間接的なprompt injection攻撃に対するGeminiの保護率が大幅に向上しており、Gemini 2.5はこれまでで最も安全なモデルファミリーになっています。この強化されたセキュリティにより、AI駆動型ソリューションを採用する際に安全で信頼性の高いエクスペリエンスをユーザーに保証します。

強化された開発者エクスペリエンス

思考の要約

2.5 ProとFlashの両方に、Gemini APIおよびVertex AIに思考の要約が含まれるようになりました。これらの要約は、モデルの生の思考を取り出し、ヘッダー、キーの詳細、およびツールの使用時などのモデルアクションに関する情報を含む明確な形式に整理します。AIの分析プロセスに関する洞察を提供することにより、思考の要約はAIシステム内の問題を理解およびデバッグするのに役立ち、効率とシステム設計を向上させます。

モデルの思考プロセスに関する、より構造化された合理化された形式により、開発者とユーザーはGeminiモデルとのやり取りをより理解しやすく、デバッグしやすくなります。

思考予算

Googleは、レイテンシーと品質のバランスをとることにより、開発者がコストをより適切に制御できるように、思考予算を備えた2.5 Flashをリリースしました。この機能は2.5 Proにも拡張され、より優れた微調整オプションを提供します。使用されるトークンを制御し、リソースを最適化することにより、開発者は計算コストとソリューションの有効性の間で適切なバランスを実現し、AIの実装を経済的かつ効率的にすることができます。

これにより、モデルが応答する前に思考に使用するトークンの数を完全に制御したり、思考機能をオフにしたりすることもできます。

予算付きのGemini 2.5 Proは、通常利用可能なモデルとともに、数週間以内に安定した本番環境で使用できるようになります。

MCPツールのサポート

Googleは、オープンソースツールとの統合を容易にするために、Gemini APIでモデルコンテキストプロトコル（MCP）定義のネイティブSDKサポートを追加しました。MCPサーバーやホストされたツールなど、さまざまな展開方法が検討されており、ユーザーがエージェントアプリケーションを構築しやすくなっています。これにより、ツールの統合とプロジェクトでの共同作業のための幅広いオプションを通じて、AI開発環境が向上します。

継続的な革新は、モデルと開発者エクスペリエンスを向上させるための継続的な取り組みの鍵であり、モデルと開発者のフィードバックに対してより効率的、高性能、および応答性のあるものにします。Geminiの機能を推進するために、基礎研究の幅と深さに力を入れます。将来的にはさらに多くのことが予定されています。

更新日時: 2025-05-22

# Google # Gemini # AGI