Google Gemini:AI徹底解説

Geminiとは:Googleの次世代AIファミリー

Geminiは、Googleが次世代AIモデルとして開発した意欲的なプロジェクトです。Googleの主要なAI研究ラボであるDeepMindとGoogle Researchの共同開発によって生まれたGeminiは、単一のモデルではなく、特定のタスクやパフォーマンスレベルに合わせて調整されたモデルファミリーです。このファミリーには以下が含まれます。

  • Gemini Ultra: 計算能力を必要とする非常に複雑なタスク向けに設計された、ファミリーの中で最も強力なモデルです。(現在は利用不可)
  • Gemini Pro: Ultraよりも小型ながら、幅広いタスクを処理できる堅牢なモデルです。最新版のGemini 2.0 Proは、現在Googleの主力製品となっています。
  • Gemini Flash: スピードと効率を優先した、Proの軽量版(‘蒸留’版)です。
  • Gemini Flash-Lite: Gemini Flashをさらに軽量化し、高速化したバージョンです。
  • Gemini Flash Thinking: ‘推論’能力を示すモデルです。
  • Gemini Nano: Nano-1と、それよりわずかに強力なNano-2の2つのコンパクトなモデルで構成され、デバイス上でのオフライン動作のために設計されています。

すべてのGeminiモデルの決定的な特徴は、その固有のマルチモーダル性です。GoogleのLaMDAのように、テキストデータのみでトレーニングされたモデルとは異なり、Geminiモデルは多様なデータタイプを処理・分析することに長けています。公開データ、独自データ、ライセンスされた音声、画像、動画、コードベース、多言語のテキストを含む膨大なデータセットでトレーニングされています。

このマルチモーダル性により、Geminiはテキストのみのモデルの限界を超えることができます。LaMDAはテキストベースの入力と出力に限定されますが、Geminiモデル、特にFlashとProの新しいバージョンは、テキストに加えて画像や音声をネイティブに生成できます。

しかし、多くの場合、データ所有者の明示的な同意なしに、公開されているデータでAIモデルをトレーニングすることの倫理的および法的影響は、依然として複雑な問題です。Googleは、特定のGoogle Cloudの顧客を潜在的な訴訟から保護するためにAI補償ポリシーを提供していますが、このポリシーには制限があります。ユーザー、特にGeminiを商用目的で利用しようとするユーザーは、注意が必要です。

GeminiアプリとGeminiモデル:違いを理解する

Geminiモデルと、Webおよびモバイルプラットフォームで利用可能なGeminiアプリ(以前はBardとして知られていた)を区別することが重要です。

Geminiアプリはクライアントとして機能し、さまざまなGeminiモデルに接続し、ユーザーフレンドリーなチャットボットのようなインターフェースを提供します。これらは、Googleの生成AI機能と対話するためのフロントエンドとして機能します。

Androidデバイスでは、GeminiアプリはGoogleアシスタントアプリに取って代わります。iOSでは、GoogleアプリとGoogle検索アプリがGeminiクライアントとして機能します。

Androidユーザーは、Geminiオーバーレイを呼び出して、YouTube動画など、画面に表示されているコンテンツについて質問できます。このオーバーレイは、サポートされているスマートフォンの電源ボタンを長押しするか、音声コマンド’Hey Google’を使用することで起動します。

Geminiアプリは多用途で、画像、音声コマンド、テキストを入力として受け入れます。PDFなどのファイルを直接アップロードするか、Googleドライブからインポートして処理し、画像を生成できます。モバイルでGeminiアプリで開始された会話は、ユーザーが同じGoogleアカウントにログインしていれば、Web上のGeminiとシームレスに同期します。

Gemini Advanced:プレミアムAI機能の解放

Geminiアプリは、Geminiモデルの力を活用するための唯一のゲートウェイではありません。Googleは、GmailやGoogleドキュメントなど、コアアプリケーションやサービスにGemini搭載機能を徐々に統合しています。

これらの機能を最大限に活用するには、通常、Google One AI Premiumプランが必要です。このプランは、技術的にはGoogle Oneのコンポーネントであり、月額20ドルで、ドキュメント、マップ、スライド、スプレッドシート、ドライブ、MeetなどのGoogle Workspaceアプリケーション内でGeminiにアクセスできます。また、’Gemini Advanced’が利用可能になり、Geminiアプリ内でGoogleのより洗練されたGeminiモデルにアクセスできるようになります。

Gemini Advancedユーザーは、新機能やモデルへの優先アクセス、Gemini内でPythonコードを直接実行および変更する機能、PDFをAI生成ポッドキャストに変換するGoogleのツールであるNotebookLMの拡張制限など、追加の特典を享受できます。Gemini Advancedに最近追加されたのは、ユーザーの好みを保存し、Geminiが過去の会話を参照できるようにするメモリ機能で、現在の対話のコンテキストを提供します。

Gemini Advanced専用の最も魅力的な機能の1つは、’Deep Research’です。この機能は、強化された推論能力を持つGeminiモデルを活用して、詳細な概要を生成します。’キッチンをどのように再設計すべきか?’などのプロンプトに応答して、Deep Researchは多段階の調査計画を策定し、Webを検索し、包括的な回答をまとめます。

Gmail内では、Geminiはサイドパネルに常駐し、メールを作成したり、メッセージスレッドを要約したりできます。ドキュメントにも同様のパネルが表示され、コンテンツの作成、推敲、ブレインストーミングを支援します。スライドでは、Geminiはスライドとカスタム画像を生成します。Googleスプレッドシートでは、データの追跡、整理、数式の作成を支援します。

Geminiの存在はGoogleマップにも拡張されており、ローカルビジネスに関するレビューを集約し、外国の都市を訪問するための旅程の提案などの推奨事項を提供します。チャットボットの機能はドライブにも及び、ファイルやフォルダを要約し、プロジェクトに関する簡潔な情報を提供できます。

Geminiは最近、GoogleのChromeブラウザにAIライティングツールとして統合されました。このツールは、まったく新しいコンテンツを作成したり、既存のテキストを書き直したりするために使用でき、現在のWebページのコンテキストを考慮して、カスタマイズされた推奨事項を提供します。

これらのコアアプリケーション以外にも、Googleのデータベース製品、クラウドセキュリティツール、アプリ開発プラットフォーム(FirebaseやProject IDXを含む)にGeminiの痕跡が見られます。また、Googleフォト(自然言語検索クエリ)、YouTube(動画のアイデアのブレインストーミング)、Meet(キャプション翻訳)などのアプリの機能も強化しています。

Code Assist(以前のDuet AI for Developers)は、コード補完と生成のためのGoogleのAI搭載ツールスイートであり、計算量の多いタスクにGeminiを利用しています。同様に、Googleのセキュリティ製品(Gemini in Threat Intelligenceなど)は、Geminiを利用して潜在的に悪意のあるコードを分析し、脅威や侵害の兆候を自然言語で検索できるようにします。

Gemini ExtensionsとGems:AI体験のカスタマイズ

Gemini Advancedユーザーは、Geminiモデルを搭載したカスタムチャットボットである’Gems’を作成でき、デスクトップとモバイルプラットフォームの両方でアクセスできます。Gemsは、’あなたは私のランニングコーチです。毎日のランニングプランを教えてください’などの自然言語の説明から生成でき、他のユーザーと共有したり、非公開にしたりできます。

Geminiアプリは、’Gemini extensions’を通じてさまざまなGoogleサービスと統合できます。これらの拡張機能により、Geminiはドライブ、Gmail、YouTubeなどのサービスと対話し、’過去3通のメールを要約してもらえますか?’などのクエリに応答できます。

Gemini Live:詳細な音声会話への参加

‘Gemini Live’は、ユーザーがGeminiと詳細な音声会話を行うことができる没入型の体験を提供します。この機能は、モバイルデバイスのGeminiアプリ内とPixel Buds Pro 2で利用でき、スマートフォンがロックされている場合でもアクセスできます。

Gemini Liveを使用すると、ユーザーはGeminiが話している間に割り込んで明確な質問をすることができ、チャットボットはリアルタイムで発話パターンに適応します。Liveは、イベントの準備、ブレインストーミング、その他のタスクを支援する仮想コーチとしても機能するように設計されています。たとえば、Liveは就職面接で強調すべきスキルを提案したり、人前で話すためのヒントを提供したりできます。

Gemini for Teens:学生向けに調整されたAI体験

Googleは、10代の学生向けに特別に調整されたGemini体験を提供しています。

この10代向けのGeminiバージョンには、カスタマイズされたオンボーディングプロセスやAIリテラシーガイドなど、’追加のポリシーとセーフガード’が組み込まれています。これらの変更を除けば、Web上の情報を相互参照してGeminiの応答の正確性を検証する’ダブルチェック’機能など、標準のGemini体験とよく似ています。

Geminiモデルの機能の探求

Geminiモデルのマルチモーダルな性質により、音声の文字起こしからリアルタイムの画像や動画のキャプションまで、幅広いタスクを実行できます。これらの機能の多くはすでにGoogleの製品に組み込まれており、近い将来、さらなる進歩が約束されています。

ただし、Googleは、競合他社と同様に、エンコードされたバイアスや情報を捏造する傾向(幻覚)など、生成AIテクノロジーに固有の課題のいくつかに完全に対処していないことを認識することが重要です。これらの制限は、特に重要なアプリケーションでGeminiの使用を評価する際に考慮する必要があります。

Gemini Proの能力

Googleは、最新のProモデルであるGemini 2.0 Proが、コーディングと複雑なプロンプトの処理において最も高度な製品であると主張しています。2.0 Proは、プログラミング、推論、数学、事実の正確性を評価するベンチマークで、前身のGemini 1.5 Proを上回っています。

GoogleのVertex AIプラットフォーム内では、開発者は微調整または’グラウンディング’を通じて、特定のコンテキストやユースケースに合わせてGemini Proをカスタマイズできます。たとえば、Pro(他のGeminiモデルとともに)は、Moody’s、Thomson Reuters、ZoomInfo、MSCIなどのサードパーティプロバイダーのデータを利用したり、より広範な知識ベースではなく、企業データセットやGoogle検索から情報を取得したりするように指示できます。Gemini Proは、外部のサードパーティAPIに接続して、バックオフィスワークフローの自動化などの特定のアクションを実行することもできます。

GoogleのAI Studioプラットフォームは、Proで構造化されたチャットプロンプトを作成するためのテンプレートを提供します。開発者は、モデルの創造的な範囲を制御し、トーンとスタイルをガイドする例を提供し、Proの安全設定を微調整できます。

Gemini Flash:軽量な効率性とGemini Flash Thinkingの推論能力

Gemini 2.0 Flashは、Google検索やその他の外部APIを使用できます。小型であるにもかかわらず、コーディングと画像分析を測定するベンチマークでは、一部のより大きな1.5モデルよりも優れています。Gemini Proの派生モデルとして、Flashは効率性を重視して設計されており、狭い範囲で高頻度の生成AIタスクを対象としています。

Googleは、Flashが要約、チャットアプリケーション、画像と動画のキャプション、長いドキュメントやテーブルからのデータ抽出などのアプリケーションに適していることを強調しています。一方、Gemini 2.0 Flash-Liteは、Flashのよりコンパクトな反復であり、Googleによると、同じ価格と速度を維持しながら、Gemini 1.5 Flashよりもパフォーマンスが優れています。

昨年の12月、Googleは’推論’機能を備えたGemini 2.0 Flashの’思考’バリアントを発表しました。このAIモデルは、回答を提供する前に数秒かけて問題を逆方向に処理し、信頼性を高める可能性があります。

Gemini Nano:オンデバイスAIパワー

Gemini Nanoは、Geminiの非常にコンパクトなバージョンであり、互換性のあるデバイスで直接動作するように設計されており、タスクをリモートサーバーに送信する必要がありません。現在、NanoはPixel 8 Pro、Pixel 8、Pixel 9 Pro、Pixel 9、Samsung Galaxy S24で、レコーダーの要約やGboardのスマートリプライなど、いくつかの機能を強化しています。

レコーダーアプリは、ユーザーが音声を録音および文字起こしできるようにするもので、録音された会話、インタビュー、プレゼンテーション、その他のオーディオスニペットのGemini搭載要約機能を組み込んでいます。これらの要約は、ネットワーク接続がなくても生成され、プライバシー保護のため、プロセス中にデータがユーザーのデバイスから離れることはありません。

Nanoは、Googleのキーボード代替であるGboardにも搭載されており、スマートリプライを強化しています。この機能は、WhatsAppなどのメッセージングアプリで応答を提案し、会話を効率化します。

Androidの将来の反復では、Nanoを活用して、通話中に潜在的な詐欺をユーザーに警告する予定です。Pixelスマートフォンの新しい天気アプリは、Gemini Nanoを使用して、パーソナライズされた天気予報を生成します。さらに、GoogleのアクセシビリティサービスであるTalkBackは、Nanoを使用して、視覚障害のあるユーザー向けにオブジェクトの音声説明を作成します。

Gemini Ultra:再登場を待つ

Gemini Ultraは、ここ数か月、比較的注目されていません。このモデルは現在、Geminiアプリ内では利用できず、GoogleのGemini APIの価格ページにも記載されていません。ただし、これはGoogleが将来Ultraを再導入する可能性を排除するものではありません。

Geminiモデルの価格体系

Gemini 1.5 Pro、1.5 Flash、2.0 Flash、2.0 Flash-Liteは、アプリケーションやサービスを開発するためのGoogleのGemini APIを通じてアクセスできます。これらは従量課金制で動作します。2025年2月22日現在の基本価格(アドオンを除く)は次のとおりです。

  • Gemini 1.5 Pro: 入力トークン100万あたり1.25ドル(最大128Kトークンのプロンプトの場合)または入力トークン100万あたり2.50ドル(128Kトークンを超えるプロンプトの場合)。出力トークン100万あたり5ドル(最大128Kトークンのプロンプトの場合)または出力トークン100万あたり10ドル(128Kトークンを超えるプロンプトの場合)
  • Gemini 1.5 Flash: 入力トークン100万あたり7.5セント(最大128Kトークンのプロンプトの場合)、入力トークン100万あたり15セント(128Kトークンを超えるプロンプトの場合)、出力トークン100万あたり30セント(最大128Kトークンのプロンプトの場合)、出力トークン100万あたり60セント(128Kトークンを超えるプロンプトの場合)
  • Gemini 2.0 Flash: 入力トークン100万あたり10セント、出力トークン100万あたり40セント。オーディオの場合、入力トークン100万あたり70セント。
  • Gemini 2.0 Flash-Lite: 入力トークン100万あたり7.5セント、出力トークン100万あたり30セント。

トークンは、’fantastic’という単語の’fan’、’tas’、’tic’の音節など、生のデータの細分化された単位を表します。100万トークンは、およそ75万語に相当します。’入力’はモデルに供給されるトークンを指し、’出力’はモデルによって生成されるトークンを示します。

2.0 Proの価格はまだ発表されておらず、Nanoは早期アクセス中です。

GeminiがiPhoneに登場する可能性

GeminiがiPhoneに統合される可能性は十分にあります。

Appleは、Apple Intelligenceスイート内のさまざまな機能にGeminiやその他のサードパーティモデルを利用する可能性について、協議中であることを示しています。WWDC 2024での基調講演の後、AppleのSVPであるCraig Federighiは、Geminiを含むモデルと協力する計画を確認しましたが、詳細については明らかにしませんでした。