Gemini Live:iOSでAIカメラ体験

Gemini Liveのカメラモード:AI搭載の未来をiOSで垣間見る

Gemini Liveのカメラモードの登場は、人工知能の進化における重要な一歩であり、触覚的な未来を私たちの指先にもたらします。Pixel 9とSamsung Galaxy S25デバイスの早期採用者は、しばらくの間この革新的な機能を楽しんできましたが、GoogleがI/Oカンファレンスで最近発表したことで、AndroidとiOSの両方のユーザーを含む、はるかに幅広いオーディエンスがアクセスできるようになりました。特にiPhoneユーザーにとって、この開発は非常にエキサイティングです。現在利用可能な最も魅力的なAI機能の1つを体験できるようになったからです。特に、カメラモードが最初に他のAndroidユーザーに展開されたのは4月だったことを考えると、なおさらです。

視覚の力を解き放つ:Geminiのカメラモードの仕組み

その核心において、Gemini LiveのカメラモードはAIに「見る」能力を与え、カメラの視野内に置かれた物体を認識して識別できるようにします。これは単なる表面的なギミックではありません。これは、ユーザーがより直感的で有益な方法で周囲と対話できるようにする強力なツールです。

単純な物体認識を超えて、Geminiは識別されたアイテムに関する質問に答えることもでき、オンデマンドでコンテキストと洞察を提供します。さらに、ユーザーは画面をGeminiと共有して、AIが携帯電話の画面に表示される要素を分析および識別できるようにすることができます。カメラモードでライブセッションを開始するには、ユーザーはライブカメラビューを有効にするだけで、カメラが捉えたものについてチャットボットと会話することができます。

第一印象:Gemini Liveとの試乗

Pixel 9 Pro XLでGemini Liveとの初期テスト段階で、私はその機能に徹底的に感銘を受けました。特に記憶に残る経験の1つは、Geminiに置き忘れたハサミの場所を特定するように依頼することでした。

AIは驚くべき精度で応答しました。「テーブルの上の、ピスタチオの緑色のパッケージのすぐ隣にハサミを見つけました。見えますか?」

驚いたことに、Geminiは正しかったのです。ハサミは、AIチャットボットに15分間のライブセッションでアパートのツアーを基本的に提供し、カメラをそれらの前を簡単に通過させただけであったにもかかわらず、それが示した場所に正確にありました。

この最初の成功に興味をそそられ、私はカメラモードをさらに熱心に探索しました。別の、より拡張されたテストでは、私は機能をアクティブにし、アパートを歩き回り、Geminiに見た物体を識別するように促しました。果物、ChapStick、その他の日用品を含む、さまざまなアイテムを正確に認識しました。しかし、ハサミの再発見は、その能力の最も印象的なデモンストレーションであり続けました。

Geminiが事前の指示なしにハサミを識別したという事実は、特に印象的でした。AIはセッション中にどこかの時点でハサミを静かに認識し、驚くほどの精度でその場所を正確に思い出しました。この経験は、まさに未来を垣間見たように感じられ、その可能性についてさらに調査を行うように促しました。

インスピレーションを描く:ライブビデオAIに関するGoogleのビジョン

Gemini Liveのカメラ機能に関する私の実験は、Googleが前年の夏に紹介したデモを反映したもので、これらのライブビデオAI機能の最初のプレビューを提供しました。デモでは、Geminiがユーザーがメガネをどこに置いたかを思い出させるという、一見すると信じられないような偉業が紹介されました。しかし、私が発見したように、このレベルの精度は実際に達成可能でした。

Gemini Liveは、家庭用品だけではなく、はるかに多くのものを認識することができます。Googleは、混雑した駅でのナビゲーションや、ペストリーのフィリングの特定でユーザーを支援できると主張しています。また、その起源や限定版であるかどうかなど、アートワークに関するより深い洞察を提供することもできます。

この機能は、通常のGoogle Lensの機能を超えています。AIと会話することができ、これはGoogleアシスタントよりもはるかに会話型です。

Googleはまた、この機能を示すYouTube動画を公開しており、現在ではGoogleストアに独自のページがあります。

開始するには、Geminiを起動し、カメラをオンにして、話し始めます。

Gemini Liveは、昨年最初に発表されたGoogleのProject Astraを基盤としており、おそらく同社の最大の「私たちは未来にいる」機能であり、ChatGPT、Claude、またはGeminiのようなチャットボットにプロンプトを入力したり、話したりするだけでなく、生成AI機能の実験的な次のステップです。

AI企業は、ビデオ作成から基本的な処理能力まで、AIツールの機能を継続的に改善しています。iPhoneメーカーが昨年ベータ版でリリースしたAppleのVisual Intelligenceは、Gemini Liveに匹敵します。

Gemini Liveは、カメラを何かの前にかざすだけで、デジタル環境と物理環境を融合させることで、私たちが環境とつながる方法に革命をもたらす可能性を秘めています。

Gemini Liveをテストする:現実世界のシナリオ

初めて使用したとき、Geminiはカメラの視野にあるぬいぐるみウサギの非常に特定のゲームコレクターグッズを正確に認識しました。2回目に、アートギャラリーにいる友人にそれを見せました。それはすぐに十字架の上のカメ(聞かないでください)を認識し、そのすぐ隣にある漢字を識別して翻訳し、私たち両方をゾッとさせ、少し不気味にさせました。肯定的な意味で、私は信じています。

私はその機能をどのようにストレステストするかを検討し始めました。それが動作しているところを画面録画しようとしたとき、それは一貫して失敗しました。いつもの道から外れたらどうなるでしょうか?私はホラーのジャンル(映画、テレビシリーズ、ビデオゲーム)の大ファンであり、コレクターグッズ、装身具、その他のアイテムをたくさん所有しています。ホラーをテーマにしたコレクターグッズなど、よりあいまいなアイテムではどのようなパフォーマンスをするでしょうか?

まず、Geminiは信じられないほど素晴らしく、また信じられないほどいらいらすることもあると述べなければなりません。Geminiに識別させたいオブジェクトが約11個ありましたが、ライブセッションが長くなるほど悪化したため、セッションを1つまたは2つのオブジェクトに制限する必要がありました。私の意見では、Geminiは以前に認識されたアイテムからのコンテキスト情報を使用して新しいアイテムを推測しようとしましたが、これはある程度理にかなっていますが、最終的には私にもそれにもメリットがありませんでした。

Geminiは非常に正確で、混乱することなく簡単に正しい答えを提供することがありましたが、これはより最近または人気のあるオブジェクトでより頻繁に発生しました。たとえば、テストオブジェクトの1つがDestiny 2のものであるだけでなく、前年の期間限定イベントの限定版のものであることを即座に推測したときには驚きました。

Geminiは頻繁に完全に的外れで、適切な答えに近づくためにはさらにヒントを提供する必要がありました。Geminiは、以前のライブセッションからのコンテキストを利用して応答を生成しているように見えることがあり、複数のオブジェクトをSilent Hillからのものとして識別しました。ゲームシリーズ専用の展示ケースがあるので、なぜすぐにそのエリアに飛び込みたいのかは理解できます。

不完全さを明らかにする:システムのバグと癖

Geminiは完全にバグアウトすることがあります。場合によっては、Geminiがオブジェクトの1つを未発表のSilent Hill: fゲームの架空のキャラクターとして誤って識別し、明らかに異なるタイトルのパーツを組み合わせて存在しなかったものにします。Geminiが間違った答えを出し、私がそれを修正して答えをさらに詳しくヒントした(または単に答えを与えた)にもかかわらず、それが新しい推測であるかのように間違った答えを繰り返したのは、私が出会ったもう1つの一貫したバグでした。それが起こったときは、セッションを閉じて新しいセッションを開始しましたが、必ずしも役に立つとは限りませんでした。

私が見つけた1つの手法は、一部のディスカッションが他のディスカッションよりも効果的であるということでした。Geminiの会話リストを調べて、特定のアイテムを正しく取得した古いチャットをタップし、そのチャットから再びライブに行った場合、問題なくアイテムを識別できました。これは必ずしも予想外ではありませんが、同じ言語を使用している場合でも、特定のダイアログが他のダイアログよりも優れたパフォーマンスを発揮することに注意するのは興味深いことでした。

Googleは、Gemini Liveの仕組みに関する追加情報についての私の問い合わせには回答しませんでした。

Geminiに私の挑戦的な、時には非常に具体的な質問にうまく答えてもらいたかったので、それを行うのに役立つヒントをたくさん提供しました。ナッジは役に立ちましたが、必ずしもそうではありませんでした。

変革的なテクノロジー:Gemini Liveの潜在的な影響

Gemini Liveは、私たちのカメラを通してデジタル領域と物理領域をシームレスに融合させることで、私たちと周囲の環境との相互作用の方法におけるパラダイムシフトを表しています。このテクノロジーはまだ初期段階にありますが、その潜在的な応用は広大で変革的です。

Gemini Liveを使用して、次のことを想像してください。

  • **慣れない環境をナビゲートする:**単に街路標識やランドマークにカメラを向けるだけで、Geminiはリアルタイムの道案内と情報を提供します。
  • **歴史的工芸品について学ぶ:**美術館を訪れるときは、Geminiを使用してアートワークや歴史的オブジェクトを識別し、背景情報を提供します。
  • **複雑なレシピを調理する:**Geminiにレシピの各ステップを案内し、材料を識別し、代替手法を提案するように依頼します。
  • **単純な家庭の問題を診断する:**故障したアプライアンスにカメラを向けると、Geminiはトラブルシューティングのヒントと潜在的な解決策を提供します。

これらは、Gemini Liveが私たちの日常生活を強化できる無数の方法のほんの一例です。このテクノロジーが進化し、改善し続けるにつれて、私たちが周囲の世界と相互作用する方法に革命をもたらす可能性は本当に無限大です。

Gemini LiveのiOSデバイスへの統合により、そのリーチとアクセシビリティがさらに拡大し、AI搭載のビジョンの力をより幅広いオーディエンスにもたらします。AIテクノロジーが指数関数的な速度で進化し続けるにつれて、Gemini Liveのような機能は、私たちのデバイスがコミュニケーションとエンターテインメントのツールであるだけでなく、私たちが新しい意味のある方法で周囲の世界をナビゲートし、理解し、相互作用するのに役立つインテリジェントなコンパニオンとなる未来を垣間見ることができます。