Googleの新AI:ロボットの未来

具現化AIの探求:ムーンショット目標

長年にわたり、ロボット工学業界は「具現化AI」という捉えどころのない目標を追求してきました。これは、安全性と精度を維持しながら、さまざまな新規かつ予測不可能なシナリオを通じてロボットを自律的に制御できる人工知能を作成することです。Nvidiaのような企業が積極的に追求しているこの野心は、ロボットを現実世界で膨大なタスクを実行できる多用途の労働者に変える可能性を秘めた「聖杯」であり続けています。

Gemini Robotics:言語と視覚の基盤の上に構築

Googleの新しいモデルは、Gemini 2.0大規模言語モデルのパワーを活用し、その機能をロボットアプリケーションの特定の要求を包含するように拡張しています。Gemini Roboticsは、Googleが「視覚-言語-行動」(VLA)能力と呼ぶものを組み込んでいます。これにより、モデルは視覚入力を処理し、自然言語コマンドを解釈し、これらの入力を正確な物理的動きに変換できます。対照的に、Gemini Robotics-ERは「具現化された推論」に焦点を当てており、既存のロボット制御システムとのシームレスな統合を可能にする強化された空間理解を誇っています。

理解から行動へ:器用さの新時代

これらの進歩の実際的な意味合いは深遠です。Gemini Roboticsを搭載したロボットに「バナナを拾ってバスケットに入れて」と指示することを想像してみてください。ロボットは、カメラベースの視覚を利用してバナナを識別し、ロボットアームを巧みに誘導してタスクを実行します。または、「折り紙のキツネを折る」というコマンドを考えてみましょう。ロボットは、折り紙と紙折りの繊細な技術に関する知識を活用して、複雑なタスクを細心の注意を払って実行します。

2023年、GoogleのRT-2モデルは、一般化されたロボット機能に向けた重要な一歩を示しました。インターネットデータを活用することで、RT-2はロボットが言語コマンドを理解し、新しい状況に適応できるようにし、以前のモデルと比較して目に見えないタスクでのパフォーマンスを2倍にしました。2年後、Gemini Roboticsは、単なる理解を超えて、RT-2の範囲を明確に超えていた複雑な物理的操作の実行を包含するように、さらに大幅な飛躍を遂げたようです。

RT-2は、事前に練習した物理的な動きを再利用することに限定されていましたが、Gemini Roboticsは、器用さの著しい向上を示していると報告されています。この新たな器用さにより、折り紙の繊細な技術や、Zip-locバッグへのスナックの正確な梱包など、以前は達成できなかったタスクが可能になります。この移行(単にコマンドを理解するロボットから、繊細な物理的タスクを実行できるロボットへ)は、DeepMindがロボット工学における最も永続的な課題の1つを解決する寸前にある可能性があることを示しています。それは、ロボットが「知識」を現実世界での注意深く正確な動きに変換できるようにすることです。

一般化:現実世界の適応性の鍵

DeepMindは、新しいGemini Roboticsシステムが、明示的にトレーニングされていない新しいタスクを実行する能力である一般化が大幅に改善されたことを示していることを強調しています。これは重要な進歩です。同社の発表によると、Gemini Roboticsは「他の最先端の視覚-言語-行動モデルと比較して、包括的な一般化ベンチマークでパフォーマンスを2倍以上に向上させています」。

一般化は最も重要です。なぜなら、各状況に特化したトレーニングを必要とせずに新しいシナリオに適応できるロボットは、予測不可能な現実世界の環境で効果的に動作するための鍵を握っているからです。この適応性こそが、特殊化されたタスク固有のロボットと、真に多用途で適応性のあるマシンを区別するものです。

ジェネラリストロボットブレイン:Googleの野心的なビジョン

Googleの取り組みは、「ジェネラリストロボットブレイン」、つまり幅広いロボットプラットフォームを制御できる多用途AIを作成することに明確に向けられています。このビジョンに沿って、同社は、主要なロボット企業であるApptronikとのパートナーシップを発表し、「Gemini 2.0で次世代のヒューマノイドロボットを構築する」と述べています。

主にALOHA 2と呼ばれる両手利きロボットプラットフォームでトレーニングされていますが、Googleは、Gemini Roboticsが多様なロボットタイプを制御できる汎用性を備えていると述べています。これには、研究指向のFrankaロボットアームや、ApptronikのApolloロボットのようなより洗練されたヒューマノイドシステムが含まれます。この適応性は、Gemini Roboticsが幅広いロボットアプリケーションの普遍的な「頭脳」になる可能性を強調しています。

ヒューマノイドロボットの状況:ハードウェアとソフトウェアの融合

ヒューマノイドロボットの追求は共同作業であり、多くの企業が課題のさまざまな側面に貢献しています。Figure AIやBoston Dynamics(以前はAlphabetの子会社)のような企業は、高度なヒューマノイドロボットハードウェアの開発に熱心に取り組んできました。しかし、真に効果的なAI「ドライバー」(これらのロボットに知性と自律性を与えるソフトウェアコンポーネント)は、依然として重要な欠けている部分でした。

この分野におけるGoogleの取り組みは勢いを増しています。同社は、Boston Dynamics、Agility Robotics、Enchanted Toolsなどの主要なロボット企業に、「信頼できるテスター」プログラムを通じてGemini Robotics-ERへの限定的なアクセスを許可しました。この共同アプローチは、真に有能なヒューマノイドロボットの開発と展開を加速するための協調的な取り組みを示唆しています。

安全第一:責任あるロボット工学への多層的アプローチ

ロボット工学における安全性の最重要性を認識し、Googleは、従来のロボット安全対策を組み込んだ「多層的で全体的なアプローチ」を強調しています。これらの対策には、衝突回避と力の制限が含まれ、ロボットが安全なパラメータ内で動作することを保証します。

さらに、同社は「ロボット憲法」フレームワークの開発について説明しています。このフレームワークは、アイザック・アシモフのロボット工学三原則に触発されたもので、ロボットの倫理的かつ安全な開発と展開のための一連の指針を提供します。このフレームワークと連携して、Googleは「ASIMOV」という適切な名前のデータセットをリリースしました。これは、研究者がロボットの行動の安全性の影響を評価するのを支援するように設計されています。

ASIMOVデータセット:安全性評価の標準化

ASIMOVデータセットは、物理的な危害の防止を超えて、ロボットの安全性を評価するための標準化された方法を確立しようとするGoogleの取り組みを表しています。このデータセットは、研究者が、さまざまなシナリオにおけるロボットの行動の潜在的な結果をAIモデルがどの程度理解しているかを評価するのに役立つように設計されています。Googleの発表によると、このデータセットは「研究者が現実世界のシナリオにおけるロボットの行動の安全性の影響を厳密に測定するのに役立ちます」。このイニシアチブは、ロボット工学の分野における責任あるイノベーションに対するGoogleのコミットメントを強調しています。

ロボット工学の未来:可能性を垣間見る

Googleは、現在研究段階にある新しいAIモデルの具体的なタイムラインや商用アプリケーションをまだ発表していませんが、実証された進歩は紛れもなく重要です。Googleがリリースしたデモビデオは、AI主導の機能における目覚ましい進歩を示しています。ただし、これらのデモンストレーションは、制御された研究環境で実施されたことを認識することが重要です。これらのシステムの真のテストは、予測不可能で動的な現実世界の環境で、確実に安全に実行できる能力にかかっています。

Gemini RoboticsとGemini Robotics-ERの開発は、ロボット工学の進化における極めて重要な瞬間を表しています。これらのモデルは、器用さ、適応性、自律性の新時代を切り開き、ロボットが私たちの生活にシームレスに統合され、幅広いタスクに貢献するための道を開く可能性を秘めています。研究が進み、これらの技術が成熟するにつれて、ロボットが私たちの家庭、職場、コミュニティでますます重要な役割を果たす未来を期待できます。真に具現化されたAIへの道のりは続いていますが、Googleの最新の進歩は、今後のエキサイティングな可能性を垣間見せてくれます。洗練されたハードウェアとますますインテリジェントなソフトウェアの融合は、ロボット工学の状況を変革し、ロボットが単なるツールではなく、私たちの日常生活における多用途のパートナーとなる未来に私たちを近づけます。