Google 靈巧新機器人 AI:摺紙、拉鍊與未來

具身 AI 的追求:登月目標

多年來,機器人產業一直追求著「具身 AI」這個難以捉摸的目標——創造能夠自主控制機器人的人工智慧,使其能夠在各種新穎且不可預測的場景中安全、精確地執行任務。這個目標由 Nvidia 等公司積極推動,仍然是一個「聖杯」,有可能將機器人轉變為多功能的勞動者,能夠在現實世界中執行各種各樣的任務。

Gemini Robotics:奠基於語言和視覺

Google 的新模型利用 Gemini 2.0 大型語言模型的力量,將其功能擴展到機器人應用的特定需求。Gemini Robotics 結合了 Google 所稱的「視覺-語言-動作」(VLA) 能力。這使得該模型能夠處理視覺輸入、解釋自然語言指令,並將這些輸入轉換為精確的物理動作。相比之下,Gemini Robotics-ER 專注於「具身推理」,擁有增強的空間理解能力,可以與現有的機器人控制系統無縫整合。

從理解到行動:靈巧的新時代

這些進步的實際意義是深遠的。想像一下,指示配備 Gemini Robotics 的機器人「拿起香蕉並將其放入籃子中」。機器人利用其基於攝影機的視覺,將識別香蕉並熟練地引導其機械手臂執行任務。或者考慮命令「摺一隻紙狐狸」。機器人憑藉其對摺紙和精細摺紙藝術的知識,將一絲不苟地執行複雜的任務。

2023 年,Google 的 RT-2 模型標誌著朝著通用機器人能力邁出了重要一步。通過利用網路數據,RT-2 使機器人能夠理解語言命令並適應新情況,在未見過的任務上的表現比其前身提高了一倍。兩年後,Gemini Robotics 似乎又取得了實質性的飛躍,超越了單純的理解,涵蓋了執行複雜的物理操作,這顯然超出了 RT-2 的能力範圍。

雖然 RT-2 僅限於重新利用預先練習過的物理動作,但據報導,Gemini Robotics 在靈巧性方面表現出顯著的提升。這種新發現的靈巧性解鎖了以前無法實現的任務,例如精細的摺紙藝術和將零食精確地包裝到 Zip-loc 袋中。這種轉變——從僅僅理解命令的機器人到能夠執行精細物理任務的機器人——表明 DeepMind 可能正處於解決機器人技術中最持久挑戰之一的風口浪尖:使機器人能夠將其「知識」轉化為現實世界中謹慎、精確的動作。

泛化:真實世界適應性的關鍵

DeepMind 強調,新的 Gemini Robotics 系統展示了顯著提高的泛化能力——執行未經明確訓練的新任務的能力。這是一個至關重要的進步。根據該公司的公告,Gemini Robotics「在一個全面的泛化基準測試中,與其他最先進的視覺-語言-動作模型相比,性能提高了一倍以上。」

泛化至關重要,因為能夠適應新場景而無需針對每種情況進行特定訓練的機器人,是在不可預測的現實世界環境中有效運作的關鍵。這種適應性將專門的、特定任務的機器人與真正多功能和適應性強的機器區分開來。

通用機器人大腦:Google 的雄心壯志

Google 的努力顯然是為了創建一個「通用機器人大腦」——一種能夠控制各種機器人平台的多功能 AI。根據這一願景,該公司已宣布與領先的機器人公司 Apptronik 合作,「利用 Gemini 2.0 打造下一代人形機器人」。

雖然主要在名為 ALOHA 2 的雙手機器人平台上進行訓練,但 Google 表示 Gemini Robotics 具有控制不同類型機器人的多功能性。這包括研究導向的 Franka 機械手臂和更複雜的人形系統,如 Apptronik 的 Apollo 機器人。這種適應性強調了 Gemini Robotics 成為各種機器人應用通用「大腦」的潛力。

人形機器人領域:硬體和軟體的融合

對人形機器人的追求是一項協作性的努力,許多公司為挑戰的不同方面做出了貢獻。像 Figure AI 和 Boston Dynamics(以前是 Alphabet 的子公司)這樣的公司一直在努力開發先進的人形機器人硬體。然而,一個真正有效的 AI「驅動程式」——賦予這些機器人智慧和自主性的軟體組件——仍然是一個關鍵的缺失環節。

Google 在這方面的努力正在取得進展。該公司已通過「信任測試人員」計劃向領先的機器人公司(包括 Boston Dynamics、Agility Robotics 和 Enchanted Tools)授予了對 Gemini Robotics-ER 的有限訪問權限。這種協作方式表明,各方正在共同努力,加速開發和部署真正有能力的人形機器人。

安全第一:負責任機器人的分層方法

認識到安全在機器人技術中的至關重要性,Google 強調採用「分層、整體的方法」,其中納入了傳統的機器人安全措施。這些措施包括避碰和力量限制,確保機器人在安全參數範圍內運行。

此外,該公司還描述了「機器人憲法」框架的開發。這個框架的靈感來自 Isaac Asimov 的機器人三定律,為機器人的道德和安全開發和部署提供了一套指導原則。與此框架一起,Google 發布了一個名為「ASIMOV」的數據集,旨在幫助研究人員評估機器人動作的安全影響。

ASIMOV 數據集:標準化安全評估

ASIMOV 數據集代表了 Google 努力建立標準化方法來評估機器人安全,其範圍超出了防止物理傷害。該數據集旨在幫助研究人員評估 AI 模型在各種場景中對機器人動作潛在後果的理解程度。根據 Google 的公告,該數據集將「幫助研究人員嚴格衡量機器人動作在現實場景中的安全影響。」這一舉措強調了 Google 對機器人領域負責任創新的承諾。

機器人的未來:一瞥可能性

雖然 Google 尚未公佈新 AI 模型的具體時間表或商業應用(目前仍處於研究階段),但所展示的進步無疑是顯著的。Google 發布的演示影片展示了 AI 驅動能力的顯著進步。然而,重要的是要承認這些演示是在受控的研究環境中進行的。這些系統的真正考驗將在於它們在不可預測和動態的現實世界環境中可靠、安全地執行的能力。

Gemini Robotics 和 Gemini Robotics-ER 的開發代表了機器人技術發展的一個關鍵時刻。這些模型有可能開啟一個靈巧、適應性和自主性的新時代,為機器人無縫融入我們的生活並為各種任務做出貢獻鋪平道路。隨著研究的進展和這些技術的成熟,我們可以預見未來機器人將在我們的家庭、工作場所和社區中發揮越來越重要的作用。實現真正具身 AI 的旅程仍在繼續,但 Google 的最新進展讓我們得以一窺未來令人興奮的可能性。複雜硬體和日益智慧的軟體的融合將改變機器人領域,讓我們更接近一個機器人不僅是工具,而且是我們日常生活中多功能夥伴的未來。