具身 AI 的探索:登月目标
多年来,机器人行业一直在追求“具身 AI”这一难以实现的目标——创造能够自主控制机器人的人工智能,使其能够在各种新颖且不可预测的场景中安全、精确地执行任务。像 Nvidia 这样的公司积极追求这一雄心,它仍然是一个“圣杯”,有可能将机器人转变为能够在现实世界中执行各种任务的多功能劳动力。
Gemini Robotics:建立在语言和视觉的基础上
谷歌的新模型利用了 Gemini 2.0 大型语言模型的力量,将其功能扩展到机器人应用的特定需求。Gemini Robotics 结合了谷歌所说的“视觉-语言-动作”(VLA) 能力。这使得该模型能够处理视觉输入、解释自然语言命令,并将这些输入转化为精确的物理运动。相比之下,Gemini Robotics-ER 专注于“具身推理”,拥有增强的空间理解能力,可以与现有的机器人控制系统无缝集成。
从理解到行动:灵巧性的新时代
这些进步的实际意义是深远的。想象一下,指示配备 Gemini Robotics 的机器人“拿起香蕉并将其放入篮子中”。机器人利用其基于摄像头的视觉,将识别香蕉并熟练地引导其机械臂执行任务。或者考虑命令“折叠一个纸狐狸”。机器人凭借其对折纸和纸张折叠的精湛技艺的了解,将一丝不苟地执行复杂的任务。
2023 年,谷歌的 RT-2 模型标志着朝着通用机器人能力迈出了重要一步。通过利用互联网数据,RT-2 使机器人能够理解语言命令并适应新情况,与之前的模型相比,在未见过的任务上的性能提高了一倍。两年后,Gemini Robotics 似乎又取得了实质性的飞跃,超越了单纯的理解,包括执行复杂的物理操作,这些操作明显超出了 RT-2 的能力范围。
虽然 RT-2 仅限于重新利用预先练习的物理运动,但据报道,Gemini Robotics 在灵活性方面表现出显著的增强。这种新发现的灵活性解锁了以前无法完成的任务,例如折纸的精细艺术和将零食精确地包装到 Zip-loc 袋中。这种转变——从仅仅理解命令的机器人到能够执行精细物理任务的机器人——表明 DeepMind 可能正处于解决机器人技术中最持久的挑战之一的风口浪尖:使机器人能够将其“知识”转化为现实世界中谨慎、精确的运动。
泛化:现实世界适应性的关键
DeepMind 强调,新的 Gemini Robotics 系统展示了显著改进的泛化能力——执行未经明确训练的新任务的能力。这是一项至关重要的进步。根据该公司的公告,Gemini Robotics“与其他最先进的视觉-语言-动作模型相比,在综合泛化基准测试中的性能提高了一倍以上”。
泛化至关重要,因为能够适应新场景而无需针对每种情况进行特定训练的机器人,是在不可预测的现实世界环境中有效运行的关键。这种适应性将专门的、特定任务的机器人与真正多功能和适应性强的机器区分开来。
通用机器人大脑:谷歌的雄心壮志
谷歌的努力显然旨在创建一个“通用机器人大脑”——一种能够控制各种机器人平台的多功能 AI。根据这一愿景,该公司已宣布与领先的机器人公司 Apptronik 建立合作伙伴关系,以“利用 Gemini 2.0 构建下一代人形机器人”。
虽然主要在名为 ALOHA 2 的双臂机器人平台上进行训练,但谷歌表示 Gemini Robotics 具有控制不同机器人类型的多功能性。这包括研究型 Franka 机械臂和更复杂的人形系统,如 Apptronik 的 Apollo 机器人。这种适应性强调了 Gemini Robotics 成为各种机器人应用通用“大脑”的潜力。
人形机器人领域:硬件和软件的融合
对人形机器人的追求是一项协作性的努力,许多公司为挑战的不同方面做出了贡献。像 Figure AI 和 Boston Dynamics(以前是 Alphabet 的子公司)这样的公司一直在努力开发先进的人形机器人硬件。然而,一个真正有效的 AI“驱动程序”——赋予这些机器人智能和自主性的软件组件——仍然是一个关键的缺失部分。
谷歌在这一领域的努力正在获得动力。该公司已通过“可信测试人员”计划向领先的机器人公司(包括 Boston Dynamics、Agility Robotics 和 Enchanted Tools)授予了对 Gemini Robotics-ER 的有限访问权限。这种协作方式表明,各方正在共同努力,加速真正有能力的人形机器人的开发和部署。
安全第一:负责任机器人的分层方法
认识到安全在机器人技术中的至关重要性,谷歌强调了一种“分层、整体的方法”,其中结合了传统的机器人安全措施。这些措施包括避碰和力限制,确保机器人在安全参数内运行。
此外,该公司还描述了“机器人宪法”框架的开发。该框架的灵感来自艾萨克·阿西莫夫的机器人三定律,为机器人的道德和安全开发和部署提供了一套指导原则。与该框架一起,谷歌发布了一个名为“ASIMOV”的数据集,旨在帮助研究人员评估机器人动作的安全影响。
ASIMOV 数据集:标准化安全评估
ASIMOV 数据集代表了谷歌努力建立评估机器人安全性的标准化方法,其范围超出了防止物理伤害。该数据集旨在帮助研究人员评估 AI 模型在各种场景中对机器人动作潜在后果的理解程度。根据谷歌的公告,该数据集将“帮助研究人员严格衡量机器人动作在现实场景中的安全影响”。这一举措强调了谷歌在机器人领域负责任创新的承诺。
机器人的未来:一瞥可能性
虽然谷歌尚未公布新 AI 模型的具体时间表或商业应用(目前仍处于研究阶段),但所展示的进步无疑是显著的。谷歌发布的演示视频展示了 AI 驱动功能的显著进步。然而,重要的是要承认这些演示是在受控的研究环境中进行的。这些系统的真正考验在于它们在不可预测和动态的现实世界环境中可靠且安全地执行任务的能力。
Gemini Robotics 和 Gemini Robotics-ER 的开发代表了机器人技术发展的关键时刻。这些模型有可能开启一个灵巧性、适应性和自主性的新时代,为机器人无缝融入我们的生活并为各种任务做出贡献铺平道路。随着研究的进展和这些技术的成熟,我们可以预见未来机器人将在我们的家庭、工作场所和社区中发挥越来越重要的作用。实现真正具身 AI 的旅程仍在继续,但谷歌的最新进展让我们得以一窥未来令人兴奋的可能性。先进硬件和日益智能的软件的融合将改变机器人技术的格局,让我们更接近一个机器人不仅仅是工具,而是我们日常生活中多功能伙伴的未来。