亚马逊Nova Act:赋能自主AI智能体驾驭网络

数字领域充斥着人工智能,但其中大部分仍受到限制,在预定义的参数内运行,或严重依赖结构化数据源和 API。真正自主智能体——能够驾驭万维网这个混乱、不可预测的环境以完成复杂目标的数字助手——的梦想在很大程度上仍然遥不可及。Amazon 现在正大胆地踏入这个领域,推出了 Nova Act,这是一个精心设计的复杂 AI 模型,旨在赋能能够理解网络浏览器并与之交互的智能体,像人类用户一样执行复杂的任务。这一举措标志着对当前局限性的重大突破,旨在开创一个功能更强、更可靠、更通用的 AI 助手时代。

宏伟愿景:从简单命令到复杂问题解决

Amazon 的雄心远不止获取天气报告或设置计时器。该公司阐述了一个引人入胜的愿景:AI 智能体在数字领域以及潜在的互联物理领域内无缝管理多方面目标。想象一下,一个 AI 能够通过各种在线门户网站协调策划婚礼的无数细节,协调供应商、管理预算并跟踪回复。设想一下,复杂的智能体处理复杂的 IT 管理任务,通过直接与基于 Web 的内部工具交互来排除网络问题、管理软件许可证或引导新员工入职。这代表了从特定任务机器人到面向目标的数字伙伴的范式转变,旨在显著提升个人便利性和提高企业生产力

当前的生成式 AI 模型虽然擅长对话和内容创作,但在面对 Web 界面动态且通常不一致的特性时常常会遇到困难。执行一系列操作——登录、导航菜单、填写表单、解释视觉提示以及响应意外弹窗——需要一定程度的上下文理解和操作可靠性,而这很难持续实现。Amazon 明确承认这些障碍,将 Nova Act 定位为其战略对策,从头开始设计,以掌握基于 Web 的任务执行的复杂性。

引入 Nova Act:智能网页导航引擎

Nova Act 不仅仅是另一个大型语言模型;它是一个专门的系统,专注于将人类意图转化为 Web 浏览器内的具体行动。它代表了一项协同努力,旨在赋予 AI 有效感知、理解和操纵 Web 元素的能力。核心挑战在于弥合自然语言指令(“预订下周二的会议室”)与在给定网站或 Web 应用程序上完成该请求所需的特定点击、滚动和文本输入序列之间的差距。

Amazon 的方法认识到 Web 不是一个静态实体。网站会改变布局,界面千差万别,动态内容加载不可预测。因此,智能体需要的不仅仅是语言能力;它需要对 Web 结构(HTML、DOM)、视觉元素和交互模式有深入的理解。Nova Act 的开发正是为了拥有这种细致入微的理解,使其能够在不同的在线环境中以更高的精度和适应性运行。这种对原生 Web 交互的关注,正是 Nova Act 的目标与更通用的 AI 模型区别开来的地方。

赋能开发者:Nova Act 软件开发工具包

为了将这种先进的 AI 能力转化为实际应用,Amazon 正在发布 Nova Act 软件开发工具包 (SDK) 的研究预览版。该工具包专为渴望构建下一代自主智能体的开发者而设计。它提供了必要的构建模块和控件,以利用 Nova Act 的强大功能来自动化基于 Web 的工作流程。

SDK 设计理念的一个基石是将复杂流程分解为可靠的基础单元,称为**“原子命令”**。可以将这些视为 Web 交互的基本动词:

  • 搜索 (Searching): 在页面上定位特定信息或元素。
  • 结账 (Checking Out): 在电子商务中完成购买过程。
  • 交互 (Interacting): 与特定的界面组件(如下拉菜单、复选框、日期选择器或模态弹窗)进行互动。
  • 导航 (Navigating): 在网站的页面或部分之间移动。
  • 输入数据 (Inputting Data): 准确填写表单或文本字段。

开发者并不局限于这些高级命令。SDK 允许添加详细指令来细化智能体行为。例如,可以特别指示负责预订航班的智能体在结账过程中忽略旅游保险的推销或跳过座位选择的加售。这种级别的精细控制对于创建能够完全按照预期执行任务、遵守特定用户偏好或业务规则的智能体至关重要。

为了增强现实世界 Web 自动化所需的可靠性和准确性,SDK 集成了几种强大的机制:

  • 通过 Playwright 进行浏览器操作: 利用流行的 Playwright 框架进行强大的跨浏览器自动化,提供对浏览器操作的精细控制。
  • API 调用: 使智能体能够在可用时通过 API 直接与 Web 服务交互,为某些任务提供比 UI 操作更稳定、更高效的替代方案。
  • Python 集成: 允许开发者嵌入自定义 Python 代码,从而在智能体的工作流程中实现复杂逻辑、数据处理或与其他系统的集成。
  • 并行线程 (Parallel Threading): 通过允许某些操作并发运行,帮助减轻由加载缓慢的网页或网络延迟引起的延误,提高整体任务完成速度和弹性。

这个全面的工具包旨在为开发者提供应对以前不切实际或不可靠的复杂自动化挑战所需的灵活性和能力。

衡量标准:关注性能与实际可靠性

虽然基准分数是 AI 界的通用货币,但 Amazon 强调 Nova Act 的开发优先考虑实际可靠性,而不是仅仅在抽象测试的排行榜上名列前茅。目标是构建在真实世界场景中能够持续工作的智能体,即使这意味着要专注于对 Web 交互至关重要的特定能力。

话虽如此,Nova Act 在专门设计用于评估与 Web 界面交互的基准测试中表现出卓越的性能。Amazon 强调,在针对那些经常挑战竞争对手模型的能力的内部评估中,其得分超过了 90% 的准确率

在已建立的基准测试中,结果值得注意:

  • ScreenSpot Web Text: 该基准评估 AI 理解与网页上基于文本的交互相关的自然语言指令的能力(例如,“增大字体大小”,“找到提及订阅的段落”)。Nova Act 取得了接近完美的 0.939 分,显著超过了像 Claude 3.7 Sonnet (0.900) 和 OpenAI 的 CUA (Conceptual User Agent benchmark) (0.883) 这样的著名模型。
  • ScreenSpot Web Icon: 该测试侧重于与视觉、非文本元素(如星级评分、图标或滑块)的交互。Nova Act 再次表现强劲,得分 0.879

有趣的是,在广泛评估导航不同用户界面元素熟练程度的 GroundUI Web 测试中,Nova Act 的表现略低于某些竞争对手。Amazon 坦诚地承认了这一点,并将其描述为随着模型通过持续训练和改进不断发展而有待改进的领域,而非失败。这种透明度强调了其专注于构建真正有用的工具,并认识到开发是一个迭代过程。

重点仍然坚定地放在可靠执行上。Amazon 强调,一旦使用 Nova Act SDK 构建的智能体在开发中正确可靠地执行了任务,开发者就应该对其部署抱有高度信心。这些智能体可以无头运行(没有可见的浏览器窗口),通过 API 集成到更大的应用程序中,甚至可以安排在特定时间自主执行任务。所提供的示例——一个智能体在初始设置后无需任何用户交互,每周二晚上自动订购偏好的沙拉外送——完美地说明了这种为日常数字杂务实现无缝、可靠自动化的愿景。

适应性的飞跃:学习和迁移 UI 理解能力

Nova Act 最引人注目的方面之一是其据称能够泛化其对用户界面的理解,并有效地将其应用于新颖环境中,而只需很少或无需特定任务的再训练。这种能力,通常被称为迁移学习,对于创建真正通用的智能体至关重要,这些智能体不会因为微小的网站重新设计或遇到不熟悉的应用程序布局而变得脆弱或容易失效。

Amazon 分享了一个引人入胜的轶事:Nova Act 在操作基于浏览器的游戏方面表现出了能力,尽管其训练数据明确不包含视频游戏体验。这表明该模型正在学习 Web 交互的基本原则——识别按钮、解释视觉反馈、理解输入字段——而不仅仅是记忆特定的网站结构。如果这种能力在广泛的应用中都成立,那将代表着一项重大进步。这意味着开发者可能能够构建出在遇到新网站或 Web 应用程序时,能够以相当高的成功率处理任务的智能体,从而大大减少了为每个目标平台进行持续、定制化训练的需求。

这种适应性使 Nova Act 成为除简单任务自动化之外,适用于广泛应用的潜在强大引擎。它可以驱动更智能的网络爬虫、更直观的数据输入工具或功能更强的辅助功能助手。

Amazon 已经在其自身的生态系统内利用了这种能力。其语音助手的高级版本 Alexa+ 利用 Nova Act 来实现自主的网络导航。当用户发出一个无法完全通过现有 Alexa 技能或可用 API 来满足的请求时(这是一个常见的限制),Nova Act 可以潜在地介入,打开一个相关的网页,并尝试通过直接与网站的 UI 交互来完成任务。这代表着朝着 AI 助手愿景迈出的切实一步,即减少对预构建集成的依赖,并通过利用开放网络更自主、更动态地运作。

未来之路:长期 AI 战略的基础步骤

Amazon 明确表示,当前形式的 Nova Act 仅仅代表了一个更广泛、长期使命的初始阶段。最终目标是培养高度智能、适应性强且值得信赖的 AI 智能体,能够管理日益复杂、可能跨越多个网站、应用程序和会话的多步骤工作流程。

该公司的战略涉及超越简单的演示或仅在受限数据集上进行训练。重点是采用强化学习技术,应用于多样化的真实世界场景。这意味着通过让 Nova 模型尝试任务、从成功和失败中学习,并逐步在驾驭实时网络环境固有的复杂性和不可预测性方面建立熟练度来训练它们。这种迭代的、经验驱动的方法被认为是构建鲁棒性和真正智能的关键。

Nova Act 是 Amazon 所描述的其 Nova 模型家族长期训练课程中的一个关键检查点。这表明了一种持续的承诺和战略雄心,旨在从根本上重塑 AI 智能体的格局,将它们从利基工具转变为导航我们数字生活中不可或缺的伙伴。当前的模型是未来构建更复杂能力的基础。

共创未来:开发者社区不可或缺的作用

认识到这项技术最具变革性的应用尚未构想出来,Amazon 通过 Nova Act SDK 的研究预览版,刻意及早地让开发者社区参与进来。“智能体最有价值的用例尚未被构建出来,”该公司表示。“最优秀的开发者和设计师将会发现它们。”

这种发布策略有多种目的。它让创新的构建者能够亲身体验该技术,突破其界限,并以 Amazon 内部团队可能无法想象的方式探索其潜力。它还建立了一个关键的反馈循环。通过观察开发者如何使用 SDK、他们遇到什么挑战以及他们需要什么功能,Amazon 可以根据实际使用情况和实践需求快速迭代,完善 Nova Act 及配套工具。这种以快速原型设计和迭代反馈为中心的协作方法,被视为释放原生 Web AI 智能体真正潜力的最快途径。

从本质上讲,Nova Act 不仅仅是一个新的模型或 SDK;它是对开发者的一次邀请,也是 Amazon 的一份意向声明。它代表着朝着使 AI 智能体真正有用于处理复杂、动态且通常混乱的任务迈出的坚定步伐,这些任务定义了我们与数字世界的大部分互动。通过重新思考基准、优先考虑可靠性、培养适应性并拥抱协作,Amazon 旨在赋能构建者创建能够显著超越当今 AI 工具能力的自主解决方案。旅程才刚刚开始,但方向是明确的:迈向一个由更智能、更自主的数字助手代表我们导航网络的未来。