亚马逊发布Nova Act:欲掌控网页浏览器的AI智能体

人工智能的步伐从未停歇,它正从简单的查询响应和内容生成,迈向积极参与我们数字生活的新领域。似乎每周都有新的竞争者涌现,带来更先进的算法,承诺简化任务、提高生产力,或者仅仅是让复杂的网络世界变得更容易驾驭。坚定地踏入这个不断发展的竞技场的是亚马逊(Amazon),这家公司的雄心壮志早已超越了在线零售。他们最新的产品,命名为 Nova Act,代表着向未来的重要一步——在这个未来,AI 智能体不仅辅助人类,还能在熟悉的网页浏览器环境中,直接代表人类执行任务。

这不仅仅是又一个能够对话的聊天机器人。亚马逊将 Nova Act 定位为一个复杂的下一代 AI 模型,其设计具有在面向消费者的应用中罕见的操作自由度。其核心承诺是什么?一个能够半自主行动、理解用户意图,并可能在最少人为监督下在线执行多步骤流程的智能体。这种从被动助手到主动参与者的转变,标志着 AI 技术发展和部署的一个关键时刻。

定义数字副驾驶:Nova Act 的能力

真正让 Nova Act 与众不同的是其声称能够控制网页浏览器并执行传统上需要人类直接输入的操作。想象一下,一个助手不仅能找到信息,还能根据信息采取行动。亚马逊表示,Nova Act 拥有基础能力来浏览网站、解读内容,并执行旨在让用户受益的命令。这包括融合了数字世界甚至可能涉及物理世界的任务,模糊了信息检索与现实世界行动之间的界限。

也许最引人注目的说法是该智能体有潜力在无需每一步都进行人工干预的情况下完成购物。虽然围绕此功能的具体细节和保障措施在其早期阶段仍未公开,但其意义深远。一个能够评估选项、做出选择并完成交易的 AI,代表着向真正数字自主性的飞跃。除了商业应用,亚马逊还演示了一个场景:Nova Act 可以独立搜索互联网,具体任务是寻找加利福尼亚州 Redwood City 符合特定条件的可用公寓,例如距离火车站骑行可达。这展示了其理解复杂、多层次请求并与网页界面交互以完成任务的能力。

亚马逊似乎正在将 Nova Act 的能力划分为不同层级,表明这是一个可适应各种需求的多功能平台:

  • 文本生成: 提供三个不同级别——Micro、Lite 和 Pro。这种分层方法可能反映了不同程度的复杂性、速度,或者可能访问更高级的语言处理功能,以满足从简单文本片段到更复杂内容创作的不同用户需求。
  • 图像生成: Canvas 模型被指定用于生成视觉内容,利用了蓬勃发展的生成式 AI 图像领域。
  • 视频生成: 类似地,Reel 模型专注于创建视频内容,进一步扩展了该智能体的多媒体能力。

必须理解的是,Nova Act 目前正处于其初始开发阶段。亚马逊明确表示该智能体仍是初步的,但强调其有能力通过持续学习和改进而不断进步。这个学习过程至关重要,特别是对于需要细致理解并与不断变化的网站和在线服务环境进行交互的任务。

早期访问:研究预览阶段

目前,Nova Act 尚未向大众推广。相反,亚马逊选择了一种更为谨慎的方法,将这款 AI 工具以他们称之为**’research preview’(研究预览)**的形式提供。此阶段允许选定的用户,明确包括亚马逊生态系统内的卖家、广告商和购物者,与该智能体互动并提供宝贵的反馈。这种受控发布策略使亚马逊能够在更广泛部署之前收集真实世界的使用数据、识别潜在问题、改进算法,并更好地理解用户可能如何利用这样一个强大的工具。

目前,访问似乎受到地域限制。位于**美国 (United States)**境内感兴趣的亚马逊客户可以访问 nova.amazon.com 并登录以探索该平台。然而,美国以外的用户目前似乎被排除在这一初步预览阶段之外。这种分阶段推出对于具有潜在颠覆性的技术来说是典型的,允许进行迭代改进和区域合规性检查。从卖家和广告商那里收集到的反馈将特别有见地,揭示企业可能如何将 Nova Act 整合到他们的工作流程中,用于市场研究、广告活动管理或客户互动分析。另一方面,购物者将提供关于智能体执行产品搜索或比较等任务的可用性、可靠性和可信度的关键数据。

赋能创新者:Nova Act 软件开发工具包 (SDK)

认识到一个平台的真正潜力往往在于更广泛开发者社区的创造力,亚马逊同时推出了 Nova Act SDK。这个软件开发工具包 (Software Development Kit) 是一个关键的配套组件,专门设计用于赋能开发者构建他们自己的定制化 AI 智能体,利用 Nova Act 的核心能力,特别是其浏览器交互功能。

亚马逊人工智能(Amazon Artificial General Intelligence)高级副总裁 Rohit Prasad 阐述了此举背后的愿景:“Nova.amazon.com 将亚马逊前沿智能的力量交到每一位开发者和技术爱好者手中,使探索 Amazon Nova 的能力变得前所未有的容易。” 这番话强调了亚马逊的战略:不仅仅是构建一个强大的单一智能体,而是要基于其基础技术,培育一个由专业化 AI 工具组成的完整生态系统。

该 SDK 为大量潜在应用打开了大门,远远超出了亚马逊最初提供的示例。理论上,开发者可以创建针对高度特定任务的机器人:

  • 自动化订购: 设计能够浏览复杂外卖平台或自动重新订购常用物品的智能体。
  • 旅行与住宿: 构建能够搜索多个旅游网站、比较酒店设施和价格,甚至根据预定义的用户偏好进行预订的机器人。
  • 数据录入与表单填写: 自动化填写在线表格、申请或调查等通常繁琐的过程,并保证准确性和速度。
  • 日历管理: 创建能够智能扫描电子邮件或消息以获取活动详情,并自动将约会、提醒或截止日期添加到用户数字日历的智能体。
  • 竞争分析: 为企业开发工具,监控竞争对手网站的价格变动、产品更新或促销活动。
  • 个性化信息聚合: 制作能够搜罗网络上与用户特定兴趣或专业领域相关的新闻、文章或研究论文,并高效整合信息的智能体。

通过提供 SDK,亚马逊实质上是在邀请开发者在 Nova Act 之上进行创新,这可能导致针对各行各业无数细分应用的基于浏览器的 AI 智能体大量涌现。这种方法不仅加速了对 Nova Act 潜力的探索,而且通过围绕其技术建立社区,有助于巩固亚马逊在竞争激烈的 AI 领域的地位。

起源:亚马逊的 AGI SF Lab

Nova Act 模型背后的开发主力是 Amazon AGI SF Lab,战略性地位于加利福尼亚州旧金山 (San Francisco, California)。该实验室代表了亚马逊为整合顶尖人工智能人才所做的集中努力。其明确使命是汇集领先的 AI 专家和工程师,以创建最先进的基础 AI 模型为唯一目标。

AGI SF Lab 的领导层充分说明了亚马逊的决心。它由曾在 OpenAI 担任重要职务的杰出人物领导,即 David LuanPieter Abbeel。他们在世界领先的 AI 研究机构之一磨练出的专业知识,表明亚马逊意图在开发先进通用人工智能能力的最高水平上展开竞争。建立这个由行业资深人士组成的专门实验室,突显了 Nova Act 并非一个孤立的项目,而是亚马逊向 AI 未来进行更广泛、资金充足且具有战略关键意义的推动的一部分。

这项巨额投资反映了几乎所有其他主要科技巨头的行动。开发和部署卓越 AI 的竞赛正如火如荼地进行,这被视为未来增长、效率以及跨多个行业竞争优势的基础。Nova Act 最初在去年年底作为亚马逊不断增长的 AI 模型组合的一部分在概念上首次亮相,现在正以一个具体的平台显现出来,展示了像 AGI SF Lab 这样的专业部门内部取得的进展。

在拥挤的领域中航行:自主智能体的崛起

亚马逊的 Nova Act 并非在真空中进入市场。它加入了一个迅速扩展的 AI 智能体领域,这些智能体专为自主或半自主操作而设计,尤其是在网络交互方面。该公告紧随竞争对手的举措之后发布。值得注意的是,AI 领导者 OpenAI 本身在一月份推出了 Operator——被描述为一个自主聊天机器人,同样具备在没有持续人工监督的情况下浏览网页的能力。

这种能够独立导航并与数字世界互动的智能体趋势,标志着 AI 应用的一次重大演变。早期的聊天机器人主要是对话界面,仅限于处理提供给它们的信息或通过受限的 API 检索数据。像 Nova Act 和 Operator 这样的智能体代表着向 AI 的转变,这种 AI 可以在人类日常使用的相同环境——即访问互联网上庞大、非结构化信息和功能的网页浏览器——中行动

这种能力为自动化和效率带来了巨大的可能性,但也引发了重大的问题。这些智能体将如何处理复杂、动态的网站?当它们遇到意外错误或安全提示时会发生什么?用户如何确保智能体是按照他们的最佳利益行事,尤其是在涉及金融交易时?随着这些技术的成熟,开发强大的控制机制、透明的操作日志和可靠的安全协议将至关重要。亚马逊、OpenAI、谷歌、微软等公司在这一领域的竞争可能会加速创新,推动自主智能体所能达到的界限,同时也将迫使行业面对相关的挑战。特别是 Nova Act SDK 的开发,可以被视为亚马逊通过支持定制化智能体创建,而非仅仅提供单一、庞大智能体来差异化自身的策略。