互联AI Agent时代:MCP与A2A协议铺平道路

理解AI Agent:核心组件与当前格局

人工智能(AI)领域正经历快速演变,而AI Agent正在成为创新焦点。微软推出Github MCP服务器,谷歌发布A2A Agent间通信协议,支付宝整合MCP服务器等近期进展,引发了人们对AI Agent潜力的广泛关注。

虽然目前还没有一个被广泛接受的AI Agent定义,但前OpenAI研究员Lilian Weng提供了一个被广泛认可的视角。Weng认为,“规划”、“记忆”和“工具使用”是AI Agent的关键构建模块。

AI Agent开发的现状:变现有限与潜力未开发

目前,只有少数AI Agent能够独立变现,表明市场渗透率相对较低。大多数Agent都捆绑在大型模型更广泛的服务产品中。像Manus和Devin这样的独立产品,虽然拥有自主任务规划能力,但往往存在重大局限性。这些高级Agent的用户体验可能受到限制,阻碍了其广泛应用。

然而,未来看起来充满希望。随着大型模型的推理能力不断提高,AI Agent有望成为应用创新的宠儿。多种因素正在汇聚,以促进AI Agent的广泛应用:

  1. 模型训练上下文窗口的指数级增长: 模型处理大量信息的能力正在迅速扩展,同时强化学习技术的应用也在不断增加。这带来了更复杂、更强大的推理模型。
  2. 蓬勃发展的生态系统: 像MCP和A2A这样的协议正在快速发展,使Agent能够更轻松地访问和利用各种工具。2024年11月,Anthropic发布并开源了MCP协议,旨在标准化外部数据和工具向模型提供上下文的方式。

MCP和A2A:为AI Agent实现无缝连接

MCP协议使AI Agent能够轻松连接外部数据和工具,而A2A则促进Agent之间的通信。虽然MCP侧重于将Agent与外部资源连接,而A2A侧重于Agent到Agent的通信,但两种功能可能会在一个复杂的环境中重叠,因为工具可以封装为Agent。这种良性竞争对于降低大型模型访问外部工具和促进通信的成本至关重要。

展望AI Agent的未来:关键发展轨迹

AI Agent的演进有望解锁各个领域的新可能性。以下是一些潜在的发展路径:

1. 端到端功能:消除对人工定义工作流程的需求

目前可用的许多AI Agent都建立在Coze和Dify等平台上,需要用户预先定义工作流程。这些是初级的Agent,类似于高级形式的prompt工程。更高级的Agent将是“端到端”的,能够根据用户输入自主完成从开始到结束的任务。这些更高级的Agent非常受欢迎,并且很可能成为下一个突破性的AI应用。

2. 赋能机器人和自动驾驶

当我们把AI Agent的概念应用到具身智能时,我们看到由大型模型控制的机器人和车辆也是Agent。在机器人技术中,主要的瓶颈不是负责物理动作的“小脑”,而是决定采取哪些动作的“大脑”。这就是AI Agent可以发挥关键作用的地方。

3. 利用DID和其他技术促进Agent间通信和AI原生网络

未来,AI Agent应该能够相互通信、自我组织和协商,创建一个比当前互联网更高效、更具成本效益的协作网络。中国开发者社区正在开发像ANP这样的协议,旨在成为Agent互联网时代的HTTP协议。像去中心化身份(DID)这样的技术可以用于Agent身份验证。

投资机会:对推理能力的日益增长的需求

由于训练数据有限以及预训练Scaling Law接近极限,市场对AI计算能力需求的持续性表示担忧。然而,AI Agent将释放对更多推理能力的需求。各个组织都在积极开发Agent,竞争格局仍在演变。Agent完成任务所需的计算能力,包括其长上下文窗口和基于环境变化的持续适应,远大于简单的模型文本响应所需的计算能力。

AI Agent的快速发展将引发对推理计算能力需求的激增。我们看到了以下方面的重大机遇:

  • 计算芯片制造商: NVIDIA, Inphi, Accton, 新易盛, 和寒武纪。
  • 底层协议开发公司: 谷歌 (A2A 协议)。
  • 计算云服务提供商: 阿里巴巴和腾讯。
  • 大型模型制造商: 阿里巴巴和字节跳动。

潜在风险

  • 缺乏强大的MCP分发平台: MCP生态系统目前缺乏一个中心化的分发平台。市场需要云平台和其他供应商来填补这一空白。
  • 大型模型技术的发展速度低于预期: 大型模型在上下文窗口和幻觉方面仍然面临重大挑战。
  • Agent的商业化速度低于预期: 尽管AI Agent已经宣布收费,但他们的收费情况并未公开,其商业模式的可持续性值得怀疑。

深入探讨AI Agent:解析MCP和A2A协议的潜力

AI Agent的兴起标志着我们与技术互动方式的范式转变。这些智能实体旨在自主执行任务、从经验中学习并适应不断变化的环境。像MCP(模型-上下文-协议)和A2A(Agent-to-Agent)这样的协议的出现进一步加速了AI Agent的开发和部署。让我们更深入地研究这些概念并探讨它们的含义。

AI Agent的本质:超越简单的聊天机器人

虽然像ChatGPT这样的聊天机器人已经抓住了公众的想象力,但AI Agent代表了一种更高级的AI形式。用户期望这些Agent不仅响应明确的请求,还能主动理解他们的需求、分解复杂的任务,甚至交付完成的项目。这就需要更高水平的自主性和智能。

AI Agent的关键组件:规划、记忆和工具使用

正如Lilian Weng所阐述的那样,AI Agent的核心组件是规划、记忆和工具使用。

  • 规划: 这涉及将复杂的任务分解为更小、更易于管理的步骤,并反思为实现预期结果所取得的进展的能力。
  • 记忆: AI Agent需要短期和长期记忆来保留有关过去互动的信息、从经验中学习并适应不断变化的环境。
  • 工具使用: 访问和利用外部工具(如搜索引擎和API)的能力对于AI Agent收集信息、执行操作以及与现实世界互动至关重要。

成熟的AI Agent格局:从研究项目到盈利服务

最初,AI Agent项目主要以研究为导向,目标是探索AI在各个领域的潜力。然而,随着技术的成熟,我们看到了一种向商业化的转变。

盈利AI Agent服务的出现

许多公司现在正在将AI Agent集成到其现有的服务产品中,通常作为高级订阅包的一部分。例如,谷歌的Gemini模型为付费用户提供深度研究功能,允许他们利用AI的力量进行深入研究并生成报告。

局限性和改进机会

尽管取得了进展,但AI Agent仍然面临局限性。当前的许多产品在使用和功能方面都受到限制,限制了它们对更广泛受众的吸引力。然而,这些局限性也代表了进一步创新和发展的机会。

上下文窗口、强化学习和推理模型的作用

有几个因素促成了AI Agent技术的最新进展。

大型上下文窗口的力量

AI Agent严重依赖记忆来存储和处理信息。大型模型中上下文窗口的增加使Agent能够保留更多信息并执行更复杂的任务。

强化学习:训练Agent做出最佳决策

强化学习技术已被证明在训练AI Agent执行可以客观评估的任务(如代码生成和数学问题解决)方面特别有效。

推理模型的进步

AI Agent本质上是推理模型的应用。更复杂的推理模型(如OpenAI的Chain of Thought(CoT))的开发为更强大和更智能的Agent铺平了道路。

MCP和A2A协议的重要性

标准化通信协议的出现对于促进AI Agent的开发和部署至关重要。

MCP:简化与外部数据和工具的集成

MCP协议旨在标准化AI模型访问和利用外部数据和工具的方式。这降低了将Agent与各种服务集成的复杂性和成本。

A2A:实现AI Agent之间的通信

A2A协议促进了AI Agent之间的通信和协作。这为创建复杂的分布式AI系统开辟了新的可能性。

AI Agent的未来:智能助理的世界

AI Agent的开发仍处于早期阶段,但潜力巨大。未来,我们可以预期看到能够自主执行各种任务、从经验中学习并适应不断变化的环境的AI Agent。这些智能助理将彻底改变我们与技术互动的方式,并改变我们生活的各个方面。

挑战与思考

随着AI Agent变得越来越普遍,重要的是要解决潜在的挑战和担忧。

  • 伦理考量: AI Agent必须以负责任和道德的方式开发和部署,确保它们不会延续偏见或歧视某些群体。
  • 安全风险: AI Agent可能容易受到安全威胁,如黑客攻击和数据泄露。实施强大的安全措施来保护这些系统至关重要。
  • 失业: AI Agent的自动化能力可能会导致某些行业的失业。重要的是为这些变化做好准备,并为受影响的工人提供支持。