AI Agent互联时代：MCP与A2A协议领航 | zh-CN

Agent概念的兴起

近年来，随着微软推出GitHub MCP服务器、谷歌发布A2A智能体间通信协议以及支付宝上线MCP服务器等一系列事件的发生，Agent（智能体）领域正受到市场前所未有的关注。尽管目前对于Agent的定义尚未达成完全统一，但前OpenAI研究员Lilian Weng提出的“规划”、“记忆”和“工具使用”三大核心组件被广泛认可，成为理解Agent的关键要素。这三个组件构成了Agent实现自主行为和智能决策的基础。规划能力使得Agent能够制定长期目标和行动方案；记忆能力让Agent能够存储和检索信息，从而更好地理解环境和做出判断；工具使用能力则赋予Agent利用外部资源和执行特定任务的能力。

在人工智能领域，Agent的概念并非新鲜事物，但随着大型语言模型（LLM）的快速发展，Agent的应用前景迎来了新的突破。Agent可以被视为一种能够感知环境、自主规划并执行任务的智能系统，其核心在于能够模拟人类的决策过程，并利用各种工具和资源来实现既定目标。与传统的AI系统相比，Agent更加强调自主性和适应性。它不仅能够根据预设的规则执行任务，还能够根据环境的变化和反馈动态地调整行为，从而更好地实现目标。

Agent的发展现状：潜力巨大，渗透率待提升

作为聊天机器人的进化版本，当前的Agent应用大多被整合到大型模型的收费服务中，仅有少数如Manus和Devin等Agent提供独立的收费服务。这表明Agent的商业模式仍在探索阶段，但同时也暗示了Agent的潜在价值。大型模型厂商通过将Agent集成到收费服务中，可以提升服务的吸引力，并为用户提供更高级的功能。而独立的Agent服务则专注于特定的应用场景，提供更专业化的解决方案。

尽管如此，像Deep Research和Manus这类具备自主规划能力的Agent在使用上仍存在诸多限制，真正能够体验到的用户数量可能并不多，距离“爆款”应用的出现还有很大的提升空间。Agent的普及面临着技术、成本和可用性等多方面的挑战。技术方面，Agent的性能和稳定性仍有待提高；成本方面，Agent的开发和部署需要大量的资源投入；可用性方面，Agent的用户界面和操作流程需要进一步优化，以便于普通用户使用。

然而，随着大型模型推理能力的不断提升，Agent正逐渐成为应用创新的焦点。越来越多的开发者和研究人员开始探索Agent在各个领域的应用，例如智能助手、自动化流程、数据分析等。Agent的潜力正在被逐步挖掘，未来的发展空间十分广阔。随着技术的进步和应用场景的拓展，Agent有望在各行各业发挥越来越重要的作用，成为推动社会进步的重要力量。

Agent大规模应用在即：多重有利条件驱动

模型训练端的突破

上下文窗口增长迅猛：大型模型的上下文窗口（Context Window）是指模型在处理文本时能够考虑的最大文本长度。随着技术的进步，模型的上下文窗口正在迅速增长，这意味着模型能够更好地理解长文本的语境，从而做出更准确的决策。上下文窗口的扩大使得Agent能够处理更复杂、更长期的任务，并更好地理解用户的意图。
强化学习深入应用：强化学习是一种通过奖励和惩罚来训练Agent的方法。近年来，强化学习在Agent训练中得到了广泛应用，使得Agent能够更好地适应复杂环境，并学习到最优策略。强化学习的应用使得Agent能够不断地从经验中学习，并在实际应用中不断提高性能。
推理模型日趋成熟：推理模型是Agent的核心组成部分，负责根据输入的信息进行推理和判断。随着研究的深入，推理模型正变得越来越成熟，能够更好地支持Agent的各种应用。更强大的推理模型意味着Agent能够更好地理解问题、制定解决方案并执行任务。

生态系统的蓬勃发展

MCP和A2A等协议发展迅猛：MCP（Model Communication Protocol）和A2A（Agent-to-Agent）是两种重要的Agent通信协议。这些协议的快速发展使得Agent能够更方便地调用各种工具和服务，从而实现更复杂的功能。标准的通信协议是Agent生态系统发展的基石，它能够促进Agent之间的互操作性和数据共享。
Agent调用工具越发方便：随着技术的进步，Agent调用外部工具和服务的方式正变得越来越便捷。例如，通过API（应用程序编程接口），Agent可以轻松地访问各种数据源和在线服务，从而扩展自身的能力。便捷的工具调用使得Agent能够利用各种外部资源，从而更好地完成任务。

2024年11月，Anthropic发布并开源了MCP协议，旨在标准化外部数据与工具如何为模型提供上下文。这一举措将极大地促进Agent生态系统的发展，使得Agent能够更好地利用外部资源。MCP协议的开源将吸引更多的开发者参与到Agent生态系统的建设中来，从而推动Agent技术的快速发展。

MCP与A2A：Agent互联的关键

MCP协议：连接Agent与外部世界

MCP协议的主要目标是实现Agent与外部数据和工具的“一键互联”。通过MCP协议，Agent可以方便地访问各种外部资源，例如数据库、API、Web服务等。这使得Agent能够更好地理解环境，并做出更明智的决策。MCP协议简化了Agent与外部世界的交互过程，使得Agent能够更高效地利用外部资源。

A2A协议：构建Agent之间的通信桥梁

A2A协议的目标是实现Agent之间的通信。通过A2A协议，Agent可以相互协作，共同完成复杂的任务。这对于构建分布式智能系统具有重要意义。A2A协议使得Agent能够相互协作，共同解决复杂问题，从而实现更高级的智能。

尽管A2A协议的目标为Agent之间通信，而MCP为Agent与外部工具和数据，但在“工具也可能被封装为Agent”的复杂局势下，两者功能或有重叠，但这种竞争有助于降低大模型调用外部工具与通信成本。这种竞争将推动技术的进步，并最终受益于整个Agent生态系统。良性的竞争能够促进技术的创新，并降低Agent的应用成本，从而推动Agent的普及。

Agent发展展望

端到端Agent：无需人工干预

当前，市场上存在着大量的“智能体”，但其中相当一部分是基于Coze、Dify等平台开发的，需要人类事先撰写工作流。这些Agent更像是提示词工程的叠加，属于较为初级的Agent。这些Agent虽然能够执行特定的任务，但缺乏自主性和适应性，需要人工干预才能完成复杂任务。

而更高级的Agent是“端到端”的，它意味着“对Agent输入任务，Agent自动完成人类所需的任务结果”。例如，用户只需向Agent输入一个目标，Agent就能够自主规划并执行任务，最终完成目标。L3/L4/L5等此类高级Agent更符合人类需求，将成为未来Agent发展的重要方向。端到端Agent能够真正解放人类的双手，实现自动化和智能化。

Agent助力机器人与自动驾驶

当把Agent的定义套用在具身智能，会发现被大模型支配的机器人和车辆，也是Agent。特别是机器人，当前机器人发展的瓶颈并不在于“如何做出物理动作”的“小脑”，而在于思考“做出何种物理动作”的“大脑”，而这正落入Agent射程。Agent能够为机器人提供强大的决策能力，使得机器人能够更好地适应环境和完成任务。

在机器人领域，Agent可以帮助机器人更好地理解环境，并做出更合理的决策。例如，Agent可以根据环境中的物体和人员，自主规划机器人的移动路径，并执行各种任务。Agent能够使机器人更加智能化和自动化，从而提高生产效率和服务质量。

在自动驾驶领域，Agent可以帮助车辆更好地感知周围环境，并做出更安全的驾驶决策。例如，Agent可以根据交通信号、其他车辆和行人，自主调整车辆的速度和方向，从而避免交通事故的发生。Agent能够显著提高自动驾驶的安全性，并最终实现完全无人驾驶。

Agent互联与AI原生网络

未来，或许所有的Agent相互之间应该都能够通信、可以自组织、自协商，构建比现有互联网更低成本、更高效率的协作网络。中国开发者社区也在构建ANP等协议，旨在成为Agent互联网时代的 HTTP协议。而关于Agent之间的身份认证，可以借助DID等技术。Agent互联是构建未来智能社会的基础，它能够促进资源的共享和协作，从而提高整个社会的效率。

Agent互联：Agent之间的互联可以实现资源的共享和协作，从而提高整个系统的效率。例如，不同的Agent可以共享数据、工具和服务，从而共同完成复杂的任务。Agent互联能够实现资源的优化配置，并提高任务完成的效率。
AI原生网络：AI原生网络是指一种专门为人工智能应用设计的网络。这种网络可以提供更高的带宽、更低的延迟和更强的安全性，从而更好地支持Agent的各种应用。AI原生网络能够为Agent提供更好的基础设施，从而促进Agent的快速发展。
DID技术：DID（Decentralized Identifier）是一种去中心化身份认证技术。通过DID技术，Agent可以拥有自己的身份，从而实现更安全、更可靠的通信。DID技术能够确保Agent之间的通信安全，并防止恶意攻击。

Agent技术的发展将带来巨大的变革，未来的互联网将不再是简单的信息传递网络，而是一个充满智能的协作网络。未来的互联网将更加智能化、自动化和个性化，从而更好地服务于人类。Agent技术将在未来的互联网中发挥核心作用，推动社会进步和经济发展。

更新于 2025-04-22

# AI # LLM # Agent