Agent概念的興起
近年來,隨著微軟推出GitHub MCP伺服器、Google發布A2A智能體間通信協議以及支付寶上線MCP伺服器等一系列事件的發生,Agent(智能體)領域正受到市場前所未有的關注。儘管目前對於Agent的定義尚未達成完全統一,但前OpenAI研究員Lilian Weng提出的“規劃”、“記憶”和“工具使用”三大核心組件被廣泛認可,成為理解Agent的關鍵要素。
在人工智能領域,Agent的概念並非新鮮事物,但隨著大型語言模型(LLM)的快速發展,Agent的應用前景迎來了新的突破。Agent可以被視為一種能夠感知環境、自主規劃並執行任務的智能系統,其核心在於能夠模擬人類的決策過程,並利用各種工具和資源來實現既定目標。
Agent的發展現狀:潛力巨大,滲透率待提升
作為聊天機器人的進化版本,當前的Agent應用大多被整合到大型模型的收費服務中,僅有少數如Manus和Devin等Agent提供獨立的收費服務。儘管如此,像Deep Research和Manus這類具備自主規劃能力的Agent在使用上仍存在諸多限制,真正能夠體驗到的用戶數量可能並不多,距離“爆款”應用的出現還有很大的提升空間。
然而,隨著大型模型推理能力的不断提升,Agent正逐漸成為應用創新的焦點。越来越多的开发者和研究人员开始探索Agent在各个领域的应用,例如智能助手、自动化流程、数据分析等。Agent的潜力正在被逐步挖掘,未来的发展空间十分广阔。
Agent大規模應用在即:多重有利條件驅動
模型訓練端的突破
上下文窗口增長迅猛:大型模型的上下文窗口(Context Window)是指模型在處理文本時能夠考慮的最大文本長度。隨著技術的進步,模型的上下文窗口正在迅速增長,這意味著模型能夠更好地理解長文本的語境,從而做出更準確的決策。更長的上下文窗口使得Agent能夠處理更複雜的任務,例如理解長篇文檔、參與長時間對話等。此外,更長的上下文窗口也使得Agent能夠更好地記憶和利用歷史信息,从而提高决策的准确性和一致性。一些最新的模型甚至能够处理数十万甚至数百万个token的上下文,为Agent的应用带来了前所未有的可能性。
強化學習深入應用:強化學習是一種通過獎勵和懲罰來訓練Agent的方法。近年來,強化學習在Agent訓練中得到了廣泛應用,使得Agent能夠更好地適應複雜環境,並學習到最優策略。強化學習算法能夠帮助Agent在不断与环境交互的过程中学习到最优的行为策略,而无需人工干预。例如,可以通过强化学习来训练Agent玩游戏、控制机器人、优化资源分配等。强化学习的进步使得Agent能够更加智能和自主地解决复杂问题。目前,一些研究人员正在探索将强化学习与大型语言模型相结合,以构建更加强大的Agent。
推理模型日趨成熟:推理模型是Agent的核心組成部分,負責根據輸入的信息進行推理和判斷。隨著研究的深入,推理模型正變得越來越成熟,能夠更好地支持Agent的各種應用。更成熟的推理模型意味着Agent能够更好地理解和处理复杂的信息,从而做出更合理的决策。例如,推理模型可以帮助Agent理解自然语言、识别图像、预测未来趋势等。推理模型的进步是Agent能够实现各种复杂应用的关键。现在,很多研究集中于开发更高效、更准确的推理模型,例如基于Transformer架构的推理模型。
生態系統的蓬勃發展
MCP和A2A等協議發展迅猛:MCP(Model Communication Protocol)和A2A(Agent-to-Agent)是兩種重要的Agent通信協議。這些協議的快速發展使得Agent能夠更方便地調用各種工具和服務,從而實現更複雜的功能。這些協議的出现是为了解决Agent之间的互操作性和通信问题。例如,MCP协议可以帮助Agent访问外部数据和工具,A2A协议可以帮助Agent相互协作完成任务。这些协议的标准化可以促进Agent生态系统的发展,使得Agent能够更加方便地与其他Agent和外部系统进行交互。
Agent調用工具越發方便:隨著技術的進步,Agent調用外部工具和服務的方式正變得越來越便捷。例如,通過API(應用程序編程接口),Agent可以輕鬆地訪問各種數據源和在線服務,從而擴展自身的能力。便捷的工具调用能力使得Agent能够利用外部资源来完成各种任务。例如,Agent可以调用搜索引擎来获取信息、调用计算器来进行计算、调用翻译API来进行翻译等。通过调用外部工具,Agent可以大大扩展自身的能力,从而实现更加复杂和强大的应用。
2024年11月,Anthropic發布並開源了MCP協議,旨在標準化外部數據與工具如何為模型提供上下文。這一舉措將極大地促進Agent生態系統的發展,使得Agent能夠更好地利用外部資源。這也代表著業界對於Agent互聯互通重要性的共識正在形成。 Anthropic的舉動將激勵更多企業和組織參與到Agent生態系統的建設中,共同推動Agent技術的發展。
MCP與A2A:Agent互聯的關鍵
MCP協議:連接Agent與外部世界
MCP協議的主要目標是實現Agent與外部數據和工具的“一鍵互聯”。通過MCP協議,Agent可以方便地訪問各種外部資源,例如數據庫、API、Web服務等。這使得Agent能夠更好地理解環境,並做出更明智的決策。 MCP协议的核心在于提供一种标准化的接口,使得Agent能够以统一的方式访问各种外部资源。这种标准化的接口可以大大降低Agent开发和集成的成本,从而促进Agent生态系统的发展。例如,通过MCP协议,Agent可以访问天气预报API来获取天气信息,从而更好地规划出行路线;可以访问新闻API来获取新闻资讯,从而更好地了解时事动态;可以访问电商API来查询商品信息,从而更好地进行购物决策。
A2A協議:構建Agent之間的通信橋樑
A2A協議的目標是實現Agent之間的通信。通過A2A協議,Agent可以相互協作,共同完成複雜的任務。這對於構建分布式智能系統具有重要意義。 A2A协议的出现是为了解决Agent之间的协作问题。例如,多个Agent可以协作完成一个复杂的任务,例如自动化一个供应链、控制一个智能家居系统等。A2A协议可以提供一种标准化的通信机制,使得Agent能够方便地进行信息交换和任务协调。此外,A2A协议还可以支持Agent之间的身份认证和权限管理,从而保证Agent之间的安全通信。
儘管A2A協議的目標為Agent之間通信,而MCP為Agent與外部工具和數據,但在“工具也可能被封裝為Agent”的複雜局勢下,兩者功能或有重疊,但這種競爭有助於降低大模型調用外部工具與通信成本。这种竞争将推动技术的进步,并最终受益于整个Agent生态系统。 这种功能上的重叠也意味着开发者可以更加灵活地选择合适的协议来满足自己的需求。例如,如果开发者需要构建一个能够访问外部数据和工具的Agent,可以选择MCP协议;如果开发者需要构建一个能够与其他Agent协作的Agent,可以选择A2A协议;如果开发者需要构建一个既能够访问外部数据和工具,又能够与其他Agent协作的Agent,可以选择同时使用MCP协议和A2A协议。
Agent發展展望
端到端Agent:無需人工干預
當前,市場上存在著大量的“智能體”,但其中相當一部分是基於Coze、Dify等平台開發的,需要人類事先撰寫工作流。這些Agent更像是提示詞工程的疊加,屬於較為初級的Agent。 这些Agent虽然可以执行一些简单的任务,但是它们需要人工干预才能完成复杂的任务。例如,用户需要手动编写工作流来指导Agent完成任务,或者需要手动提供输入数据给Agent。
而更高級的Agent是“端到端”的,它意味著“對Agent輸入任務,Agent自動完成人類所需的任務結果”。例如,用戶只需向Agent輸入一個目標,Agent就能夠自主規劃並執行任務,最終完成目標。 L3/L4/L5等此類高級Agent更符合人類需求,將成為未來Agent發展的重要方向。 端到端Agent可以完全自主地完成任务,而无需人工干预。例如,用户可以向端到端Agent输入一个购物清单,Agent就能够自动搜索商品、比较价格、下单购买,并将商品送货上门。端到端Agent的出现将大大提高生产效率和生活便利性。
Agent助力機器人與自動駕駛
當把Agent的定義套用在具身智能,會發現被大模型支配的機器人和車輛,也是Agent。特别是机器人,当前机器人发展的瓶颈并不在于“如何做出物理动作”的“小脑”,而在于思考“做出何种物理动作”的“大脑”,而这正落入Agent射程。 机器人需要Agent来帮助它们理解环境、规划任务和执行动作。例如,Agent可以帮助机器人识别物体、导航路径、抓取物品等。Agent的出现将使机器人更加智能和自主,从而能够完成更加复杂的任务。
在機器人領域,Agent可以幫助機器人更好地理解環境,並做出更合理的決策。例如,Agent可以根據環境中的物體和人員,自主規劃機器人的移動路徑,並執行各種任務。Agent可以为机器人提供视觉、听觉、触觉等感知能力,帮助机器人理解周围的环境。例如,Agent可以使用图像识别技术来识别物体、使用语音识别技术来理解语音指令、使用传感器来感知环境温度和湿度等。
在自動駕駛領域,Agent可以幫助車輛更好地感知周圍環境,並做出更安全的駕駛決策。例如,Agent可以根據交通信號、其他車輛和行人,自主調整車輛的速度和方向,從而避免交通事故的發生。Agent可以为自动驾驶车辆提供决策和控制能力,帮助车辆安全地行驶在道路上。例如,Agent可以使用计算机视觉技术来识别交通信号、使用激光雷达技术来感知周围车辆和行人、使用地图数据来规划行驶路线等。
Agent互聯與AI原生網絡
未來,或許所有的Agent相互之間應該都能夠通信、可以自組織、自協商,構建比現有互聯網更低成本、更高效率的協作網絡。中国开发者社区也在构建ANP等协议,旨在成为Agent互联网时代的 HTTP协议。而关于Agent之间的身份认证,可以借助DID等技术。 这种Agent互联的网络将极大地提高生产效率和资源利用率。例如,多个Agent可以协作完成一个复杂的任务,例如自动化一个供应链、控制一个智能家居系统等。
Agent互聯:Agent之間的互聯可以實現資源的共享和協作,從而提高整個系統的效率。例如,不同的Agent可以共享數據、工具和服務,從而共同完成複雜的任務。 Agent互联可以实现信息的共享和资源的优化配置。例如,多个Agent可以共享知识库、模型库和工具库,从而减少重复开发和资源浪费。
AI原生網絡:AI原生網絡是指一種專門為人工智能應用設計的網絡。這種網絡可以提供更高的帶寬、更低的延遲和更強的安全性,從而更好地支持Agent的各種應用。 AI原生网络可以提供更快的通信速度、更低的延迟和更高的可靠性,从而满足AI应用的需求。例如,AI原生网络可以支持大规模分布式训练、实时推理和安全数据传输。
DID技術:DID(Decentralized Identifier)是一種去中心化身份認證技術。通過DID技術,Agent可以擁有自己的身份,從而實現更安全、更可靠的通信。 DID技术可以为Agent提供可信的身份认证和权限管理,从而保证Agent之间的安全通信和数据共享。
Agent技術的發展將帶來巨大的變革,未來的互聯網將不再是簡單的信息傳遞網絡,而是一個充滿智能的協作網絡。 这种智能的协作网络将极大地改变我们的生活和工作方式,从而创造更加美好的未来。 Agent技术将渗透到各个领域,例如医疗、教育、金融、交通等,从而提高生产效率、改善生活质量、促进社会进步。