人工智慧(AI)的世界正在快速演進,AI代理人(AI Agents)已成為創新的焦點。 近期發展,例如微軟推出Github MCP伺服器、Google發表A2A代理人間通訊協議,以及支付寶整合MCP伺服器,都激起了人們對AI代理人潛力的廣泛興趣。
理解AI代理人:核心元件與現況
雖然對於AI代理人還沒有一個普遍接受的定義,但前OpenAI研究員Lilian Weng提供了一個廣為人知的觀點。 Weng認為’規劃’、’記憶’和’工具使用’是AI代理人的關鍵組成部分。
AI代理人發展的現狀:有限的貨幣化和未開發的潛力
目前,只有少數AI代理人可以獨立地貨幣化,這表明市場滲透率相對較低。 大多數代理人被捆綁在大型模型的更廣泛服務中。 像Manus和Devin這樣的獨立產品,擁有自主的任務規劃能力,但通常伴隨著顯著的限制。 這些先進代理人的使用者體驗可能受到限制,阻礙了它們的廣泛採用。
然而,未來看起來很有希望。 隨著大型模型的推理能力不斷提高,AI代理人有望成為應用創新中的佼佼者。 有幾個因素正在融合,以促進AI代理人的廣泛採用:
- 模型訓練上下文視窗的指數增長: 模型處理大量資訊的能力正在迅速擴展,同時強化學習技術的應用也在增加。 這將產生更複雜和更強大的推理模型。
- 蓬勃發展的生態系統: 像MCP和A2A這樣的協議正在迅速發展,使代理人更容易存取和利用各種工具。 2024年11月,Anthropic發布並開源了MCP協議,旨在標準化外部資料和工具如何為模型提供上下文。
MCP和A2A:為AI代理人實現無縫連接
MCP協議使AI代理人能夠輕鬆地與外部資料和工具連接,而A2A則促進代理人之間的通信。 雖然MCP側重於將代理人與外部資源連接,而A2A側重於代理人之間的通信,但這兩種功能可能在工具可以被封裝為代理人的複雜環境中重疊。 這種良性競爭對於降低大型模型訪問外部工具和促進通信的成本至關重要。
設想AI代理人的未來:關鍵發展軌跡
AI代理人的演進有望釋放各個領域的新可能性。 以下是一些潛在的發展方向:
1. 端到端功能:消除對人為定義工作流程的需求
目前可用的許多AI代理人都是建立在Coze和Dify等平台上,需要使用者預先定義工作流程。 這些是初級代理人,類似於高級形式的提示工程(prompt engineering)。 更高級的代理人將是’端到端’的,能夠根據使用者輸入自主地完成從頭到尾的任務。 這些更高級的代理人非常理想,並且很可能是下一個突破性的AI應用。
2. 賦予機器人和自動駕駛能力
當我們將AI代理人的概念應用於體現智能時,我們會看到由大型模型控制的機器人和車輛也是代理人。 在機器人技術中,主要瓶頸不是負責物理動作的’小腦’,而是決定採取哪些動作的’大腦’。 這就是AI代理人可以發揮關鍵作用的地方。
3. 利用DID和其他技術促進代理人之間的通信和AI原生網路
未來,AI代理人應該能夠相互通信、自我組織和協商,從而創建比當前網際網路更有效率和更具成本效益的協作網路。 中國開發者社群正在開發像ANP這樣的協議,旨在成為代理人網際網路時代的HTTP協議。 像去中心化身份(DID)這樣的技術可以用於代理人身份驗證。
投資機會:對推理能力的日益增長的需求
由於有限的訓練資料和預訓練擴展定律(Scaling Law)的逼近極限,市場對AI運算能力需求的持續性表示擔憂。 然而,AI代理人將釋放對更多推理能力的需求。 各個組織正在積極開發代理人,並且競爭格局仍在不斷發展。 代理人完成任務所需的運算能力,具有長上下文視窗和基於環境變化的持續適應性,遠遠大於簡單的大型模型文字回應所需的運算能力。
AI代理人的快速發展將會創造對推理運算能力需求的激增。 我們看到了以下領域的重大機遇:
- 運算晶片製造商: NVIDIA、Inphi、Accton、New Era和Cambrian。
- 底層協議開發公司: Google(A2A協議)。
- 運算雲端服務提供者: 阿里巴巴和騰訊。
- 大型模型製造商: 阿里巴巴和字節跳動。
潛在風險
- 缺乏穩健的MCP分發平台: MCP生態系統目前缺乏集中的分發平台。 市場需要雲端平台和其他供應商來填補這個空白。
- 大型模型技術的發展速度低於預期: 大型模型在上下文視窗和幻覺方面仍然面臨重大挑戰。
- 代理人的商業化速度低於預期: 雖然AI代理人已經宣布了費用,但他們的收費情況並未公開,並且他們的商業模式的可持續性令人質疑。
深入了解AI代理人:解析MCP和A2A協議的潛力
AI代理人的興起標誌著我們與技術互動方式的典範轉移。 這些智慧實體旨在自主執行任務,從經驗中學習,並適應不斷變化的環境。 像MCP(模型-上下文-協議)和A2A(代理人對代理人)這樣的協議的出現正在進一步加速AI代理人的開發和部署。 讓我們更深入地研究這些概念,並探索它們的影響。
AI代理人的本質:超越簡單的聊天機器人
雖然像ChatGPT這樣的聊天機器人已經引起了公眾的想像,但AI代理人代表了一種更先進的AI形式。 使用者期望這些代理人不僅可以回應明確的請求,還可以主動理解他們的需求,分解複雜的任務,甚至交付已完成的項目。 這就需要更高程度的自主性和智慧。
AI代理人的關鍵組成部分:規劃、記憶和工具使用
正如Lilian Weng所闡述的那樣,AI代理人的核心組成部分是規劃、記憶和工具使用。
- 規劃: 這涉及將複雜任務分解為更小、更易於管理的步驟,並反思在實現預期結果方面取得的進展的能力。
- 記憶: AI代理人需要短期和長期記憶,以保留有關過去互動的資訊,從經驗中學習,並適應不斷變化的環境。
- 工具使用: 存取和利用外部工具(例如搜索引擎和API)的能力對於AI代理人收集資訊、執行操作以及與現實世界互動至關重要。
成熟的AI代理人格局:從研究項目到貨幣化服務
最初,AI代理人項目主要是以研究為導向的,目標是探索AI在各個領域的潛力。 然而,隨著技術的成熟,我們看到了一種向商業化的轉變。
貨幣化的AI代理人服務的出現
許多公司現在正在將AI代理人整合到他們現有的服務產品中,通常作為高級訂閱套裝的一部分。 例如,Google的Gemini模型為付費用戶提供了一項深度研究功能,允許他們利用AI的力量進行深入的研究和生成報告。
局限性和改進機會
儘管取得了進展,但AI代理人仍然面臨局限性。 目前的許多產品在用法和功能方面都受到限制,從而限制了它們對更廣泛受眾的吸引力。 然而,這些限制也代表了進一步創新和發展的機會。
上下文視窗、強化學習和推理模型的作用
有幾個因素促成了AI代理人技術的近期進展。
大型上下文視窗的力量
AI代理人主要依賴記憶來儲存和處理資訊。 大型模型中上下文視窗的尺寸不斷增大,使代理人能夠保留更多資訊並執行更複雜的任務。
強化學習:訓練代理人做出最佳決策
強化學習技術已被證明在訓練AI代理人執行可以客觀評估的任務方面特別有效,例如程式碼生成和數學問題解決。
推理模型的進步
AI代理人本質上是推理模型的應用。 更複雜的推理模型(例如OpenAI的Chain of Thought (CoT))的開發,為更有能力和更智慧的代理人鋪平了道路。
MCP和A2A協議的重要性
標準化通訊協議的出現對於促進AI代理人的開發和部署至關重要。
MCP:簡化與外部資料和工具的整合
MCP協議旨在標準化AI模型存取和利用外部資料和工具的方式。 這降低了將代理人與各種服務整合的複雜性和成本。
A2A:實現AI代理人之間的通訊
A2A協議促進AI代理人之間的通訊和協作。 這為創建複雜的分散式AI系統開闢了新的可能性。
AI代理人的未來:智慧助理的世界
AI代理人的發展仍處於早期階段,但潛力是巨大的。 在未來,我們可以期望看到能夠自主執行各種任務、從經驗中學習並適應不斷變化的環境的AI代理人。 這些智慧助理將徹底改變我們與技術互動的方式,並改變我們生活的各個方面。
挑戰和考量
隨著AI代理人變得越來越普遍,重要的是要解決潛在的挑戰和疑慮。
- 道德考量: AI代理人必須以負責任和道德的方式進行開發和部署,確保它們不會延續偏見或歧視某些群體。
- 安全風險: AI代理人可能容易受到安全威脅,例如駭客入侵和資料外洩。 實施強大的安全措施來保護這些系統至關重要。
- 職位流失: AI代理人的自動化能力可能會導致某些行業的職位流失。 重要的是為這些變化做好準備,並為受影響的工人提供支持。