OpenAI 推出構建自訂 AI 代理的新工具

OpenAI 揭示構建自訂 AI 代理的新工具

OpenAI 最近推出了一套新的工具,旨在賦予開發者創建複雜、可投入生產的 AI 代理的能力。這些工具包括 Responses API、Agents SDK 以及增強的可觀察性功能。這些進步解決了代理開發中的關鍵挑戰,例如自定義編排和管理跨複雜、多步驟任務的提示迭代。

AI 代理在勞動力中的崛起

OpenAI 設想了一個未來,AI 代理將深度整合到勞動力中,顯著提高各個行業的生產力。這些代理預計將利用推理和多模態交互等進階能力來處理複雜的任務。新推出的工具專門設計用於簡化使用 OpenAI 平台開發基於代理的工作流程。

Responses API 介紹

Responses API 是向前邁出的重要一步,它融合了聊天完成和助理功能。OpenAI 建議開發者在新專案中優先使用此 API。

Responses API 的主要優點:

  • 靈活性: 它為構建基於代理的應用程式提供了更具適應性的基礎。
  • 複雜性管理: 單個 Responses API 調用使開發者能夠使用多個工具和模型回合來處理日益複雜的任務。
  • 內建工具支援: 該 API 為外部工具提供原生支援,包括 Web 搜尋、本地檔案存取和電腦控制(使用滑鼠和鍵盤)。
  • 開發者驅動的改進: 根據先前模型的回饋,該 API 具有統一的設計、簡化的多型性、增強的串流處理以及各種 SDK 輔助程式。

Web 搜尋功能

對於 Web 搜尋功能,Responses API 使用與 ChatGPT 搜尋、GPT-4o 搜尋預覽和 GPT-4o mini 搜尋預覽相同的模型。這些模型在 SimpleQA 基準測試中表現出令人印象深刻的準確性,得分分別為 90% 和 88%。這明顯優於’普通’ GPT 模型,後者的得分通常在 15% 到 63% 之間。

電腦控制限制

雖然 Web 搜尋功能很強大,但電腦使用工具仍有改進空間。它目前在 OSWorld 基準測試中得分為 38.1%,表明該模型在作業系統內自動執行任務方面還不夠可靠。

API 演進:焦點轉移

儘管 Chat Completions API 和 Assistants API 暫時仍將可用,但 OpenAI 致力於使用新模型和功能增強 Chat Completions API。然而,該公司已宣布 Assistants API 將於明年棄用,這表明明確轉向 Responses API 作為代理開發的主要工具。

Agents SDK:編排代理工作流程

除了 Responses API,OpenAI 還推出了新的 Agents SDK。此 SDK 旨在通過提供以下工具來促進代理工作流程的編排:

  • 定義不同的代理: 為特定任務創建專門的代理。
  • 管理控制權轉移(Handoffs): 在不同的代理之間無縫轉移控制權。
  • 實施安全檢查(Guardrails): 定義輸入和輸出檢查,以防止不相關、有害或不良行為。
  • 啟用 Human-in-the-Loop 交互: 在必要時納入人工干預。

Agents SDK 的實際應用:

Agents SDK 適用於廣泛的實際應用,包括:

  • 客戶支援自動化
  • 多步驟研究
  • 內容生成
  • 程式碼審查
  • 銷售潛在客戶開發

模型和工具相容性

Agents SDK 支援所有當前的 OpenAI 模型,包括 o1、o3-mini、GPT-4.5、GPT-4o 和 GPT-4o-mini。它還允許開發者通過嵌入和 Knowledge API 使用外部和持久性知識來增強他們的代理。利用 Responses API,Agents SDK 支援相同的外部工具,用於 Web 搜尋、本地檔案存取和電腦控制。

取代以前的框架

Agents SDK 取代了其前身,並且與任何 Chat Completions 樣式的 API 相容,包括 Responses API 和第三方 API。

社群反應和策略考量

這些新工具的發布引發了開發者社群內的討論。Hacker News (HN) 社群的一些成員表示擔心,OpenAI 遠離 Chat Completions API 的舉動可能會導致與其平台的鎖定增加。

對鎖定的擔憂:

一些開發者認為,逐步淘汰 Assistant API 強調了構建自定義編排的重要性。這種方法允許更大的靈活性,並在需要時替換底層 LLM。

‘Roll Your Own’ 方法:

幾位 HN 讀者指出,採用 Agents SDK 或其他代理中間件本質上可能意味著將應用程式的核心邏輯外包。他們認為開發者可能更喜歡通過構建自己的解決方案來保持更多控制權。

深入探討 Responses API

Responses API 不僅僅是現有功能的組合;它代表了開發者與 OpenAI 模型交互方式的根本轉變。它旨在成為代理開發的基石,提供以前無法實現的控制和靈活性水平。

對模型行為的精細控制

Responses API 的主要優勢之一是它提供了對模型行為的精細控制。開發者現在可以指定詳細的指令和約束,以更精確地指導模型的響應。這對於需要多個步驟和交互的複雜任務尤其重要。

增強的提示工程

Responses API 促進了更複雜的提示工程。開發者可以製作包含多個工具和數據源的提示,使模型能夠生成更明智和上下文相關的響應。這為創建可以處理細微和複雜任務的代理開闢了可能性。

簡化的開發工作流程

Responses API 的統一設計和改進的串流處理功能有助於簡化開發工作流程。開發者可以更快地迭代提示和代理設計,從而縮短開發週期並提高代理性能。

詳細探索 Agents SDK

Agents SDK 不僅僅是工具的集合;它是一個用於構建和管理複雜代理工作流程的框架。它提供了一種結構化的代理開發方法,使其更容易創建穩健且可擴展的應用程式。

模組化代理設計

SDK 鼓勵採用模組化方法進行代理設計。開發者可以為特定任務創建專門的代理,然後將它們組合起來創建更複雜的系統。這種模組化使得隨著時間的推移更容易維護和更新代理。

Handoffs:無縫轉換

Handoff 機制是 Agents SDK 的一個關鍵特性。它允許在不同的代理之間進行無縫轉換,確保任務在每個階段都由最合適的代理處理。這對於創建涉及多個步驟和決策點的工作流程至關重要。

Guardrails:確保安全性和相關性

Guardrails 功能提供了一種強制執行安全性和相關性約束的機制。開發者可以定義規則,防止代理生成有害或不良的輸出。這對於與用戶交互或處理敏感數據的應用程式尤其重要。

Human-in-the-Loop:兩全其美

能夠納入 Human-in-the-Loop 交互是 Agents SDK 的一個強大功能。它允許開發者創建可以自主處理複雜任務的代理,但也可以在必要時讓人們進行干預。這種自動化和人工監督的結合對於許多實際應用至關重要。

代理開發的未來

OpenAI 的新工具代表了代理開發領域向前邁出的重要一步。它們為開發者提供了創建複雜 AI 代理的能力和靈活性,這些代理可以處理廣泛的任務。隨著技術的不斷發展,我們可以期待在各個行業中看到更多 AI 代理的創新應用。

向 Responses API 和 Agents SDK 的轉變反映了 AI 行業的一個更廣泛的趨勢:轉向更模組化、可定制和可控制的 AI 系統。這種趨勢是由對 AI 解決方案的需求驅動的,這些解決方案可以根據特定任務進行定制並集成到複雜的工作流程中。

OpenAI 致力於為開發者提供構建這些系統所需的工具,這對 AI 的未來是一個積極的信號。隨著越來越多的開發者採用這些工具並探索其功能,我們可以預期各個領域的 AI 代理的開發和部署將迅速加速。提高生產力、提高效率和新的創新解決方案的潛力是巨大的。這是一場有可能重塑我們工作方式和與技術互動方式的變革。AI 代理的演進不僅僅是自動化;它是關於增強人類能力和創造新的可能性。