介紹 Responses API:AI 代理的新基礎
新推出的 ‘Responses API’ 簡化了 AI 代理的開發流程,使它們能夠代表使用者獨立執行任務。此 API 旨在成為由 OpenAI 複雜的大型語言模型驅動的代理的基石。它預計最終將取代現有的 Assistants API,後者將在未來一年內逐步淘汰。
OpenAI 的這項戰略舉措強調了該公司對代理 AI 的承諾。Responses API 使開發人員能夠創建具有增強功能的代理,特別關注資訊檢索和任務自動化。
增強的搜尋功能:彌合知識鴻溝
Responses API 的關鍵功能之一是它能夠為 AI 代理配備強大的搜尋功能。這些代理可以利用專用的檔案搜尋工具來深入研究公司的內部資料儲存庫。此外,它們還可以將搜尋範圍擴展到廣闊的網際網路。
此功能反映了 OpenAI 最近推出的 Operator 代理。Operator 依賴於 Computer-Using-Agent (CUA) 模型,旨在簡化資料輸入等任務。然而,必須承認的是,OpenAI 先前曾指出,CUA 模型在作業系統內自動執行任務時偶爾會出現不可靠的情況。該模型已知會出現錯誤。因此,OpenAI 建議開發人員注意,Responses API 目前處於 ‘早期迭代’ 階段,預計可靠性會隨著時間的推移而提高。
模型選擇:GPT-4o Search 和 GPT-4o Mini Search
使用 Responses API 的開發人員有兩種模型可供選擇:GPT-4o search 和 GPT-4o mini search。這兩個模型都具有自主瀏覽網頁以尋找使用者查詢答案的能力。至關重要的是,它們還提供了其回應所依據的來源的引文,從而提高了透明度和可驗證性。
這種網頁搜尋和資料檢索能力至關重要。OpenAI 強調,存取開放網頁和公司的專有資料集可以顯著提高其模型的準確性,進而提高基於這些模型構建的代理的效能。
基準測試準確性:向前邁進了一步,但並不完美
OpenAI 已經使用其自己的 SimpleQA 基準測試證明了其支援搜尋功能的模型的優越性。此基準測試專門用於衡量 AI 系統的虛構率 – 基本上是它們產生虛假或捏造資訊的頻率。
結果令人信服。GPT-4o search 取得了令人印象深刻的 90% 的分數,而 GPT-4o mini search 緊隨其後,得分為 88%。相比之下,新的 GPT-4.5 模型儘管其參數數量更多,整體功能更強大,但在同一基準測試中僅得分 63%。較低的分數歸因於其缺乏用於檢索補充資訊的搜尋功能。
然而,開發人員保持現實的觀點至關重要。雖然這些模型代表了重大進步,但搜尋功能並不能完全消除 AI 的虛構或幻覺。基準測試分數表明,GPT-4o search 在大約 10% 的回應中仍然會產生事實錯誤。對於許多需要高精度代理 AI 的應用程式來說,此錯誤率可能是不可接受的。
賦能開發人員:開源工具和資源
儘管該技術尚處於起步階段,OpenAI 仍積極鼓勵開發人員開始試驗這些新工具。除了 Responses API 之外,該公司還發布了一個開源的 Agents SDK(軟體開發工具包)。此 SDK 提供了一套工具,用於將 AI 模型和代理與內部系統無縫整合。它還包括用於實施安全措施和監控 AI 代理行為的資源。
此版本建立在 OpenAI 先前推出的 ‘Swarm’ 的基礎上,’Swarm’ 是一個旨在幫助開發人員管理和協調多個 AI 代理的框架,使它們能夠協同處理複雜任務。
OpenAI 的戰略願景:擴大影響力和採用率
這些新工具和舉措與 OpenAI 擴大其大型語言模型市場佔有率的更廣泛目標在戰略上保持一致。正如代理 AI 新創公司 SOCi Inc. 的市場洞察總監 Damian Rollison 所指出的那樣,OpenAI 先前曾採用類似的策略,將 ChatGPT 與 Apple Inc. 的 Siri 整合到新的 Apple Intelligence 套件中。這種整合使 ChatGPT 接觸到大量新的使用者群體。
Rollison 觀察到:’新的 Responses API 為更廣泛地接觸和適應 AI 代理的概念打開了可能性,這些代理可能嵌入到他們已經使用的各種工具中。’
謹慎行事:駕馭炒作週期
雖然 AI 代理的潛力不可否認,而且許多開發人員無疑會渴望探索 OpenAI 新工具提供的可能性,但重要的是要記住,這些技術仍處於早期階段。對於完美效能的說法,應抱持健康的懷疑態度。
最近的一個例子突出了這一點。一家中國新創公司推出了一款名為 Manus 的 AI 代理,引起了廣泛關注。早期採用者最初印象深刻,但隨著該代理的普及,其局限性和缺點很快就變得顯而易見。這提醒我們,實際效能通常落後於最初的炒作,徹底的測試和評估至關重要。
AI 代理的未來:協作格局
AI 代理的開發不僅限於 OpenAI 的努力。一個不斷發展的公司和研究人員生態系統正在積極為這個快速發展的領域做出貢獻。競爭和協作都在推動創新,從而產生了各種各樣的方法和解決方案。
一些公司專注於針對特定行業或任務的專用代理,而另一些公司則追求能夠處理更廣泛請求的更通用代理。研究界也在探索新的架構和訓練技術,以提高 AI 代理的可靠性、安全性和道德考量。
關鍵挑戰和考量
隨著 AI 代理變得越來越複雜並融入我們生活的各個方面,一些關鍵的挑戰和考量也浮出水面:
- 可靠性和準確性: 確保代理始終提供準確可靠的資訊至關重要,尤其是在關鍵應用中。
- 安全性和保障: 防止惡意使用和意外後果至關重要,因為代理可能可以存取敏感資料或控制重要系統。
- 透明度和可解釋性: 瞭解代理如何做出決策和採取行動對於建立信任和問責制非常重要。
- 道德影響: 解決潛在的偏見、公平問題和社會影響對於確保負責任的開發和部署至關重要。
- 使用者體驗: 設計直觀且使用者友好的介面以與代理互動是廣泛採用的關鍵。
- 資料隱私: 保護使用者資料並確保遵守隱私法規是一個關鍵問題。
前進的道路:迭代和負責任的開發
AI 代理的開發是一個持續的過程,其特點是不斷迭代、完善和學習。OpenAI 的新工具代表了向前邁出的重要一步,但它們並不是最終目的地。隨著技術的成熟,持續的研究、負責任的開發實踐和開放協作對於實現 AI 代理的全部潛力,同時減輕潛在風險至關重要。重點必須放在創建不僅強大而且值得信賴、安全且對社會有益的代理上。這個領域的發展需要謹慎和有節制的方法,在創新與對道德原則和使用者福祉的承諾之間取得平衡。未來幾年無疑將見證進一步的發展,負責任的開發社群必須保持警惕,引導這項變革性技術的發展軌跡。