OpenAI 的第二個 Agent
三週前,OpenAI 推出了 Deep Research,這是它的第二個 Agent。這個 Agent 可以在 5-30 分鐘內搜尋多個網站並完成全面的線上研究,綜合資訊並提供帶有引用的詳細報告。
本文編譯並整理了 Sequoia Capital 對 OpenAI Deep Research 負責人 Isa Fulford 和 Josh Tobin 的採訪。這兩位成員詳細分享了 Deep Research 背後的技術細節和產品思維,以及他們目前觀察到的使用案例。
Deep Research 源於 OpenAI 內部對模型處理長期任務能力的探索。該團隊的長期目標是在未來為使用者提供終極 Agent:一個自然的 All-in-One 解決方案,用於網路搜尋、電腦使用或他們希望 Agent 完成的任何其他任務。
Deep Research 也在產品層面進行了特別優化。例如,正如我們在 DeepSeek 分析中提到的,Deep Research 通過清晰的引用和 Chain-of-Thought (CoT) 增強了使用者的信任。該團隊還設計了一個澄清流程,以確保對任務的一致理解。Deep Research 在資訊檢索和組織方面超越了 AI 搜尋和 ChatGPT。然而,在現階段,Deep Research 在從現有資訊中提取新見解方面效果不佳,還不能做出新的科學發現。
關鍵要點:
- OpenAI 推出了其第二個 Agent,Deep Research,能夠進行徹底的線上調查。
- Agent 能力源於模型的端到端訓練。
- Deep Research 擅長資訊綜合和尋找晦澀的事實。
- 使用案例涵蓋專業工作、個人生活、程式設計和教育。
- 該團隊預計 2025 年 Agent 將取得重大進展。
Agent 能力源於端到端模型訓練
Deep Research 是一個能夠搜尋多個線上網站並生成綜合報告的 Agent,可以完成許多需要人類數小時才能完成的任務。 它在 ChatGPT 中運行,大約在 5-30 分鐘內回答問題,實現更深入的研究並提供比標準 ChatGPT 更詳細和具體的答案。OpenAI 之前推出了 Operator,Deep Research 是它的第二個 Agent,未來還會有更多。
起源
大約一年前,OpenAI 開始在內部採用一種推理範式,旨在訓練模型在回答之前先思考。這種方法被證明非常成功。
最初,OpenAI 專注於數學和科學。然而,他們發現這種新的推理模型架構也解鎖了處理長期任務的能力,涉及 Agent 能力。
同時,OpenAI 認識到許多任務需要廣泛的線上研究或外部上下文、強大的推理能力、辨別資訊來源的能力以及一定程度的創造力。 最終,OpenAI 開發了能夠處理這些任務的模型訓練方法。他們決定訓練模型執行瀏覽任務,使用與訓練推理模型相同的方法,但應用於更真實世界的任務。
Deep Research 專案始於 Isa Fulford 和 Yash Patil 的原始演示。Josh Tobin 在一家新創公司工作後大約六個月前重新加入了 OpenAI,對基礎工作產生了濃厚的興趣,並加入了 Deep Research 專案。
關鍵人物:
- Isa Fulford: OpenAI Post-training 團隊的 AI 研究員,ChatGPT Retrieval Plugin 的主要貢獻者。
- Yash Patil: OpenAI Post-training 團隊核心模型團隊的成員,從史丹佛大學輟學。
- Josh Tobin: 曾任 OpenAI 的研究科學家,後來創立了 Gantry(一種通過分析、警報和人工回饋來改進 ML 的產品)。他重新加入了 OpenAI,目前領導 Agents 產品研究團隊。
澄清流程
Deep Research 有一個獨特的設計:澄清流程。在開始研究之前,Deep Research 模型會向使用者提問。 通常,ChatGPT 只會在答案的結尾提出後續問題,或者詢問答案是否令人滿意,這與 Deep Research 不同,Deep Research 會在開始時就進行這種行為。
這是團隊的刻意設計選擇。只有當使用者的提示非常清晰和詳細時,使用者才能從 Deep Research 模型獲得最佳回應。然而,使用者通常不會在最初的提示中提供所有資訊。因此,OpenAI 希望確保在等待 5 或 30 分鐘後,使用者能夠收到足夠詳細和令人滿意的答案。添加這個額外的步驟是為了確保使用者提供模型所需的所有詳細資訊。
許多 X 上的使用者都提到先與 o1 或 o1 Pro 互動以完善他們的提示。一旦滿意,他們就會將提示發送給 Deep Research。
Agent 的終極形態
在過去的幾個月裡,OpenAI 推出了三個不同版本的 Deep Research,都命名為 Deep Research。Josh Tobin 認為,雖然每個產品都有其優點和缺點,但它們之間的品質差異是顯而易見的。歸根結底,這取決於模型的構建方式、投入到構建資料集中的努力以及使用 O 系列模型作為引擎。這使得 Deep Research 模型能夠得到優化,創建高度智慧和高品質的工具。
目前,Deep Research、O3 和 Operator 是相對獨立的。然而,OpenAI 的目標是讓使用者最終擁有一個單一的終極 Agent,可以執行網路搜尋、使用電腦或完成其他所需的任務,以更自然的方式整合所有這些功能。
端到端訓練是模型強大的根本原因
Deep Research 的底層模型是 O3 的微調版本。 O3 是 OpenAI 最先進的推理模型,Deep Research 的大部分分析能力都來自於它。OpenAI 專門針對複雜的瀏覽任務和其他推理任務訓練了 Deep Research 模型。因此,Deep Research 也可以使用瀏覽工具和 Python 工具。通過對這些任務進行端到端訓練,Deep Research 學習了處理這些任務的策略,最終使模型擅長線上搜尋分析。
直觀地說,使用者提出請求,模型首先仔細考慮它。然後,它搜尋相關資訊,提取並閱讀它。在瞭解這些資訊與請求的關係後,模型會決定下一步搜尋什麼,以更接近使用者所需的最終答案。Deep Research 可以將所有這些資訊整合到一份整潔的報告中,並附有指向原始來源的引用。
賦予 Deep Research Agent 能力的創新在於 OpenAI 對模型的端到端訓練。 這意味著研究過程中的許多操作都是事先無法預測的。通過編寫語言模型、程式或腳本,不可能實現模型通過訓練獲得的靈活性。通過訓練,Deep Research 模型學習瞭如何對即時網路資訊做出反應,並根據所看到的內容及時調整策略。因此,Deep Research 模型實際上正在進行非常有創意的搜尋。使用者可以通過閱讀 CoT 的摘要來瞭解模型在決定下一步搜尋什麼或如何規避某些問題方面有多聰明。
Deep Research 與 AI 搜尋的區別
關於 John Collison 提出的問題,即 Deep Research 的能力有多少來自於對網路內容的即時訪問,有多少來自於 CoT,兩位 OpenAI 研究人員認為,Deep Research 的出色能力是兩者結合的結果。
其他 AI 搜尋產品沒有經過端到端訓練,因此它們在回應資訊方面不如 Deep Research 靈活,在解決特定問題方面也不如 Deep Research 有創意。
在加入 OpenAI 之前,Josh Tobin 在一家新創公司工作,並嘗試以大多數人描述的構建 Agent 的方式構建 Agent,本質上是構建一個操作圖,LLM 在某些節點上進行干預。雖然 LLM 可以決定下一步做什麼,但整個步驟序列的邏輯是由人類定義的。
Josh Tobin 發現這是一種快速原型設計的強大方法,但它很快就在現實世界中遇到了問題。很難預見模型可能面臨的所有情況,也很難考慮到它可能想要採取的路徑的所有不同分支。此外,由於這些模型沒有經過專門訓練來做出決策,因此它們通常不是節點上的最佳決策者;它們被訓練來做類似於決策的事情。
這再次強調了 Deep Research 模型的真正力量來自於直接的端到端訓練,旨在解決使用者實際需要解決的任務。因此,無需在後台架構中設置操作圖或進行節點決策;一切都由模型本身驅動。
此外,如果使用者有一個非常具體和可預測的工作流程,那麼按照 Josh Tobin 上述描述的方式進行操作是有價值的。但如果需要非常靈活的處理,那麼類似於 Deep Research 的方法可能是最佳選擇。
Josh Tobin 建議,一些嚴格的規則不應該硬編碼到模型中。如果需要“不希望模型訪問某個資料庫”,最好使用手動編寫的邏輯來實現它。人們通常認為他們可以通過編寫程式碼來比模型更聰明,但實際上,隨著領域的發展,模型通常會提出比人類更好的解決方案。
機器學習最重要的教訓之一是,你得到的結果取決於你優化的目標。因此,如果使用者可以建立一個系統來直接優化所需的結果,那將比嘗試拼湊不適合整個任務的模型要好得多。因此,在整體模型基礎上的 RL 調優可能成為構建最強大 Agent 的關鍵部分。
高品質資料是模型成功的關鍵因素之一
Deep Research 模型成功的關鍵因素之一是擁有高品質的資料集。 輸入到模型中的資料品質可能是決定模型品質的關鍵因素。在 Deep Research 專案中,Edward Sun 優化了所有資料集。
Deep Research 的優勢
Deep Research 的優勢在於,當使用者對他們的需求有詳細描述時,它能夠提供最佳答案。然而,即使使用者的問題含糊不清,Deep Research 也能夠澄清所需的資訊。 當使用者正在尋找一組特定的資訊時,它是最強大的。
Deep Research 不僅能夠廣泛收集有關來源的所有資訊,而且還擅長尋找非常晦澀的事實, 例如傳統搜尋中不會出現在前幾頁的長尾內容、一部晦澀電視劇的特定劇集的詳細資訊等等。在一個關於奧地利將軍的問題中,ChatGPT 曾經給出了錯誤的答案,而 Deep Research 成功地找到了正確的答案。
Deep Research 非常擅長綜合資訊,尤其是在尋找特定的、難以找到的資訊方面。然而,Deep Research 在從現有資訊中提取新見解方面效果不佳,還不能做出新的科學發現。
Deep Research 的使用案例
目標使用者
Deep Research 專為在日常工作或生活中從事知識工作的人設計,尤其是那些需要收集大量資訊、分析資料和做出決策的人。 許多使用者將 Deep Research 應用於他們的工作,例如在研究中,瞭解市場、公司和房地產等領域的情況。
使用案例
OpenAI 希望 Deep Research 能夠服務於商業和個人生活場景, 因為它實際上是一種非常通用的能力,適用於工作和個人生活。Deep Research 的吸引力在於它能夠節省大量時間。一些可能需要數小時甚至數天才能完成的任務,現在可以使用 Deep Research 完成 90% 的答案。OpenAI 認為,在商業場景中會有更多類似的任務,但 Deep Research 也將成為人們個人生活的一部分。
Deep Research 並不是要取代勞動力。對於知識工作,尤其是需要大量時間來尋找資訊和得出結論的任務,Deep Research 將賦予人們超能力, 使可能需要 4 或 8 小時才能完成的任務在 5 分鐘內完成,讓使用者能夠完成更多工作。
採訪中提到的使用案例包括:醫療、投資和其他專業工作場景;購物、旅行和其他家庭場景;程式設計和個人化教育。
醫療、投資和其他專業工作場景
在醫學領域,Deep Research 可以幫助找到所有關於某種疾病的文獻或最近的病例,從而節省時間。
在投資方面,在 Deep Research 的幫助下,投資者可以選擇研究他們可能投資的每一個潛在的初創公司,而不僅僅是他們有時間會面的那些。
在公司運營中,一位考慮創辦消費品公司的使用者一直在廣泛使用 Deep Research 來確定特定的品牌名稱是否已經註冊、域名是否被佔用、市場規模以及各種其他資訊。
購物、旅行和其他家庭場景
一位考慮購買新車的使用者想知道下一款車型何時發佈。網上有很多猜測性的文章,所以使用者要求 Deep Research 編譯所有相關的謠言。Deep Research 製作了一份出色的報告,告知使用者可能會在接下來的幾個月內發佈一款新車。
當 Deep Research 在日本推出時,使用者發現它在尋找符合特定要求的餐廳方面非常有幫助,也可以幫助使用者發現他們可能沒有發現的東西。
當使用者需要購買昂貴的物品、計劃一次特殊的旅行或花費大量時間思考一個問題時,他們可能會花費數小時在網上搜尋相關資訊、瀏覽所有評論等。Deep Research 可以快速組織這些資訊,創建摘要報告,並提供詳細和個人化的建議。
忙碌的職業母親通常沒有時間為孩子們計劃生日派對,但現在她們可以在 Deep Research 的幫助下快速完成。
Deep Research 也非常擅長遵循指示。如果使用者不僅想瞭解產品,還想將其與所有其他產品進行比較,甚至想查看來自 Reddit 等網站的評論,他們可以向 Deep Research 提出許多不同的請求,它會一次性完成這些任務。使用者還可以要求 Deep Research 將資訊放入表格中。
程式設計
許多人使用 Deep Research 進行程式設計。OpenAI 最初沒有考慮到這種情況,但許多人正在使用它來編寫程式碼、搜尋程式碼,甚至找到包的最新文檔,或者編寫腳本,結果令人印象深刻。
教育
個人化教育是一個非常有趣的應用場景。如果使用者有一個他們想學習的主題,例如複習生物學或瞭解時事,他們只需要提供他們不理解的部分或他們想深入研究的資訊,Deep Research 就可以編寫一份詳細的報告。也許在未來,可以根據 Deep Research 瞭解到的關於使用者的資訊提供個人化教育。
Agent 將在 2025 年出現
Deep Research 的未來發展方向
在產品形態方面,OpenAI 希望 Deep Research 未來能夠嵌入圖像,找到產品的圖片,生成圖表,並將這些圖表嵌入到答案中。
在資訊來源方面,OpenAI 希望擴展模型可以訪問的資料來源。他們希望該模型未來能夠搜尋私有資料。OpenAI 將進一步增強模型的能力,使其更擅長瀏覽和分析。
在資訊準確性方面,為了讓使用者能夠信任 Deep Research 的輸出,使用者可以看到模型引用的資訊來源。在模型訓練過程中,OpenAI 也努力確保引用的正確性,但模型仍然可能出錯、產生幻覺,甚至信任可能不是最可信的來源。因此,這是 OpenAI 希望繼續改進的領域。
為了更廣泛地整合到 OpenAI Agent 路線圖中,OpenAI 希望 Deep Research 可以擴展到許多不同的應用場景,將最先進的推理模型與人類可以用來完成工作或日常生活任務的工具相結合,然後直接優化模型以實現使用者希望 Agent 實現的結果。
在現階段,實際上沒有什麼可以阻止 Deep Research 擴展到更複雜的任務場景。AGI 現在是一個操作問題,未來將有許多令人興奮的發展值得期待。
Sam Altman 認為,Deep Research 可以完成的任務將佔世界上所有經濟上可行的任務的百分之幾。Josh Tobin 認為,Deep Research 無法為使用者完成所有工作,但它可以為使用者節省幾個小時甚至幾天的時間。 OpenAI 希望,一個相對接近的目標是,Deep Research 和接下來構建的 Agent,以及建立在此基礎上的其他 Agent,能夠為使用者節省 1%、5%、10% 或 25% 的時間,具體取決於他們所做的工作類型。
Agent & RL
Isa Fulford 和 Josh Tobin 一致認為 Agent 將在今年出現。
RL 經歷了一個高峰,然後似乎有點低谷,現在又重新受到關注。Yann LeCun 曾經有一個比喻:如果人們在做蛋糕,大部分是蛋糕,會有一點糖霜,最後上面放幾顆櫻桃。無監督學習就像蛋糕,監督學習是糖霜,RL 是櫻桃。
Josh Tobin 認為,在 2015-2016 年做 RL 時,用蛋糕的比喻,可能是在沒有蛋糕的情況下嘗試添加櫻桃。但現在,有了在大量資料上預訓練的語言模型,這些模型非常強大,我們知道如何對這些語言模型進行監督微調,使它們擅長執行指令和做人們想做的事情。現在一切都運作得很好,並且非常適合根據使用者定義的獎勵函數針對任何用例調整這些模型。