深度研究团队:Agent的终极形态是All-in-One

OpenAI 的第二个 Agent

三周前,OpenAI 推出了 Deep Research,这是它的第二个 Agent。该 Agent 可以在 5-30 分钟内搜索多个网站并完成全面的在线研究,综合信息并提供带有引用的详细报告。

本文汇编并整理了 Sequoia Capital 对 OpenAI Deep Research 负责人 Isa Fulford 和 Josh Tobin 的采访。这两位成员详细分享了 Deep Research 背后的技术细节和产品思考,以及他们目前观察到的用例。

Deep Research 源于 OpenAI 内部对模型处理长期任务能力的探索。该团队的长期目标是在未来为用户提供终极 Agent:一个自然的 All-in-One 解决方案,用于网络搜索、计算机使用或他们希望 Agent 完成的任何其他任务。

Deep Research 还在产品层面进行了专门优化。例如,正如我们在 DeepSeek 分析中提到的,Deep Research 通过清晰的引用和思维链 (CoT) 增强了用户信任。该团队还设计了一个澄清流程,以确保对任务的一致理解。Deep Research 在信息检索和组织方面超越了 AI 搜索和 ChatGPT。然而,在现阶段,Deep Research 在从现有信息中提取新见解方面效果不佳,还不能进行新的科学发现。

关键要点:

  • OpenAI 推出了第二个 Agent,Deep Research,能够进行彻底的在线调查。
  • Agent 能力源于模型的端到端训练。
  • Deep Research 擅长信息综合和查找隐蔽事实。
  • 用例涵盖专业工作、个人生活、编程和教育。
  • 团队预计 2025 年 Agent 将取得重大进展。

Agent 能力源于端到端模型训练

Deep Research 是一个能够搜索多个在线网站并生成综合报告的 Agent,可以完成许多需要人类数小时才能完成的任务。 它在 ChatGPT 中运行,大约在 5-30 分钟内回答问题,实现更深入的研究,并提供比标准 ChatGPT 更详细和具体的答案。OpenAI 之前推出了 Operator,Deep Research 是它的第二个 Agent,未来还会有更多。

起源

大约一年前,OpenAI 开始在内部采用一种推理范式,旨在训练模型在回答之前进行思考。这种方法被证明非常成功。

最初,OpenAI 专注于数学和科学。然而,他们发现这种新的推理模型架构也解锁了处理长期任务的能力,涉及 Agent 能力。

同时,OpenAI 认识到许多任务需要大量的在线研究或外部上下文、强大的推理能力、辨别信息来源以及一定程度的创造力。 最终,OpenAI 开发了能够处理这些任务的模型训练方法。他们决定训练模型执行浏览任务,使用与训练推理模型相同的方法,但应用于更真实的任务。

Deep Research 项目始于 Isa Fulford 和 Yash Patil 的原始演示。Josh Tobin 在一家初创公司工作后大约六个月前重新加入 OpenAI,对基础工作产生了浓厚的兴趣,并加入了 Deep Research 项目。

关键人物:

  • Isa Fulford: OpenAI Post-training 团队的 AI 研究员,ChatGPT Retrieval Plugin 的主要贡献者。
  • Yash Patil: OpenAI Post-training 团队核心模型团队成员,从斯坦福大学辍学。
  • Josh Tobin: 曾任 OpenAI 研究科学家,后来创立了 Gantry(一种通过分析、警报和人工反馈来改进 ML 的产品)。他重新加入 OpenAI,目前领导 Agents 产品研究团队。

澄清流程

Deep Research 有一个独特的设计:澄清流程。在开始研究之前,Deep Research 模型会向用户提问。 通常,ChatGPT 只会在答案的最后提出后续问题,或者询问答案是否令人满意,这与 Deep Research 不同,后者会在一开始就进行这种行为。

这是团队的有意设计选择。只有当用户的提示非常清晰和详细时,用户才能从 Deep Research 模型获得最佳响应。然而,用户通常不会在最初的提示中提供所有信息。因此,OpenAI 希望确保在等待 5 或 30 分钟后,用户能够收到足够详细和令人满意的答案。添加此额外步骤是为了确保用户提供模型所需的所有详细信息。

许多 X 上的用户都提到先与 o1 或 o1 Pro 交互以完善他们的提示。一旦满意,他们就会将提示发送给 Deep Research。

Agent 的终极形态

在过去的几个月里,OpenAI 推出了三个不同版本的 Deep Research,都命名为 Deep Research。Josh Tobin 认为,虽然每个产品都有其优点和缺点,但它们之间的质量差异是显而易见的。最终,这取决于模型的构建方式、构建数据集所投入的精力以及使用 O 系列模型作为引擎。这使得 Deep Research 模型能够得到优化,从而创建出高度智能和高质量的工具。

目前,Deep Research、O3 和 Operator 相对独立。然而,OpenAI 的目标是最终让用户拥有一个单一的、终极的 Agent,可以执行网络搜索、使用计算机或完成其他所需的任务,以更自然的方式集成所有这些功能。

端到端训练是模型强大的根本原因

Deep Research 的底层模型是 O3 的微调版本。 O3 是 OpenAI 最先进的推理模型,Deep Research 的大部分分析能力都来自它。OpenAI 专门针对复杂的浏览任务和其他推理任务训练了 Deep Research 模型。因此,Deep Research 也可以使用浏览工具和 Python 工具。通过对这些任务进行端到端训练,Deep Research 学习了处理这些任务的策略,最终使模型擅长在线搜索分析。

直观地说,用户提出请求,模型首先仔细考虑它。然后,它搜索相关信息,提取并阅读它。在了解这些信息与请求的关系后,模型会决定下一步搜索什么,以更接近用户所需的最终答案。Deep Research 可以将所有这些信息整合到一个整洁的报告中,并附有指向原始来源的引文。

赋予 Deep Research Agent 能力的创新在于 OpenAI 对模型的端到端训练。 这意味着研究过程中的许多操作都是事先无法预测的。通过编写语言模型、程序或脚本,不可能实现模型通过训练获得的灵活性。通过训练,Deep Research 模型学习了如何对实时网络信息做出反应,并根据所看到的内容及时调整策略。因此,Deep Research 模型实际上正在进行非常有创意的搜索。用户可以通过阅读 CoT 的摘要来了解模型在决定下一步搜索什么或如何规避某些问题方面的智能程度。

Deep Research 与 AI 搜索的区别

关于 John Collison 提出的问题,即 Deep Research 的能力有多少来自实时访问网络内容,有多少来自 CoT,两位 OpenAI 研究人员认为,Deep Research 的出色能力是两者结合的结果。

其他 AI 搜索产品没有经过端到端训练,因此它们在响应信息方面不如 Deep Research 灵活,在解决特定问题方面也不如 Deep Research 具有创造力。

在加入 OpenAI 之前,Josh Tobin 在一家初创公司工作,并尝试以大多数人描述的构建 Agent 的方式构建 Agent,本质上是构建一个操作图,LLM 在某些节点进行干预。虽然 LLM 可以决定下一步做什么,但整个步骤序列的逻辑是由人类定义的。

Josh Tobin 发现这是一种强大的快速原型制作方法,但它很快就在现实世界中遇到了问题。很难预见模型可能面临的所有情况,也很难考虑它可能想要采取的所有不同分支路径。此外,由于这些模型没有经过专门训练来做出决策,因此它们通常不是节点上最好的决策者;它们被训练来做类似于决策的事情。

这再次强调了 Deep Research 模型的真正力量来自于直接的端到端训练,旨在解决用户实际需要解决的任务。因此,无需在后台架构中设置操作图或进行节点决策;一切都由模型本身驱动。

此外,如果用户有一个非常具体且可预测的工作流程,那么按照 Josh Tobin 上述描述的方式进行操作是有价值的。但如果需要非常灵活的处理,那么类似于 Deep Research 的方法可能是最佳选择。

Josh Tobin 建议,一些严格的规则不应该硬编码到模型中。如果存在“不希望模型访问某个数据库”之类的需求,最好使用手动编写的逻辑来实现。人们通常认为他们可以通过编写代码来比模型更聪明,但实际上,随着领域的发展,模型通常会提出比人类更好的解决方案。

机器学习最重要的教训之一是,你得到的结果取决于你优化的目标。因此,如果用户可以建立一个系统来直接优化所需的结果,那将比试图拼凑不适合整个任务的模型要好得多。因此,在整体模型基础上进行 RL 调优可能成为构建最强大 Agent 的关键部分。

高质量数据是模型成功的关键因素之一

Deep Research 模型成功的关键因素之一是拥有高质量的数据集。 输入模型的数据质量可能是决定模型质量的关键因素。在 Deep Research 项目中,Edward Sun 优化了所有数据集。

Deep Research 的优势

Deep Research 的优势在于,当用户对其需求有详细描述时,它能够提供最佳答案。然而,即使用户的提问含糊不清,Deep Research 也可以澄清所需的信息。 当用户正在寻找一组特定的信息时,它是最强大的。

Deep Research 不仅能够广泛收集有关来源的所有信息,而且还擅长查找非常隐蔽的事实, 例如不会出现在传统搜索前几页的长尾内容、晦涩电视节目特定剧集的详细信息等等。在一个关于奥地利将军的问题中,ChatGPT 曾经给出了错误的答案,而 Deep Research 成功地找到了正确的答案。

Deep Research 非常擅长综合信息,尤其是在查找特定的、难以找到的信息方面。然而,Deep Research 在从现有信息中提取新见解方面效果不佳,还不能进行新的科学发现。

Deep Research 的用例

目标用户

Deep Research 专为在日常工作或生活中从事知识工作的人设计,尤其是那些需要收集大量信息、分析数据和做出决策的人。 许多用户将 Deep Research 应用于他们的工作,例如在研究中,了解市场、公司和房地产等领域的情况。

用例

OpenAI 希望 Deep Research 能够服务于商业和个人生活场景, 因为它实际上是一种非常通用的能力,适用于工作和个人生活。Deep Research 的吸引力在于它能够节省大量时间。一些可能需要数小时甚至数天才能完成的任务,现在可以通过 Deep Research 完成 90%。OpenAI 认为,在商业场景中会有更多类似的任务,但 Deep Research 也将成为人们个人生活的一部分。

Deep Research 不是要取代劳动力。对于知识工作,尤其是需要花费大量时间查找信息和得出结论的任务,Deep Research 将赋予人们超能力, 使可能需要 4 或 8 小时才能完成的任务在 5 分钟内完成,从而使用户能够实现更多目标。

采访中提到的用例包括:医疗、投资和其他专业工作场景;购物、旅行和其他家庭场景;编程和个性化教育。

  • 医疗、投资和其他专业工作场景

    在医学领域,Deep Research 可以帮助查找某种疾病的所有文献或最近的病例,从而节省时间。

    在投资领域,在 Deep Research 的帮助下,投资者可以选择研究他们可能投资的每一家潜在初创公司,而不仅仅是他们有时间会面的那些。

    在公司运营中,一位考虑创办消费品公司的用户一直在广泛使用 Deep Research 来确定特定品牌名称是否已被注册、域名是否被占用、市场规模以及各种其他信息。

  • 购物、旅行和其他家庭场景

    一位考虑购买新车的用户想知道下一款车型何时发布。网上有很多猜测性的文章,所以用户要求 Deep Research 编译所有相关的谣言。Deep Research 制作了一份出色的报告,告知用户可能会在接下来的几个月内发布新车。

    当 Deep Research 在日本推出时,用户发现它在查找符合特定要求的餐厅方面非常有帮助,还可以帮助用户发现他们可能无法找到的东西。

    当用户需要购买昂贵的物品、计划一次特殊的旅行或花大量时间思考一个问题时,他们可能会花费数小时在网上搜索相关信息、浏览所有评论等。Deep Research 可以快速组织这些信息,创建摘要报告,并提供详细和个性化的建议。

    忙碌的职业母亲通常没有时间为孩子计划生日派对,但现在她们可以在 Deep Research 的帮助下快速完成。

    Deep Research 也非常擅长遵循指示。如果用户不仅想了解产品,还想将其与所有其他产品进行比较,甚至想查看来自 Reddit 等网站的评论,他们可以向 Deep Research 提出许多不同的请求,它将一次性完成这些任务。用户还可以要求 Deep Research 将信息放入表格中。

  • 编程

    许多人使用 Deep Research 进行编程。OpenAI 最初并未考虑过这种情况,但许多人正在使用它来编写代码、搜索代码,甚至查找软件包的最新文档或编写脚本,结果令人印象深刻。

  • 教育

    个性化教育是一个非常有趣的应用场景。如果用户有一个他们想学习的主题,例如复习生物学或了解时事,他们只需要提供他们不理解的部分或他们想深入研究的信息,Deep Research 就可以编译一份详细的报告。也许在未来,可以根据 Deep Research 了解到的用户信息提供个性化教育。

Agent 将在 2025 年出现

Deep Research 的未来发展方向

在产品形态方面,OpenAI 希望 Deep Research 未来能够嵌入图像、查找产品图片、生成图表,并将这些图表嵌入到答案中。

在信息来源方面,OpenAI 希望扩展模型可以访问的数据源。他们希望该模型将来能够搜索私有数据。OpenAI 将进一步增强模型的能力,使其更擅长浏览和分析。

在信息准确性方面,为了让用户信任 Deep Research 的输出,用户可以看到模型引用的信息来源。在模型训练过程中,OpenAI 也努力确保引用的正确性,但模型仍然可能出错、产生幻觉,甚至信任可能不是最可信的来源。因此,这是 OpenAI 希望继续改进的领域。

为了更广泛地融入 OpenAI Agent 路线图,OpenAI 希望 Deep Research 可以扩展到许多不同的应用场景,将最先进的推理模型与人类可以用来完成工作或日常生活任务的工具相结合,然后直接优化模型以实现用户希望 Agent 实现的结果。

在现阶段,实际上没有任何东西可以阻止 Deep Research 扩展到更复杂的任务场景。AGI 现在是一个操作问题,未来将有许多令人兴奋的发展值得期待。

Sam Altman 认为,Deep Research 可以完成的任务将占世界上所有经济可行任务的百分之几。Josh Tobin 认为,Deep Research 不能为用户完成所有工作,但它可以为用户节省几个小时甚至几天的时间。 OpenAI 希望,一个相对接近的目标是,Deep Research 和接下来构建的 Agent,以及在此基础上构建的其他 Agent,能够为用户节省 1%、5%、10% 或 25% 的时间,具体取决于他们所做的工作类型。

Agent & RL

Isa Fulford 和 Josh Tobin 一致认为 Agent 将在今年出现。

RL 经历了一个高峰,然后似乎有点低谷,现在又重新受到关注。Yann LeCun 曾经有一个比喻:如果人们在做蛋糕,大部分是蛋糕,会有一点糖霜,最后上面放几颗樱桃。无监督学习就像蛋糕,监督学习是糖霜,RL 是樱桃。

Josh Tobin 认为,在 2015-2016 年做 RL 时,用蛋糕的比喻,可能是在没有蛋糕的情况下尝试添加樱桃。但现在,有在大量数据上预训练的语言模型,这些模型非常强大,我们知道如何对这些语言模型进行监督微调,使它们擅长执行指令并做人们想做的事情。现在一切都运行得很好,非常适合根据用户定义的奖励函数针对任何用例调整这些模型。