Deep Research Team: エージェントの究極形態はオールインワン

OpenAIの第2のエージェント

3週間前、OpenAIはDeep Researchという第2のエージェントを発表しました。このエージェントは、複数のウェブサイトを検索し、5〜30分で包括的なオンライン調査を完了し、情報を統合し、引用付きの詳細なレポートを提供することができます。

この記事では、Sequoia CapitalによるOpenAIのDeep ResearchのリーダーであるIsa Fulford氏とJosh Tobin氏へのインタビューをまとめ、整理しています。2人のメンバーは、Deep Researchの背後にある技術的な詳細と製品の考え方、そして現在観察されているユースケースについて詳しく共有しています。

Deep Researchは、OpenAIの内部で、モデルが長期的なタスクを処理する能力を探求することから始まりました。チームの長期的な目標は、将来的にユーザーに究極のエージェントを提供することです。それは、ウェブ検索、コンピューターの使用、またはエージェントに完了させたいその他のタスクに対して、自然なオールインワンのソリューションとなるものです。

Deep Researchは、製品レベルでも特別に最適化されています。たとえば、DeepSeekの分析で述べたように、Deep Researchは明確な引用とChain-of-Thought (CoT)を通じてユーザーの信頼を高めます。チームはまた、タスクの理解を一致させるための明確化フローを設計しました。Deep Researchは、情報検索と整理において、AI検索やChatGPTを上回っています。しかし、現段階では、Deep Researchは既存の情報から新しい洞察を抽出することにはそれほど効果的ではなく、まだ新しい科学的発見をすることはできません。

主なポイント:

  • OpenAIは、徹底的なオンライン調査が可能な第2のエージェント、Deep Researchを発表しました。
  • エージェントの機能は、モデルのエンドツーエンドのトレーニングから生まれます。
  • Deep Researchは、情報合成と詳細な事実発見に優れています。
  • ユースケースは、専門的な仕事、私生活、プログラミング、教育に及びます。
  • チームは、2025年にエージェントの大幅な進歩を期待しています。

エージェントの機能はエンドツーエンドのモデルトレーニングから生まれる

Deep Researchは、複数のオンラインウェブサイトを検索し、包括的なレポートを生成できるエージェントであり、人間が何時間もかかる多くのタスクを完了します。 ChatGPT内で動作し、約5〜30分で質問に回答し、標準のChatGPTよりも詳細な調査と、より詳細で具体的な回答を可能にします。OpenAIは以前にOperatorを立ち上げ、Deep Researchは2番目のエージェントであり、今後さらに多くのエージェントが登場する予定です。

起源

約1年前、OpenAIは内部で推論パラダイムを採用し始め、回答する前に考えるようにモデルをトレーニングすることを目指しました。このアプローチは非常に成功しました。

当初、OpenAIは数学と科学に焦点を当てていました。しかし、彼らは、この新しい推論モデルアーキテクチャが、エージェント機能を含む、より長期的なタスクを処理する能力も解き放つことを発見しました。

同時に、OpenAIは、多くのタスクが広範なオンライン調査または外部コンテキスト、強力な推論能力、情報源の識別、およびある程度の創造性を必要とすることを認識しました。 最終的に、OpenAIはこれらのタスクを処理できるモデルトレーニング方法を開発しました。彼らは、推論モデルのトレーニングと同じ方法を使用して、ブラウジングタスクを実行するようにモデルをトレーニングすることにしましたが、より現実世界のタスクに適用しました。

Deep Researchプロジェクトは、Isa Fulford氏とYash Patil氏によるオリジナルのデモから始まりました。Josh Tobin氏は、スタートアップで働いた後、約6か月前にOpenAIに復帰し、基礎研究に深く興味を持ち、Deep Researchプロジェクトに参加しました。

主要人物:

  • Isa Fulford: OpenAIのPost-trainingチームのAI研究者であり、ChatGPT Retrieval Pluginの主要な貢献者です。
  • Yash Patil: OpenAIのPost-trainingチームのコアモデルチームのメンバーであり、スタンフォード大学を中退しました。
  • Josh Tobin: 以前はOpenAIの研究科学者であり、後にGantry(分析、アラート、人間のフィードバックを通じてMLを改善するための製品)を設立しました。彼はOpenAIに復帰し、現在はAgents製品研究チームを率いています。

明確化フロー

Deep Researchは、明確化フローというユニークなデザインを特徴としています。調査を開始する前に、Deep Researchモデルはユーザーに質問をします。 通常、ChatGPTは回答の最後にフォローアップの質問をするか、回答が満足のいくものであるかどうかを尋ねるだけですが、Deep Researchは最初にこの動作を行います。

これはチームによる意図的な設計上の選択でした。ユーザーは、プロンプトが非常に明確で詳細な場合にのみ、Deep Researchモデルから最良の応答を受け取ります。しかし、ユーザーは最初のプロンプトですべての情報を提供しないことがよくあります。したがって、OpenAIは、5分または30分待った後、ユーザーが十分に詳細で満足のいく回答を受け取れるようにしたいと考えました。この追加のステップは、ユーザーがモデルに必要なすべての詳細を提供することを保証するために追加されました。

Xの多くのユーザーは、プロンプトを洗練するために最初にo1またはo1 Proと対話したと述べています。満足したら、プロンプトをDeep Researchに送信します。

エージェントの究極の形態

過去数か月間、OpenAIはDeep Researchの3つの異なるバージョンをリリースしましたが、すべてDeep Researchという名前です。Josh Tobin氏は、各製品には長所と短所がありますが、それらの間の品質の違いは明らかであると考えています。最終的に、これはモデルの構築方法、データセットの構築に費やされた労力、およびエンジンとしてのOシリーズモデルの使用によるものです。これにより、Deep Researchモデルを最適化し、非常にインテリジェントで高品質なツールを作成できます。

現在、Deep Research、O3、およびOperatorは比較的独立しています。しかし、OpenAIは、ユーザーが最終的に、Web検索、コンピューターの使用、またはその他の望ましいタスクを実行できる単一の究極のエージェントを持ち、これらすべての機能をより自然な方法で統合することを目指しています。

エンドツーエンドのトレーニングがモデルの力の根本的な理由

Deep Researchの基盤となるモデルは、O3のファインチューンバージョンです。 O3はOpenAIの最も高度な推論モデルであり、Deep Researchの分析能力の多くはそこから来ています。OpenAIは、複雑なブラウジングタスクやその他の推論タスクでDeep Researchモデルを特別にトレーニングしました。したがって、Deep ResearchはブラウジングツールとPythonツールも使用できます。これらのタスクのエンドツーエンドのトレーニングを通じて、Deep Researchはそれらを処理する戦略を学び、最終的にモデルをオンライン検索分析に優れたものにしました。

直感的には、ユーザーがリクエストを行うと、モデルは最初にそれについて慎重に考えます。次に、関連情報を検索し、抽出し、読み取ります。この情報がリクエストとどのように関連するかを理解した後、モデルはユーザーが望む最終的な回答に近づくために次に何を検索するかを決定します。Deep Researchは、このすべての情報を、元のソースを指す引用とともに、きちんとしたレポートに統合できます。

Deep Researchにエージェント機能を与えるイノベーションは、OpenAIのモデルのエンドツーエンドのトレーニングにあります。 これは、調査プロセス中の多くの操作が事前に予測できないことを意味します。モデルがトレーニングを通じて獲得する柔軟性を、言語モデル、プログラム、またはスクリプトを記述することによって達成することは不可能です。トレーニングを通じて、Deep Researchモデルは、リアルタイムのWeb情報に反応し、見たものに基づいて戦略を迅速に調整する方法を学びました。したがって、Deep Researchモデルは実際には非常に創造的な検索を行っています。ユーザーは、CoTの要約を読むことで、モデルが次に何を検索するか、または特定の問題を回避する方法を決定する際にどれほどインテリジェントであるかを確認できます。

Deep ResearchとAI検索の違い

John Collison氏の、Deep Researchの機能のどれだけがWebコンテンツへのリアルタイムアクセスから来ており、どれだけがCoTから来ているのかという質問に関して、2人のOpenAI研究者は、Deep Researchの優れた機能は両方の組み合わせの結果であると考えています。

他のAI検索製品はエンドツーエンドでトレーニングされていないため、Deep Researchほど情報に柔軟に対応できず、特定の問題を解決する際に創造的でもありません。

OpenAIに参加する前、Josh Tobin氏はスタートアップで働き、ほとんどの人がエージェントを構築する方法を説明する方法でエージェントを構築しようとしました。基本的には、いくつかのノードでLLMが介入する操作グラフを構築します。LLMは次に何をするかを決定できますが、ステップのシーケンス全体のロジックは人間によって定義されます。

Josh Tobin氏は、これが迅速なプロトタイピングのための強力な方法であることを発見しましたが、現実の世界ではすぐに問題に遭遇しました。モデルが直面する可能性のあるすべての状況を予測し、モデルが取りたいと思う可能性のあるすべての異なる分岐パスを考慮することは困難です。さらに、これらのモデルは意思決定を行うように特別にトレーニングされていないため、多くの場合、ノードで最良の意思決定者ではありません。それらは、意思決定に似た何かをするようにトレーニングされています。

これは、Deep Researchモデルの真の力は、ユーザーが実際に解決する必要があるタスクを解決することを目的とした、直接的なエンドツーエンドのトレーニングから来ていることを改めて示しています。したがって、操作グラフを設定したり、バックグラウンドアーキテクチャでノードの決定を行う必要はありません。すべてはモデル自体によって駆動されます。

さらに、ユーザーが非常に具体的で予測可能なワークフローを持っている場合、Josh Tobin氏が上記で説明した方法でそれを行うことは価値があります。しかし、非常に柔軟な処理が必要な場合は、Deep Researchに似たアプローチが最良の選択かもしれません。

Josh Tobin氏は、いくつかの厳格なルールはモデルにハードコードすべきではないと示唆しています。’モデルに特定のデータベースにアクセスさせたくない’などのニーズがある場合は、手動で記述されたロジックで実装する方が良いです。人々は、コードを書くことでモデルよりも賢くなれると考えることがよくありますが、実際には、分野が発展するにつれて、モデルは通常、人間よりも優れたソリューションを考え出します。

機械学習の最も重要な教訓の1つは、得られる結果は最適化する対象によって異なるということです。したがって、ユーザーが望ましい結果を直接最適化するシステムを設定できる場合、タスク全体に適合しないモデルをつなぎ合わせようとするよりもはるかに優れています。したがって、モデル全体の基盤に対するRLチューニングは、最も強力なエージェントを構築するための重要な部分になる可能性があります。

高品質なデータはモデルの成功の重要な要素の1つ

Deep Researchモデルの成功の重要な要素の1つは、高品質なデータセットを持つことです。 モデルに入力されるデータの品質は、モデルの品質を決定する重要な要素である可能性があります。Deep Researchプロジェクトでは、Edward Sun氏がすべてのデータセットを最適化しています。

Deep Researchの利点

Deep Researchの強みは、ユーザーがニーズの詳細な説明を持っている場合に最良の回答を提供できることです。しかし、ユーザーの質問が曖昧な場合でも、Deep Researchは必要な情報を明確にすることができます。 ユーザーが特定の情報のセットを探している場合に最も強力です。

Deep Researchは、ソースに関するすべての情報を広く収集できるだけでなく、非常に曖昧な事実を見つけることにも優れています。 たとえば、従来の検索の最初の数ページには表示されないロングテールコンテンツ、曖昧なテレビ番組の特定のエピソードの詳細などです。オーストリアの将軍に関する質問で、ChatGPTはかつて間違った答えを出しましたが、Deep Researchは正しい答えを見つけることに成功しました。

Deep Researchは、特に特定の、見つけにくい情報を見つける際に、情報を合成するのが非常に得意です。しかし、Deep Researchは既存の情報から新しい洞察を抽出することにはそれほど効果的ではなく、まだ新しい科学的発見をすることはできません。

Deep Researchのユースケース

ターゲットユーザー

Deep Researchは、日常の仕事や生活で知識労働に従事している人、特に大量の情報を収集し、データを分析し、意思決定を行う必要がある人を対象としています。 多くのユーザーが、研究、市場、企業、不動産などの分野の状況を理解するために、Deep Researchを仕事に適用しています。

ユースケース

OpenAIは、Deep Researchがビジネスと私生活の両方のシナリオに対応できることを望んでいます。 これは、実際には仕事と私生活の両方に適用できる非常に用途の広い機能であるためです。Deep Researchの魅力は、多くの時間を節約できることです。数時間、あるいは数日かかっていたかもしれないいくつかのタスクは、今ではDeep Researchで90%回答できます。OpenAIは、ビジネスシナリオにはさらに多くの同様のタスクがあると考えていますが、Deep Researchは人々の私生活の一部にもなるでしょう。

Deep Researchは、労働力を置き換えることではありません。知識労働、特に情報を見つけて結論を出すのに多くの時間を必要とするタスクの場合、Deep Researchは人々に超能力を与え、 4時間または8時間かかっていたかもしれないタスクを5分で完了できるようにし、ユーザーがより多くのことを達成できるようにします。

インタビューでは、医療、投資、その他の専門的な仕事のシナリオ、ショッピング、旅行、その他の家族のシナリオ、プログラミング、パーソナライズされた教育などのユースケースが言及されました。

  • 医療、投資、その他の専門的な仕事のシナリオ

    医学では、Deep Researchは、特定の病気のすべての文献または最近の症例を見つけるのに役立ち、時間を節約できます。

    投資では、Deep Researchの助けを借りて、投資家は、会う時間があるスタートアップだけでなく、投資する可能性のあるすべてのスタートアップを調査することを選択できます。

    企業運営では、消費財会社を始めることを検討しているユーザーが、特定のブランド名がすでに登録されているかどうか、ドメイン名が占有されているかどうか、市場規模、およびその他のさまざまな情報を判断するために、Deep Researchを広範囲に使用しています。

  • ショッピング、旅行、その他の家族のシナリオ

    新しい車を購入することを検討しているユーザーは、次のモデルがいつリリースされるかを知りたいと思っていました。オンラインには多くの投機的な記事があったので、ユーザーはDeep Researchに関連するすべての噂をまとめるように依頼しました。Deep Researchは優れたレポートを作成し、ユーザーに新しい車が今後数か月以内にリリースされる可能性があることを通知しました。

    Deep Researchが日本で発売されたとき、ユーザーは特定の要件を満たすレストランを見つけるのに非常に役立ち、また、ユーザーが他の方法では見つけられなかったかもしれないものを発見するのにも役立つことがわかりました。

    ユーザーが高価なアイテムを購入したり、特別な旅行を計画したり、問題について考えるのに多くの時間を費やす必要がある場合、オンラインで関連情報を検索したり、すべてのレビューを閲覧したりするのに何時間も費やすことがあります。Deep Researchは、この情報をすばやく整理し、概要レポートを作成し、詳細でパーソナライズされたアドバイスを提供できます。

    忙しい働く母親は、子供の誕生日パーティーを計画する時間がないことがよくありますが、今ではDeep Researchの助けを借りてすばやく行うことができます。

    Deep Researchは、指示に従うことも非常に得意です。ユーザーが製品について知りたいだけでなく、他のすべての製品と比較したい場合、またはRedditのようなウェブサイトからのレビューを見たい場合でも、Deep Researchにさまざまなリクエストを行うことができ、Deep Researchはこれらのタスクをすべて一度に完了します。ユーザーは、Deep Researchに情報をテーブルに入れるように依頼することもできます。

  • プログラミング

    多くの人がプログラミングにDeep Researchを使用しています。このシナリオは当初OpenAIによって考慮されていませんでしたが、多くの人がコードを書いたり、コードを検索したり、パッケージの最新のドキュメントを見つけたり、スクリプトを書いたりするために使用しており、印象的な結果が得られています。

  • 教育

    パーソナライズされた教育は非常に興味深いアプリケーションシナリオです。ユーザーが学びたいトピック、たとえば生物学を復習したり、現在の出来事を理解したりする場合、理解していない部分や深く掘り下げたい情報を提供するだけで、Deep Researchは詳細なレポートをまとめることができます。おそらく将来的には、Deep Researchがユーザーについて学んだことに基づいてパーソナライズされた教育を提供できるようになるでしょう。

エージェントは2025年に登場する

Deep Researchの今後の開発方向

製品の形態に関しては、OpenAIは、Deep Researchが将来的に画像を埋め込み、製品の写真を見つけ、チャートを生成し、これらのチャートを回答に埋め込むことができることを望んでいます。

情報源に関しては、OpenAIはモデルがアクセスできるデータソースを拡張したいと考えています。彼らは、モデルが将来的にプライベートデータを検索できるようになることを望んでいます。OpenAIは、モデルの機能をさらに強化し、ブラウジングと分析をより良くします。

情報の正確さに関しては、ユーザーがDeep Researchの出力を信頼できるように、ユーザーはモデルが引用した情報源を確認できます。モデルのトレーニングプロセス中に、OpenAIは引用の正確性を保証するよう努めていますが、モデルはまだ間違いを犯したり、幻覚を見たり、最も信頼できるとは言えないソースを信頼したりする可能性があります。したがって、これはOpenAIが改善を続けたいと考えている分野です。

OpenAI Agentロードマップにさらに広く統合するために、OpenAIは、Deep Researchが多くの異なるアプリケーションシナリオに拡張され、最も高度な推論モデルと人間が仕事や日常生活のタスクを完了するために使用できるツールを組み合わせ、次にモデルを直接最適化して、ユーザーがエージェントに達成させたい結果を達成できることを望んでいます。

現段階では、実際にはDeep Researchがより複雑なタスクシナリオに拡張されるのを妨げるものは何もありません。AGIは現在運用上の問題であり、将来的に楽しみにしている多くのエキサイティングな開発があるでしょう。

Sam Altman氏は、Deep Researchが完了できるタスクは、世界のすべての経済的に実行可能なタスクの数パーセントを占めると考えています。Josh Tobin氏は、Deep Researchはユーザーのためにすべての作業を行うことはできませんが、ユーザーの数時間、あるいは数日を節約できると考えています。 OpenAIは、比較的近い目標として、Deep Researchと次に構築されるエージェント、およびこの基盤の上に構築される他のエージェントが、ユーザーが行う仕事の種類に応じて、ユーザーの時間の1%、5%、10%、または25%を節約できることを望んでいます。

Agent & RL

Isa Fulford氏とJosh Tobin氏は、エージェントが今年登場することに同意しています。

RLはピークを経験し、その後少し低迷したように見えましたが、現在は再び注目を集めています。Yann LeCun氏はかつて、人々がケーキを作っている場合、そのほとんどはケーキであり、少しのフロスティングがあり、最後にいくつかのチェリーが上に乗っているという比喩を持っていました。教師なし学習はケーキのようなもので、教師あり学習はフロスティング、RLはチェリーです。

Josh Tobin氏は、2015年から2016年にRLを行っていたとき、ケーキの比喩を使用すると、ケーキなしでチェリーを追加しようとしていたのかもしれないと考えています。しかし今では、大量のデータで事前トレーニングされた言語モデルがあり、これらのモデルは非常に強力であり、これらの言語モデルに対して教師ありファインチューニングを実行して、指示の実行や人々が望むことを行うのが得意になる方法を知っています。今ではすべてが非常にうまく機能しており、ユーザー定義の報酬関数に従ってこれらのモデルを任意のユースケースに合わせて調整するのに非常に適しています。