Deep Research: Agenten für alle Aufgaben

OpenAI’s zweiter Agent

Vor drei Wochen stellte OpenAI Deep Research vor, seinen zweiten Agenten. Dieser Agent kann mehrere Websites durchsuchen und in 5-30 Minuten umfassende Online-Recherchen durchführen, Informationen synthetisieren und detaillierte Berichte mit Quellenangaben liefern.

Dieser Artikel fasst ein Interview von Sequoia Capital mit Isa Fulford und Josh Tobin, den Leitern von OpenAI’s Deep Research, zusammen und ordnet es. Die beiden Mitglieder teilen detailliert die technischen Besonderheiten und das Produktdenken hinter Deep Research mit, zusammen mit den Anwendungsfällen, die sie derzeit beobachten.

Deep Research entstand aus OpenAI’s interner Erforschung der Fähigkeit des Modells, Aufgaben mit langem Zeithorizont zu bewältigen. Das langfristige Ziel des Teams ist es, den Benutzern in Zukunft den ultimativen Agenten zur Verfügung zu stellen: eine natürliche All-in-One-Lösung für die Websuche, die Computernutzung oder jede andere Aufgabe, die der Agent erledigen soll.

Deep Research wurde auch auf Produktebene speziell optimiert. Wie in unserer DeepSeek-Analyse erwähnt, verbessert Deep Research beispielsweise das Vertrauen der Benutzer durch klare Zitate und Chain-of-Thought (CoT). Das Team hat auch einen Klärungsablauf entwickelt, um ein einheitliches Verständnis der Aufgabe zu gewährleisten. Deep Research übertrifft die KI-Suche und ChatGPT bei der Informationsbeschaffung und -organisation. In diesem Stadium ist Deep Research jedoch nicht so effektiv bei der Gewinnung neuer Erkenntnisse aus vorhandenen Informationen und kann noch keine neuen wissenschaftlichen Entdeckungen machen.

Kernaussagen:

  • OpenAI hat seinen zweiten Agenten, Deep Research, gestartet, der zu gründlichen Online-Recherchen fähig ist.
  • Die Fähigkeiten des Agenten beruhen auf dem End-to-End-Training des Modells.
  • Deep Research zeichnet sich durch Informationssynthese und das Auffinden obskurer Fakten aus.
  • Die Anwendungsfälle umfassen professionelle Arbeit, Privatleben, Programmierung und Bildung.
  • Das Team erwartet für 2025 erhebliche Fortschritte für Agenten.

Agentenfähigkeiten resultieren aus End-to-End-Modelltraining

Deep Research ist ein Agent, der in der Lage ist, mehrere Online-Websites zu durchsuchen und umfassende Berichte zu erstellen, wobei er viele Aufgaben erledigt, die Menschen Stunden kosten würden. Er arbeitet innerhalb von ChatGPT und beantwortet Fragen in etwa 5-30 Minuten, was tiefere Recherchen ermöglicht und detailliertere und spezifischere Antworten liefert als das Standard-ChatGPT. OpenAI hat zuvor Operator gestartet, und Deep Research ist sein zweiter Agent, weitere werden folgen.

Ursprünge

Vor etwa einem Jahr begann OpenAI intern mit der Einführung eines Reasoning-Paradigmas, mit dem Ziel, Modelle so zu trainieren, dass sie vor dem Antworten denken. Dieser Ansatz erwies sich als sehr erfolgreich.

Anfänglich konzentrierte sich OpenAI auf Mathematik und Naturwissenschaften. Sie entdeckten jedoch, dass diese neue Reasoning-Modellarchitektur auch die Fähigkeit freisetzte, längerfristige Aufgaben zu bewältigen, die Agentenfähigkeiten beinhalten.

Gleichzeitig erkannte OpenAI, dass viele Aufgaben umfangreiche Online-Recherchen oder externen Kontext, starke Reasoning-Fähigkeiten, die Unterscheidung von Informationsquellen und ein gewisses Maß an Kreativität erfordern. Letztendlich entwickelte OpenAI Modelltrainingsmethoden, die in der Lage sind, diese Aufgaben zu bewältigen. Sie beschlossen, Modelle für das Ausführen von Browsing-Aufgaben zu trainieren, wobei sie dieselben Methoden wie für das Training von Reasoning-Modellen verwendeten, diese aber auf realere Aufgaben anwendeten.

Das Deep Research-Projekt begann mit einer ursprünglichen Demo von Isa Fulford und Yash Patil. Josh Tobin kehrte vor etwa sechs Monaten nach seiner Tätigkeit bei einem Startup zu OpenAI zurück, interessierte sich sehr für die Grundlagenarbeit und schloss sich dem Deep Research-Projekt an.

Schlüsselpersonen:

  • Isa Fulford: KI-Forscherin im Post-Training-Team von OpenAI, eine Hauptverantwortliche für das ChatGPT Retrieval Plugin.
  • Yash Patil: Mitglied des Kernmodellteams im Post-Training-Team von OpenAI, der sein Studium in Stanford abgebrochen hat.
  • Josh Tobin: Zuvor Research Scientist bei OpenAI, gründete später Gantry (ein Produkt zur Verbesserung von ML durch Analyse, Warnmeldungen und menschliches Feedback). Er kehrte zu OpenAI zurück und leitet derzeit das Produktforschungsteam für Agenten.

Klärungsablauf (Clarification Flow)

Deep Research zeichnet sich durch ein einzigartiges Design aus: den Klärungsablauf. Bevor die Recherche beginnt, stellt das Deep Research-Modell dem Benutzer Fragen. Normalerweise stellt ChatGPT erst am Ende einer Antwort Folgefragen oder erkundigt sich, ob die Antwort zufriedenstellend ist, im Gegensatz zu Deep Research, das dieses Verhalten von Anfang an zeigt.

Dies war eine bewusste Designentscheidung des Teams. Benutzer erhalten die besten Antworten vom Deep Research-Modell nur, wenn ihre Prompts sehr klar und detailliert sind. Benutzer geben jedoch oft nicht alle Informationen in ihrem ersten Prompt an. Daher wollte OpenAI sicherstellen, dass Benutzer nach einer Wartezeit von 5 oder 30 Minuten eine ausreichend detaillierte und zufriedenstellende Antwort erhalten. Dieser zusätzliche Schritt wurde hinzugefügt, um sicherzustellen, dass Benutzer alle notwendigen Details für das Modell bereitstellen.

Viele Benutzer auf X haben erwähnt, dass sie zuerst mit o1 oder o1 Pro interagieren, um ihre Prompts zu verfeinern. Sobald sie zufrieden sind, senden sie den Prompt an Deep Research.

Die ultimative Form von Agenten

In den letzten Monaten hat OpenAI drei verschiedene Versionen von Deep Research auf den Markt gebracht, die alle Deep Research heißen. Josh Tobin glaubt, dass jedes Produkt zwar seine Stärken und Schwächen hat, die Qualitätsunterschiede zwischen ihnen jedoch offensichtlich sind. Letztendlich liegt dies daran, wie die Modelle aufgebaut sind, welcher Aufwand in den Aufbau der Datensätze investiert wurde und dass O-Serien-Modelle als Engine verwendet werden. Dies ermöglicht die Optimierung der Deep Research-Modelle, wodurch hochintelligente und qualitativ hochwertige Tools entstehen.

Derzeit sind Deep Research, O3 und Operator relativ unabhängig. OpenAI strebt jedoch an, dass Benutzer letztendlich einen einzigen, ultimativen Agenten haben, der Websuchen durchführen, Computer verwenden oder andere gewünschte Aufgaben erledigen kann, wobei all diese Funktionen auf natürlichere Weise integriert werden.

End-to-End-Training ist der grundlegende Grund für die Leistungsfähigkeit des Modells

Das zugrunde liegende Modell von Deep Research ist eine feinabgestimmte Version von O3. O3 ist das fortschrittlichste Reasoning-Modell von OpenAI, und ein Großteil der Analysefähigkeit von Deep Research stammt von ihm. OpenAI hat das Deep Research-Modell speziell auf komplexe Browsing-Aufgaben und andere Reasoning-Aufgaben trainiert. Daher kann Deep Research auch Browsing-Tools und Python-Tools verwenden. Durch das End-to-End-Training für diese Aufgaben hat Deep Research Strategien gelernt, um sie zu bewältigen, was das Modell letztendlich zu einem hervorragenden Werkzeug für die Online-Suchanalyse macht.

Intuitiv macht ein Benutzer eine Anfrage, und das Modell denkt zuerst sorgfältig darüber nach. Dann sucht es nach relevanten Informationen, extrahiert sie und liest sie. Nachdem es verstanden hat, wie diese Informationen mit der Anfrage zusammenhängen, entscheidet das Modell, wonach es als Nächstes suchen soll, um der vom Benutzer gewünschten endgültigen Antwort näher zu kommen. Deep Research kann all diese Informationen in einem übersichtlichen Bericht zusammenfassen, mit Zitaten, die auf die Originalquellen verweisen.

Die Innovation, die Deep Research seine Agentenfähigkeiten verleiht, liegt im End-to-End-Training des Modells durch OpenAI. Das bedeutet, dass viele Operationen während des Forschungsprozesses im Voraus nicht vorhersehbar sind. Es ist unmöglich, die Flexibilität, die das Modell durch das Training gewinnt, durch das Schreiben eines Sprachmodells, Programms oder Skripts zu erreichen. Durch das Training hat das Deep Research-Modell gelernt, auf Echtzeit-Webinformationen zu reagieren und Strategien zeitnah auf der Grundlage dessen anzupassen, was es sieht. Daher führt das Deep Research-Modell tatsächlich sehr kreative Suchen durch. Benutzer können sehen, wie intelligent das Modell bei der Entscheidung ist, wonach es als Nächstes suchen soll oder wie es bestimmte Probleme umgehen kann, indem es die Zusammenfassungen des CoT liest.

Unterschiede zwischen Deep Research und KI-Suche

In Bezug auf John Collisons Frage, wie viel von der Fähigkeit von Deep Research aus dem Echtzeitzugriff auf Webinhalte und wie viel aus CoT stammt, glauben die beiden OpenAI-Forscher, dass die herausragende Fähigkeit von Deep Research ein Ergebnis der Kombination von beidem ist.

Andere KI-Suchprodukte werden nicht End-to-End trainiert, daher sind sie nicht so flexibel bei der Reaktion auf Informationen wie Deep Research, noch sind sie so kreativ bei der Lösung spezifischer Probleme.

Bevor er zu OpenAI kam, arbeitete Josh Tobin bei einem Startup und versuchte, Agenten auf die Art und Weise zu bauen, wie die meisten Leute sie beschreiben, im Wesentlichen durch den Aufbau eines Operationsgraphen, wobei LLMs an einigen Knoten eingreifen. Während das LLM entscheiden kann, was als Nächstes zu tun ist, wird die Logik der gesamten Abfolge von Schritten von Menschen definiert.

Josh Tobin fand dies eine leistungsstarke Methode für schnelles Prototyping, aber sie stieß in der realen Welt schnell auf Probleme. Es ist schwierig, alle Situationen vorherzusehen, denen das Modell begegnen könnte, und alle verschiedenen Zweige von Pfaden zu berücksichtigen, die es möglicherweise einschlagen möchte. Da diese Modelle nicht speziell für Entscheidungen trainiert sind, sind sie oft nicht die besten Entscheidungsträger an den Knoten; sie sind darauf trainiert, etwas Ähnliches wie Entscheidungsfindung zu tun.

Dies bekräftigt, dass die wahre Stärke des Deep Research-Modells aus dem direkten End-to-End-Training stammt, mit dem Ziel, die Aufgaben zu lösen, die Benutzer tatsächlich lösen müssen. Daher ist es nicht erforderlich, einen Operationsgraphen einzurichten oder Knotenentscheidungen in der Hintergrundarchitektur zu treffen; alles wird vom Modell selbst gesteuert.

Wenn ein Benutzer einen sehr spezifischen und vorhersehbaren Workflow hat, ist es außerdem wertvoll, dies auf die von Josh Tobin oben beschriebene Weise zu tun. Wenn jedoch eine sehr flexible Verarbeitung erforderlich ist, dannkönnte ein Ansatz ähnlich wie bei Deep Research die beste Wahl sein.

Josh Tobin schlägt vor, dass einige strenge Regeln nicht fest in das Modell einprogrammiert werden sollten. Wenn es ein Bedürfnis gibt, wie “nicht zu wollen, dass das Modell auf eine bestimmte Datenbank zugreift”, ist es besser, dies mit manuell geschriebenem Code zu implementieren. Menschen denken oft, dass sie durch das Schreiben von Code schlauer sein können als das Modell, aber in Wirklichkeit, wenn sich das Feld weiterentwickelt, kommen Modelle normalerweise auf bessere Lösungen als Menschen.

Eine der wichtigsten Lektionen des maschinellen Lernens ist, dass die Ergebnisse, die Sie erhalten, davon abhängen, wofür Sie optimieren. Wenn Benutzer also ein System einrichten können, um direkt auf das gewünschte Ergebnis zu optimieren, ist dies viel besser, als zu versuchen, Modelle zusammenzusetzen, die nicht zur gesamten Aufgabe passen. Daher könnte die RL-Abstimmung auf der Grundlage des Gesamtmodells ein wichtiger Bestandteil beim Aufbau der leistungsstärksten Agenten werden.

Hochwertige Daten sind einer der Schlüsselfaktoren für den Modellerfolg

Einer der Schlüsselfaktoren für den Erfolg des Deep Research-Modells ist ein hochwertiger Datensatz. Die Qualität der in das Modell eingegebenen Daten ist wahrscheinlich der Schlüsselfaktor, der die Qualität des Modells bestimmt. Im Deep Research-Projekt optimiert Edward Sun alle Datensätze.

Vorteile von Deep Research

Die Stärke von Deep Research liegt in seiner Fähigkeit, die besten Antworten zu liefern, wenn Benutzer eine detaillierte Beschreibung ihrer Bedürfnisse haben. Aber selbst wenn die Frage des Benutzers vage ist, kann Deep Research die gewünschten Informationen klären. Es ist am leistungsstärksten, wenn Benutzer nach einer bestimmten Menge an Informationen suchen.

Deep Research ist nicht nur in der Lage, umfassend alle Informationen über eine Quelle zu sammeln, sondern zeichnet sich auch durch das Auffinden sehr obskurer Fakten aus, wie z. B. Long-Tail-Inhalte, die nicht auf den ersten Seiten einer traditionellen Suche erscheinen würden, Details einer bestimmten Episode einer obskuren Fernsehsendung usw. In einer Frage zu einem österreichischen General gab ChatGPT einmal die falsche Antwort, während Deep Research erfolgreich die richtige fand.

Deep Research ist sehr gut darin, Informationen zu synthetisieren, insbesondere beim Auffinden spezifischer, schwer zu findender Informationen. Deep Research ist jedoch nicht so effektiv bei der Gewinnung neuer Erkenntnisse aus vorhandenen Informationen und kann noch keine neuen wissenschaftlichen Entdeckungen machen.

Anwendungsfälle von Deep Research

Zielbenutzer

Deep Research richtet sich an alle, die in ihrer täglichen Arbeit oder ihrem Leben Wissensarbeit leisten, insbesondere an diejenigen, die große Mengen an Informationen sammeln, Daten analysieren und Entscheidungen treffen müssen. Viele Benutzer wenden Deep Research auf ihre Arbeit an, z. B. in der Forschung, um die Situation in Bereichen wie Märkten, Unternehmen und Immobilien zu verstehen.

Anwendungsfälle

OpenAI hofft, dass Deep Research sowohl geschäftliche als auch private Lebensszenarien bedienen kann, da es sich tatsächlich um eine sehr vielseitige Fähigkeit handelt, die sowohl für die Arbeit als auch für das Privatleben anwendbar ist. Der Reiz von Deep Research liegt in seiner Fähigkeit, viel Zeit zu sparen. Einige Aufgaben, die Stunden oder sogar Tage gedauert haben könnten, können jetzt zu 90 % mit Deep Research beantwortet werden. OpenAI glaubt, dass es mehr ähnliche Aufgaben in Geschäftsszenarien geben wird, aber Deep Research wird auch ein Teil des Privatlebens der Menschen werden.

Bei Deep Research geht es nicht darum, die Belegschaft zu ersetzen. Für Wissensarbeit, insbesondere für Aufgaben, die viel Zeit benötigen, um Informationen zu finden und Schlussfolgerungen zu ziehen, wird Deep Research Menschen mit Superkräften ausstatten, die es ermöglichen, Aufgaben, die 4 oder 8 Stunden gedauert haben könnten, in 5 Minuten zu erledigen, sodass Benutzer mehr erreichen können.

Im Interview wurden Anwendungsfälle erwähnt, darunter: Medizin, Investitionen und andere professionelle Arbeitsszenarien; Einkaufen, Reisen und andere Familienszenarien; Programmierung und personalisierte Bildung.

  • Medizin, Investitionen und andere professionelle Arbeitsszenarien

    In der Medizin kann Deep Research helfen, die gesamte Literatur oder aktuelle Fälle einer bestimmten Krankheit zu finden und so Zeit zu sparen.

    Im Investmentbereich können Investoren mit Hilfe von Deep Research jedes potenzielle Startup recherchieren, in das sie investieren könnten, nicht nur diejenigen, mit denen sie Zeit haben, sich zu treffen.

    Im Unternehmen hat ein Benutzer, der die Gründung eines Konsumgüterunternehmens in Erwägung zieht, Deep Research ausgiebig genutzt, um festzustellen, ob bestimmte Markennamen bereits registriert sind, ob Domainnamen belegt sind, wie groß der Markt ist und verschiedene andere Informationen.

  • Einkaufen, Reisen und andere Familienszenarien

    Ein Benutzer, der den Kauf eines neuen Autos in Erwägung zog, wollte wissen, wann das nächste Modell veröffentlicht wird. Es gab viele spekulative Artikel online, also bat der Benutzer Deep Research, alle relevanten Gerüchte zusammenzustellen. Deep Research erstellte einen ausgezeichneten Bericht, der den Benutzer darüber informierte, dass in den nächsten Monaten ein neues Auto auf den Markt kommen könnte.

    Als Deep Research in Japan eingeführt wurde, fanden es die Benutzer sehr hilfreich, Restaurants zu finden, die bestimmte Anforderungen erfüllten, und konnten Benutzern auch dabei helfen, Dinge zu entdecken, die sie sonst vielleicht nicht gefunden hätten.

    Wenn Benutzer einen teuren Artikel kaufen, eine besondere Reise planen oder viel Zeit damit verbringen müssen, über ein Problem nachzudenken, verbringen sie möglicherweise Stunden online damit, nach relevanten Informationen zu suchen, alle Bewertungen zu durchsuchen usw. Deep Research kann diese Informationen schnell organisieren, einen zusammenfassenden Bericht erstellen und detaillierte und personalisierte Ratschläge geben.

    Vielbeschäftigte berufstätige Mütter haben oft keine Zeit, Geburtstagsfeiern für ihre Kinder zu planen, aber jetzt können sie dies mit Hilfe von Deep Research schnell erledigen.

    Deep Research ist auch hervorragend darin, Anweisungen zu befolgen. Wenn Benutzer nicht nur etwas über ein Produkt wissen möchten, sondern es auch mit allen anderen Produkten vergleichen oder sogar Bewertungen von Websites wie Reddit sehen möchten, können sie viele verschiedene Anfragen an Deep Research stellen, und es wird diese Aufgaben alle auf einmal erledigen. Benutzer können Deep Research auch bitten, die Informationen in eine Tabelle einzutragen.

  • Programmierung

    Viele Leute verwenden Deep Research zum Programmieren. Dieses Szenario wurde von OpenAI zunächst nicht in Betracht gezogen, aber viele Leute verwenden es, um Code zu schreiben, nach Code zu suchen, sogar die neueste Dokumentation für ein Paket zu finden oder Skripte zu schreiben, mit beeindruckenden Ergebnissen.

  • Bildung

    Personalisierte Bildung ist ein sehr interessantes Anwendungsszenario. Wenn Benutzer ein Thema haben, das sie lernen möchten, z. B. Biologie wiederholen oder aktuelle Ereignisse verstehen, müssen sie nur die Teile angeben, die sie nicht verstehen, oder die Informationen, in die sie sich vertiefen möchten, und Deep Research kann einen detaillierten Bericht erstellen. Vielleicht ist es in Zukunft möglich, personalisierte Bildung basierend auf dem anzubieten, was Deep Research über den Benutzer lernt.

Agenten werden 2025 entstehen

Zukünftige Entwicklungsrichtungen für Deep Research

In Bezug auf die Produktform hofft OpenAI, dass Deep Research in Zukunft in der Lage sein wird, Bilder einzubetten, Bilder von Produkten zu finden, Diagramme zu generieren und diese Diagramme in die Antworten einzubetten.

In Bezug auf Informationsquellen hofft OpenAI, die Datenquellen zu erweitern, auf die das Modell zugreifen kann. Sie hoffen, dass das Modell in Zukunft in der Lage sein wird, private Daten zu durchsuchen. OpenAI wird die Fähigkeiten des Modells weiter verbessern und es besser im Browsen und Analysieren machen.

In Bezug auf die Informationsgenauigkeit können Benutzer, um dem Output von Deep Research vertrauen zu können, die Quellen der vom Modell zitierten Informationen sehen. Während des Modelltrainingsprozesses bemüht sich OpenAI auch, die Korrektheit der Zitate sicherzustellen, aber das Modell kann immer noch Fehler machen, halluzinieren oder sogar einer Quelle vertrauen, die möglicherweise nicht die glaubwürdigste ist. Daher ist dies ein Bereich, den OpenAI weiter verbessern möchte.

Um sich umfassender in die OpenAI Agent-Roadmap zu integrieren, hofft OpenAI, dass Deep Research auf viele verschiedene Anwendungsszenarien ausgeweitet werden kann, wobei die fortschrittlichsten Reasoning-Modelle mit Tools kombiniert werden, die Menschen verwenden können, um Aufgaben im Arbeits- oder Privatleben zu erledigen, und dann das Modell direkt optimiert wird, um die Ergebnisse zu erzielen, die Benutzer vom Agenten erwarten.

In diesem Stadium gibt es eigentlich nichts, was Deep Research daran hindert, auf komplexere Aufgabenszenarien auszuweiten. AGI ist jetzt ein operatives Problem, und es wird in Zukunft viele aufregende Entwicklungen geben, auf die man sich freuen kann.

Sam Altman glaubt, dass die Aufgaben, die Deep Research erledigen kann, einige Prozent aller wirtschaftlich tragfähigen Aufgaben in der Welt ausmachen werden. Josh Tobin glaubt, dass Deep Research nicht die gesamte Arbeit für Benutzer erledigen kann, aber es kann Benutzern mehrere Stunden oder sogar Tage sparen. OpenAI hofft, dass ein relativ nahes Ziel darin besteht, dass Deep Research und die als Nächstes gebauten Agenten sowie andere auf dieser Grundlage gebaute Agenten den Benutzern 1 %, 5 %, 10 % oder 25 % ihrer Zeit sparen, abhängig von der Art der Arbeit, die sie verrichten.

Agent & RL

Isa Fulford und Josh Tobin sind sich einig, dass Agenten in diesem Jahr entstehen werden.

RL erlebte einen Höhepunkt, schien dann ein kleines Tief zu haben und erhält jetzt wieder Aufmerksamkeit. Yann LeCun hatte einmal eine Analogie: Wenn Menschen einen Kuchen backen, ist der größte Teil davon Kuchen, es gibt ein wenig Zuckerguss und schließlich ein paar Kirschen oben drauf. Unüberwachtes Lernen ist wie der Kuchen, überwachtes Lernen ist der Zuckerguss und RL ist die Kirsche.

Josh Tobin glaubt, dass es beim RL in den Jahren 2015-2016, um die Kuchenanalogie zu verwenden, vielleicht darum ging, die Kirsche ohne den Kuchen hinzuzufügen. Aber jetzt gibt es Sprachmodelle, die auf großen Datenmengen vortrainiert sind, diese Modelle sind sehr leistungsfähig, und wir wissen, wie man überwachtes Feintuning an diesen Sprachmodellen durchführt, um sie gut darin zu machen, Anweisungen auszuführen und das zu tun, was Menschen wollen. Jetzt funktioniert alles sehr gut, und es ist sehr gut geeignet, diese Modelle gemäß benutzerdefinierten Belohnungsfunktionen für jeden Anwendungsfall anzupassen.