Deep Research: Agent voor Alle Taken

OpenAI’s Tweede Agent

Drie weken geleden introduceerde OpenAI Deep Research, zijn tweede agent. Deze agent kan meerdere websites doorzoeken en uitgebreid online onderzoek uitvoeren in 5-30 minuten, waarbij informatie wordt gesynthetiseerd en gedetailleerde rapporten met citaten worden geleverd.

Dit artikel is een compilatie en organisatie van een interview van Sequoia Capital met Isa Fulford en Josh Tobin, de leiders van OpenAI’s Deep Research. De twee leden delen in detail de technische specificaties en productdenken achter Deep Research, samen met de use cases die ze momenteel observeren.

Deep Research is ontstaan uit OpenAI’s interne verkenning van het vermogen van het model om taken met een lange horizon aan te pakken. Het langetermijndoel van het team is om gebruikers in de toekomst de ultieme agent te bieden: een natuurlijke alles-in-één oplossing voor zoeken op het web, computergebruik of andere taken die ze de agent willen laten voltooien.

Deep Research is ook specifiek geoptimaliseerd op productniveau. Zoals vermeld in onze DeepSeek-analyse, verbetert Deep Research bijvoorbeeld het vertrouwen van de gebruiker door middel van duidelijke citaten en Chain-of-Thought (CoT). Het team heeft ook een verduidelijkingsstroom ontworpen om een consistent begrip van de taak te garanderen. Deep Research overtreft AI-zoeken en ChatGPT in het ophalen en organiseren van informatie. Echter, in dit stadium is Deep Research niet zo effectief in het extraheren van nieuwe inzichten uit bestaande informatie en kan het nog geen nieuwe wetenschappelijke ontdekkingen doen.

Belangrijkste punten:

  • OpenAI heeft zijn tweede agent, Deep Research, gelanceerd, die in staat is tot grondig online onderzoek.
  • Agentmogelijkheden komen voort uit end-to-end training van het model.
  • Deep Research blinkt uit in informatiesynthese en het vinden van obscure feiten.
  • Use cases omvatten professioneel werk, privéleven, programmeren en onderwijs.
  • Het team verwacht aanzienlijke vooruitgang voor agents in 2025.

Agentmogelijkheden komen voort uit End-to-End Model Training

Deep Research is een agent die in staat is om meerdere online websites te doorzoeken en uitgebreide rapporten te genereren, en veel taken te voltooien die mensen uren zouden kosten. Het werkt binnen ChatGPT en beantwoordt vragen in ongeveer 5-30 minuten, waardoor dieper onderzoek mogelijk is en gedetailleerdere en specifiekere antwoorden worden gegeven dan standaard ChatGPT. OpenAI lanceerde eerder Operator, en Deep Research is zijn tweede agent, met meer in het verschiet.

Oorsprong

Ongeveer een jaar geleden begon OpenAI intern een redeneerparadigma te adopteren, met als doel modellen te trainen om na te denken voordat ze antwoorden. Deze aanpak bleek zeer succesvol.

Aanvankelijk richtte OpenAI zich op wiskunde en wetenschap. Ze ontdekten echter dat deze nieuwe redeneermodelarchitectuur ook het vermogen ontsloot om taken op langere termijn aan te pakken, met inbegrip van agentmogelijkheden.

Tegelijkertijd erkende OpenAI dat veel taken uitgebreid online onderzoek of externe context, sterke redeneervaardigheden, onderscheidingsvermogen van informatiebronnen en een zekere mate van creativiteit vereisen. Uiteindelijk ontwikkelde OpenAI modeltrainingsmethoden die in staat zijn om deze taken aan te pakken. Ze besloten modellen te trainen om browsertaken uit te voeren, met dezelfde methoden als voor het trainen van redeneermodellen, maar toegepast op meer real-world taken.

Het Deep Research-project begon met een originele demo van Isa Fulford en Yash Patil. Josh Tobin kwam ongeveer zes maanden geleden terug bij OpenAI na bij een startup te hebben gewerkt, raakte zeer geïnteresseerd in het fundamentele werk en sloot zich aan bij het Deep Research-project.

Sleutelfiguren:

  • Isa Fulford: AI-onderzoeker in OpenAI’s Post-training team, een belangrijke bijdrager aan de ChatGPT Retrieval Plugin.
  • Yash Patil: Lid van het kernmodelteam in OpenAI’s Post-training team, gestopt met Stanford.
  • Josh Tobin: Voorheen Research Scientist bij OpenAI, richtte later Gantry op (een product om ML te verbeteren door middel van analyse, waarschuwingen en menselijke feedback). Hij kwam terug bij OpenAI en leidt momenteel het Agents productonderzoeksteam.

Verduidelijkingsstroom

Deep Research heeft een uniek ontwerp: de verduidelijkingsstroom. Voordat het onderzoek begint, stelt het Deep Research-model de gebruiker vragen. Normaal gesproken stelt ChatGPT alleen vervolgvragen aan het einde van een antwoord of vraagt het of het antwoord bevredigend is, in tegenstelling tot Deep Research, dat dit gedrag vooraf vertoont.

Dit was een bewuste ontwerpkeuze van het team. Gebruikers ontvangen de beste reacties van het Deep Research-model alleen wanneer hun prompts erg duidelijk en gedetailleerd zijn. Gebruikers geven echter vaak niet alle informatie in hun eerste prompt. Daarom wilde OpenAI ervoor zorgen dat gebruikers na 5 of 30 minuten wachten een voldoende gedetailleerd en bevredigend antwoord zouden krijgen. Deze extra stap is toegevoegd om ervoor te zorgen dat gebruikers alle benodigde details voor het model verstrekken.

Veel gebruikers op X hebben vermeld dat ze eerst met o1 of o1 Pro communiceren om hun prompts te verfijnen. Zodra ze tevreden zijn, sturen ze de prompt naar Deep Research.

De Ultieme Vorm van Agents

In de afgelopen maanden heeft OpenAI drie verschillende versies van Deep Research gelanceerd, allemaal genaamd Deep Research. Josh Tobin gelooft dat hoewel elk product zijn sterke en zwakke punten heeft, de kwaliteitsverschillen tussen hen duidelijk zijn. Uiteindelijk komt dit door hoe de modellen zijn opgebouwd, de inspanning die is geïnvesteerd in het bouwen van de datasets en het gebruik van O-serie modellen als de engine. Hierdoor kunnen de Deep Research-modellen worden geoptimaliseerd, waardoor zeer intelligente en hoogwaardige tools worden gecreëerd.

Momenteel zijn Deep Research, O3 en Operator relatief onafhankelijk. OpenAI streeft er echter naar dat gebruikers uiteindelijk één enkele, ultieme agent hebben die zoekopdrachten op het web kan uitvoeren, computers kan gebruiken of andere gewenste taken kan voltooien, waarbij al deze functies op een meer natuurlijke manier worden geïntegreerd.

End-to-End Training is de Fundamentele Reden voor de Kracht van het Model

Het onderliggende model van Deep Research is een fine-tuned versie van O3. O3 is OpenAI’s meest geavanceerde redeneermodel, en veel van Deep Research’s analytische vermogen komt daarvandaan. OpenAI heeft het Deep Research-model specifiek getraind op complexe browsertaken en andere redeneertaken. Daarom kan Deep Research ook browsertools en Python-tools gebruiken. Door end-to-end training op deze taken, leerde Deep Research strategieën om ze aan te pakken, waardoor het model uiteindelijk uitblinkt in online zoekanalyse.

Intuïtief doet een gebruiker een verzoek, en het model denkt er eerst zorgvuldig over na. Vervolgens zoekt het naar relevante informatie, extraheert het en leest het. Nadat het heeft begrepen hoe deze informatie zich verhoudt tot het verzoek, beslist het model wat het vervolgens moet zoeken om dichter bij het gewenste uiteindelijke antwoord van de gebruiker te komen. Deep Research kan al deze informatie integreren in een net rapport, met citaten die verwijzen naar de oorspronkelijke bronnen.

De innovatie die Deep Research zijn agentmogelijkheden geeft, ligt in OpenAI’s end-to-end training van het model. Dit betekent dat veel operaties tijdens het onderzoeksproces van tevoren onvoorspelbaar zijn. Het is onmogelijk om de flexibiliteit te bereiken die het model door training verkrijgt door een taalmodel, programma of script te schrijven. Door training heeft het Deep Research-model geleerd hoe te reageren op real-time webinformatie en strategieën onmiddellijk aan te passen op basis van wat het ziet. Daarom voert het Deep Research-model in feite zeer creatieve zoekopdrachten uit. Gebruikers kunnen zien hoe intelligent het model is in het beslissen wat het vervolgens moet zoeken of hoe het bepaalde problemen kan omzeilen door de samenvattingen van de CoT te lezen.

Met betrekking tot John Collison’s vraag hoeveel van Deep Research’s vermogen afkomstig is van real-time toegang tot webcontent en hoeveel van CoT, geloven de twee OpenAI-onderzoekers dat Deep Research’s uitstekende vermogen een resultaat is van de combinatie van beide.

Andere AI-zoekproducten zijn niet end-to-end getraind, dus ze zijn niet zo flexibel in het reageren op informatie als Deep Research, noch zijn ze zo creatief in het oplossen van specifieke problemen.

Voordat hij bij OpenAI kwam, werkte Josh Tobin bij een startup en probeerde hij agents te bouwen op de manier waarop de meeste mensen beschrijven hoe ze ze bouwen, in wezen een operationele grafiek construeren met LLM’s die op sommige knooppunten tussenkomen. Hoewel de LLM kan beslissen wat het vervolgens moet doen, wordt de logica van de hele reeks stappen door mensen gedefinieerd.

Josh Tobin vond dit een krachtige methode voor snelle prototyping, maar het stuitte snel op problemen in de echte wereld. Het is moeilijk om alle situaties te voorzien waarmee het model te maken kan krijgen en om alle verschillende takken van paden te overwegen die het zou willen nemen. Bovendien, aangezien deze modellen niet specifiek zijn getraind om beslissingen te nemen, zijn ze vaak niet de beste besluitvormers op de knooppunten; ze zijn getraind om iets te doen dat lijkt op besluitvorming.

Dit herhaalt dat de ware kracht van het Deep Research-model voortkomt uit directe end-to-end training, met als doel de taken op te lossen die gebruikers daadwerkelijk moeten oplossen. Daarom is het niet nodig om een operationele grafiek op te zetten of knooppuntbeslissingen te nemen in de achtergrondarchitectuur; alles wordt aangedreven door het model zelf.

Bovendien, als een gebruiker een zeer specifieke en voorspelbare workflow heeft, dan is het waardevol om het te doen op de manier die Josh Tobin hierboven beschreef. Maar als er zeer flexibele verwerking nodig is, dan is een aanpak vergelijkbaar met Deep Research wellicht de beste keuze.

Josh Tobin suggereert dat sommige strikte regels niet hard-coded in het model moeten worden opgenomen. Als er een behoefte is zoals “niet willen dat het model toegang heeft tot een bepaalde database”, is het beter om het te implementeren met handmatig geschreven logica. Mensen denken vaak dat ze slimmer kunnen zijn dan het model door code te schrijven, maar in werkelijkheid, naarmate het veld zich ontwikkelt, komen modellen meestal met betere oplossingen dan mensen.

Een van de belangrijkste lessen van machine learning is dat de resultaten die je krijgt, afhangen van waar je voor optimaliseert. Dus, als gebruikers een systeem kunnen opzetten om direct te optimaliseren voor het gewenste resultaat, zal het veel beter zijn dan proberen modellen samen te voegen die niet passen bij de hele taak. Daarom kan RL-tuning op de algemene modelbasis een belangrijk onderdeel worden van het bouwen van de krachtigste agents.

Hoogwaardige Data is een van de Sleutelfactoren voor Modelsucces

Een van de sleutelfactoren voor het succes van het Deep Research-model is het hebben van een hoogwaardige dataset. De kwaliteit van de data die in het model wordt ingevoerd, is waarschijnlijk de belangrijkste factor die de kwaliteit van het model bepaalt. In het Deep Research-project optimaliseert Edward Sun alle datasets.

Voordelen van Deep Research

Deep Research’s kracht ligt in zijn vermogen om de beste antwoorden te geven wanneer gebruikers een gedetailleerde beschrijving van hun behoeften hebben. Echter, zelfs als de vraag van de gebruiker vaag is, kan Deep Research de gewenste informatie verduidelijken. Het is het krachtigst wanneer gebruikers op zoek zijn naar een specifieke set informatie.

Deep Research is niet alleen in staat om breed alle informatie over een bron te verzamelen, maar blinkt ook uit in het vinden van zeer obscure feiten, zoals long-tail content die niet op de eerste paar pagina’s in een traditionele zoekopdracht zou verschijnen, details van een specifieke aflevering van een obscure tv-show, enzovoort. In een vraag over een Oostenrijkse generaal gaf ChatGPT ooit het verkeerde antwoord, terwijl Deep Research met succes het juiste antwoord vond.

Deep Research is erg goed in het synthetiseren van informatie, vooral in het vinden van specifieke, moeilijk te vinden informatie. Echter, Deep Research is niet zo effectief in het extraheren van nieuwe inzichten uit bestaande informatie en kan nog geen nieuwe wetenschappelijke ontdekkingen doen.

Use Cases van Deep Research

Doelgebruikers

Deep Research is ontworpen voor iedereen die zich bezighoudt met kenniswerk in hun dagelijks werk of leven, met name degenen die grote hoeveelheden informatie moeten verzamelen, data moeten analyseren en beslissingen moeten nemen. Veel gebruikers passen Deep Research toe op hun werk, zoals in onderzoek, om de situatie te begrijpen in gebieden als markten, bedrijven en onroerend goed.

Use Cases

OpenAI hoopt dat Deep Research zowel zakelijke als persoonlijke levensscenario’s kan dienen, omdat het in feite een zeer veelzijdige mogelijkheid is die van toepassing is op zowel werk als privéleven. Deep Research’s aantrekkingskracht ligt in zijn vermogen om veel tijd te besparen. Sommige taken die uren of zelfs dagen zouden hebben gekost, kunnen nu voor 90% worden beantwoord met Deep Research. OpenAI gelooft dat er meer vergelijkbare taken zullen zijn in zakelijke scenario’s, maar Deep Research zal ook een deel van het persoonlijke leven van mensen worden.

Deep Research gaat niet over het vervangen van de beroepsbevolking. Voor kenniswerk, vooral taken die veel tijd vergen om informatie te vinden en conclusies te trekken, zal Deep Research mensen superkrachten geven, waardoor taken die 4 of 8 uur zouden hebben gekost, in 5 minuten kunnen worden voltooid, waardoor gebruikers meer kunnen bereiken.

Het interview noemde use cases waaronder: medische, investerings- en andere professionele werkscenario’s; winkelen, reizen en andere familiescenario’s; programmeren en gepersonaliseerd onderwijs.

  • Medische, Investerings- en Andere Professionele Werkscenario’s

    In de geneeskunde kan Deep Research helpen bij het vinden van alle literatuur of recente gevallen van een bepaalde ziekte, waardoor tijd wordt bespaard.

    In investeringen kunnen investeerders, met de hulp van Deep Research, ervoor kiezen om elke potentiële startup waarin ze zouden kunnen investeren te onderzoeken, niet alleen degenen met wie ze tijd hebben om te vergaderen.

    In bedrijfsactiviteiten heeft een gebruiker die overweegt een bedrijf in consumptiegoederen te starten, Deep Research uitgebreid gebruikt om te bepalen of specifieke merknamen al zijn geregistreerd, of domeinnamen bezet zijn, marktomvang en diverse andere informatie.

  • Winkelen, Reizen en Andere Familiescenario’s

    Een gebruiker die overwoog een nieuwe auto te kopen, wilde weten wanneer het volgende model zou worden uitgebracht. Er waren veel speculatieve artikelen online, dus de gebruiker vroeg Deep Research om alle relevante geruchten te compileren. Deep Research produceerde een uitstekend rapport, waarin de gebruiker werd geïnformeerd dat er in de komende maanden een nieuwe auto zou kunnen worden uitgebracht.

    Toen Deep Research in Japan werd gelanceerd, vonden gebruikers het erg nuttig bij het vinden van restaurants die aan specifieke eisen voldeden en kon het gebruikers ook helpen dingen te ontdekken die ze anders misschien niet hadden gevonden.

    Wanneer gebruikers een duur item moeten kopen, een speciale reis moeten plannen of veel tijd moeten besteden aan het nadenken over een probleem, kunnen ze uren online zoeken naar relevante informatie, alle recensies doorbladeren, enz. Deep Research kan deze informatie snel organiseren, een samenvattend rapport maken en gedetailleerd en gepersonaliseerd advies geven.

    Drukke werkende moeders hebben vaak geen tijd om verjaardagsfeestjes voor hun kinderen te plannen, maar nu kunnen ze het snel doen met de hulp van Deep Research.

    Deep Research is ook uitstekend in het opvolgen van instructies. Als gebruikers niet alleen over een product willen weten, maar het ook willen vergelijken met alle andere producten, of zelfs recensies van websites zoals Reddit willen zien, kunnen ze veel verschillende verzoeken doen aan Deep Research, en het zal deze taken allemaal tegelijk voltooien. Gebruikers kunnen Deep Research ook vragen om de informatie in een tabel te zetten.

  • Programmeren

    Veel mensen gebruiken Deep Research voor programmeren. Dit scenario werd aanvankelijk niet overwogen door OpenAI, maar veel mensen gebruiken het om code te schrijven, code te zoeken, zelfs de nieuwste documentatie voor een pakket te vinden, of scripts te schrijven, met indrukwekkende resultaten.

  • Onderwijs

    Gepersonaliseerd onderwijs is een zeer interessant toepassingsscenario. Als gebruikers een onderwerp hebben dat ze willen leren, zoals biologie herzien of actuele gebeurtenissen begrijpen, hoeven ze alleen de delen te verstrekken die ze niet begrijpen of de informatie waarin ze zich willen verdiepen, en Deep Research kan een gedetailleerd rapport samenstellen. Misschien is het in de toekomst mogelijk om gepersonaliseerd onderwijs te bieden op basis van wat Deep Research over de gebruiker leert.

Agents zullen in 2025 opkomen

Toekomstige Ontwikkelingsrichtingen voor Deep Research

In termen van productvorm hoopt OpenAI dat Deep Research in de toekomst afbeeldingen kan insluiten, foto’s van producten kan vinden, grafieken kan genereren en deze grafieken in de antwoorden kan insluiten.

In termen van informatiebronnen hoopt OpenAI de databronnen uit te breiden waartoe het model toegang heeft. Ze hopen dat het model in de toekomst privédata kan doorzoeken. OpenAI zal de mogelijkheden van het model verder verbeteren, waardoor het beter wordt in browsen en analyseren.

In termen van informatienauwkeurigheid, om gebruikers in staat te stellen de output van Deep Research te vertrouwen, kunnen gebruikers de bronnen van informatie zien die door het model worden geciteerd. Tijdens het modeltrainingsproces streeft OpenAI er ook naar om de correctheid van citaten te waarborgen, maar het model kan nog steeds fouten maken, hallucineren of zelfs een bron vertrouwen die misschien niet de meest geloofwaardige is. Daarom is dit een gebied dat OpenAI hoopt te blijven verbeteren.

Om breder te integreren in de OpenAI Agent-roadmap, hoopt OpenAI dat Deep Research kan worden uitgebreid naar veel verschillende toepassingsscenario’s, waarbij de meest geavanceerde redeneermodellen worden gecombineerd met tools die mensen kunnen gebruiken om werk- of dagelijkse levenstaken te voltooien, en vervolgens het model direct optimaliseren om de resultaten te bereiken die gebruikers willen dat de agent bereikt.

In dit stadium is er eigenlijk niets dat Deep Research ervan weerhoudt om uit te breiden naar complexere taakscenario’s. AGI is nu een operationeel probleem, en er zullen veel spannende ontwikkelingen zijn om naar uit te kijken in de toekomst.

Sam Altman gelooft dat de taken die Deep Research kan voltooien, een paar procent van alle economisch levensvatbare taken in de wereld zullen uitmaken. Josh Tobin gelooft dat Deep Research niet al het werk voor gebruikers kan doen, maar het kan gebruikers enkele uren of zelfs dagen besparen. OpenAI hoopt dat een relatief dichtbij doel is dat Deep Research en de agents die vervolgens worden gebouwd, evenals andere agents die op deze basis zijn gebouwd, gebruikers 1%, 5%, 10% of 25% van hun tijd besparen, afhankelijk van het soort werk dat ze doen.

Agent & RL

Isa Fulford en Josh Tobin zijn het erover eens dat agents dit jaar zullen opkomen.

RL beleefde een piek, leek toen een beetje een dal te hebben en krijgt nu weer aandacht. Yann LeCun had ooit een analogie: als mensen een cake maken, is het grootste deel cake, er zal een beetje glazuur zijn en uiteindelijk een paar kersen bovenop. Unsupervised learning is als de cake, supervised learning is het glazuur en RL is de kers.

Josh Tobin gelooft dat toen hij RL deed in 2015-2016, met behulp van de cake-analogie, het misschien probeerde de kers toe te voegen zonder de cake. Maar nu zijn er taalmodellen die zijn voorgetraind op grote hoeveelheden data, deze modellen zijn erg krachtig, en we weten hoe we supervised fine-tuning op deze taalmodellen moeten uitvoeren om ze goed te maken in het uitvoeren van instructies en het doen wat mensen willen. Nu werkt alles erg goed, en het is zeer geschikt om deze modellen aan te passen volgens door de gebruiker gedefinieerde beloningsfuncties voor elke use case.