Deep Research: Agenti All-in-One

Il secondo agente di OpenAI

Tre settimane fa, OpenAI ha presentato Deep Research, il suo secondo agente. Questo agente può cercare in più siti web e completare ricerche online complete in 5-30 minuti, sintetizzando le informazioni e fornendo report dettagliati con citazioni.

Questo articolo raccoglie e organizza un’intervista di Sequoia Capital con Isa Fulford e Josh Tobin, i responsabili di Deep Research di OpenAI. I due membri condividono in dettaglio le specifiche tecniche e il pensiero di prodotto dietro Deep Research, insieme ai casi d’uso che stanno attualmente osservando.

Deep Research è nato dall’esplorazione interna di OpenAI della capacità del modello di gestire attività a lungo termine. L’obiettivo a lungo termine del team è fornire agli utenti l’agente definitivo in futuro: una soluzione all-in-one naturale per la ricerca sul web, l’uso del computer o qualsiasi altra attività che desiderano che l’agente completi.

Deep Research è stato anche specificamente ottimizzato a livello di prodotto. Ad esempio, come menzionato nella nostra analisi DeepSeek, Deep Research migliora la fiducia dell’utente attraverso citazioni chiare e Chain-of-Thought (CoT). Il team ha anche progettato un flusso di chiarimento per garantire una comprensione coerente dell’attività. Deep Research supera la ricerca AI e ChatGPT nel recupero e nell’organizzazione delle informazioni. Tuttavia, in questa fase, Deep Research non è altrettanto efficace nell’estrarre nuove intuizioni dalle informazioni esistenti e non può ancora fare nuove scoperte scientifiche.

Punti chiave:

  • OpenAI ha lanciato il suo secondo agente, Deep Research, in grado di effettuare indagini online approfondite.
  • Le capacità dell’agente derivano dall’addestramento end-to-end del modello.
  • Deep Research eccelle nella sintesi delle informazioni e nella ricerca di fatti oscuri.
  • I casi d’uso riguardano il lavoro professionale, la vita personale, la programmazione e l’istruzione.
  • Il team prevede progressi significativi per gli agenti nel 2025.

Le capacità dell’agente derivano dall’addestramento del modello end-to-end

Deep Research è un agente in grado di cercare in più siti web online e generare report completi, completando molte attività che richiederebbero ore agli umani. Operando all’interno di ChatGPT, risponde alle domande in circa 5-30 minuti, consentendo ricerche più approfondite e fornendo risposte più dettagliate e specifiche rispetto a ChatGPT standard. OpenAI aveva precedentemente lanciato Operator e Deep Research è il suo secondo agente, con altri in arrivo.

Origini

Circa un anno fa, OpenAI ha iniziato ad adottare internamente un paradigma di ragionamento, con l’obiettivo di addestrare i modelli a pensare prima di rispondere. Questo approccio si è rivelato molto efficace.

Inizialmente, OpenAI si è concentrata su matematica e scienze. Tuttavia, hanno scoperto che questa nuova architettura del modello di ragionamento ha anche sbloccato la capacità di gestire attività a più lungo termine, coinvolgendo le capacità dell’agente.

Allo stesso tempo, OpenAI ha riconosciuto che molte attività richiedono ricerche online approfondite o contesto esterno, forti capacità di ragionamento, discernimento delle fonti di informazione e un certo grado di creatività. Alla fine, OpenAI ha sviluppato metodi di addestramento del modello in grado di gestire queste attività. Hanno deciso di addestrare i modelli a eseguire attività di navigazione, utilizzando gli stessi metodi utilizzati per l’addestramento dei modelli di ragionamento, ma applicati a compiti più reali.

Il progetto Deep Research è iniziato con una demo originale di Isa Fulford e Yash Patil. Josh Tobin è rientrato in OpenAI circa sei mesi fa dopo aver lavorato in una startup, si è interessato profondamente al lavoro di base e si è unito al progetto Deep Research.

Individui chiave:

  • Isa Fulford: Ricercatrice AI nel team di post-training di OpenAI, uno dei principali contributori del plugin di recupero di ChatGPT.
  • Yash Patil: Membro del team del modello principale nel team di post-training di OpenAI, avendo abbandonato Stanford.
  • Josh Tobin: In precedenza Research Scientist presso OpenAI, ha poi fondato Gantry (un prodotto per migliorare il ML attraverso analisi, avvisi e feedback umani). È rientrato in OpenAI e attualmente guida il team di ricerca sui prodotti Agents.

Flusso di chiarimento

Deep Research presenta un design unico: il flusso di chiarimento. Prima di iniziare la ricerca, il modello Deep Research pone domande all’utente. In genere, ChatGPT pone solo domande di follow-up alla fine di una risposta o chiede se la risposta è soddisfacente, a differenza di Deep Research, che si impegna in questo comportamento in anticipo.

Questa è stata una scelta di progettazione deliberata da parte del team. Gli utenti ricevono le migliori risposte dal modello Deep Research solo quando le loro richieste sono molto chiare e dettagliate. Tuttavia, gli utenti spesso non forniscono tutte le informazioni nella loro richiesta iniziale. Pertanto, OpenAI voleva garantire che, dopo aver atteso 5 o 30 minuti, gli utenti ricevessero una risposta sufficientemente dettagliata e soddisfacente. Questo passaggio aggiuntivo è stato aggiunto per garantire che gli utenti forniscano tutti i dettagli necessari per il modello.

Molti utenti su X hanno menzionato l’interazione con o1 o o1 Pro prima per perfezionare le loro richieste. Una volta soddisfatti, inviano la richiesta a Deep Research.

La forma definitiva degli agenti

Negli ultimi mesi, OpenAI ha lanciato tre diverse versioni di Deep Research, tutte denominate Deep Research. Josh Tobin ritiene che, sebbene ogni prodotto abbia i suoi punti di forza e di debolezza, le differenze di qualità tra loro siano evidenti. In definitiva, ciò è dovuto al modo in cui i modelli sono costruiti, allo sforzo investito nella costruzione dei set di dati e all’uso dei modelli della serie O come motore. Ciò consente ai modelli Deep Research di essere ottimizzati, creando strumenti altamente intelligenti e di alta qualità.

Attualmente, Deep Research, O3 e Operator sono relativamente indipendenti. Tuttavia, OpenAI mira a far sì che gli utenti abbiano alla fine un unico agente definitivo in grado di eseguire ricerche sul web, utilizzare computer o completare altre attività desiderate, integrando tutte queste funzioni in modo più naturale.

L’addestramento end-to-end è la ragione fondamentale della potenza del modello

Il modello sottostante di Deep Research è una versione ottimizzata di O3. O3 è il modello di ragionamento più avanzato di OpenAI e gran parte della capacità analitica di Deep Research deriva da esso. OpenAI ha specificamente addestrato il modello Deep Research su complesse attività di navigazione e altre attività di ragionamento. Pertanto, Deep Research può anche utilizzare strumenti di navigazione e strumenti Python. Attraverso l’addestramento end-to-end su queste attività, Deep Research ha appreso strategie per gestirle, rendendo il modello eccellente nell’analisi della ricerca online.

Intuitivamente, un utente fa una richiesta e il modello prima ci pensa attentamente. Quindi, cerca informazioni pertinenti, le estrae e le legge. Dopo aver compreso come queste informazioni si relazionano alla richiesta, il modello decide cosa cercare dopo per avvicinarsi alla risposta finale desiderata dall’utente. Deep Research può integrare tutte queste informazioni in un report ordinato, con citazioni che rimandano alle fonti originali.

L’innovazione che conferisce a Deep Research le sue capacità di agente risiede nell’addestramento end-to-end del modello da parte di OpenAI. Ciò significa che molte operazioni durante il processo di ricerca sono imprevedibili in anticipo. È impossibile ottenere la flessibilità che il modello acquisisce attraverso l’addestramento scrivendo un modello linguistico, un programma o uno script. Attraverso l’addestramento, il modello Deep Research ha imparato a reagire alle informazioni web in tempo reale e ad adattare le strategie tempestivamente in base a ciò che vede. Pertanto, il modello Deep Research sta effettivamente conducendo ricerche molto creative. Gli utenti possono vedere quanto sia intelligente il modello nel decidere cosa cercare dopo o come aggirare determinati problemi leggendo i riassunti del CoT.

Differenze tra Deep Research e la ricerca AI

Per quanto riguarda la domanda di John Collison su quanta parte della capacità di Deep Research derivi dall’accesso in tempo reale ai contenuti web e quanta dal CoT, i due ricercatori di OpenAI ritengono che l’eccezionale capacità di Deep Research sia il risultato della combinazione di entrambi.

Altri prodotti di ricerca AI non sono addestrati end-to-end, quindi non sono così flessibili nel rispondere alle informazioni come Deep Research, né sono così creativi nel risolvere problemi specifici.

Prima di entrare in OpenAI, Josh Tobin ha lavorato in una startup e ha cercato di costruire agenti nel modo in cui la maggior parte delle persone descrive la loro costruzione, essenzialmente costruendo un grafo di operazioni con LLM che intervengono in alcuni nodi. Mentre l’LLM può decidere cosa fare dopo, la logica dell’intera sequenza di passaggi è definita dagli umani.

Josh Tobin ha scoperto che questo è un metodo potente per la prototipazione rapida, ma ha rapidamente incontrato problemi nel mondo reale. È difficile prevedere tutte le situazioni che il modello potrebbe affrontare e considerare tutti i diversi rami di percorsi che potrebbe voler intraprendere. Inoltre, poiché questi modelli non sono specificamente addestrati per prendere decisioni, spesso non sono i migliori decisori ai nodi; sono addestrati a fare qualcosa di simile al processo decisionale.

Questo ribadisce che la vera potenza del modello Deep Research deriva dall’addestramento diretto end-to-end, con l’obiettivo di risolvere i compiti che gli utenti devono effettivamente risolvere. Pertanto, non è necessario impostare un grafo di operazioni o prendere decisioni sui nodi nell’architettura di background; tutto è guidato dal modello stesso.

Inoltre, se un utente ha un flusso di lavoro molto specifico e prevedibile, allora farlo nel modo descritto sopra da Josh Tobin è prezioso. Ma se è richiesta un’elaborazione molto flessibile, allora un approccio simile a Deep Research potrebbe essere la scelta migliore.

Josh Tobin suggerisce che alcune regole rigide non dovrebbero essere codificate nel modello. Se c’è un’esigenza come ‘non volere che il modello acceda a un determinato database’, è meglio implementarla con una logica scritta manualmente. Le persone spesso pensano di poter essere più intelligenti del modello scrivendo codice, ma in realtà, man mano che il campo si sviluppa, i modelli di solito trovano soluzioni migliori degli umani.

Una delle lezioni più importanti del machine learning è che i risultati che ottieni dipendono da ciò per cui ottimizzi. Quindi, se gli utenti possono impostare un sistema per ottimizzare direttamente il risultato desiderato, sarà molto meglio che cercare di mettere insieme modelli che non si adattano all’intero compito. Pertanto, l’ottimizzazione RL sulla base del modello complessivo potrebbe diventare una parte fondamentale della costruzione degli agenti più potenti.

I dati di alta qualità sono uno dei fattori chiave per il successo del modello

Uno dei fattori chiave per il successo del modello Deep Research è avere un set di dati di alta qualità. La qualità dei dati inseriti nel modello è probabilmente il fattore chiave che determina la qualità del modello. Nel progetto Deep Research, Edward Sun ottimizza tutti i set di dati.

Vantaggi di Deep Research

Il punto di forza di Deep Research risiede nella sua capacità di fornire le migliori risposte quando gli utenti hanno una descrizione dettagliata delle loro esigenze. Tuttavia, anche se la domanda dell’utente è vaga, Deep Research può chiarire le informazioni desiderate. È più potente quando gli utenti cercano un insieme specifico di informazioni.

Deep Research non è solo in grado di raccogliere ampiamente tutte le informazioni su una fonte, ma eccelle anche nel trovare fatti molto oscuri, come contenuti di coda lunga che non apparirebbero nelle prime pagine di una ricerca tradizionale, dettagli di un episodio specifico di un oscuro programma TV e così via. In una domanda su un generale austriaco, ChatGPT una volta ha dato la risposta sbagliata, mentre Deep Research ha trovato con successo quella corretta.

Deep Research è molto bravo a sintetizzare le informazioni, soprattutto nel trovare informazioni specifiche e difficili da trovare. Tuttavia, Deep Research non è altrettanto efficace nell’estrarre nuove intuizioni dalle informazioni esistenti e non può ancora fare nuove scoperte scientifiche.

Casi d’uso di Deep Research

Utenti target

Deep Research è progettato per chiunque sia impegnato in un lavoro di conoscenza nella propria vita quotidiana o lavorativa, in particolare coloro che hanno bisogno di raccogliere grandi quantità di informazioni, analizzare dati e prendere decisioni. Molti utenti applicano Deep Research al proprio lavoro, ad esempio nella ricerca, per comprendere la situazione in aree come mercati, aziende e immobili.

Casi d’uso

OpenAI spera che Deep Research possa servire sia scenari aziendali che di vita personale, poiché in realtà è una capacità molto versatile applicabile sia al lavoro che alla vita personale. L’attrattiva di Deep Research risiede nella sua capacità di risparmiare molto tempo. Alcune attività che potrebbero aver richiesto ore o addirittura giorni possono ora essere risolte al 90% con Deep Research. OpenAI ritiene che ci saranno più attività simili in scenari aziendali, ma Deep Research diventerà anche parte della vita personale delle persone.

Deep Research non si tratta di sostituire la forza lavoro. Per il lavoro di conoscenza, in particolare le attività che richiedono molto tempo per trovare informazioni e trarre conclusioni, Deep Research darà alle persone superpoteri, consentendo di completare in 5 minuti attività che potrebbero aver richiesto 4 o 8 ore, consentendo agli utenti di ottenere di più.

L’intervista ha menzionato casi d’uso tra cui: medicina, investimenti e altri scenari di lavoro professionale; shopping, viaggi e altri scenari familiari; programmazione ed educazione personalizzata.

  • Medicina, investimenti e altri scenari di lavoro professionale

    In medicina, Deep Research può aiutare a trovare tutta la letteratura o i casi recenti di una determinata malattia, risparmiando così tempo.

    Negli investimenti, con l’aiuto di Deep Research, gli investitori possono scegliere di ricercare ogni potenziale startup in cui potrebbero investire, non solo quelle con cui hanno tempo di incontrarsi.

    Nelle operazioni aziendali, un utente che sta valutando di avviare un’azienda di beni di consumo ha utilizzato ampiamente Deep Research per determinare se nomi di marchi specifici sono già stati registrati, se i nomi di dominio sono occupati, le dimensioni del mercato e varie altre informazioni.

  • Shopping, viaggi e altri scenari familiari

    Un utente che stava valutando di acquistare una nuova auto voleva sapere quando sarebbe stato rilasciato il modello successivo. C’erano molti articoli speculativi online, quindi l’utente ha chiesto a Deep Research di compilare tutte le voci pertinenti. Deep Research ha prodotto un rapporto eccellente, informando l’utente che una nuova auto potrebbe essere rilasciata nei prossimi mesi.

    Quando Deep Research è stato lanciato in Giappone, gli utenti l’hanno trovato molto utile per trovare ristoranti che soddisfacessero requisiti specifici e potrebbe anche aiutare gli utenti a scoprire cose che altrimenti non avrebbero trovato.

    Quando gli utenti devono acquistare un articolo costoso, pianificare un viaggio speciale o dedicare molto tempo a pensare a un problema, potrebbero passare ore online a cercare informazioni pertinenti, sfogliando tutte le recensioni, ecc. Deep Research può organizzare rapidamente queste informazioni, creare un rapporto di riepilogo e fornire consigli dettagliati e personalizzati.

    Le madri lavoratrici impegnate spesso non hanno tempo per pianificare le feste di compleanno dei loro figli, ma ora possono farlo rapidamente con l’aiuto di Deep Research.

    Deep Research è anche eccellente nel seguire le istruzioni. Se gli utenti non solo vogliono conoscere un prodotto, ma vogliono anche confrontarlo con tutti gli altri prodotti, o addirittura vogliono vedere le recensioni di siti web come Reddit, possono fare molte richieste diverse a Deep Research e completerà queste attività tutte in una volta. Gli utenti possono anche chiedere a Deep Research di inserire le informazioni in una tabella.

  • Programmazione

    Molte persone usano Deep Research per la programmazione. Questo scenario non è stato inizialmente considerato da OpenAI, ma molte persone lo stanno usando per scrivere codice, cercare codice, persino trovare la documentazione più recente per un pacchetto o scrivere script, con risultati impressionanti.

  • Istruzione

    L’istruzione personalizzata è uno scenario applicativo molto interessante. Se gli utenti hanno un argomento che vogliono imparare, come rivedere la biologia o comprendere gli eventi attuali, devono solo fornire le parti che non capiscono o le informazioni che vogliono approfondire e Deep Research può compilare un rapporto dettagliato. Forse in futuro sarà possibile fornire un’istruzione personalizzata in base a ciò che Deep Research apprende sull’utente.

Gli agenti emergeranno nel 2025

Future direzioni di sviluppo per Deep Research

In termini di forma del prodotto, OpenAI spera che Deep Research sarà in grado di incorporare immagini in futuro, trovare immagini di prodotti, generare grafici e incorporare questi grafici nelle risposte.

In termini di fonti di informazione, OpenAI spera di espandere le fonti di dati a cui il modello può accedere. Sperano che il modello sarà in grado di cercare dati privati in futuro. OpenAI migliorerà ulteriormente le capacità del modello, rendendolo migliore nella navigazione e nell’analisi.

In termini di accuratezza delle informazioni, per consentire agli utenti di fidarsi dell’output di Deep Research, gli utenti possono vedere le fonti di informazione citate dal modello. Durante il processo di addestramento del modello, OpenAI si impegna anche a garantire la correttezza delle citazioni, ma il modello potrebbe comunque commettere errori, allucinare o persino fidarsi di una fonte che potrebbe non essere la più credibile. Pertanto, questa è un’area che OpenAI spera di continuare a migliorare.

Per integrarsi più ampiamente nella roadmap di OpenAI Agent, OpenAI spera che Deep Research possa essere esteso a molti diversi scenari applicativi, combinando i modelli di ragionamento più avanzati con strumenti che gli umani possono utilizzare per completare attività lavorative o di vita quotidiana, e quindi ottimizzando direttamente il modello per ottenere i risultati che gli utenti desiderano che l’agente raggiunga.

In questa fase, in realtà non c’è nulla che impedisca a Deep Research di espandersi a scenari di attività più complessi. L’AGI è ora un problema operativo e ci saranno molti sviluppi entusiasmanti da aspettarsi in futuro.

Sam Altman ritiene che le attività che Deep Research può completare rappresenteranno una piccola percentuale di tutte le attività economicamente valide nel mondo. Josh Tobin ritiene che Deep Research non possa fare tutto il lavoro per gli utenti, ma può far risparmiare agli utenti diverse ore o addirittura giorni. OpenAI spera che un obiettivo relativamente vicino sia che Deep Research e gli agenti costruiti successivamente, così come altri agenti costruiti su questa base, facciano risparmiare agli utenti l’1%, il 5%, il 10% o il 25% del loro tempo, a seconda del tipo di lavoro che svolgono.

Agent & RL

Isa Fulford e Josh Tobin concordano sul fatto che gli agenti emergeranno quest’anno.

La RL ha vissuto un picco, poi sembra aver avuto un po’ di calo, e ora sta ricevendo di nuovo attenzione. Yann LeCun una volta ha fatto un’analogia: se le persone stanno facendo una torta, la maggior parte sarà torta, ci sarà un po’ di glassa e infine qualche ciliegina sopra. L’apprendimento non supervisionato è come la torta, l’apprendimento supervisionato è la glassa e la RL è la ciliegina.

Josh Tobin ritiene che quando si faceva RL nel 2015-2016, usando l’analogia della torta, si potrebbe aver cercato di aggiungere la ciliegina senza la torta. Ma ora, ci sono modelli linguistici pre-addestrati su grandi quantità di dati, questi modelli sono molto potenti e sappiamo come eseguire un’ottimizzazione supervisionata su questi modelli linguistici per renderli bravi a eseguire istruzioni e a fare ciò che le persone vogliono. Ora tutto funziona molto bene ed è molto adatto per regolare questi modelli in base a funzioni di ricompensa definite dall’utente per qualsiasi caso d’uso.