Le deuxième agent d'OpenAI
Il y a trois semaines, OpenAI a présenté Deep Research, son deuxième agent. Cet agent peut effectuer des recherches sur plusieurs sites web et réaliser des recherches en ligne complètes en 5 à 30 minutes, en synthétisant les informations et en fournissant des rapports détaillés avec des citations.
Cet article compile et organise une interview de Sequoia Capital avec Isa Fulford et Josh Tobin, les responsables de Deep Research chez OpenAI. Les deux membres partagent en détail les spécificités techniques et la réflexion produit derrière Deep Research, ainsi que les cas d’utilisation qu’ils observent actuellement.
Deep Research est né de l’exploration interne d’OpenAI sur la capacité du modèle à gérer des tâches à long terme. L’objectif à long terme de l’équipe est de fournir aux utilisateurs l’agent ultime à l’avenir : une solution tout-en-un naturelle pour la recherche sur le web, l’utilisation de l’ordinateur ou toute autre tâche qu’ils souhaitent confier à l’agent.
Deep Research a également été spécifiquement optimisé au niveau du produit. Par exemple, comme mentionné dans notre analyse de DeepSeek, Deep Research renforce la confiance des utilisateurs grâce à des citations claires et à la chaîne de pensée (Chain-of-Thought, CoT). L’équipe a également conçu un flux de clarification pour assurer une compréhension cohérente de la tâche. Deep Research surpasse la recherche AI et ChatGPT en matière de récupération et d’organisation de l’information. Cependant, à ce stade, Deep Research n’est pas aussi efficace pour extraire de nouvelles informations à partir d’informations existantes et ne peut pas encore faire de nouvelles découvertes scientifiques.
Points clés :
- OpenAI a lancé son deuxième agent, Deep Research, capable d’investigations en ligne approfondies.
- Les capacités de l’agent découlent de la formation de bout en bout du modèle.
- Deep Research excelle dans la synthèse d’informations et la recherche de faits obscurs.
- Les cas d’utilisation couvrent le travail professionnel, la vie personnelle, la programmation et l’éducation.
- L’équipe prévoit des avancées significatives pour les agents en 2025.
Les capacités de l'agent découlent de la formation de bout en bout du modèle
Deep Research est un agent capable de rechercher sur plusieurs sites web en ligne et de générer des rapports complets, accomplissant de nombreuses tâches qui prendraient des heures à des humains. Fonctionnant au sein de ChatGPT, il répond aux questions en 5 à 30 minutes environ, permettant des recherches plus approfondies et fournissant des réponses plus détaillées et spécifiques que ChatGPT standard. OpenAI avait précédemment lancé Operator, et Deep Research est son deuxième agent, d’autres suivront.
Origines
Il y a environ un an, OpenAI a commencé à adopter un paradigme de raisonnement en interne, visant à former les modèles à réfléchir avant de répondre. Cette approche s’est avérée très fructueuse.
Initialement, OpenAI s’est concentré sur les mathématiques et les sciences. Cependant, ils ont découvert que cette nouvelle architecture de modèle de raisonnement débloquait également la capacité à gérer des tâches à plus long terme, impliquant des capacités d’agent.
Simultanément, OpenAI a reconnu que de nombreuses tâches nécessitent des recherches en ligne approfondies ou un contexte externe, de solides capacités de raisonnement, un discernement des sources d’information et un certain degré de créativité. Finalement, OpenAI a développé des méthodes de formation de modèles capables de gérer ces tâches. Ils ont décidé de former des modèles à effectuer des tâches de navigation, en utilisant les mêmes méthodes que pour la formation de modèles de raisonnement, mais appliquées à des tâches plus concrètes.
Le projet Deep Research a commencé avec une démo originale d’Isa Fulford et Yash Patil. Josh Tobin a rejoint OpenAI il y a environ six mois après avoir travaillé dans une startup, s’est profondément intéressé au travail fondamental et a rejoint le projet Deep Research.
Personnes clés :
- Isa Fulford : Chercheuse en IA dans l’équipe Post-training d’OpenAI, contributrice majeure au plugin de récupération ChatGPT.
- Yash Patil : Membre de l’équipe modèle de base dans l’équipe Post-training d’OpenAI, ayant abandonné Stanford.
- Josh Tobin : Auparavant chercheur scientifique chez OpenAI, a ensuite fondé Gantry (un produit pour améliorer le ML grâce à l’analyse, aux alertes et aux commentaires humains). Il a rejoint OpenAI et dirige actuellement l’équipe de recherche sur les produits Agents.
Flux de clarification
Deep Research présente une conception unique : le flux de clarification. Avant de commencer la recherche, le modèle Deep Research pose des questions à l’utilisateur. Généralement, ChatGPT ne pose des questions de suivi qu’à la fin d’une réponse ou demande si la réponse est satisfaisante, contrairement à Deep Research, qui adopte ce comportement dès le départ.
Il s’agissait d’un choix de conception délibéré de l’équipe. Les utilisateurs ne reçoivent les meilleures réponses du modèle Deep Research que lorsque leurs invites sont très claires et détaillées. Cependant, les utilisateurs ne fournissent souvent pas toutes les informations dans leur invite initiale. Par conséquent, OpenAI voulait s’assurer qu’après avoir attendu 5 ou 30 minutes, les utilisateurs recevraient une réponse suffisamment détaillée et satisfaisante. Cette étape supplémentaire a été ajoutée pour s’assurer que les utilisateurs fournissent tous les détails nécessaires au modèle.
De nombreux utilisateurs sur X ont mentionné interagir d’abord avec o1 ou o1 Pro pour affiner leurs invites. Une fois satisfaits, ils envoient l’invite à Deep Research.
La forme ultime des agents
Au cours des derniers mois, OpenAI a lancé trois versions différentes de Deep Research, toutes nommées Deep Research. Josh Tobin pense que, bien que chaque produit ait ses forces et ses faiblesses, les différences de qualité entre eux sont évidentes. En fin de compte, cela est dû à la façon dont les modèles sont construits, aux efforts investis dans la construction des ensembles de données et à l’utilisation des modèles de la série O comme moteur. Cela permet aux modèles Deep Research d’être optimisés, créant des outils très intelligents et de haute qualité.
Actuellement, Deep Research, O3 et Operator sont relativement indépendants. Cependant, OpenAI vise à ce que les utilisateurs disposent à terme d’un seul agent ultime capable d’effectuer des recherches sur le web, d’utiliser des ordinateurs ou d’accomplir d’autres tâches souhaitées, en intégrant toutes ces fonctions de manière plus naturelle.
La formation de bout en bout est la raison fondamentale de la puissance du modèle
Le modèle sous-jacent de Deep Research est une version affinée de O3. O3 est le modèle de raisonnement le plus avancé d’OpenAI, et une grande partie de la capacité analytique de Deep Research en provient. OpenAI a spécifiquement formé le modèle Deep Research sur des tâches de navigation complexes et d’autres tâches de raisonnement. Par conséquent, Deep Research peut également utiliser des outils de navigation et des outils Python. Grâce à une formation de bout en bout sur ces tâches, Deep Research a appris des stratégies pour les gérer, ce qui a finalement permis au modèle d’exceller dans l’analyse de recherche en ligne.
Intuitivement, un utilisateur fait une requête, et le modèle y réfléchit d’abord attentivement. Ensuite, il recherche des informations pertinentes, les extrait et les lit. Après avoir compris comment ces informations se rapportent à la requête, le modèle décide de ce qu’il doit rechercher ensuite pour se rapprocher de la réponse finale souhaitée par l’utilisateur. Deep Research peut intégrer toutes ces informations dans un rapport soigné, avec des citations pointant vers les sources originales.
L’innovation qui donne à Deep Research ses capacités d’agent réside dans la formation de bout en bout du modèle par OpenAI. Cela signifie que de nombreuses opérations pendant le processus de recherche sont imprévisibles à l’avance. Il est impossible d’obtenir la flexibilité que le modèle acquiert grâce à la formation en écrivant un modèle de langage, un programme ou un script. Grâce à la formation, le modèle Deep Research a appris à réagir aux informations web en temps réel et à ajuster rapidement ses stratégies en fonction de ce qu’il voit. Par conséquent, le modèle Deep Research effectue en réalité des recherches très créatives. Les utilisateurs peuvent voir à quel point le modèle est intelligent pour décider de ce qu’il doit rechercher ensuite ou comment contourner certains problèmes en lisant les résumés de la CoT.
Différences entre Deep Research et la recherche AI
Concernant la question de John Collison sur la part de la capacité de Deep Research provenant de l’accès en temps réel au contenu web et la part provenant de la CoT, les deux chercheurs d’OpenAI estiment que la capacité exceptionnelle de Deep Research est le résultat de la combinaison des deux.
Les autres produits de recherche AI ne sont pas formés de bout en bout, ils ne sont donc pas aussi flexibles pour répondre aux informations que Deep Research, ni aussi créatifs pour résoudre des problèmes spécifiques.
Avant de rejoindre OpenAI, Josh Tobin a travaillé dans une startup et a essayé de construire des agents de la manière dont la plupart des gens décrivent leur construction, en construisant essentiellement un graphe d’opérations avec des LLM intervenant à certains nœuds. Bien que le LLM puisse décider de ce qu’il faut faire ensuite, la logique de toute la séquence d’étapes est définie par les humains.
Josh Tobin a trouvé que c’était une méthode puissante pour le prototypage rapide, mais elle a rapidement rencontré des problèmes dans le monde réel. Il est difficile de prévoir toutes les situations auxquelles le modèle pourrait être confronté et de considérer toutes les différentes branches de chemins qu’il pourrait vouloir emprunter. De plus, comme ces modèles ne sont pas spécifiquement formés pour prendre des décisions, ils ne sont souvent pas les meilleurs décideurs aux nœuds ; ils sont formés pour faire quelque chose de similaire à la prise de décision.
Cela réitère que la véritable puissance du modèle Deep Research provient d’une formation directe de bout en bout, visant à résoudre les tâches que les utilisateurs ont réellement besoin de résoudre. Par conséquent, il n’est pas nécessaire de configurer un graphe d’opérations ou de prendre des décisions de nœud dans l’architecture d’arrière-plan ; tout est piloté par le modèle lui-même.
De plus, si un utilisateur a un flux de travail très spécifique et prévisible, alors le faire de la manière décrite ci-dessus par Josh Tobin est valable. Mais si un traitement très flexible est requis, alors une approche similaire à Deep Research pourrait être le meilleur choix.
Josh Tobin suggère que certaines règles strictes ne devraient pas être codées en dur dans le modèle. S’il y a un besoin comme “ne pas vouloir que le modèle accède à une certaine base de données”, il est préférable de l’implémenter avec une logique écrite manuellement. Les gens pensent souvent qu’ils peuvent être plus intelligents que le modèle en écrivant du code, mais en réalité, au fur et à mesure que le domaine se développe, les modèles proposent généralement de meilleures solutions que les humains.
L’une des leçons les plus importantes de l’apprentissage automatique est que les résultats que vous obtenez dépendent de ce que vous optimisez. Ainsi, si les utilisateurs peuvent mettre en place un système pour optimiser directement le résultat souhaité, ce sera bien mieux que d’essayer d’assembler des modèles qui ne correspondent pas à l’ensemble de la tâche. Par conséquent, le réglage RL sur la base globale du modèle pourrait devenir un élément clé de la construction des agents les plus puissants.
Des données de haute qualité sont l'un des facteurs clés du succès du modèle
L’un des facteurs clés du succès du modèle Deep Research est d’avoir un ensemble de données de haute qualité. La qualité des données entrées dans le modèle est probablement le facteur clé déterminant la qualité du modèle. Dans le projet Deep Research, Edward Sun optimise tous les ensembles de données.
Avantages de Deep Research
La force de Deep Research réside dans sa capacité à fournir les meilleures réponses lorsque les utilisateurs ont une description détaillée de leurs besoins. Cependant, même si la question de l’utilisateur est vague, Deep Research peut clarifier les informations souhaitées. Il est plus puissant lorsque les utilisateurs recherchent un ensemble spécifique d’informations.
Deep Research est non seulement capable de rassembler largement toutes les informations sur une source, mais excelle également à trouver des faits très obscurs, tels que du contenu de longue traîne qui n’apparaîtrait pas sur les premières pages d’une recherche traditionnelle, les détails d’un épisode spécifique d’une émission de télévision obscure, etc. Dans une question sur un général autrichien, ChatGPT a une fois donné la mauvaise réponse, tandis que Deep Research a réussi à trouver la bonne.
Deep Research est très bon pour synthétiser les informations, en particulier pour trouver des informations spécifiques et difficiles à trouver. Cependant, Deep Research n’est pas aussi efficace pour extraire de nouvelles informations à partir d’informations existantes et ne peut pas encore faire de nouvelles découvertes scientifiques.
Cas d'utilisation de Deep Research
Utilisateurs cibles
Deep Research est conçu pour toute personne engagée dans un travail de connaissance dans son travail quotidien ou sa vie, en particulier ceux qui ont besoin de rassembler de grandes quantités d’informations, d’analyser des données et de prendre des décisions. De nombreux utilisateurs appliquent Deep Research à leur travail, par exemple dans la recherche, pour comprendre la situation dans des domaines tels que les marchés, les entreprises et l’immobilier.
Cas d’utilisation
OpenAI espère que Deep Research pourra servir à la fois les scénarios professionnels et personnels, car il s’agit en fait d’une capacité très polyvalente applicable à la fois au travail et à la vie personnelle. L’attrait de Deep Research réside dans sa capacité à faire gagner beaucoup de temps. Certaines tâches qui auraient pu prendre des heures, voire des jours, peuvent désormais être résolues à 90 % avec Deep Research. OpenAI pense qu’il y aura davantage de tâches similaires dans les scénarios d’entreprise, mais Deep Research deviendra également une partie de la vie personnelle des gens.
Deep Research ne vise pas à remplacer la main-d’œuvre. Pour le travail de connaissance, en particulier les tâches qui nécessitent beaucoup de temps pour trouver des informations et tirer des conclusions, Deep Research donnera aux gens des superpouvoirs, permettant à des tâches qui auraient pu prendre 4 ou 8 heures d’être accomplies en 5 minutes, permettant aux utilisateurs d’en faire plus.
L’interview a mentionné des cas d’utilisation, notamment : les domaines médical, de l’investissement et d’autres domaines professionnels ; le shopping, les voyages et d’autres scénarios familiaux ; la programmation et l’éducation personnalisée.
Scénarios médicaux, d’investissement et autres scénarios professionnels
En médecine, Deep Research peut aider à trouver toute la littérature ou les cas récents d’une certaine maladie, ce qui permet de gagner du temps.
En matière d’investissement, avec l’aide de Deep Research, les investisseurs peuvent choisir de rechercher chaque startup potentielle dans laquelle ils pourraient investir, et pas seulement celles qu’ils ont le temps de rencontrer.
Dans le fonctionnement de l’entreprise, un utilisateur envisageant de démarrer une entreprise de biens de consommation a largement utilisé Deep Research pour déterminer si des noms de marque spécifiques ont déjà été enregistrés, si des noms de domaine sont occupés, la taille du marché et diverses autres informations.
Shopping, voyages et autres scénarios familiaux
Un utilisateur envisageant d’acheter une nouvelle voiture voulait savoir quand le prochain modèle serait commercialisé. Il y avait de nombreux articles spéculatifs en ligne, alors l’utilisateur a demandé à Deep Research de compiler toutes les rumeurs pertinentes. Deep Research a produit un excellent rapport, informant l’utilisateur qu’une nouvelle voiture pourrait être commercialisée dans les prochains mois.
Lorsque Deep Research a été lancé au Japon, les utilisateurs l’ont trouvé très utile pour trouver des restaurants qui répondaient à des exigences spécifiques et pouvaient également aider les utilisateurs à découvrir des choses qu’ils n’auraient peut-être pas trouvées autrement.
Lorsque les utilisateurs ont besoin d’acheter un article coûteux, de planifier un voyage spécial ou de passer beaucoup de temps à réfléchir à un problème, ils peuvent passer des heures en ligne à rechercher des informations pertinentes, à parcourir tous les avis, etc. Deep Research peut rapidement organiser ces informations, créer un rapport de synthèse et fournir des conseils détaillés et personnalisés.
Les mères qui travaillent et sont occupées n’ont souvent pas le temps de planifier les fêtes d’anniversaire de leurs enfants, mais elles peuvent désormais le faire rapidement avec l’aide de Deep Research.
Deep Research est également excellent pour suivre les instructions. Si les utilisateurs veulent non seulement connaître un produit, mais aussi le comparer à tous les autres produits, ou même voir les avis de sites web comme Reddit, ils peuvent faire de nombreuses demandes différentes à Deep Research, et il accomplira toutes ces tâches en une seule fois. Les utilisateurs peuvent également demander à Deep Research de mettre les informations dans un tableau.
Programmation
Beaucoup de gens utilisent Deep Research pour la programmation. Ce scénario n’avait pas été initialement envisagé par OpenAI, mais de nombreuses personnes l’utilisent pour écrire du code, rechercher du code, même trouver la documentation la plus récente pour un package, ou écrire des scripts, avec des résultats impressionnants.
Éducation
L’éducation personnalisée est un scénario d’application très intéressant. Si les utilisateurs ont un sujet qu’ils veulent apprendre, comme réviser la biologie ou comprendre l’actualité, ils n’ont qu’à fournir les parties qu’ils ne comprennent pas ou les informations qu’ils veulent approfondir, et Deep Research peut compiler un rapport détaillé. Peut-être qu’à l’avenir, il sera possible de fournir une éducation personnalisée basée sur ce que Deep Research apprend sur l’utilisateur.
Les agents émergeront en 2025
Orientations futures de développement pour Deep Research
En termes de forme de produit, OpenAI espère que Deep Research pourra intégrer des images à l’avenir, trouver des photos de produits, générer des graphiques et intégrer ces graphiques dans les réponses.
En termes de sources d’information, OpenAI espère étendre les sources de données auxquelles le modèle peut accéder. Ils espèrent que le modèle pourra rechercher des données privées à l’avenir. OpenAI améliorera encore les capacités du modèle, le rendant meilleur en navigation et en analyse.
En termes de précision de l’information, pour permettre aux utilisateurs de faire confiance aux résultats de Deep Research, les utilisateurs peuvent voir les sources d’information citées par le modèle. Pendant le processus de formation du modèle, OpenAI s’efforce également d’assurer l’exactitude des citations, mais le modèle peut encore faire des erreurs, halluciner ou même faire confiance à une source qui n’est peut-être pas la plus crédible. Par conséquent, c’est un domaine qu’OpenAI espère continuer à améliorer.
Pour s’intégrer plus largement dans la feuille de route OpenAI Agent, OpenAI espère que Deep Research pourra être étendu à de nombreux scénarios d’application différents, en combinant les modèles de raisonnement les plus avancés avec des outils que les humains peuvent utiliser pour accomplir des tâches professionnelles ou quotidiennes, puis en optimisant directement le modèle pour obtenir les résultats que les utilisateurs souhaitent que l’agent atteigne.
À ce stade, il n’y a en fait rien qui empêche Deep Research de s’étendre à des scénarios de tâches plus complexes. L’AGI est maintenant un problème opérationnel, et il y aura de nombreux développements passionnants à attendre à l’avenir.
Sam Altman pense que les tâches que Deep Research peut accomplir représenteront quelques pour cent de toutes les tâches économiquement viables dans le monde. Josh Tobin pense que Deep Research ne peut pas faire tout le travail pour les utilisateurs, mais il peut faire gagner aux utilisateurs plusieurs heures, voire plusieurs jours. OpenAI espère qu’un objectif relativement proche est que Deep Research et les agents construits ensuite, ainsi que d’autres agents construits sur cette base, fassent gagner aux utilisateurs 1 %, 5 %, 10 % ou 25 % de leur temps, selon le type de travail qu’ils effectuent.
Agent & RL
Isa Fulford et Josh Tobin conviennent que les agents émergeront cette année.
Le RL a connu un pic, puis a semblé avoir un creux, et reçoit maintenant à nouveau de l’attention. Yann LeCun a un jour fait une analogie : si les gens font un gâteau, la majeure partie est du gâteau, il y aura un peu de glaçage, et enfin quelques cerises sur le dessus. L’apprentissage non supervisé est comme le gâteau, l’apprentissage supervisé est le glaçage et le RL est la cerise.
Josh Tobin pense que lorsqu’on faisait du RL en 2015-2016, en utilisant l’analogie du gâteau, c’était peut-être essayer d’ajouter la cerise sans le gâteau. Mais maintenant, il existe des modèles de langage pré-entraînés sur de grandes quantités de données, ces modèles sont très puissants, et nous savons comment effectuer un réglage fin supervisé sur ces modèles de langage pour les rendre bons à exécuter des instructions et à faire ce que les gens veulent. Maintenant, tout fonctionne très bien, et il est très approprié d’ajuster ces modèles en fonction des fonctions de récompense définies par l’utilisateur pour n’importe quel cas d’utilisation.