Deep Research: Agente Todo-en-Uno

El Segundo Agente de OpenAI

Hace tres semanas, OpenAI presentó Deep Research, su segundo agente. Este agente puede buscar en múltiples sitios web y completar investigaciones online exhaustivas en 5-30 minutos, sintetizando información y proporcionando informes detallados con citas.

Este artículo recopila y organiza una entrevista de Sequoia Capital con Isa Fulford y Josh Tobin, los líderes de Deep Research de OpenAI. Los dos miembros comparten en detalle los aspectos técnicos específicos y el pensamiento de producto detrás de Deep Research, junto con los casos de uso que están observando actualmente.

Deep Research se originó a partir de la exploración interna de OpenAI sobre la capacidad del modelo para manejar tareas a largo plazo. El objetivo a largo plazo del equipo es proporcionar a los usuarios el agente definitivo en el futuro: una solución natural todo en uno para la búsqueda web, el uso de la computadora o cualquier otra tarea que deseen que el agente complete.

Deep Research también se ha optimizado específicamente a nivel de producto. Por ejemplo, como se menciona en nuestro análisis de DeepSeek, Deep Research mejora la confianza del usuario a través de citas claras y Chain-of-Thought (CoT). El equipo también ha diseñado un flujo de aclaración para garantizar una comprensión consistente de la tarea. Deep Research supera a la búsqueda con IA y a ChatGPT en la recuperación y organización de la información. Sin embargo, en esta etapa, Deep Research no es tan eficaz para extraer nuevas ideas a partir de la información existente y aún no puede realizar nuevos descubrimientos científicos.

Puntos Clave:

  • OpenAI ha lanzado su segundo agente, Deep Research, capaz de realizar investigaciones online exhaustivas.
  • Las capacidades del agente provienen del entrenamiento end-to-end del modelo.
  • Deep Research destaca en la síntesis de información y en la búsqueda de datos específicos.
  • Los casos de uso abarcan el trabajo profesional, la vida personal, la programación y la educación.
  • El equipo anticipa avances significativos para los agentes en 2025.

Las Capacidades del Agente Provienen del Entrenamiento End-to-End del Modelo

Deep Research es un agente capaz de buscar en múltiples sitios web online y generar informes completos, completando muchas tareas que a los humanos les llevarían horas. Operando dentro de ChatGPT, responde preguntas en aproximadamente 5-30 minutos, permitiendo una investigación más profunda y proporcionando respuestas más detalladas y específicas que ChatGPT estándar. OpenAI lanzó previamente Operator, y Deep Research es su segundo agente, con más por venir.

Orígenes

Hace aproximadamente un año, OpenAI comenzó a adoptar un paradigma de razonamiento internamente, con el objetivo de entrenar modelos para pensar antes de responder. Este enfoque resultó ser muy exitoso.

Inicialmente, OpenAI se centró en Matemáticas y Ciencias. Sin embargo, descubrieron que esta nueva arquitectura de modelo de razonamiento también desbloqueaba la capacidad de manejar tareas a más largo plazo, involucrando capacidades de agente.

Simultáneamente, OpenAI reconoció que muchas tareas requieren una extensa investigación online o contexto externo, fuertes habilidades de razonamiento, discernimiento de las fuentes de información y un grado de creatividad. Finalmente, OpenAI desarrolló métodos de entrenamiento de modelos capaces de manejar estas tareas. Decidieron entrenar modelos para realizar tareas de navegación, utilizando los mismos métodos que para entrenar modelos de razonamiento, pero aplicados a tareas más del mundo real.

El proyecto Deep Research comenzó con una demostración original de Isa Fulford y Yash Patil. Josh Tobin se reincorporó a OpenAI hace unos seis meses después de trabajar en una startup, se interesó profundamente en el trabajo fundamental y se unió al proyecto Deep Research.

Individuos Clave:

  • Isa Fulford: Investigadora de IA en el equipo de Post-entrenamiento de OpenAI, una de las principales contribuyentes al ChatGPT Retrieval Plugin.
  • Yash Patil: Miembro del equipo central del modelo en el equipo de Post-entrenamiento de OpenAI, habiendo abandonado Stanford.
  • Josh Tobin: Anteriormente fue científico investigador en OpenAI, luego fundó Gantry (un producto para mejorar el ML a través del análisis, las alertas y la retroalimentación humana). Se reincorporó a OpenAI y actualmente lidera el equipo de investigación de productos de Agentes.

Flujo de Aclaración

Deep Research presenta un diseño único: el flujo de aclaración. Antes de comenzar la investigación, el modelo Deep Research hace preguntas al usuario. Normalmente, ChatGPT solo hace preguntas de seguimiento al final de una respuesta o pregunta si la respuesta es satisfactoria, a diferencia de Deep Research, que se involucra en este comportamiento por adelantado.

Esta fue una elección de diseño deliberada por parte del equipo. Los usuarios reciben las mejores respuestas del modelo Deep Research solo cuando sus indicaciones son muy claras y detalladas. Sin embargo, los usuarios a menudo no proporcionan toda la información en su indicación inicial. Por lo tanto, OpenAI quería asegurarse de que después de esperar 5 o 30 minutos, los usuarios recibieran una respuesta suficientemente detallada y satisfactoria. Se añadió este paso adicional para asegurar que los usuarios proporcionen todos los detalles necesarios para el modelo.

Muchos usuarios en X han mencionado interactuar primero con o1 u o1 Pro para refinar sus indicaciones. Una vez satisfechos, envían la indicación a Deep Research.

La Forma Definitiva de los Agentes

En los últimos meses, OpenAI ha lanzado tres versiones diferentes de Deep Research, todas llamadas Deep Research. Josh Tobin cree que, si bien cada producto tiene sus fortalezas y debilidades, las diferencias de calidad entre ellos son evidentes. En última instancia, esto se debe a cómo se construyen los modelos, el esfuerzo invertido en la construcción de los conjuntos de datos y el uso de modelos de la serie O como motor. Esto permite que los modelos Deep Research se optimicen, creando herramientas altamente inteligentes y de alta calidad.

Actualmente, Deep Research, O3 y Operator son relativamente independientes. Sin embargo, OpenAI apunta a que los usuarios eventualmente tengan un único agente definitivo que pueda realizar búsquedas web, usar computadoras o completar otras tareas deseadas, integrando todas estas funciones de una manera más natural.

El Entrenamiento End-to-End es la Razón Fundamental del Poder del Modelo

El modelo subyacente de Deep Research es una versión afinada de O3. O3 es el modelo de razonamiento más avanzado de OpenAI, y gran parte de la capacidad analítica de Deep Research proviene de él. OpenAI entrenó específicamente el modelo Deep Research en tareas complejas de navegación y otras tareas de razonamiento. Por lo tanto, Deep Research también puede usar herramientas de navegación y herramientas de Python. A través del entrenamiento end-to-end en estas tareas, Deep Research aprendió estrategias para manejarlas, lo que finalmente hace que el modelo sobresalga en el análisis de búsqueda online.

Intuitivamente, un usuario hace una solicitud y el modelo primero piensa cuidadosamente en ella. Luego, busca información relevante, la extrae y la lee. Después de comprender cómo esta información se relaciona con la solicitud, el modelo decide qué buscar a continuación para acercarse a la respuesta final deseada por el usuario. Deep Research puede integrar toda esta información en un informe ordenado, con citas que apuntan a las fuentes originales.

La innovación que le da a Deep Research sus capacidades de agente radica en el entrenamiento end-to-end del modelo por parte de OpenAI. Esto significa que muchas operaciones durante el proceso de investigación son impredecibles de antemano. Es imposible lograr la flexibilidad que el modelo gana a través del entrenamiento escribiendo un modelo de lenguaje, programa o script. A través del entrenamiento, el modelo Deep Research aprendió cómo reaccionar a la información web en tiempo real y ajustar las estrategias rápidamente en función de lo que ve. Por lo tanto, el modelo Deep Research en realidad está realizando búsquedas muy creativas. Los usuarios pueden ver cuán inteligente es el modelo al decidir qué buscar a continuación o cómo sortear ciertos problemas leyendo los resúmenes del CoT.

Diferencias entre Deep Research y la Búsqueda con IA

Con respecto a la pregunta de John Collison sobre qué parte de la capacidad de Deep Research proviene del acceso en tiempo real al contenido web y qué parte del CoT, los dos investigadores de OpenAI creen que la capacidad sobresaliente de Deep Research es el resultado de la combinación de ambos.

Otros productos de búsqueda con IA no están entrenados end-to-end, por lo que no son tan flexibles para responder a la información como Deep Research, ni son tan creativos para resolver problemas específicos.

Antes de unirse a OpenAI, Josh Tobin trabajó en una startup e intentó construir agentes de la forma en que la mayoría de la gente describe construirlos, esencialmente construyendo un grafo de operaciones con LLMs interviniendo en algunos nodos. Si bien el LLM puede decidir qué hacer a continuación, la lógica de toda la secuencia de pasos está definida por humanos.

Josh Tobin descubrió que este era un método poderoso para la creación rápida de prototipos, pero rápidamente encontró problemas en el mundo real. Es difícil prever todas las situaciones que el modelo podría enfrentar y considerar todas las diferentes ramas de caminos que podría querer tomar. Además, dado que estos modelos no están específicamente entrenados para tomar decisiones, a menudo no son los mejores tomadores de decisiones en los nodos; están entrenados para hacer algo similar a la toma de decisiones.

Esto reitera que el verdadero poder del modelo Deep Research proviene del entrenamiento directo end-to-end, con el objetivo de resolver las tareas que los usuarios realmente necesitan resolver. Por lo tanto, no hay necesidad de configurar un grafo de operaciones o tomar decisiones de nodo en la arquitectura de fondo; todo está impulsado por el modelo mismo.

Además, si un usuario tiene un flujo de trabajo muy específico y predecible, entonces hacerlo de la manera que Josh Tobin describió anteriormente es valioso. Pero si se requiere un procesamiento muy flexible, entonces un enfoque similar a Deep Research podría ser la mejor opción.

Josh Tobin sugiere que algunas reglas estrictas no deberían estar codificadas en el modelo. Si existe una necesidad como ‘no querer que el modelo acceda a una determinada base de datos’, es mejor implementarlo con lógica escrita manualmente. La gente a menudo piensa que puede ser más inteligente que el modelo escribiendo código, pero en realidad, a medida que el campo se desarrolla, los modelos generalmente encuentran mejores soluciones que los humanos.

Una de las lecciones más importantes del aprendizaje automático es que los resultados que obtienes dependen de lo que optimices. Entonces, si los usuarios pueden configurar un sistema para optimizar directamente el resultado deseado, será mucho mejor que intentar unir modelos que no se ajustan a toda la tarea. Por lo tanto, el ajuste de RL sobre la base general del modelo puede convertirse en una parte clave de la construcción de los agentes más poderosos.

Los Datos de Alta Calidad son Uno de los Factores Clave para el Éxito del Modelo

Uno de los factores clave para el éxito del modelo Deep Research es tener un conjunto de datos de alta calidad. La calidad de los datos ingresados en el modelo es probablemente el factor clave que determina la calidad del modelo. En el proyecto Deep Research, Edward Sun optimiza todos los conjuntos de datos.

Ventajas de Deep Research

La fortaleza de Deep Research radica en su capacidad para proporcionar las mejores respuestas cuando los usuarios tienen una descripción detallada de sus necesidades. Sin embargo, incluso si la pregunta del usuario es vaga, Deep Research puede aclarar la información deseada. Es más poderoso cuando los usuarios buscan un conjunto específico de información.

Deep Research no solo es capaz de recopilar ampliamente toda la información sobre una fuente, sino que también sobresale en la búsqueda de datos muy específicos, como contenido de cola larga que no aparecería en las primeras páginas en una búsqueda tradicional, detalles de un episodio específico de un programa de televisión poco conocido, etc. En una pregunta sobre un general austriaco, ChatGPT una vez dio la respuesta incorrecta, mientras que Deep Research encontró con éxito la correcta.

Deep Research es muy bueno para sintetizar información, especialmente para encontrar información específica y difícil de encontrar. Sin embargo, Deep Research no es tan eficaz para extraer nuevas ideas a partir de la información existente y aún no puede realizar nuevos descubrimientos científicos.

Casos de Uso de Deep Research

Usuarios Objetivo

Deep Research está diseñado para cualquier persona que realice trabajo de conocimiento en su trabajo diario o en su vida, particularmente aquellos que necesitan recopilar grandes cantidades de información, analizar datos y tomar decisiones. Muchos usuarios aplican Deep Research a su trabajo, como en la investigación, para comprender la situación en áreas como mercados, empresas y bienes raíces.

Casos de Uso

OpenAI espera que Deep Research pueda servir tanto para escenarios comerciales como personales, ya que en realidad es una capacidad muy versátil aplicable tanto al trabajo como a la vida personal. El atractivo de Deep Research radica en su capacidad para ahorrar mucho tiempo. Algunas tareas que podrían haber llevado horas o incluso días ahora pueden ser respondidas en un 90% con Deep Research. OpenAI cree que habrá más tareas similares en escenarios comerciales, pero Deep Research también se convertirá en parte de la vida personal de las personas.

Deep Research no se trata de reemplazar a la fuerza laboral. Para el trabajo de conocimiento, especialmente las tareas que requieren mucho tiempo para encontrar información y sacar conclusiones, Deep Research empoderará a las personas con superpoderes, permitiendo que las tareas que podrían haber llevado 4 u 8 horas se completen en 5 minutos, permitiendo a los usuarios lograr más.

La entrevista mencionó casos de uso que incluyen: medicina, inversión y otros escenarios de trabajo profesional; compras, viajes y otros escenarios familiares; programación y educación personalizada.

  • Medicina, Inversión y Otros Escenarios de Trabajo Profesional

    En medicina, Deep Research puede ayudar a encontrar toda la literatura o casos recientes de una determinada enfermedad, ahorrando así tiempo.

    En inversión, con la ayuda de Deep Research, los inversores pueden optar por investigar cada startup potencial en la que podrían invertir, no solo aquellas con las que tienen tiempo para reunirse.

    En las operaciones de la empresa, un usuario que está considerando iniciar una empresa de bienes de consumo ha estado utilizando ampliamente Deep Research para determinar si los nombres de marca específicos ya han sido registrados, si los nombres de dominio están ocupados, el tamaño del mercado y otra información diversa.

  • Compras, Viajes y Otros Escenarios Familiares

    Un usuario que estaba considerando comprar un coche nuevo quería saber cuándo se lanzaría el próximo modelo. Había muchos artículos especulativos online, por lo que el usuario le pidió a Deep Research que compilara todos los rumores relevantes. Deep Research produjo un excelente informe, informando al usuario que un nuevo coche podría ser lanzado en los próximos meses.

    Cuando Deep Research se lanzó en Japón, los usuarios lo encontraron muy útil para encontrar restaurantes que cumplieran con requisitos específicos y también podía ayudar a los usuarios a descubrir cosas que de otro modo no habrían encontrado.

    Cuando los usuarios necesitan comprar un artículo caro, planificar un viaje especial o pasar mucho tiempo pensando en un problema, pueden pasar horas online buscando información relevante, navegando por todas las reseñas, etc. Deep Research puede organizar rápidamente esta información, crear un informe resumido y proporcionar consejos detallados y personalizados.

    Las madres trabajadoras ocupadas a menudo no tienen tiempo para planificar fiestas de cumpleaños para sus hijos, pero ahora pueden hacerlo rápidamente con la ayuda de Deep Research.

    Deep Research también es excelente para seguir instrucciones. Si los usuarios no solo quieren saber sobre un producto, sino que también quieren compararlo con todos los demás productos, o incluso quieren ver reseñas de sitios web como Reddit, pueden hacer muchas solicitudes diferentes a Deep Research, y completará estas tareas de una sola vez. Los usuarios también pueden pedirle a Deep Research que ponga la información en una tabla.

  • Programación

    Muchas personas usan Deep Research para programar. Este escenario no fue considerado inicialmente por OpenAI, pero muchas personas lo están usando para escribir código, buscar código, incluso encontrar la documentación más reciente para un paquete, o escribir scripts, con resultados impresionantes.

  • Educación

    La educación personalizada es un escenario de aplicación muy interesante. Si los usuarios tienen un tema que quieren aprender, como repasar biología o comprender los eventos actuales, solo necesitan proporcionar las partes que no entienden o la información en la que quieren profundizar, y Deep Research puede compilar un informe detallado. Quizás en el futuro, sea posible proporcionar educación personalizada basada en lo que Deep Research aprende sobre el usuario.

Los Agentes Surgirán en 2025

Direcciones Futuras de Desarrollo para Deep Research

En términos de forma de producto, OpenAI espera que Deep Research pueda incrustar imágenes en el futuro, encontrar imágenes de productos, generar gráficos e incrustar estos gráficos en las respuestas.

En términos de fuentes de información, OpenAI espera expandir las fuentes de datos a las que el modelo puede acceder. Esperan que el modelo pueda buscar datos privados en el futuro. OpenAI mejorará aún más las capacidades del modelo, haciéndolo mejor en la navegación y el análisis.

En términos de precisión de la información, para permitir que los usuarios confíen en la salida de Deep Research, los usuarios pueden ver las fuentes de información citadas por el modelo. Durante el proceso de entrenamiento del modelo, OpenAI también se esfuerza por garantizar la corrección de las citas, pero el modelo aún puede cometer errores, alucinar o incluso confiar en una fuente que puede no ser la más creíble. Por lo tanto, esta es un área que OpenAI espera seguir mejorando.

Para integrarse más ampliamente en la hoja de ruta de OpenAI Agent, OpenAI espera que Deep Research pueda extenderse a muchos escenarios de aplicación diferentes, combinando los modelos de razonamiento más avanzados con herramientas que los humanos pueden usar para completar tareas de trabajo o de la vida diaria, y luego optimizar directamente el modelo para lograr los resultados que los usuarios quieren que el agente logre.

En esta etapa, en realidad no hay nada que impida que Deep Research se expanda a escenarios de tareas más complejos. La AGI es ahora un problema operativo, y habrá muchos desarrollos emocionantes que esperar en el futuro.

Sam Altman cree que las tareas que Deep Research puede completar representarán un pequeño porcentaje de todas las tareas económicamente viables en el mundo. Josh Tobin cree que Deep Research no puede hacer todo el trabajo por los usuarios, pero puede ahorrarles a los usuarios varias horas o incluso días. OpenAI espera que un objetivo relativamente cercano sea que Deep Research y los agentes construidos a continuación, así como otros agentes construidos sobre esta base, ahorren a los usuarios el 1%, 5%, 10% o 25% de su tiempo, dependiendo del tipo de trabajo que realicen.

Agente y RL

Isa Fulford y Josh Tobin están de acuerdo en que los agentes surgirán este año.

RL experimentó un pico, luego pareció tener un poco de depresión, y ahora está recibiendo atención nuevamente. Yann LeCun una vez tuvo una analogía: si la gente está haciendo un pastel, la mayor parte es pastel, habrá un poco de glaseado y finalmente algunas cerezas encima. El aprendizaje no supervisado es como el pastel, el aprendizaje supervisado es el glaseado y RL es la cereza.

Josh Tobin cree que cuando se hacía RL en 2015-2016, usando la analogía del pastel, podría haber sido intentar agregar la cereza sin el pastel. Pero ahora, hay modelos de lenguaje pre-entrenados en grandes cantidades de datos, estos modelos son muy poderosos, y sabemos cómo realizar un ajuste fino supervisado en estos modelos de lenguaje para que sean buenos ejecutando instrucciones y haciendo lo que la gente quiere. Ahora todo funciona muy bien, y es muy adecuado ajustar estos modelos de acuerdo con las funciones de recompensa definidas por el usuario para cualquier caso de uso.