O Segundo Agente da OpenAI
Há três semanas, a OpenAI apresentou o Deep Research, o seu segundo agente. Este agente pode pesquisar em vários websites e concluir pesquisas online abrangentes em 5 a 30 minutos, sintetizando informações e fornecendo relatórios detalhados com citações.
Este artigo compila e organiza uma entrevista da Sequoia Capital com Isa Fulford e Josh Tobin, os líderes do Deep Research da OpenAI. Os dois membros partilham em detalhe os aspetos técnicos específicos e o pensamento por trás do produto Deep Research, juntamente com os casos de uso que estão a observar atualmente.
O Deep Research originou-se da exploração interna da OpenAI sobre a capacidade do modelo de lidar com tarefas de longo prazo. O objetivo de longo prazo da equipa é fornecer aos utilizadores o agente definitivo no futuro: uma solução natural tudo-em-um para pesquisa na web, uso do computador ou quaisquer outras tarefas que desejem que o agente conclua.
O Deep Research também foi especificamente otimizado ao nível do produto. Por exemplo, como mencionado na nossa análise do DeepSeek, o Deep Research aumenta a confiança do utilizador através de citações claras e Chain-of-Thought (CoT). A equipa também projetou um fluxo de esclarecimento para garantir a compreensão consistente da tarefa. O Deep Research supera a pesquisa por IA e o ChatGPT na recuperação e organização de informações. No entanto, nesta fase, o Deep Research não é tão eficaz na extração de novos insights a partir de informações existentes e ainda não consegue fazer novas descobertas científicas.
Principais Conclusões:
- A OpenAI lançou o seu segundo agente, Deep Research, capaz de investigações online completas.
- As capacidades do agente resultam do treino end-to-end do modelo.
- O Deep Research destaca-se na síntese de informações e na descoberta de factos obscuros.
- Os casos de uso abrangem trabalho profissional, vida pessoal, programação e educação.
- A equipa antecipa avanços significativos para os agentes em 2025.
As Capacidades do Agente Resultam do Treino End-to-End do Modelo
O Deep Research é um agente capaz de pesquisar em vários websites online e gerar relatórios abrangentes, completando muitas tarefas que levariam horas para os humanos. Operando dentro do ChatGPT, ele responde a perguntas em aproximadamente 5 a 30 minutos, permitindo pesquisas mais aprofundadas e fornecendo respostas mais detalhadas e específicas do que o ChatGPT padrão. A OpenAI lançou anteriormente o Operator, e o Deep Research é o seu segundo agente, com mais por vir.
Origens
Há cerca de um ano, a OpenAI começou a adotar um paradigma de raciocínio internamente, com o objetivo de treinar modelos para pensar antes de responder. Esta abordagem provou ser altamente bem-sucedida.
Inicialmente, a OpenAI concentrou-se em Matemática e Ciências. No entanto, descobriram que esta nova arquitetura de modelo de raciocínio também desbloqueou a capacidade de lidar com tarefas de longo prazo, envolvendo capacidades de agente.
Simultaneamente, a OpenAI reconheceu que muitas tarefas exigem extensa pesquisa online ou contexto externo, fortes habilidades de raciocínio, discernimento de fontes de informação e um grau de criatividade. Em última análise, a OpenAI desenvolveu métodos de treino de modelo capazes de lidar com essas tarefas. Decidiram treinar modelos para realizar tarefas de navegação, usando os mesmos métodos que para treinar modelos de raciocínio, mas aplicados a tarefas mais do mundo real.
O projeto Deep Research começou com uma demonstração original de Isa Fulford e Yash Patil. Josh Tobin voltou à OpenAI há cerca de seis meses, depois de trabalhar numa startup, ficou profundamente interessado no trabalho fundamental e juntou-se ao projeto Deep Research.
Indivíduos-Chave:
- Isa Fulford: Investigadora de IA na equipa de Post-training da OpenAI, uma das principais contribuidoras para o ChatGPT Retrieval Plugin.
- Yash Patil: Membro da equipa principal do modelo na equipa de Post-training da OpenAI, tendo abandonado Stanford.
- Josh Tobin: Anteriormente Research Scientist na OpenAI, mais tarde fundou a Gantry (um produto para melhorar o ML através de análise, alertas e feedback humano). Ele voltou à OpenAI e atualmente lidera a equipa de pesquisa de produtos de Agentes.
Fluxo de Esclarecimento
O Deep Research apresenta um design único: o fluxo de esclarecimento. Antes de iniciar a pesquisa, o modelo Deep Research faz perguntas ao utilizador. Normalmente, o ChatGPT só faz perguntas de acompanhamento no final de uma resposta ou pergunta se a resposta é satisfatória, ao contrário do Deep Research, que se envolve nesse comportamento antecipadamente.
Esta foi uma escolha de design deliberada da equipa. Os utilizadores recebem as melhores respostas do modelo Deep Research apenas quando os seus prompts são muito claros e detalhados. No entanto, os utilizadores muitas vezes não fornecem todas as informações no seu prompt inicial. Portanto, a OpenAI queria garantir que, após esperar 5 ou 30 minutos, os utilizadores recebessem uma resposta suficientemente detalhada e satisfatória. Esta etapa extra foi adicionada para garantir que os utilizadores forneçam todos os detalhes necessários para o modelo.
Muitos utilizadores no X mencionaram interagir primeiro com o o1 ou o1 Pro para refinar os seus prompts. Uma vez satisfeitos, enviam o prompt para o Deep Research.
A Forma Definitiva dos Agentes
Nos últimos meses, a OpenAI lançou três versões diferentes do Deep Research, todas com o nome Deep Research. Josh Tobin acredita que, embora cada produto tenha os seus pontos fortes e fracos, as diferenças de qualidade entre eles são evidentes. Em última análise, isso deve-se à forma como os modelos são construídos, ao esforço investido na construção dos conjuntos de dados e ao uso de modelos da série O como motor. Isso permite que os modelos Deep Research sejam otimizados, criando ferramentas altamente inteligentes e de alta qualidade.
Atualmente, o Deep Research, o O3 e o Operator são relativamente independentes. No entanto, a OpenAI pretende que os utilizadores tenham eventualmente um único agente definitivo que possa realizar pesquisas na web, usar computadores ou concluir outras tarefas desejadas, integrando todas essas funções de uma forma mais natural.
O Treino End-to-End é a Razão Fundamental para o Poder do Modelo
O modelo subjacente do Deep Research é uma versão fine-tuned do O3. O O3 é o modelo de raciocínio mais avançado da OpenAI, e grande parte da capacidade analítica do Deep Research vem dele. A OpenAI treinou especificamente o modelo Deep Research em tarefas complexas de navegação e outras tarefas de raciocínio. Portanto, o Deep Research também pode usar ferramentas de navegação e ferramentas Python. Através do treino end-to-end nessas tarefas, o Deep Research aprendeu estratégias para lidar com elas, tornando o modelo excelente em análise de pesquisa online.
Intuitivamente, um utilizador faz um pedido e o modelo primeiro pensa cuidadosamente sobre ele. Em seguida, pesquisa informações relevantes, extrai-as e lê-as. Depois de entender como essas informações se relacionam com o pedido, o modelo decide o que pesquisar em seguida para se aproximar da resposta final desejada pelo utilizador. O Deep Research pode integrar todas essas informações num relatório organizado, com citações apontando para as fontes originais.
A inovação que dá ao Deep Research as suas capacidades de agente reside no treino end-to-end do modelo pela OpenAI. Isso significa que muitas operações durante o processo de pesquisa são imprevisíveis de antemão. É impossível alcançar a flexibilidade que o modelo ganha através do treino escrevendo um modelo de linguagem, programa ou script. Através do treino, o modelo Deep Research aprendeu a reagir a informações da web em tempo real e ajustar estratégias prontamente com base no que vê. Portanto, o modelo Deep Research está, na verdade, a conduzir pesquisas muito criativas. Os utilizadores podem ver o quão inteligente o modelo é ao decidir o que pesquisar em seguida ou como contornar certos problemas lendo os resumos do CoT.
Diferenças Entre o Deep Research e a Pesquisa por IA
Em relação à pergunta de John Collison sobre quanto da capacidade do Deep Research vem do acesso em tempo real ao conteúdo da web e quanto do CoT, os dois investigadores da OpenAI acreditam que a capacidade excecional do Deep Research é resultado da combinação de ambos.
Outros produtos de pesquisa por IA não são treinados end-to-end, portanto, não são tão flexíveis em responder a informações quanto o Deep Research, nem são tão criativos em resolver problemas específicos.
Antes de ingressar na OpenAI, Josh Tobin trabalhou numa startup e tentou construir agentes da maneira que a maioria das pessoas descreve a construção deles, essencialmente construindo um gráfico de operação com LLMs intervindo em alguns nós. Embora o LLM possa decidir o que fazer em seguida, a lógica de toda a sequência de etapas é definida por humanos.
Josh Tobin descobriu que este é um método poderoso para prototipagem rápida, mas rapidamente encontrou problemas no mundo real. É difícil prever todas as situações que o modelo pode enfrentar e considerar todos os diferentes ramos de caminhos que ele pode querer seguir. Além disso, como esses modelos não são especificamente treinados para tomar decisões, muitas vezes não são os melhores tomadores de decisão nos nós; eles são treinados para fazer algo semelhante à tomada de decisões.
Isso reitera que o verdadeiro poder do modelo Deep Research vem do treino direto end-to-end, com o objetivo de resolver as tarefas que os utilizadores realmente precisam resolver. Portanto, não há necessidade de configurar um gráfico de operação ou tomar decisões de nó na arquitetura de fundo; tudo é impulsionado pelo próprio modelo.
Além disso, se um utilizador tiver um fluxo de trabalho muito específico e previsível, fazê-lo da maneira que Josh Tobin descreveu acima é valioso. Mas se for necessário um processamento muito flexível, uma abordagem semelhante ao Deep Research pode ser a melhor escolha.
Josh Tobin sugere que algumas regras estritas não devem ser codificadas no modelo. Se houver uma necessidade como ‘não querer que o modelo aceda a um determinado banco de dados’, é melhor implementá-la com lógica escrita manualmente. As pessoas muitas vezes pensam que podem ser mais inteligentes do que o modelo escrevendo código, mas, na realidade, à medida que o campo se desenvolve, os modelos geralmente apresentam soluções melhores do que os humanos.
Uma das lições mais importantes da aprendizagem automática é que os resultados que obtém dependem do que otimiza. Portanto, se os utilizadores puderem configurar um sistema para otimizar diretamente para o resultado desejado, será muito melhor do que tentar juntar modelos que não se encaixam em toda a tarefa. Portanto, o ajuste de RL na base geral do modelo pode tornar-se uma parte fundamental da construção dos agentes mais poderosos.
Dados de Alta Qualidade São Um dos Fatores-Chave para o Sucesso do Modelo
Um dos fatores-chave para o sucesso do modelo Deep Research é ter um conjunto de dados de alta qualidade. A qualidade dos dados inseridos no modelo é provavelmente o fator-chave que determina a qualidade do modelo. No projeto Deep Research, Edward Sun otimiza todos os conjuntos de dados.
Vantagens do Deep Research
A força do Deep Research reside na sua capacidade de fornecer as melhores respostas quando os utilizadores têm uma descrição detalhada das suas necessidades. No entanto, mesmo que a pergunta do utilizador seja vaga, o Deep Research pode esclarecer as informações desejadas. É mais poderoso quando os utilizadores procuram um conjunto específico de informações.
O Deep Research não é apenas capaz de reunir amplamente todas as informações sobre uma fonte, mas também se destaca em encontrar factos muito obscuros, como conteúdo de cauda longa que não apareceria nas primeiras páginas numa pesquisa tradicional, detalhes de um episódio específico de um programa de TV obscuro e assim por diante. Numa pergunta sobre um general austríaco, o ChatGPT uma vez deu a resposta errada, enquanto o Deep Research encontrou com sucesso a correta.
O Deep Research é muito bom em sintetizar informações, especialmente em encontrar informações específicas e difíceis de encontrar. No entanto, o Deep Research não é tão eficaz na extração de novos insights a partir de informações existentes e ainda não consegue fazer novas descobertas científicas.
Casos de Uso do Deep Research
Utilizadores-Alvo
O Deep Research é projetado para qualquer pessoa envolvida em trabalho de conhecimento no seu trabalho diário ou vida, particularmente aqueles que precisam reunir grandes quantidades de informações, analisar dados e tomar decisões. Muitos utilizadores aplicam o Deep Research ao seu trabalho, como em pesquisa, para entender a situação em áreas como mercados, empresas e imobiliário.
Casos de Uso
A OpenAI espera que o Deep Research possa servir tanto a cenários de negócios quanto de vida pessoal, pois é, na verdade, uma capacidade muito versátil aplicável tanto ao trabalho quanto à vida pessoal. O apelo do Deep Research reside na sua capacidade de economizar muito tempo. Algumas tarefas que podem ter levado horas ou até dias agora podem ser 90% respondidas com o Deep Research. A OpenAI acredita que haverá mais tarefas semelhantes em cenários de negócios, mas o Deep Research também se tornará parte da vida pessoal das pessoas.
O Deep Research não se trata de substituir a força de trabalho. Para o trabalho de conhecimento, especialmente tarefas que exigem muito tempo para encontrar informações e tirar conclusões, o Deep Research capacitará as pessoas com superpoderes, permitindo que tarefas que podem ter levado 4 ou 8 horas sejam concluídas em 5 minutos, permitindo que os utilizadores alcancem mais.
A entrevista mencionou casos de uso incluindo: medicina, investimento e outros cenários de trabalho profissional; compras, viagens e outros cenários familiares; programação e educação personalizada.
Medicina, Investimento e Outros Cenários de Trabalho Profissional
Na medicina, o Deep Research pode ajudar a encontrar toda a literatura ou casos recentes de uma determinada doença, economizando tempo.
No investimento, com a ajuda do Deep Research, os investidores podem optar por pesquisar todas as startups em potencial nas quais podem investir, não apenas aquelas com as quais têm tempo para se encontrar.
Nas operações da empresa, um utilizador que considera iniciar uma empresa de bens de consumo tem usado extensivamente o Deep Research para determinar se nomes de marcas específicos já foram registados, se os nomes de domínio estão ocupados, o tamanho do mercado e várias outras informações.
Compras, Viagens e Outros Cenários Familiares
Um utilizador que considerava comprar um carro novo queria saber quando o próximo modelo seria lançado. Havia muitos artigos especulativos online, então o utilizador pediu ao Deep Research para compilar todos os rumores relevantes. O Deep Research produziu um excelente relatório, informando o utilizador de que um novo carro poderia ser lançado nos próximos meses.
Quando o Deep Research foi lançado no Japão, os utilizadores acharam muito útil encontrar restaurantes que atendessem a requisitos específicos e também podia ajudar os utilizadores a descobrir coisas que talvez não tivessem encontrado de outra forma.
Quando os utilizadores precisam comprar um item caro, planear uma viagem especial ou passar muito tempo a pensar num problema, eles podem passar horas online a pesquisar informações relevantes, navegando por todas as avaliações, etc. O Deep Research pode organizar rapidamente essas informações, criar um relatório resumido e fornecer conselhos detalhados e personalizados.
Mães trabalhadoras ocupadas muitas vezes não têm tempo para planear festas de aniversário para os seus filhos, mas agora podem fazê-lo rapidamente com a ajuda do Deep Research.
O Deep Research também é excelente em seguir instruções. Se os utilizadores não querem apenas saber sobre um produto, mas também querem compará-lo com todos os outros produtos, ou até mesmo querem ver avaliações de websites como o Reddit, eles podem fazer muitos pedidos diferentes ao Deep Research, e ele completará essas tarefas de uma só vez. Os utilizadores também podem pedir ao Deep Research para colocar as informações numa tabela.
Programação
Muitas pessoas usam o Deep Research para programação. Este cenário não foi inicialmente considerado pela OpenAI, mas muitas pessoas estão a usá-lo para escrever código, pesquisar código, até mesmo encontrar a documentação mais recente para um pacote ou escrever scripts, com resultados impressionantes.
Educação
A educação personalizada é um cenário de aplicação muito interessante. Se os utilizadores tiverem um tópico que desejam aprender, como rever biologia ou entender os eventos atuais, eles só precisam fornecer as partes que não entendem ou as informações que desejam aprofundar, e o Deep Research pode compilar um relatório detalhado. Talvez no futuro seja possível fornecer educação personalizada com base no que o Deep Research aprende sobre o utilizador.
Agentes Surgirão em 2025
Direções Futuras de Desenvolvimento para o Deep Research
Em termos de forma de produto, a OpenAI espera que o Deep Research seja capaz de incorporar imagens no futuro, encontrar fotos de produtos, gerar gráficos e incorporar esses gráficos nas respostas.
Em termos de fontes de informação, a OpenAI espera expandir as fontes de dados que o modelo pode aceder. Eles esperam que o modelo seja capaz de pesquisar dados privados no futuro. A OpenAI irá aprimorar ainda mais as capacidades do modelo, tornando-o melhor em navegação e análise.
Em termos de precisão da informação, para permitir que os utilizadores confiem na saída do Deep Research, os utilizadores podem ver as fontes de informação citadas pelo modelo. Durante o processo de treino do modelo, a OpenAI também se esforça para garantir a correção das citações, mas o modelo ainda pode cometer erros, alucinar ou até mesmo confiar numa fonte que pode não ser a mais credível. Portanto, esta é uma área que a OpenAI espera continuar a melhorar.
Para integrar de forma mais ampla no roteiro do Agente da OpenAI, a OpenAI espera que o Deep Research possa ser estendido a muitos cenários de aplicação diferentes, combinando os modelos de raciocínio mais avançados com ferramentas que os humanos podem usar para concluir tarefas de trabalho ou da vida diária e, em seguida, otimizar diretamente o modelo para alcançar os resultados que os utilizadores desejam que o agente alcance.
Nesta fase, não há, na verdade, nada que impeça o Deep Research de se expandir para cenários de tarefas mais complexos. A AGI é agora uma questão operacional, e haverá muitos desenvolvimentos empolgantes para aguardar no futuro.
Sam Altman acredita que as tarefas que o Deep Research pode concluir representarão alguns por cento de todas as tarefas economicamente viáveis no mundo. Josh Tobin acredita que o Deep Research não pode fazer todo o trabalho pelos utilizadores, mas pode economizar aos utilizadores várias horas ou até dias. A OpenAI espera que um objetivo relativamente próximo seja que o Deep Research e os agentes construídos a seguir, bem como outros agentes construídos sobre esta base, economizem aos utilizadores 1%, 5%, 10% ou 25% do seu tempo, dependendo do tipo de trabalho que fazem.
Agente & RL
Isa Fulford e Josh Tobin concordam que os agentes surgirão este ano.
A RL experimentou um pico, depois pareceu ter um pouco de vale e agora está a receber atenção novamente. Yann LeCun uma vez fez uma analogia: se as pessoas estão a fazer um bolo, a maior parte é bolo, haverá um pouco de cobertura e, finalmente, algumas cerejas por cima. A aprendizagem não supervisionada é como o bolo, a aprendizagem supervisionada é a cobertura e a RL é a cereja.
Josh Tobin acredita que, ao fazer RL em 2015-2016, usando a analogia do bolo, pode ter sido tentar adicionar a cereja sem o bolo. Mas agora, existem modelos de linguagem pré-treinados em grandes quantidades de dados, esses modelos são muito poderosos e sabemos como realizar fine-tuning supervisionado nesses modelos de linguagem para torná-los bons em executar instruções e fazer o que as pessoas querem. Agora tudo funciona muito bem, e é muito adequado ajustar esses modelos de acordo com funções de recompensa definidas pelo utilizador para qualquer caso de uso.