OpenAI의 두 번째 에이전트
3주 전, OpenAI는 두 번째 에이전트인 Deep Research를 소개했습니다. 이 에이전트는 여러 웹사이트를 검색하고 5~30분 안에 포괄적인 온라인 리서치를 완료하여 정보를 종합하고 인용과 함께 자세한 보고서를 제공합니다.
이 기사는 Sequoia Capital이 OpenAI의 Deep Research 책임자인 Isa Fulford와 Josh Tobin과 진행한 인터뷰를 정리하고 구성합니다. 두 사람은 Deep Research의 기술적 세부 사항과 제품 기획, 그리고 현재 관찰하고 있는 사용 사례를 자세히 공유합니다.
Deep Research는 장기적인 작업을 처리하는 모델의 능력을 탐구하는 OpenAI의 내부 탐색에서 비롯되었습니다. 팀의 장기적인 목표는 미래에 사용자에게 궁극적인 에이전트를 제공하는 것입니다. 웹 검색, 컴퓨터 사용 또는 에이전트가 완료하기를 원하는 다른 모든 작업을 위한 자연스러운 올인원 솔루션입니다.
Deep Research는 또한 제품 수준에서 특별히 최적화되었습니다. 예를 들어, DeepSeek 분석에서 언급했듯이 Deep Research는 명확한 인용과 Chain-of-Thought (CoT)를 통해 사용자 신뢰를 향상시킵니다. 팀은 또한 작업에 대한 일관된 이해를 보장하기 위해 명확화 흐름을 설계했습니다. Deep Research는 정보 검색 및 구성에서 AI 검색 및 ChatGPT를 능가합니다. 그러나 현 단계에서 Deep Research는 기존 정보에서 새로운 통찰력을 추출하는 데는 효과적이지 않으며 아직 새로운 과학적 발견을 할 수 없습니다.
주요 내용:
- OpenAI는 철저한 온라인 조사가 가능한 두 번째 에이전트인 Deep Research를 출시했습니다.
- 에이전트 기능은 모델의 종단 간 훈련에서 비롯됩니다.
- Deep Research는 정보 합성과 희귀 정보 검색에 탁월합니다.
- 사용 사례는 전문 작업, 개인 생활, 프로그래밍 및 교육에 걸쳐 있습니다.
- 팀은 2025년에 에이전트의 상당한 발전을 예상합니다.
에이전트 기능은 종단 간 모델 훈련에서 비롯됩니다
Deep Research는 여러 온라인 웹사이트를 검색하고 포괄적인 보고서를 생성하여 인간이 몇 시간 걸릴 수 있는 많은 작업을 완료할 수 있는 에이전트입니다. ChatGPT 내에서 작동하며 약 5~30분 안에 질문에 답변하여 표준 ChatGPT보다 더 심층적인 연구와 더 자세하고 구체적인 답변을 제공합니다. OpenAI는 이전에 Operator를 출시했으며 Deep Research는 두 번째 에이전트이며 더 많은 에이전트가 출시될 예정입니다.
기원
약 1년 전, OpenAI는 내부적으로 추론 패러다임을 채택하기 시작하여 답변하기 전에 생각하도록 모델을 훈련시키는 것을 목표로 했습니다. 이 접근 방식은 매우 성공적인 것으로 입증되었습니다.
처음에 OpenAI는 수학과 과학에 집중했습니다. 그러나 그들은 이 새로운 추론 모델 아키텍처가 에이전트 기능을 포함하는 장기적인 작업을 처리하는 능력도 열었다는 것을 발견했습니다.
동시에 OpenAI는 많은 작업에 광범위한 온라인 연구 또는 외부 컨텍스트, 강력한 추론 능력, 정보 출처 식별 및 어느 정도의 창의성이 필요하다는 것을 인식했습니다. 궁극적으로 OpenAI는 이러한 작업을 처리할 수 있는 모델 훈련 방법을 개발했습니다. 그들은 추론 모델을 훈련하는 데 사용된 것과 동일한 방법을 사용하여 브라우징 작업을 수행하도록 모델을 훈련하기로 결정했지만 더 실제적인 작업에 적용했습니다.
Deep Research 프로젝트는 Isa Fulford와 Yash Patil의 오리지널 데모로 시작되었습니다. Josh Tobin은 스타트업에서 일한 후 약 6개월 전에 OpenAI에 다시 합류하여 기초 작업에 깊은 관심을 갖게 되었고 Deep Research 프로젝트에 합류했습니다.
주요 인물:
- Isa Fulford: OpenAI의 Post-training 팀의 AI 연구원으로 ChatGPT Retrieval Plugin의 주요 기여자입니다.
- Yash Patil: 스탠포드를 중퇴한 OpenAI의 Post-training 팀의 핵심 모델 팀원입니다.
- Josh Tobin: 이전에는 OpenAI의 연구 과학자였으며 나중에 Gantry (분석, 경고 및 인간 피드백을 통해 ML을 개선하는 제품)를 설립했습니다. 그는 OpenAI에 다시 합류하여 현재 Agents 제품 연구 팀을 이끌고 있습니다.
명확화 흐름
Deep Research는 독특한 디자인을 특징으로 합니다. 명확화 흐름입니다. 연구를 시작하기 전에 Deep Research 모델은 사용자에게 질문합니다. 일반적으로 ChatGPT는 답변 끝에 후속 질문을 하거나 답변이 만족스러운지 묻는 반면, Deep Research는 이러한 행동을 미리 수행합니다.
이것은 팀의 의도적인 디자인 선택이었습니다. 사용자는 프롬프트가 매우 명확하고 자세할 때만 Deep Research 모델에서 최상의 응답을 받습니다. 그러나 사용자는 종종 초기 프롬프트에 모든 정보를 제공하지 않습니다. 따라서 OpenAI는 5분 또는 30분을 기다린 후 사용자가 충분히 자세하고 만족스러운 답변을 받을 수 있도록 하고 싶었습니다. 이 추가 단계는 사용자가 모델에 필요한 모든 세부 정보를 제공하도록 하기 위해 추가되었습니다.
X의 많은 사용자는 프롬프트를 구체화하기 위해 먼저 o1 또는 o1 Pro와 상호 작용한다고 언급했습니다. 만족하면 프롬프트를 Deep Research로 보냅니다.
에이전트의 궁극적인 형태
지난 몇 달 동안 OpenAI는 Deep Research라는 세 가지 다른 버전의 Deep Research를 출시했습니다. Josh Tobin은 각 제품에 장단점이 있지만 제품 간의 품질 차이가 분명하다고 믿습니다. 궁극적으로 이것은 모델이 구성되는 방식, 데이터 세트 구축에 투자된 노력, O-series 모델을 엔진으로 사용하는 방식 때문입니다. 이를 통해 Deep Research 모델을 최적화하여 매우 지능적이고 고품질의 도구를 만들 수 있습니다.
현재 Deep Research, O3 및 Operator는 비교적 독립적입니다. 그러나 OpenAI는 사용자가 결국 웹 검색, 컴퓨터 사용 또는 원하는 다른 작업을 수행할 수 있는 단일의 궁극적인 에이전트를 갖게 되어 이러한 모든 기능을 보다 자연스러운 방식으로 통합하는 것을 목표로 합니다.
종단 간 훈련은 모델 성능의 근본적인 이유입니다
Deep Research의 기본 모델은 O3의 미세 조정 버전입니다. O3는 OpenAI의 가장 진보된 추론 모델이며 Deep Research의 분석 기능 대부분은 O3에서 비롯됩니다. OpenAI는 특히 복잡한 브라우징 작업 및 기타 추론 작업에 대해 Deep Research 모델을 훈련했습니다. 따라서 Deep Research는 브라우징 도구와 Python 도구도 사용할 수 있습니다. 이러한 작업에 대한 종단 간 훈련을 통해 Deep Research는 이를 처리하는 전략을 학습하여 궁극적으로 모델이 온라인 검색 분석에 탁월하게 만듭니다.
직관적으로 사용자가 요청하면 모델은 먼저 신중하게 생각합니다. 그런 다음 관련 정보를 검색하고 추출하여 읽습니다. 이 정보가 요청과 어떻게 관련되는지 이해한 후 모델은 사용자가 원하는 최종 답변에 더 가까워지기 위해 다음에 무엇을 검색할지 결정합니다. Deep Research는 이 모든 정보를 깔끔한 보고서로 통합할 수 있으며 인용은 원본 소스를 가리킵니다.
Deep Research에 에이전트 기능을 제공하는 혁신은 OpenAI의 모델 종단 간 훈련에 있습니다. 즉, 연구 과정 중 많은 작업은 사전에 예측할 수 없습니다. 모델이 훈련을 통해 얻는 유연성을 언어 모델, 프로그램 또는 스크립트를 작성하여 달성하는 것은 불가능합니다. 훈련을 통해 Deep Research 모델은 실시간 웹 정보에 반응하고 보는 내용에 따라 전략을 즉시 조정하는 방법을 배웠습니다. 따라서 Deep Research 모델은 실제로 매우 창의적인 검색을 수행하고 있습니다. 사용자는 CoT의 요약을 읽음으로써 모델이 다음에 무엇을 검색할지 또는 특정 문제를 어떻게 해결할지 결정하는 데 얼마나 지능적인지 알 수 있습니다.
Deep Research와 AI 검색의 차이점
John Collison이 Deep Research 기능의 어느 정도가 웹 콘텐츠에 대한 실시간 액세스에서 비롯되고 어느 정도가 CoT에서 비롯되는지에 대한 질문에 대해 두 OpenAI 연구원은 Deep Research의 뛰어난 기능이 둘 다의 조합의 결과라고 믿습니다.
다른 AI 검색 제품은 종단 간 훈련을 받지 않으므로 Deep Research만큼 정보에 유연하게 대응하지 않으며 특정 문제를 해결하는 데 창의적이지 않습니다.
OpenAI에 합류하기 전에 Josh Tobin은 스타트업에서 일하면서 대부분의 사람들이 에이전트를 구축하는 방식을 설명하는 방식으로 에이전트를 구축하려고 시도했습니다. 기본적으로 LLM이 일부 노드에 개입하는 작업 그래프를 구성하는 것입니다. LLM은 다음에 무엇을 할지 결정할 수 있지만 전체 단계 순서의 논리는 인간에 의해 정의됩니다.
Josh Tobin은 이것이 신속한 프로토타이핑을 위한 강력한 방법이지만 실제 세계에서 빠르게 문제에 직면한다는 것을 발견했습니다. 모델이 직면할 수 있는 모든 상황을 예측하고 모델이 취할 수 있는 모든 다른 경로 분기를 고려하는 것은 어렵습니다. 또한 이러한 모델은 의사 결정을 위해 특별히 훈련되지 않았기 때문에 노드에서 최상의 의사 결정자가 아닌 경우가 많습니다. 의사 결정과 유사한 작업을 수행하도록 훈련되었습니다.
이것은 Deep Research 모델의 진정한 힘이 사용자가 실제로 해결해야 하는 작업을 해결하는 것을 목표로 하는 직접적인 종단 간 훈련에서 비롯된다는 것을 다시 한 번 강조합니다. 따라서 작업 그래프를 설정하거나 백그라운드 아키텍처에서 노드 결정을 내릴 필요가 없습니다. 모든 것이 모델 자체에 의해 구동됩니다.
또한 사용자가 매우 구체적이고 예측 가능한 워크플로를 가지고 있다면 Josh Tobin이 위에서 설명한 방식으로 수행하는 것이 가치가 있습니다. 그러나 매우 유연한 처리가 필요한 경우 Deep Research와 유사한 접근 방식이 최선의 선택일 수 있습니다.
Josh Tobin은 일부 엄격한 규칙이 모델에 하드 코딩되어서는 안 된다고 제안합니다. ‘모델이 특정 데이터베이스에 액세스하는 것을 원하지 않는’ 것과 같은 필요가 있는 경우 수동으로 작성된 논리로 구현하는 것이 좋습니다. 사람들은 종종 코드를 작성하여 모델보다 더 똑똑해질 수 있다고 생각하지만 실제로는 분야가 발전함에 따라 모델은 일반적으로 인간보다 더 나은 솔루션을 제시합니다.
머신 러닝의 가장 중요한 교훈 중 하나는 얻는 결과가 최적화하는 대상에 따라 달라진다는 것입니다. 따라서 사용자가 원하는 결과를 직접 최적화하는 시스템을 설정할 수 있다면 전체 작업에 맞지 않는 모델을 조합하려고 하는 것보다 훨씬 낫습니다. 따라서 전체 모델 기반에 대한 RL 튜닝은 가장 강력한 에이전트를 구축하는 데 핵심적인 부분이 될 수 있습니다.
고품질 데이터는 모델 성공의 핵심 요소 중 하나입니다
Deep Research 모델 성공의 핵심 요소 중 하나는 고품질 데이터 세트를 갖는 것입니다. 모델에 입력되는 데이터의 품질은 모델의 품질을 결정하는 핵심 요소일 가능성이 높습니다. Deep Research 프로젝트에서 Edward Sun은 모든 데이터 세트를 최적화합니다.
Deep Research의 장점
Deep Research의 강점은 사용자가 자신의 요구 사항에 대한 자세한 설명을 가지고 있을 때 최상의 답변을 제공할 수 있다는 것입니다. 그러나 사용자의 질문이 모호하더라도 Deep Research는 원하는 정보를 명확히 할 수 있습니다. 사용자가 특정 정보 집합을 찾고 있을 때 가장 강력합니다.
Deep Research는 소스에 대한 모든 정보를 광범위하게 수집할 수 있을 뿐만 아니라 기존 검색의 처음 몇 페이지에 나타나지 않는 롱테일 콘텐츠, 모호한 TV 쇼의 특정 에피소드 세부 정보 등과 같이 매우 모호한 사실을 찾는 데 탁월합니다. 오스트리아 장군에 대한 질문에서 ChatGPT는 한 번 잘못된 답변을 제공했지만 Deep Research는 성공적으로 정답을 찾았습니다.
Deep Research는 정보를 종합하는 데 매우 능숙하며, 특히 찾기 어려운 특정 정보를 찾는 데 능숙합니다. 그러나 Deep Research는 기존 정보에서 새로운 통찰력을 추출하는 데는 효과적이지 않으며 아직 새로운 과학적 발견을 할 수 없습니다.
Deep Research의 사용 사례
대상 사용자
Deep Research는 일상 업무나 생활에서 지식 작업에 종사하는 모든 사람, 특히 많은 양의 정보를 수집하고 데이터를 분석하고 결정을 내려야 하는 사람들을 위해 설계되었습니다. 많은 사용자가 연구, 시장, 회사 및 부동산과 같은 분야의 상황을 이해하기 위해 Deep Research를 업무에 적용합니다.
사용 사례
OpenAI는 Deep Research가 실제로 업무와 개인 생활 모두에 적용할 수 있는 매우 다재다능한 기능이므로 비즈니스 및 개인 생활 시나리오 모두에 서비스를 제공할 수 있기를 바랍니다. Deep Research의 매력은 많은 시간을 절약할 수 있다는 것입니다. 몇 시간 또는 며칠이 걸릴 수 있는 일부 작업은 이제 Deep Research로 90% 답변할 수 있습니다. OpenAI는 비즈니스 시나리오에서 유사한 작업이 더 많을 것이라고 믿지만 Deep Research는 사람들의 개인 생활의 일부가 될 것입니다.
Deep Research는 인력을 대체하는 것이 아닙니다. 지식 작업, 특히 정보를 찾고 결론을 도출하는 데 많은 시간이 필요한 작업의 경우 Deep Research는 사람들에게 초능력을 부여하여 4시간 또는 8시간이 걸릴 수 있는 작업을 5분 안에 완료할 수 있도록 하여 사용자가 더 많은 것을 성취할 수 있도록 합니다.
인터뷰에서는 의료, 투자 및 기타 전문 작업 시나리오, 쇼핑, 여행 및 기타 가족 시나리오, 프로그래밍 및 개인화된 교육을 포함한 사용 사례를 언급했습니다.
의료, 투자 및 기타 전문 작업 시나리오
의학에서 Deep Research는 특정 질병의 모든 문헌이나 최근 사례를 찾는 데 도움을 주어 시간을 절약할 수 있습니다.
투자에서 Deep Research의 도움으로 투자자는 만날 시간이 있는 스타트업뿐만 아니라 투자할 가능성이 있는 모든 잠재적 스타트업을 연구하도록 선택할 수 있습니다.
회사 운영에서 소비재 회사를 시작하려는 사용자는 특정 브랜드 이름이 이미 등록되었는지, 도메인 이름이 점유되었는지, 시장 규모 및 기타 다양한 정보를 확인하기 위해 Deep Research를 광범위하게 사용하고 있습니다.
쇼핑, 여행 및 기타 가족 시나리오
새 차를 구입하려는 사용자는 다음 모델이 언제 출시될지 알고 싶었습니다. 온라인에는 많은 추측성 기사가 있었기 때문에 사용자는 Deep Research에 모든 관련 소문을 수집하도록 요청했습니다. Deep Research는 훌륭한 보고서를 작성하여 사용자에게 새 차가 다음 몇 달 안에 출시될 수 있다고 알렸습니다.
Deep Research가 일본에서 출시되었을 때 사용자들은 특정 요구 사항을 충족하는 레스토랑을 찾는 데 매우 유용하다는 것을 알았고 사용자가 다른 방법으로는 찾지 못했을 수도 있는 것을 발견하는 데 도움이 될 수 있습니다.
사용자가 비싼 품목을 구매하거나 특별한 여행을 계획하거나 문제에 대해 생각하는 데 많은 시간을 할애해야 할 때 온라인에서 관련 정보를 검색하고 모든 리뷰를 찾아보는 데 몇 시간을 보낼 수 있습니다. Deep Research는 이 정보를 빠르게 정리하고 요약 보고서를 작성하며 자세하고 개인화된 조언을 제공할 수 있습니다.
바쁜 워킹맘은 종종 자녀를 위한 생일 파티를 계획할 시간이 없지만 이제 Deep Research의 도움으로 빠르게 할 수 있습니다.
Deep Research는 또한 지시를 따르는 데 탁월합니다. 사용자가 제품에 대해 알고 싶을 뿐만 아니라 다른 모든 제품과 비교하거나 Reddit과 같은 웹사이트의 리뷰를 보고 싶어하는 경우 Deep Research에 다양한 요청을 할 수 있으며 이러한 작업을 한 번에 완료합니다. 사용자는 또한 Deep Research에 정보를 표에 넣도록 요청할 수 있습니다.
프로그래밍
많은 사람들이 프로그래밍에 Deep Research를 사용합니다. 이 시나리오는 처음에 OpenAI에서 고려하지 않았지만 많은 사람들이 코드를 작성하고, 코드를 검색하고, 패키지에 대한 최신 문서를 찾거나, 스크립트를 작성하는 데 사용하고 있으며 인상적인 결과를 얻고 있습니다.
교육
개인화된 교육은 매우 흥미로운 응용 시나리오입니다. 사용자가 생물학을 복습하거나 현재 이벤트를 이해하는 것과 같이 배우고 싶은 주제가 있는 경우 이해하지 못하는 부분이나 자세히 알고 싶은 정보만 제공하면 Deep Research가 자세한 보고서를 작성할 수 있습니다. 아마도 미래에는 Deep Research가 사용자에 대해 배우는 것을 기반으로 개인화된 교육을 제공할 수 있을 것입니다.
2025년에 에이전트가 등장할 것입니다
Deep Research의 향후 개발 방향
제품 형태 측면에서 OpenAI는 Deep Research가 미래에 이미지를 포함하고, 제품 사진을 찾고, 차트를 생성하고, 이러한 차트를 답변에 포함할 수 있기를 바랍니다.
정보 출처 측면에서 OpenAI는 모델이 액세스할 수 있는 데이터 소스를 확장하기를 희망합니다. 그들은 모델이 미래에 개인 데이터를 검색할 수 있기를 바랍니다. OpenAI는 모델의 기능을 더욱 향상시켜 브라우징 및 분석을 더 잘 수행할 수 있도록 할 것입니다.
정보 정확성 측면에서 사용자가 Deep Research의 출력을 신뢰할 수 있도록 사용자는 모델이 인용한 정보 출처를 볼 수 있습니다. 모델 훈련 과정에서 OpenAI는 또한 인용의 정확성을 보장하기 위해 노력하지만 모델은 여전히 실수를 하거나 환각을 일으키거나 가장 신뢰할 수 없는 출처를 신뢰할 수 있습니다. 따라서 이것은 OpenAI가 계속 개선하기를 희망하는 영역입니다.
OpenAI Agent 로드맵에 더 광범위하게 통합하기 위해 OpenAI는 Deep Research가 다양한 응용 시나리오로 확장되어 가장 진보된 추론 모델을 인간이 작업이나 일상 생활 작업을 완료하는 데 사용할 수 있는 도구와 결합한 다음 모델을 직접 최적화하여 사용자가 에이전트가 달성하기를 원하는 결과를 얻을 수 있기를 바랍니다.
현 단계에서는 실제로 Deep Research가 더 복잡한 작업 시나리오로 확장되는 것을 막을 수 있는 것은 없습니다. AGI는 이제 운영 문제이며 앞으로 기대할 만한 흥미로운 발전이 많이 있을 것입니다.
Sam Altman은 Deep Research가 완료할 수 있는 작업이 전 세계적으로 경제적으로 실행 가능한 모든 작업의 몇 퍼센트를 차지할 것이라고 믿습니다. Josh Tobin은 Deep Research가 사용자를 위해 모든 작업을 수행할 수는 없지만 사용자의 시간을 몇 시간 또는 며칠까지 절약할 수 있다고 믿습니다. OpenAI는 비교적 가까운 목표가 Deep Research와 다음에 구축될 에이전트, 그리고 이 기반 위에 구축된 다른 에이전트가 사용자가 수행하는 작업 유형에 따라 사용자의 시간을 1%, 5%, 10% 또는 25% 절약하는 것이기를 바랍니다.
Agent & RL
Isa Fulford와 Josh Tobin은 올해 에이전트가 등장할 것이라는 데 동의합니다.
RL은 정점을 경험한 다음 약간의 저점을 보였고 이제 다시 주목을 받고 있습니다. Yann LeCun은 한때 비유를 했습니다. 사람들이 케이크를 만들고 있다면 대부분은 케이크이고 약간의 프로스팅이 있고 마지막으로 몇 개의 체리가 위에 있을 것입니다. 비지도 학습은 케이크와 같고 지도 학습은 프로스팅이며 RL은 체리입니다.
Josh Tobin은 2015-2016년에 RL을 할 때 케이크 비유를 사용하면 케이크 없이 체리를 추가하려고 했을 수 있다고 믿습니다. 그러나 이제는 대량의 데이터에 대해 사전 훈련된 언어 모델이 있으며 이러한 모델은 매우 강력하며 이러한 언어 모델에 대해 지도 미세 조정을 수행하여 지시를 실행하고 사람들이 원하는 것을 잘 수행하도록 하는 방법을 알고 있습니다. 이제 모든 것이 매우 잘 작동하며 모든 사용 사례에 대해 사용자 정의 보상 함수에 따라 이러한 모델을 조정하는 데 매우 적합합니다.