Второй агент OpenAI
Три недели назад OpenAI представила Deep Research, своего второго агента. Этот агент может искать информацию на нескольких веб-сайтах и выполнять комплексные онлайн-исследования за 5–30 минут, синтезируя информацию и предоставляя подробные отчеты со ссылками.
В этой статье собраны и систематизированы материалы интервью Sequoia Capital с Исой Фулфорд и Джошем Тобином, руководителями Deep Research в OpenAI. Два участника подробно рассказывают о технических особенностях и продуктовом мышлении, лежащих в основе Deep Research, а также о вариантах использования, которые они наблюдают в настоящее время.
Deep Research возникла в результате внутреннего исследования OpenAI способности модели справляться с задачами с большим горизонтом планирования. Долгосрочная цель команды — предоставить пользователям в будущем совершенного агента: естественное универсальное решение для поиска в Интернете, использования компьютера или любых других задач, которые они хотят, чтобы агент выполнил.
Deep Research также был специально оптимизирован на уровне продукта. Например, как упоминалось в нашем анализе DeepSeek, Deep Research повышает доверие пользователей благодаря четким ссылкам и цепочке рассуждений (CoT). Команда также разработала процесс уточнения, чтобы обеспечить последовательное понимание задачи. Deep Research превосходит AI-поиск и ChatGPT в поиске и организации информации. Однако на данном этапе Deep Research не так эффективен в извлечении новых идей из существующей информации и пока не может делать новые научные открытия.
Ключевые выводы:
- OpenAI запустила своего второго агента, Deep Research, способного проводить тщательные онлайн-исследования.
- Возможности агента основаны на сквозном обучении модели.
- Deep Research превосходно справляется с синтезом информации и поиском малоизвестных фактов.
- Варианты использования охватывают профессиональную деятельность, личную жизнь, программирование и образование.
- Команда ожидает значительных достижений для агентов в 2025 году.
Возможности агента основаны на сквозном обучении модели
Deep Research — это агент, способный искать информацию на нескольких веб-сайтах и создавать подробные отчеты, выполняя множество задач, на которые у людей ушли бы часы. Работая в ChatGPT, он отвечает на вопросы примерно за 5–30 минут, позволяя проводить более глубокие исследования и предоставляя более подробные и конкретные ответы, чем стандартный ChatGPT. Ранее OpenAI запустила Operator, а Deep Research — это второй агент, и в будущем их будет больше.
Истоки
Около года назад OpenAI начала внедрять парадигму рассуждений внутри компании, стремясь обучить модели думать, прежде чем отвечать. Этот подход оказался очень успешным.
Первоначально OpenAI сосредоточилась на математике и естественных науках. Однако они обнаружили, что эта новая архитектура модели рассуждений также открыла возможность обработки долгосрочных задач, включающих возможности агента.
В то же время OpenAI осознала, что многие задачи требуют обширных онлайн-исследований или внешнего контекста, сильных способностей к рассуждению, распознавания источников информации и определенной степени креативности. В конечном итоге OpenAI разработала методы обучения моделей, способные справляться с этими задачами. Они решили обучить модели выполнять задачи просмотра веб-страниц, используя те же методы, что и для обучения моделей рассуждений, но применительно к более реальным задачам.
Проект Deep Research начался с оригинальной демонстрации Исы Фулфорд и Яша Патила. Джош Тобин вернулся в OpenAI около шести месяцев назад после работы в стартапе, заинтересовался фундаментальной работой и присоединился к проекту Deep Research.
Ключевые лица:
- Иса Фулфорд: Исследователь искусственного интеллекта в команде Post-training OpenAI, основной участник разработки плагина ChatGPT Retrieval.
- Яш Патил: Член основной команды модели в команде Post-training OpenAI, бросивший Стэнфорд.
- Джош Тобин: Ранее работал научным сотрудником в OpenAI, затем основал Gantry (продукт для улучшения машинного обучения с помощью анализа, оповещений и обратной связи от людей). Он вернулся в OpenAI и в настоящее время возглавляет группу исследований продуктов Agents.
Процесс уточнения
Deep Research отличается уникальным дизайном: процессом уточнения. Перед началом исследования модель Deep Research задает пользователю вопросы. Обычно ChatGPT задает дополнительные вопросы только в конце ответа или спрашивает, удовлетворителен ли ответ, в отличие от Deep Research, который делает это заранее.
Это был сознательный выбор дизайна команды. Пользователи получают наилучшие ответы от модели Deep Research только тогда, когда их подсказки очень четкие и подробные. Однако пользователи часто не предоставляют всю информацию в своей первоначальной подсказке. Поэтому OpenAI хотела убедиться, что после ожидания в 5 или 30 минут пользователи получат достаточно подробный и удовлетворительный ответ. Этот дополнительный шаг был добавлен, чтобы пользователи предоставили все необходимые детали для модели.
Многие пользователи в X упоминали, что сначала взаимодействуют с o1 или o1 Pro, чтобы уточнить свои подсказки. Удовлетворившись, они отправляют подсказку в Deep Research.
Совершенная форма агентов
За последние несколько месяцев OpenAI выпустила три разные версии Deep Research, все под названием Deep Research. Джош Тобин считает, что, хотя у каждого продукта есть свои сильные и слабые стороны, различия в качестве между ними очевидны. В конечном счете, это связано с тем, как построены модели, с усилиями, вложенными в создание наборов данных, и с использованием моделей серии O в качестве движка. Это позволяет оптимизировать модели Deep Research, создавая высокоинтеллектуальные и высококачественные инструменты.
В настоящее время Deep Research, O3 и Operator относительно независимы. Однако OpenAI стремится к тому, чтобы пользователи в конечном итоге имели единого, совершенного агента, который мог бы выполнять поиск в Интернете, использовать компьютеры или выполнять другие желаемые задачи, интегрируя все эти функции более естественным образом.
Сквозное обучение — основная причина мощности модели
Базовая модель Deep Research — это тонко настроенная версия O3. O3 — самая продвинутая модель рассуждений OpenAI, и большая часть аналитических возможностей Deep Research исходит от нее. OpenAI специально обучила модель Deep Research сложным задачам просмотра веб-страниц и другим задачам рассуждений. Поэтому Deep Research также может использовать инструменты просмотра веб-страниц и инструменты Python. Благодаря сквозному обучению этим задачам Deep Research изучил стратегии их решения, что в конечном итоге позволило модели преуспеть в анализе онлайн-поиска.
Интуитивно понятно, что пользователь делает запрос, и модель сначала тщательно обдумывает его. Затем она ищет релевантную информацию, извлекает ее и читает. После понимания того, как эта информация связана с запросом, модель решает, что искать дальше, чтобы приблизиться к желаемому конечному ответу пользователя. Deep Research может интегрировать всю эту информацию в аккуратный отчет со ссылками на первоисточники.
Инновация, которая дает Deep Research возможности агента, заключается в сквозном обучении модели OpenAI. Это означает, что многие операции в процессе исследования непредсказуемы заранее. Невозможно достичь гибкости, которую модель получает в результате обучения, написав языковую модель, программу или скрипт. В процессе обучения модель Deep Research научилась реагировать на информацию из Интернета в режиме реального времени и оперативно корректировать стратегии на основе того, что она видит. Поэтому модель Deep Research на самом деле проводит очень креативный поиск. Пользователи могут видеть, насколько умна модель, решая, что искать дальше или как обойти определенные проблемы, читая сводки CoT.
Различия между Deep Research и AI-поиском
Что касается вопроса Джона Коллисона о том, какая часть возможностей Deep Research связана с доступом к веб-контенту в режиме реального времени, а какая — с CoT, два исследователя OpenAI считают, что выдающиеся возможности Deep Research являются результатом сочетания обоих факторов.
Другие продукты AI-поиска не обучаются сквозным образом, поэтому они не так гибки в реагировании на информацию, как Deep Research, и не так креативны в решении конкретных проблем.
До прихода в OpenAI Джош Тобин работал в стартапе и пытался создавать агентов так, как большинство людей описывают их создание, по сути, строя граф операций с LLM, вмешивающимися в некоторые узлы. Хотя LLM может решать, что делать дальше, логика всей последовательности шагов определяется людьми.
Джош Тобин обнаружил, что это мощный метод для быстрого прототипирования, но он быстро столкнулся с проблемами в реальном мире. Трудно предвидеть все ситуации, с которыми может столкнуться модель, и учесть все различные ветви путей, которые она может захотеть выбрать. Более того, поскольку эти модели специально не обучены принимать решения, они часто не являются лучшими лицами, принимающими решения в узлах; они обучены делать что-то похожее на принятие решений.
Это еще раз подтверждает, что истинная сила модели Deep Research заключается в прямом сквозном обучении, направленном на решение задач, которые пользователям действительно нужно решить. Поэтому нет необходимости настраивать граф операций или принимать решения об узлах в фоновой архитектуре; все управляется самой моделью.
Кроме того, если у пользователя есть очень конкретный и предсказуемый рабочий процесс, то делать это так, как описал Джош Тобин выше, ценно. Но если требуется очень гибкая обработка, то подход, аналогичный Deep Research, может быть лучшим выбором.
Джош Тобин предполагает, что некоторые строгие правила не следует жестко кодировать в модели. Если есть необходимость, например, «нежелание, чтобы модель обращалась к определенной базе данных», лучше реализовать это с помощью написанной вручную логики. Люди часто думают, что могут быть умнее модели, написав код, но на самом деле, по мере развития области, модели обычно предлагают лучшие решения, чем люди.
Один из самых важных уроков машинного обучения заключается в том, что получаемые результаты зависят от того, для чего вы оптимизируете. Итак, если пользователи могут настроить систему для прямой оптимизации желаемого результата, это будет намного лучше, чем пытаться собрать воедино модели, которые не соответствуют всей задаче. Поэтому настройка RL на основе общей модели может стать ключевой частью создания самых мощных агентов.
Высококачественные данные — один из ключевых факторов успеха модели
Одним из ключевых факторов успеха модели Deep Research является наличие высококачественного набора данных. Качество данных, вводимых в модель, вероятно, является ключевым фактором, определяющим качество модели. В проекте Deep Research Эдвард Сан оптимизирует все наборы данных.
Преимущества Deep Research
Сила Deep Research заключается в его способности давать наилучшие ответы, когда у пользователей есть подробное описание их потребностей. Однако, даже если вопрос пользователя расплывчат, Deep Research может уточнить желаемую информацию. Он наиболее эффективен, когда пользователи ищут конкретный набор информации.
Deep Research не только способен широко собирать всю информацию об источнике, но и превосходно справляется с поиском очень малоизвестных фактов, таких как контент с длинным хвостом, который не появился бы на первых нескольких страницах в традиционном поиске, подробности конкретного эпизода малоизвестного телешоу и так далее. В вопросе об австрийском генерале ChatGPT однажды дал неправильный ответ, в то время как Deep Research успешно нашел правильный.
Deep Research очень хорошо справляется с синтезом информации, особенно с поиском конкретной, труднодоступной информации. Однако Deep Research не так эффективен в извлечении новых идей из существующей информации и пока не может делать новые научные открытия.
Варианты использования Deep Research
Целевые пользователи
Deep Research предназначен для всех, кто занимается интеллектуальной работой в своей повседневной работе или жизни, особенно для тех, кому необходимо собирать большие объемы информации, анализировать данные и принимать решения. Многие пользователи применяют Deep Research в своей работе, например, в исследованиях, чтобы понять ситуацию в таких областях, как рынки, компании и недвижимость.
Варианты использования
OpenAI надеется, что Deep Research сможет обслуживать как бизнес-сценарии, так и сценарии личной жизни, поскольку на самом деле это очень универсальная возможность, применимая как к работе, так и к личной жизни. Привлекательность Deep Research заключается в его способности экономить много времени. На некоторые задачи, которые могли бы занять часы или даже дни, теперь можно получить 90% ответов с помощью Deep Research. OpenAI считает, что в бизнес-сценариях будет больше подобных задач, но Deep Research также станет частью личной жизни людей.
Deep Research не предназначен для замены рабочей силы. Для интеллектуальной работы, особенно для задач, которые требуют много времени на поиск информации и формулирование выводов, Deep Research предоставит людям сверхспособности, позволяя выполнять задачи, которые могли бы занять 4 или 8 часов, за 5 минут, позволяя пользователям достигать большего.
В интервью упоминались варианты использования, включая: медицину, инвестиции и другие сценарии профессиональной деятельности; покупки, путешествия и другие семейные сценарии; программирование и персонализированное образование.
Медицина, инвестиции и другие сценарии профессиональной деятельности
В медицине Deep Research может помочь найти всю литературу или недавние случаи определенного заболевания, тем самым экономя время.
В инвестициях с помощью Deep Research инвесторы могут исследовать каждый потенциальный стартап, в который они могли бы инвестировать, а не только те, с которыми у них есть время встретиться.
В деятельности компании пользователь, рассматривающий возможность создания компании по производству потребительских товаров, активно использует Deep Research, чтобы определить, зарегистрированы ли уже конкретные названия брендов, заняты ли доменные имена, каков размер рынка и различную другую информацию.
Покупки, путешествия и другие семейные сценарии
Пользователь, рассматривающий возможность покупки нового автомобиля, хотел узнать, когда выйдет следующая модель. В Интернете было много спекулятивных статей, поэтому пользователь попросил Deep Research собрать все соответствующие слухи. Deep Research подготовил отличный отчет, информирующий пользователя о том, что новый автомобиль может быть выпущен в ближайшие несколько месяцев.
Когда Deep Research был запущен в Японии, пользователи сочли его очень полезным для поиска ресторанов, отвечающих определенным требованиям, а также он мог помочь пользователям открыть для себя вещи, которые они, возможно, не нашли бы иначе.
Когда пользователям нужно купить дорогой товар, спланировать особенную поездку или потратить много времени на обдумывание проблемы, они могут часами искать в Интернете релевантную информацию, просматривая все обзоры и т. д. Deep Research может быстро организовать эту информацию, создать сводный отчет и предоставить подробные и персонализированные советы.
Занятые работающие матери часто не имеют времени на планирование дней рождения своих детей, но теперь они могут сделать это быстро с помощью Deep Research.
Deep Research также отлично справляется с выполнением инструкций. Если пользователи не только хотят узнать о продукте, но и хотят сравнить его со всеми другими продуктами или даже хотят увидеть отзывы с таких сайтов, как Reddit, они могут сделать много разных запросов к Deep Research, и он выполнит эти задачи все сразу. Пользователи также могут попросить Deep Research поместить информацию в таблицу.
Программирование
Многие люди используют Deep Research для программирования. Этот сценарий изначально не рассматривался OpenAI, но многие люди используют его для написания кода, поиска кода, даже для поиска последней документации по пакету или написания скриптов, с впечатляющими результатами.
Образование
Персонализированное образование — очень интересный сценарий применения. Если у пользователей есть тема, которую они хотят изучить, например, обзор биологии или понимание текущих событий, им нужно только предоставить части, которые они не понимают, или информацию, в которую они хотят углубиться, и Deep Research может составить подробный отчет. Возможно, в будущем можно будет обеспечить персонализированное образование на основе того, что Deep Research узнает о пользователе.
Агенты появятся в 2025 году
Будущие направления развития Deep Research
С точки зрения формы продукта, OpenAI надеется, что Deep Research сможет в будущем встраивать изображения, находить изображения продуктов, создавать диаграммы и встраивать эти диаграммы в ответы.
С точки зрения источников информации, OpenAI надеется расширить источники данных, к которым модель может получить доступ. Они надеются, что модель сможет искать частные данные в будущем. OpenAI будет и дальше расширять возможности модели, делая ее лучше в просмотре веб-страниц и анализе.
С точки зрения точности информации, чтобы пользователи могли доверять результатам Deep Research, пользователи могут видеть источники информации, на которые ссылается модель. В процессе обучения модели OpenAI также стремится обеспечить правильность цитирования, но модель все еще может делать ошибки, галлюцинировать или даже доверять источнику, который может быть не самым надежным. Поэтому это область, которую OpenAI надеется продолжать улучшать.
Чтобы более широко интегрироваться в дорожную карту OpenAI Agent, OpenAI надеется, что Deep Research можно будет расширить на множество различных сценариев применения, объединив самые передовые модели рассуждений с инструментами, которые люди могут использовать для выполнения рабочих или повседневных задач, а затем напрямую оптимизируя модель для достижения результатов, которые пользователи хотят, чтобы агент достиг.
На данном этапе на самом деле ничто не мешает Deep Research расширяться на более сложные сценарии задач. AGI сейчас является операционной проблемой, и в будущем будет много интересных разработок, которых стоит ожидать.
Сэм Альтман считает, что задачи, которые может выполнять Deep Research, будут составлять несколько процентов от всех экономически жизнеспособных задач в мире. Джош Тобин считает, что Deep Research не может выполнить всю работу за пользователей, но он может сэкономить пользователям несколько часов или даже дней. OpenAI надеется, что относительно близкой целью является то, чтобы Deep Research и агенты, созданные далее, а также другие агенты, созданные на этой основе, экономили пользователям 1%, 5%, 10% или 25% их времени, в зависимости от типа работы, которую они выполняют.
Agent & RL
Иса Фулфорд и Джош Тобин согласны с тем, что агенты появятся в этом году.
RL пережил пик, затем, казалось, немного спал, и теперь снова привлекает внимание. У Яна ЛеКуна была аналогия: если люди пекут торт, большая его часть — это торт, будет немного глазури и, наконец, несколько вишен сверху. Неконтролируемое обучение похоже на торт, контролируемое обучение — на глазурь, а RL — на вишню.
Джош Тобин считает, что при использовании RL в 2015–2016 годах, используя аналогию с тортом, возможно, пытались добавить вишню без торта. Но теперь есть языковые модели, предварительно обученные на больших объемах данных, эти модели очень мощные, и мы знаем, как выполнить контролируемую тонкую настройку этих языковых моделей, чтобы они хорошо выполняли инструкции и делали то, что хотят люди. Теперь все работает очень хорошо, и очень удобно настраивать эти модели в соответствии с определяемыми пользователем функциями вознаграждения для любого варианта использования.