Вторият агент на OpenAI
Преди три седмици OpenAI представи Deep Research, своя втори агент. Този агент може да търси в множество уебсайтове и да извършва цялостни онлайн проучвания за 5-30 минути, като синтезира информация и предоставя подробни доклади с цитати.
Тази статия компилира и организира интервю на Sequoia Capital с Иса Фулфорд и Джош Тобин, ръководителите на Deep Research в OpenAI. Двамата членове споделят подробно техническите специфики и продуктовото мислене зад Deep Research, заедно със случаите на употреба, които наблюдават в момента.
Deep Research произлиза от вътрешното проучване на OpenAI за способността на модела да се справя със задачи с дълъг хоризонт. Дългосрочната цел на екипа е да предостави на потребителите най-добрия агент в бъдеще: естествено решение “всичко в едно” за уеб търсене, използване на компютър или всякакви други задачи, които искат агентът да изпълни.
Deep Research също е специално оптимизиран на ниво продукт. Например, както беше споменато в нашия анализ на DeepSeek, Deep Research повишава доверието на потребителите чрез ясни цитати и Chain-of-Thought (CoT). Екипът също така е проектирал поток за изясняване, за да осигури последователно разбиране на задачата. Deep Research превъзхожда AI търсенето и ChatGPT при извличане и организиране на информация. Въпреки това, на този етап, Deep Research не е толкова ефективен при извличане на нови прозрения от съществуваща информация и все още не може да прави нови научни открития.
Ключови изводи:
- OpenAI пусна своя втори агент, Deep Research, способен на задълбочени онлайн проучвания.
- Възможностите на агента произтичат от обучението на модела от край до край.
- Deep Research се отличава със синтезиране на информация и намиране на неясни факти.
- Случаите на употреба обхващат професионална работа, личен живот, програмиране и образование.
- Екипът очаква значителен напредък за агентите през 2025 г.
Възможностите на агента произтичат от обучението на модела от край до край
Deep Research е агент, способен да търси в множество онлайн уебсайтове и да генерира изчерпателни доклади, изпълнявайки много задачи, които биха отнели часове на хората. Работейки в рамките на ChatGPT, той отговаря на въпроси за приблизително 5-30 минути, позволявайки по-задълбочени изследвания и предоставяйки по-подробни и конкретни отговори от стандартния ChatGPT. OpenAI преди това пусна Operator, а Deep Research е вторият му агент, като предстоят още.
Произход
Преди около година OpenAI започна да възприема парадигма на разсъждение вътрешно, с цел да обучи моделите да мислят, преди да отговарят. Този подход се оказа много успешен.
Първоначално OpenAI се фокусира върху математиката и науката. Въпреки това, те откриха, че тази нова архитектура на модела за разсъждение също така отключва способността за справяне с по-дългосрочни задачи, включващи възможности на агента.
Едновременно с това OpenAI осъзна, че много задачи изискват обширни онлайн проучвания или външен контекст, силни способности за разсъждение, разпознаване на източниците на информация и известна степен на креативност. В крайна сметка OpenAI разработи методи за обучение на модели, способни да се справят с тези задачи. Те решиха да обучат моделите да изпълняват задачи за сърфиране, използвайки същите методи като за обучение на модели за разсъждение, но приложени към по-реални задачи.
Проектът Deep Research започна с оригинална демонстрация от Иса Фулфорд и Яш Патил. Джош Тобин се присъедини отново към OpenAI преди около шест месеца, след като работи в стартъп, заинтересува се дълбоко от основополагащата работа и се присъедини към проекта Deep Research.
Ключови лица:
- Иса Фулфорд: Изследовател на AI в екипа за последващо обучение на OpenAI, основен сътрудник на ChatGPT Retrieval Plugin.
- Яш Патил: Член на основния екип за модели в екипа за последващо обучение на OpenAI, отпаднал от Станфорд.
- Джош Тобин: Преди това изследовател в OpenAI, по-късно основава Gantry (продукт за подобряване на ML чрез анализ, сигнали и човешка обратна връзка). Той се присъедини отново към OpenAI и в момента ръководи екипа за изследване на продуктите на Agents.
Поток за изясняване
Deep Research се отличава с уникален дизайн: потокът за изясняване. Преди да започне изследването, моделът Deep Research задава въпроси на потребителя. Обикновено ChatGPT задава само последващи въпроси в края на отговора или пита дали отговорът е задоволителен, за разлика от Deep Research, който се ангажира с това поведение предварително.
Това беше умишлен избор на дизайн от екипа. Потребителите получават най-добрите отговори от модела Deep Research само когато техните подкани са много ясни и подробни. Въпреки това, потребителите често не предоставят цялата информация в първоначалната си подкана. Следователно, OpenAI искаше да се увери, че след като изчакат 5 или 30 минути, потребителите ще получат достатъчно подробен и задоволителен отговор. Тази допълнителна стъпка беше добавена, за да се гарантира, че потребителите предоставят всички необходими подробности за модела.
Много потребители в X споменаха, че първо взаимодействат с o1 или o1 Pro, за да прецизират своите подкани. След като са доволни, те изпращат подканата към Deep Research.
Крайната форма на агентите
През последните няколко месеца OpenAI пусна три различни версии на Deep Research, всички наречени Deep Research. Джош Тобин вярва, че докато всеки продукт има своите силни и слаби страни, разликите в качеството между тях са очевидни. В крайна сметка това се дължи на начина, по който са конструирани моделите, усилията, вложени в изграждането на наборите от данни, и използването на модели от серията O като двигател. Това позволява моделите Deep Research да бъдат оптимизирани, създавайки високо интелигентни и висококачествени инструменти.
Понастоящем Deep Research, O3 и Operator са относително независими. Въпреки това, OpenAI се стреми потребителите в крайна сметка да имат един единствен, краен агент, който може да извършва уеб търсения, да използва компютри или да изпълнява други желани задачи, интегрирайки всички тези функции по по-естествен начин.
Обучението от край до край е основната причина за силата на модела
Основният модел на Deep Research е фино настроена версия на O3. O3 е най-модерният модел за разсъждение на OpenAI и голяма част от аналитичните възможности на Deep Research идват от него. OpenAI специално обучи модела Deep Research за сложни задачи за сърфиране и други задачи за разсъждение. Следователно Deep Research може също да използва инструменти за сърфиране и инструменти на Python. Чрез обучение от край до край за тези задачи, Deep Research научи стратегии за справяне с тях, което в крайна сметка прави модела отличен в онлайн анализа на търсенето.
Интуитивно, потребителят прави заявка и моделът първо внимателно обмисля. След това търси подходяща информация, извлича я и я чете. След като разбере как тази информация се отнася до заявката, моделът решава какво да търси след това, за да се доближи до желания от потребителя краен отговор. Deep Research може да интегрира цялата тази информация в спретнат доклад, с цитати, сочещи към оригиналните източници.
Иновацията, която дава на Deep Research неговите агентски възможности, се крие в обучението на модела от край до край на OpenAI. Това означава, че много операции по време на изследователския процес са непредвидими предварително. Невъзможно е да се постигне гъвкавостта, която моделът придобива чрез обучение, чрез писане на езиков модел, програма или скрипт. Чрез обучение моделът Deep Research се научи как да реагира на уеб информация в реално време и да коригира стратегиите своевременно въз основа на това, което вижда. Следователно моделът Deep Research всъщност провежда много креативни търсения. Потребителите могат да видят колко интелигентен е моделът при вземането на решение какво да търси след това или как да заобиколи определени проблеми, като прочете резюметата на CoT.
Разлики между Deep Research и AI търсенето
По отношение на въпроса на Джон Колисън за това колко от възможностите на Deep Research идват от достъп в реално време до уеб съдържание и колко от CoT, двамата изследователи на OpenAI вярват, че изключителните възможности на Deep Research са резултат от комбинацията от двете.
Други продукти за AI търсене не са обучени от край до край, така че те не са толкова гъвкави в отговора на информация, колкото Deep Research, нито са толкова креативни при решаването на конкретни проблеми.
Преди да се присъедини към OpenAI, Джош Тобин работи в стартъп и се опита да изгради агенти по начина, по който повечето хора описват изграждането им, по същество конструирайки операционна графика с LLM, намесващи се в някои възли. Докато LLM може да реши какво да прави след това, логиката на цялата последователност от стъпки се определя от хората.
Джош Тобин откри, че това е мощен метод за бързо прототипиране, но бързо се сблъска с проблеми в реалния свят. Трудно е да се предвидят всички ситуации, с които моделът може да се сблъска, и да се вземат предвид всички различни разклонения на пътища, които може да иска да поеме. Освен това, тъй като тези модели не са специално обучени да вземат решения, те често не са най-добрите лица, вземащи решения във възлите; те са обучени да правят нещо подобно на вземане на решения.
Това потвърждава, че истинската сила на модела Deep Research идва от директното обучение от край до край, целящо да реши задачите, които потребителите действително трябва да решат. Следователно, няма нужда да се настройва операционна графика или да се вземат решения за възли в фоновата архитектура; всичко се управлява от самия модел.
Освен това, ако потребителят има много специфичен и предвидим работен процес, тогава извършването му по начина, описан по-горе от Джош Тобин, е ценно. Но ако се изисква много гъвкава обработка, тогава подход, подобен на Deep Research, може да бъде най-добрият избор.
Джош Тобин предполага, че някои строги правила не трябва да бъдат твърдо кодирани в модела. Ако има нужда като “нежелание моделът да има достъп до определена база данни”, по-добре е да се приложи с ръчно написана логика. Хората често си мислят, че могат да бъдат по-умни от модела, като пишат код, но в действителност, с развитието на областта, моделите обикновено измислят по-добри решения от хората.
Един от най-важните уроци на машинното обучение е, че резултатите, които получавате, зависят от това, за което оптимизирате. Така че, ако потребителите могат да настроят система за директно оптимизиране за желания резултат, това ще бъде много по-добре, отколкото да се опитват да сглобят модели, които не отговарят на цялата задача. Следователно, RL настройката на общата основа на модела може да се превърне в ключова част от изграждането на най-мощните агенти.
Висококачествените данни са един от ключовите фактори за успеха на модела
Един от ключовите фактори за успеха на модела Deep Research е наличието на висококачествен набор от данни. Качеството на данните, въведени в модела, вероятно е ключовият фактор, определящ качеството на модела. В проекта Deep Research Едуард Сън оптимизира всички набори от данни.
Предимства на Deep Research
Силата на Deep Research се крие в способността му да предоставя най-добрите отговори, когато потребителите имат подробно описание на своите нужди. Въпреки това, дори ако въпросът на потребителя е неясен, Deep Research може да изясни желаната информация. Той е най-мощен, когато потребителите търсят конкретен набор от информация.
Deep Research е не само способен да събира широко цялата информация за даден източник, но също така се отличава с намирането на много неясни факти, като съдържание с дълга опашка, което не би се появило на първите няколко страници при традиционно търсене, подробности за конкретен епизод на неясно телевизионно шоу и т.н. В един въпрос за австрийски генерал ChatGPT веднъж даде грешен отговор, докато Deep Research успешно намери правилния.
Deep Research е много добър в синтезирането на информация, особено при намирането на конкретна, труднодостъпна информация. Въпреки това, Deep Research не е толкова ефективен при извличане на нови прозрения от съществуваща информация и все още не може да прави нови научни открития.
Случаи на употреба на Deep Research
Целеви потребители
Deep Research е предназначен за всеки, който се занимава с работа със знания в ежедневната си работа или живот, особено тези, които трябва да събират големи количества информация, да анализират данни и да вземат решения. Много потребители прилагат Deep Research към работата си, като например в изследвания, за да разберат ситуацията в области като пазари, компании и недвижими имоти.
Случаи на употреба
OpenAI се надява, че Deep Research може да обслужва както бизнес, така и лични житейски сценарии, тъй като всъщност е много гъвкава възможност, приложима както за работа, така и за личен живот. Привлекателността на Deep Research се крие в способността му да спестява много време. Някои задачи, които може да са отнели часове или дори дни, вече могат да бъдат 90% отговорени с Deep Research. OpenAI вярва, че ще има повече подобни задачи в бизнес сценарии, но Deep Research също ще стане част от личния живот на хората.
Deep Research не е за замяна на работната сила. За работа със знания, особено задачи, които изискват много време за намиране на информация и изготвяне на заключения, Deep Research ще даде на хората суперсили, позволявайки задачи, които може да са отнели 4 или 8 часа, да бъдат завършени за 5 минути, позволявайки на потребителите да постигнат повече.
Интервюто спомена случаи на употреба, включително: медицински, инвестиционни и други професионални работни сценарии; пазаруване, пътуване и други семейни сценарии; програмиране и персонализирано образование.
Медицински, инвестиционни и други професионални работни сценарии
В медицината Deep Research може да помогне за намирането на цялата литература или скорошни случаи на определено заболяване, като по този начин спестява време.
В инвестициите, с помощта на Deep Research, инвеститорите могат да изберат да проучат всеки потенциален стартъп, в който биха могли да инвестират, а не само тези, с които имат време да се срещнат.
В операциите на компанията, потребител, обмислящ стартиране на компания за потребителски стоки, използва широко Deep Research, за да определи дали конкретни имена на марки вече са регистрирани, дали домейните са заети, размера на пазара и различна друга информация.
Пазаруване, пътуване и други семейни сценарии
Потребител, обмислящ закупуване на нова кола, искаше да знае кога ще излезе следващият модел. Имаше много спекулативни статии онлайн, така че потребителят помоли Deep Research да състави всички свързани слухове. Deep Research изготви отличен доклад, информирайки потребителя, че нова кола може да бъде пусната през следващите няколко месеца.
Когато Deep Research беше пуснат в Япония, потребителите го намериха за много полезен при намирането на ресторанти, които отговарят на специфични изисквания, и също така може да помогне на потребителите да открият неща, които може би не са намерили иначе.
Когато потребителите трябва да закупят скъп артикул, да планират специално пътуване или да прекарат много време в мислене за проблем, те могат да прекарат часове онлайн, търсейки подходяща информация, разглеждайки всички рецензии и т.н. Deep Research може бързо да организира тази информация, да създаде обобщен доклад и да предостави подробни и персонализирани съвети.
Заетите работещи майки често нямат време да планират рождени дни за децата си, но сега могат да го направят бързо с помощта на Deep Research.
Deep Research също е отличен в следването на инструкции. Ако потребителите не само искат да знаят за даден продукт, но и искат да го сравнят с всички други продукти, или дори искат да видят рецензии от уебсайтове като Reddit, те могат да отправят много различни заявки към Deep Research и той ще изпълни тези задачи наведнъж. Потребителите могат също да помолят Deep Research да постави информацията в таблица.
Програмиране
Много хора използват Deep Research за програмиране. Този сценарий първоначално не беше разглеждан от OpenAI, но много хора го използват за писане на код, търсене на код, дори намиране на най-новата документация за пакет или писане на скриптове, с впечатляващи резултати.
Образование
Персонализираното образование е много интересен сценарий за приложение. Ако потребителите имат тема, която искат да научат, като например преглед на биология или разбиране на текущи събития, те трябва само да предоставят частите, които не разбират, или информацията, в която искат да се задълбочат, и Deep Research може да състави подробен доклад. Може би в бъдеще ще бъде възможно да се осигури персонализирано образование въз основа на това, което Deep Research научава за потребителя.
Агентите ще се появят през 2025 г.
Бъдещи насоки за развитие на Deep Research
По отношение на продуктовата форма, OpenAI се надява, че Deep Research ще може да вгражда изображения в бъдеще, да намира снимки на продукти, да генерира диаграми и да вгражда тези диаграми в отговорите.
По отношение на източниците на информация, OpenAI се надява да разшири източниците на данни, до които моделът има достъп. Те се надяват, че моделът ще може да търси частни данни в бъдеще. OpenAI ще подобри допълнително възможностите на модела, правейки го по-добър в сърфирането и анализа.
По отношение на точността на информацията, за да могат потребителите да се доверят на изхода на Deep Research, потребителите могат да видят източниците на информация, цитирани от модела. По време на процеса на обучение на модела, OpenAI също се стреми да гарантира коректността на цитатите, но моделът все още може да прави грешки, да халюцинира или дори да се довери на източник, който може да не е най-надеждният. Следователно, това е област, която OpenAI се надява да продължи да подобрява.
За да се интегрира по-широко в пътната карта на OpenAI Agent, OpenAI се надява, че Deep Research може да бъде разширен до много различни сценарии на приложение, комбинирайки най-модерните модели за разсъждение с инструменти, които хората могат да използват за изпълнение на задачи за работа или ежедневие, и след това директно оптимизиране на модела за постигане на резултатите, които потребителите искат агентът да постигне.
На този етап всъщност няма нищо, което да спира Deep Research да се разшири до по-сложни сценарии на задачи. AGI сега е оперативен проблем и ще има много вълнуващи развития, които да очакваме в бъдеще.
Сам Алтман вярва, че задачите, които Deep Research може да изпълни, ще представляват няколко процента от всички икономически жизнеспособни задачи в света. Джош Тобин вярва, че Deep Research не може да свърши цялата работа за потребителите, но може да спести на потребителите няколко часа или дори дни. OpenAI се надява, че сравнително близка цел е Deep Research и агентите, изградени след това, както и други агенти, изградени на тази основа, да спестят на потребителите 1%, 5%, 10% или 25% от времето им, в зависимост от вида на работата, която вършат.
Agent & RL
Иса Фулфорд и Джош Тобин са съгласни, че агентите ще се появят тази година.
RL преживя връх, след това изглежда имаше малко спад и сега отново получава внимание. Ян ЛеКун веднъж имаше аналогия: ако хората правят торта, по-голямата част от нея е торта, ще има малко глазура и накрая няколко череши отгоре. Неконтролираното обучение е като тортата, контролираното обучение е глазурата, а RL е черешата.
Джош Тобин вярва, че когато се прави RL през 2015-2016 г., използвайки аналогията с тортата, може би се е опитвал да добави черешата без тортата. Но сега има езикови модели, предварително обучени на големи количества данни, тези модели са много мощни и ние знаем как да извършим контролирана фина настройка на тези езикови модели, за да ги направим добри в изпълнението на инструкции и правенето на това, което хората искат. Сега всичко работи много добре и е много подходящо да се коригират тези модели според дефинирани от потребителя функции за възнаграждение за всеки случай на употреба.