Deep Research: Agenty do Wszystkich Zadań

Drugi Agent OpenAI

Trzy tygodnie temu OpenAI przedstawiło Deep Research, swojego drugiego agenta. Agent ten potrafi przeszukiwać wiele stron internetowych i przeprowadzać kompleksowe badania online w ciągu 5-30 minut, syntetyzując informacje i dostarczając szczegółowe raporty z cytatami.

Ten artykuł kompiluje i porządkuje wywiad przeprowadzony przez Sequoia Capital z Isą Fulford i Joshem Tobinem, liderami Deep Research w OpenAI. Obaj członkowie zespołu szczegółowo omawiają techniczne aspekty i przemyślenia produktowe stojące za Deep Research, a także przypadki użycia, które obecnie obserwują.

Deep Research wywodzi się z wewnętrznych badań OpenAI nad zdolnością modelu do obsługi zadań o długim horyzoncie czasowym. Długoterminowym celem zespołu jest zapewnienie użytkownikom w przyszłości ostatecznego agenta: naturalnego, kompleksowego rozwiązania do wyszukiwania w Internecie, korzystania z komputera lub wszelkich innych zadań, które chcą, aby agent wykonał.

Deep Research został również specjalnie zoptymalizowany na poziomie produktu. Na przykład, jak wspomniano w naszej analizie DeepSeek, Deep Research zwiększa zaufanie użytkowników poprzez wyraźne cytaty i Chain-of-Thought (CoT). Zespół zaprojektował również proces wyjaśniania, aby zapewnić spójne zrozumienie zadania. Deep Research przewyższa wyszukiwanie AI i ChatGPT w zakresie wyszukiwania i porządkowania informacji. Jednak na tym etapie Deep Research nie jest tak skuteczny w wydobywaniu nowych spostrzeżeń z istniejących informacji i nie może jeszcze dokonywać nowych odkryć naukowych.

Kluczowe wnioski:

  • OpenAI uruchomiło swojego drugiego agenta, Deep Research, zdolnego do przeprowadzania dogłębnych badań online.
  • Możliwości agenta wynikają z kompleksowego szkolenia modelu.
  • Deep Research przoduje w syntezie informacji i znajdowaniu niejasnych faktów.
  • Przypadki użycia obejmują pracę zawodową, życie osobiste, programowanie i edukację.
  • Zespół przewiduje znaczny postęp dla agentów w 2025 roku.

Możliwości Agenta Wynikają z Kompleksowego Szkolenia Modelu

Deep Research to agent zdolny do przeszukiwania wielu stron internetowych i generowania kompleksowych raportów, wykonując wiele zadań, które zajęłyby ludziom godziny. Działając w ramach ChatGPT, odpowiada na pytania w ciągu około 5-30 minut, umożliwiając głębsze badania i dostarczając bardziej szczegółowych i konkretnych odpowiedzi niż standardowy ChatGPT. OpenAI wcześniej uruchomiło Operator, a Deep Research jest jego drugim agentem, a kolejne są w drodze.

Początki

Około rok temu OpenAI zaczęło wewnętrznie wdrażać paradygmat rozumowania, mając na celu szkolenie modeli, aby myślały przed udzieleniem odpowiedzi. To podejście okazało się bardzo skuteczne.

Początkowo OpenAI skupiło się na matematyce i naukach ścisłych. Odkryli jednak, że ta nowa architektura modelu rozumowania odblokowała również zdolność do obsługi zadań długoterminowych, obejmujących możliwości agenta.

Jednocześnie OpenAI zdało sobie sprawę, że wiele zadań wymaga szeroko zakrojonych badań online lub kontekstu zewnętrznego, silnych zdolności rozumowania, rozróżniania źródeł informacji i pewnego stopnia kreatywności. Ostatecznie OpenAI opracowało metody szkolenia modeli zdolne do obsługi tych zadań. Zdecydowali się szkolić modele do wykonywania zadań przeglądania, stosując te same metody, co w przypadku szkolenia modeli rozumowania, ale zastosowane do bardziej rzeczywistych zadań.

Projekt Deep Research rozpoczął się od oryginalnego demo autorstwa Isy Fulford i Yasha Patila. Josh Tobin ponownie dołączył do OpenAI około sześć miesięcy temu po pracy w startupie, zainteresował się głęboko pracami podstawowymi i dołączył do projektu Deep Research.

Kluczowe Osoby:

  • Isa Fulford: Badaczka AI w zespole Post-training OpenAI, główna współtwórczyni ChatGPT Retrieval Plugin.
  • Yash Patil: Członek głównego zespołu modelowego w zespole Post-training OpenAI, który porzucił Stanford.
  • Josh Tobin: Wcześniej Research Scientist w OpenAI, później założył Gantry (produkt do ulepszania ML poprzez analizę, alerty i opinie ludzi). Ponownie dołączył do OpenAI i obecnie kieruje zespołem badawczym ds. produktów Agents.

Proces Wyjaśniania

Deep Research charakteryzuje się unikalnym projektem: procesem wyjaśniania. Przed rozpoczęciem badań model Deep Research zadaje użytkownikowi pytania. Zazwyczaj ChatGPT zadaje pytania uzupełniające tylko na końcu odpowiedzi lub pyta, czy odpowiedź jest satysfakcjonująca, w przeciwieństwie do Deep Research, który angażuje się w to zachowanie z góry.

Był to celowy wybór projektowy zespołu. Użytkownicy otrzymują najlepsze odpowiedzi od modelu Deep Research tylko wtedy, gdy ich podpowiedzi są bardzo jasne i szczegółowe. Jednak użytkownicy często nie podają wszystkich informacji w swojej początkowej podpowiedzi. Dlatego OpenAI chciało mieć pewność, że po odczekaniu 5 lub 30 minut użytkownicy otrzymają wystarczająco szczegółową i satysfakcjonującą odpowiedź. Ten dodatkowy krok został dodany, aby upewnić się, że użytkownicy podają wszystkie szczegóły niezbędne dla modelu.

Wielu użytkowników na X wspomniało o interakcji z o1 lub o1 Pro w celu dopracowania swoich podpowiedzi. Po uzyskaniu satysfakcji wysyłają podpowiedź do Deep Research.

Ostateczna Forma Agentów

W ciągu ostatnich kilku miesięcy OpenAI uruchomiło trzy różne wersje Deep Research, wszystkie o nazwie Deep Research. Josh Tobin uważa, że chociaż każdy produkt ma swoje mocne i słabe strony, różnice jakościowe między nimi są ewidentne. Ostatecznie wynika to ze sposobu, w jaki modele są konstruowane, wysiłku włożonego w budowanie zbiorów danych i wykorzystania modeli serii O jako silnika. Pozwala to na optymalizację modeli Deep Research, tworząc wysoce inteligentne i wysokiej jakości narzędzia.

Obecnie Deep Research, O3 i Operator są stosunkowo niezależne. Jednak OpenAI dąży do tego, aby użytkownicy ostatecznie mieli jednego, ostatecznego agenta, który może wykonywać wyszukiwania w Internecie, korzystać z komputerów lub wykonywać inne pożądane zadania, integrując wszystkie te funkcje w bardziej naturalny sposób.

Kompleksowe Szkolenie jest Podstawowym Powodem Mocy Modelu

Podstawowym modelem Deep Research jest dostrojona wersja O3. O3 jest najbardziej zaawansowanym modelem rozumowania OpenAI, a duża część zdolności analitycznych Deep Research pochodzi właśnie z niego. OpenAI specjalnie przeszkoliło model Deep Research w zakresie złożonych zadań przeglądania i innych zadań rozumowania. Dlatego Deep Research może również korzystać z narzędzi do przeglądania i narzędzi Pythona. Dzięki kompleksowemu szkoleniu w zakresie tych zadań Deep Research nauczył się strategii ich obsługi, co ostatecznie sprawia, że model przoduje w analizie wyszukiwania online.

Intuicyjnie, użytkownik składa żądanie, a model najpierw dokładnie się nad nim zastanawia. Następnie wyszukuje istotne informacje, wyodrębnia je i czyta. Po zrozumieniu, w jaki sposób te informacje odnoszą się do żądania, model decyduje, czego szukać dalej, aby zbliżyć się do pożądanej przez użytkownika ostatecznej odpowiedzi. Deep Research może zintegrować wszystkie te informacje w schludny raport, z cytatami wskazującymi na oryginalne źródła.

Innowacja, która daje Deep Research możliwości agenta, polega na kompleksowym szkoleniu modelu przez OpenAI. Oznacza to, że wiele operacji podczas procesu badawczego jest nieprzewidywalnych z góry. Nie da się osiągnąć elastyczności, którą model zyskuje dzięki szkoleniu, pisząc model językowy, program lub skrypt. Dzięki szkoleniu model Deep Research nauczył się reagować na informacje internetowe w czasie rzeczywistym i szybko dostosowywać strategie w oparciu o to, co widzi. Dlatego model Deep Research faktycznie prowadzi bardzo kreatywne wyszukiwania. Użytkownicy mogą zobaczyć, jak inteligentny jest model w decydowaniu, czego szukać dalej lub jak obejść pewne problemy, czytając podsumowania CoT.

Różnice Między Deep Research a Wyszukiwaniem AI

Odnosząc się do pytania Johna Collisona o to, ile możliwości Deep Research pochodzi z dostępu do treści internetowych w czasie rzeczywistym, a ile z CoT, dwaj badacze OpenAI uważają, że wyjątkowa zdolność Deep Research jest wynikiem połączenia obu tych elementów.

Inne produkty wyszukiwania AI nie są szkolone kompleksowo, więc nie są tak elastyczne w reagowaniu na informacje jak Deep Research, ani nie są tak kreatywne w rozwiązywaniu konkretnych problemów.

Przed dołączeniem do OpenAI Josh Tobin pracował w startupie i próbował budować agentów w sposób, w jaki większość ludzi opisuje ich budowanie, zasadniczo konstruując graf operacji z LLM interweniującymi w niektórych węzłach. Podczas gdy LLM może decydować, co robić dalej, logika całej sekwencji kroków jest definiowana przez ludzi.

Josh Tobin uznał to za potężną metodę szybkiego prototypowania, ale szybko napotkał problemy w realnym świecie. Trudno jest przewidzieć wszystkie sytuacje, z którymi model może się spotkać, i wziąć pod uwagę wszystkie różne gałęzie ścieżek, którymi może chcieć podążać. Co więcej, ponieważ modele te nie są specjalnie szkolone do podejmowania decyzji, często nie są najlepszymi decydentami w węzłach; są szkolone do robienia czegoś podobnego do podejmowania decyzji.

To potwierdza, że prawdziwa moc modelu Deep Research pochodzi z bezpośredniego, kompleksowego szkolenia, mającego na celu rozwiązywanie zadań, które użytkownicy faktycznie muszą rozwiązać. Dlatego nie ma potrzeby konfigurowania grafu operacji ani podejmowania decyzji w węzłach w architekturze zaplecza; wszystko jest napędzane przez sam model.

Ponadto, jeśli użytkownik ma bardzo specyficzny i przewidywalny przepływ pracy, to zrobienie tego w sposób opisany powyżej przez Josha Tobina jest wartościowe. Ale jeśli wymagane jest bardzo elastyczne przetwarzanie, to podejście podobne do Deep Research może być najlepszym wyborem.

Josh Tobin sugeruje, że niektóre ścisłe reguły nie powinny być zakodowane na stałe w modelu. Jeśli istnieje potrzeba, taka jak „niechęć do tego, aby model uzyskiwał dostęp do określonej bazy danych”, lepiej jest zaimplementować ją za pomocą ręcznie napisanej logiki. Ludzie często myślą, że mogą być mądrzejsi od modelu, pisząc kod, ale w rzeczywistości, w miarę rozwoju dziedziny, modele zwykle wymyślają lepsze rozwiązania niż ludzie.

Jedną z najważniejszych lekcji uczenia maszynowego jest to, że wyniki, które otrzymujesz, zależą od tego, co optymalizujesz. Tak więc, jeśli użytkownicy mogą skonfigurować system, aby bezpośrednio optymalizować pożądany wynik, będzie to znacznie lepsze niż próba poskładania modeli, które nie pasują do całego zadania. Dlatego dostrajanie RL na podstawie ogólnego modelu może stać się kluczową częścią budowania najpotężniejszych agentów.

Wysokiej Jakości Dane są Jednym z Kluczowych Czynników Sukcesu Modelu

Jednym z kluczowych czynników sukcesu modelu Deep Research jest posiadanie wysokiej jakości zbioru danych. Jakość danych wprowadzanych do modelu jest prawdopodobnie kluczowym czynnikiem determinującym jakość modelu. W projekcie Deep Research Edward Sun optymalizuje wszystkie zbiory danych.

Zalety Deep Research

Siła Deep Research polega na jego zdolności do dostarczania najlepszych odpowiedzi, gdy użytkownicy mają szczegółowy opis swoich potrzeb. Jednak nawet jeśli pytanie użytkownika jest niejasne, Deep Research może wyjaśnić pożądane informacje. Jest najpotężniejszy, gdy użytkownicy szukają określonego zestawu informacji.

Deep Research jest nie tylko zdolny do szerokiego gromadzenia wszystkich informacji o źródle, ale także przoduje w znajdowaniu bardzo niejasnych faktów, takich jak treści z długiego ogona, które nie pojawiłyby się na pierwszych kilku stronach w tradycyjnym wyszukiwaniu, szczegóły konkretnego odcinka niejasnego programu telewizyjnego i tak dalej. W pytaniu o austriackiego generała ChatGPT kiedyś udzielił błędnej odpowiedzi, podczas gdy Deep Research z powodzeniem znalazł poprawną.

Deep Research jest bardzo dobry w syntezie informacji, szczególnie w znajdowaniu konkretnych, trudnych do znalezienia informacji. Jednak Deep Research nie jest tak skuteczny w wydobywaniu nowych spostrzeżeń z istniejących informacji i nie może jeszcze dokonywać nowych odkryć naukowych.

Przypadki Użycia Deep Research

Użytkownicy Docelowi

Deep Research jest przeznaczony dla każdego, kto zajmuje się pracą opartą na wiedzy w swojej codziennej pracy lub życiu, szczególnie dla tych, którzy muszą gromadzić duże ilości informacji, analizować dane i podejmować decyzje. Wielu użytkowników stosuje Deep Research w swojej pracy, na przykład w badaniach, aby zrozumieć sytuację w obszarach takich jak rynki, firmy i nieruchomości.

Przypadki Użycia

OpenAI ma nadzieję, że Deep Research może służyć zarówno scenariuszom biznesowym, jak i osobistym, ponieważ jest to w rzeczywistości bardzo wszechstronna zdolność mająca zastosowanie zarówno w pracy, jak i w życiu osobistym. Atrakcyjność Deep Research polega na jego zdolności do oszczędzania dużej ilości czasu. Niektóre zadania, które mogłyby zająć godziny, a nawet dni, mogą być teraz w 90% rozwiązane za pomocą Deep Research. OpenAI uważa, że w scenariuszach biznesowych będzie więcej podobnych zadań, ale Deep Research stanie się również częścią życia osobistego ludzi.

Deep Research nie ma na celu zastąpienia siły roboczej. W przypadku pracy opartej na wiedzy, szczególnie zadań, które wymagają dużo czasu na znalezienie informacji i wyciągnięcie wniosków, Deep Research da ludziom supermoce, umożliwiając wykonanie zadań, które mogłyby zająć 4 lub 8 godzin, w 5 minut, pozwalając użytkownikom osiągnąć więcej.

W wywiadzie wspomniano o przypadkach użycia obejmujących: medycynę, inwestycje i inne scenariusze pracy zawodowej; zakupy, podróże i inne scenariusze rodzinne; programowanie i spersonalizowaną edukację.

  • Medycyna, Inwestycje i Inne Scenariusze Pracy Zawodowej

    W medycynie Deep Research może pomóc znaleźć całą literaturę lub najnowsze przypadki dotyczące określonej choroby, oszczędzając w ten sposób czas.

    W inwestycjach, z pomocą Deep Research, inwestorzy mogą zdecydować się na zbadanie każdego potencjalnego startupu, w który mogliby zainwestować, a nie tylko tych, z którymi mają czas się spotkać.

    W operacjach firmowych użytkownik rozważający założenie firmy produkującej dobra konsumpcyjne intensywnie korzystał z Deep Research, aby ustalić, czy określone nazwy marek zostały już zarejestrowane, czy nazwy domen są zajęte, wielkość rynku i różne inne informacje.

  • Zakupy, Podróże i Inne Scenariusze Rodzinne

    Użytkownik rozważający zakup nowego samochodu chciał wiedzieć, kiedy zostanie wydany następny model. W Internecie było wiele spekulacyjnych artykułów, więc użytkownik poprosił Deep Research o zebranie wszystkich istotnych plotek. Deep Research stworzył doskonały raport, informując użytkownika, że nowy samochód może zostać wydany w ciągu najbliższych kilku miesięcy.

    Kiedy Deep Research został uruchomiony w Japonii, użytkownicy uznali go za bardzo pomocny w znajdowaniu restauracji, które spełniały określone wymagania, a także mógł pomóc użytkownikom odkryć rzeczy, których inaczej mogliby nie znaleźć.

    Gdy użytkownicy muszą kupić drogi przedmiot, zaplanować specjalną podróż lub spędzić dużo czasu na myśleniu o problemie, mogą spędzić godziny online, szukając istotnych informacji, przeglądając wszystkie recenzje itp. Deep Research może szybko uporządkować te informacje, utworzyć raport podsumowujący i udzielić szczegółowych i spersonalizowanych porad.

    Zapracowane pracujące matki często nie mają czasu na planowanie przyjęć urodzinowych dla swoich dzieci, ale teraz mogą to zrobić szybko z pomocą Deep Research.

    Deep Research jest również doskonały w wykonywaniu instrukcji. Jeśli użytkownicy chcą nie tylko dowiedzieć się o produkcie, ale także porównać go ze wszystkimi innymi produktami, a nawet chcą zobaczyć recenzje ze stron internetowych takich jak Reddit, mogą złożyć wiele różnych żądań do Deep Research, a on wykona te zadania za jednym razem. Użytkownicy mogą również poprosić Deep Research o umieszczenie informacji w tabeli.

  • Programowanie

    Wiele osób używa Deep Research do programowania. Ten scenariusz nie był początkowo brany pod uwagę przez OpenAI, ale wiele osób używa go do pisania kodu, wyszukiwania kodu, a nawet znajdowania najnowszej dokumentacji dla pakietu lub pisania skryptów, z imponującymi wynikami.

  • Edukacja

    Spersonalizowana edukacja to bardzo interesujący scenariusz zastosowania. Jeśli użytkownicy mają temat, którego chcą się nauczyć, na przykład powtórzyć biologię lub zrozumieć bieżące wydarzenia, wystarczy, że podadzą części, których nie rozumieją, lub informacje, w które chcą się zagłębić, a Deep Research może sporządzić szczegółowy raport. Być może w przyszłości będzie można zapewnić spersonalizowaną edukację w oparciu o to, czego Deep Research dowie się o użytkowniku.

Agenci Pojawią się w 2025 Roku

Przyszłe Kierunki Rozwoju Deep Research

Pod względem formy produktu OpenAI ma nadzieję, że Deep Research będzie mógł w przyszłości osadzać obrazy, znajdować zdjęcia produktów, generować wykresy i osadzać te wykresy w odpowiedziach.

Pod względem źródeł informacji OpenAI ma nadzieję rozszerzyć źródła danych, do których model może uzyskać dostęp. Mają nadzieję, że model będzie mógł w przyszłości przeszukiwać prywatne dane. OpenAI będzie dalej ulepszać możliwości modelu, czyniąc go lepszym w przeglądaniu i analizie.

Pod względem dokładności informacji, aby umożliwić użytkownikom zaufanie do wyników Deep Research, użytkownicy mogą zobaczyć źródła informacji cytowane przez model. Podczas procesu szkolenia modelu OpenAI stara się również zapewnić poprawność cytowań, ale model może nadal popełniać błędy, halucynować, a nawet ufać źródłu, które może nie być najbardziej wiarygodne. Dlatego jest to obszar, który OpenAI ma nadzieję nadal ulepszać.

Aby szerzej zintegrować się z mapą drogową OpenAI Agent, OpenAI ma nadzieję, że Deep Research będzie mógł zostać rozszerzony na wiele różnych scenariuszy zastosowań, łącząc najbardziej zaawansowane modele rozumowania z narzędziami, których ludzie mogą używać do wykonywania zadań w pracy lub w życiu codziennym, a następnie bezpośrednio optymalizując model, aby osiągnąć wyniki, które użytkownicy chcą, aby agent osiągnął.

Na tym etapie w rzeczywistości nic nie stoi na przeszkodzie, aby Deep Research rozszerzył się na bardziej złożone scenariusze zadań. AGI jest teraz kwestią operacyjną i w przyszłości będzie wiele ekscytujących wydarzeń, na które warto czekać.

Sam Altman uważa, że zadania, które Deep Research może wykonać, będą stanowić kilka procent wszystkich ekonomicznie opłacalnych zadań na świecie. Josh Tobin uważa, że Deep Research nie może wykonać całej pracy za użytkowników, ale może zaoszczędzić użytkownikom kilka godzin, a nawet dni. OpenAI ma nadzieję, że stosunkowo bliskim celem jest to, aby Deep Research i agenci zbudowani w następnej kolejności, a także inni agenci zbudowani na tej podstawie, zaoszczędzili użytkownikom 1%, 5%, 10% lub 25% ich czasu, w zależności od rodzaju wykonywanej pracy.

Agent & RL

Isa Fulford i Josh Tobin zgadzają się, że agenci pojawią się w tym roku.

RL przeżyło szczyt, potem wydawało się, że ma trochę dołka, a teraz ponownie zyskuje uwagę. Yann LeCun miał kiedyś analogię: jeśli ludzie robią ciasto, większość z niego to ciasto, będzie trochę lukru, a na koniec kilka wiśni na wierzchu. Uczenie nienadzorowane jest jak ciasto, uczenie nadzorowane to lukier, a RL to wiśnia.

Josh Tobin uważa, że kiedy robił RL w latach 2015-2016, używając analogii z ciastem, mogło to być próbowanie dodania wiśni bez ciasta. Ale teraz istnieją modele językowe wstępnie wytrenowane na dużych ilościach danych, modele te są bardzo potężne i wiemy, jak przeprowadzić nadzorowane dostrajanie tych modeli językowych, aby były dobre w wykonywaniu instrukcji i robieniu tego, czego chcą ludzie. Teraz wszystko działa bardzo dobrze i jest bardzo odpowiednie do dostosowywania tych modeli zgodnie z funkcjami nagrody zdefiniowanymi przez użytkownika dla każdego przypadku użycia.