Powstanie Koncepcji Agenta
W ostatnich latach, wraz z wprowadzeniem serwera GitHub MCP przez Microsoft, publikacją protokołu komunikacji między agentami A2A przez Google oraz uruchomieniem serwera MCP przez Alipay, dziedzina Agentów (inteligentnych agentów) cieszy się bezprecedensowym zainteresowaniem rynku. Pomimo braku pełnej jednomyślności co do definicji Agenta, trzy główne komponenty zaproponowane przez byłą badaczkę OpenAI, Lilian Weng – ‘planowanie’, ‘pamięć’ i ‘użycie narzędzi’ – są szeroko akceptowane i stanowią kluczowe elementy rozumienia Agentów.
W dziedzinie sztucznej inteligencji koncepcja Agenta nie jest nowością, ale wraz z szybkim rozwojem dużych modeli językowych (LLM), perspektywy zastosowania Agentów otwierają nowe możliwości. Agenta można postrzegać jako inteligentny system, który potrafi postrzegać otoczenie, autonomicznie planować i wykonywać zadania. Jego istotą jest symulacja ludzkiego procesu decyzyjnego oraz wykorzystanie różnych narzędzi i zasobów do realizacji założonych celów.
Aktualny Stan Rozwoju Agenta: Ogromny Potencjał, Niski Poziom Penetrowania Rynku
Obecne aplikacje Agentów, jako rozwinięte wersje chatbotów, są w większości zintegrowane z płatnymi usługami opartymi na dużych modelach. Niewiele Agentów, takich jak Manus i Devin, oferuje niezależne płatne usługi. Niemniej jednak, Agenci tacy jak Deep Research i Manus, posiadający zdolność autonomicznego planowania, mają wiele ograniczeń w użytkowaniu. Prawdziwa liczba użytkowników, którzy mogą z nich skorzystać, może być niewielka, a do pojawienia się ‘hitowej’ aplikacji droga jest jeszcze długa.
Jednakże, wraz z ciągłym wzrostem możliwości wnioskowania dużych modeli, Agenci stają się w coraz większym stopniu centrum innowacji w aplikacjach. Coraz więcej programistów i badaczy zaczyna badać zastosowania Agentów w różnych dziedzinach, takich jak inteligentni asystenci, automatyzacja procesów, analiza danych itp. Potencjał Agentów jest stopniowo odkrywany, a przyszła przestrzeń do rozwoju jest ogromna.
Nadchodzi Era Masowego Zastosowania Agentów: Napędzana Wieloma Sprzyjającymi Warunkami
Przełom po Stronie Trenowania Modeli
- Szybki Wzrost Okna Kontekstowego: Okno kontekstowe dużych modeli (Context Window) to maksymalna długość tekstu, jaką model może uwzględnić podczas przetwarzania tekstu. Wraz z postępem technologicznym okno kontekstowe modeli szybko rośnie, co oznacza, że modele mogą lepiej rozumieć kontekst długich tekstów, a tym samym podejmować dokładniejsze decyzje.
- Dogłębne Zastosowanie Uczenia ze Wzmocnieniem: Uczenie ze wzmocnieniem to metoda trenowania Agentów poprzez nagrody i kary. W ostatnich latach uczenie ze wzmocnieniem znalazło szerokie zastosowanie w trenowaniu Agentów, umożliwiając Agentom lepsze dostosowanie się do złożonych środowisk i uczenie się optymalnych strategii.
- Dojrzałość Modeli Wnioskowania: Model wnioskowania jest kluczowym elementem Agenta, odpowiedzialnym za wnioskowanie i ocenę na podstawie wprowadzonych informacji. Wraz z postępem badań, modele wnioskowania stają się coraz bardziej dojrzałe, co pozwala na lepsze wsparcie różnych zastosowań Agenta.
Dynamiczny Rozwój Ekosystemu
- Gwałtowny Rozwój Protokółów MCP i A2A: MCP (Model Communication Protocol) i A2A (Agent-to-Agent) to dwa ważne protokoły komunikacji Agentów. Szybki rozwój tych protokołów sprawia, że Agenci mogą łatwiej wywoływać różne narzędzia i usługi, a tym samym realizować bardziej złożone funkcje.
- Coraz Łatwiejsze Wywoływanie Narzędzi przez Agenta: Wraz z postępem technologicznym, sposób, w jaki Agent wywołuje zewnętrzne narzędzia i usługi, staje się coraz wygodniejszy. Na przykład, poprzez API (Application Programming Interface), Agent może łatwo uzyskać dostęp do różnych źródeł danych i usług online, rozszerzając w ten sposób swoje możliwości.
W listopadzie 2024 roku firma Anthropic opublikowała i udostępniła protokół MCP na zasadach open source, mający na celu standaryzację sposobu, w jaki zewnętrzne dane i narzędzia dostarczają kontekstu dla modeli. Inicjatywa ta w znacznym stopniu przyczyni się do rozwoju ekosystemu Agentów, umożliwiając Agentom lepsze wykorzystanie zasobów zewnętrznych.
MCP i A2A: Klucz do Wzajemnego Połączenia Agentów
Protokół MCP: Łączenie Agenta ze Światem Zewnętrznym
Głównym celem protokołu MCP jest realizacja ‘połączenia jednym kliknięciem’ między Agentem a zewnętrznymi danymi i narzędziami. Za pomocą protokołu MCP Agent może łatwo uzyskać dostęp do różnych zasobów zewnętrznych, takich jak bazy danych, API, usługi internetowe itp. Dzięki temu Agent może lepiej rozumieć otoczenie i podejmować bardziej świadome decyzje.
Protokół A2A: Budowanie Mostu Komunikacyjnego Między Agentami
Celem protokołu A2A jest realizacja komunikacji między Agentami. Za pomocą protokołu A2A Agenci mogą ze sobą współpracować, aby wspólnie wykonywać złożone zadania. Jest to bardzo ważne dla budowy rozproszonych inteligentnych systemów.
Chociaż celem protokołu A2A jest komunikacja między Agentami, a protokołu MCP komunikacja Agenta z zewnętrznymi narzędziami i danymi, w złożonej sytuacji, w której ‘narzędzie może być również zamknięte w Agenta’, funkcje obu protokołów mogą się pokrywać. Jednak konkurencja ta pomaga obniżyć koszty wywoływania zewnętrznych narzędzi i komunikacji przez duże modele. Konkurencja ta pobudzi postęp technologiczny i ostatecznie przyniesie korzyści całemu ekosystemowi Agentów.
Prognozy Dotyczące Rozwoju Agenta
Agenta End-to-End: Bez Interwencji Człowieka
Obecnie na rynku istnieje wiele ‘inteligentnych agentów’, ale znaczna ich część jest rozwijana na platformach takich jak Coze i Dify, i wymaga wcześniejszego napisania przepływu pracy przez człowieka. Agenci ci bardziej przypominają nakładanie inżynierii podpowiedzi i należą do stosunkowo podstawowych Agentów.
Z kolei bardziej zaawansowany Agent jest ‘end-to-end’, co oznacza, że ‘wprowadzasz zadanie do Agenta, a Agent automatycznie wykonuje wyniki zadania wymagane przez człowieka’. Na przykład, użytkownik musi jedynie wprowadzić cel do Agenta, a Agent może autonomicznie zaplanować i wykonać zadanie, aby ostatecznie osiągnąć cel. Agenci wyższego poziomu, takie jak L3/L4/L5, lepiej spełniają ludzkie potrzeby i staną się ważnym kierunkiem przyszłego rozwoju Agentów.
Agenta Wspierają Roboty i Autonomiczne Jazdy
Kiedy definicja Agenta jest stosowana w inteligencji ucieleśnionej, okazuje się, że roboty i pojazdy zdominowane przez duże modele są również Agentami. Zwłaszcza roboty, obecne wąskie gardło rozwoju robotów nie polega na ‘tym, jak wykonywać ruchy fizyczne’ ‘móżdżku’, ale na myśleniu ‘jakie ruchy fizyczne wykonać’ ‘mózgu’, a to właśnie wpisuje się w zasięg Agentów.
W dziedzinie robotyki Agent może pomóc robotom lepiej rozumieć otoczenie i podejmować bardziej racjonalne decyzje. Na przykład, Agent może autonomicznie planować ścieżkę ruchu robota i wykonywać różne zadania w oparciu o obiekty i osoby w otoczeniu.
W dziedzinie autonomicznej jazdy Agent może pomóc pojazdom lepiej postrzegać otoczenie i podejmować bezpieczniejsze decyzje dotyczące jazdy. Na przykład, Agent może autonomicznie dostosowywać prędkość i kierunek pojazdu w oparciu o sygnalizację świetlną, inne pojazdy i pieszych, aby uniknąć wypadków drogowych.
Połączenie Agentów i Sieć AI Native
W przyszłości wszystkie Agenty powinny być w stanie komunikować się ze sobą, samoorganizować się i negocjować, aby zbudować sieć współpracy o niższych kosztach i wyższej wydajności niż obecny Internet. Chińska społeczność programistów również buduje protokoły takie jak ANP, które mają stać się protokołem HTTP w erze Internetu Agentów. A w przypadku uwierzytelniania tożsamości między Agentami można wykorzystać technologie takie jak DID.
- Połączenie Agentów: Połączenie między Agentami może umożliwić współdzielenie zasobów i współpracę, poprawiając w ten sposób wydajność całego systemu. Na przykład, różne Agenty mogą udostępniać dane, narzędzia i usługi, aby wspólnie wykonywać złożone zadania.
- Sieć AI Native: Sieć AI Native to sieć zaprojektowana specjalnie dla aplikacji sztucznej inteligencji. Sieć ta może zapewnić większą przepustowość, mniejsze opóźnienia i większe bezpieczeństwo, aby lepiej wspierać różne aplikacje Agenta.
- Technologia DID: DID (Decentralized Identifier) to zdecentralizowana technologia uwierzytelniania tożsamości. Dzięki technologii DID Agent może mieć swoją własną tożsamość, umożliwiając w ten sposób bezpieczniejszą i bardziej niezawodną komunikację.
Rozwój technologii Agentów przyniesie ogromne zmiany, a przyszły Internet nie będzie już prostą siecią przesyłania informacji, ale siecią współpracy pełną inteligencji.