Protokoły A2A i MCP w świecie agentów

Ostatnio Google zaprezentowało nowy otwarty protokół dla Agentów o nazwie Agent2Agent, w skrócie A2A. Jednocześnie Bailian z Alibaba Cloud ogłosił swoje wejście w MCP. Przyjrzyjmy się, czym właściwie są A2A i MCP.

Aby zrozumieć te protokoły, rozważmy analogię do dyplomacji między narodami. Wyobraźmy sobie każdego agenta AI jako mały kraj z własnym językiem i zwyczajami. Te ‘kraje’ mają ambasady mieszczące się w tym samym budynku, próbujące się komunikować, handlować i wymieniać informacje.

W idealnym scenariuszu, narody te utrzymywałyby przyjazne stosunki i przestrzegały jasnego zestawu zasad dyplomatycznych, umożliwiających im płynną interakcję, podpisywanie umów i współpracę nad międzynarodowymi projektami wokół stołu konferencyjnego.

Jednak rzeczywistość jest taka, że każda ambasada działa niezależnie z różnymi protokołami. W konsekwencji, rozpoczęcie prostej umowy handlowej z ‘Krajem A’ wymaga spełnienia mnóstwa wymagań, w tym postanowień, certyfikatów, tłumaczeń i specjalistycznych kluczy. Zaangażowanie ‘Kraju B’ i ‘Kraju C’ wymaga powtarzania podobnych procedur wielokrotnie. To ad-hoc, fragmentaryczne i wielopłaszczyznowe podejście zawyża koszty komunikacji, a każda interakcja pociąga za sobą dodatkową ‘taryfę informacyjną’.

W przeszłości agenci AI napotykali podobne trudności podczas próby współpracy.

Na przykład, możesz mieć agenta, który automatycznie odpowiada na e-maile, i innego zintegrowanego z aplikacją kalendarza, aby pomóc w planowaniu. Jednak te podmioty AI mają trudności z bezpośrednią komunikacją, co wymaga ręcznego kopiowania i wklejania informacji lub polegania na niestandardowych interfejsach.

W rezultacie agenci AI działają w izolacji, wykazując słabą interoperacyjność. Ta fragmentacja frustruje użytkowników, którzy muszą poruszać się między wieloma aplikacjami AI, i ogranicza potencjał AI. Złożone zadania, które można by zrealizować poprzez współpracę wielu agentów, są sztucznie ograniczane w poszczególnych silosach.

Sytuacja ta przypomina krajobraz po II wojnie światowej, gdzie każdy agent AI działa autonomicznie, bez jednolitych zasad i w obliczu barier komunikacyjnych. Obecny ekosystem AI przypomina powojenny pustkowie, wymagający przestrzegania określonych interfejsów i protokołów w celu uzyskania dostępu do danych i funkcjonalności. Brak standardów nakłada dodatkowe ‘taryfy’ z każdym nowym związkiem współpracy, prowadząc do niespójnego i nieefektywnego ekosystemu AI charakteryzującego się izolacją i egoizmem.

Branża AI bada możliwość ustanowienia powszechnie akceptowanego protokołu w celu ułatwienia płynnej interakcji między agentami i narzędziami zewnętrznymi. Google i Anthropic wyłoniły się jako liderzy, każdy proponując rozwiązanie: protokół A2A i protokół MCP.

Protokół A2A

Protokół A2A, skrót od Agent2Agent, umożliwia agentom AI bezpośrednią komunikację i współpracę.

Głównym celem protokołu A2A jest umożliwienie agentom różnego pochodzenia i dostawców zrozumienia się nawzajem i współpracy ze sobą, podobnie jak wysiłki Światowej Organizacji Handlu zmierzające do zmniejszenia barier handlowych.

Dzięki przyjęciu A2A, agenci różnych dostawców i frameworków mogą dołączyć do strefy wolnego handlu, komunikując się przy użyciu wspólnego języka i bezproblemowo współpracując w celu wykonywania złożonych zadań wykraczających poza możliwości poszczególnych agentów.

Aby zilustrować, jak działa A2A, rozważmy następujące analogie:

1. Agent = Dyplomata Narodowy

Każdy agent funkcjonuje jako dyplomata reprezentujący ambasadę danego kraju. Protokół A2A ma na celu ustanowienie jednolitych zasad etykiety dyplomatycznej i procedur komunikacyjnych. Wcześniej dyplomaci z ‘Kraju A’ komunikowali się wyłącznie po francusku, podczas gdy dyplomaci z ‘Kraju B’ używali cyrylicy, a ‘Kraj C’ wymagał korespondencji za pośrednictwem starożytnych listów na złotych liściach. Protokół A2A zapewnia, że wszyscy uczestnicy mogą komunikować się w z góry ustalonym języku, przesyłać dokumenty w tym samym formacie i realizować uzgodnione wyniki.

2. Karta Agenta = Akredytacje Dyplomatyczne / Wizytówka Ambasadora

W ramach A2A każdy agent jest zobowiązany do opublikowania ‘Karty Agenta’, analogicznej do wizytówki dyplomaty, zawierającej szczegóły takie jak nazwa agenta, wersja, możliwości i obsługiwane języki lub formaty.

Podobnie jak wizytówka dyplomaty identyfikuje jego rolę i przynależność, Karta Agenta wymienia umiejętności agenta, metody uwierzytelniania i formaty wejścia/wyjścia. Umożliwia to innym dyplomatom szybką identyfikację i zrozumienie możliwości, minimalizując bariery komunikacyjne.

3. Zadanie = Bilateralny lub Multilateralny Projekt Dyplomatyczny

Koncepcja Zadania ma kluczowe znaczenie dla A2A. Kiedy agent zamierza delegować zadanie innemu agentowi, wydaje ‘list intencyjny projektu współpracy’. Po akceptacji obie strony rejestrują identyfikator Zadania, aby śledzić postęp i wymieniać informacje do czasu ukończenia.

W kategoriach dyplomatycznych naród może zaproponować innemu: ‘Chcemy współpracować przy budowie transgranicznej linii kolejowej dużych prędkości; prosimy o wysłanie swojego zespołu inżynierów.’ To odzwierciedla Zadanie A2A, gdzie strona inicjująca określa wymagania, agent zdalny akceptuje, a obie strony regularnie aktualizują postępy w całym projekcie.

Wiadomości reprezentują komunikaty wymieniane podczas początkowych lub pośrednich etapów projektu, podobnie jak depesze dyplomatyczne, notatki i wymiana wysłanników.

4. Powiadomienia Push = Biuletyny Ambasady Dyplomatycznej

W A2A, jeśli Zadanie jest długoterminowym projektem wymagającym dłuższego czasu realizacji, agent zdalny może aktualizować stronę inicjującą za pomocą powiadomień push, podobnie jak kraj dostarczający okresowe aktualizacje dotyczące długoterminowego projektu infrastrukturalnego. Zwiększa to możliwości asynchronicznej współpracy.

5. Uwierzytelnianie i Bezpieczeństwo = Przywileje i Protokoły Dyplomatyczne

A2A wykorzystuje strategie uwierzytelniania klasy korporacyjnej, wymagając od obu stron komunikujących się weryfikacji poświadczeń, aby zapobiec podszywaniu się lub złośliwemu podsłuchiwaniu. Mechanizm ten jest paralelny do przywilejów i protokołów dyplomatycznych.

Zasadniczo A2A odzwierciedla dynamikę dyplomacji międzynarodowej lub współpracy biznesowej, kładąc nacisk na standardową komunikację i bezpieczeństwo.

Protokół MCP

Protokół MCP, czyli Model Context Protocol, to standard wprowadzony i udostępniony na zasadach open source przez Anthropic w listopadzie 2024 roku.

Podczas gdy A2A dotyczy procesu komunikacji między dyplomatami AI, wciąż pozostaje istotne wyzwanie: brak wiarygodnych źródeł informacji. Nawet najbardziej elokwentny dyplomata lub dyrektor biznesowy jest źle przygotowany do efektywnego działania bez dokładnych informacji o sytuacji międzynarodowej i alokacji zasobów.

Nowocześni dyplomaci polegają na zewnętrznych narzędziach, takich jak systemy wizowe, międzynarodowe systemy rozliczeniowe i bazy danych wywiadowczych, aby wykonywać swoje obowiązki. Podobnie, agent przyjmujący na siebie złożone obowiązki musi łączyć się z różnymi bazami danych, systemami dokumentów, aplikacjami korporacyjnymi, a nawet urządzeniami sprzętowymi.

Można to porównać do utworzenia kompleksowej agencji wywiadowczej dla dyplomatów i udzielenia im dostępu do narzędzi ułatwiających ich pracę.

Wcześniej agenci musieli opracowywać niestandardowe wtyczki i głęboko integrować się z różnymi narzędziami, co było pracochłonne i czasochłonne. Jednak MCP jest teraz dostępny, aby usprawnić ten proces.

MCP standaryzuje interakcje między dużymi modelami językowymi a zewnętrznymi źródłami danych i narzędziami. Anthropic porównuje MCP do portu USB-C dla aplikacji AI.

USB-C służy jako uniwersalny interfejs dla urządzeń, obsługujący ładowanie i przesyłanie danych przez jeden port. MCP ma na celu stworzenie uniwersalnego interfejsu w domenie AI, umożliwiającego różnym modelom i systemom zewnętrznym łączenie się przy użyciu tego samego protokołu, zamiast opracowywania niestandardowych rozwiązań integracyjnych za każdym razem.

Modele AI łączące się z bazami danych, wyszukiwarkami lub aplikacjami innych firm mogą komunikować się bezproblemowo, jeśli wszystkie obsługują MCP.

MCP wykorzystuje architekturę klient-serwer:

1. Serwer MCP = Skonsolidowana Agencja Wywiadowcza

Organizacje lub osoby fizyczne mogą enkapsulować bazy danych, systemy plików, kalendarze i usługi innych firm w Serwery MCP. Serwery te przestrzegają protokołu MCP, udostępniając jednolicie sformatowane punkty dostępu, umożliwiając każdemu agentowi zgodnemu ze standardami klienta MCP wysyłanie żądań, pobieranie informacji lub wykonywanie operacji.

2. Klient MCP = Sprzęt Terminalny Używany przez Dyplomatów

Agent dyplomata nosi dedykowany sprzęt terminalny, umożliwiając mu wprowadzanie poleceń, takich jak ‘Pobierz dane inwentaryzacyjne z systemu finansowego’, ‘Wyślij żądanie do API’ lub ‘Pobierz dokument PDF’.

Bez MCP integracja z różnymi systemami wymaga pisania różnych kodów dostępu, co jest uciążliwe. Jednak dzięki MCP klienci obsługujący protokół mogą łatwo przełączać się między różnymi serwerami MCP, pobierając informacje i wykonując procesy biznesowe.

Zasadniczo MCP ułatwia bezproblemową integrację między agentami AI a zasobami zewnętrznymi.

Różnica Między A2A i MCP

Aby wyjaśnić różnicę między A2A i MCP, rozważmy hipotetyczny międzynarodowy szczyt, na którym spotykają się głowy państw (reprezentujące Agenty AI firm), aby współpracować nad transnarodowym zadaniem, takim jak opracowanie globalnego raportu z analizy ekonomicznej.

Bez uniwersalnego protokołu takie spotkanie byłoby praktycznie niemożliwe, ponieważ każdy przedstawiciel mówi innym językiem. Jednak dzięki protokołowi A2A wszyscy przedstawiciele podpisują ‘Wiedeńską Konwencję Dyplomatyczną A2A’ przed wejściem na spotkanie, zgadzając się na komunikację przy użyciu jednolitego formatu, identyfikację się, podanie swoich intencji i cytowanie poprzednich identyfikatorów发言 podczas odpowiadania.

Umożliwia to ‘Agentowi G’ wysłanie wiadomości do ‘Agenta O’ w formacie A2A, a ‘Agent O’ odpowiada odpowiednio. To oznacza pierwszy przypadek niezakłóconej komunikacji między agentami AI z różnych firm.

Podczas dyskusji przedstawiciele AI muszą skonsultować się z danymi lub wykorzystać narzędzia do analizy. ‘Agent A’ z Anthropic sugeruje użycie systemu MCP do zewnętrznych danych lub wsparcia narzędziowego.

‘Sala tłumaczeń symultanicznych MCP’ jest ustawiona obok sali konferencyjnej, obsadzona przez ekspertów, którzy mogą odpowiadać w jednolitym języku za pośrednictwem MCP po otrzymaniu żądań.

Na przykład, ‘Agent Q’ potrzebuje dostępu do swojej bazy danych w chmurze w celu obliczeń. Zamiast odsyłać kogoś z powrotem do kraju, wysyła żądanie MCP o dane z bazy danych X. Administrator bazy danych MCP tłumaczy żądanie, pobiera wyniki i odpowiada ‘Agentowi Q’ w języku MCP. Cały proces jest przejrzysty dla innych agentów, którzy rozumieją dane cytowane przez ‘Agenta Q’, ponieważ tłumaczenie MCP jest w rozpoznawalnym formacie.

W miarę postępu pisania raportu, ‘Agent G’ i ‘Agent A’ zdają sobie sprawę, że muszą zintegrować swoje odpowiednie wkłady. ‘Agent G’ specjalizuje się w analizie numerycznej, podczas gdy ‘Agent A’ przoduje w podsumowywaniu językowym.

‘Agent G’ przekazuje dane dotyczące tempa wzrostu PKB za pośrednictwem A2A, a ‘Agent A’ łączy się z wtyczką arkusza kalkulacyjnego Excel za pośrednictwem MCP, weryfikuje trendy danych i odpowiada akapitem podsumowującym.

W tym scenariuszu A2A ułatwia komunikację między agentami, podczas gdy MCP umożliwia agentom dostęp do zewnętrznych narzędzi i informacji. Razem protokoły tworzą dostosowaną umowę komunikacyjną dla wersji AI Organizacji Narodów Zjednoczonych. Dzięki tym protokołom agenci AI mogą skutecznie współpracować, tworząc wzajemnie połączony ekosystem AI.

A2A jest podobny do dedykowanej infolinii do komunikacji dyplomatycznej, adresującej bezpośrednią komunikację agenta. MCP jest podobny do systemu tłumaczeń symultanicznych i udostępniania zasobów, adresującego kwestię łączenia inteligentnych podmiotów z informacjami zewnętrznymi.

Powstanie A2A i MCP zwiastuje ewolucję branży AI w kierunku współpracy, a nie konkurencji. Niezliczone agenty AI zostaną wdrożone jak strony internetowe, odkrywając i komunikując się za pośrednictwem A2A oraz uzyskując dostęp do zasobów i dzieląc się wiedzą za pośrednictwem MCP.