AI: MCP i A2A budują 'mury'?

W scenie przypominającej skomplikowane walki o władzę z ‘Gry o tron’, branża AI jest obecnie świadkiem własnego dramatu o wysokiej stawce. Podczas gdy uwaga świata skupia się na konkurencji dotyczącej parametrów i wydajności modeli, w ciszy narasta bitwa o standardy AI i agentów, protokoły i ekosystemy.

W listopadzie 2024 r. firma Anthropic wprowadziła Model Context Protocol (MCP), otwarty standard dla inteligentnych agentów, mający na celu ujednolicenie protokołów komunikacyjnych między dużymi modelami językowymi a zewnętrznymi źródłami danych i narzędziami. Niedługo potem OpenAI ogłosiło wsparcie Agent SDK dla MCP. Dyrektor generalny Google DeepMind, Demis Hassabis, potwierdził również, że model Gemini firmy Google i zestawy do tworzenia oprogramowania zostaną zintegrowane z tym otwartym standardem, nazywając MCP ‘szybko stającym się otwartym standardem dla ery agentów AI’.

Równocześnie firma Google ogłosiła protokół open-source Agent2Agent Protocol (A2A) na konferencji Google Cloud Next 2025. Protokół ten ma na celu przełamanie barier między istniejącymi ramami i dostawcami, umożliwiając bezpieczną i wydajną współpracę między agentami w różnych ekosystemach.

Działania te gigantów technologicznych ujawniły konkurencję w zakresie AI i inteligentnych agentów pod względem standardów połączeń, protokołów interfejsów i ekosystemów. Zasada ‘protokół równa się władzy’ jest oczywista. W miarę kształtowania się globalnego krajobrazu AI, ten, kto kontroluje definicję podstawowych standardów protokołów w erze AI, ma możliwość przekształcenia struktury władzy i porządku dystrybucji wartości w globalnym łańcuchu branży AI.

‘Port USB-C’ przyszłego ekosystemu AI

Wraz z szybkim postępem technologii AI, duże modele językowe, takie jak GPT i Claude, zaprezentowały imponujące możliwości. Prawdziwa wartość tych modeli leży w ich zdolności do interakcji z danymi i narzędziami świata zewnętrznego w celu rozwiązywania rzeczywistych problemów.

Jednak ta zdolność interakcji od dawna boryka się z problemami fragmentacji i braku standaryzacji, co wymaga od programistów wdrażania specyficznej logiki integracji dla różnych modeli i platform AI.

Aby rozwiązać ten problem, pojawił się MCP. Jako pomost łączący modele AI ze światem zewnętrznym, MCP rozwiązuje kilka kluczowych problemów napotykanych podczas interakcji AI.

Przed MCP, jeśli model AI potrzebował połączyć się z lokalną bazą danych (taką jak SQLite), aby uzyskać dane lub wywołać zdalne narzędzia (takie jakSlack do komunikacji zespołowej, GitHub API do zarządzania kodem), programiści musieli napisać specyficzny kod połączenia dla każdego źródła danych lub narzędzia. Proces ten był nie tylko uciążliwy i podatny na błędy, ale także kosztowny w tworzeniu, trudny w utrzymaniu i trudny do skalowania ze względu na brak ujednoliconego standardu.

Uruchamiając MCP, Anthropic zrobił analogię: MCP jest jak port USB-C dla aplikacji AI. MCP ma na celu stworzenie wspólnego standardu, umożliwiającego różnym modelom i systemom zewnętrznym korzystanie z tego samego protokołu dostępu zamiast pisania oddzielnego zestawu rozwiązań integracyjnych za każdym razem. To sprawia, że rozwój i integracja aplikacji AI są prostsze i bardziej ujednolicone.

Na przykład, w projekcie tworzenia oprogramowania, narzędzie AI oparte na MCP może bezpośrednio zagłębić się w repozytorium kodu projektu, analizować strukturę kodu, rozumieć historyczne zapisy commitów, a następnie zapewniać programistom sugestie dotyczące kodu, które są bardziej zgodne z rzeczywistymi potrzebami projektu, znacznie poprawiając wydajność programowania i jakość kodu.

W przeszłości, aby umożliwić dużym modelom i innym aplikacjom AI korzystanie z danych, zwykle konieczne było kopiowanie i wklejanie lub przesyłanie i pobieranie. Nawet najpotężniejsze modele były ograniczone przez izolację danych, tworząc silosy informacyjne. Aby tworzyć potężniejsze modele, każde nowe źródło danych musiało być dostosowywane i wdrażane, co utrudniało skalowanie prawdziwie połączonych systemów, co skutkowało wieloma ograniczeniami.

Zapewniając ujednolicony interfejs, MCP bezpośrednio łączy AI i dane (w tym dane lokalne i internetowe). Za pośrednictwem serwera MCP i klienta MCP, o ile oba przestrzegają tego protokołu, ‘wszystko można połączyć’. Umożliwia to aplikacjom AI bezpieczny dostęp do danych lokalnych i zdalnych oraz ich obsługę, zapewniając aplikacjom AI interfejs do łączenia się ze wszystkim.

Z perspektywy architektonicznej, MCP obejmuje głównie dwie podstawowe części: serwer MCP i klienta MCP. Programiści mogą udostępniać swoje dane za pośrednictwem serwera MCP, który może pochodzić z lokalnych systemów plików, baz danych lub zdalnych usług, takich jak Slack i GitHub API. Aplikacje AI zbudowane w celu łączenia się z tymi serwerami nazywane są klientami MCP. Mówiąc najprościej, serwer MCP jest odpowiedzialny za udostępnianie danych, a klient MCP jest odpowiedzialny za dostęp do danych.

Gdy modele AI uzyskują dostęp do zewnętrznych danych i narzędzi, ważnym aspektem jest bezpieczeństwo. Zapewniając standardowe interfejsy dostępu do danych, MCP znacznie zmniejsza liczbę bezpośrednich kontaktów z wrażliwymi danymi, zmniejszając ryzyko wycieku danych.

MCP ma wbudowane mechanizmy bezpieczeństwa, pozwalające źródłom danych na udostępnianie danych AI w kontrolowany sposób w bezpiecznych ramach. AI może również bezpiecznie przesyłać wyniki przetwarzania z powrotem do źródeł danych, zapewniając, że tylko zweryfikowane żądania mogą uzyskać dostęp do określonych zasobów, co jest równoznaczne z dodaniem kolejnej warstwy obrony do bezpieczeństwa danych, rozwiewając obawy korporacyjne dotyczące bezpieczeństwa danych i kładąc solidny fundament pod głębokie zastosowanie AI w scenariuszach na poziomie przedsiębiorstwa.

Na przykład, serwer MCP kontroluje własne zasoby i nie musi udostępniać wrażliwych informacji, takich jak klucze API, dostawcom technologii dużych modeli. W ten sposób, nawet jeśli duży model zostanie zaatakowany, atakujący nie będą mogli uzyskać tych wrażliwych informacji, skutecznie izolując ryzyko.

Można powiedzieć, że MCP jest naturalnym produktem rozwoju technologii AI i ważnym kamieniem milowym. Nie tylko upraszcza proces rozwoju aplikacji AI, ale także stwarza warunki dla rozwoju ekosystemu AI.

Jako otwarty standard, MCP znacznie stymuluje witalność społeczności programistów. Globalni programiści mogą wnosić kod i opracowywać nowe łączniki wokół MCP, stale poszerzając granice jego zastosowań, tworząc cykl ekologiczny sprzyjający cnotom i promując głęboką integrację AI i danych w różnych branżach. Ta otwartość ułatwia aplikacjom AI łączenie się z różnymi usługami i narzędziami, tworząc bogaty ekosystem, ostatecznie przynoszący korzyści użytkownikom i całej branży.

Zalety MCP znajdują odzwierciedlenie nie tylko na poziomie technicznym, ale co ważniejsze, w rzeczywistej wartości, jaką przynosi różnym dziedzinom. W erze AI zdolność do pozyskiwania i przetwarzania informacji determinuje wszystko, a MCP umożliwia współpracę wielu agentów, maksymalizując mocne strony każdego z nich.

Na przykład, w dziedzinie medycyny inteligentni agenci mogą łączyć się z elektronicznymi kartami medycznymi pacjentów i bazami danych medycznych za pośrednictwem MCP, a w połączeniu z profesjonalnymi osądami lekarzy mogą szybciej dostarczać wstępne sugestie diagnostyczne. W branży finansowej inteligentni agenci mogą współpracować w celu analizowania danych finansowych, śledzenia zmian na rynku, a nawet automatycznego przeprowadzania transakcji giełdowych. Ten podział pracy i współpraca między inteligentnymi agentami sprawiają, że przetwarzanie danych jest bardziej wydajne, a podejmowanie decyzji bardziej precyzyjne.

Analizując historię rozwoju MCP, nietrudno zauważyć, że tempo jego wzrostu jest zdumiewające. Na początku 2023 r. MCP zakończył projekt podstawowego protokołu komunikacyjnego, realizując podstawową rejestrację inteligentnego agenta i funkcje przesyłania wiadomości. To tak, jakby stworzyć uniwersalny język dla inteligentnych agentów, pozwalając im komunikować się ze sobą zamiast mówić własnymi językami.

Pod koniec 2023 r. MCP dodatkowo rozszerzył swoje funkcje, wspierając inteligentnych agentów w wywoływaniu zewnętrznych API i udostępnianiu danych, co jest równoznaczne z pozwoleniem inteligentnym agentom nie tylko na czatowanie, ale także na wymianę informacji i wspólne przetwarzanie zadań.

Na początku 2024 r. ekosystem MCP osiągnął nowy poziom. Uruchomiono zestawy narzędzi programistycznych i przykładowe projekty, a liczba wtyczek inteligentnych agentów wniesionych przez społeczność przekroczyła 100, osiągając sytuację ‘kwitnienia’.

Niedawno firma Microsoft zintegrowała MCP ze swoją usługą Azure OpenAI, a Google DeepMind ogłosiło również, że zapewni wsparcie dla MCP i zintegruje go z modelem Gemini i SDK. Nie tylko duże firmy technologiczne, ale także startupy AI i dostawcy narzędzi do tworzenia oprogramowania dołączyli do MCP, takie jak Block, Apollo, Zed, Replit, Codeium i Sourcegraph.

Powstanie MCP przyciągnęło szybkie działania następcze i konkurencję ze strony chińskich firm technologicznych, takich jak Tencent i Alibaba, traktując to jako ważny krok w strategii ekosystemu AI. Na przykład niedawno platforma Bailian Alibaba Cloud uruchomiła pełny cykl życia usługi MCP, eliminując potrzebę zarządzania zasobami przez użytkowników, tworzenia i wdrażania oraz inżynierii operacji i konserwacji, skracając cykl rozwoju inteligentnego agenta do minut. Tencent Cloud wydał ‘AI Development Kit’, który obsługuje usługi hostingowe wtyczek MCP, aby pomóc programistom w szybkim tworzeniu inteligentnych agentów zorientowanych na biznes.

‘Niewidzialny most’ dla współpracy wieloagentowej

W miarę jak protokół MCP przekształca inteligentnych agentów z narzędzi do czatowania w asystentów akcji, giganci technologiczni zaczynają budować ‘małe dziedzińce i wysokie mury’ standardów i ekosystemów na tym nowym polu bitwy.

W porównaniu z MCP, który koncentruje się na łączeniu modeli AI z zewnętrznymi narzędziami i danymi, A2A idzie o krok dalej, koncentrując się na wydajnej współpracy między inteligentnymi agentami.

Pierwotnym zamiarem protokołu A2A jest proste: umożliwić inteligentnym agentom z różnych źródeł i producentów wzajemne zrozumienie i współpracę, przynosząc większą autonomię współpracy wielu inteligentnych agentów.

To tak, jak WTO mająca na celu zmniejszenie barier celnych między krajami. Inteligentni agenci od różnych dostawców i ram są jak niezależne kraje. Po przyjęciu A2A jest to równoznaczne z przystąpieniem do strefy wolnego handlu, gdzie mogą komunikować się wspólnym językiem, bezproblemowo współpracować i wspólnie wykonywać złożone przepływy pracy, których pojedynczy inteligentny agent nie może wykonać samodzielnie.

Konkretna forma interoperacyjności protokołu A2A jest osiągana poprzez ułatwianie komunikacji między agentem klienta a agentem zdalnym. Agent klienta jest odpowiedzialny za formułowanie i komunikowanie zadań, a agent zdalny podejmuje działania na podstawie tych zadań, aby dostarczyć poprawne informacje lub wykonać odpowiednie operacje.

W tym procesie protokół A2A ma następujące kluczowe możliwości:

Po pierwsze, inteligentni agenci mogą reklamować swoje możliwości za pomocą ‘kart inteligentnego agenta’. Te ‘karty inteligentnego agenta’ istnieją w formacie JSON, co pozwala agentom klientów identyfikować, który agent zdalny najlepiej nadaje się do wykonania określonego zadania.

Po zidentyfikowaniu odpowiedniego agenta zdalnego agent klienta może użyć protokołu A2A do komunikowania się z nim i przydzielenia mu zadania.

Zarządzanie zadaniami jest ważną częścią protokołu A2A. Komunikacja między klientem a agentami zdalnymi obraca się wokół wykonywania zadań. Protokół definiuje obiekt ‘zadanie’. W przypadku prostych zadań można je wykonać natychmiast; w przypadku złożonych i długoterminowych zadań inteligentni agenci mogą komunikować się ze sobą, aby utrzymać synchronizację statusu zakończenia zadania.

Ponadto A2A obsługuje również współpracę między inteligentnymi agentami. Wielu inteligentnych agentów może wysyłać do siebie wiadomości, które mogą zawierać informacje kontekstowe, odpowiedzi lub instrukcje użytkownika. W ten sposób wielu inteligentnych agentów może lepiej współpracować, aby wspólnie wykonywać złożone zadania.

Projektując ten protokół, Google przestrzegał pięciu kluczowych zasad. Po pierwsze, A2A koncentruje się na umożliwieniu inteligentnym agentom współpracy w ich naturalnych, nieustrukturyzowanych trybach, nawet jeśli nie udostępniają pamięci, narzędzi i kontekstu.

Po drugie, protokół jest zbudowany na istniejących, popularnych standardach, w tym HTTP, Server-Sent Events (SSE) i JSON-RPC, co oznacza, że łatwiej jest zintegrować go z istniejącymi stosami IT, z których firmy korzystają już na co dzień.

Na przykład, firma e-commerce codziennie używa protokołu HTTP do obsługi transmisji danych internetowych i JSON-RPC do przesyłania instrukcji danych między frontem a backendem. Po wprowadzeniu protokołu A2A system zarządzania zamówieniami firmy może szybko uzyskiwać aktualizacje danych logistycznych dostarczane przez odpowiednich inteligentnych agentów za pośrednictwem HTTP i dokowania protokołu A2A, bez konieczności odbudowywania złożonych kanałów transmisji danych, co ułatwia integrację z istniejącą architekturą IT i usprawnia współpracę różnych systemów.

Po trzecie, A2A jest zaprojektowany do obsługi uwierzytelniania i autoryzacji na poziomie przedsiębiorstwa. Korzystanie z protokołu A2A może szybko uwierzytelnić i bezpiecznie uzyskać dane, zapewniając bezpieczeństwo i zgodność transmisji danych oraz zapobiegając ryzyku wycieku danych.

Po czwarte, A2A jest wystarczająco elastyczny, aby obsługiwać różne scenariusze, od szybkich zadań po dogłębne badania, które mogą trwać godzinami, a nawet dniami (kiedy zaangażowani są ludzie). Przez cały proces A2A może zapewnić użytkownikom informacje zwrotne w czasie rzeczywistym, powiadomienia i aktualizacje statusu.

Weźmy za przykład instytucję badawczą. Naukowcy używają inteligentnych agentów w ramach protokołu A2A do prowadzenia badań związanych z opracowywaniem nowych leków. Proste zadania, takie jak szybkie pobieranie istniejących informacji o strukturze cząsteczek leków w bazie danych, można wykonać i przekazać naukowcom w ciągu kilku sekund. Jednak w przypadku złożonych zadań, takich jak symulowanie reakcji nowych cząsteczek leków w środowisku ludzkiego ciała, może to zająć kilka dni.

W tym okresie protokół A2A będzie stale przesyłał postęp symulacji naukowcom, na przykład, ile kroków zostało ukończonych, jakie bieżące problemy napotkano itp., Pozwalając naukowcom na bieżąco śledzić sytuację, tak jakby asystent przez cały czas raportował postęp prac.

Po piąte, świat inteligentnych agentów nie ogranicza się do tekstu, więc A2A obsługuje różne modalności, w tym strumienie audio, obrazy i wideo.

Wyobraź sobie, że w przyszłości Twój inteligentny asystent, system CRM firmy, AI do zarządzania łańcuchem dostaw, a nawet inteligentni agenci na różnych platformach chmurowych mogą ‘rozmawiać o zadaniach i dzielić pracę’ jak starzy znajomi, wydajnie realizując różne potrzeby, od prostych zapytań po złożone procesy, otwierając w ten sposób erę inteligencji maszynowej.

Obecnie protokół obsługuje już platformy aplikacyjne dla ponad 50 głównych firm technologicznych, w tym Atlassian, Box, Cohere, Intuit, MongoDB, PayPal, Salesforce i SAP.

Warto zauważyć, że są to wszystkie firmy, które mają subtelne relacje z ekosystemem Google. Na przykład Cohere, niezależny startup AI, został założony w 2019 roku przez trzech naukowców, którzy wcześniej pracowali w Google Brain; mają długoterminowe partnerstwo techniczne z Google Cloud, a Google Cloud zapewnia Cohere moc obliczeniową potrzebną do trenowania modeli.

Atlassian, firma, która dostarcza narzędzia do współpracy zespołowej, takie jak Jira i Confluence, jest używana przez wiele osób. Mają partnerstwo z Google, a niektóre aplikacje mogą być używane w produktach Google.

Chociaż Google powiedział, że A2A jest uzupełnieniem protokołu kontekstu modelu MCP zaproponowanego przez Anthropic, jest to trochę tak, jakby Google przejął inicjatywę w opracowaniu systemu Android z ponad 80 firmami w przeszłości. W miarę jak dołącza coraz więcej firm, wartość komercyjna A2A znacznie wzrośnie i będzie promować szybki rozwój całego ekosystemu inteligentnych agentów.

Od ‘łączenia narzędzi’ do ‘dominacji ekosystemów’

MCP i A2A reprezentują dwie różne ścieżki dla połączenia AI. MCP, jako podstawowy protokół interakcji modelu, zapewnia bezproblemowe dokowanie między aplikacjami i różnymi modelami; A2A zapewnia ramy współpracy między inteligentnymi agentami na tej podstawie, podkreślając autonomiczne odkrywanie i elastyczną współpracę między inteligentnymi agentami. Ta warstwowa struktura może jednocześnie zaspokoić potrzeby standaryzacji modelu i współpracy inteligentnego agenta.

Jednocześnie oba osiągnęły dominującą pozycję w swoich odpowiednich poddziedzinach. MCP ma przewagę w zastosowaniach na poziomie przedsiębiorstwa, usługach między modelami i scenariuszach standaryzacji; A2A zyskał większe wsparcie w społecznościach open-source, projektach badawczych i innowacyjnych aplikacjach.

Z perspektywy makro, powstanie MCP i A2A jest związane nie tylko z przyszłymi standardami technologii AI, ale także zapowiada poważną zmianę w krajobrazie branży AI. Jesteśmy świadkami historycznego punktu zwrotnego w AI od ‘samodzielnej inteligencji’ do ‘sieci współpracy’. Jak pokazuje historia rozwoju Internetu, ustanowienie otwartych i standardowych protokołów stanie się kluczową siłą napędową rozwoju branży.

Ale z głębszego poziomu, MCP i A2A kryją w sobie ogromne interesy komercyjne i konkurencję o przyszłą władzę dyskursu technologii AI.

Pod względem modeli biznesowych, oba otwierają różne ścieżki zysku. Anthropic planuje uruchomić usługę w wersji korporacyjnej opartą na MCP, obciążając firmy na podstawie ilości wywołań API. Firmy używają MCP do głębokiej integracji danych wewnętrznych z AI, poprawy wydajności biznesowej i muszą płacić za tę wygodną usługę.

Google używa protokołu A2A do promowania subskrypcji usług chmurowych. Kiedy firmy używają A2A do budowania sieci współpracy inteligentnych agentów, są kierowane do korzystania z potężnej mocy obliczeniowej Google Cloud i powiązanych usług, zwiększając w ten sposób przychody z działalności Google Cloud.

Pod względem monopolu na dane, opanowanie standardów protokołów oznacza kontrolowanie przepływu danych AI. Za pośrednictwem protokołu A2A Google zbiera ogromne ilości danych podczas współpracy wielu korporacyjnych inteligentnych agentów. Dane te trafiają z powrotem do podstawowych algorytmów reklamowych, co dodatkowo umacnia jego dominację na rynku reklamowym. Anthropic chce użyć MCP, aby umożliwić AI penetrację rdzenia danych przedsiębiorstwa. Jeśli utworzy przewagę skali, zgromadzi również dużą ilość danych branżowych, zapewniając wsparcie danych dla rozwijania działalności i tworzenia produktów AI, które są bardziej zgodne z potrzebami przedsiębiorstwa.

Pod względem strategii open-source, chociaż oba twierdzą, że są open-source, mają własne plany. Podstawowy protokół MCP jest open-source, przyciągając programistów do uczestnictwa w budowie ekosystemu, ale kluczowe funkcje na poziomie przedsiębiorstwa (takie jak zaawansowane funkcje połączeń zdalnych i dogłębne przetwarzanie danych multimodalnych) należy odblokować za opłatą, równoważąc open-source i interesy komercyjne. Chociaż protokół A2A jest open-source, kieruje ponad 50 partnerów korporacyjnych do priorytetowego korzystania z usług Google Cloud, ściśle wiążąc ekosystem open-source z własnym systemem komercyjnym i zwiększając przywiązanie użytkowników i konkurencyjność platformy.

Technologia sama w sobie nie ma dobra ani zła, ale kiedy jest osadzona w łańcuchu interesów, staje się nośnikiem władzy i kontroli. Każda rewolucja technologiczna przekształca światowy łańcuch interesów. Rewolucja przemysłowa przeniosła łańcuch interesów z ziemi i pracy na kapitał i maszyny, podczas gdy rewolucja cyfrowa przesunęła go na dane i algorytmy.

Narzędzia open-source mogą z pewnością badać innowacyjne ścieżki, ale nie oczekuj, że użyjesz kluczy danych i algorytmów, aby otworzyć wszystkie drzwi, ponieważ każdy ciąg kluczy jest wygrawerowany hasłem interesu platformy.

Podczas gdy firmy technologiczne wydają się otwierać ekosystem AI, w rzeczywistości budują wysokie i grube mury ekologiczne wokół scenariuszy aplikacji, które są dla nich bardziej sprzyjające, zapobiegając wykopywaniu kopalni złota danych, ponieważ ostateczna konkurencyjność w erze AI to nadal dane.

To, czy MCP i A2A ostatecznie się połączą, jest nadal niepewne. Jeśli każdy z nich będzie działał niezależnie, giganci technologiczni najprawdopodobniej zbudują ‘ściany małego dziedzińca AI’. W rezultacie zjawisko wyspy danych stanie się poważniejsze, przepływ danych między firmami w różnych obozach protokołów zostanie zablokowany, ograniczając zakres innowacyjnych zastosowań AI; programiści będą musieli opanować umiejętności rozwoju wielu protokołów, zwiększając koszty uczenia się i nakład pracy programistycznej, tłumiąc witalność innowacji; kierunek innowacji branży będzie łatwo prowadzony przez gigantyczne protokoły, a startupy będą w niekorzystnej sytuacji w konkurencji ze względu na trudności w obsłudze wielu protokołów, utrudniając ogólne tempo innowacji w branży.

Mamy nadzieję, że powstanie MCP i A2A będzie promować globalną branżę AI do ewolucji w kierunku współpracy, a nie konfrontacji.

Podobnie jak spór dotyczący rozstawu torów kolejowych w XIX wieku i wojna o standardy komunikacji mobilnej w XX wieku, każdy podział technologiczny wiąże się z ogromnymi kosztami społecznymi. Konsekwencje sporu dotyczącego standardów i protokołów AI mogą być bardziej dalekosiężne. Zadecyduje, czy zmierzamy w kierunku ‘Internetu Rzeczy’ federacji gwiazd, czy wpadamy w mroczny las, w którym dominuje ‘łańcuch podejrzeń’.