Chłodne przyjęcie MCP przez gigantów internetu

Letnie przyjęcie MCP wśród gigantów internetu: Analiza

Dyskurs dotyczący interoperacyjności AI nasila się. Po ogłoszeniu przez Baidu kompleksowych usług MCP na swojej konferencji dla deweloperów w zeszłym tygodniu, główne chińskie firmy technologiczne, takie jak Alibaba, ByteDance i Tencent, również rozpoczęły podróż z MCP.

MCP, czyli Model Context Protocol, jest postrzegany jako ujednolicający standard, który umożliwia AI bezproblemową interakcję z wieloma aplikacjami i usługami. Można go porównać do wszechobecnego interfejsu USB w komputerach i smartfonach, umożliwiającego integrację plug-and-play różnych urządzeń zewnętrznych. Zasadniczo, MCP ma zapewnić AI uniwersalny ‘port USB’ do uzyskiwania dostępu do narzędzi i wykonywania zadań.

W listopadzie 2024 roku Anthropic, amerykańska firma zajmująca się AI, wprowadziła standard MCP, który został szybko przyjęty przez konkurentów, takich jak OpenAI i Google, co sygnalizowało odejście od konwencjonalnej konkurencyjnej praktyki zastrzeżonych ekosystemów. Od kwietnia wiodące chińskie firmy technologiczne, w tym Bailian Alibaba Cloud, Knowledge Engine Tencent Cloud, Kouzi Space ByteDance i Baidu AI Cloud, uruchomiły własne kompleksowe usługi MCP.

Obietnica i wyzwania związane z unifikacją

Głównym celem MCP jest wspieranie unifikacji, ale to przedsięwzięcie stoi w obliczu poważnych wyzwań. Według wielu deweloperów i badaczy, chociaż MCP jest skuteczny w uzyskiwaniu dostępu do lokalnych danych przedsiębiorstwa, napotyka przeszkody przy próbie integracji z aplikacjami internetowymi w celu wykonywania zadań, takich jak rezerwacja lotów, sprawdzanie cen i tworzenie przewodników turystycznych. Wyzwania te wynikają z niedojrzałości procesów wywoływania AI i ograniczonej dostępności narzędzi internetowych, przy czym wiele platform oferuje jedynie dostęp do peryferyjnych funkcjonalności.

Nie wszystkie platformy internetowe są równie entuzjastycznie nastawione do przyjęcia tego wspólnego standardu i dołączenia do sieci dostawców usług MCP. Zamknięty charakter chińskiego ekosystemu internetowego, w połączeniu ze zwiększoną wrażliwością na prywatność danych, sprawił, że wiele platform jest ostrożnych. Wolą ocenić rentowność i rozwój ekosystemu MCP przed pełnym zaangażowaniem się w niego.

Krajobraz AI znany jest z szybko zmieniającej się terminologii i koncepcji. Kiedy Anthropic po raz pierwszy udostępnił protokół MCP pod koniec ubiegłego roku, branża w dużej mierze przyjęła postawę wyczekującą. Jednak gwałtowna popularność Manus od tego czasu podsyciła zainteresowanie MCP w Chinach.

MCP jako katalizator dla agencji AI

Według Hou Xinyi z Uniwersytetu Nauki i Technologii w Huazhong, kluczowym krokiem w przezwyciężeniu ograniczeń ‘chatbotów’ jest umożliwienie AI interakcji z danymi i narzędziami zewnętrznymi, co jest właśnie tym, co MCP stara się ułatwić.

Przed MCP badano alternatywne podejścia w celu zaradzenia postrzeganemu brakowi ‘agencji AI’. Pod koniec 2023 roku OpenAI wprowadził koncepcję sklepu z aplikacjami (GPT Store), umożliwiając ChatGPT korzystanie z narzędzi zewnętrznych za pośrednictwem wtyczek opartych na określonym zestawie standardów. Podobne sklepy z aplikacjami AI, takie jak Kouzi ByteDance, Qianfan Baidu i Bailian Alibaba, poszły w jego ślady.

Jednak te podejścia ostatecznie osiągnęły swoje granice. Wtyczki i sklepy z aplikacjami miały wspólny problem: izolację. Każde narzędzie posiadało własną, unikalną dokumentację deweloperską, formaty parametrów i specyfikacje interfejsu. Oznaczało to, że programiści musieli za każdym razem odkrywać koło na nowo, integrując nowe narzędzie z AI, co powodowało brak efektywności.

Z biegiem czasu liczba nowych narzędzi dodawanych do sklepów z aplikacjami malała, a jakość wtyczek znacznie się różniła, utrudniając możliwość rozwiązywania złożonych zadań. Wskazywało to na to, że istniejące podejścia zbliżają się do swoich granic.

MCP jako rozwiązanie ujednolicające

MCP jest postrzegane jako obiecujące rozwiązanie ze względu na nacisk na unifikację. W swojej oficjalnej dokumentacji Anthropic porównuje MCP do uniwersalnego interfejsu USB-C dla świata AI. Hou Xinyi woli opisywać go jako ‘stację dokującą’ – wszechstronny adapter, który umożliwia AI łączenie się z wieloma narzędziami zewnętrznymi jednocześnie, eliminując potrzebę konwersji formatów.

Wiele osób przewiduje, że MCP będzie miało transformacyjny wpływ, podobny do standaryzacji wag i miar przez Qin Shi Huanga, która ułatwiła handel i komunikację między wcześniej podzielonymi stanami okresu Wiosny i Jesieni.

Według lidera technicznego w grupie roboczej ds. inteligentnego połączenia w dużej firmie technologicznej, MCP optymalizuje również interakcje językowe AI. Wcześniej AI wymagało od użytkowników precyzyjnego stwierdzenia ‘Chcę nawigować’, aby wykorzystać API usługi nawigacyjnej. Nawet niewielkie odchylenie mogło spowodować awarię AI. Teraz każde narzędzie musi dostarczać znormalizowane nazwy, parametry i opisy funkcjonalne. W rezultacie AI musi jedynie zrozumieć intencje użytkownika, a następnie dopasować je do najodpowiedniejszego serwera MCP na podstawie opisów.

To podejście jest bardziej zgodne z inherentnymi możliwościami dużych modeli językowych, umożliwiając użytkownikom wywoływanie usług jednym zdaniem, odchodząc od wcześniejszego wymogu bezpośredniej komunikacji interfejs-interfejs.

Obecne wdrożenie i ograniczenia MCP

Pomimo postrzeganego potencjału, MCP nie osiągnęło jeszcze powszechnego wdrożenia, a jego praktyczne zastosowania pozostają ograniczone. Obecnie MCP jest najbardziej popularne wśród personelu technicznego przedsiębiorstw i niezależnych programistów.

Jako inżynier front-end, Gong Dian polega w dużej mierze na asystencie programowania AI Cursor. Jednak Cursor miał trudności z bezproblemową integracją z wewnętrznymi systemami projektowymi jego firmy, co wymagało ręcznej interwencji. Chociaż wcześniej można było używać wtyczek lub wywołań funkcji, zewnętrzna AI nie mogła uzyskać dostępu do wewnętrznych systemów firmy, a wywoływanie w czasie rzeczywistym budziło obawy o bezpieczeństwo. Z drugiej strony, MCP można zainicjować w wewnętrznej sieci firmy, co czyni go bardziej niezawodnym i zgodnym z przepisami.

Niezależna programistka Zhu Mama niedawno poleciła Cursorowi nauczyć się dokumentacji MCP i spakować Google Maps i Search API do serwera MCP, który został następnie użyty do wywołania dużego modelu językowego Gemini Google. Wyposażony w MCP Gemini został przekształcony w asystenta przewodnika turystycznego. Zapytany o trasy transportu publicznego z lotniska w Singapurze do różnych atrakcji, asystent dostarczył bardziej szczegółowe i dokładne informacje w porównaniu z odpowiedzią Doubao.

W społeczności deweloperskiej pojawiają się różni asystenci podróży. Kiedy Kouzi Space ByteDance uruchomił swoją wewnętrzną wersję beta 19 kwietnia, demonstracyjnym przypadkiem był również asystent AI podróży, co skłoniło niektórych do żartów na temat obsesji branży na punkcie podróży.

Zhu Mama szczerze przyznaje, że koncentracja na scenariuszach podróży wynika głównie z ich znaczenia dla codziennych potrzeb konsumentów. Innym powodem jest ograniczona dostępność oprogramowania internetowego kompatybilnego z MCP w Chinach, co ogranicza potencjał rynku.

Według najnowszych statystyk z platformy nawigacyjnej MCP.so, na całym świecie jest ponad 11 028 dostawców usług MCP, a liczba ta szybko rośnie. Jednak w Chinach tylko kilka głównych aplikacji lokalizacyjnych, takich jak AutoNavi, Baidu Maps i Tencent Maps, działa obecnie jako serwery MCP na dużą skalę.

To ograniczenie jest powodem, dla którego plan Zhu Mamy dotyczący stworzenia chińskiej wersji asystenta podróży szybko utknął w martwym punkcie. Aby opracować chiński przewodnik turystyczny, idealne byłoby wykorzystanie krajowych usług mapowych. Jednak Zhu Mama odkryła, że oficjalny serwer MCP dostarczony przez AutoNavi oferował bardzo ograniczone informacje. Chociaż mógł on dostarczać zapytania o trasy między dwoma lokalizacjami, brakowało mu szczegółowych informacji na temat punktów orientacyjnych, recenzji, cen biletów hotelowych i innych podstawowych szczegółów.

W przeciwieństwie do tego, Google Maps API dostarcza szczegółowe metody rezerwacji, ceny hoteli, recenzje hoteli, udogodnienia hotelowe, a nawet porównania cen na wielu platformach, poziom szczegółowości trudny do wyobrażenia w chińskim ekosystemie.

Chociaż produkty Tencent, Alibaba, ByteDance i Baidu przyjmują MCP, ich aplikacje o wysokiej częstotliwości nie dołączyły jeszcze formalnie do sieci dostawców usług MCP. Platformy takie jak WeChat, Xiaohongshu i Douyin, a także platformy usług lifestylowych, takie jak Ele.me, Meituan i Ctrip, są wyraźnie nieobecne.

Wyzwania związane z dostępnością narzędzi i planowaniem AI

Oprócz ograniczonej dostępności narzędzi, możliwości planowania AI również stanowią ograniczenie. Zhu Mama spakowała 6-8 interfejsów API, w tym Google Hotels, Maps i Search, do jednego serwera MCP, co jest znacznie poniżej maksymalnego limitu (Cursor pozwala na maksymalnie 40 narzędzi na agenta). Jednak AI miało już trudności z ustaleniem, które narzędzie wywołać. W obliczu złożonych żądań AI nie było w stanie rozbić procesu i wywołać MCP etapami, zamiast tego próbując poradzić sobie ze wszystkim naraz.

Według Gong Diany, wartość MCP zależy od jakości zarówno strony klienta, jak i serwera. Tak jak port USB nie ma inherentnych możliwości i polega na usługach za nim, MCP wymaga solidnych usług, aby zrealizować swój potencjał.

MCP kładzie podwaliny pod agentów AI, ale nie rozwiązuje wszystkich problemów. Standard, który pozostaje nieużywany, jest jedynie kartką papieru.

Wspomniany lider techniczny sugeruje, że powszechne przyjęcie standardu MCP Anthropic wynika z jego otwartego kodu, non-profitowego charakteru i wiarygodności jego twórcy. Inne organizacje są skłonne przestrzegać standardu ustalonego przez renomowany podmiot.

Obecnie małe i średnie firmy oraz duże firmy internetowe, które chcą zdywersyfikować swoje źródła przychodów, są głównymi użytkownikami standardu MCP.

Firma zajmująca się towarzystwem AI, MiniMax, niedawno uruchomiła serwer MCP, a menedżer społeczności Cai Jiaren stwierdził, że programiści mogą używać MCP do wywoływania wielomodowych możliwości MiniMax do generowania wideo, generowania głosu i klonowania głosu. MCP zawiera surowe mechanizmy kontroli dostępu, aby zapewnić zgodność z przepisami, gdy przedsiębiorstwa uzyskują dostęp do danych wewnętrznych. Ogólny proces wywoływania jest również uproszczony, bez dodawania dodatkowych kosztów tokenów.

Decyzja MiniMax o uruchomieniu serwera MCP wynikała z chęci umożliwienia globalnym programistom łatwego wykorzystania możliwości modelu MiniMax i odblokowania bardziej elastycznego i wydajnego tworzenia.

Inne startupy podzielają podobne aspiracje. Biu Technology wspomniała w wywiadzie, że programiści mogą używać AutoNavi MCP do uzyskiwania danych transportowych, a następnie używać produktów Biu do generowania PPT. MCP obniża barierę wejścia, zapewniając dostęp do interfejsu AutoNavi, który w przeciwnym razie byłby dla nich niedostępny.

Wspomniany lider techniczny uważa, że MCP to zasadniczo historia o dostawcach usług. Enkapsulując swoje API zgodnie ze standardem MCP, dostawcy usług aplikacji mogą udostępnić swoje usługi wszystkim AI.

Rozbieżności i obawy wśród dostawców usług

Jednak wśród dostawców usług pojawiają się rozbieżności. Wiele firm nie jest w pełni przekonanych do tego pomysłu. Chociaż główne platformy, takie jak AutoNavi i Baidu Maps, uruchomiły serwery MCP, głównie przepakowują istniejące interfejsy API, oferując konwencjonalne funkcjonalności, jednocześnie utrzymując ścisłą kontrolę nad podstawowymi uprawnieniami użytkowników i danymi transakcyjnymi.

Oprócz usług lokalizacji map, automatyczny wydawca Xiaohongshu programisty zewnętrznego, który automatyzuje wyszukiwanie i publikowanie treści, jest obecnie najpopularniejszym elementem na placu MCP społeczności Modeng. Hou Xinyi sugeruje, że może to mieć ograniczony wpływ na platformy treści społecznościowych, takie jak Xiaohongshu, ale dane i uprawnienia stają się szczególnie wrażliwe w scenariuszach transakcyjnych, takich jak platformy dostawy jedzenia.

Jedną z głównych obaw dostawców usług jest kontrola nad doświadczeniem użytkownika.

Na przykład, otwarcie kompletnej usługi dostawy jedzenia wymaga przyznania agentom AI dostępu do wrażliwych danych osobowych, takich jak ceny, informacje o sklepie oraz adresy i dane kontaktowe użytkowników. Anthropic przyznał, że system bezpieczeństwa MCP, w tym zarządzanie uprawnieniami i audyt wywołań, jest wciąż w fazie rozwoju. W konsekwencji niektóre platformy obawiają się ryzyka nieautoryzowanego wywoływania podczas łączenia się z MCP.

Niektóre platformy testują stosunkowo bezpieczne scenariusze transakcyjne. Na przykład, Alipay niedawno uruchomił serwer MCP, twierdząc, że daje agentom AI ‘dostęp do możliwości płatniczych jednym kliknięciem’. Jednak bliższe spojrzenie ujawnia, że oferuje on głównie usługi pobierania, a nie płatności.

Według Hou Xinyi, podejście Alipay koncentruje się na ułatwianiu pobierania płatności przez sprzedawców, a nie na pozwalaniu AI na dokonywanie płatności w imieniu konsumentów. Jest to realna opcja, ponieważ pozwalanie AI na kontrolowanie portfeli i swobodne składanie zamówień nie jest jeszcze wystarczająco bezpieczne, aby każdy czuł się komfortowo. Jest to również kluczowy powód, dla którego usługi transakcyjne nie mogą być szeroko promowane.

Głębszym problemem jest to, że jeśli AI swobodnie uczestniczy w procesie transakcyjnym – pomagając użytkownikom porównywać ceny lub polecając najbardziej opłacalną restaurację – niewątpliwie zapewniłoby to znaczną wygodę użytkownikom. Jednak oznaczałoby to również, że platformy usług straciłyby kontrolę nad procesem selekcji użytkownika, a ich podstawowe zalety algorytmiczne zostałyby zmarginalizowane, redukując je do zwykłych dostawców.

Rozwiązywanie problemów z bezpieczeństwem i promowanie uniwersalności

Wielu rozmówców uważa, że MCP musi rozwiązać dwie kluczowe kwestie: bezpieczeństwo i uniwersalność.

Po pierwsze, bezpieczeństwo. Hou Xinyi zwraca uwagę, że MCP stoi w obliczu dwóch wyzwań związanych z bezpieczeństwem: brak scentralizowanego nadzoru nad bezpieczeństwem oraz niekompletny mechanizm weryfikacji tożsamości i autoryzacji danych. Obecnie nie ma oficjalnego ‘placu odkrywania’ dla MCP. Wiele platform nawigacyjnych innych firm zbiera usługi MCP, bezpośrednio pobierając projekty kodu z GitHub, co jest szybkie i proste, ale brakuje formalnego procesu przeglądu. Anthropic stwierdził, że formalnie zajmie się mechanizmem hostingu MCP i kwestiami związanymi z wykrywalnością w tym roku. Ostatnio zaktualizowany projekt protokołu Anthropic ma na celu naprawienie tego niedociągnięcia. Ponadto krajowe organizacje, takie jak IIFAA (Internet Trusted Authentication Alliance), próbują wypełnić lukę w bezpieczeństwie.

Istnieją również długotrwałe problemy w dziedzinie agentów AI, takie jak porwanie podpowiedzi i ataki kombinowane narzędzi. Jednak wspomniany lider techniczny uważa, że nie są to luki w zabezpieczeniach MCP, ale raczej ryzyko, które istnieje dla każdego agenta AI. Obecnie w samym protokole MCP nie znaleziono żadnych oczywistych luk w zabezpieczeniach, a mechanizmy przesyłania i interakcji danych są ogólnie niezawodne.

Bezpieczeństwo to tylko pierwsza przeszkoda. Prawdziwym wyzwaniem jest pokonanie obrony interesów producentów i przekonanie większej liczby producentów do zostania serwerami MCP.

Według Hou Xinyi, jest to związane ze zrozumieniem ‘ogrodzonego ogrodu’ charakteru platform internetowych. Dane są ważną barierą konkurencyjną dla różnych platform, więc wielu producentów może otwierać tylko niektóre peryferyjne funkcje jako serwery MCP do testowania. Producenci mogą potrzebować poczekać i zobaczyć, jaki wpływ będzie miał ekosystem MCP.

Wspomniana osoba odpowiedzialna powiedziała, że jeśli jest podłączony do AI jako serwer MCP, może uzyskać więcej danych i nawyków użytkowników, a następnie przekazać je z powrotem do własnego modelu bazowego, co może stać się największą motywacją dla producentów do aktywnego dołączenia.

Kiedy rynek serwerów MCP jest naprawdę obfity, należy wziąć pod uwagę bardziej odległe kwestie.

Na przykład, w jaki sposób inteligentne ciała wywołują różne aplikacje na telefonach komórkowych? Osoba odpowiedzialna wspomniała, że aby obudzić inną aplikację za pośrednictwem lokalnego inteligentnego ciała AI telefonu komórkowego, będzie istniała dodatkowa warstwa autoryzacji aplikacji i weryfikacji tożsamości, co nie jest tak proste, jak wywoływanie usług w chmurze przez MCP, i obecnie nie ma szczególnie odpowiedniego rozwiązania.

Na inny przykład, gdy podaż usług jest nadmierna, w jaki sposób inteligentne ciała dokonują wyborów - wywołać JD takeaway czy Meituan takeaway? Używać mapy Gaode czy mapy Baidu? Wielu rozmówców wspomniało, że dzisiejsza logika wywoływania MCP jest wciąż bardzo podstawowa, zależy głównie od ‘opisu funkcjonalnego’ dostawcy usług i nie ma mechanizmu sortowania i optymalizacji. Jeśli dostawca usług celowo doda język indukcyjny do opisu, taki jak ‘najbardziej wydajny’ i ‘obowiązkowy’, AI może zostać wprowadzona w błąd i skierowana do miejsc, do których nie powinna iść.

Jak wyjaśniła osoba odpowiedzialna za wspomnianą technologię, ‘To tak, jakbyś nie mógł znaleźć usługi, której szukasz w wyszukiwarce, ale pojawia się mnóstwo zagmatwanych informacji. Jak dokładnie dopasować usługę, której użytkownicy potrzebują najbardziej, przyszły ekosystem MCP również stanie przed tym samym problemem’.

Ostatecznie proces wdrażania dowolnego standardu jest pełen wyzwań. Hou Xinyi powiedział, że aby promować popularyzację MCP, może być potrzebna kluczowa okazja podobna do Manusa, aby naprawdę uświadomić całej branży moc MCP.