Der Anbruch von MCP und A2A: Ein Paradigmenwechsel
Seit dem Aufkommen von ChatGPT war das unermüdliche Streben nach Fortschritten bei großen Sprachmodellen (LLMs) ein kennzeichnendes Merkmal der KI-Landschaft. Der anfängliche Fokus auf die Parametergröße hat sich allmählich in Richtung praktischer Anwendungen verschoben, doch für Unternehmen, die die Leistungsfähigkeit von KI nutzen möchten, bestehen weiterhin erhebliche Herausforderungen. Die hohen Kosten, die mit der Rechenleistung verbunden sind, und die fragmentierte Natur des KI-Anwendungsökosystems bleiben kritische Schwachstellen. Unternehmen stellen oft fest, dass ihre erheblichen Investitionen in KI nicht die erwarteten Renditen erbringen, was zu einem anhaltenden ‘ROI-Dilemma’ führt.
Die Entstehung von Model Context Protocol (MCP) und Agent2Agent (A2A)-Protokollen im Jahr 2025 markiert einen entscheidenden Moment in der Entwicklung der KI-Anwendungsentwicklung. MCP zielt darauf ab, Schnittstellen zu standardisieren, um Datensilos aufzubrechen, LLMs den effizienten Zugriff auf externe Ressourcen zu ermöglichen und einen nahtlosen Datenfluss über Systeme und Plattformen hinweg zu ermöglichen. A2A fördert die nahtlose Interaktion zwischen Agenten, fördert die Zusammenarbeit und Kommunikation, um zusammenhängende, integrierte Systeme zu bilden.
Die Verlagerung von MCP zu A2A unterstreicht die wachsende Betonung der ‘Offenheit’ als Schlüsselfaktor im KI-Anwendungsökosystem. Diese Offenheit umfasst sowohl technische Interoperabilität als auch einen kollaborativen Geist. Aus einer breiteren Perspektive spiegelt diese Transformation eine natürliche Entwicklung in der Technologieentwicklung wider: ein Übergang von anfänglicher Begeisterung zu praktischer Umsetzung und von isolierter Innovation zu kollaborativer Ökosystementwicklung.
Historisch gesehen wurde der Wert von LLMs unverhältnismäßig stark der Parameterskala und den Standalone-Funktionen zugeschrieben. Heute adressieren MCP und A2A das kritische Problem der Interkonnektivität zwischen KI-Anwendungen und gestalten die Wettbewerbsdynamik des LLM-Ökosystems neu. Die KI-Anwendungsentwicklung entwickelt sich von einem ‘Einzelgänger’-Ansatz zu einem Modell der Vernetzung. Dies erfordert eine Neubewertung des KI-Werts für CTOs, wobei der Fokus von der bloßen Verfolgung der Modellgröße und ‘All-in’-Strategien auf die Nutzung von Plattformen verlagert wird, die verschiedene KI-Funktionen verbinden. Ziel ist es, KI organisch in bestehende Geschäftsprozesse und Produktionssysteme einzubetten, die Gesamteffizienz durch Zusammenarbeit und Standardisierung zu verbessern, kritische Probleme mit minimalen Rechenressourcen zu lösen und das ‘ROI-Dilemma’ zu überwinden.
Die Geißel der verschwendeten Rechenleistung und falsch ausgerichteten Szenarien
Die Unfähigkeit, den Engpass zwischen hohen Investitionen und geringem Output zu überwinden, hat die Implementierung von LLMs lange Zeit geplagt. Dieses Phänomen spiegelt tief verwurzelte Widersprüche in der KI-Entwicklung wider. Erstens gibt es eine erhebliche Verschwendung von Rechenleistung. Daten deuten darauf hin, dass General-Purpose-Rechenzentren auf Unternehmensebene nur zu 10-15 % ausgelastet sind, wodurch riesige Mengen an Rechenressourcen ungenutzt bleiben. Zweitens gibt es eine Fehlausrichtung von Szenarien, in denen die Modellleistung nicht den tatsächlichen Bedürfnissen von Geschäftsszenarien entspricht.
Ein häufiges Problem ist die ‘Überlastung’ durch die Verwendung großer Modelle für einfache Aufgaben. Einige Unternehmen verlassen sich übermäßig auf universelle LLMs für einfache Anwendungen. Darüber hinaus schafft die Einzigartigkeit von Geschäftsszenarien Dilemmata. Die Verwendung großer Modelle verursacht hohe Rechenkosten und lange Inferenzzeiten. Die Entscheidung für kleinere Modelle erfüllt möglicherweise nicht die Geschäftsanforderungen. Dieser Konflikt ist besonders deutlich in Geschäftsszenarien, die spezialisiertes Fachwissen erfordern.
Betrachten Sie das Talent-Job-Matching-Szenario in der Rekrutierungsbranche. Unternehmen benötigen Modelle mit tiefem Denkvermögen, um die komplexen Beziehungen zwischen Lebensläufen und Stellenbeschreibungen zu verstehen, und fordern gleichzeitig schnelle Reaktionszeiten. Die langen Inferenzzeiten von universellen LLMs können die Benutzererfahrung erheblich beeinträchtigen, insbesondere bei hohen Benutzeranforderungen.
Um Leistung und Effizienz in Einklang zu bringen, hat die Modelldestillation in den letzten Jahren an Bedeutung gewonnen. Die Einführung von DeepSeek-R1 Anfang dieses Jahres hat den Wert dieser Technik weiter hervorgehoben. Bei der Bearbeitung komplexer Denkaufgaben erfasst die Modelldestillation das ‘Chain of Thought’-Muster von DeepSeek-R1, sodass schlanke Studentenmodelle seine Denkfähigkeiten erben können, anstatt nur Ausgaberesultate zu imitieren.
Beispielsweise verwendete Zhaopin, eine führende Rekrutierungsplattform, DeepSeek-R1 (600+ Milliarden Parameter) als Lehrermodell, um die Chain of Thought und die Entscheidungslogik zu destillieren, die bei Talent-Job-Matching-Aufgaben verwendet werden. Sie verwendeten die Baidu AI Cloud Qianfan-Modellentwicklungsplattform, um das Lehrermodell zu destillieren und auf das ERNIE Speed-Modell (10+ Milliarden Parameter), das Studentenmodell, zu übertragen. Dieser Ansatz erzielte eine mit dem Lehrermodell vergleichbare Leistung (DeepSeek-R1 erreichte eine Genauigkeit von 85 % bei den Reasoning-Link-Ergebnissen, während das Studentenmodell über 81 % erreichte), verbesserte die Inferenzgeschwindigkeit auf ein akzeptables Niveau und reduzierte die Kosten auf 30 % des Originals, während gleichzeitig eine 1x schnellere Geschwindigkeit als das vollwertige DeepSeek-R1 erreicht wurde.
Derzeit verfolgen Unternehmen typischerweise zwei Ansätze für die Modelldestillation: den Aufbau eines vollständigen technischen Systems von der Infrastruktur und den GPUs bis hin zu den Trainingsframeworks oder die Verwendung plattformbasierter Lösungen wie der Qianfan-Modellentwicklungsplattform oder anderer Anbieter. Yao Sijia, ein Experte für KI-Anwendungen bei Zhaopin, erklärte, dass Zhaopin zwar über ein eigenes Trainingsframework verfügt, sich aber aus drei Hauptgründen für die Qianfan-Modellentwicklungsplattform für die Modelldestillation entschieden hat:
- Umfassende Unterstützung: Die Qianfan-Modellentwicklungsplattform bietet branchenführende Unterstützung für die Modelldestillation und optimiert die gesamte technische Kette rund um Destillationsszenarien umfassend.
- Kostenkontrolle: Im Vergleich zum unabhängigen Kauf und der Wartung von Hardware bietet die Qianfan-Modellentwicklungsplattform erhebliche Vorteile bei der Kostenkontrolle und eine flexiblere Ressourcenallokation.
- Tiefes Verständnis von Geschäftsszenarien: Das professionelle Lösungsteam von Baidu versteht die Kernanforderungen wie ‘genaue Übereinstimmung’ und ‘High-Concurrency-Antwort’ im Rekrutierungsbereich genau und arbeitet mit Unternehmen zusammen, um Lösungen zu entwickeln.
Yao Sijia fügte hinzu, dass Zhaopin weiterhin Pionierarbeit bei AI+ Rekrutierungsszenarien leisten und die Reinforcement Learning Fine-Tuning (RFT)-Technologie von Qianfan nutzen wird, um die Modellleistung weiter zu verbessern. Sie planen zu untersuchen, ob das Lehrermodell weiter verbessert werden kann und ob bessere Belohnungsmechanismen bereits destillierte Studentenmodelle optimieren können, um die Genauigkeit zu verbessern. Qianfan ist die erste Plattform in China, die führende Reinforcement-Learning-Methoden wie RFT und GRPO produktiviert. Durch die Umwandlung dieser hochmodernen Reinforcement-Learning-Methoden in implementierbare Lösungen bietet Qianfan Unternehmen wie Zhaopin mehr Möglichkeiten zur Optimierung der Modellleistung.
Die Modelldestillation optimiert jedoch nur die Leistung eines einzelnen Modells. In komplexen Geschäftsszenarien ist es notwendig, verschiedene KI-Funktionen präzise auf Szenarien abzustimmen.
Betrachten Sie ein Smartphone. In Absichtserkennungsszenarien wie Anrufassistenten werden in der Regel schlanke Modelle verwendet, um Benutzerprobleme schnell zu identifizieren. Für allgemeine Wissens-F&A-Szenarien wie Wetterabfragen und Nachrichtenabrufe werden in der Regel mittelgroße Modelle verwendet, um schnell genaue und informative Antworten zu geben. In Datenanalyse- und logischen Denkszenarien, die tiefes Denken erfordern, werden in der Regel große Modelle verwendet.
Dies bedeutet, dass ein Smartphone in verschiedenen Benutzeranforderungsszenarien flexibel mehrere LLMs aufrufen muss. Für Telefonhersteller stellt dies Herausforderungen dar, wie z. B. hohe Modellauswahlkosten und komplexe Aufrufprozesse aufgrund unterschiedlicher Modellschnittstellenprotokolle.
Um diese Branchenschwachstellen zu beheben, hat die Qianfan-Modellentwicklungsplattform Modellrouting-Schnittstellen produktiviert. Im Vergleich zur direkten Verwendung von Originalfabriksmodellen bietet sie kundenspezifische Entwicklungs- und sofort einsatzbereite API-Aufruffunktionen, wodurch Unternehmen Engineering-Aufwand und Entwicklungszeit sparen und gleichzeitig Kosten senken können. Darüber hinaus unterstützt die Qianfan-Modellentwicklungsplattform flexible Aufrufe für Großanwender und gewährleistet Geschwindigkeit und Stabilität auch bei hochfrequenten und hochparallelen Aufrufanforderungen.
Auf Modellebene helfen technische Funktionen wie Modelldestillation und Multi-Modell-Aufrufe immer mehr Unternehmen, die Ressourcenallokation zu optimieren, sodass KI-Funktionen präzise auf Geschäftsszenarien abgestimmt werden können und gleichzeitig Kosten gesenkt werden. Auf Anwendungsebene reduzieren MCP und A2A, die in der Branche große Aufmerksamkeit erregt haben, die KI-Trial-and-Error-Kosten weiter, helfen Unternehmen bei der Optimierung von Paradigmen für die Anwendungszusammenarbeit und ändern das ineffiziente Modell der ‘Neuerfindung des Rades’ in der traditionellen Agentenentwicklung.
Eine ‘Kombinationsattacke’ von Modellen zu Anwendungen ist die perfekte Antwort, um LLMs bei der Überwindung des ‘ROI-Dilemmas’ zu helfen.
Von geschlossen zu offen: Senkung der Hürde für KI-Experimente
Seit 2023 hat sich das Schlüsselwort für die Implementierung von KI-Anwendungen allmählich in Agent geändert. Bis 2024 diskutieren fast alle Unternehmen über Agent-Anwendungen und -Entwicklung. Die Agenten verfügten zu diesem Zeitpunkt jedoch nicht über echte Planungsfähigkeiten und basierten hauptsächlich auf Workflow-Perspektiven, die LLMs mit grundlegenden Anwendungen verbanden, indem sie Komponenten durch expertenbasierte Regeln zusammenfügten oder prozeduralisierten.
Mit dem jüngsten Aufstieg der MCP- und A2A-Protokolle ist 2025 zum wahren ‘Agent Year Zero’ geworden. Insbesondere die Auswirkungen von MCP auf den KI-Bereich sind mit denen des TCP/IP-Protokolls auf das Internet vergleichbar.
Zhou Ze’an, CEO von Biyao Technology, erklärte in einem Interview mit InfoQ, dass sich der Kernwert von MCP für den KI-Bereich in drei Dimensionen widerspiegelt:
- Standardisierung des LLM-Tool-Aufrufs: In der Vergangenheit hatte jedes Unternehmen seine eigene Function Call-Implementierung, mit erheblichen Unterschieden zwischen ihnen. MCP etabliert einen einheitlichen Zugriffsstandard, der eine echte Standardisierung von Anwendungsscheduling-Schemata zwischen Clients und Servern ermöglicht. Darüber hinaus ermöglicht MCP die Interaktion nicht nur zwischen LLMs, die Function Call unterstützen, sondern auch mit LLMs, die diese Funktion nicht haben.
- Lösung von Herausforderungen bei der Tool-Zusammenarbeit: Der einheitliche Standard des MCP-Protokolls macht die Konstruktion von Agent-Diensten vielfältiger. Entwickler müssen nicht nur ihre eigenen Agents- und MCP-Dienste berücksichtigen, sondern auch, wie externe Funktionen integriert werden können, um leistungsstärkere Agent-Funktionen zu erzielen.
- Steuerung des gesamten Kontexts durch LLMs, was zu einer benutzerfreundlicheren Interaktion führt: Beim Erstellen von Prozessen kann es eine breitere Palette von Datenquellen verwenden, um komplexe Aufgaben zu lösen, die zuvor unmöglich waren.
‘Im Allgemeinen senkt das MCP-Protokoll die Hürde für Unternehmen, KI-Technologie einzusetzen, erheblich. In der Vergangenheit war der technische Integrationsprozess für den Zugriff auf Agenten komplex. Jetzt müssen Unternehmen die komplexen technischen Implementierungsdetails nicht mehr eingehend verstehen, sondern nur noch ihre Geschäftsanforderungen klären’, sagte Zhou Ze’an. Biyao Technology hat die Dokumentenverarbeitungsfunktionen seines selbst entwickelten, auf die Personalbranche ausgerichteten LLM ‘Bole’ über das MCP-Protokoll vollständig geöffnet, einschließlich Verträgen, Lebensläufen und PPTs, und wurde einer der ersten Unternehmensentwickler, der MCP-Komponenten auf der Qianfan-Anwendungsentwicklungsplattform eingeführt hat. Derzeit kann jedes Unternehmen oder jeder einzelne Entwickler seine professionellen Fähigkeiten direkt auf der Qianfan-Plattform abrufen.
‘Baidu wird Entwicklern helfen, MCP aktiv und umfassend zu nutzen.’ Auf der Create2025 Baidu AI Developer Conference am 25. April startete die Qianfan-Plattform offiziell MCP-Dienste auf Unternehmensebene. Baidu-Gründer Li Yanhong demonstrierte den Fall, dass die Qianfan-Plattform MCP nutzt, sodass Entwickler beim Erstellen von Agenten flexibel auf 1000 MCP-Server zugreifen können, darunter Baidu AI Search, Maps und Wenku. Darüber hinaus startete Qianfan ein Low-Code-Tool zum Erstellen von MCP-Servern, mit dem Entwickler ihre eigenen MCP-Server einfach auf Qianfan entwickeln und mit einem Klick im Qianfan MCP Square veröffentlichen können. Diese MCP-Server werden auch umgehend von der Baidu-Suche indiziert, sodass sie von mehr Entwicklern gefunden und verwendet werden können.
Tatsächlich hat Qianfan das Problem der letzten Meile der KI-Implementierung bereits vor dem Aufstieg des MCP-Protokolls kontinuierlich gelöst, sodass Unternehmen effizient und mit geringen Hürden von den Vorteilen der KI-Technologie profitieren können und ausgereifte Lösungen für mehrere Branchen bereitgestellt werden.
Beispielsweise stehen Unternehmen in der Smart-Home-Branche im Allgemeinen vor einem gemeinsamen Problem: Wie können genaue intelligente Dienste für massive Produktmodelle bereitgestellt werden? Mit der beschleunigten Implementierung von LLMs verwenden immer mehr Unternehmen Agenten, um Benutzern schnell genaue und personalisierte Antworten zu geben. Dies bringt jedoch auch eine neue Herausforderung mit sich: Wie können zahlreiche Agenten entwickelt und verwaltet werden? Smart-Home-Marken haben in der Regel viele verschiedene Produktkategorien und -modelle. Das separate Erstellen eines Agenten für jedes Produkt würde nicht nur hohe Entwicklungskosten verursachen, sondern auch erhebliche Verwaltungs- und Wartungskosten in späteren Phasen.
Beispielsweise verwendete eine führende Smart-Home-Marke die Baidu AI Cloud Qianfan-Anwendungsentwicklungsplattform, um Dateinamen als unabhängige Slices zu behandeln und Dateinamen-Slice-Informationen in jeden feingranularen Slice einzubetten. Anstatt einen Agenten für jedes Produkt separat zu erstellen, mussten sie nur die entsprechende Wissensdatenbank sortieren und die Produktmodellnamen definieren. Dann konnten sie die automatische Parsestrategie des RAG-Frameworks der Qianfan-Plattform verwenden, um eine präzise Übereinstimmung von Produktmodellen und Wissenspunkten zu erzielen.
Die Qianfan-Anwendungsentwicklungsplattform bietet der Marke auch eine Reihe von Betriebstools zum Aufbau eines sich kontinuierlich weiterentwickelnden intelligenten Hubs. Durch die Datenrückflussfunktion werden alle Benutzerinteraktionsaufzeichnungen in Optimierungsmaterialien umgewandelt. Das Betriebspersonal kann hochfrequente Probleme in Echtzeit anzeigen und sofort auf unentdeckte Wissenspunkte eingreifen, wodurch eine ‘Operation - Feedback - Optimierung’-Schleife entsteht. Darüber hinaus haben die Qianfan-Anwendungsentwicklungsplattform und Xiaodu AI Assistant gemeinsam ein Sprachinteraktionsframework aufgebaut. Dank dieses Frameworks kann Hardware direkt mit Benutzern ‘sprechen’ und so ein natürlicheres, effizienteres und personalisiertes interaktives Erlebnis erzielen.
Von MCP bis A2A ist Offenheit zu einem neuen Schlüsselwort im LLM-Anwendungsökosystem geworden. Offenheit ist auch die ursprüngliche Absicht der Qianfan-Plattform. Vom ersten Tag ihrer Veröffentlichung im Jahr 2023 an hat Qianfan die offenste Haltung eingenommen, um auf eine Fülle von LLMs von Drittanbietern zuzugreifen. Derzeit hat Qianfan Zugriff auf mehr als 100 Modelle von über 30 Modellanbietern, die 11 Arten von Funktionen wie Text, Bild und tiefes Denken abdecken, darunter Modelle von Drittanbietern wie DeepSeek, LLaMA, Tongyi und Vidu. Sie bietet auch eine vollständige Palette von Wenxin LLMs, darunter das neu veröffentlichte native multimodale Modell Wenxin 4.5 Turbo und das tiefe Denkmodell Wenxin X1 Turbo sowie das zuvor veröffentlichte tiefe Denkmodell Wenxin X1.
Für Unternehmen, die KI-Technologie schnell implementieren möchten, wird die Baidu AI Cloud allmählich zur ersten Wahl. Marktdaten sind der beste Beweis. Derzeit bedient die Qianfan-Plattform über 400.000 Kunden, mit einer Durchdringungsrate von über 60 % in zentralen Unternehmen. Laut dem China Large Model Bidding Project Monitoring and Insight Report (2025Q1) hat Baidu im ersten Quartal zwei erste Plätze in der Anzahl der Large Model Bidding-Projekte und der Höhe der gewonnenen Angebote erreicht: 19 Large Model Bidding-Projekte mit einem offengelegten Projektbetrag von über 450 Millionen Yuan gewonnen, und die gewonnenen Large Model-Projekte stammten fast alle von zentralen staatseigenen Unternehmenskunden in Branchen wie Energie und Finanzen.
Der Bericht der Baidu AI Cloud sendet auch ein Signal an die Außenwelt: In diesem langfristigen Kampf um die Implementierung von KI-Technologie sind nur diejenigen Lösungen, die die Schwachstellen der Branche wirklich verstehen und Unternehmen dabei helfen können, Trial-and-Error-Kosten zu senken, am wichtigsten.