Baidu: ERNIE X1 & ERNIE 4.5 starten

ERNIE X1 und ERNIE 4.5: Ein genauerer Blick auf Baidus neue Modelle

Baidu, eine dominierende Kraft in Chinas Technologielandschaft, hat zwei bedeutende Updates für sein ERNIE (Enhanced Representation through Knowledge Integration) Basismodell veröffentlicht. Diese neuen Iterationen, ERNIE X1 und ERNIE 4.5, stellen Baidus strategische Antwort auf die zunehmend wettbewerbsorientierte globale KI-Landschaft dar, insbesondere auf die Fortschritte, die sowohl von chinesischen als auch von amerikanischen Unternehmen erzielt wurden. Diese Modelle sind nicht nur inkrementelle Upgrades; sie sind darauf ausgelegt, mit einigen der fortschrittlichsten verfügbaren KI-Systemen zu konkurrieren, und verfügen über Fähigkeiten, die laut Baidu denen ihrer Konkurrenten entweder entsprechen oder sie übertreffen. Beide Modelle sind für Benutzer über den ERNIE Bot Chatbot zugänglich, und Baidu plant eine schrittweise Integration in seine breitere Produktpalette, einschließlich seiner Flaggschiff-Suchmaschine Baidu Search.

Der Zeitpunkt dieser Veröffentlichung ist entscheidend. Der Sektor der generativen KI erlebt eine Phase rasanter Innovation und intensiver Rivalität, mit besonderem Fokus auf der Dynamik zwischen China und den Vereinigten Staaten. DeepSeek, ein chinesisches KI-Startup, erregte Anfang 2025 mit R1, einem Open-Source-Reasoning-Modell, das Berichten zufolge führende KI-Modelle zu deutlich geringeren Kosten übertraf, die Aufmerksamkeit der Branche. Dieser Schritt brachte DeepSeek vor Konkurrenten in China und den USA, einschließlich Baidu. Baidu war jedoch eines der ersten chinesischen Unternehmen, das mit ERNIE Bot einen ChatGPT-Konkurrenten einführte.

ERNIE X1 und ERNIE 4.5 sind zwar beide von Baidu entwickelt, aber unterschiedliche Basismodelle, die auf verschiedene Anwendungen zugeschnitten sind:

  • ERNIE X1: Dieses Modell ist als hocheffiziente Reasoning-Engine positioniert und fordert Modelle wie DeepSeek R1 und OpenAI’s o3 mini direkt heraus. Es ist für Aufgaben konzipiert, die komplexe logische Verarbeitung und mehrstufige Problemlösung erfordern.

  • ERNIE 4.5: Dieses Modell ist eine große multimodale KI, die in der Lage ist, verschiedene Medienformen – Text, Bilder, Audio und Video – zu verarbeiten und zu verstehen. Es konkurriert mit Modellen wie GPT-4o und Google’s Gemini.

Das Aufkommen von DeepSeek’s R1 führte zu einer Verschiebung der Prioritäten großer KI-Akteure wie Google, OpenAI, Anthropic und xAI. Diese Unternehmen begannen, sich neben der reinen Modellgröße auf Effizienz und Erschwinglichkeit zu konzentrieren. Baidus Einführung von ERNIE X1 signalisiert insbesondere seinen Eintritt in dieses globale KI-Rennen und bietet eine Leistung, die mit R1 und anderen Modellen vergleichbar ist, möglicherweise zu einem noch wettbewerbsfähigeren Preis.

Baidu betont, dass 2025 ein entscheidendes Jahr für die Entwicklung großer Sprachmodelle und verwandter Technologien ist. Die Pressemitteilung des Unternehmens unterstreicht sein kontinuierliches Engagement für Investitionen in künstliche Intelligenz, Rechenzentren und Cloud-Infrastruktur, um seine KI-Fähigkeiten weiter zu verbessern und noch leistungsfähigere Modelle der nächsten Generation zu entwickeln.

ERNIE X1: Vertiefung in Deep-Thinking Reasoning

ERNIE X1 ist ein Sprachmodell, das speziell für “Deep-Thinking Reasoning” entwickelt wurde. Dies unterscheidet es von traditionellen Sprachmodellen, die sich durch die Generierung schneller, musterbasierter Antworten auszeichnen. Reasoning-Modelle hingegen sind darauf ausgelegt, komplexe Probleme in eine Reihe logischer Schritte zu zerlegen. Sie bewerten verschiedene potenzielle Lösungen und verfeinern ihre Antworten, bevor sie eine endgültige Ausgabe präsentieren. Dies macht sie besonders geeignet für Aufgaben, die mehrstufige Planung, logische Deduktion und komplizierte Problemlösung beinhalten.

Baidu führt die Reasoning-Fähigkeiten von ERNIE X1 auf mehrere fortschrittliche Techniken zurück, darunter:

  • Progressive Reinforcement Learning: Dies deutet auf einen iterativen Lernprozess hin, bei dem das Modell seine Leistung durch Feedback kontinuierlich verbessert.
  • End-to-End Training: Dies impliziert einen ganzheitlichen Trainingsansatz, bei dem das gesamte Modell gleichzeitig optimiert wird, anstatt in separaten Phasen.
  • Chains of Thought and Action: Diese Technik ermöglicht es dem Modell wahrscheinlich, einer Folge logischer Schritte zu folgen, die menschliche Denkprozesse nachahmen.
  • Unified Multi-faceted Reward System: Dies deutet auf ein ausgeklügeltes System zur Bewertung und Belohnung der Leistung des Modells in verschiedenen Aspekten des Reasoning hin.

Obwohl Baidu keine erschöpfenden technischen Details offengelegt hat, deuten diese Methoden auf einen Fokus auf iteratives Lernen, kontextuelles Verständnis und strukturiertes Reasoning hin – Stärken, die auch für andere erfolgreiche Reasoning-Modelle charakteristisch sind.

In praktischen Anwendungen zeigt ERNIE X1 laut Baidu “verbesserte Fähigkeiten in den Bereichen Verstehen, Planen, Reflektieren und Evolution”. Das Unternehmen hebt seine Kompetenz in Bereichen wie:

  • Literary Creation: Generierung kreativer Textformate.
  • Manuscript Writing: Unterstützung beim Verfassen längerer Dokumente.
  • Dialogue: Teilnahme an natürlichen und kohärenten Gesprächen.
  • Logical Reasoning: Lösen von Problemen, die logische Deduktion erfordern.
  • Complex Calculations: Durchführung komplizierter mathematischer Operationen.
  • ‘Chinese Knowledge’: Diese nicht näher spezifizierte Fähigkeit bezieht sich wahrscheinlich auf ein tiefes Verständnis der chinesischen Sprache, Kultur und des Kontexts.

Folglich soll ERNIE X1 eine Vielzahl von Anwendungen unterstützen, darunter:

  • Search Engines: Verbesserung der Suchergebnisse durch differenzierteres Verständnis.
  • Document Summarization and Q&A: Bereitstellung prägnanter Zusammenfassungen und genauer Antworten auf Fragen.
  • Image Understanding and Generation: Interpretation und Erstellung visueller Inhalte.
  • Code Interpretation: Analyse und Verständnis von Programmiercode.
  • Webpage Analysis: Extrahieren von Schlüsselinformationen aus Webseiten.
  • Mind Mapping: Erstellung visueller Darstellungen von Ideen und Konzepten.
  • Academic Research: Unterstützung bei Forschungsaufgaben in verschiedenen Disziplinen.
  • Business and Franchise Information Search: Bereitstellung relevanter Informationen für Geschäftsanfragen.

ERNIE X1: Benchmarking gegen die Konkurrenz

Obwohl Baidu keine spezifischen Benchmark-Ergebnisse oder detaillierten Bewertungen für ERNIE X1 veröffentlicht hat, behauptet das Unternehmen, dass die Leistung des Modells “mit DeepSeek R1 vergleichbar” ist, während es “nur zum halben Preis” angeboten wird. Derzeit hat Baidu keine Vergleiche mit anderen Reasoning-Modellen auf dem Markt vorgelegt. Dieser Mangel an detaillierten Vergleichsdaten macht es schwierig, die Wettbewerbsposition von ERNIE X1 vollständig zu beurteilen, aber die Behauptung einer vergleichbaren Leistung zu geringeren Kosten ist sicherlich bemerkenswert.

ERNIE 4.5: Native multimodale Fähigkeiten

ERNIE 4.5 wird von Baidu als “natives multimodales Modell” präsentiert. Dies bedeutet, dass es darauf ausgelegt ist, verschiedene Medienformen – Text, Bilder, Audio und Video – nahtlos in einem einheitlichen Framework zu integrieren und zu verstehen. Im Gegensatz zu vielen KI-Systemen, die verschiedene Medientypen separat verarbeiten, ist ERNIE 4.5 so konzipiert, dass es diese Modalitäten kombiniert und sogar zwischen ihnen konvertiert (z. B. Text zu Audio und umgekehrt).

Baidu betont, dass ERNIE 4.5 “durch die gemeinsame Modellierung mehrerer Modalitäten eine kollaborative Optimierung erreicht und außergewöhnliche multimodale Verständnisfähigkeiten demonstriert”. Dies deutet auf einen ausgeklügelten Ansatz hin, bei dem das Modell lernt, Informationen über verschiedene Medientypen hinweg zu verstehen und in Beziehung zu setzen.

Zusätzlich zu seinen multimodalen Fähigkeiten verfügt ERNIE 4.5 über “verfeinerte Sprachkenntnisse”, die seine Verständnis- und Generierungsfähigkeiten sowie seine logischen Schlussfolgerungs-, Gedächtnis- und Codierungsfähigkeiten verbessern. Baidu betont auch die “starke Intelligenz” und das “Kontextbewusstsein” des Modells, insbesondere seine Fähigkeit, nuancierte Inhalte wie Internet-Memes und satirische Cartoons zu erkennen. Dies deutet auf einen Fokus auf das Verständnis nicht nur der wörtlichen Bedeutung von Inhalten, sondern auch ihres kulturellen und sozialen Kontexts hin.

Darüber hinaus behauptet Baidu, dass ERNIE 4.5 weniger anfällig für “Halluzinationen” ist – ein häufiges Problem in der KI, bei dem Modelle falsche oder irreführende Informationen generieren, die auf den ersten Blick plausibel erscheinen mögen. Dies ist eine entscheidende Verbesserung, da Halluzinationen die Zuverlässigkeit und Vertrauenswürdigkeit von KI-Systemen untergraben können.

Baidu führt diese Fortschritte auf mehrere Schlüsseltechnologien zurück, darunter:

  • Spatiotemporal Representation Compression: Dies bezieht sich wahrscheinlich auf Techniken zur effizienten Darstellung und Verarbeitung von Informationen, die sich über Zeit und Raum ändern, wie z. B. Videoinhalte.
  • Knowledge-Centric Training Data Construction: Dies deutet auf einen Fokus auf den Aufbau von Trainingsdatensätzen hin, die reich an Faktenwissen sind.
  • Self-Feedback Enhanced Post-Training: Dies impliziert einen Mechanismus, bei dem das Modell aus seinen eigenen Ausgaben lernen und seine Leistung im Laufe der Zeit verbessern kann.
  • Heterogeneous Multimodal Mixture-of-Experts (MoE): Dieser Ansatz verwendet kleinere, spezialisierte “Experten”-Modelle, die nur bei Bedarf aktiviert werden. Dies optimiert die Leistung und reduziert die Rechenkosten. MoE-Modelle sind oft kleiner und kostengünstiger als herkömmliche Transformer-basierte Modelle, können aber dennoch eine vergleichbare oder sogar bessere Leistung erzielen, was sie zu einer attraktiven Option für die KI-Entwicklung macht.

Mit Blick auf die Zukunft deuten Berichte darauf hin, dass Baidu plant, ERNIE 5 später im Jahr 2025 zu veröffentlichen, und verspricht “große Verbesserungen” seiner multimodalen Fähigkeiten. Dies deutet auf ein kontinuierliches Engagement hin, die Grenzen der multimodalen KI zu verschieben.

ERNIE 4.5: Eine vergleichende Analyse

Baidu hat die multimodalen Fähigkeiten von ERNIE 4.5 direkt mit denen von OpenAI’s GPT-4o verglichen. Das Unternehmen behauptet, dass ERNIE 4.5 GPT-4o in fast jedem Benchmark übertroffen hat, mit Ausnahme von MMU (Massive Multi-discipline Understanding). MMU bewertet Modelle anhand einer breiten Palette von Aufgaben auf College-Niveau, die fundiertes Fachwissen und überlegtes Denken erfordern. Dies deutet darauf hin, dass ERNIE 4.5 zwar in vielen Bereichen hervorragend abschneidet, GPT-4o aber bei Aufgaben, die spezielles akademisches Wissen erfordern, möglicherweise immer noch einen Vorteil hat.

Baidu präsentiert auch Benchmark-Ergebnisse, die zeigen, dass ERNIE 4.5 OpenAI’s GPT-4o und GPT-4.5 sowie DeepSeek’s V3 in mehreren anderen Bereichen übertrifft, darunter:

  • C-Eval: Dieser Benchmark bewertet fortgeschrittene Kenntnisse und Denkfähigkeiten in verschiedenen Disziplinen, von den Geisteswissenschaften bis hin zu Naturwissenschaften und Ingenieurwesen. Die starke Leistung von ERNIE 4.5 hier deutet auf ein breites Verständnis verschiedener Themen hin.
  • CMMLU: Dieser Benchmark bewertet Kenntnisse und Denkfähigkeiten im spezifischen Kontext der chinesischen Sprache und Kultur. Der Erfolg von ERNIE 4.5 hier unterstreicht seine Kompetenz in diesem Bereich.
  • GSM8K: Dieser Benchmark bewertet mehrstufiges Denken anhand von Grundschulmathematikaufgaben. Die Leistung von ERNIE 4.5 deutet auf starke Fähigkeiten im mathematischen Denken hin.
  • DROP: Dieser Benchmark misst die Leseverständnisfähigkeiten eines LLM. Die Ergebnisse von ERNIE 4.5 deuten auf ein hohes Maß an Textverständnis hin.

Es ist jedoch wichtig anzuerkennen, dass viele der Benchmarks, bei denen ERNIE 4.5 eine überlegene Leistung zeigte, speziell auf die chinesische Sprache und Kultur ausgerichtet waren. Dies mag teilweise erklären, warum GPT-4o und GPT-4.5, Modelle, die von einem amerikanischen Unternehmen entwickelt wurden, nicht so gut abschnitten. Nichtsdestotrotz übertraf ERNIE 4.5 auch DeepSeek-V3, ein Modell, das von einem chinesischen Unternehmen entwickelt wurde, in vielen dieser Benchmarks, was auf einen echten Wettbewerbsvorteil im chinesischen Kontext hindeutet.

Umgekehrt schnitt ERNIE 4.5 Berichten zufolge bei bestimmten anderen Benchmarks nicht so gut ab, darunter:

  • MMLU-Pro: Dieser Benchmark bewertet das Sprachverständnis anhand einer breiteren und anspruchsvolleren Reihe von Aufgaben. GPT-4.5 übertraf ERNIE 4.5 hier, was auf einen potenziellen Vorteil im allgemeinen Sprachverständnis hindeutet.
  • GPQA: Dieser Benchmark umfasst einen Datensatz von Multiple-Choice-Fragen, die von Experten in Biologie, Physik und Chemie verfasst wurden. GPT-4.5 übertraf ERNIE 4.5 erneut, was auf ein stärkeres Verständnis von spezialisiertem wissenschaftlichem Wissen hindeutet.
  • Math-500: Dieser Benchmark testet die Fähigkeit, anspruchsvolle Mathematikaufgaben auf High-School-Niveau zu lösen. Sowohl DeepSeek-V3 als auch GPT-4.5 übertrafen ERNIE 4.5, was auf einen Bedarf an weiterer Verbesserung im fortgeschrittenen mathematischen Denken hindeutet.
  • LiveCodeBench: Dieser Benchmark misst die Codierungsfähigkeiten. GPT-4.5 übertraf ERNIE 4.5, was auf einen potenziellen Vorteil bei der Codegenerierung und dem Codeverständnis hindeutet.

Trotz der überlegenen Leistung von GPT-4.5 bei einigen Benchmarks betont Baidu, dass ERNIE 4.5 nur 1 % des Preises des OpenAI-Modells kostet. Dieser erhebliche Kostenunterschied könnte ERNIE 4.5 zu einer äußerst attraktiven Option für Unternehmen und Entwickler machen, die eine kostengünstige multimodale KI-Lösung suchen.

Zugriff auf ERNIE X1 und ERNIE 4.5

ERNIE 4.5 ist derzeit über seine API und auf Baidu AI Cloud’s MaaS (Model-as-a-Service) Plattform, Qianfan, zugänglich. Die Input-Preise beginnen bei 0,004 RMB pro tausend Token, und die Output-Preise beginnen bei 0,016 RMB pro tausend Token. Baidu gibt an, dass ERNIE X1 “bald” auf der Plattform verfügbar sein wird, mit Input-Preisen ab 0,002 RMB pro tausend Token und Output-Preisen ab 0,008 RMB pro tausend Token.

Benutzer können auch über Baidus Chatbot, ERNIE Bot, mit beiden Modellen interagieren, was eine bequeme und benutzerfreundliche Oberfläche zur Erkundung ihrer Fähigkeiten bietet.

Die spezifische Preisstruktur und die Verfügbarkeitsdetails unterstreichen Baidus Engagement, diese fortschrittlichen KI-Modelle einem breiten Spektrum von Benutzern zugänglich zu machen, von einzelnen Entwicklern bis hin zu großen Unternehmen. Die wettbewerbsfähige Preisgestaltung, insbesondere für ERNIE X1, positioniert Baidu als starken Konkurrenten auf dem globalen KI-Markt und bietet eine überzeugende Alternative zu Modellen amerikanischer Tech-Giganten.