Die Landschaft der Large Language Models (LLMs) hat eine bedeutende Transformation erlebt, in der Google als ein prominenter Akteur auftritt, während Meta und OpenAI bemerkenswerte Herausforderungen gegenüberstehen. Anfangs dominierte OpenAI das Feld mit seinen bahnbrechenden GPT-Modellen und setzte neue Maßstäbe für die LLM-Leistung. Meta sicherte sich ebenfalls eine bedeutende Position, indem es Open-Weight-Modelle anbot, die mit beeindruckenden Fähigkeiten aufwarteten und die uneingeschränkte Nutzung, Modifizierung und Bereitstellung ihres öffentlich zugänglichen Codes ermöglichten.
Diese frühe Dominanz ließ jedoch andere Tech-Giganten, einschließlich Google, im Hintertreffen. Trotz Googles wegweisendem Forschungspapier von 2017 über die Transformer-Architektur, die LLMs zugrunde liegt, wurden die anfänglichen Bemühungen des Unternehmens von der weithin kritisierten Einführung von Bard im Jahr 2023 überschattet.
In letzter Zeit hat sich das Blatt gewendet, mit der Einführung leistungsstarker neuer LLMs von Google, gepaart mit Rückschlägen, die Meta und OpenAI erlebt haben. Diese Verschiebung hat die Dynamik der LLM-Landschaft erheblich verändert.
Metas Llama 4: Ein Fehltritt?
Die unerwartete Veröffentlichung von Llama 4 durch Meta am Samstag, den 5. April, sorgte in der gesamten Branche für Verwunderung.
Die Entscheidung, ein wichtiges Modell an einem Wochenende auf den Markt zu bringen, wurde als unkonventionell wahrgenommen, was zu einem gedämpften Empfang führte und die Ankündigung inmitten des Nachrichtenflusses der darauffolgenden Woche überdeckte.
Während Llama 4 bestimmte Stärken besitzt, darunter seine multimodalen Fähigkeiten (Verarbeitung von Bildern, Audio und anderen Modalitäten) und seine Verfügbarkeit in drei Versionen (Llama 4 Behemoth, Maverick und Scout) mit unterschiedlichen Größen und Stärken, wurde seine Einführung mit Kritik aufgenommen. Insbesondere die Llama 4 Scout-Version verfügte über ein substanzielles Kontextfenster von bis zu 10 Millionen Token, wodurch das Modell in der Lage war, riesige Textmengen in einer einzigen Sitzung zu verarbeiten und zu generieren.
Der Empfang des Modells trübte sich jedoch, als Unstimmigkeiten bezüglich Metas Ranking-Ansatz auf LMArena auftauchten, einer Plattform, die LLMs auf der Grundlage von Benutzerabstimmungen bewertet. Es wurde festgestellt, dass sich das spezifische Llama 4-Modell, das für die Rankings verwendet wurde, von dem unterschied, das der Öffentlichkeit zur Verfügung gestellt wurde. LMArena gab an, dass Meta ‘ein angepasstes Modell zur Optimierung der menschlichen Präferenz’ bereitgestellt habe.
Darüber hinaus wurden Metas Behauptungen bezüglich des 10-Millionen-Token-Kontextfensters von Llama 4 Scout mit Skepsis aufgenommen. Trotz der technischen Richtigkeit dieser Zahl zeigten Benchmarks, dass Llama 4 hinter konkurrierenden Modellen in der Long-Context-Leistung zurückblieb.
Zu den Bedenken trug bei, dass Meta es unterließ, ein Llama 4-‘Reasoning’- oder ‘Thinking’-Modell zu veröffentlichen und kleinere Varianten zurückhielt, obwohl das Unternehmen angedeutet hat, dass ein Reasoning-Modell in Kürze folgen wird.
Ben Lorica, Gründer des KI-Beratungsunternehmens Gradient Flow, bemerkte, dass Meta von der Standardpraxis einer systematischeren Veröffentlichung abwich, bei der alle Komponenten vollständig vorbereitet sind. Dies deutet darauf hin, dass Meta möglicherweise bestrebt war, ein neues Modell vorzustellen, auch wenn ihm wesentliche Elemente wie ein Reasoning-Modell und kleinere Versionen fehlten.
OpenAIs GPT-4.5: Ein voreiliger Rückzug
Auch OpenAI stand in den letzten Monaten vor Herausforderungen.
GPT-4.5, das am 27. Februar als Research Preview vorgestellt wurde, wurde als das ‘größte und beste Modell des Unternehmens für Chat’ angepriesen. OpenAIs Benchmarks deuteten darauf hin, dass GPT-4.5 im Allgemeinen seinen Vorgänger GPT-4o übertraf.
Die Preisstruktur des Modells stieß jedoch auf Kritik. OpenAI setzte den Preis für den API-Zugang auf 150 US-Dollar pro Million Ausgabetoken fest, was einer unglaublichen 15-fachen Erhöhung gegenüber dem Preis von GPT-4o von 10 US-Dollar pro Million Token entspricht. Die API ermöglicht es Entwicklern, OpenAI-Modelle in ihre Anwendungen und Dienste zu integrieren.
Alan D. Thompson, ein KI-Berater und -Analyst bei Life Architect, schätzte, dass GPT-4.5 wahrscheinlich das größte traditionelle LLM war, das im ersten Quartal 2025 veröffentlicht wurde, mit ungefähr 5,4 Billionen Parametern. Er argumentierte, dass eine so immense Größenordnung angesichts der aktuellen Hardwarebeschränkungen schwer zu rechtfertigen sei und erhebliche Herausforderungen bei der Bedienung einer großen Benutzerbasis darstelle.
Am 14. April kündigte OpenAI seine Entscheidung an, den GPT-4.5-Zugang über die API nach weniger als drei Monaten einzustellen. Während GPT-4.5 weiterhin zugänglich sein wird, wird es auf ChatGPT-Benutzer über die ChatGPT-Oberfläche beschränkt sein.
Diese Ankündigung fiel mit der Einführung von GPT-4.1 zusammen, einem sparsameren Modell zum Preis von 8 US-Dollar pro Million Token. OpenAIs Benchmarks deuten darauf hin, dass GPT-4.1 insgesamt nicht ganz so leistungsfähig ist wie GPT-4.5, obwohl es in bestimmten Codierungs-Benchmarks eine überlegene Leistung zeigt.
OpenAI hat kürzlich auch neue Reasoning-Modelle, o3 und o4-mini, veröffentlicht, wobei das o3-Modell eine besonders starke Benchmark-Leistung zeigt. Die Kosten bleiben jedoch ein Problem, da der API-Zugang zu o3 mit 40 US-Dollar pro Million Ausgabetoken bepreist ist.
Googles Aufstieg: Die Chance ergreifen
Der gemischte Empfang von Llama 4 und ChatGPT-4.5 schuf eine Öffnung für Wettbewerber, um daraus Kapital zu schlagen, und sie haben die Chance ergriffen.
Metas problembehaftete Einführung von Llama 4 wird Entwickler wahrscheinlich nicht davon abhalten, Alternativen wie DeepSeek-V3, Googles Gemma und Alibabas Qwen2.5 zu übernehmen. Diese LLMs, die Ende 2024 eingeführt wurden, sind zu den bevorzugten Open-Weight-Modellen auf LMArena- und HuggingFace-Bestenlisten geworden. Sie konkurrieren mit Llama 4 in gängigen Benchmarks oder übertreffen es, bieten einen erschwinglichen API-Zugang und sind in einigen Fällen zum Herunterladen und Verwenden auf Consumer-Grade-Hardware verfügbar.
Es ist jedoch Googles hochmodernes LLM, Gemini 2.5 Pro, das wirklich die Aufmerksamkeit auf sich gezogen hat.
Google Gemini 2.5 Pro, das am 25. März auf den Markt kam, ist ein ‘Thinking’-Modell ähnlich wie GPT-o1 und DeepSeek-R1, das Self-Prompting verwendet, um Aufgaben zu bewältigen. Gemini 2.5 Pro ist multimodal, verfügt über ein Kontextfenster von einer Million Token und unterstützt detaillierte Recherchen.
Gemini 2.5 hat schnell Benchmark-Siege errungen, darunter den Spitzenplatz in SimpleBench (obwohl es diese Position am 16. April an OpenAIs o3 abtrat) und im kombinierten AI Intelligence Index von Artificial Analysis. Gemini 2.5 Pro belegt derzeit die Spitzenposition auf LMArena. Am 14. April belegten Google-Modelle 5 der Top 10 Plätze auf LMArena, darunter Gemini 2.5 Pro, drei Varianten von Gemini 2.0 und Gemma 3-27B.
Über seine beeindruckende Leistung hinaus ist Google auch ein Preisführer. Google Gemini 2.5 kann derzeit kostenlos über Googles Gemini-App und Googles AI Studio-Website verwendet werden. Die API-Preise von Google sind ebenfalls wettbewerbsfähig, wobei Gemini 2.5 Pro mit 10 US-Dollar pro Million Ausgabetoken und Gemini 2.0 Flash mit nur 40 Cent pro Million Token bepreist ist.
Lorica stellt fest, dass er für Aufgaben mit hohem Reasoning-Aufkommen oft DeepSeek-R1 oder Google Gemini wählt, während die Verwendung von OpenAI-Modellen eine sorgfältigere Berücksichtigung der Preise erfordert.
Während Meta und OpenAI nicht unbedingt vor dem Zusammenbruch stehen, profitiert OpenAI von der Popularität von ChatGPT, das Berichten zufolge eine Milliarde Nutzer hat. Dennoch deuten die starken Rankings und die Benchmark-Leistung von Gemini auf eine Verschiebung in der LLM-Landschaft hin, die derzeit Google begünstigt.