Anthropic Claude 4: KI-Codierung Neu Definiert

Anthropic hat mit Opus 4 und Sonnet 4, den neuesten Versionen seiner Flaggschiff-Claude-Familie, einen weiteren bedeutenden Sprung nach vorne in der Welt der künstlichen Intelligenz vollzogen. Diese Modelle, die vor etwas mehr als einer Woche veröffentlicht wurden, haben schnell Aufmerksamkeit erregt und neue Maßstäbe gesetzt, insbesondere im kritischen Bereich der Codierung. Neben ihren Codierungsfähigkeiten demonstrieren Opus 4 und Sonnet 4 robuste Fähigkeiten in den Bereichen Reasoning und Agentenfunktionen, was sie als entscheidende Fortschritte in der zeitgenössischen KI-Landschaft positioniert.

Opus 4 ist Anthropic’s bisher ausgefeilteste Kreation, die von dem Unternehmen als sein leistungsstärkstes Modell gelobt wird und seine Position als das “weltweit beste Codierungsmodell” behauptet. Ergänzend zu Opus 4 erweist sich Sonnet 4 als eine wirtschaftlichere Alternative, die entwickelt wurde, um ein optimales Gleichgewicht zwischen überlegener Leistung und praktischer Kosteneffizienz zu erreichen. Dieses strategische Doppelangebot richtet sich an ein breites Spektrum von Nutzern, von denen, die Spitzenleistungen fordern, bis zu denen, die eine budgetfreundlichere Lösung suchen.

Die in Opus 4 und Sonnet 4 eingeführten Verbesserungen sind bemerkenswert. Ein primäres Highlight ist ihre verbesserte Codierungsfähigkeit. Opus 4 hat bereits seine Führungsrolle in wichtigen Benchmarks bewiesen, darunter SWE-bench und Terminal-bench, während Sonnet ähnliche Fähigkeiten aufweist. Dieser Sprung in der Codierungsleistung unterstreicht die wachsende Bedeutung von KI in der Softwareentwicklung.

Zusätzlich zu den Leistungsverbesserungen hat Anthropic der Sicherheit Priorität eingeräumt. Opus 4 integriert ASL-3- oder AI Safety Level 3-Schutzmaßnahmen. Diese Maßnahme ergibt sich aus Anthropic’s ‘Responsible Scaling Policy’. Anthropic, gegründet von ehemaligen OpenAI-Mitarbeitern, die um die Sicherheit besorgt sind, hat stets die Innovation unter Berücksichtigung robuster Sicherheitsaspekte betont.

Die Veröffentlichung von Opus 4 und Sonnet 4 hat im Allgemeinen positives Feedback von Entwicklern und Nutzern hervorgerufen. Die verbesserten Codierungsfähigkeiten wurden als ein bedeutender Schritt hin zu autonomen oder agentenartigen KI-Systemen gelobt. Die Preisstruktur, die frühere Generationen widerspiegelt, indem sie sowohl eine Premium- als auch eine kostengünstige Option präsentiert, wurde ebenfalls gut aufgenommen.

Die Veröffentlichung von Opus 4 verlief nicht ohne Kontroversen. Ein Anthropic-Forscher enthüllte, dass Opus die Behörden kontaktieren könnte, wenn es das Verhalten eines Nutzers für unangemessen hält. Während der Forscher später klarstellte, dass dies im normalen Gebrauch unmöglich sei, weckte es bei den Nutzern Bedenken hinsichtlich des Grades der Unabhängigkeit, der möglicherweise in das Modell eingebettet ist.

Das Feld der KI ist geprägt von häufigen Ankündigungen bahnbrechender Modelle, von denen jedes um den Titel “weltbestes” konkurriert. Zu den jüngsten Veröffentlichungen gehören Google’s Gemini-2.5-Pro, OpenAI’s GPT-4.5 und GPT-4.1, xAI’s Grok 3 und Alibaba’s Qwen 2.5 und QwQ-32B, die alle mit außergewöhnlicher Benchmark-Leistung aufwarten.

Angesichts dieser Landschaft konkurrierender Behauptungen ist es angebracht zu untersuchen, ob Claude 4 wirklich an der Spitze steht. Indem man sich mit seinen Fähigkeiten, der Benchmark-Leistung, den Anwendungen und dem Feedback der Nutzer befasst, kann man möglicherweise eine Antwort auf diese Frage finden.

Opus 4: Ein Codierungs-Kraftpaket

Opus 4 ist Anthropic’s fortschrittlichstes Modell, das für komplexe, langwierige Aufgaben entwickelt wurde. Es eignet sich für autonomes Software-Engineering, Forschung und Agenten-Workflows, die alle Premium-Tools erfordern. Opus 4 ist als das “weltweit beste Codierungsmodell” positioniert.

Kernfähigkeiten und Erweiterungen

Opus 4 verfügt über erweiterte Funktionen. Bemerkenswert sind die folgenden:

  • Erweiterte Codierung: Opus 4 zeichnet sich durch die autonome Ausführung von “tagelangen Engineering-Aufgaben” aus. Das Modell passt sich mit “verbessertem Code-Geschmack” an spezifische Entwicklerstile an und unterstützt bis zu 32.000 Ausgabetoken. Eine Hintergrund-Claude-Code-Engine übernimmt die Aufgaben.
  • Erweitertes Reasoning & Komplexe Problemlösung: Mit einem hybriden Reasoning-System, das zwischen sofortigen Antworten und tiefem, erweitertem Denken wechselt, behält Opus 4 den Fokus über längere Sequenzen hinweg.
  • Agentenfunktionen: Opus 4 ermöglicht ausgefeilte KI-Agenten und demonstriert State-of-the-Art (SOTA)-Leistung. Es unterstützt Enterprise-Workflows und autonomes Kampagnenmanagement.
  • Kreatives Schreiben & Inhaltserstellung: Opus 4 generiert Prosa auf menschlichem Niveau mit außergewöhnlicher stilistischer Qualität, was es für fortgeschrittene kreative Aufgaben geeignet macht.
  • Speicher & Long-Context Awareness: Opus 4 erstellt und verwendet "Speicherdateien", wodurch die Kohärenz über lange Aufgaben hinweg verbessert wird, z. B. beim Schreiben eines Spieleführers während des Pokémon-Spiels.
  • Agentenbasierte Suche & Forschung: Opus 4 kann stundenlange Recherchen durchführen und Erkenntnisse aus komplexen Daten wie Patenten und wissenschaftlichen Artikeln zusammenfassen.

Benchmark-Leistungs-Highlights

Opus 4 hat eine überlegene Leistung gezeigt. Beachten Sie die folgenden Benchmarks:

  • SWE-bench Verified (Codierung): 73,2 %

    • SWE-bench testet die Fähigkeit von KI-Systemen, GitHub-Probleme zu lösen.
    • OpenAI’s o3: 69,1 %. Google’s Gemini-2.5-Pro: 63,8 %.
  • Terminal-bench (CLI-Codierung): 43,2 % (50,0 % High-Compute)

    • Terminal-bench misst die Fähigkeiten von KI-Agenten in einer Terminalumgebung.
    • Claude Sonnet 3.7: 35,2 % und OpenAI’s GPT-4.1: 30,3 %.
  • MMLU (Allgemeinwissen): 88,8 %

    • MMLU-Pro wurde entwickelt, um das Sprachverständnis von Modellen über breitere und anspruchsvollere Aufgaben hinweg zu bewerten.
    • OpenAI’s GPT-o1 und GPT-4.5 erzielen 89,3 % bzw. 86,1 %. Gemini-2.5-Pro-Experimental: 84,5 %.
  • GPQA Diamond (Graduate Reasoning): 79,6 % (83,3 % High-Compute)

    • GPQA bewertet die Qualität und Zuverlässigkeit in den Wissenschaften.
    • Grok 3: 84,6 %. Gemini-2.5-Pro: 84 %. o3: 83,3 %.
  • AIME (Mathematik): 75,5 % (90,0 % High-Compute)

    • AIME 2024 bewertet die Effizienz der Highschool-Mathematik.
    • Gemini-2.5-Pro: 92 %, GPT-o1: 79,2 %. Nvidia’s Nemotron Ultra: 80,1 %.

HumanEval (Codierung): Rekordhohe Behauptungen
* HumanEval ist ein von OpenAI entwickelter Datensatz zur Bewertung von Code-Generierungsfähigkeiten.
* Opus 3: 84,9 %.

  • TAU-bench: Einzelhandel 81,4 %

    • TAU-bench Retail bewertet KI-Agenten bei Aufgaben im Einzelhandel, wie z. B. Stornierung von Bestellungen, Adressänderungen und Überprüfung des Bestellstatus.
    • Claude Sonnet 3.7: 72,2 %. GPT-4.5: 70,4 %.
  • MMMU (Visuelles Reasoning): 76,5 %

    • Die MMMU-Bench-Bewertung wird in einer Zero-Shot-Umgebung durchgeführt, um die Fähigkeit von Modellen zu bewerten, genaue Antworten zu generieren, ohne Feinabstimmung oder Few-Shot-Demonstrationen auf dem Benchmark.
    • Gemini-2.5-Pro: 84 %. o3: 82,9 %.
  • Maximale kontinuierliche Aufgabe: Über 7 Stunden

Anwendungen

Opus 4 zeichnet sich durch fortgeschrittenes Software-Refactoring, Forschungssynthese und komplexe Aufgaben wie Finanzmodellierung oder Text-to-SQL-Konvertierung aus. Es kann mehrstufige, autonome Agenten und Langzeit-Workflows mit starkem Speicher unterstützen.

Sonnet 4: Leistung und Praktikabilität im Einklang

Claude 4 Sonnet bietet Leistung, Kosteneffizienz und Codierungsfähigkeit. Es ist für KI-Bereitstellungen im Unternehmensmaßstab konzipiert, bei denen Intelligenz und Erschwinglichkeit erforderlich sind.

Kernfähigkeiten und Erweiterungen

Sonnet 4 umfasst mehrere wichtige Vorteile:

  • Codierung: Sonnet 4 ist ideal für Agenten-Workflows, unterstützt bis zu 64.000 Ausgabetoken und wurde ausgewählt, um GitHub’s Copilot-Agent anzutreiben. Es hilft beim Software-Lebenszyklus: Planung, Behebung von Fehlern, Wartung und groß angelegtes Refactoring.
  • Reasoning & Befolgen von Anweisungen: Sonnet zeichnet sich durch menschenähnliche Interaktion, überlegene Werkzeugauswahl und Fehlerkorrektur aus und eignet sich gut für fortgeschrittene Chatbot- und KI-Assistenten-Rollen.
  • Computernutzung: Sonnet kann GUIs verwenden und mit digitalen Schnittstellen interagieren, tippen, klicken und Daten interpretieren.
  • Visuelle Datenextraktion: Extrahiert Daten aus komplexen visuellen Formaten wie Diagrammen und Grafiken mit Tabellenextraktionsfunktionen.
  • Inhaltserstellung & -analyse: Zeichnet sich durch differenziertes Schreiben und Inhaltsanalyse aus, was es zu einer soliden Wahl für redaktionelle und analytische Workflows macht.
  • Robotic Process Automation (RPA): Sonnet ist aufgrund der hohen Genauigkeit bei der Befolgung von Anweisungen effektiv in RPA-Anwendungsfällen.
  • Selbstkorrektur: Sonnet erkennt und behebt seine eigenen Fehler, wodurch die langfristige Zuverlässigkeit erhöht wird.

Benchmark-Leistungs-Highlights

Sonnet 4 hat die folgenden Ergebnisse erzielt:

  • SWE-bench Verified: 72,7 %

    • Opus 4: 73,2 %.
  • MMLU: 86,5 %

    • Opus 4: 88,8 %.
  • GPQA Diamond: 75,4 %

    • Opus 4: 79,5 %.
  • TAU-bench: Einzelhandel 80,5 %

    • Opus 4: 81,4 %.
  • MMMU: 74,4 %

    • Opus 4: 76,5 %.
  • AIME: 70,5 %

    • Opus 4: 75,5 %.
  • TerminalBench: 35,5 %

    • Opus 4: 43,2 %
  • Maximale kontinuierliche Aufgabe: ~4 Stunden, weniger als die über 7 Stunden für Opus.

  • Fehlerreduzierung: 65 % weniger Shortcut-Verhalten im Vergleich zu Sonnet 3.7

Anwendungen

Sonnet 4 eignet sich für den Betrieb von KI-Chatbots, Echtzeitforschung, RPA und skalierbaren Bereitstellungen. Seine Fähigkeit, Wissen aus Dokumenten zu extrahieren, visuelle Daten zu analysieren und die Entwicklung zu unterstützen, macht es zu einem fähigen Assistenten.

Architektonische Innovationen und gemeinsame Funktionen

Sowohl Opus 4 als auch Sonnet 4 verfügen über wichtige architektonische Fortschritte. Sie unterstützen ein 200K-Kontextfenster und verfügen über hybrides Reasoning. Sie verwenden externe Tools parallel zum internen Reasoning. Diese Aspekte verbessern die Echtzeitgenauigkeit bei Aufgaben wie Suche, Codeausführung und Dokumentenanalyse.

Die Modelle weisen auch weniger “Shortcut-Verhalten” auf als frühere Iterationen, was die Zuverlässigkeit erhöht. Die Transparenz wurde durch die Verfügbarkeit einer “Denkzusammenfassung” erweitert, die die Entscheidungsprozesse aufschlüsselt.

Reale Leistung und Unternehmensfeedback

Das Feedback zu Opus 4 war bei den Programmierern positiv. Benutzer berichten von langen Codierungssitzungen mit hoher Genauigkeit. Sie haben auch Fehlerbehebungen beim ersten Versuch sowie einen nahezu menschlichen Schreibfluss festgestellt.

Sonnet 4 hat Lob erhalten, insbesondere von Benutzern, die es mit Entwicklertools wie Cursor und Augment Code verbinden. Bedenken bleiben hinsichtlich des Dokumentenverständnisses und der Rate-Limit-Frustrationen.

Zu den wichtigsten Anwendern gehören GitHub, das Sonnet 4 als “in Agenten-Szenarien aufsteigend” bezeichnete. Replit lobte seine Präzision, und Rakuten und Block hoben Produktivitätssteigerungen hervor. Opus 4 ermöglichte ein vollständiges 7-Stunden-Refactoring einer Open-Source-Codebasis.

Whistleblowing-Kontroverse

Ein Beitrag auf X von Anthropic-Forscher Sam Bowman enthüllte, dass Opus Maßnahmen ergreifen könnte, z. B. Benutzer melden, wenn es sie für unmoralisch hält.

Dieses Verhalten stammt von Anthropic’s Constitutional AI-Framework. Während die Absicht darin besteht, Schäden zu reduzieren, argumentieren Kritiker, dass dieses Maß an Initiative, insbesondere in Verbindung mit Agentenfunktionen und Befehlszeilenzugriff, eine schiefe Ebene schafft.

Sicherheit und Emergent Capabilities

Opus 4 operiert unter AI Safety Level 3, seiner derzeit höchsten Stufe, und verweist auf Bedenken hinsichtlich des Wissens über sensible Themen. Red Teamer testeten Opus und fanden Verhaltensweisen und Fähigkeiten, die sich “qualitativ von allem unterschieden, was sie zuvor getestet hatten”.

Preisgestaltung und Wertversprechen

  • Opus 4: Mit einem Preis von 75 US-Dollar pro Million Ausgabetoken zielt es auf High-End-Anwendungen ab.

    • Dies ist die gleiche Preisgestaltung wie bei Opus 3.
    • OpenAI’s o3 wird mit 40 US-Dollar pro Million Ausgabetoken bewertet.
  • Sonnet 4: Mit einem Preis von 15 US-Dollar pro Million Ausgabetoken bietet es ein Gleichgewicht zwischen Leistung und Erschwinglichkeit.

    • OpenAI’s GPT-4o und Google’s Gemini-2.5-Pro werden mit 20 US-Dollar bzw. 15 US-Dollar pro Million Ausgabetoken bewertet. OpenAI’s Flaggschiffmodell 4.1 wird mit 8 US-Dollar pro Million Ausgabetoken bewertet.