Anthropic: Claude wird Coding-Agent

Claude 3.7 Sonnet: Ein neuer Maßstab in der Programmierleistung

Die kürzliche Veröffentlichung von Claude 3.7 Sonnet, vor nur zwei Wochen, liefert überzeugende Beweise. Diese neueste Iteration hat bestehende Benchmark-Rekorde für die Programmierleistung gebrochen. Gleichzeitig stellte Anthropic Claude Code vor, einen Kommandozeilen-KI-Agenten, der die Anwendungsentwicklung für Programmierer beschleunigen soll. Zusätzlich zu dieser Dynamik ist Cursor, ein KI-gestützter Code-Editor, der standardmäßig das Claude-Modell von Anthropic verwendet, Berichten zufolge innerhalb von nur 12 Monaten auf beeindruckende 100 Millionen US-Dollar an jährlich wiederkehrenden Einnahmen gestiegen.

Anthropic’s bewusste Betonung des Programmierens fällt mit der wachsenden Erkenntnis von Unternehmen zusammen, dass KI-Programmieragenten ein transformatives Potenzial haben. Diese Agenten ermöglichen es sowohl erfahrenen Entwicklern als auch Personen ohne Programmierkenntnisse, Anwendungen mit beispielloser Geschwindigkeit und Effizienz zu erstellen. Guillermo Rauch, CEO von Vercel, einem schnell wachsenden Unternehmen, das es Entwicklern (einschließlich Nicht-Programmierern) ermöglicht, Front-End-Anwendungen bereitzustellen, sagte treffend: “Anthropic ist weiterhin führend.” Die Entscheidung von Vercel im letzten Jahr, sein primäres Programmiermodell nach einer gründlichen Bewertung seiner Leistung bei wichtigen Programmieraufgaben von OpenAI’s GPT auf Anthropic’s Claude umzustellen, unterstreicht diesen Punkt.

Claude 3.7 Sonnet, das am 24. Februar auf den Markt kam, hat in fast allen Programmier-Benchmarks nachweislich die Führung übernommen. Es erreichte bemerkenswerte 70,3 % auf dem hoch angesehenen SWE-Bench-Benchmark, einem Maß für die Softwareentwicklungsfähigkeiten eines Agenten. Dieser Wert übertrifft deutlich die seiner engsten Konkurrenten, OpenAI’s o1 (48,9 %) und DeepSeek-R1 (49,2 %). Darüber hinaus zeigt Claude 3.7 eine überlegene Leistung bei agentischen Aufgaben.

Diese Benchmark-Ergebnisse wurden von Entwickler-Communities durch reale Tests schnell validiert. Online-Diskussionen, insbesondere auf Plattformen wie Reddit, in denen Claude 3.7 mit Grok 3 (dem neuesten Modell von Elon Musks xAI) verglichen wird, bevorzugen durchweg das Modell von Anthropic für Programmieraufgaben. Ein Top-Kommentator fasste die Stimmung zusammen: “Basierend auf dem, was ich getestet habe, scheint Claude 3.7 das Beste zum Schreiben von Code zu sein (zumindest für mich).” Es ist sehr wichtig anzumerken, dass selbst Manus, der neue chinesische Mehrzweckagent, der Anfang dieser Woche die Welt im Sturm eroberte und sagte, er sei besser als Open AI’s Deep Research und andere autonome Aufgaben, weitgehend auf Claude aufgebaut wurde.

Strategischer Fokus: Anthropic’s Unternehmensstrategie

Anthropic’s unerschütterlicher Fokus auf Programmierfähigkeiten ist alles andere als zufällig. Durchgesickerte Prognosen, die von The Information gemeldet wurden, deuten darauf hin, dass Anthropic bis 2027 einen Umsatz von satten 34,5 Milliarden US-Dollar anstrebt. Dies entspricht einer 86-fachen Steigerung gegenüber dem aktuellen Niveau. Ein erheblicher Teil (ca. 67 %) dieses prognostizierten Umsatzes wird voraussichtlich aus dem API-Geschäft stammen, wobei Unternehmensprogrammieranwendungen als primärer Wachstumsmotor dienen. Obwohl Anthropic keine genauen Umsatzzahlen bekannt gegeben hat, wurde im letzten Quartal 2024 ein bemerkenswerter Anstieg der Programmiereinnahmen um 1.000 % gemeldet. Zusätzlich zu dieser finanziellen Dynamik gab Anthropic kürzlich eine Finanzierungsrunde in Höhe von 3,5 Milliarden US-Dollar bekannt, die das Unternehmen mit beeindruckenden 61,5 Milliarden US-Dollar bewertet.

Diese auf das Programmieren ausgerichtete Strategie steht im Einklang mit den Ergebnissen des Anthropic’s eigenen Economic Index. Der Index ergab, dass beachtliche 37,2 % der an Claude gerichteten Anfragen in die Kategorie “Computer und Mathematik” fielen. Diese Anfragen umfassten hauptsächlich Softwareentwicklungsaufgaben wie Codeänderung, Debugging und Netzwerkfehlerbehebung.

Anthropic’s Ansatz hebt sich in der Wettbewerbslandschaft ab, in der Konkurrenten oft in einem Wirbelwind von Aktivitäten gefangen sind und versuchen, sowohl Unternehmens- als auch Verbrauchermärkte mit einer breiten Palette von Funktionen zu bedienen. OpenAI behält zwar aufgrund seiner frühen Bekanntheit und Akzeptanz bei den Verbrauchern eine starke Führungsposition, steht aber vor der Herausforderung, sowohl normale Benutzer als auch Unternehmen mit einer Vielzahl von Modellen und Funktionalitäten zu bedienen. Google verfolgt in ähnlicher Weise eine Strategie, die ein breit gefächertes Produktportfolio anbietet.

Anthropic’s vergleichsweise disziplinierter Ansatz spiegelt sich auch in seinen Produktentscheidungen wider. Anstatt Marktanteile bei den Verbrauchern zu jagen, hat das Unternehmen unternehmenstaugliche Funktionen wie GitHub-Integration, Audit-Logs, anpassbare Berechtigungen und domänenspezifische Sicherheitskontrollen priorisiert. Vor sechs Monaten wurde ein massives Kontextfenster mit 500.000 Token für Entwickler eingeführt, ein starker Kontrast zu Googles Entscheidung, sein Fenster mit 1 Million Token auf private Tester zu beschränken. Dieser strategische Fokus hat zu einem umfassenden, auf das Programmieren ausgerichteten Angebot geführt, das bei Unternehmen zunehmend Anklang findet.

Die kürzliche Einführung von Funktionen, die es Nicht-Programmierern ermöglichen, KI-generierte Anwendungen in ihren Unternehmen zu veröffentlichen, zusammen mit dem Konsolen-Upgrade der letzten Woche mit verbesserten Funktionen für die Zusammenarbeit (einschließlich teilbarer Prompts und Vorlagen), veranschaulicht diesen Trend weiter. Diese Demokratisierung spiegelt eine “Trojanisches Pferd”-Strategie wider: Zunächst werden Entwickler in die Lage versetzt, robuste Grundlagen zu schaffen, dann wird der Zugang auf die breitere Belegschaft des Unternehmens ausgeweitet und schließlich die Führungsebene erreicht.

Praktische Erfahrung mit Claude: Ein praktisches Experiment

Um die realen Fähigkeiten dieser Programmieragenten zu beurteilen, wurde ein praktisches Experiment durchgeführt, das sich auf den Aufbau einer Datenbank zum Speichern von Artikeln konzentrierte. Es wurden drei verschiedene Ansätze verwendet: Claude 3.7 Sonnet über die App von Anthropic, der Programmieragent von Cursor und Claude Code.

Bei der direkten Verwendung von Claude 3.7 über die App von Anthropic waren die bereitgestellten Anleitungen bemerkenswert aufschlussreich, insbesondere für jemanden ohne umfassende Programmiererfahrung. Das Modell präsentierte mehrere Optionen, die von robusten Lösungen mit PostgreSQL-Datenbanken bis hin zu leichteren Alternativen wie Airtable reichten. Bei der Entscheidung für die leichtgewichtigeLösung führte Claude methodisch durch den Prozess des Extrahierens von Artikeln aus einer API und deren Integration in Airtable mithilfe eines Connector-Dienstes. Obwohl der Prozess aufgrund von Authentifizierungsherausforderungen etwa zwei Stunden dauerte, führte er zu einem funktionsfähigen System. Anstatt den gesamten Code autonom zu schreiben, lieferte Claude im Wesentlichen einen umfassenden Plan, um das gewünschte Ergebnis zu erzielen.

Cursor, mit seiner standardmäßigen Abhängigkeit von Claude’s Modellen, bot eine vollwertige Code-Editor-Erfahrung und zeigte eine größere Neigung zur Automatisierung. Es erforderte jedoch bei jedem Schritt eine Genehmigung, was zu einem etwas iterativen Arbeitsablauf führte.

Claude Code bot einen anderen Ansatz, der direkt im Terminal ausgeführt wurde und SQLite verwendete, um eine lokale Datenbank zu erstellen, die mit Artikeln aus einem RSS-Feed gefüllt war. Diese Lösung erwies sich als einfacher und zuverlässiger, um das Endziel zu erreichen, wenn auch weniger robust und funktionsreich im Vergleich zur Airtable-Implementierung. Dies verdeutlicht die inhärenten Kompromisse und unterstreicht die Bedeutung der Auswahl eines Programmieragenten basierend auf den spezifischen Projektanforderungen.

Die wichtigste Erkenntnis aus diesem Experiment ist, dass es selbst als Nicht-Entwickler möglich war, funktionale Datenbankanwendungen mit allen drei Ansätzen zu erstellen. Dies wäre vor einem Jahr noch nahezu unvorstellbar gewesen. Und bemerkenswerterweise basierten alle drei Ansätze auf Claude’s zugrunde liegenden Fähigkeiten.

Das Ökosystem der Programmieragenten: Cursor und darüber hinaus

Der vielleicht überzeugendste Indikator für den Erfolg von Anthropic ist das phänomenale Wachstum von Cursor, einem KI-Code-Editor. Berichte deuten darauf hin, dass Cursor innerhalb von nur 12 Monaten 360.000 Benutzer gewonnen hat, von denen über 40.000 zahlende Kunden sind. Dieser schnelle Wachstumskurs positioniert Cursor potenziell als das am schnellsten wachsende SaaS-Unternehmen, das diesen Meilenstein erreicht hat.

Der Erfolg von Cursor ist untrennbar mit Claude verbunden. Sam Witteveen, Mitbegründer von Red Dragon (einem unabhängigen Entwickler von KI-Agenten), bemerkte: “Man muss bedenken, dass ihr wichtigster Kunde Cursor ist. Die meisten Leute auf [Cursor] haben bereits das Claude Sonnet-Modell – die 3.5-Modelle – verwendet. Und jetzt scheint es, dass alle einfach zu 3.7 migrieren.”

Die Beziehung zwischen Anthropic und seinem Ökosystem geht über einzelne Unternehmen wie Cursor hinaus. Im November stellte Anthropic sein Model Context Protocol (MCP) als offenen Standard vor, der es Entwicklern ermöglicht, Tools zu erstellen, die nahtlos mit Claude-Modellen interagieren. Dieser Standard hat in der Entwickler-Community breite Akzeptanz gefunden.

Witteveen erklärte die Bedeutung dieses Ansatzes: “Indem sie dies als offenes Protokoll einführen, sagen sie sozusagen: ‘Hey, Leute, macht mit. Ihr könnt alles entwickeln, was zu diesem Protokoll passt. Wir werden dieses Protokoll unterstützen.’”

Diese Strategie schafft einen positiven Kreislauf: Entwickler erstellen Tools speziell für Claude, was seinen Wert für Unternehmen steigert, was wiederum die Akzeptanz weiter vorantreibt und mehr Entwickler anzieht.

Die Wettbewerbslandschaft: Microsoft, OpenAI, Google und Open Source

Während Anthropic mit seinem fokussierten Ansatz eine Nische besetzt hat, verfolgen die Wettbewerber unterschiedliche Strategien mit unterschiedlichem Erfolg.

Microsoft behält durch sein GitHub Copilot eine starke Position, mit 1,3 Millionen zahlenden Benutzern und einer Akzeptanz bei über 77.000 Unternehmen innerhalb von etwa zwei Jahren. Namhafte Unternehmen wie Honeywell, State Street, TD Bank Group und Levi’s gehören zu seinen Nutzern. Diese breite Akzeptanz ist größtenteils auf Microsofts bestehende Unternehmensbeziehungen und seinen First-Mover-Vorteil zurückzuführen, der sich aus seiner frühen Investition in OpenAI und der Nutzung von OpenAI’s Modellen zur Stromversorgung von Copilot ergibt.

Doch selbst Microsoft hat die Stärken von Anthropic anerkannt. Im Oktober ermöglichte es GitHub Copilot-Benutzern, die Modelle von Anthropic als Alternative zu den Angeboten von OpenAI auszuwählen. Darüber hinaus haben die jüngsten Modelle von OpenAI, o1 und das neuere o3 (die das Denken durch erweitertes Denken betonen), keine besonderen Vorteile beim Programmieren oder bei agentischen Aufgaben gezeigt.

Google hat seinen eigenen Schritt gemacht, indem es kürzlich seinen Code Assist kostenlos anbietet, aber dies scheint eher ein defensives Manöver als eine strategische Initiative zu sein.

Die Open-Source-Bewegung stellt eine weitere wichtige Kraft in dieser Landschaft dar. Die Llama-Modelle von Meta haben in Unternehmen erhebliche Beachtung gefunden, wobei große Unternehmen wie AT&T, DoorDash und Goldman Sachs Llama-basierte Modelle für verschiedene Anwendungen einsetzen. Der Open-Source-Ansatz bietet Unternehmen mehr Kontrolle, Anpassungsmöglichkeiten und Kostenvorteile, die geschlossene Modelle oft nicht bieten können.

Anstatt dies als direkte Bedrohung zu betrachten, scheint sich Anthropic als Ergänzung zu Open Source zu positionieren. Unternehmenskunden können Claude in Verbindung mit Open-Source-Modellen verwenden, je nach ihren spezifischen Anforderungen, und einen hybriden Ansatz verfolgen, der die Stärken jedes einzelnen Modells maximiert.

Tatsächlich haben viele große Unternehmen einen multimodalen Ansatz gewählt und verwenden das Modell, das für eine bestimmte Aufgabe am besten geeignet ist. Intuit beispielsweise verließ sich zunächst auf OpenAI als Standard für seine Steuererklärungsanwendungen, wechselte dann aber zu Claude, da es in bestimmten Szenarien eine bessere Leistung erbrachte. Diese Erfahrung führte dazu, dass Intuit ein KI-Orchestrierungs-Framework entwickelte, das einen nahtlosen Wechsel zwischen den Modellen ermöglichte.

Die meisten anderen Unternehmen haben inzwischen eine ähnliche Praxis übernommen und verwenden für jeden spezifischen Anwendungsfall das am besten geeignete Modell, wobei die Modelle oft durch einfache API-Aufrufe integriert werden. Während ein Open-Source-Modell wie Llama in einigen Fällen geeignet sein mag, ist Claude oft die bevorzugte Wahl für Aufgaben, die eine hohe Genauigkeit erfordern, wie z. B. Berechnungen.

Auswirkungen auf Unternehmen: Navigieren im Wandel zu Programmieragenten

Für Entscheidungsträger in Unternehmen bietet diese sich schnell entwickelnde Landschaft sowohl Chancen als auch Herausforderungen.

Die Sicherheit bleibt ein vorrangiges Anliegen, aber ein kürzlich veröffentlichter unabhängiger Bericht identifizierte Claude 3.7 Sonnet als das bisher sicherste Modell, da es das einzige getestete Modell war, das sich als “jailbreak-sicher” erwies. Diese Sicherheitsposition, kombiniert mit der Unterstützung von Anthropic durch Google und Amazon (und der Integration in AWS Bedrock), positioniert es günstig für die Akzeptanz in Unternehmen.

Die Verbreitung von Programmieragenten verändert nicht nur die Art und Weise, wie Anwendungen entwickelt werden, sondern demokratisiert auch den Prozess. Laut GitHub nutzten bereits vor 18 Monaten beachtliche 92 % der in den USA ansässigen Entwickler in Unternehmen KI-gestützte Programmiertools am Arbeitsplatz. Diese Zahl dürfte seitdem deutlich gestiegen sein.

Witteveen hob die Überbrückung der Kluft zwischen technischen und nicht-technischen Teammitgliedern hervor: “Die Herausforderung, die die Leute haben, [weil sie] keine Programmierer sind, besteht darin, dass sie viele der Fachbegriffe nicht kennen. Sie kennen die Best Practices nicht.” KI-Programmieragenten begegnen dieser Herausforderung zunehmend und ermöglichen eine effektivere Zusammenarbeit.

Für die Akzeptanz in Unternehmen plädiert Witteveen für einen ausgewogenen Ansatz: “Es ist im Moment das Gleichgewicht zwischen Sicherheit und Experimentieren. Es ist klar, dass die Entwickler anfangen, mit diesen Dingen echte Anwendungen zu bauen.”

Das Aufkommen von KI-Programmieragenten bedeutet einen grundlegenden Wandel in der Softwareentwicklung von Unternehmen. Wenn diese Tools effektiv eingesetzt werden, ersetzen sie nicht die Entwickler, sondern verändern ihre Rollen und ermöglichen es ihnen, sich auf Architektur und Innovation zu konzentrieren, anstatt auf Implementierungsdetails.

Anthropic’s disziplinierter Ansatz, der sich speziell auf Programmierfähigkeiten konzentriert, während die Wettbewerber mehrere Prioritäten verfolgen, scheint erhebliche Vorteile zu bringen. Bis Ende 2025 könnte dieser Zeitraum rückblickend als der entscheidende Moment angesehen werden, in dem KI-Programmieragenten zu unverzichtbaren Werkzeugen für Unternehmen wurden, wobei Claude die Führung übernahm.

Für technische Entscheidungsträger ist der Imperativ klar: Beginnen Sie umgehend mit dem Experimentieren mit diesen Tools, oder riskieren Sie, hinter Wettbewerbern zurückzufallen, die sie bereits nutzen, um die Entwicklungszyklen drastisch zu beschleunigen. Diese Situation ähnelt den Anfängen der iPhone-Revolution, als Unternehmen zunächst versuchten, “nicht genehmigte” Geräte aus ihren Unternehmensnetzwerken zu verbannen, nur um schließlich BYOD-Richtlinien zu akzeptieren, als die Nachfrage der Mitarbeiter überwältigend wurde. Einige Unternehmen, wie Honeywell, haben kürzlich in ähnlicher Weise versucht, die “betrügerische” Nutzung von KI-Programmiertools, die nicht von der IT-Abteilung genehmigt wurden, zu unterbinden.

Kluge Unternehmen richten bereits sichere Sandbox-Umgebungen ein, um kontrolliertes Experimentieren zu ermöglichen. Unternehmen, die klare Leitplanken setzen und gleichzeitig Innovationen fördern, werden sowohl von der Begeisterung der Mitarbeiter als auch von den Erkenntnissen darüber profitieren, wie diese Tools ihren individuellen Bedürfnissen am besten dienen können, und sich so vor Wettbewerbern positionieren, die sich dem Wandel widersetzen. Und Anthropic’s Claude ist, zumindest im Moment, ein großer Nutznießer dieser transformativen Bewegung.