Anthropic's Coup: Claude 3.7 Codeeragent

Claude 3.7 Sonnet: Een Nieuwe Benchmark in Codeervaardigheid

De recente release van Claude 3.7 Sonnet, slechts twee weken geleden, dient als overtuigend bewijs. Deze nieuwste iteratie heeft bestaande benchmarkrecords voor codeerprestaties verbroken. Tegelijkertijd onthulde Anthropic Claude Code, een command-line AI-agent die is ontworpen om applicatieontwikkeling voor programmeurs te versnellen. Als klap op de vuurpijl is Cursor, een AI-aangedreven code-editor die standaard het Claude-model van Anthropic gebruikt, naar verluidt binnen slechts 12 maanden omhooggeschoten naar een indrukwekkende $ 100 miljoen aan jaarlijks terugkerende inkomsten.

Anthropic’s bewuste nadruk op codering valt samen met de groeiende erkenning onder ondernemingen van het transformatieve potentieel van AI-codeeragenten. Deze agenten stellen zowel ervaren ontwikkelaars als personen zonder codeerervaring in staat om applicaties te maken met ongekende snelheid en efficiëntie. Zoals Guillermo Rauch, CEO van Vercel, een snelgroeiend bedrijf dat ontwikkelaars (inclusief niet-codeerders) in staat stelt front-end applicaties te implementeren, treffend zei: “Anthropic blijft aan de top.” Vercel’s beslissing vorig jaar om zijn primaire codeermodel over te schakelen van OpenAI’s GPT naar Anthropic’s Claude, na een grondige evaluatie van hun prestaties op cruciale coderingstaken, onderstreept dit punt.

Claude 3.7 Sonnet, gelanceerd op 24 februari, heeft aantoonbaar de leiding genomen in bijna alle codeerbenchmarks. Het behaalde een opmerkelijke 70,3% op de hoog aangeschreven SWE-bench benchmark, een maatstaf voor de softwareontwikkelingsmogelijkheden van een agent. Deze score overtreft aanzienlijk die van zijn naaste concurrenten, OpenAI’s o1 (48,9%) en DeepSeek-R1 (49,2%). Bovendien vertoont Claude 3.7 superieure prestaties bij agenttaken.

Deze benchmarkresultaten zijn snel gevalideerd door ontwikkelaarsgemeenschappen door middel van real-world tests. Online discussies, met name op platforms zoals Reddit, waarin Claude 3.7 wordt vergeleken met Grok 3 (het nieuwste model van Elon Musk’s xAI), geven consequent de voorkeur aan het model van Anthropic voor coderingstaken. Een topcommentator vatte het sentiment samen: “Op basis van wat ik heb getest, lijkt Claude 3.7 het beste te zijn voor het schrijven van code (althans voor mij).” Het is erg belangrijk om op te merken dat zelfs Manus, de nieuwe Chinese multifunctionele agent die eerder deze week de wereld stormenderhand veroverde, zei dat het beter was dan OpenAI’s Deep Research en andere autonome taken, grotendeels was gebouwd op Claude.

Strategische Focus: Anthropic’s Enterprise Strategie

Anthropic’s onwrikbare focus op codeermogelijkheden is verre van toevallig. Gelekte projecties gerapporteerd door The Information suggereren dat Anthropic streeft naar een duizelingwekkende $ 34,5 miljard aan inkomsten in 2027. Dit vertegenwoordigt een 86-voudige toename ten opzichte van de huidige niveaus. Een aanzienlijk deel (ongeveer 67%) van deze verwachte inkomsten zal naar verwachting voortkomen uit de API-business, waarbij enterprise-codeertoepassingen als de primaire groeimotor dienen. Hoewel Anthropic geen precieze omzetcijfers heeft bekendgemaakt, heeft het een opmerkelijke stijging van 1.000% in codeerinkomsten gerapporteerd in het laatste kwartaal van 2024. Naast dit financiële momentum kondigde Anthropic onlangs een financieringsronde van $ 3,5 miljard aan, waarmee het bedrijf wordt gewaardeerd op een indrukwekkende $ 61,5 miljard.

Deze op codering gerichte strategie sluit aan bij de bevindingen van Anthropic’s eigen Economic Index. De index onthulde dat een aanzienlijke 37,2% van de zoekopdrachten die naar Claude werden gestuurd, onder de categorie “computer en wiskunde” viel. Deze zoekopdrachten omvatten voornamelijk software engineering-taken zoals codemodificatie, foutopsporing en netwerkprobleemoplossing.

Anthropic’s aanpak valt op in het competitieve landschap, waar rivalen vaak verstrikt raken in een wervelwind van activiteiten, in een poging om zowel enterprise- als consumentenmarkten te bedienen met een breed scala aan functies. OpenAI, met behoud van een sterke voorsprong dankzij zijn vroege consumentenerkenning en -adoptie, staat voor de uitdaging om zowel reguliere gebruikers als bedrijven te bedienen met een breed scala aan modellen en functionaliteiten. Google streeft op dezelfde manier een strategie na om een breed productportfolio aan te bieden.

Anthropic’s relatief gedisciplineerde aanpak komt ook tot uiting in zijn productbeslissingen. In plaats van marktaandeel bij consumenten na te jagen, heeft het bedrijf prioriteit gegeven aan enterprise-grade functies zoals GitHub-integratie, audit logs, aanpasbare machtigingen en domeinspecifieke beveiligingscontroles. Zes maanden geleden introduceerde het een enorm contextvenster van 500.000 tokens voor ontwikkelaars, een schril contrast met de beslissing van Google om zijn venster van 1 miljoen tokens te beperken tot privé-testers. Deze strategische focus heeft geresulteerd in een uitgebreid, op codering gericht aanbod dat steeds meer weerklank vindt bij ondernemingen.

De recente introductie van functies waarmee niet-codeerders AI-gegenereerde applicaties binnen hun organisaties kunnen publiceren, in combinatie met de console-upgrade van vorige week met verbeterde samenwerkingsmogelijkheden (inclusief deelbare prompts en sjablonen), is een verdere illustratie van deze trend. Deze democratisering weerspiegelt een ‘Trojaans paard’-strategie: in eerste instantie ontwikkelaars in staat stellen robuuste fundamenten te bouwen, gevolgd door het uitbreiden van de toegang tot het bredere personeelsbestand van de onderneming, en uiteindelijk het bereiken van de directiekamer.

Hands-On met Claude: Een Praktisch Experiment

Om de real-world mogelijkheden van deze codeeragenten te beoordelen, werd een praktisch experiment uitgevoerd, gericht op het bouwen van een database om artikelen op te slaan. Er werden drie verschillende benaderingen gebruikt: Claude 3.7 Sonnet via de app van Anthropic, de codeeragent van Cursor en Claude Code.

Door Claude 3.7 rechtstreeks via de app van Anthropic te gebruiken, was de geboden begeleiding opmerkelijk inzichtelijk, vooral voor iemand zonder uitgebreide codeerervaring. Het model presenteerde verschillende opties, variërend van robuuste oplossingen met PostgreSQL-databases tot lichtere alternatieven zoals Airtable. Door te kiezen voor de lichtgewicht oplossing, begeleidde Claude methodisch het proces van het extraheren van artikelen uit een API en het integreren ervan in Airtable met behulp van een connectorservice. Hoewel het proces ongeveer twee uur duurde, voornamelijk als gevolg van authenticatie-uitdagingen, culmineerde het in een functioneel systeem. In wezen, in plaats van autonoom alle code te schrijven, bood Claude een uitgebreide blauwdruk voor het bereiken van het gewenste resultaat.

Cursor, met zijn standaard afhankelijkheid van Claude’s modellen, presenteerde een volwaardige code-editorervaring en vertoonde een grotere neiging tot automatisering. Het vereiste echter bij elke stap toestemming, wat resulteerde in een enigszins iteratieve workflow.

Claude Code bood een andere aanpak, die rechtstreeks in de terminal werkte en SQLite gebruikte om een lokale database te maken die was gevuld met artikelen uit een RSS-feed. Deze oplossing bleek eenvoudiger en betrouwbaarder te zijn om het einddoel te bereiken, zij het minder robuust en minder rijk aan functies in vergelijking met de Airtable-implementatie. Dit benadrukt de inherente afwegingen en onderstreept het belang van het selecteren van een codeeragent op basis van de specifieke projectvereisten.

De belangrijkste conclusie van dit experiment is dat het zelfs als niet-ontwikkelaar mogelijk was om functionele database-applicaties te bouwen met behulp van alle drie de benaderingen. Dit zou een jaar geleden vrijwel ondenkbaar zijn geweest. En, opmerkelijk, alle drie de benaderingen waren gebaseerd op de onderliggende mogelijkheden van Claude.

Het Codeeragent Ecosysteem: Cursor en Verder

Misschien wel de meest overtuigende indicator van het succes van Anthropic is de fenomenale groei van Cursor, een AI-code-editor. Rapporten geven aan dat Cursor binnen slechts 12 maanden 360.000 gebruikers heeft verzameld, waarvan meer dan 40.000 betalende klanten. Dit snelle groeitraject positioneert Cursor potentieel als het snelste SaaS-bedrijf dat die mijlpaal heeft bereikt.

Het succes van Cursor is intrinsiek verbonden met Claude. Zoals Sam Witteveen, mede-oprichter van Red Dragon (een onafhankelijke ontwikkelaar van AI-agenten), opmerkte: “Je moet denken dat hun nummer één klant Cursor is. De meeste mensen op [Cursor] gebruikten al het Claude Sonnet-model - de 3.5-modellen -. En nu lijkt het erop dat iedereen gewoon migreert naar 3.7.”

De relatie tussen Anthropic en zijn ecosysteem reikt verder dan individuele bedrijven zoals Cursor. In november introduceerde Anthropic zijn Model Context Protocol (MCP) als een open standaard, waardoor ontwikkelaars tools kunnen bouwen die naadloos interageren met Claude-modellen. Deze standaard heeft brede acceptatie gekregen binnen de ontwikkelaarsgemeenschap.

Witteveen legde de betekenis van deze aanpak uit: “Door dit als een open protocol te lanceren, zeggen ze in feite: ‘Hé, iedereen, ga je gang. Je kunt ontwikkelen wat je maar wilt dat past bij dit protocol. We gaan dit protocol ondersteunen.’”

Deze strategie creëert een positieve spiraal: ontwikkelaars bouwen tools specifiek voor Claude, waardoor de waardepropositie voor ondernemingen wordt verbeterd, wat op zijn beurt verdere adoptie stimuleert en meer ontwikkelaars aantrekt.

Het Competitieve Landschap: Microsoft, OpenAI, Google en Open Source

Terwijl Anthropic een niche heeft gecreëerd met zijn gerichte aanpak, streven concurrenten diverse strategieën na met wisselend succes.

Microsoft behoudt een sterke positie via zijn GitHub Copilot, met 1,3 miljoen betalende gebruikers en adoptie door meer dan 77.000 organisaties binnen ongeveer twee jaar. Prominente bedrijven zoals Honeywell, State Street, TD Bank Group en Levi’s behoren tot de gebruikers. Deze wijdverbreide adoptie wordt grotendeels toegeschreven aan de bestaande enterprise-relaties van Microsoft en zijn first-mover-voordeel, voortkomend uit zijn vroege investering in OpenAI en het gebruik van OpenAI’s modellen om Copilot aan te drijven.

Zelfs Microsoft heeft echter de sterke punten van Anthropic erkend. In oktober stelde het GitHub Copilot-gebruikers in staat om de modellen van Anthropic te selecteren als alternatief voor het aanbod van OpenAI. Bovendien hebben de recente modellen van OpenAI, o1 en de nieuwere o3 (die redeneren benadrukken door middel van uitgebreid denken), geen bijzondere voordelen aangetoond bij codering of agenttaken.

Google heeft zijn eigen zet gedaan door onlangs zijn Code Assist gratis aan te bieden, maar dit lijkt meer een defensieve manoeuvre te zijn dan een strategisch initiatief.

De open-source beweging vertegenwoordigt een andere belangrijke kracht in dit landschap. Meta’s Llama-modellen hebben aanzienlijke enterprise-tractie gekregen, met grote bedrijven zoals AT&T, DoorDash en Goldman Sachs die Llama-gebaseerde modellen inzetten voor verschillende toepassingen. De open-source benadering biedt ondernemingen meer controle, aanpassingsmogelijkheden en kostenvoordelen die gesloten modellen vaak niet kunnen evenaren.

In plaats van dit als een directe bedreiging te zien, lijkt Anthropic zichzelf te positioneren als complementair aan open source. Enterprise-klanten kunnen Claude gebruiken in combinatie met open-source modellen, afhankelijk van hun specifieke vereisten, en een hybride aanpak hanteren die de sterke punten van elk maximaliseert.

In feite hebben veel grootschalige enterprise-bedrijven een multimodale aanpak aangenomen, waarbij ze het model gebruiken dat het meest geschikt is voor een bepaalde taak. Intuit, bijvoorbeeld, vertrouwde aanvankelijk op OpenAI als standaard voor zijn belastingaangiftetoepassingen, maar stapte vervolgens over op Claude vanwege zijn superieure prestaties in bepaalde scenario’s. Deze ervaring leidde ertoe dat Intuit een AI-orkestratieframework ontwikkelde dat naadloos schakelen tussen modellen mogelijk maakte.

De meeste andere enterprise-bedrijven hebben sindsdien een vergelijkbare praktijk aangenomen, waarbij ze het meest geschikte model gebruiken voor elk specifiek gebruiksscenario, vaak door modellen te integreren via eenvoudige API-aanroepen. Hoewel een open-source model zoals Llama in sommige gevallen geschikt kan zijn, is Claude vaak de voorkeurskeuze voor taken die een hoge nauwkeurigheid vereisen, zoals berekeningen.

Enterprise Implicaties: Navigeren door de Verschuiving naar Codeeragenten

Voor enterprise-besluitvormers biedt dit snel evoluerende landschap zowel kansen als uitdagingen.

Beveiliging blijft een punt van groot belang, maar een recent onafhankelijk rapport identificeerde Claude 3.7 Sonnet als het meest veilige model tot nu toe, als het enige geteste model dat “jailbreak-proof” bleek te zijn. Deze beveiligingshouding, in combinatie met de steun van Anthropic van zowel Google als Amazon (en integratie in AWS Bedrock), positioneert het gunstig voor enterprise-adoptie.

De proliferatie van codeeragenten transformeert niet alleen hoe applicaties worden ontwikkeld; het democratiseert het proces. Volgens GitHub gebruikte een aanzienlijke 92% van de in de VS gevestigde ontwikkelaars bij enterprise-bedrijven 18 maanden geleden al AI-aangedreven codeertools op het werk. Dit cijfer is sindsdien waarschijnlijk aanzienlijk gestegen.

Witteveen benadrukte het overbruggen van de kloof tussen technische en niet-technische teamleden: “De uitdaging die mensen hebben [omdat ze] geen codeerder zijn, is echt dat ze veel van de terminologie niet kennen. Ze kennen de best practices niet.” AI-codeeragenten pakken deze uitdaging steeds meer aan, waardoor effectievere samenwerking mogelijk wordt.

Voor enterprise-adoptie pleit Witteveen voor een evenwichtige aanpak: “Het is op dit moment de balans tussen beveiliging en experimenteren. Het is duidelijk dat mensen aan de ontwikkelaarskant beginnen met het bouwen van real-world apps met dit spul.”

De opkomst van AI-codeeragenten betekent een fundamentele verschuiving in enterprise-softwareontwikkeling. Wanneer deze tools effectief worden ingezet, verdringen ze ontwikkelaars niet, maar transformeren ze hun rollen, waardoor ze zich kunnen concentreren op architectuur en innovatie in plaats van op implementatiedetails.

Anthropic’s gedisciplineerde aanpak, die zich specifiek richt op codeermogelijkheden terwijl concurrenten meerdere prioriteiten nastreven, lijkt aanzienlijke voordelen op te leveren. Tegen het einde van 2025 kan deze periode met terugwerkende kracht worden beschouwd als het cruciale moment waarop AI-codeeragenten onmisbare enterprise-tools werden, met Claude als koploper.

Voor technische besluitvormers is de noodzaak duidelijk: begin onmiddellijk met experimenteren met deze tools of loop het risico achterop te raken bij concurrenten die ze al gebruiken om ontwikkelingscycli drastisch te versnellen. Deze situatie weerspiegelt de begindagen van de iPhone-revolutie, waar bedrijven aanvankelijk probeerden “niet-goedgekeurde” apparaten uit hun bedrijfsnetwerken te weren, om uiteindelijk BYOD-beleid te omarmen toen de vraag van werknemers overweldigend werd. Sommige bedrijven, zoals Honeywell, hebben onlangs op dezelfde manier geprobeerd het “ongeoorloofde” gebruik van AI-codeertools die niet zijn goedgekeurd door IT, te stoppen.

Slimme bedrijven zijn al bezig met het opzetten van veilige sandbox-omgevingen om gecontroleerd experimenteren mogelijk te maken. Organisaties die duidelijke vangrails instellen en tegelijkertijd innovatie stimuleren, zullen de vruchten plukken van zowel het enthousiasme van werknemers als inzichten in hoe deze tools het beste kunnen voldoen aan hun unieke behoeften, en zichzelf positioneren voor concurrenten die zich verzetten tegen verandering. En Anthropic’s Claude is, althans voorlopig, een belangrijke begunstigde van deze transformatieve beweging.