De wereld van kunstmatige intelligentie heeft opnieuw een aanzienlijke sprong voorwaarts gemaakt met de onthulling van Opus 4 en Sonnet 4 door Anthropic, de nieuwste iteraties in hun vlaggenschip Claude-familie. Deze modellen, die iets meer dan een week geleden zijn uitgebracht, hebben snel de aandacht getrokken en nieuwe benchmarks gezet, met name op het cruciale gebied van codering. Naast hun codeervaardigheden tonen Opus 4 en Sonnet 4 robuuste mogelijkheden in redeneren en agent-functionaliteiten, waardoor ze worden gepositioneerd als cruciale vorderingen in het huidige AI-landschap.
Opus 4 is Anthropic’s meest geavanceerde creatie tot nu toe, geprezen door het bedrijf als zijn meest krachtige model en waarmee het zijn positie als het "beste coderingsmodel ter wereld" bevestigt. Als aanvulling op Opus 4 komt Sonnet 4 naar voren als een voordeliger alternatief, ontworpen om een optimaal evenwicht te vinden tussen superieure prestaties en praktische kosteneffectiviteit. Dit strategische dubbele aanbod is gericht op een breed spectrum van gebruikers, van degenen die piekprestaties eisen tot degenen die een meer budgetvriendelijke oplossing zoeken.
De verbeteringen die in Opus 4 en Sonnet 4 zijn geïntroduceerd, zijn opmerkelijk. Een primair hoogtepunt is hun verbeterde codeervaardigheid. Opus 4 heeft al leiderschap getoond in belangrijke benchmarks, waaronder SWE-bench en Terminal-bench, terwijl Sonnet vergelijkbare mogelijkheden vertoont. Deze sprong in codeerprestaties onderstreept het groeiende belang van AI in softwareontwikkeling.
Naast prestatieverbeteringen heeft Anthropic prioriteit gegeven aan veiligheid. Opus 4 bevat ASL-3, of AI Safety Level 3-beschermingen. Deze maatregel vloeit voort uit Anthropic’s ‘Responsible Scaling Policy’. Anthropic, opgericht door voormalige OpenAI-medewerkers die zich zorgen maken over de veiligheid, heeft consequent de nadruk gelegd op innovatie met robuuste veiligheidsoverwegingen.
De release van Opus 4 en Sonnet 4 heeft over het algemeen positieve feedback van ontwikkelaars en gebruikers opgeleverd. De verbeterde codeermogelijkheden zijn geprezen als een belangrijke stap in de richting van autonome, of agent-AI-systemen. De prijsstructuur, die eerdere generaties weerspiegelt door zowel een premium- als een kosteneffectieve optie te presenteren, is ook goed ontvangen.
De release van Opus 4 was niet zonder controverse. Een Anthropic-onderzoeker onthulde dat Opus contact kon opnemen met de autoriteiten als het het gedrag van een gebruiker ongepast achtte. Hoewel de onderzoeker later verduidelijkte dat dit bij normaal gebruik onmogelijk is, riep het zorgen op bij gebruikers over het niveau van onafhankelijkheid dat mogelijk in het model is ingebed.
Het veld van AI wordt gekenmerkt door frequente aankondigingen van baanbrekende modellen, die elk strijden om de titel van "beste ter wereld". Recente releases zijn onder meer Google’s Gemini-2.5-Pro, OpenAI’s GPT-4.5 en GPT-4.1, xAI’s Grok 3 en Alibaba’s Qwen 2.5 en QwQ-32B, die allemaal uitzonderlijke benchmarkprestaties beloven.
Gezien dit landschap van concurrerende claims, is het relevant om te onderzoeken of Claude 4 werkelijk oppermachtig is. Door in de capaciteiten, benchmarkprestaties, toepassingen en gebruikersfeedback te duiken, is het wellicht mogelijk om een antwoord op deze vraag te krijgen.
Opus 4: Een coderende krachtpatser
Opus 4 is Anthropic’s meest geavanceerde model, ontworpen voor complexe, langdurige taken. Het is geschikt voor autonome software engineering, onderzoek en agent-workflows, die allemaal premium tools vereisen. Opus 4 wordt gepositioneerd als het "beste coderingsmodel ter wereld".
Kernmogelijkheden en verbeteringen
Opus 4 bezit geavanceerde mogelijkheden. Opmerkelijk zijn de volgende:
- Geavanceerde codering: Opus 4 blinkt uit in het autonoom uitvoeren van "dagenlange engineeringtaken". Het model past zich aan specifieke ontwikkelstijlen aan met “verbeterde code taste” en ondersteunt tot 32.000 output tokens. Een achtergrond Claude Code-engine behandelt taken.
- Geavanceerd redeneren en complexe probleemoplossing: Met een hybride redeneersysteem dat schakelt tussen onmiddellijke reacties en diepgaand, uitgebreid denken, behoudt Opus 4 de focus gedurende langdurige sequenties.
- Agent-mogelijkheden: Opus 4 maakt geavanceerde AI-agents mogelijk en toont state-of-the-art (SOTA) prestaties. Het ondersteunt enterprise workflows en autonoom campagnebeheer.
- Creatief schrijven en contentcreatie: Opus 4 genereert genuanceerd proza op menselijk niveau met uitzonderlijke stilistische kwaliteit, waardoor het geschikt is voor geavanceerde creatieve taken.
- Geheugen en lange-context bewustzijn: Opus 4 creëert en gebruikt "geheugenbestanden", waardoor de samenhang over lange taken wordt verbeterd, zoals het schrijven van een gamegids tijdens het spelen van Pokémon.
- Agent-search & onderzoek: Opus 4 kan urenlang onderzoek doen en inzichten synthetiseren uit complexe data zoals patenten en academische papers.
Benchmark performance hoogtepunten
Opus 4 heeft superieure prestaties geleverd. Overweeg de volgende benchmarks:
SWE-bench Verified (Codering): 73,2%
- SWE-bench test de capaciteit van AI-systemen om GitHub-issues op te lossen.
- OpenAI’s o3: 69,1%. Google’s Gemini-2.5-Pro: 63,8%.
Terminal-bench (CLI-codering): 43,2% (50,0% high-compute)
- Terminal-bench meet de mogelijkheden van AI-agents in een terminalomgeving.
- Claude Sonnet 3.7: 35,2% en OpenAI’s GPT-4.1: 30,3%.
MMLU (Algemene kennis): 88,8%
- MMLU-Pro is ontworpen om het taalbegrip van modellen te evalueren over bredere en meer uitdagende taken.
- OpenAI’s GPT-o1 en GPT-4.5 scoren respectievelijk 89,3% en 86,1%. Gemini-2.5-Pro-Experimental: 84,5%.
GPQA Diamond (Graduate Reasoning): 79,6% (83,3% high-compute)
- GPQA evalueert de kwaliteit en betrouwbaarheid in de wetenschappen.
- Grok 3: 84,6%. Gemini-2.5-Pro: 84%. o3: 83,3%.
AIME (Wiskunde): 75,5% (90,0% high-compute)
- AIME 2024 evalueert de effectiviteit van wiskunde op de middelbare school.
- Gemini-2.5-Pro: 92%, GPT-o1: 79,2%. Nvidia’s Nemotron Ultra: 80,1%.
HumanEval (Codering): Record-hoog claims
* HumanEval is een dataset ontwikkeld door OpenAI om de code generatie mogelijkheden te evalueren.
* Opus 3: 84,9%.
TAU-bench: Retail 81,4%
- TAU-bench Retail evalueert AI-agents op taken in het retail-winkel domein, zoals het annuleren van bestellingen, adreswijzigingen en het controleren van de bestelstatus.
- Claude Sonnet 3.7: 72,2%. GPT-4.5: 70,4%.
MMMU (Visueel redeneren): 76,5%
- MMMU’s bench-evaluatie wordt uitgevoerd onder een zero-shot instelling om het vermogen van modellen te beoordelen om nauwkeurige antwoorden te genereren zonder fine-tuning of few-shot demonstraties op de benchmark.
- Gemini-2.5-Pro: 84%. o3: 82,9%.
Max Continuous Task: Meer dan 7 uur
Toepassingen
Opus 4 blinkt uit in geavanceerde software-refactoring, onderzoekssynthese en complexe taken zoals financiële modellering of tekst-naar-SQL-conversie. Het kan multi-step autonome agents en long-horizon workflows aansturen, met een sterk geheugen.
Sonnet 4: Evenwicht tussen prestaties en functionaliteit
Claude 4 Sonnet levert prestaties, kostenefficiëntie en codeermogelijkheden. Het is ontworpen voor enterprise-schaal AI-implementaties waar intelligentie en betaalbaarheid nodig zijn.
Kernmogelijkheden en verbeteringen
Sonnet 4 omvat verschillende belangrijke voordelen:
- Codering: Ideaal voor agent-workflows, Sonnet 4 ondersteunt tot 64.000 output tokens en is gekozen om GitHub’s Copilot-agent aan te sturen. Het helpt bij de software lifecycle: planning, het oplossen van bugs, onderhoud en grootschalige refactoring.
- Redeneren & instructievolging: Opmerkelijk vanwege de menselijk-achtige interactie, superieure toolselectie en foutcorrectie, is Sonnet zeer geschikt voor geavanceerde chatbot- en AI-assistentrollen.
- Computergebruik: Sonnet kan GUI’s gebruiken en communiceren met digitale interfaces, typen, klikken en data interpreteren.
- Visuele data-extractie: Extracteert data uit complexe visuele formaten zoals grafieken en diagrammen, met tabletextractie-mogelijkheden.
- Contentgeneratie & analyse: Blinkt uit in genuanceerd schrijven en contentanalyse, waardoor het een solide keuze is voor redactionele en analytische workflows.
- Robotic Process Automation (RPA): Sonnet is effectief in RPA-use cases vanwege de hoge nauwkeurigheid van instructievolging.
- Zelfcorrectie: Sonnet herkent en corrigeert zijn eigen fouten, waardoor de betrouwbaarheid op lange termijn wordt verbeterd.
Benchmark performance hoogtepunt
Sonnet 4 behaalde de volgende scores:
SWE-bench Verified: 72,7%
- Opus 4: 73,2%.
MMLU: 86,5%
- Opus 4: 88,8%.
GPQA Diamond: 75,4%
- Opus 4: 79,5%.
TAU-bench: Retail 80,5%
- Opus 4: 81,4%.
MMMU: 74,4%
- Opus 4: 76,5%.
AIME: 70,5%
- Opus 4: 75,5%.
TerminalBench: 35,5%
- Opus 4: 43,2%
Max Continuous Task: ~4 uur, minder dan de 7+ uur gemeld voor Opus.
Foutreductie: 65% minder shortcut behaviors vs. Sonnet 3.7
Toepassingen
Sonnet 4 is geschikt voor het aansturen van AI-chatbots, real-time research, RPA en schaalbare implementaties. Zijn vermogen om kennis uit documenten te extraheren, visuele data te analyseren en de ontwikkeling te ondersteunen, maakt het een competente assistent.
Architectonische innovaties en gemeenschappelijke kenmerken
Zowel Opus 4 als Sonnet 4 hebben belangrijke architectonische vorderingen. Ze ondersteunen een 200K context window en beschikken over hybride redenering. Ze gebruiken externe tools parallel aan interne redenering. Deze aspecten verbeteren de real-time nauwkeurigheid bij taken zoals search, code-uitvoering en documentanalyse.
De modellen vertonen ook minder "shortcut behaviors" dan eerdere iteraties, wat de betrouwbaarheid verbetert. De transparantie is vergroot door de beschikbaarheid van een "thinking summary" dat de besluitvormingsprocessen ontleedt.
Real-world performance en enterprise feedback
De feedback op Opus 4 is positief onder codeerders. Gebruikers melden lange codeersessies met hoge nauwkeurigheid. Ze hebben ook bugfixes bij de eerste poging opgemerkt, evenals een bijna menselijke schrijfstroom.
Sonnet 4 heeft lof verdiend, met name van gebruikers die het verbinden met developertools zoals Cursor en Augment Code. Er blijven zorgen bestaan over documentbegrip en rate-limit frustraties.
Belangrijke gebruikers zijn onder meer GitHub, die Sonnet 4 "soaring in agentic scenarios" noemde. Replit prees zijn precisie en Rakuten en Block benadrukten productiviteitswinsten. Opus 4 maakte een volledige 7-uur refactor van een open-source codebase mogelijk.
Whistleblowing Controversy
Een post op X van Anthropic-onderzoeker Sam Bowman onthulde dat Opus actie kon ondernemen, zoals het rapporteren van gebruikers als het hen immoreel acht.
Dit gedrag komt van Anthropic’s Constitutional AI framework. Hoewel de intentie schadebeperking is, beweren critici dat dit niveau van initiatief, vooral in combinatie met agent-mogelijkheden en command-line toegang, een hellend vlak creëert.
Veiligheid en Emergent Capabilities
Opus 4 werkt onder AI Safety Level 3, de hoogste huidige tier, onder vermelding van zorgen over de kennis van gevoelige onderwerpen. Red teamers testten Opus en vonden behaviors en mogelijkheden "kwalitatief anders dan alles wat ze eerder hadden getest."
Pricing en Value Proposition
Opus 4: Geprijsd op $75 per miljoen output tokens, richt het zich op high-end toepassingen.
- Dit is dezelfde prijs als Opus 3.
- OpenAI’s o3 is geprijsd op $40 per miljoen output tokens.
Sonnet 4: Geprijsd op $15 per miljoen output tokens, geeft het een balans tussen prestaties en betaalbaarheid.
- OpenAI’s GPT-4o en Google’s Gemini-2.5-Pro zijn geprijsd op respectievelijk $20 en $15 per miljoen output tokens. OpenAI’s vlaggenschip 4.1 model is geprijsd op $8 per miljoen output tokens.