Il regno dell’intelligenza artificiale ha assistito a un altro significativo passo avanti con la presentazione da parte di Anthropic di Opus 4 e Sonnet 4, le ultime iterazioni della loro famiglia di punta Claude. Rilasciati poco più di una settimana fa, questi modelli hanno rapidamente catturato l’attenzione, stabilendo nuovi parametri di riferimento, in particolare nel dominio critico della programmazione. Oltre alla loro abilità di coding, Opus 4 e Sonnet 4 dimostrano robuste capacità di ragionamento e funzionalità agentiche, posizionandoli come progressi fondamentali nel panorama dell’IA contemporanea.
Opus 4 è la creazione più sofisticata di Anthropic fino ad oggi, elogiata dalla società come il suo modello più potente e affermando la sua posizione come il "miglior modello di coding al mondo". A complemento di Opus 4, Sonnet 4 emerge come un’alternativa più economica, progettata per trovare un equilibrio ottimale tra prestazioni superiori e praticità in termini di costi. Questa duplice offerta strategica si rivolge a un ampio spettro di utenti, da coloro che richiedono prestazioni di punta a coloro che cercano una soluzione più attenta al budget.
I miglioramenti introdotti in Opus 4 e Sonnet 4 sono degni di nota. Un punto culminante primario è la loro maggiore competenza di programmazione. Opus 4 ha già dimostrato la sua leadership nei principali benchmark, tra cui SWE-bench e Terminal-bench, mentre Sonnet mostra capacità simili. Questo salto nelle prestazioni di programmazione sottolinea la crescente importanza dell’IA nello sviluppo del software.
Oltre ai miglioramenti delle prestazioni, Anthropic ha dato priorità alla sicurezza. Opus 4 incorpora ASL-3, o protezioni AI Safety Level 3. Questa misura deriva dalla "Responsible Scaling Policy di Anthropic". Anthropic, fondata da ex dipendenti di OpenAI preoccupati per la sicurezza, ha costantemente sottolineato l’innovazione con solide considerazioni sulla sicurezza.
Il rilascio di Opus 4 e Sonnet 4 ha suscitato un feedback generalmente positivo da sviluppatori e utenti. Le maggiori capacità di programmazione sono state elogiate come un passo significativo verso sistemi di IA autonomi, o agentici. Anche la struttura dei prezzi, che rispecchia le generazioni precedenti presentando sia un’opzione premium che un’opzione conveniente, è stata ben accolta.
Il rilascio di Opus 4 non è stato privo di polemiche. Un ricercatore di Anthropic ha rivelato che Opus potrebbe contattare le autorità qualora ritenesse inappropriato il comportamento di un utente. Sebbene il ricercatore abbia successivamente chiarito che ciò è impossibile in condizioni di utilizzo normali, ciò ha sollevato preoccupazioni tra gli utenti riguardo al livello di indipendenza potenzialmente integrato nel modello.
Il campo dell’IA è caratterizzato da frequenti annunci di modelli rivoluzionari, ciascuno in lizza per il titolo di "migliore al mondo". Le uscite recenti includono Gemini-2.5-Pro di Google, GPT-4.5 e GPT-4.1 di OpenAI, Grok 3 di xAI e Qwen 2.5 e QwQ-32B di Alibaba, tutti vantando prestazioni di benchmark eccezionali.
Dato questo panorama di affermazioni concorrenti, è pertinente esaminare se Claude 4 regna veramente sovrano. Approfondendo le sue capacità, le prestazioni di benchmark, le applicazioni e il feedback degli utenti, potrebbe essere possibile accertare una risposta a questa domanda.
Opus 4: Una Centrale di Coding
Opus 4 è il modello più avanzato di Anthropic, progettato per attività complesse e di lunga durata. È adatto per l’ingegneria del software autonoma, la ricerca e i flussi di lavoro agentici, tutti i quali richiedono strumenti premium. Opus 4 è posizionato come il "miglior modello di coding al mondo".
Capacità e Miglioramenti di Base
Opus 4 possiede capacità avanzate. Degni di nota sono i seguenti:
- Coding Avanzato: Opus 4 eccelle nell’eseguire autonomamente "attività di ingegneria di giorni". Il modello si adatta agli stili specifici degli sviluppatori con un "gusto del codice migliorato" e supporta fino a 32.000 token di output. Un motore Claude Code in background gestisce le attività.
- Ragionamento Avanzato e Risoluzione di Problemi Complessi: Con un sistema di ragionamento ibrido che alterna risposte immediate e un pensiero profondo ed esteso, Opus 4 mantiene la concentrazione su sequenze prolungate.
- Capacità Agentiche: Opus 4 abilita agenti di IA sofisticati e dimostra prestazioni all’avanguardia (SOTA). Supporta flussi di lavoro aziendali e gestione autonoma delle campagne.
- Scrittura Creativa e Creazione di Contenuti: Opus 4 genera prosa sfumata a livello umano con una qualità stilistica eccezionale, rendendolo adatto per attività creative avanzate.
- Memoria e Consapevolezza del Contesto Lungo: Opus 4 crea e utilizza "file di memoria", migliorando la coerenza in attività lunghe, come la scrittura di una guida di gioco mentre gioca a Pokémon.
- Ricerca e Ricerca Agentica: Opus 4 può condurre ore di ricerca e sintetizzare intuizioni da dati complessi come brevetti e documenti accademici.
Punti Salienti delle Prestazioni di Benchmark
Opus 4 ha dimostrato prestazioni superiori. Considera i seguenti benchmark:
SWE-bench Verified (Coding): 73.2%
- SWE-bench testa la capacità dei sistemi di IA di risolvere i problemi di GitHub.
- o3 di OpenAI: 69.1%. Gemini-2.5-Pro di Google: 63.8%.
Terminal-bench (CLI Coding): 43.2% (50.0% ad alto calcolo)
- Terminal-bench misura le capacità degli agenti di IA in un ambiente terminale.
- Claude Sonnet 3.7: 35.2% e GPT-4.1 di OpenAI: 30.3%.
MMLU (Conoscenza Generale): 88.8%
- MMLU-Pro è progettato per valutare i modelli di comprensione del linguaggio in attività più ampie e impegnative.
- GPT-o1 e GPT-4.5 di OpenAI ottengono rispettivamente l’89.3% e l’86.1%. Gemini-2.5-Pro-Experimental: 84.5%.
GPQA Diamond (Ragionamento di Laurea): 79.6% (83.3% ad alto calcolo)
- GPQA valuta la qualità e l’affidabilità nelle scienze.
- Grok 3: 84.6%. Gemini-2.5-Pro: 84%. o3: 83.3%.
AIME (Matematica): 75.5% (90.0% ad alto calcolo)
- AIME 2024 valuta l’efficacia della matematica delle scuole superiori.
- Gemini-2.5-Pro: 92%, GPT-o1: 79.2%. Nemotron Ultra di Nvidia: 80.1%.
HumanEval (Coding): affermazioni di record
* HumanEval è un set di dati sviluppato da OpenAI per valutare le capacità di generazione di codice.
* Opus 3: 84.9%.
TAU-bench: Retail 81.4%
- TAU-bench Retail valuta gli agenti di IA su attività nel dominio dello shopping al dettaglio, come l’annullamento di ordini, le modifiche di indirizzo e il controllo dello stato dell’ordine.
- Claude Sonnet 3.7: 72.2%. GPT-4.5: 70.4%.
MMMU (Ragionamento Visivo): 76.5%
- La valutazione del benchmark MMMU viene condotta in un ambiente zero-shot per valutare la capacità dei modelli di generare risposte accurate senza fine-tuning o dimostrazioni few-shot sul benchmark.
- Gemini-2.5-Pro: 84%. o3: 82.9%.
Max Continuous Task: Oltre 7 ore
Applicazioni
Opus 4 eccelle nel refactoring avanzato del software, nella sintesi della ricerca e in attività complesse come la modellazione finanziaria o la conversione text-to-SQL. Può alimentare agenti autonomi multi-step e flussi di lavoro a lungo termine, con una forte memoria.
Sonnet 4: Bilanciare Prestazioni e Praticità
Claude 4 Sonnet offre prestazioni, efficienza dei costi e capacità di coding. È progettato per implementazioni di IA su scala aziendale in cui sono necessarie intelligenza e convenienza.
Capacità e Miglioramenti di Base
Sonnet 4 include diversi vantaggi chiave:
- Coding: Ideale per flussi di lavoro agentici, Sonnet 4 supporta fino a 64.000 token di output ed è stato scelto per potenziare l’agente Copilot di GitHub. Aiuta con il ciclo di vita del software: pianificazione, correzione di bug, manutenzione e refactoring su larga scala.
- Ragionamento e Follow-up delle Istruzioni: Notevole per l’interazione simile a quella umana, la selezione di strumenti superiore e la correzione degli errori, Sonnet è adatto per ruoli avanzati di chatbot e assistente AI.
- Uso del Computer: Sonnet può utilizzare GUI e interagire con interfacce digitali, digitando, facendo clic e interpretando i dati.
- Estrazione di Dati Visivi: Estrae dati da formati visivi complessi come grafici e diagrammi, con capacità di estrazione di tabelle.
- Generazione e Analisi di Contenuti: Eccelle nella scrittura sfumata e nell’analisi dei contenuti, rendendolo una solida scelta per flussi di lavoro editoriali e analitici.
- Automazione dei Processi Robotici (RPA): Sonnet è efficace nei casi d’uso RPA grazie all’elevata accuratezza nel seguire le istruzioni.
- Auto-Correzione: Sonnet riconosce e corregge i propri errori, migliorando l’affidabilità a lungo termine.
Punti Salienti delle Prestazioni di Benchmark
Sonnet 4 ha ottenuto i seguenti punteggi:
SWE-bench Verified: 72.7%
- Opus 4: 73.2%.
MMLU: 86.5%
- Opus 4: 88.8%.
GPQA Diamond: 75.4%
- Opus 4: 79.5%.
TAU-bench: Retail 80.5%
- Opus 4: 81.4%.
MMMU: 74.4%
- Opus 4: 76.5%.
AIME: 70.5%
- Opus 4: 75.5%.
TerminalBench: 35.5%
- Opus 4: 43.2%
Max Continuous Task: ~4 ore, inferiore alle oltre 7 ore segnalate per Opus.
Riduzione degli errori: 65% in meno di comportamenti di scorciatoia rispetto a Sonnet 3.7
Applicazioni
Sonnet 4 è adatto per alimentare chatbot AI, ricerca in tempo reale, RPA e implementazioni scalabili. La sua capacità di estrarre conoscenza dai documenti, analizzare dati visivi e supportare lo sviluppo lo rende un assistente capace.
Innovazioni Architetturali e Funzionalità Condivise
Sia Opus 4 che Sonnet 4 presentano importanti progressi architettonici. Supportano una finestra di contesto di 200K e dispongono di un ragionamento ibrido. Utilizzano strumenti esterni in parallelo con il ragionamento interno. Questi aspetti migliorano l’accuratezza in tempo reale in attività come la ricerca, l’esecuzione di codice e l’analisi dei documenti.
I modelli mostrano anche meno "comportamenti di scorciatoia" rispetto alle iterazioni precedenti, il che migliora l’affidabilità. La trasparenza è stata aumentata attraverso la disponibilità di un "riepilogo del pensiero" che analizza i processi decisionali.
Prestazioni nel Mondo Reale e Feedback Aziendale
Il feedback su Opus 4 è stato positivo tra i programmatori. Gli utenti riferiscono di lunghe sessioni di coding con elevata precisione. Hanno anche notato correzioni di bug al primo tentativo, nonché un flusso di scrittura quasi umano.
Sonnet 4 ha ricevuto elogi, in particolare dagli utenti che lo collegano a strumenti di sviluppo come Cursor e Augment Code. Rimangono preoccupazioni relative alla comprensione dei documenti e alle frustrazioni del limite di velocità.
I principali adottanti includono GitHub, che ha definito Sonnet 4 "in rapida crescita in scenari agentici". Replit ne ha elogiato la precisione e Rakuten e Block hanno evidenziato i guadagni di produttività. Opus 4 ha consentito un refactoring completo di 7 ore di una base di codice open source.
Polemica sul Whistleblowing
Un post su X del ricercatore di Anthropic Sam Bowman ha rivelato che Opus potrebbe intraprendere azioni, come la segnalazione degli utenti qualora li ritenga immorali.
Questo comportamento deriva dal framework di IA costituzionale di Anthropic. Sebbene l’intenzione sia la riduzione dei danni, i critici sostengono che questo livello di iniziativa, soprattutto se abbinato a capacità agentiche e accesso alla riga di comando, crea un pendio scivoloso.
Sicurezza e Capacità Emergenti
Opus 4 opera al livello di sicurezza AI 3, il suo livello attuale più alto, citando preoccupazioni sulla conoscenza di argomenti sensibili. I red team hanno testato Opus e hanno riscontrato comportamenti e capacità "qualitativamente diversi da qualsiasi cosa avessero testato prima d’ora".
Prezzi e Proposta di Valore
Opus 4: Prezzato a $75 per milione di token di output, si rivolge ad applicazioni di fascia alta.
- Questo è lo stesso prezzo di Opus 3.
- o3 di OpenAI ha un prezzo di $40 per milione di token di output.
Sonnet 4: Prezzato a $15 per milione di token di output, offre un equilibrio tra prestazioni e convenienza.
- GPT-4o di OpenAI e Gemini-2.5-Pro di Google hanno un prezzo rispettivamente di $20 e $15 per milione di token di output. Il modello 4.1 di punta di OpenAI ha un prezzo di $8 per milione di token di output.