Claude 3.7: Agente di Codifica Top

Claude 3.7 Sonnet: Un Nuovo Punto di Riferimento nella Capacità di Codifica

Il recente rilascio di Claude 3.7 Sonnet, avvenuto appena due settimane fa, ne è una prova convincente. Quest’ultima versione ha infranto i record esistenti per le prestazioni di codifica. Contemporaneamente, Anthropic ha presentato Claude Code, un agente AI a riga di comando progettato per accelerare lo sviluppo di applicazioni per i programmatori. A questo slancio si aggiunge Cursor, un editor di codice basato sull’intelligenza artificiale che utilizza come predefinito il modello Claude di Anthropic, che, secondo quanto riferito, è salito a ben 100 milioni di dollari di entrate ricorrenti annuali in soli 12 mesi.

L’enfasi deliberata di Anthropic sulla codifica coincide con il crescente riconoscimento da parte delle imprese del potenziale trasformativo degli agenti di codifica AI. Questi agenti consentono sia agli sviluppatori esperti che alle persone senza competenze di codifica di creare applicazioni con una velocità ed efficienza senza precedenti. Come ha affermato Guillermo Rauch, CEO di Vercel, un’azienda in rapida espansione che consente agli sviluppatori (inclusi i non programmatori) di implementare applicazioni front-end, ‘Anthropic continua a primeggiare’. La decisione di Vercel, l’anno scorso, di passare il suo modello di codifica principale da GPT di OpenAI a Claude di Anthropic, a seguito di un’attenta valutazione delle loro prestazioni su attività di codifica cruciali, sottolinea questo punto.

Claude 3.7 Sonnet, lanciato il 24 febbraio, ha dimostrabilmente preso il comando in quasi tutti i benchmark di codifica. Ha ottenuto un notevole 70,3% sull’apprezzato benchmark SWE-bench, una misura delle capacità di sviluppo software di un agente. Questo punteggio supera significativamente quelli dei suoi concorrenti più vicini, o1 di OpenAI (48,9%) e DeepSeek-R1 (49,2%). Inoltre, Claude 3.7 mostra prestazioni superiori nelle attività agentiche.

Questi risultati di benchmark sono stati rapidamente convalidati dalle comunità di sviluppatori attraverso test nel mondo reale. Le discussioni online, in particolare su piattaforme come Reddit, che confrontano Claude 3.7 con Grok 3 (l’ultimo modello di xAI di Elon Musk), favoriscono costantemente il modello di Anthropic per le attività di codifica. Un commentatore di spicco ha riassunto il sentimento: ‘In base a quello che ho testato, Claude 3.7 sembra essere il migliore per scrivere codice (almeno per me)’. È molto importante sottolineare che anche Manus, il nuovo agente multiuso cinese che ha preso d’assalto il mondo all’inizio di questa settimana, ha affermato di essere migliore del Deep Research di Open AI e di altre attività autonome, è stato in gran parte costruito su Claude.

Focus Strategico: La Strategia Aziendale di Anthropic

L’attenzione costante di Anthropic sulle capacità di codifica è tutt’altro che casuale. Le proiezioni trapelate riportate da The Information suggeriscono che Anthropic punta a un’incredibile cifra di 34,5 miliardi di dollari di entrate entro il 2027. Ciò rappresenta un aumento di 86 volte rispetto ai suoi livelli attuali. Si prevede che una parte sostanziale (circa il 67%) di queste entrate previste derivi dal business delle API, con le applicazioni di codifica aziendale che fungono da motore di crescita principale. Sebbene Anthropic non abbia divulgato cifre precise sulle entrate, ha riportato un notevole aumento del 1.000% delle entrate di codifica durante l’ultimo trimestre del 2024. A questo slancio finanziario si aggiunge il recente annuncio di Anthropic di un round di finanziamento di 3,5 miliardi di dollari, che valuta l’azienda a ben 61,5 miliardi di dollari.

Questa strategia incentrata sulla codifica è in linea con i risultati dell’Economic Index di Anthropic. L’indice ha rivelato che un significativo 37,2% delle query indirizzate a Claude rientrava nella categoria ‘computer e matematica’. Queste query comprendevano principalmente attività di ingegneria del software come la modifica del codice, il debug e la risoluzione dei problemi di rete.

L’approccio di Anthropic si distingue nel panorama competitivo, dove i rivali sono spesso coinvolti in un vortice di attività, tentando di soddisfare sia i mercati aziendali che quelli dei consumatori con una vasta gamma di funzionalità. OpenAI, pur mantenendo un forte vantaggio grazie al suo precoce riconoscimento e adozione da parte dei consumatori, deve affrontare la sfida di servire sia gli utenti normali che le aziende con una vasta gamma di modelli e funzionalità. Google, analogamente, sta perseguendo una strategia di offerta di un portafoglio di prodotti di ampia portata.

L’approccio relativamente disciplinato di Anthropic si riflette anche nelle sue decisioni sui prodotti. Invece di inseguire la quota di mercato dei consumatori, l’azienda ha dato la priorità a funzionalità di livello aziendale come l’integrazione di GitHub, i registri di controllo, le autorizzazioni personalizzabili e i controlli di sicurezza specifici del dominio. Sei mesi prima, ha introdotto un’enorme finestra di contesto di 500.000 token per gli sviluppatori, in netto contrasto con la decisione di Google di limitare la sua finestra di 1 milione di token ai tester privati. Questo focus strategico ha portato a un’offerta completa e incentrata sulla codifica che sta riscuotendo sempre più successo presso le imprese.

La recente introduzione da parte dell’azienda di funzionalità che consentono ai non programmatori di pubblicare applicazioni generate dall’intelligenza artificiale all’interno delle loro organizzazioni, insieme all’aggiornamento della console della scorsa settimana con funzionalità di collaborazione migliorate (inclusi prompt e modelli condivisibili), esemplifica ulteriormente questa tendenza. Questa democratizzazione riflette una strategia ‘Cavallo di Troia’: inizialmente consentire agli sviluppatori di costruire solide fondamenta, seguita dall’espansione dell’accesso alla più ampia forza lavoro aziendale, raggiungendo infine la suite aziendale.

Esperienza Pratica con Claude: Un Esperimento Concreto

Per valutare le capacità reali di questi agenti di codifica, è stato condotto un esperimento pratico, incentrato sulla costruzione di un database per archiviare articoli. Sono stati impiegati tre approcci distinti: Claude 3.7 Sonnet tramite l’app di Anthropic, l’agente di codifica di Cursor e Claude Code.

Utilizzando Claude 3.7 direttamente tramite l’app di Anthropic, la guida fornita è stata notevolmente perspicace, in particolare per qualcuno senza una vasta esperienza di codifica. Il modello ha presentato diverse opzioni, che vanno da soluzioni robuste che impiegano database PostgreSQL ad alternative più leggere come Airtable. Optando per la soluzione leggera, Claude ha guidato metodicamente il processo di estrazione degli articoli da un’API e la loro integrazione in Airtable utilizzando un servizio di connettore. Sebbene il processo abbia richiesto circa due ore, principalmente a causa di problemi di autenticazione, è culminato in un sistema funzionale. Essenzialmente, invece di scrivere autonomamente tutto il codice, Claude ha fornito un progetto completo per raggiungere il risultato desiderato.

Cursor, con la sua dipendenza predefinita dai modelli di Claude, ha presentato un’esperienza di editor di codice a tutti gli effetti e ha mostrato una maggiore inclinazione all’automazione. Tuttavia, richiedeva l’autorizzazione in ogni fase, risultando in un flusso di lavoro in qualche modo iterativo.

Claude Code ha offerto un approccio diverso, operando direttamente all’interno del terminale e utilizzando SQLite per creare un database locale popolato con articoli da un feed RSS. Questa soluzione si è rivelata più semplice e affidabile nel raggiungere l’obiettivo finale, sebbene meno robusta e ricca di funzionalità rispetto all’implementazione di Airtable. Ciò evidenzia i compromessi intrinseci coinvolti e sottolinea l’importanza di selezionare un agente di codifica in base ai requisiti specifici del progetto.

La conclusione principale di questo esperimento è che anche come non sviluppatore, è stato possibile costruire applicazioni di database funzionali utilizzando tutti e tre gli approcci. Questo sarebbe stato praticamente inimmaginabile solo un anno fa. E, in particolare, tutti e tre gli approcci si basavano sulle capacità sottostanti di Claude.

L’Ecosistema degli Agenti di Codifica: Cursor e Oltre

Forse l’indicatore più convincente del successo di Anthropic è la crescita fenomenale di Cursor, un editor di codice AI. I rapporti indicano che Cursor ha accumulato 360.000 utenti, con oltre 40.000 di loro clienti paganti, in soli 12 mesi. Questa rapida traiettoria di crescita posiziona potenzialmente Cursor come l’azienda SaaS più veloce a raggiungere questo traguardo.

Il successo di Cursor è intrinsecamente legato a Claude. Come ha osservato Sam Witteveen, co-fondatore di Red Dragon (uno sviluppatore indipendente di agenti AI), ‘Devi pensare che il loro cliente numero uno sia Cursor. La maggior parte delle persone su [Cursor] utilizzava già il modello Claude Sonnet, i modelli 3.5. E ora sembra che tutti stiano migrando a 3.7’.

Il rapporto tra Anthropic e il suo ecosistema si estende oltre le singole aziende come Cursor. A novembre, Anthropic ha introdotto il suo Model Context Protocol (MCP) come standard aperto, consentendo agli sviluppatori di creare strumenti che interagiscono perfettamente con i modelli Claude. Questo standard ha ottenuto un’ampia adozione all’interno della comunità degli sviluppatori.

Witteveen ha spiegato il significato di questo approccio: ‘Lanciando questo come protocollo aperto, stanno in un certo senso dicendo: ‘Ehi, tutti, fatevi avanti. Potete sviluppare tutto ciò che volete che si adatti a questo protocollo. Supporteremo questo protocollo’’.

Questa strategia crea un circolo virtuoso: gli sviluppatori creano strumenti specifici per Claude, migliorando la sua proposta di valore per le imprese, che a sua volta guida un’ulteriore adozione e attrae più sviluppatori.

Il Panorama Competitivo: Microsoft, OpenAI, Google e Open Source

Mentre Anthropic si è ritagliata una nicchia con il suo approccio mirato, i concorrenti stanno perseguendo diverse strategie con vari gradi di successo.

Microsoft mantiene una solida posizione attraverso il suo GitHub Copilot, vantando 1,3 milioni di utenti paganti e l’adozione da parte di oltre 77.000 organizzazioni in circa due anni. Aziende di spicco come Honeywell, State Street, TD Bank Group e Levi’s sono tra i suoi utenti. Questa diffusa adozione è in gran parte attribuita alle relazioni aziendali esistenti di Microsoft e al suo vantaggio di first-mover, derivante dal suo primo investimento in OpenAI e dall’utilizzo dei modelli di OpenAI per alimentare Copilot.

Tuttavia, anche Microsoft ha riconosciuto i punti di forza di Anthropic. A ottobre, ha consentito agli utenti di GitHub Copilot di selezionare i modelli di Anthropic come alternativa alle offerte di OpenAI. Inoltre, i recenti modelli di OpenAI, o1 e il più recente o3 (che enfatizzano il ragionamento attraverso il pensiero esteso), non hanno dimostrato particolari vantaggi nella codifica o nelle attività agentiche.

Google ha fatto la sua mossa offrendo recentemente il suo Code Assist gratuitamente, ma questo sembra essere più una manovra difensiva piuttosto che un’iniziativa strategica.

Il movimento open source rappresenta un’altra forza significativa in questo panorama. I modelli Llama di Meta hanno raccolto una notevole trazione aziendale, con importanti aziende come AT&T, DoorDash e Goldman Sachs che implementano modelli basati su Llama per varie applicazioni. L’approccio open source offre alle imprese un maggiore controllo, opzioni di personalizzazione e vantaggi in termini di costi che i modelli chiusi spesso non possono eguagliare.

Invece di vederla come una minaccia diretta, Anthropic sembra posizionarsi come complementare all’open source. I clienti aziendali possono sfruttare Claude in combinazione con modelli open source a seconda delle loro esigenze specifiche, adottando un approccio ibrido che massimizza i punti di forza di ciascuno.

In effetti, molte aziende enterprise su larga scala hanno adottato un approccio multimodale, utilizzando il modello più adatto per un determinato compito. Intuit, ad esempio, inizialmente si è affidata a OpenAI come predefinito per le sue applicazioni di dichiarazione dei redditi, ma successivamente è passata a Claude a causa delle sue prestazioni superiori in determinati scenari. Questa esperienza ha portato Intuit a sviluppare un framework di orchestrazione AI che ha facilitato il passaggio senza soluzione di continuità tra i modelli.

La maggior parte delle altre aziende enterprise ha adottato da allora una pratica simile, impiegando il modello più appropriato per ogni caso d’uso specifico, spesso integrando i modelli tramite semplici chiamate API. Mentre un modello open source come Llama potrebbe essere adatto in alcuni casi, Claude è spesso la scelta preferita per le attività che richiedono un’elevata precisione, come i calcoli.

Implicazioni Aziendali: Navigare il Passaggio agli Agenti di Codifica

Per i decision maker aziendali, questo panorama in rapida evoluzione presenta sia opportunità che sfide.

La sicurezza rimane una preoccupazione fondamentale, ma un recente rapporto indipendente ha identificato Claude 3.7 Sonnet come il modello più sicuro fino ad oggi, essendo l’unico testato che si è dimostrato ‘a prova di jailbreak’. Questa posizione di sicurezza, combinata con il sostegno di Anthropic sia da parte di Google che di Amazon (e l’integrazione in AWS Bedrock), la posiziona favorevolmente per l’adozione aziendale.

La proliferazione degli agenti di codifica non sta solo trasformando il modo in cui vengono sviluppate le applicazioni; sta democratizzando il processo. Secondo GitHub, un sostanziale 92% degli sviluppatori statunitensi presso aziende enterprise utilizzava già strumenti di codifica basati sull’intelligenza artificiale al lavoro 18 mesi fa. Questa cifra è probabilmente aumentata in modo significativo da allora.

Witteveen ha evidenziato il superamento del divario tra i membri del team tecnici e non tecnici: ‘La sfida che le persone stanno affrontando [a causa del] non essere un programmatore è in realtà che non conoscono molta della terminologia. Non conoscono le best practice’. Gli agenti di codifica AI stanno affrontando sempre più questa sfida, consentendo una collaborazione più efficace.

Per l’adozione aziendale, Witteveen sostiene un approccio equilibrato: ‘È l’equilibrio tra sicurezza e sperimentazione al momento. Chiaramente, dal lato degli sviluppatori, le persone stanno iniziando a costruire app reali con queste cose’.

L’emergere degli agenti di codifica AI significa un cambiamento fondamentale nello sviluppo del software aziendale. Quando implementati in modo efficace, questi strumenti non sostituiscono gli sviluppatori, ma piuttosto trasformano i loro ruoli, consentendo loro di concentrarsi sull’architettura e sull’innovazione piuttosto che sui dettagli di implementazione.

L’approccio disciplinato di Anthropic, concentrandosi specificamente sulle capacità di codifica mentre i concorrenti perseguono molteplici priorità, sembra produrre vantaggi significativi. Entro la fine del 2025, questo periodo potrebbe essere visto retrospettivamente come il momento cruciale in cui gli agenti di codifica AI sono diventati strumenti aziendali indispensabili, con Claude a guidare la carica.

Per i decision maker tecnici, l’imperativo è chiaro: iniziare tempestivamente la sperimentazione con questi strumenti o rischiare di rimanere indietro rispetto ai concorrenti che li stanno già sfruttando per accelerare drasticamente i cicli di sviluppo. Questa situazione rispecchia i primi giorni della rivoluzione dell’iPhone, in cui le aziende inizialmente tentarono di limitare i dispositivi ‘non autorizzati’ dalle loro reti aziendali, solo per poi abbracciare le politiche BYOD quando la domanda dei dipendenti divenne schiacciante. Alcune aziende, come Honeywell, hanno recentemente tentato in modo simile di bloccare l’uso ‘canaglia’ di strumenti di codifica AI non approvati dall’IT.

Le aziende intelligenti stanno già creando ambienti sandbox sicuri per facilitare la sperimentazione controllata. Le organizzazioni che stabiliscono chiari guardrail promuovendo al contempo l’innovazione raccoglieranno i benefici sia dell’entusiasmo dei dipendenti che delle intuizioni su come questi strumenti possono servire al meglio le loro esigenze uniche, posizionandosi davanti ai concorrenti che resistono al cambiamento. E Claude di Anthropic, almeno per il momento, è uno dei principali beneficiari di questo movimento trasformativo.