1. Nvidia
La ricerca di sistemi di intelligenza artificiale sempre più sofisticati continua a guidare investimenti sostanziali da parte degli sviluppatori di modelli linguistici di grandi dimensioni. Tuttavia, un’azienda sta già raccogliendo i frutti di questa rivoluzione dell’IA: Nvidia. Avendo acceso la corsa all’IA con le sue unità di elaborazione grafica (GPU) dominanti, Nvidia è ora perfettamente posizionata con il suo rivoluzionario processore e piattaforma Blackwell per supportare la ricerca dell’intelligenza a livello umano.
Blackwell supera il suo predecessore, l’H100, offrendo fino a 2,5 volte la potenza per le attività generali di addestramento del modello, consumando contemporaneamente molta meno energia. I principali operatori di data center e laboratori di IA, inclusi giganti del settore come Google, Meta, Microsoft, OpenAI, Tesla e xAI, si sono impegnati ad acquistare centinaia di migliaia di GPU Blackwell.
Mentre i recenti modelli di aziende cinesi come DeepSeek e Alibaba hanno dimostrato capacità impressionanti utilizzando GPU Nvidia meno potenti e più vecchie, Nvidia non si sta semplicemente riposando sugli allori. L’azienda sta sviluppando attivamente piattaforme per diverse applicazioni, che vanno dalla scoperta di farmaci (Clara for Biopharma) e veicoli autonomi (Drive AGX) alla produzione video (Holoscan) e ai gemelli digitali (Omniverse). Promuovendo il progresso dell’IA in un ampio spettro di scenari del mondo reale, Nvidia si sta posizionando strategicamente per una crescita sostenuta, anche se i modelli futuri mostreranno una minore dipendenza dalla pura potenza di calcolo.
2. OpenAI
Dal 2019, OpenAI ha costantemente migliorato i suoi modelli espandendo i dati di addestramento e le risorse di calcolo, una strategia che è stata ampiamente adottata in tutto il settore. Tuttavia, quando i rendimenti decrescenti di questo approccio di ridimensionamento sono diventati evidenti, OpenAI ha riconosciuto la necessità di un nuovo percorso per raggiungere l’AGI: modelli che superano l’intelligenza umana nella maggior parte dei compiti.
La soluzione di OpenAI è arrivata sotto forma del modello o1. Invece di concentrarsi esclusivamente sull’aumento delle risorse durante il pre-addestramento, OpenAI ha progettato o1 per allocare più tempo e potenza di calcolo durante l’inferenza, la fase in cui il modello è attivamente distribuito e risponde alle richieste degli utenti. Durante questo processo, o1 raccoglie e conserva informazioni contestuali, sia dall’utente che da fonti di dati pertinenti. Utilizza una metodologia di prova ed errore per determinare il percorso ottimale per una risposta. Il risultato è la generazione di risposte a livello di dottorato di ricerca a domande intricate, spingendo o1 in cima alle classifiche dei benchmark delle prestazioni.
OpenAI offre versioni ‘sperimentali’ e ‘mini’ di o1 agli abbonati ChatGPT Plus. Inoltre, un servizio premium chiamato ChatGPT Pro fornisce accesso illimitato al modello o1 completo per $ 200 al mese. Nel dicembre 2024, OpenAI ha presentato il successore di o1, o3, e nel febbraio 2025 ha concesso agli utenti paganti l’accesso a o3-mini, una variante più piccola e veloce ottimizzata per scienza, matematica e programmazione. L’impatto più profondo dei nuovi modelli di ragionamento di OpenAI è la convalida dell’aumento della potenza di calcolo in fase di inferenza come strada promettente per ottenere ulteriori progressi nell’intelligenza sulla strada verso l’AGI.
3. Google DeepMind
La ricerca fondamentale che ha aperto la strada ai chatbot di oggi ha avuto origine in Google alla fine degli anni 2010. Google aveva sviluppato un chatbot basato su un modello linguistico di grandi dimensioni ben prima dell’emergere di ChatGPT. Tuttavia, le preoccupazioni relative alla sicurezza, alla privacy e alle implicazioni legali avrebbero portato a un approccio cauto, ritardandone il rilascio pubblico. Questa esitazione ha portato Google a rimanere inizialmente indietro nella successiva corsa all’IA innescata dal lancio di ChatGPT.
Il rilascio di Gemini 2.0 di Google DeepMind nel 2024 ha segnato la definitiva rinascita di Google. Gemini 2.0 rappresenta il primo modello di IA per il mercato di massa intrinsecamente multimodale, in grado di elaborare e generare immagini, video, audio e codice informatico con la stessa fluidità del testo. Questa capacità consente al modello di analizzare e ragionare su clip video, o persino feed video in diretta dalla fotocamera di un telefono, con notevole velocità e precisione.
Gemini si distingue anche per la sua capacità di controllare altri servizi Google, come Maps e Search. Questa integrazione mostra il vantaggio strategico di Google, combinando la sua ricerca sull’IA con i suoi strumenti consolidati di informazione e produttività. Gemini è tra i primi modelli di IA che dimostrano un funzionamento autonomo e la capacità di ragionare su problemi complessi per conto dell’utente. Il modello Gemini 2.0 Flash Thinking Experimental fornisce persino agli utenti informazioni sul processo di pensiero impiegato per arrivare a una risposta. Inoltre, a dicembre, Google ha introdotto Project Mariner, una funzionalità di IA agentica basata su Gemini progettata per eseguire attività come la spesa online in modo autonomo.
4. Anthropic
Le principali applicazioni dell’IA generativa si sono finora concentrate sulla scrittura di testi, sulla sintesi e sulla generazione di immagini. Il prossimo passo evolutivo prevede di dotare i modelli linguistici di grandi dimensioni di capacità di ragionamento e della capacità di utilizzare strumenti. Il modello ‘Computer Use’ di Anthropic ha fornito una prima occhiata a questo futuro.
A partire da Claude 3.5 Sonnet nel 2024, il modello di Anthropic può percepire l’attività sullo schermo, inclusi i contenuti Internet. Può manipolare un cursore, fare clic sui pulsanti e inserire testo. Un video dimostrativo ha mostrato la capacità di Claude di completare un modulo utilizzando le informazioni disponibili sui siti Web aperti nelle schede del browser. Può svolgere attività come la creazione di un sito Web personale o l’organizzazione della logistica di una gita di un giorno. Le azioni autonome dell’IA, come l’apertura di nuove schede, l’esecuzione di ricerche e la compilazione di campi dati, sono davvero notevoli.
Sebbene il modello funzioni attualmente a un ritmo più lento e potrebbe non produrre sempre la risposta corretta, si prevedono rapidi miglioramenti man mano che Anthropic identifica e risolve i suoi limiti. Il già citato Project Mariner di Google ha seguito l’esempio di Anthropic a dicembre e OpenAI ha introdotto il proprio modello di utilizzo del computer, Operator, nel gennaio 2025. Nel febbraio 2025, Anthropic ha presentato la sua prossima iterazione principale, Claude 3.7 Sonnet, un modello più grande in grado di attivare automaticamente la modalità di ragionamento per query impegnative.
5. Microsoft
Lo sviluppo dei modelli Phi di Microsoft è nato da una domanda fondamentale posta dai ricercatori dell’azienda nel 2023: “Qual è la dimensione minima del modello che può mostrare segni di intelligenza emergente?”. Questa indagine ha segnato un momento cruciale nell’evoluzione dei “modelli linguistici di piccole dimensioni”, modelli progettati per prestazioni ottimali in scenari con memoria, potenza di elaborazione o connettività limitate, dove sono cruciali tempi di risposta rapidi.
Nel corso del 2024, Microsoft ha rilasciato due generazioni di modelli piccoli che mostravano capacità di ragionamento e logica non esplicitamente incorporate durante l’addestramento. Ad aprile, l’azienda ha presentato una serie di modelli Phi-3 che eccellevano nei benchmark di linguaggio, ragionamento, codifica e matematica, probabilmente grazie al loro addestramento su dati sintetici generati da LLM significativamente più grandi e capaci. Varianti del Phi-3 open source sono state scaricate oltre 4,5 milioni di volte su Hugging Face nel 2024.
Alla fine del 2024, Microsoft ha lanciato i suoi modelli linguistici di piccole dimensioni Phi-4, che hanno superato i modelli Phi-3 in attività incentrate sul ragionamento e hanno persino superato GPT-4o di OpenAI nei benchmark GPQA (domande scientifiche) e MATH. Microsoft ha rilasciato il modello con una licenza open source e open-weight, consentendo agli sviluppatori di creare modelli edge o applicazioni per telefoni o laptop. In meno di un mese, Phi-4 ha raccolto 375.000 download su Hugging Face.
6. Amazon
Amazon AWS ha recentemente introdotto Trainium2, una nuova versione del suo processore Trainium per l’IA, che potrebbe potenzialmente sfidare il dominio delle GPU Nvidia in contesti specifici. Trainium2 è progettato per fornire l’enorme potenza di calcolo necessaria per addestrare i più grandi modelli di IA generativa e per le operazioni in fase di inferenza dopo la distribuzione del modello. AWS afferma che Trainium è dal 30% al 40% più conveniente rispetto alle GPU per attività comparabili.
Trainium2 affronta le carenze di potenza e integrazione software osservate nel primo chip Trainium, posizionando Amazon per colmare potenzialmente il divario con Nvidia. (Vale la pena notare che AWS stessa rimane fortemente dipendente da Nvidia per le GPU.) Spostare Nvidia è una sfida formidabile a causa del lock-in del cliente con il livello software CUDA di Nvidia, che fornisce ai ricercatori un controllo granulare su come i loro modelli utilizzano le risorse del chip. Amazon offre il proprio livello software di controllo del kernel, Neuron Kernel Interface (NKI), che, analogamente a CUDA, garantisce ai ricercatori un controllo preciso sulle interazioni del kernel del chip.
È importante notare che Trainium2 deve ancora essere testato su larga scala. AWS sta attualmente costruendo un cluster di server con 400.000 chip Trainium2 per Anthropic, che potrebbe fornire preziose informazioni sull’ottimizzazione delle prestazioni dei suoi chip AI in implementazioni su larga scala.
7. Arm
Il progettista britannico di semiconduttori Arm è stato a lungo un fornitore chiave dell’architettura utilizzata nei chip che alimentano piccoli dispositivi come telefoni, sensori e hardware IoT. Questo ruolo assume un’importanza maggiore nell’era emergente in cui i chip dei dispositivi edge eseguiranno modelli di IA. Anche i data center svolgeranno un ruolo cruciale in questa evoluzione, spesso gestendo parte o tutta l’elaborazione AI più impegnativa e fornendo risultati ai dispositivi edge.
Man mano che i data center proliferano a livello globale, il loro consumo di energia elettrica diventerà una preoccupazione sempre più pressante. Questo fattore contribuisce all’enfasi sull’efficienza nell’ultima architettura CPU Neoverse di Arm. Vanta un miglioramento delle prestazioni del 50% rispetto alle generazioni precedenti e prestazioni per watt migliori del 20% rispetto ai processori che utilizzano architetture x86 concorrenti, secondo l’azienda.
Arm riferisce che Amazon, Microsoft, Google e Oracle hanno tutti adottato Arm Neoverse sia per il calcolo generico che per l’inferenza e l’addestramento AI basati su CPU. Ad esempio, nel 2024, Microsoft ha annunciato che il suo primo silicio personalizzato progettato per il cloud, il processore Cobalt 100, era basato su Arm Neoverse. Alcuni dei più grandi data center AI si affideranno al Grace Hopper Superchip di NVIDIA, che combina una GPU Hopper e una CPU Grace basata su Neoverse. Arm è pronta a lanciare la propria CPU quest’anno, con Meta come uno dei suoi clienti iniziali.
8. Gretel
Nell’ultimo anno, le aziende di IA hanno registrato rendimenti decrescenti dall’addestramento dei loro modelli con volumi sempre crescenti di dati raccolti dal web. Di conseguenza, hanno spostato la loro attenzione dalla pura quantità di dati di addestramento alla sua qualità. Ciò ha portato a un aumento degli investimenti in contenuti non pubblici e specializzati concessi in licenza da partner editoriali. I ricercatori di IA devono anche affrontare lacune o punti ciechi all’interno dei loro dati di addestramento generati dall’uomo o annotati dall’uomo. A tal fine, si sono sempre più rivolti a dati di addestramento sintetici generati da modelli di IA specializzati.
Gretel ha guadagnato importanza nel 2024 specializzandosi nella creazione e cura di dati di addestramento sintetici. L’azienda ha annunciato la disponibilità generale del suo prodotto di punta, Gretel Navigator, che consente agli sviluppatori di utilizzare prompt in linguaggio naturale o SQL per generare, aumentare, modificare e curare set di dati di addestramento sintetici per la messa a punto e il test. La piattaforma ha già attratto una comunità di oltre 150.000 sviluppatori che hanno sintetizzato più di 350 miliardi di dati di addestramento.
Altri attori del settore hanno notato le capacità di Gretel. Gretel ha collaborato con Google per rendere i suoi dati di addestramento sintetici prontamente accessibili ai clienti di Google Cloud. Una partnership simile con Databricks è stata annunciata a giugno, garantendo ai clienti aziendali di Databricks l’accesso a dati di addestramento sintetici per i loro modelli in esecuzione nel cloud Databricks.
9. Mistral AI
Mistral AI, il contendente francese nell’arena dell’IA generativa, ha costantemente esercitato pressione su OpenAI, Anthropic e Google in prima linea nello sviluppo di modelli di IA di frontiera. Mistral AI ha rilasciato una serie di nuovi modelli che incorporano significativi progressi tecnologici nel 2024, dimostrando una rapida crescita aziendale sia attraverso il marketing diretto delle sue API che attraverso partnership strategiche.
All’inizio dell’anno, l’azienda ha introdotto un paio di modelli open source chiamati Mixtral, notevoli per il loro uso innovativo dell’architettura “mixture of experts”, in cui solo un sottoinsieme specializzato dei parametri del modello viene utilizzato per gestire una query, migliorando l’efficienza. Nel luglio 2024, Mistral ha annunciato Mistral Large 2, che, con 123 miliardi di parametri, ha mostrato miglioramenti significativi nella generazione di codice, matematica, ragionamento e chiamata di funzioni. L’azienda francese ha anche rilasciato Ministral 3B e Ministral 8B, modelli più piccoli progettati per l’esecuzione su laptop o telefoni, in grado di memorizzare circa 50 pagine di testo di informazioni contestuali fornite dall’utente.
Mistral ha avuto successo in Europa posizionandosi come un’alternativa a basso costo e flessibile alle aziende statunitensi di IA come OpenAI. Ha anche continuato la sua espansione nel mercato aziendale statunitense nel 2024. A giugno, la società ha ottenuto un round di finanziamento di 640 milioni di dollari, guidato dalla società di venture capital General Catalyst, portando la valutazione di Mistral a circa 6,2 miliardi di dollari.
10. Fireworks AI
Fireworks offre un ambiente di runtime personalizzato che semplifica il lavoro di ingegneria spesso complesso associato alla costruzionedi infrastrutture per le distribuzioni di IA. Utilizzando la piattaforma Fireworks, le aziende possono integrare uno qualsiasi degli oltre 100 modelli di IA e quindi personalizzarli e ottimizzarli per i loro casi d’uso specifici.
L’azienda ha introdotto nuovi prodotti nel 2024 che la posizioneranno per capitalizzare le tendenze chiave nel settore dell’IA. In primo luogo, gli sviluppatori sono diventati sempre più concentrati sulla reattività dei modelli e delle applicazioni basati sull’IA. Fireworks ha lanciato FireAttention V2, un software di ottimizzazione e quantizzazione che accelera le prestazioni del modello e riduce la latenza di rete. In secondo luogo, i sistemi di IA si stanno evolvendo sempre più in “pipeline” che richiamano vari modelli e strumenti tramite API. Il nuovo software FireFunction V2 funge da orchestratore per tutti i componenti all’interno di questi sistemi sempre più complessi, in particolare quando le aziende distribuiscono applicazioni di IA più autonome.
Fireworks riporta un aumento del 600% della crescita dei ricavi nel 2024. La sua base di clienti comprende aziende di spicco come Verizon, DoorDash, Uber, Quora e Upwork.
11. Snorkel AI
Le aziende hanno capito che l’efficacia dei loro sistemi di IA è direttamente legata alla qualità dei loro dati. Snorkel AI ha costruito un’attività fiorente assistendo le aziende nella preparazione dei loro dati proprietari per l’utilizzo nei modelli di IA. La piattaforma di sviluppo dati AI Snorkel Flow dell’azienda fornisce un metodo conveniente per le aziende per etichettare e curare i propri dati proprietari, consentendone l’utilizzo nella personalizzazione e nella valutazione dei modelli di IA per le loro specifiche esigenze aziendali.
Nel 2024, Snorkel ha ampliato il suo supporto per includere immagini, consentendo alle aziende di addestrare modelli di IA multimodali e generatori di immagini utilizzando le proprie immagini proprietarie. Ha anche incorporato la retrieval augmented generation (RAG) nella sua piattaforma, consentendo ai clienti di recuperare solo i segmenti di informazioni più rilevanti da documenti lunghi, come il contenuto della knowledge base proprietaria, per l’utilizzo nell’addestramento dell’IA. Snorkel Custom, un nuovo livello di servizio più pratico, prevede che gli esperti di machine learning di Snorkel collaborino direttamente con i clienti sui progetti.
Snorkel afferma che le sue prenotazioni annuali su base annua sono raddoppiate nel 2024, con una crescita a tre cifre delle prenotazioni annuali per ciascuno degli ultimi tre anni. Sei delle più grandi banche ora utilizzano Snorkel Flow, secondo l’azienda, insieme a marchi come Chubb, Wayfair ed Experian.
12. CalypsoAI
Poiché l’IA svolge un ruolo sempre più cruciale nei processi decisionali critici, le aziende cercano una maggiore visibilità sul funzionamento interno dei modelli. Questa esigenza è particolarmente pronunciata nei settori regolamentati che devono monitorare continuamente la presenza di bias e altri output non intenzionali. CalypsoAI è stata tra le prime a riconoscere questo requisito emergente e ha risposto rapidamente con funzionalità di spiegabilità migliorate nella sua piattaforma di infrastruttura AI.
Ciò che distingue Calypso è l’ampiezza della sua tecnologia di osservabilità. Nel 2024, l’azienda ha lanciato la sua piattaforma di sicurezza AI, che protegge i dati aziendali proteggendo, controllando e monitorando tutti i modelli di IA generativa attivi che un’azienda potrebbe utilizzare, indipendentemente dal fornitore del modello o dal fatto che il modello sia ospitato internamente o esternamente. Calypso ha anche introdotto nuovi strumenti di visualizzazione che consentono agli utenti di osservare la logica alla base delle decisioni AI in tempo reale.
Il mercato sta rispondendo positivamente all’enfasi di Calypso sull’osservabilità dell’IA. L’azienda segnala un aumento di dieci volte dei ricavi nel 2024 e prevede un ulteriore aumento di cinque volte nel 2025.
13. Galileo
Sebbene i sistemi di IA mostrino meno casi di allucinazioni fattuali e bias rispetto a un anno fa, rimangono suscettibili a questi problemi. Ciò rappresenta una preoccupazione significativa per qualsiasi azienda che utilizzi l’IA, in particolare quelle in settori regolamentati come la sanità e le banche. I team di sviluppo dell’IA utilizzano la piattaforma AI di Galileo per misurare, ottimizzare e monitorare l’accuratezza dei loro modelli e applicazioni.
All’inizio del 2024, dopo due anni di ricerca, Galileo ha rilasciato Luna, una suite di modelli di valutazione addestrati per identificare output dannosi. Questi modelli consentono alla piattaforma di Galileo di esaminare e valutare rapidamente il lavoro di un LLM mentre assembla i token che costituiscono la sua risposta. Questo processo richiede circa 200 millisecondi, consentendo un tempo sufficiente per segnalare e impedire che l’output dell’IA venga visualizzato a un utente. Sebbene un LLM standard possa eseguire questo compito, sarebbe considerevolmente più costoso. I modelli appositamente costruiti di Galileo offrono accuratezza, convenienza e, soprattutto, velocità superiori.
Galileo segnala un quadruplicamento della sua base di clienti nel 2024, con clienti tra cui Twilio, Reddit, Chegg, Comcast e JPMorgan Chase. La startup ha anche ottenuto un round di finanziamento di 68 milioni di dollari da investitori come il CEO di Hugging Face Clément Delangue.
14. Runway
Una delle aspirazioni – e ansie – più significative che circondano l’IA è il suo potenziale per generare video di qualità sufficiente per rivoluzionare l’arte e l’economia del cinema. La tecnologia ha fatto passi da gigante verso questo futuro nel 2024, con Runway, una startup di generazione video con sede a New York, che ha svolto un ruolo di primo piano. Il rilascio del modello Gen-3 Alpha di Runway nel giugno 2024 ha raccolto ampi consensi all’interno della comunità AI per la credibilità significativamente migliorata del video generato.
Runway ha anche implementato importanti miglioramenti ai suoi strumenti per il controllo dell’estetica del video AI. Il modello è stato addestrato sia su immagini che su video e può generare video basati su input di testo o immagini. La società ha successivamente rilasciato Gen-3 Alpha Turbo, una versione più conveniente e veloce di Gen-3.
Hollywood ha seguito da vicino i progressi dell’IA generativa e Runway riferisce di aver iniziato a produrre versioni personalizzate dei suoi modelli per i player del settore dell’intrattenimento. Ha stretto una partnership formale con Lionsgate Studios nel settembre 2024. Runway ha sviluppato un modello personalizzato per la società di produzione e lo ha addestrato sul catalogo di film di Lionsgate. Runway afferma che il modello ha lo scopo di aiutare i registi, i direttori e altri creativi di Lionsgate ad “aumentare” il loro lavoro “risparmiando tempo, denaro e risorse”. Runway ritiene che il suo accordo con Lionsgate potrebbe servire da modello per collaborazioni simili con altre società di produzione.
15. Cerebras Systems
I sistemi di IA, in particolare i grandi modelli di frontiera, richiedono un’enorme potenza di calcolo per funzionare su larga scala. Ciò richiede l’interconnessione di migliaia o milioni di chip per distribuire il carico di lavoro. Tuttavia, le connessioni di rete tra i chip possono introdurre colli di bottiglia nelle prestazioni. La tecnologia di Cerebras Systems è progettata per sfruttare i vantaggi di velocità ed efficienza dell’integrazione di una grande quantità di potenza di calcolo su un singolo chip eccezionalmente grande.
L’ultimo chip WSE-3 (Wafer Scale Engine di terza generazione) dell’azienda, ad esempio, misura 814 millimetri quadrati, le dimensioni di un piatto piano, ed è 56 volte più grande dei chip H100 leader di mercato di Nvidia. Il chip incorpora l’incredibile cifra di 4 trilioni di transistor e offre 44 gigabit di memoria. Questi chip possono essere raggruppati per formare supercomputer, come Condor Galaxy, una “costellazione” di supercomputer interconnessi che Cerebras sta sviluppando in collaborazione con il suo più grande cliente, G42, una società di IA e cloud computing con sede negli Emirati Arabi Uniti.
Ad oggi, Cerebras ha trovato una nicchia in grandi organizzazioni di ricerca, tra cui Mayo Clinic, Sandia National Laboratories, Lawrence Livermore National Laboratory e Los Alamos National Laboratory. La società ha presentato domanda per una IPO nel settembre 2024. Il prospetto indica che le vendite della società sono più che triplicate a 78,7 milioni di dollari nel 2023 e sono salite a 136,4 milioni di dollari nella prima metà del 2024.