DeepSeek: Ascesa di una Potenza AI Cinese

DeepSeek, un nome che è rapidamente asceso da una relativa oscurità a un punto focale nella conversazione globale sull’IA, ha scatenato un intenso dibattito e speculazione nei settori tecnologico e finanziario. Il laboratorio cinese di IA dietro questa forza nascente ha sconvolto l’ordine stabilito, spingendo gli analisti a mettere in discussione la sostenibilità del dominio statunitense nella corsa all’IA e la fattibilità a lungo termine dell’attuale domanda di chip per l’IA. Ma quali sono i fattori chiave che hanno spinto DeepSeek alla sua attuale importanza?

La Genesi di DeepSeek: Da Hedge Fund a Laboratorio di IA

Le origini di DeepSeek sono profondamente intrecciate con il mondo della finanza quantitativa. È sostenuta da High-Flyer Capital Management, un hedge fund cinese rinomato per il suo utilizzo dell’IA nel prendere decisioni di trading basate sui dati.

Liang Wenfeng, un appassionato di IA con un background nel trading durante il suo periodo presso l’Università di Zhejiang, ha co-fondato High-Flyer nel 2015. Nel 2019, ha lanciato High-Flyer Capital Management come hedge fund con un focus specifico sullo sviluppo e l’implementazione di algoritmi di IA per applicazioni finanziarie.

Nel 2023, High-Flyer ha incubato DeepSeek come un laboratorio di ricerca sull’IA dedicato, operante indipendentemente dalla sua attività finanziaria principale. Successivamente, con High-Flyer come investitore chiave, il laboratorio è stato scorporato in un’entità separata, mantenendo il nome DeepSeek.

Fin dalla sua nascita, DeepSeek ha dato la priorità alla creazione dei propri cluster di data center per facilitare l’addestramento dei modelli. Tuttavia, come altre società di IA che operano in Cina, DeepSeek ha incontrato difficoltà a causa delle restrizioni all’esportazione statunitensi sull’hardware avanzato. Di conseguenza, per addestrare i suoi modelli più recenti, l’azienda ha dovuto ricorrere all’utilizzo di chip Nvidia H800, una variante meno potente dei chip H100 che sono prontamente disponibili per le aziende statunitensi.

Il team tecnico di DeepSeek è noto per la sua giovinezza e dinamismo. L’azienda recluta attivamente ricercatori di dottorato in IA dalle principali università cinesi. Inoltre, DeepSeek impiega persone provenienti da diversi background, anche quelli senza competenze in informatica, per garantire che la sua tecnologia possa comprendere e soddisfare efficacemente una vasta gamma di argomenti, come riportato dal The New York Times.

I Modelli di IA di DeepSeek: Sfidare lo Status Quo

DeepSeek ha presentato la sua suite iniziale di modelli – DeepSeek Coder, DeepSeek LLM e DeepSeek Chat – nel novembre 2023. Tuttavia, è stata la pubblicazione della sua famiglia di modelli DeepSeek-V2 di nuova generazione in primavera che ha veramente catturato l’attenzione dell’industria dell’IA.

DeepSeek-V2, un sistema versatile in grado di analizzare sia testo che immagini, ha dimostrato prestazioni impressionanti in vari benchmark di IA. In particolare, ha ottenuto queste prestazioni a un costo significativamente inferiore rispetto ai modelli concorrenti disponibili all’epoca. Ciò ha spinto i rivali nazionali di DeepSeek, tra cui ByteDance e Alibaba, a ridurre i prezzi di alcuni dei loro modelli e a offrirne altri completamente gratuiti.

DeepSeek V3 ha mostrato prestazioni superiori sia ai modelli scaricabili open-source come Llama di Meta che ai modelli "chiusi" accessibili solo tramite API, come GPT-4o di OpenAI.

Altrettanto degno di nota è il modello di "ragionamento" R1 di DeepSeek. Lanciato a gennaio, DeepSeek afferma che R1 raggiunge prestazioni comparabili al modello o1 di OpenAI sui benchmark chiave.

Come modello di ragionamento, R1 incorpora meccanismi di autocontrollo, mitigando alcune delle insidie comuni associate ai modelli standard. Mentre i modelli di ragionamento possono richiedere tempi di elaborazione leggermente più lunghi per arrivare a soluzioni (che vanno da secondi a minuti), tendono a mostrare una maggiore affidabilità in settori come fisica, scienza e matematica.

Tuttavia, i modelli di DeepSeek, tra cui R1 e DeepSeek V3, sono soggetti alla supervisione del regolatore Internet cinese, che garantisce che le loro risposte siano in linea con i "valori socialisti fondamentali". Ad esempio, nell’app chatbot di DeepSeek, R1 non affronterà domande relative a Piazza Tiananmen o all’autonomia di Taiwan.

A marzo, il traffico del sito web di DeepSeek ha superato i 16,5 milioni di visite. Nonostante una diminuzione del 25% del traffico rispetto a febbraio, DeepSeek si è classificata seconda in termini di visite giornaliere, secondo David Carr, editor di Similarweb. Tuttavia, questa cifra impallidisce ancora rispetto a ChatGPT, che ha superato i 500 milioni di utenti attivi settimanali a marzo.

Un Approccio Dirompente al Panorama dell’IA

Il modello di business di DeepSeek rimane in qualche modo enigmatico. L’azienda prezza i suoi prodotti e servizi significativamente al di sotto del valore di mercato e ne offre persino alcuni gratuitamente. Inoltre, ha resistito a finanziamenti esterni nonostante il sostanziale interesse da parte delle società di venture capital.

DeepSeek attribuisce la sua estrema competitività dei costi alle scoperte in termini di efficienza. Tuttavia, alcuni esperti hanno messo in dubbio l’accuratezza delle cifre fornite dalla società.

Indipendentemente da ciò, gli sviluppatori hanno abbracciato i modelli di DeepSeek, che, pur non essendo open source nel senso tradizionale, sono disponibili con licenze permissive che consentono l’uso commerciale. Secondo Clem Delangue, CEO di Hugging Face, gli sviluppatori sulla piattaforma hanno creato oltre 500 modelli derivati di R1, accumulando un totale combinato di 2,5 milioni di download.

Il successo di DeepSeek contro concorrenti più grandi e affermati è stato descritto sia come "sovvertimento dell’IA" che come "troppo pubblicizzato". I risultati dell’azienda sono stati in parte responsabili di un calo del 18% del prezzo delle azioni di Nvidia a gennaio e hanno suscitato una risposta pubblica da parte del CEO di OpenAI, Sam Altman. A marzo, gli uffici del Dipartimento del Commercio degli Stati Uniti avrebbero vietato DeepSeek sui dispositivi governativi, secondo Reuters.

Microsoft ha integrato DeepSeek nel suo servizio Azure AI Foundry, una piattaforma che consolida i servizi di IA per le imprese. Durante la teleconferenza sugli utili del primo trimestre di Meta, il CEO Mark Zuckerberg ha affermato che gli investimenti nell’infrastruttura di IA continueranno a essere un "vantaggio strategico" per l’azienda, quando gli è stato chiesto del potenziale impatto di DeepSeek sulla spesa per l’IA di Meta. A marzo, OpenAI ha definito DeepSeek "sovvenzionata dallo stato" e "controllata dallo stato", raccomandando al governo degli Stati Uniti di prendere in considerazione il divieto dei suoi modelli.

Durante la teleconferenza sugli utili del quarto trimestre di Nvidia, il CEO Jensen Huang ha evidenziato l’"eccellente innovazione" di DeepSeek, osservando che i suoi modelli di ragionamento richiedono una potenza di calcolo significativamente maggiore, a vantaggio di Nvidia.

Al contrario, alcune aziende, paesi e governi, tra cui la Corea del Sud e lo stato di New York, hanno vietato l’uso di DeepSeek sui dispositivi governativi.

A maggio, il vicepresidente e presidente di Microsoft, Brad Smith, ha testimoniato davanti al Senato che ai dipendenti Microsoft è vietato l’uso di DeepSeek a causa di preoccupazioni sulla sicurezza dei dati e sulla potenziale propaganda.

Il Futuro Incerto di DeepSeek

La traiettoria futura di DeepSeek rimane incerta. Mentre si prevedono ulteriori miglioramenti del modello, il governo degli Stati Uniti sembra sempre più diffidente nei confronti della percepita influenza straniera dannosa. A marzo, il Wall Street Journal ha riferito che è probabile che gli Stati Uniti vietino DeepSeek sui dispositivi governativi.

La rapida ascesa di DeepSeek ha innegabilmente scosso le fondamenta dell’industria dell’IA, spingendo a una rivalutazione delle dinamiche competitive e del potenziale di innovazione dirompente. Resta da vedere se sarà in grado di sostenere il suo attuale slancio di fronte alla crescente attenzione e alle sfide normative. I prossimi anni saranno fondamentali per determinare l’impatto a lungo termine di DeepSeek sul panorama globale dell’IA. La sua capacità di navigare nella complessa interazione tra progresso tecnologico, considerazioni geopolitiche e preoccupazioni etiche definirà in definitiva la sua eredità. Il mondo dell’IA osserverà da vicino.

La storia di DeepSeek è un promemoria del fatto che nel mondo in rapida evoluzione dell’intelligenza artificiale, nuovi attori possono emergere rapidamente e sfidare l’ordine stabilito. Il successo dell’azienda, guidato da una tecnologia innovativa e dalla volontà di sconvolgere i modelli di business tradizionali, ha costretto l’industria a prenderne atto. Mentre DeepSeek continua a svilupparsi e ad espandere la sua portata, svolgerà indubbiamente un ruolo significativo nel plasmare il futuro dell’IA.

DeepSeek si è affermata come una forza dirompente nel settore dell’intelligenza artificiale (IA), sollevando interrogativi sulla supremazia degli Stati Uniti e sulla sostenibilità della domanda di chip per IA. Le origini di DeepSeek sono legate a High-Flyer Capital Management, un hedge fund cinese con un focus sull’utilizzo dell’IA nelle decisioni di trading. Nel 2023, DeepSeek è stata scorporata come un laboratorio di ricerca sull’IA indipendente, con High-Flyer come investitore chiave. Nonostante le sfide dovute alle restrizioni all’esportazione statunitensi, DeepSeek ha dato la priorità alla creazione di cluster di data center e all’assunzione di giovani ricercatori e persone con background diversi.

I modelli di IA di DeepSeek, in particolare la famiglia DeepSeek-V2, hanno dimostrato prestazioni impressionanti a costi inferiori rispetto ai modelli concorrenti. Ciò ha portato i rivali nazionali a ridurre i prezzi e ad offrire modelli gratuiti. DeepSeek V3 ha superato sia i modelli open-source che i modelli chiusi come GPT-4o di OpenAI. Il modello di ragionamento R1 di DeepSeek incorpora meccanismi di autocontrollo e offre maggiore affidabilità in settori come fisica e matematica. Tuttavia, i modelli di DeepSeek sono soggetti alla supervisione del regolatore Internet cinese e non affrontano argomenti politicamente sensibili.

Il modello di business di DeepSeek rimane enigmatico, con prezzi inferiori al valore di mercato e resistenza ai finanziamenti esterni. Gli sviluppatori hanno abbracciato i modelli di DeepSeek, che sono disponibili con licenze permissive per l’uso commerciale. Il successo di DeepSeek ha portato a reazioni da parte di Nvidia, OpenAI e dei governi. Microsoft ha integrato DeepSeek nel suo servizio Azure AI Foundry, mentre Meta ha riconosciuto il potenziale impatto di DeepSeek sulla spesa per l’IA. OpenAI ha definito DeepSeek "sovvenzionata dallo stato" e ha raccomandato il divieto dei suoi modelli. Nvidia ha riconosciuto l’innovazione di DeepSeek e il suo fabbisogno di potenza di calcolo. Alcune aziende e governi hanno vietato DeepSeek sui dispositivi governativi. Microsoft ha vietato ai dipendenti di utilizzare DeepSeek a causa di preoccupazioni sulla sicurezza dei dati e sulla propaganda.

Il futuro di DeepSeek rimane incerto, con potenziali miglioramenti del modello ma crescente controllo da parte del governo degli Stati Uniti. La rapida ascesa di DeepSeek ha scosso il settore dell’IA e ha spinto a rivalutare le dinamiche competitive. La capacità di DeepSeek di sostenere il suo slancio di fronte all’aumento del controllo e alle sfide normative determinerà il suo impatto a lungo termine sul panorama globale dell’IA.