Il Modello Qwen di Alibaba Accende le Ambizioni AI Cinesi

L’Ecosistema AI Cinese in Espansione

Il 5 marzo, il colosso tecnologico cinese Alibaba ha presentato il suo ultimo modello di ragionamento di intelligenza artificiale, uno sviluppo che ha fatto salire le azioni della società quotate a Hong Kong di un impressionante 8%. Sebbene questo nuovo modello, soprannominato QwQ-32B, non possa ancora competere con le capacità dei principali sistemi di intelligenza artificiale negli Stati Uniti, secondo quanto riferito, eguaglia le prestazioni del suo concorrente nazionale, il modello R1 di DeepSeek. Ciò che distingue QwQ-32B è la sua domanda significativamente inferiore di potenza di calcolo, sia nel suo sviluppo che nel funzionamento continuo. Le menti dietro QwQ-32B affermano che incarna un ‘antico spirito filosofico’, affrontando i problemi con un senso di ‘genuina meraviglia e dubbio’.

‘Questo rilascio sottolinea la più ampia competitività dell’ecosistema AI di frontiera cinese’, osserva Scott Singer, visiting scholar nel programma Technology and International Affairs presso il Carnegie Endowment for International Peace. Questo ecosistema è un paesaggio vibrante popolato da attori come DeepSeek con il suo modello R1 e Tencent con il suo modello Hunyuan. In particolare, il co-fondatore di Anthropic, Jack Clark, ha riconosciuto Hunyuan come ‘di livello mondiale’ in alcuni aspetti. Tuttavia, è importante notare che le valutazioni dell’ultimo modello di Alibaba sono ancora nelle loro fasi iniziali. La difficoltà intrinseca nel misurare le capacità del modello, unita al fatto che QwQ-32B è stato valutato solo internamente da Alibaba, significa che ‘l’ambiente informativo non è molto ricco in questo momento’, come sottolinea Singer.

Il debutto del modello R1 di DeepSeek a gennaio aveva già provocato increspature nel mercato azionario globale, proiettando l’ecosistema tecnologico cinese sotto i riflettori internazionali. Questa attenzione è ulteriormente amplificata dalla crescente percezione negli Stati Uniti di una corsa contro la Cina per raggiungere l’intelligenza artificiale generale (AGI). L’AGI rappresenta un livello ipotetico di sofisticazione dell’IA in cui i sistemi possiedono la capacità di eseguire una vasta gamma di compiti cognitivi, dalla progettazione grafica alla ricerca sull’apprendimento automatico, a un livello paragonabile o superiore alle capacità umane.

Le Implicazioni Strategiche dell’AGI

Lo sviluppo dell’AGI è ampiamente previsto per conferire un significativo vantaggio militare e strategico a qualsiasi entità, sia essa un’azienda o un governo, che lo raggiunga per prima. Le potenziali applicazioni di un tale sistema sono vaste e trasformative, spaziando dalle capacità avanzate di guerra informatica alla creazione di nuove armi di distruzione di massa.

‘Siamo fiduciosi che la combinazione di modelli di base più forti con l’apprendimento per rinforzo alimentato da risorse computazionali scalate ci spingerà più vicino al raggiungimento dell’AGI’, ha dichiarato il team responsabile dell’ultimo modello di Alibaba. Questa ricerca dell’AGI è un filo conduttore che attraversa la maggior parte dei principali laboratori di intelligenza artificiale. L’obiettivo dichiarato di DeepSeek è ‘svelare il mistero dell’AGI con curiosità’. Allo stesso modo, la missione di OpenAI è ‘garantire che l’intelligenza artificiale generale, sistemi di intelligenza artificiale che sono generalmente più intelligenti degli umani, avvantaggi tutta l’umanità’. Importanti CEO di AI hanno espresso l’aspettativa che sistemi simili all’AGI potrebbero emergere entro l’attuale mandato del presidente Trump.

Il Riemergere di Jack Ma e il Panorama Tecnologico Cinese

La recente svolta nell’IA di Alibaba arriva sulla scia di una notevole apparizione pubblica del co-fondatore dell’azienda, Jack Ma. Era seduto in prima fila durante un incontro tra il presidente Xi Jinping e le principali figure imprenditoriali cinesi. Questo ha segnato un cambiamento significativo per Ma, che si era in gran parte ritirato dalla scena pubblica dal 2020. Le sue precedenti critiche ai regolatori statali e alle banche statali per aver ostacolato l’innovazione e aver operato con una ‘mentalità da banco dei pegni’ avevano apparentemente portato a un periodo di ridotta visibilità.

Durante l’assenza di Ma dai riflettori, il governo cinese ha implementato una serie di misure mirate al settore tecnologico. Sono state imposte normative più severe su come le aziende potevano utilizzare i dati e impegnarsi nella concorrenza di mercato. Allo stesso tempo, il governo ha esercitato un maggiore controllo sulle principali piattaforme digitali.

Priorità in Evoluzione: Dalla Repressione Tecnologica alla Ripresa Economica

Entro il 2022, è emerso un cambiamento evidente nell’attenzione del governo. La minaccia percepita rappresentata dal settore tecnologico sembrava diminuire rispetto alla sfida incombente della stagnazione economica. ‘Quella storia di stagnazione economica, e il tentativo di invertirla, ha davvero plasmato gran parte della politica negli ultimi 18 mesi’, spiega Singer. La Cina sta ora perseguendo attivamente l’adozione di tecnologie all’avanguardia. I rapporti indicano che almeno 13 governi cittadini e 10 compagnie energetiche statali hanno già integrato i modelli DeepSeek nei loro sistemi operativi.

La Tendenza di una Crescente Efficienza dell’IA

Il modello di Alibaba esemplifica una tendenza continua nel campo dell’IA: il costante miglioramento delle prestazioni del sistema insieme a una riduzione dei costi operativi. Epoch AI, un’organizzazione di ricerca senza scopo di lucro, stima che la potenza di calcolo necessaria per l’addestramento dei sistemi di intelligenza artificiale sia aumentata a un tasso superiore a 4 volte all’anno. Tuttavia, i progressi simultanei nella progettazione degli algoritmi hanno portato a un aumento di tre volte dell’efficienza di quella potenza di calcolo ogni anno. In termini pratici, ciò significa che un sistema di intelligenza artificiale che avrebbe potuto richiedere 10.000 chip per computer avanzati per l’addestramento l’anno scorso potrebbe essere addestrato con solo un terzo di quel numero quest’anno.

Il Ruolo Cruciale dei Chip per Computer di Fascia Alta

Nonostante questi impressionanti guadagni di efficienza, Singer avverte che i chip per computer di fascia alta rimangono indispensabili per lo sviluppo avanzato dell’IA. Questa realtà sottolinea la continua sfida posta dai controlli statunitensi sulle esportazioni di questi chip per le aziende cinesi di intelligenza artificiale come Alibaba e DeepSeek. Il CEO di DeepSeek ha specificamente identificato l’accesso ai chip, piuttosto che le risorse finanziarie o il talento, come il loro principale collo di bottiglia.

Un Nuovo Paradigma: ‘Modelli di Ragionamento’

QwQ rappresenta l’ultima aggiunta a una generazione emergente di sistemi di intelligenza artificiale classificati come ‘modelli di ragionamento’. Alcuni esperti considerano questo un cambio di paradigma nel campo dell’IA. In precedenza, i sistemi di intelligenza artificiale miglioravano attraverso una combinazione di aumento della potenza di calcolo utilizzata per l’addestramento e miglioramento della quantità e della qualità dei dati di addestramento.

Questo nuovo paradigma enfatizza un approccio diverso. Implica l’utilizzo di un modello che ha già subito un addestramento iniziale, in questo caso, Qwen 2.5-32B, e quindi un aumento significativo delle risorse computazionali allocate al sistema quando risponde a una query specifica. Come dice eloquentemente il team di Qwen, ‘quando gli viene dato il tempo di riflettere, di mettere in discussione e di riflettere, la comprensione della matematica e della programmazione da parte del modello sboccia come un fiore che si apre al sole’. Questa osservazione si allinea alle tendenze osservate nei modelli occidentali, dove le tecniche che consentono un tempo di ‘pensiero’ esteso hanno portato a miglioramenti sostanziali delle prestazioni su compiti analitici complessi.

Rilascio Open-Weight e Dinamiche di Mercato

QwQ di Alibaba è stato rilasciato con un modello ‘open weight’. Ciò significa che i pesi, che essenzialmente costituiscono il modello e sono accessibili come file di computer, possono essere scaricati ed eseguiti localmente, anche su un laptop di fascia alta. È interessante notare che un’anteprima del modello rilasciata nel novembre dell’anno precedente ha raccolto molta meno attenzione. Singer osserva che ‘il mercato azionario è generalmente reattivo ai rilasci di modelli e non alla traiettoria della tecnologia’, che si prevede continuerà il suo rapido avanzamento su entrambi i lati del Pacifico. Sottolinea inoltre: ‘L’ecosistema cinese ha un gruppo di attori al suo interno, tutti che stanno producendo modelli molto potenti e convincenti, e non è chiaro chi emergerà, alla fine, come il migliore’.

Esame Dettagliato dell’Architettura di QwQ-32B

Il modello QwQ-32B, pur essendo costruito sulle fondamenta di Qwen 2.5-32B, incorpora diverse modifiche architettoniche chiave e miglioramenti dell’addestramento che contribuiscono alle sue migliorate capacità di ragionamento. Questi miglioramenti possono essere ampiamente classificati in:

  • Espansione della Finestra di Contesto: La finestra di contesto, che determina la quantità di testo che il modello può considerare contemporaneamente, è stata probabilmente ampliata in modo significativo. Ciò consente a QwQ-32B di elaborare e comprendere passaggi di testo più lunghi e complessi, portando a una migliore comprensione e risposte più sfumate.

  • Meccanismi di Attenzione Migliorati: Il meccanismo di attenzione, un componente fondamentale dei modelli basati su trasformatori come QwQ-32B, è stato probabilmente perfezionato. Ciò potrebbe comportare tecniche come l’attenzione multi-testa o l’attenzione sparsa, consentendo al modello di concentrarsi in modo più efficace sulle informazioni rilevanti all’interno del testo di input e filtrare il rumore.

  • Reinforcement Learning from Human Feedback (RLHF): Sebbene non sia esplicitamente dichiarato, è altamente probabile che QwQ-32B sia stato ottimizzato utilizzando RLHF. Questa tecnica prevede l’addestramento del modello a generare output preferiti dai valutatori umani, portando a miglioramenti in aree come coerenza, utilità e innocuità.

  • Instruction Tuning: QwQ-32B potrebbe aver subito un’ampia instruction tuning, un processo in cui il modello viene addestrato su un insieme diversificato di istruzioni e output corrispondenti. Ciò aiuta il modello a generalizzare meglio a nuovi compiti e seguire le istruzioni in modo più accurato.

  • Chain-of-Thought Prompting: Il modello è esplicitamente progettato per sfruttare il chain-of-thought prompting, una tecnica in cui il modello è incoraggiato a generare una serie di passaggi di ragionamento intermedi prima di arrivare a una risposta finale. Ciò promuove un ragionamento più deliberato e logico.

Implicazioni per Settori Specifici

I progressi incarnati da QwQ-32B e altri modelli di intelligenza artificiale cinesi hanno implicazioni significative per vari settori, sia in Cina che a livello globale. Alcuni settori chiave che probabilmente saranno interessati includono:

  • E-commerce: L’attività principale di Alibaba, l’e-commerce, trarrà notevoli vantaggi dalle migliorate capacità dell’IA. Ciò include aree come consigli personalizzati, chatbot per il servizio clienti, rilevamento delle frodi e ottimizzazione della catena di approvvigionamento.

  • Finanza: I modelli di intelligenza artificiale possono essere utilizzati per attività come la valutazione del rischio, il rilevamento delle frodi, il trading algoritmico e la gestione delle relazioni con i clienti. Le maggiori capacità di ragionamento di modelli come QwQ-32B potrebbero portare a previsioni finanziarie più accurate e a un migliore processo decisionale.

  • Sanità: L’IA può aiutare nella scoperta di farmaci, nella diagnosi delle malattie, nella medicina personalizzata e nel monitoraggio dei pazienti. Modelli di ragionamento più potenti possono analizzare dati medici complessi e fornire informazioni che in precedenza erano inaccessibili.

  • Produzione: L’automazione basata sull’intelligenza artificiale, il controllo qualità e la manutenzione predittiva possono migliorare l’efficienza e ridurre i costi nei processi di produzione.

  • Trasporti: I veicoli a guida autonoma, i sistemi di gestione del traffico e l’ottimizzazione della logistica si basano fortemente sull’IA. I progressi nel ragionamento dell’IA possono contribuire a reti di trasporto più sicure ed efficienti.

  • Istruzione: I modelli di IA vengono sempre più adottati per fornire un migliore supporto agli studenti e persino tutoraggio personalizzato.

Il Futuro della Competizione e della Collaborazione nell’IA

Il rapido progresso dei modelli di intelligenza artificiale cinesi come QwQ-32B solleva importanti interrogativi sul futuro della competizione e della collaborazione nell’IA su scala globale. Sebbene esista indubbiamente una dinamica competitiva, in particolare tra Stati Uniti e Cina, ci sono anche potenziali vantaggi nella collaborazione e nella condivisione delle conoscenze.

  • Open Source vs. Closed Source: La decisione di Alibaba di rilasciare QwQ-32B come modello open-weight è significativa. Contrasta con l’approccio adottato da alcune aziende occidentali di intelligenza artificiale che mantengono i loro modelli come sistemi proprietari e closed-source. I modelli open-source possono favorire una maggiore collaborazione e accelerare l’innovazione consentendo a ricercatori e sviluppatori di tutto il mondo di basarsi sul lavoro esistente.

  • Condivisione dei Dati e Standardizzazione: Lo sviluppo di sistemi di intelligenza artificiale robusti e affidabili richiede enormi quantità di dati. La collaborazione internazionale sulla condivisione dei dati e la creazione di standard comuni potrebbero giovare all’intera comunità dell’IA.

  • Considerazioni Etiche: Man mano che i sistemi di intelligenza artificiale diventano più potenti, le considerazioni etiche diventano sempre più importanti. Il dialogo e la cooperazione globali sono essenziali per garantire che l’IA sia sviluppata e implementata in modo responsabile, con adeguate garanzie per mitigare i potenziali rischi.

  • Scambio di Talenti: Il campo dell’IA beneficia di un pool di talenti diversificato e distribuito a livello globale. Facilitare lo scambio di ricercatori e ingegneri tra paesi può promuovere il trasferimento di conoscenze e accelerare i progressi.

L’emergere di QwQ-32B e altri modelli avanzati di intelligenza artificiale cinesi rappresenta una pietra miliare significativa nella continua evoluzione dell’intelligenza artificiale. Evidenzia le crescenti capacità dell’ecosistema tecnologico cinese e sottolinea le implicazioni globali dei progressi dell’IA. I prossimi anni vedranno probabilmente continui rapidi progressi, un’intensa competizione e crescenti richieste di collaborazione internazionale per garantire che l’IA avvantaggi l’umanità nel suo insieme.