L’Approccio Innovativo di Ant all’Addestramento di Modelli di IA
Ant Group, il colosso fintech sostenuto da Jack Ma, ha compiuto un significativo passo avanti nell’intelligenza artificiale sfruttando semiconduttori di fabbricazione cinese. Questo approccio innovativo ha permesso all’azienda di sviluppare tecniche per l’addestramento di modelli di IA, con una notevole riduzione dei costi del 20%. Fonti vicine alla questione hanno rivelato che Ant ha utilizzato chip nazionali, inclusi quelli della sua affiliata Alibaba Group Holding Ltd. e Huawei Technologies Co., per addestrare modelli utilizzando l’approccio di apprendimento automatico Mixture of Experts (MoE).
I risultati ottenuti da Ant sono paragonabili a quelli ottenuti utilizzando i chip di Nvidia Corp., come l’H800, un potente processore la cui esportazione in Cina è limitata dagli Stati Uniti. Mentre Ant continua a utilizzare Nvidia per lo sviluppo dell’IA, si affida sempre più ad alternative, tra cui Advanced Micro Devices Inc. (AMD) e chip cinesi, per i suoi ultimi modelli.
Entrare nella Corsa all’IA: Cina vs. Stati Uniti
L’incursione di Ant nello sviluppo di modelli di IA la colloca nel bel mezzo di un’accesa competizione tra aziende cinesi e statunitensi. Questa corsa si è intensificata da quando DeepSeek ha dimostrato il potenziale di addestrare modelli altamente capaci a una frazione del costo sostenuto da giganti del settore come OpenAI e Google di Alphabet Inc., che hanno investito miliardi. Il risultato di Ant sottolinea la determinazione delle aziende cinesi a utilizzare alternative di provenienza locale ai semiconduttori Nvidia più avanzati.
La Promessa di un’Inferenza IA Economica
Il documento di ricerca pubblicato da Ant questo mese evidenzia il potenziale dei suoi modelli, rivendicando prestazioni superiori in determinati benchmark rispetto a Meta Platforms Inc., sebbene queste affermazioni non siano state verificate in modo indipendente da Bloomberg News. Tuttavia, se le piattaforme di Ant funzionano come pubblicizzato, potrebbero rappresentare un progresso significativo nello sviluppo dell’intelligenza artificiale cinese. Ciò è principalmente dovuto alla loro capacità di ridurre drasticamente il costo dell’inferenza, che è il processo di supporto dei servizi di IA.
Mixture of Experts: Un Cambiamento di Gioco nell’IA
Mentre le aziende investono ingenti risorse nell’IA, i modelli MoE hanno guadagnato importanza come approccio popolare ed efficiente. Questa tecnica, impiegata da aziende come Google e la startup DeepSeek con sede a Hangzhou, prevede la suddivisione delle attività in set di dati più piccoli. Questo è analogo ad avere un team di specialisti, ciascuno focalizzato su un segmento specifico di un lavoro, ottimizzando così il processo complessivo.
Superare il Collo di Bottiglia della GPU
Tradizionalmente, l’addestramento dei modelli MoE si è fortemente basato su chip ad alte prestazioni, come le unità di elaborazione grafica (GPU) prodotte da Nvidia. Il costo proibitivo di questi chip è stato un ostacolo importante per molte aziende più piccole, limitando l’adozione diffusa dei modelli MoE. Ant, tuttavia, ha lavorato diligentemente su metodi per addestrare modelli linguistici di grandi dimensioni (LLM) in modo più efficiente, eliminando efficacemente questo vincolo. Il titolo del loro documento di ricerca, che fissa l’obiettivo di scalare un modello “senza GPU premium”, riflette chiaramente questo obiettivo.
Sfidare il Dominio di Nvidia
L’approccio di Ant sfida direttamente la strategia prevalente sostenuta dal CEO di Nvidia, Jensen Huang. Huang ha costantemente sostenuto che la domanda computazionale continuerà a crescere, anche con l’emergere di modelli più efficienti come R1 di DeepSeek. Crede che le aziende avranno bisogno di chip migliori per generare entrate più elevate, piuttosto che chip più economici per ridurre i costi. Di conseguenza, Nvidia ha mantenuto la sua attenzione sulla costruzione di GPU di grandi dimensioni con core di elaborazione, transistor e capacità di memoria migliorati.
Quantificare il Risparmio sui Costi
Ant ha fornito cifre concrete per dimostrare l’efficacia in termini di costi del suo approccio ottimizzato. L’azienda ha dichiarato che l’addestramento di 1 trilione di token utilizzando hardware ad alte prestazioni costerebbe circa 6,35 milioni di yuan ($880.000). Tuttavia, utilizzando hardware con specifiche inferiori e le sue tecniche ottimizzate, Ant può ridurre questo costo a 5,1 milioni di yuan. I token rappresentano le unità di informazione che un modello elabora per apprendere il mondo e fornire risposte pertinenti alle query degli utenti.
Sfruttare le Innovazioni dell’IA per Soluzioni Industriali
Ant prevede di capitalizzare i suoi recenti progressi nei modelli linguistici di grandi dimensioni, in particolare Ling-Plus e Ling-Lite, per sviluppare soluzioni di IA industriale per settori come la sanità e la finanza. Questi modelli sono progettati per soddisfare le esigenze specifiche del settore e fornire soluzioni su misura.
Espansione delle Applicazioni dell’IA nel Settore Sanitario
L’impegno di Ant nel settore sanitario è evidente nella sua integrazione della piattaforma online cinese Haodf.com nei suoi servizi di intelligenza artificiale. Attraverso la creazione di AI Doctor Assistant, Ant mira a supportare la vasta rete di 290.000 medici di Haodf assistendo con attività come la gestione delle cartelle cliniche. Questa applicazione dell’IA ha il potenziale per migliorare significativamente l’efficienza e l’accuratezza nell’erogazione dell’assistenza sanitaria.
Assistenza Basata sull’IA per la Vita di Tutti i Giorni
Oltre all’assistenza sanitaria, Ant ha anche sviluppato un’app di “assistente di vita” AI chiamata Zhixiaobao e un servizio di consulenza finanziaria AI chiamato Maxiaocai. Queste applicazioni dimostrano l’ambizione di Ant di integrare l’IA in vari aspetti della vita quotidiana, fornendo agli utenti un’assistenza personalizzata e intelligente.
Benchmarking delle Prestazioni: Modelli Ling vs. Concorrenti
Nel suo documento di ricerca, Ant afferma che il modello Ling-Lite ha superato uno dei modelli Llama di Meta in un benchmark chiave per la comprensione della lingua inglese. Inoltre, sia i modelli Ling-Lite che Ling-Plus hanno dimostrato prestazioni superiori rispetto agli equivalenti di DeepSeek sui benchmark in lingua cinese. Ciò evidenzia la posizione competitiva di Ant nel panorama dell’IA.
Come ha giustamente affermato Robin Yu, chief technology officer del fornitore di soluzioni AI con sede a Pechino Shengshang Tech Co., “Se trovi un punto di attacco per battere il miglior maestro di kung fu del mondo, puoi comunque dire di averlo battuto, motivo per cui l’applicazione nel mondo reale è importante”.
Open-Sourcing per la Collaborazione e l’Innovazione
Ant ha reso i modelli Ling open source, promuovendo la collaborazione e l’innovazione all’interno della comunità dell’IA. Ling-Lite comprende 16,8 miliardi di parametri, che sono impostazioni regolabili che controllano le prestazioni del modello. Ling-Plus, d’altra parte, vanta un numero significativamente maggiore di 290 miliardi di parametri, collocandolo tra i modelli linguistici più grandi. Per fornire un contesto, gli esperti stimano che GPT-4.5 di ChatGPT abbia circa 1,8 trilioni di parametri, mentre DeepSeek-R1 ne ha 671 miliardi.
Affrontare le Sfide nell’Addestramento dei Modelli
Il percorso di Ant nello sviluppo di questi modelli non è stato privo di sfide. L’azienda ha incontrato difficoltà in alcune aree dell’addestramento, in particolare per quanto riguarda la stabilità. Anche piccole modifiche nell’hardware o nella struttura del modello potrebbero portare a problemi, comprese fluttuazioni nel tasso di errore dei modelli. Ciò sottolinea la complessità e la sensibilità coinvolte nell’addestramento di modelli di IA avanzati.
Implementazione nel Mondo Reale nel Settore Sanitario
L’impegno di Ant per le applicazioni pratiche è ulteriormente dimostrato dalla sua implementazione di macchine di grandi dimensioni focalizzate sull’assistenza sanitaria. Queste macchine sono attualmente utilizzate da sette ospedali e fornitori di assistenza sanitaria nelle principali città come Pechino e Shanghai. Il modello di grandi dimensioni sfrutta DeepSeek R1, Qwen di Alibaba e il LLM di Ant per fornire servizi di consulenza medica.
Agenti AI per Servizi Sanitari Migliorati
Oltre alle macchine di grandi dimensioni, Ant ha introdotto due agenti AI medici: Angel e Yibaoer. Angel ha già servito oltre 1.000 strutture mediche, mentre Yibaoer fornisce supporto per i servizi di assicurazione medica. Inoltre, a settembre dell’anno precedente, Ant ha lanciato il servizio AI Healthcare Manager all’interno della sua app di pagamenti Alipay, espandendo ulteriormente la sua portata nel settore sanitario. Queste iniziative dimostrano la dedizione di Ant a sfruttare l’IA per trasformare e migliorare l’erogazione dell’assistenza sanitaria.