A marzo di quest’anno, alla conferenza Spring GTC 2025 di NVIDIA, Jia Peng, Head of Autonomous Driving Technology R&D di Li Auto, ha presentato la loro ultima conquista: il modello grande MindVLA.
Questo modello è un Vision-Language-Action Model (VLA) con 2,2 miliardi di parametri. Jia Peng ha inoltre affermato di aver implementato con successo il modello nei veicoli. Li Auto ritiene che i modelli VLA siano il metodo più efficace per risolvere le sfide dell’interazione dell’intelligenza artificiale con il mondo fisico.
Nell’ultimo anno, l’architettura end-to-end è diventata un hotspot tecnologico nel campo della guida intelligente, spingendo le aziende automobilistiche a passare dalla tradizionale progettazione modulare basata su regole a sistemi integrati. Le aziende automobilistiche che in precedenza erano leader con algoritmi basati su regole devono affrontare dolori di transizione, mentre i ritardatari hanno colto l’opportunità per un vantaggio competitivo.
Li Auto è un ottimo esempio di questo.
I progressi di Li Auto nella guida intelligente lo scorso anno possono essere descritti come rapidi. A luglio, ha assunto l’iniziativa nel raggiungere l’NOA (Navigation on Autopilot) nazionale senza mappe e ha lanciato un’architettura unica “end-to-end (sistema veloce) + VLM (sistema lento)”, che ha ricevuto ampia attenzione nel settore.
Questa sera, con la seconda stagione di Li Auto AI Talk, abbiamo acquisito una comprensione più profonda di ciò che Li Xiang definisce una “società di intelligenza artificiale”.
Il “Driver Large Model” È Anche Il Tuo Autista
Li Xiang, CEO di Li Auto, ha menzionato per la prima volta VLA nella prima stagione di AI Talk lo scorso dicembre, in una conversazione con Zhang Xiaojun, il capo scrittore tecnologico di Tencent News. A quel tempo, ha detto:
Ciò che stiamo facendo con Li Auto Companion e la guida autonoma è in realtà separato secondo gli standard del settore ed è nelle prime fasi. Il Mind GPT che stiamo facendo è in realtà un grande modello linguistico; la guida autonoma che stiamo facendo, la chiamiamo internamente intelligenza comportamentale, ma come definita da Li Feifei (Stanford Lifetime Professor, ex Chief Scientist di Google), si chiama intelligenza spaziale. Solo quando lo fai davvero su larga scala saprai che questi due si connetteranno sicuramente un giorno. Lo chiamiamo internamente VLA (Vision Language Action Model).
Li Xiang ritiene che il modello di base diventerà sicuramente VLA a un certo punto. Il motivo è che i modelli linguistici possono comprendere il mondo tridimensionale solo attraverso il linguaggio e la cognizione, il che ovviamente non è sufficiente. "Deve essere veramente basato su vettori, utilizzando Diffusion (modello di diffusione) e utilizzando metodi generativi (per comprendere il mondo)."
Si può dire che la nascita di VLA non è solo un audace tentativo di integrare profondamente l’intelligenza linguistica e l’intelligenza spaziale, ma anche una reinterpretazione del concetto di "auto intelligente" da parte di Li Auto.
Li Xiang ha ulteriormente definito nell’AI Talk di stasera: "VLA è un driver large model, che funziona come un autista umano." Non è solo una tecnologia, ma anche un partner intelligente che può comunicare naturalmente con gli utenti e prendere decisioni indipendenti.
Quindi, cos’è esattamente VLA? Il nucleo è in realtà molto semplice: integrando la percezione visiva, la comprensione del linguaggio naturale e le capacità di generazione di azioni, il veicolo diventa un "agente conducente" che può comunicare con le persone e prendere le proprie decisioni.
Immagina di essere seduto in macchina e dire casualmente: "Oggi sono un po’ stanco, guida più lentamente", e il veicolo non solo capirà cosa intendi, ma regolerà anche la sua velocità e persino sceglierà un percorso più fluido. Questa interazione naturale e fluida è esattamente ciò che VLA vuole ottenere. Li Xiang ha rivelato che tutti i comandi brevi vengono elaborati direttamente dal veicolo, mentre i comandi complessi vengono analizzati dal modello basato su cloud da 3,2 miliardi di parametri, garantendo sia efficienza che intelligenza.
Raggiungere questo obiettivo non è facile. La particolarità di VLA è che collega le tre dimensioni di visione, linguaggio e azione. Un semplice comando dell’utente può comportare la percezione in tempo reale dell’ambiente circostante, la comprensione accurata dell’intento del linguaggio e la rapida regolazione del comportamento di guida. I tre sono indispensabili.
E la cosa fantastica di VLA è che consente a questi tre di lavorare insieme senza problemi.
Dalla visione alla realtà, la ricerca e lo sviluppo di VLA sono un territorio inesplorato. Li Xiang ha ammesso: "L’acquisizione di dati visivi e di azione è la più difficile. Nessuna azienda può sostituirla."
Per comprendere il background tecnico di VLA, dobbiamo anche esaminare l’evoluzione della guida intelligente di Li Auto.
Li Xiang ha detto che il sistema iniziale era un’intelligenza a "livello di insetto", con solo milioni di parametri, guidata da regole e mappe ad alta precisione, ed era impotente quando si incontravano condizioni stradali complesse. Successivamente, l’architettura end-to-end e i modelli visivo-linguistici hanno permesso alla tecnologia di passare a un "livello di mammifero", sbarazzarsi della dipendenza dalle mappe e l’NOA nazionale senza mappe è diventata realtà.
In realtà, questo passaggio ha già portato Li Auto in prima linea nel settore, ma ovviamente non sono soddisfatti di questo. Dal punto di vista di Li Xiang, l’emergere di VLA segna che la tecnologia di guida intelligente di Li Auto è entrata in una nuova fase di "intelligenza umana".
Rispetto al sistema precedente, VLA non solo può percepire il mondo fisico 3D, ma può anche eseguire ragionamenti logici e persino generare comportamenti di guida simili al livello umano.
Per un semplice esempio, supponiamo che tu dica "trova un posto per invertire la marcia" su una strada congestionata, VLA non eseguirà meccanicamente il comando, ma considererà in modo completo le condizioni stradali, il flusso del traffico e le regole del traffico per trovare il momento e il luogo più ragionevoli per completare l’inversione a U.
Li Xiang ha detto che VLA può adattarsi rapidamente a nuovi scenari generando dati e può ottimizzare le risposte anche quando si incontrano riparazioni stradali complesse per la prima volta entro tre giorni. Questa flessibilità e giudizio sono i vantaggi principali di VLA.
L’Insegnante Di Li Auto È DeepSeek
A supporto di VLA c’è un sistema tecnico complesso e sofisticato sviluppato indipendentemente da Li Auto. Questo sistema consente all’auto non solo di "comprendere" il mondo, ma anche di pensare e agire come un autista umano.
Il primo è la tecnologia di rappresentazione gaussiana 3D, che utilizza molti "punti gaussiani" per creare un oggetto 3D. Ogni punto contiene la propria posizione, colore e informazioni sulle dimensioni. Questa tecnologia utilizza l’apprendimento auto-supervisionato per addestrare un potente modello di comprensione spaziale 3D utilizzando enormi dati reali. Con esso, VLA può "comprendere" il mondo circostante come un essere umano, sapendo dove sono gli ostacoli e dove sono le aree percorribili.
Il successivo è l’architettura Mixture of Experts (MoE), che è composta da reti di esperti, reti di gating e combinatori. Quando i parametri del modello superano centinaia di miliardi, il metodo tradizionale farà partecipare tutti i neuroni a ogni calcolo, il che è uno spreco di risorse. La rete di gating nell’architettura MoE chiamerà diversi esperti in base a diversi compiti per garantire che i parametri di attivazione non aumentino in modo significativo.
Parlando di questo, Li Xiang ha anche elogiato DeepSeek:
DeepSeek utilizza le migliori pratiche dell’umanità… Quando stavano facendo DeepSeek V3, V3 era anche un MoE, un modello 671B. Penso che MoE sia un’architettura molto buona. Equivale a combinare un gruppo di esperti insieme e ognuno è una capacità esperta.
Infine, Li Auto ha introdotto Sparse Attention in VLA, il che in termini semplici significa che VLA regolerà automaticamente i pesi di attenzione delle aree chiave, migliorando così l’efficienza di inferenza del lato finale.
Li Xiang ha detto che nel processo di addestramento di questo nuovo modello di base, gli ingegneri di Li Auto hanno trascorso molto tempo a trovare il miglior rapporto di dati, integrando una grande quantità di dati 3D e dati di testo e immagini relativi alla guida autonoma e riducendo la proporzione di dati letterari e storici.
Dalla percezione al processo decisionale, VLA si basa sulla modalità di combinazione rapida e lenta del pensiero umano. Può emettere rapidamente semplici decisioni di azione, come l’evitamento di emergenza, e può anche utilizzare brevi catene di pensiero per "pensare lentamente" per affrontare scenari più complessi, come la pianificazione temporanea di un percorso per aggirare l’area di costruzione. Al fine di migliorare ulteriormente le prestazioni in tempo reale, VLA ha anche introdotto il ragionamento speculativo e la tecnologia di decodifica parallela, sfruttando appieno la potenza di calcolo del chip lato veicolo per garantire che il processo decisionale sia veloce e non caotico.
Quando genera il comportamento di guida, VLA utilizza i modelli Diffusion e Reinforcement Learning from Human Feedback (RLHF). Il modello Diffusion è responsabile della generazione di traiettorie di guida ottimizzate, mentre RLHF rende queste traiettorie più vicine alle abitudini umane, sia sicure che confortevoli. Ad esempio, VLA rallenterà automaticamente quando svolta o lascerà una distanza di sicurezza sufficiente quando si immette nelle corsie. Questi dettagli riflettono l’apprendimento profondo del comportamento di guida umano.
Il modello del mondo è un’altra tecnologia chiave. Li Auto fornisce un ambiente virtuale di alta qualità per l’apprendimento per rinforzo attraverso la ricostruzione e la generazione di scene. Li Xiang ha rivelato che il modello del mondo ha ridotto il costo di verifica da 170.000-180.000 yuan per 10.000 chilometri a 4.000 yuan. Consente a VLA di ottimizzare continuamente nella simulazione e affrontare scenari complessi con facilità.
Parlando di addestramento, anche il processo di crescita di VLA è abbastanza organizzato. L’intero processo è diviso in tre fasi: pre-addestramento, post-addestramento e apprendimento per rinforzo. "Il pre-addestramento è come imparare la conoscenza, il post-addestramento è come imparare a guidare in una scuola guida e l’apprendimento per rinforzo è come la pratica sociale", ha detto Li Xiang.
Nella fase di pre-addestramento, Li Auto ha creato un modello di base visivo-linguistico per VLA, riempiendolo con ricchi dati visivi 3D, immagini ad alta definizione 2D e corpus relativi alla guida, consentendogli di imparare prima a "vedere" e "sentire"; dopo l’addestramento, viene aggiunto il modulo di azione, generando traiettorie di guida di 4-8 secondi e il modello si espande da 3,2 miliardi di parametri a 4 miliardi.
L’apprendimento per rinforzo è diviso in due passaggi: in primo luogo, utilizzare RLHF per allineare le abitudini umane, analizzare i dati di acquisizione e garantire sicurezza e comfort; quindi, utilizzare l’apprendimento per rinforzo puro per ottimizzare, basato sul valore G (comfort), collisione e feedback sulle regole del traffico, in modo che VLA "guidi meglio degli umani". Li Xiang ha menzionato che questa fase è completata nel modello del mondo, simulando scenari di traffico reali e l’efficienza è di gran lunga migliore della verifica tradizionale.
Questo metodo di addestramento non solo garantisce l’avanzamento tecnico, ma rende anche VLA abbastanza affidabile nelle applicazioni pratiche.
Li Xiang ha ammesso che il successo di VLA è inseparabile dall’ispirazione dei benchmark del settore. L’architettura MoE di DeepSeek non solo ha migliorato l’efficienza dell’addestramento, ma ha anche fornito una preziosa esperienza per Li Auto. Ha lamentato: "Stiamo sulle spalle dei giganti e accelerando la ricerca e lo sviluppo di VLA." Questo atteggiamento di apprendimento aperto consente a Li Auto di andare oltre nella terra di nessuno.
Da “Strumenti di Informazione” a “Strumenti di Produzione”
Attualmente, l’industria dell’intelligenza artificiale sta subendo una profonda trasformazione da "strumenti di informazione" a "strumenti di produzione". Con la maturità della tecnologia dei modelli di grandi dimensioni, l’intelligenza artificiale non si limita più all’elaborazione dei dati e alla fornitura di suggerimenti, ma inizia ad avere la capacità di prendere decisioni indipendenti ed eseguire compiti.
Li Xiang ha proposto nella seconda stagione di AI Talk che l’intelligenza artificiale può essere divisa in strumenti di informazione (come la ricerca), strumenti ausiliari (come la navigazione vocale) e strumenti di produzione. Ha sottolineato: "L’intelligenza artificiale che diventa uno strumento di produzione è il momento della vera esplosione." Con la maturità della tecnologia dei modelli di grandi dimensioni, l’intelligenza artificiale non si limita più all’elaborazione dei dati, ma inizia ad avere la capacità di prendere decisioni indipendenti ed eseguire compiti.
Questa tendenza è particolarmente evidente nel concetto di "intelligenza incarnata" - i sistemi di intelligenza artificiale sono dotati di entità fisiche, in grado di percepire, comprendere e interagire con l’ambiente.
Il modello VLA di Li Auto è una pratica vivida di questa tendenza. Integrando visione, linguaggio e intelligenza dell’azione, trasforma l’auto in un agente intelligente in grado di guidare autonomamente e interagire naturalmente con gli utenti, interpretando perfettamente il concetto chiave di "intelligenza incarnata".
Finché gli umani assumono autisti professionisti, l’intelligenza artificiale può diventare uno strumento di produzione. Quando l’intelligenza artificiale diventa uno strumento di produzione, l’intelligenza artificiale esploderà veramente.
Le osservazioni di Li Xiang hanno chiarito il valore fondamentale di VLA: non è più un semplice strumento ausiliario, ma un "agente conducente" in grado di svolgere compiti in modo indipendente e assumersi responsabilità. Questa trasformazione non solo migliora il valore pratico delle auto, ma apre anche uno spazio di immaginazione per l’applicazione dell’intelligenza artificiale in altri campi.
Il pensiero di Li Xiang sull’intelligenza artificiale ha sempre una prospettiva che esce dagli schemi. Ha anche menzionato: "VLA non è un processo di cambiamento improvviso, ma un processo evolutivo." Questa frase riassume accuratamente il percorso tecnico di Li Auto:
Dalla prima guida basata su regole, alle scoperte end-to-end, all’odierno livello di "intelligenza umana" di VLA. Questo pensiero evolutivo non solo rende VLA più fattibile nella tecnologia, ma fornisce anche un paradigma di riferimento per l’industria. Rispetto ad alcuni tentativi che perseguono ciecamente la sovversione, il percorso pragmatico di Li Auto potrebbe essere più adatto al complesso mercato cinese.
Dalla tecnologia alla convinzione, l’esplorazione dell’IA di Li Auto non è agevole. Li Xiang ha ammesso: "Abbiamo affrontato molte sfide nel campo dell’IA, come l’oscurità prima dell’alba, ma crediamo che se perseveriamo, vedremo la luce." La ricerca e lo sviluppo di VLA affrontano problemi come i colli di bottiglia della potenza di calcolo e l’etica dei dati, ma Li Auto ha gradualmente inaugurato la sua alba tecnologica attraverso modelli di base auto-sviluppati e modelli mondiali.
Li Xiang ha anche menzionato nell’intervista che il successo di VLA è inseparabile dall’ascesa dell’IA cinese.
Ha detto che l’emergere di modelli come DeepSeek e Tongyi Qianwen ha fatto sì che il livello di IA cinese si avvicinasse rapidamente agli Stati Uniti. Tra questi, lo spirito open source sostenuto da DeepSeek è particolarmente incoraggiante, il che ha spinto direttamente Li Auto ad aprire Xinghuan OS. Li Xiang ha detto: "Questo non è per considerazioni strategiche aziendali. DeepSeek ci ha dato così tanto aiuto, dovremmo contribuire qualcosa alla società."
Pur perseguendo scoperte tecnologiche, Li Auto non ha ignorato le questioni di sicurezza ed etiche dell’intelligenza artificiale. La tecnologia di "super allineamento" introdotta da VLA rende il comportamento del modello più vicino alle abitudini umane attraverso Reinforcement Learning from Human Feedback (RLHF). I dati mostrano che l’applicazione di VLA ha aumentato l’MPI (chilometraggio medio di intervento) ad alta velocità da 240 km a 300 km.
Ancora più importante, Li Auto sottolinea la costruzione di "IA con valori umani" e considera la moralità e la fiducia come la pietra angolare dello sviluppo tecnologico. Da una prospettiva più ampia, il significato di VLA risiede nel fatto che ridefinisce il ruolo delle case automobilistiche.
In passato, le auto erano mezzi di trasporto dell’era industriale; oggi si stanno evolvendo in "robot spaziali" nell’era dell’intelligenza artificiale. Li Xiang ha menzionato in AI Talk: "Li Auto camminava nella terra di nessuno delle auto e camminerà nella terra di nessuno dell’intelligenza artificiale in futuro." Questa trasformazione di Li Auto porta nuovo spazio di immaginazione al modello di business dell’industria automobilistica.
Naturalmente, lo sviluppo di VLA non è privo di sfide. Il continuo investimento di potenza di calcolo, l’etica dei dati e la creazione della fiducia dei consumatori nella guida autonoma sono tutte questioni che Li Auto deve affrontare. Inoltre, la concorrenza nel settore dell’IA sta diventando sempre più agguerrita. Giganti nazionali ed esteri come Tesla, Waymo e OpenAI stanno accelerando il layout dei modelli multimodali. Li Auto deve mantenere la sua posizione di leadership nell’iterazione tecnologica e nella promozione del mercato. "Non abbiamo scorciatoie, possiamo solo coltivare in profondità", ha detto Li Xiang.
Indubbiamente, lo sbarco di VLA sarà un nodo chiave.
Li Auto prevede di rilasciare VLA contemporaneamente al SUV elettrico puro Li Auto i8 a luglio 2025 e di raggiungere la produzione di massa nel 2026. Questo non è solo un test completo della tecnologia, ma anche un’importante pietra di paragone per il mercato.