En mars de cette année, lors de la conférence GTC de printemps 2025 de NVIDIA, Jia Peng, responsable de la R&D en technologie de conduite autonome chez Li Auto, a présenté leur dernière réalisation : le grand modèle MindVLA.
Ce modèle est un Vision-Language-Action Model (VLA) avec 2,2 milliards de paramètres. Jia Peng a en outre déclaré qu’ils avaient déployé avec succès le modèle dans des véhicules. Li Auto estime que les modèles VLA sont la méthode la plus efficace pour résoudre les défis de l’interaction de l’IA avec le monde physique.
Au cours de l’année écoulée, l’architecture de bout en bout est devenue un point chaud technologique dans le domaine de la conduite intelligente, poussant les entreprises automobiles à passer d’une conception modulaire traditionnelle basée sur des règles à des systèmes intégrés. Les entreprises automobiles qui étaient auparavant en tête avec des algorithmes basés sur des règles sont confrontées à des difficultés de transition, tandis que les retardataires ont saisi l’opportunité d’un avantage concurrentiel.
Li Auto est un excellent exemple de ceci.
Les progrès de Li Auto en matière de conduite intelligente l’année dernière peuvent être décrits comme rapides. En juillet, il a pris l’initiative de réaliser un NOA (Navigation on Autopilot) national sans carte et a lancé une architecture unique “de bout en bout (système rapide) + VLM (système lent)”, qui a reçu une large attention dans l’industrie.
Ce soir, avec la deuxième saison de Li Auto AI Talk, nous avons acquis une compréhension plus approfondie de ce que Li Xiang appelle une “entreprise d’intelligence artificielle”.
Le « grand modèle de conducteur » est aussi votre conducteur
Li Xiang, PDG de Li Auto, a d’abord mentionné VLA lors de la première saison de AI Talk en décembre dernier, lors d’une conversation avec Zhang Xiaojun, le rédacteur technologique en chef de Tencent News. À cette époque, il a déclaré :
Ce que nous faisons avec Li Auto Companion et la conduite autonome est en fait séparé selon les normes de l’industrie, et c’est dans les premiers stades. Le Mind GPT que nous faisons est en fait un grand modèle de langage ; la conduite autonome que nous faisons, nous l’appelons intelligence comportementale en interne, mais telle que définie par Li Feifei (professeur à vie à Stanford, ancien scientifique en chef de Google), elle s’appelle intelligence spatiale. Ce n’est que lorsque vous le ferez à grande échelle que vous saurez que ces deux-là seront définitivement connectés un jour. Nous l’appelons VLA (Vision Language Action Model) en interne.
Li Xiang estime que le modèle de base deviendra certainement VLA à un certain moment. La raison en est que les modèles de langage ne peuvent comprendre le monde tridimensionnel que par le biais du langage et de la cognition, ce qui n’est évidemment pas suffisant. “Il doit être vraiment vectoriel, utilisant Diffusion (modèle de diffusion) et utilisant des méthodes génératives (pour comprendre le monde).”
On peut dire que la naissance de VLA n’est pas seulement une tentative audacieuse d’intégrer en profondeur l’intelligence du langage et l’intelligence spatiale, mais aussi une réinterprétation du concept de « voiture intelligente » par Li Auto.
Li Xiang a en outre défini dans l’AI Talk de ce soir : « VLA est un grand modèle de conducteur, fonctionnant comme un conducteur humain. » Ce n’est pas seulement une technologie, mais aussi un partenaire intelligent qui peut communiquer naturellement avec les utilisateurs et prendre des décisions indépendantes.
Alors, qu’est-ce que VLA exactement ? Le cœur est en fait très simple : en intégrant la perception visuelle, la compréhension du langage naturel et les capacités de génération d’actions, le véhicule devient un « agent conducteur » qui peut communiquer avec les gens et prendre ses propres décisions.
Imaginez-vous assis dans votre voiture et disant avec désinvolture : « Je suis un peu fatigué aujourd’hui, conduisez plus lentement », et le véhicule comprendra non seulement ce que vous voulez dire, mais ajustera également sa vitesse et choisira même un itinéraire plus fluide. Cette interaction naturelle et fluide est exactement ce que VLA veut réaliser. Li Xiang a révélé que toutes les commandes courtes sont traitées directement par le véhicule, tandis que les commandes complexes sont analysées par le modèle basé sur le cloud de 3,2 milliards de paramètres, garantissant à la fois l’efficacité et l’intelligence.
Atteindre cet objectif n’est pas facile. La particularité de VLA est qu’il relie les trois dimensions de la vision, du langage et de l’action. Une simple commande de l’utilisateur peut impliquer une perception en temps réel de l’environnement, une compréhension précise de l’intention linguistique et un ajustement rapide du comportement de conduite. Les trois sont indispensables.
Et la grande chose à propos de VLA est qu’il permet à ces trois de travailler ensemble de manière transparente.
De la vision à la réalité, la R&D de VLA est un territoire inexploré. Li Xiang a admis : « L’acquisition de données visuelles et d’action est la plus difficile. Aucune entreprise ne peut la remplacer. »
Pour comprendre le contexte technique de VLA, nous devons également examiner l’évolution de la conduite intelligente de Li Auto.
Li Xiang a déclaré que le premier système était une intelligence de niveau « insecte », avec seulement des millions de paramètres, pilotée par des règles et des cartes de haute précision, et qu’il était impuissant face à des conditions routières complexes. Plus tard, l’architecture de bout en bout et les modèles visuels-linguistiques ont permis à la technologie de passer au niveau « mammifère », de se débarrasser de la dépendance à la carte, et le NOA national sans carte est devenu une réalité.
En fait, cette étape a déjà placé Li Auto à l’avant-garde de l’industrie, mais ils ne se contentent évidemment pas de cela. De l’avis de Li Xiang, l’émergence de VLA marque le fait que la technologie de conduite intelligente de Li Auto est entrée dans une nouvelle étape de l’« intelligence humaine ».
Par rapport au système précédent, VLA peut non seulement percevoir le monde physique en 3D, mais aussi effectuer un raisonnement logique et même générer des comportements de conduite proches du niveau humain.
Par exemple, supposons que vous disiez « trouver un endroit pour faire demi-tour » dans une rue congestionnée, VLA n’exécutera pas mécaniquement la commande, mais prendra en compte de manière exhaustive les conditions routières, le flux de trafic et les règles de circulation pour trouver le moment et l’endroit les plus raisonnables pour effectuer le demi-tour.
Li Xiang a déclaré que VLA peut rapidement s’adapter à de nouveaux scénarios en générant des données et peut optimiser les réponses même lorsqu’il rencontre des réparations routières complexes pour la première fois en trois jours. Cette flexibilité et ce jugement sont les principaux avantages de VLA.
Le professeur de Li Auto est DeepSeek
VLA est soutenu par un système technique complexe et sophistiqué développé indépendamment par Li Auto. Ce système permet à la voiture non seulement de « comprendre » le monde, mais aussi de penser et d’agir comme un conducteur humain.
La première est la technologie de représentation gaussienne 3D, qui utilise de nombreux « points gaussiens » pour créer un objet 3D. Chaque point contient sa propre position, sa couleur et sa taille. Cette technologie utilise l’apprentissage auto-supervisé pour entraîner un puissant modèle de compréhension spatiale 3D à l’aide de données réelles massives. Grâce à lui, VLA peut « comprendre » le monde environnant comme un humain, sachant où se trouvent les obstacles et où se trouvent les zones praticables.
Ensuite, il y a l’architecture Mixture of Experts (MoE), qui se compose de réseaux d’experts, de réseaux de gating et de combinateurs. Lorsque les paramètres du modèle dépassent des centaines de milliards, la méthode traditionnelle fera participer tous les neurones à chaque calcul, ce qui est un gaspillage de ressources. Le réseau de gating dans l’architecture MoE appellera différents experts en fonction des différentes tâches pour s’assurer que les paramètres d’activation n’augmenteront pas de manière significative.
En parlant de cela, Li Xiang a également fait l’éloge de DeepSeek :
DeepSeek utilise les meilleures pratiques de l’humanité… Lorsqu’ils faisaient DeepSeek V3, V3 était également un MoE, un modèle 671B. Je pense que MoE est une très bonne architecture. Cela équivaut à combiner un groupe d’experts ensemble, et chacun est une capacité d’expert.
Enfin, Li Auto a introduit Sparse Attention dans VLA, ce qui, en termes simples, signifie que VLA ajustera automatiquement les pondérations d’attention des zones clés, améliorant ainsi l’efficacité de l’inférence du côté final.
Li Xiang a déclaré que lors du processus d’entraînement de ce nouveau modèle de base, les ingénieurs de Li Auto ont passé beaucoup de temps à trouver le meilleur rapport de données, intégrant une grande quantité de données 3D et de données textuelles et d’images liées à la conduite autonome, et réduisant la proportion de données littéraires et historiques.
De la perception à la prise de décision, VLA s’appuie sur le mode de combinaison rapide et lente de la pensée humaine. Il peut rapidement produire des décisions d’action simples, telles que l’évitement d’urgence, et peut également utiliser des chaînes de pensée courtes pour « penser lentement » afin de faire face à des scénarios plus complexes, tels que la planification temporaire d’un itinéraire pour contourner la zone de construction. Afin d’améliorer encore les performances en temps réel, VLA a également introduit la technologie de raisonnement spéculatif et de décodage parallèle, tirant pleinement parti de la puissance de calcul de la puce côté véhicule pour garantir que le processus de prise de décision est rapide et non chaotique.
Lors de la génération d’un comportement de conduite, VLA utilise des modèles de diffusion et un apprentissage par renforcement à partir de la rétroaction humaine (RLHF). Le modèle de diffusion est responsable de la génération de trajectoires de conduite optimisées, tandis que RLHF rapproche ces trajectoires des habitudes humaines, à la fois sûres et confortables. Par exemple, VLA ralentira automatiquement lors des virages ou laissera une distance de sécurité suffisante lors des changements de voie. Ces détails reflètent l’apprentissage en profondeur du comportement de conduite humaine.
Le modèle du monde est une autre technologie clé. Li Auto fournit un environnement virtuel de haute qualité pour l’apprentissage par renforcement grâce à la reconstruction et à la génération de scènes. Li Xiang a révélé que le modèle du monde a réduit le coût de vérification de 170 000 à 180 000 yuans par 10 000 kilomètres à 4 000 yuans. Il permet à VLA d’optimiser en permanence dans la simulation et de faire face facilement à des scénarios complexes.
En parlant d’entraînement, le processus de croissance de VLA est également assez organisé. L’ensemble du processus est divisé en trois étapes : le pré-entraînement, le post-entraînement et l’apprentissage par renforcement. « Le pré-entraînement est comme apprendre des connaissances, le post-entraînement est comme apprendre à conduire dans une auto-école et l’apprentissage par renforcement est comme la pratique sociale », a déclaré Li Xiang.
Au cours de la phase de pré-entraînement, Li Auto a créé un modèle de base visuel-linguistique pour VLA, le remplissant de riches données visuelles 3D, d’images haute définition 2D et de corpus liés à la conduite, lui permettant d’abord d’apprendre à « voir » et à « entendre » ; après l’entraînement, le module d’action est ajouté, générant des trajectoires de conduite de 4 à 8 secondes, et le modèle passe de 3,2 milliards de paramètres à 4 milliards.
L’apprentissage par renforcement est divisé en deux étapes : tout d’abord, utiliser RLHF pour aligner les habitudes humaines, analyser les données de reprise et garantir la sécurité et le confort ; ensuite, utiliser l’apprentissage par renforcement pur pour optimiser, sur la base de la valeur G (confort), des collisions et de la rétroaction sur les règles de circulation, afin que VLA « conduise mieux que les humains ». Li Xiang a mentionné que cette étape est effectuée dans le modèle du monde, simulant des scénarios de circulation réels, et que l’efficacité est bien meilleure que la vérification traditionnelle.
Cette méthode d’entraînement garantit non seulement l’avancement technique, mais rend également VLA suffisamment fiable dans les applications pratiques.
Li Xiang a admis que le succès de VLA est indissociable de l’inspiration des références de l’industrie. L’architecture MoE de DeepSeek a non seulement amélioré l’efficacité de l’entraînement, mais a également fourni une expérience précieuse à Li Auto. Il a déploré : « Nous nous tenons sur les épaules de géants et accélérons la R&D de VLA. » Cette attitude d’apprentissage ouverte permet à Li Auto d’aller plus loin dans le no man’s land.
Des « outils d’information » aux « outils de production »
À l’heure actuelle, l’industrie de l’IA subit une profonde transformation, passant des « outils d’information » aux « outils de production ». Avec la maturité de la technologie des grands modèles, l’IA ne se limite plus au traitement des données et à la fourniture de suggestions, mais commence à avoir la capacité de prendre des décisions indépendantes et d’exécuter des tâches.
Li Xiang a proposé lors de la deuxième saison de AI Talk que l’IA puisse être divisée en outils d’information (tels que la recherche), en outils auxiliaires (tels que la navigation vocale) et en outils de production. Il a souligné : « L’intelligence artificielle devenant un outil de production est le moment d’une véritable éclosion. » Avec la maturité de la technologie des grands modèles, l’IA ne se limite plus au traitement des données, mais commence à avoir la capacité de prendre des décisions indépendantes et d’exécuter des tâches.
Cette tendance est particulièrement évidente dans le concept d’« intelligence incarnée » : les systèmes d’IA sont dotés d’entités physiques, capables de détecter, de comprendre et d’interagir avec l’environnement.
Le modèle VLA de Li Auto est une pratique vivante de cette tendance. En intégrant l’intelligence de la vision, du langage et de l’action, il transforme la voiture en un agent intelligent capable de conduire de manière autonome et d’interagir naturellement avec les utilisateurs, interprétant parfaitement le concept central d’« intelligence incarnée ».
Tant que les humains embauchent des conducteurs professionnels, l’intelligence artificielle peut devenir un outil de production. Lorsque l’IA deviendra un outil de production, l’intelligence artificielle explosera vraiment.
Les remarques de Li Xiang ont clarifié la valeur fondamentale de VLA : ce n’est plus un simple outil auxiliaire, mais un « agent conducteur » capable d’exécuter des tâches et d’assumer des responsabilités de manière indépendante. Cette transformation améliore non seulement la valeur pratique des voitures, mais ouvre également un espace d’imagination pour l’application de l’IA dans d’autres domaines.
La réflexion de Li Xiang sur l’IA a toujours une perspective qui sort de l’ordinaire. Il a également mentionné : « VLA n’est pas un processus de changement soudain, mais un processus évolutif. » Cette phrase résume avec précision le chemin technique de Li Auto :
Des premiers systèmes basés sur des règles aux percées de bout en bout, en passant par le niveau d’« intelligence humaine » actuel de VLA. Cette pensée évolutive rend non seulement VLA plus réalisable sur le plan technologique, mais fournit également un paradigme de référence pour l’industrie. Par rapport à certaines tentatives qui poursuivent aveuglément la subversion, le chemin pragmatique de Li Auto pourrait être plus adapté au marché chinois complexe.
De la technologie à la conviction, l’exploration de l’IA par Li Auto n’est pas sans heurts. Li Xiang a admis : « Nous avons rencontré de nombreux défis dans le domaine de l’IA, comme l’obscurité avant l’aube, mais nous pensons que si nous persévérons, nous verrons la lumière. » La R&D de VLA est confrontée à des problèmes tels que les goulots d’étranglement de la puissance de calcul et l’éthique des données, mais Li Auto a progressivement inauguré son aube technologique grâce à des modèles de base et des modèles du monde développés en interne.
Li Xiang a également mentionné dans l’interview que le succès de VLA est indissociable de l’essor de l’IA chinoise.
Il a déclaré que l’émergence de modèles tels que DeepSeek et Tongyi Qianwen a permis au niveau d’IA de la Chine de se rapprocher rapidement des États-Unis. Parmi eux, l’esprit open source défendu par DeepSeek est particulièrement encourageant, ce qui a directement incité Li Auto à ouvrir Xinghuan OS. Li Xiang a déclaré : « Ce n’est pas par souci de stratégie d’entreprise. DeepSeek nous a tellement aidés, nous devrions contribuer quelque chose à la société. »
Tout en poursuivant les percées technologiques, Li Auto n’a pas ignoré les problèmes de sécurité et d’éthique de la technologie de l’IA. La technologie de « super alignement » introduite par VLA rapproche le comportement du modèle des habitudes humaines grâce à l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF). Les données montrent que l’application de VLA a augmenté le MPI à grande vitesse (kilométrage d’intervention moyen) de 240 km à 300 km.
Plus important encore, Li Auto met l’accent sur la construction d’une « IA avec des valeurs humaines » et considère la moralité et la confiance comme la pierre angulaire du développement technologique. D’un point de vue plus macro, la signification de VLA réside dans le fait qu’il redéfinit le rôle des entreprises automobiles.
Dans le passé, les voitures étaient des moyens de transport de l’ère industrielle ; aujourd’hui, elles évoluent vers des « robots spatiaux » à l’ère de l’intelligence artificielle. Li Xiang a mentionné dans AI Talk : « Li Auto avait l’habitude de marcher dans le no man’s land des voitures et marchera dans le no man’s land de l’intelligence artificielle à l’avenir. » Cette transformation de Li Auto apporte un nouvel espace d’imagination au modèle commercial de l’industrie automobile.
Bien sûr, le développement de VLA n’est pas sans défis. L’investissement continu dans la puissance de calcul, l’éthique des données et l’établissement de la confiance des consommateurs dans la conduite autonome sont tous des problèmes auxquels Li Auto doit faire face. En outre, la concurrence dans l’industrie de l’IA devient de plus en plus féroce. Les géants nationaux et étrangers tels que Tesla, Waymo et OpenAI accélèrent la mise en place de modèles multimodaux. Li Auto doit maintenir sa position de leader dans l’itération technologique et la promotion du marché. « Nous n’avons pas de raccourcis, nous ne pouvons que cultiver en profondeur », a déclaré Li Xiang.
Sans aucun doute, l’arrivée de VLA sera un nœud clé.
Li Auto prévoit de lancer VLA simultanément avec le SUV purement électrique Li Auto i8 en juillet 2025 et de réaliser une production de masse en 2026. Il ne s’agit pas seulement d’un test complet de la technologie, mais aussi d’une pierre de touche importante pour le marché.