In maart van dit jaar, tijdens NVIDIA’s 2025 Spring GTC conferentie, introduceerde Jia Peng, hoofd van Autonomous Driving Technology R&D bij Li Auto, hun nieuwste prestatie: het MindVLA grote model.
Dit model is een Vision-Language-Action Model (VLA) met 2,2 miljard parameters. Jia Peng verklaarde verder dat ze het model met succes in voertuigen hebben ingezet. Li Auto gelooft dat VLA-modellen de meest effectieve methode zijn om de uitdagingen op te lossen van AI die interageert met de fysieke wereld.
Het afgelopen jaar is end-to-end architectuur een technologische hotspot geworden op het gebied van intelligent rijden, waardoor autobedrijven verschuiven van traditioneel modulair regelontwerp naar geïntegreerde systemen. Autobedrijven die voorheen toonaangevend waren met op regels gebaseerde algoritmen, ondervinden overgangsproblemen, terwijl laatkomers de kans hebben gegrepen voor een concurrentievoordeel.
Li Auto is hier een goed voorbeeld van.
De vooruitgang van Li Auto op het gebied van intelligent rijden het afgelopen jaar kan als snel worden omschreven. In juli liep het voorop bij het realiseren van landelijke no-map NOA (Navigation on Autopilot) en lanceerde het een unieke “end-to-end (snel systeem) + VLM (langzaam systeem)” architectuur, die in de industrie veel aandacht heeft gekregen.
Vanavond, met het tweede seizoen van Li Auto AI Talk, hebben we een dieper inzicht gekregen in wat Li Xiang aanduidt als een “artificial intelligence company.”
Het “Driver Large Model” Is Ook Jouw Chauffeur
Li Xiang, CEO van Li Auto, noemde VLA voor het eerst in het AI Talk eerste seizoen in december vorig jaar, in een gesprek met Zhang Xiaojun, de chief technology writer van Tencent News. Destijds zei hij:
Wat we doen met Li Auto Companion en autonoom rijden is eigenlijk gescheiden volgens industrienormen, en het bevindt zich in de vroege stadia. De Mind GPT die we doen is eigenlijk een groot taalmodel; het autonome rijden dat we doen, noemen we intern gedragsintelligentie, maar zoals gedefinieerd door Li Feifei (Stanford Lifetime Professor, voormalig Google Chief Scientist), wordt het ruimtelijke intelligentie genoemd. Alleen als je het echt op grote schaal doet, weet je dat deze twee op een dag zeker verbonden zullen zijn. We noemen het intern VLA (Vision Language Action Model).
Li Xiang gelooft dat het basismodel op een bepaald moment zeker VLA zal worden. De reden is dat taalmodellen de driedimensionale wereld alleen kunnen begrijpen via taal en cognitie, wat uiteraard niet genoeg is. “Het moet echt vectorgebaseerd zijn, Diffusion (diffusiemodel) gebruiken en generatieve methoden gebruiken (om de wereld te begrijpen).”
Men kan zeggen dat de geboorte van VLA niet alleen een gedurfde poging is om taalintelligentie en ruimtelijke intelligentie diepgaand te integreren, maar ook een herinterpretatie van het concept “intelligente auto” door Li Auto.
Li Xiang definieerde verder in de AI Talk van vanavond: “VLA is een driver large model, dat werkt als een menselijke chauffeur.” Het is niet alleen een technologie, maar ook een intelligente partner die op natuurlijke wijze met gebruikers kan communiceren en zelfstandige beslissingen kan nemen.
Dus, wat is VLA precies? De kern is eigenlijk heel eenvoudig: door visuele perceptie, natuurlijke taalbegrip en actiegeneratiemogelijkheden te integreren, wordt het voertuig een “driver agent” die met mensen kan communiceren en zijn eigen beslissingen kan nemen.
Stel je voor dat je in je auto zit en nonchalant zegt: “Ik ben vandaag een beetje moe, rijd langzamer,” en het voertuig zal niet alleen begrijpen wat je bedoelt, maar ook zijn snelheid aanpassen en zelfs een soepelere route kiezen. Deze natuurlijke en vlotte interactie is precies wat VLA wil bereiken. Li Xiang onthulde dat alle korte commando’s rechtstreeks door het voertuig worden verwerkt, terwijl complexe commando’s worden geparseerd door het cloudgebaseerde model met 3,2 miljard parameters, waardoor zowel efficiëntie als intelligentie worden gewaarborgd.
Het bereiken van dit doel is niet eenvoudig. Het bijzondere aan VLA is dat het de drie dimensies van visie, taal en actie verbindt. Een eenvoudig commando van de gebruiker kan real-time perceptie van de omgeving, nauwkeurig begrip van de taalintentie en snelle aanpassing van het rijgedrag met zich meebrengen. De drie zijn onmisbaar.
En het geweldige aan VLA is dat het deze drie naadloos laat samenwerken.
Van visie tot realiteit, de R&D van VLA is een onbekend terrein. Li Xiang gaf toe: “De acquisitie van visuele en actiedata is het moeilijkst. Geen enkel bedrijf kan het vervangen.”
Om de technische achtergrond van VLA te begrijpen, moeten we ook kijken naar de evolutie van Li Auto’s intelligent rijden.
Li Xiang zei dat het vroege systeem “insect-level” intelligentie was, met slechts miljoenen parameters, aangedreven door regels en zeer nauwkeurige kaarten, en hulpeloos was bij complexe wegomstandigheden. Later zorgden end-to-end architectuur en visueel-taalmodellen ervoor dat de technologie naar “zoogdier-level” kon springen, af van kaartafhankelijkheid, en landelijke no-map NOA werd werkelijkheid.
In feite heeft deze stap Li Auto al aan de top van de industrie geplaatst, maar ze zijn hier duidelijk niet tevreden mee. Volgens Li Xiang markeert de opkomst van VLA dat Li Auto’s intelligente rijtechnologie een nieuwe fase van “menselijke intelligentie” is ingegaan.
Vergeleken met het vorige systeem kan VLA niet alleen de 3D fysieke wereld waarnemen, maar ook logisch redeneren en zelfs rijgedrag genereren dat dicht bij het menselijke niveau ligt.
Voor een eenvoudig voorbeeld, stel dat je “zoek een plek om om te draaien” zegt in een drukke straat, VLA zal het commando niet mechanisch uitvoeren, maar zal de wegomstandigheden, de verkeersstroom en de verkeersregels uitgebreid overwegen om het meest redelijke tijdstip en de meest redelijke locatie te vinden om de U-bocht te voltooien.
Li Xiang zei dat VLA zich snel kan aanpassen aan nieuwe scenario’s door data te genereren, en reacties kan optimaliseren, zelfs wanneer het voor het eerst complexe wegreparaties tegenkomt binnen drie dagen. Deze flexibiliteit en dit oordeel zijn de belangrijkste voordelen van VLA.
Li Auto’s Leraar Is DeepSeek
Het ondersteunen van VLA is een complex en geavanceerd technisch systeem dat onafhankelijk is ontwikkeld door Li Auto. Dit systeem stelt de auto in staat om niet alleen de wereld te “begrijpen”, maar ook te denken en te handelen als een menselijke chauffeur.
De eerste is 3D Gaussian representation technology, die veel “Gaussian points” gebruikt om een 3D object te creëren. Elk punt bevat zijn eigen positie, kleur en grootte informatie. Deze technologie gebruikt self-supervised learning om een krachtig 3D ruimtelijk begripsmodel te trainen met behulp van enorme hoeveelheden echte data. Hiermee kan VLA de omringende wereld “begrijpen” als een mens, wetende waar de obstakels zijn en waar de begaanbare gebieden zijn.
De volgende is de Mixture of Experts (MoE) architectuur, die bestaat uit expertnetwerken, gating netwerken en combiners. Wanneer de modelparameters honderden miljarden overschrijden, zal de traditionele methode alle neuronen laten deelnemen aan elke berekening, wat een verspilling van middelen is. Het gating netwerk in de MoE architectuur zal verschillende experts aanroepen op basis van verschillende taken om ervoor te zorgen dat de activeringsparameters niet significant toenemen.
Hierover sprekend prees Li Xiang ook DeepSeek:
DeepSeek gebruikt de beste praktijken van de mensheid… Toen ze DeepSeek V3 aan het doen waren, was V3 ook een MoE, een 671B model. Ik denk dat MoE een zeer goede architectuur is. Het is gelijk aan het combineren van een stel experts, en elk is een expert vaardigheid.
Ten slotte introduceerde Li Auto Sparse Attention aan VLA, wat in lekentermen betekent dat VLA automatisch de aandachtsgewichten van belangrijke gebieden zal aanpassen, waardoor de inference-efficiëntie van de end side wordt verbeterd.
Li Xiang zei dat de ingenieurs van Li Auto tijdens het trainingsproces van dit nieuwe basismodel veel tijd hebben besteed aan het vinden van de beste dataverhouding, het integreren van een grote hoeveelheid 3D data en tekst- en beelddata gerelateerd aan autonoom rijden, en het verminderen van het aandeel literaire en historische data.
Van perceptie tot besluitvorming, VLA maakt gebruik van de snelle en langzame combinatiemodus van menselijk denken. Het kan snel eenvoudige actiebeslissingen uitvoeren, zoals noodontwijking, en kan ook korte denkketens gebruiken om “langzaam na te denken” om meer complexe scenario’s aan te pakken, zoals het tijdelijk plannen van een route om het bouwgebied te omzeilen. Om de real-time prestaties verder te verbeteren, introduceerde VLA ook speculatieve redenering en parallelle decoderingstechnologie, waardoor de rekenkracht van de voertuig-side chip volledig werd benut om ervoor te zorgen dat het besluitvormingsproces snel en niet chaotisch verloopt.
Bij het genereren van rijgedrag gebruikt VLA Diffusion-modellen en Reinforcement Learning from Human Feedback (RLHF). Het Diffusion-model is verantwoordelijk voor het genereren van geoptimaliseerde rijtrajecten, terwijl RLHF deze trajecten dichter bij menselijke gewoonten brengt, zowel veilig als comfortabel. VLA zal bijvoorbeeld automatisch vertragen bij het afslaan, of voldoende veilige afstand bewaren bij het invoegen van rijstroken. Deze details weerspiegelen het diepe leren van menselijk rijgedrag.
Het wereldmodel is een andere belangrijke technologie. Li Auto biedt een hoogwaardige virtuele omgeving voor reinforcement learning door middel van scènereconstructie en -generatie. Li Xiang onthulde dat het wereldmodel de verificatiekosten heeft verlaagd van 170.000-180.000 yuan per 10.000 kilometer naar 4.000 yuan. Het stelt VLA in staat om continu te optimaliseren in simulatie en complexe scenario’s met gemak aan te pakken.
Over training gesproken, het groeiproces van VLA is ook vrij georganiseerd. Het hele proces is verdeeld in drie fasen: pre-training, post-training en reinforcement learning. “Pre-training is als het leren van kennis, post-training is als het leren autorijden op een rijschool, en reinforcement learning is als sociale praktijk,” zei Li Xiang.
In de pre-training fase creëerde Li Auto een visueel-taal basismodel voor VLA, vulde het met rijke 3D visuele data, 2D high-definition beelden en rijgerelateerde corpora, waardoor het eerst leerde “zien” en “horen”; na de training wordt de actiemodule toegevoegd, worden 4-8 seconden rijtrajecten gegenereerd en breidt het model zich uit van 3,2 miljard parameters naar 4 miljard.
Reinforcement learning is verdeeld in twee stappen: eerst RLHF gebruiken om menselijke gewoonten af te stemmen, takeover-data te analyseren en veiligheid en comfort te garanderen; vervolgens pure reinforcement learning gebruiken om te optimaliseren, op basis van G-waarde (comfort), botsing en feedback over verkeersregels, zodat VLA “beter rijdt dan mensen.” Li Xiang zei dat deze fase is voltooid in het wereldmodel, waarbij echte verkeersscenario’s worden gesimuleerd, en de efficiëntie is veel beter dan traditionele verificatie.
Deze trainingsmethode garandeert niet alleen de technische vooruitgang, maar maakt VLA ook betrouwbaar genoeg in praktische toepassingen.
Li Xiang gaf toe dat het succes van VLA onlosmakelijk verbonden is met de inspiratie van benchmarks in de industrie. De MoE-architectuur van DeepSeek verbeterde niet alleen de trainingsefficiëntie, maar bood ook waardevolle ervaring voor Li Auto. Hij betreurde: “We staan op de schouders van reuzen en versnellen de R&D van VLA.” Deze open leergierige houding stelt Li Auto in staat om verder te gaan in het niemandsland.
Van “Informatietools” naar “Productietools”
Momenteel ondergaat de AI-industrie een diepgaande transformatie van “informatietools” naar “productietools.” Met de volwassenheid van large model technologie is AI niet langer beperkt tot het verwerken van data en het geven van suggesties, maar begint het het vermogen te hebben om zelfstandige beslissingen te nemen en taken uit te voeren.
Li Xiang stelde in het tweede seizoen van AI Talk voor dat AI kan worden onderverdeeld in informatietools (zoals zoeken), hulpmiddelen (zoals stemnavigatie) en productietools. Hij benadrukte: “Artificial intelligence die een productietool wordt, is het moment van echte uitbraak.” Met de volwassenheid van large model technologie is AI niet langer beperkt tot het verwerken van data, maar begint het het vermogen te hebben om zelfstandige beslissingen te nemen en taken uit te voeren.
Deze trend is vooral duidelijk in het concept van “embodied intelligence” - AI-systemen krijgen fysieke entiteiten, die in staat zijn om de omgeving waar te nemen, te begrijpen en ermee te interageren.
Li Auto’s VLA-model is een levendige praktijk van deze trend. Door visie, taal en actie intelligentie te integreren, transformeert het de auto in een intelligente agent die autonoom kan rijden en op natuurlijke wijze met gebruikers kan interageren, waardoor het kernconcept van “embodied intelligence” perfect wordt geïnterpreteerd.
Zolang mensen professionele chauffeurs inhuren, kan artificial intelligence een productietool worden. Wanneer AI een productietool wordt, zal artificial intelligence echt exploderen.
Li Xiang’s opmerkingen verduidelijkten de kernwaarde van VLA - het is niet langer een eenvoudig hulpmiddel, maar een “driver agent” die zelfstandig taken kan uitvoeren en verantwoordelijkheden kan aanvaarden. Deze transformatie verbetert niet alleen de praktische waarde van auto’s, maar opent ook de verbeeldingsruimte voor de toepassing van AI in andere velden.
Li Xiang’s denken over AI heeft altijd een perspectief dat buiten de lijntjes kleurt. Hij zei ook: “VLA is geen plotseling veranderingsproces, maar een evolutionair proces.” Deze zin vat Li Auto’s technische pad nauwkeurig samen -
Van vroeg regelgedreven, tot end-to-end doorbraken, tot het huidige VLA’s “menselijke intelligentie” niveau. Dit evolutionaire denken maakt VLA niet alleen haalbaarder in technologie, maar biedt ook een referentieparadigma voor de industrie. Vergeleken met sommige pogingen die blindelings subversie nastreven, is Li Auto’s pragmatische pad misschien meer geschikt voor de complexe Chinese markt.
Van technologie tot geloof, Li Auto’s AI-verkenning verloopt niet soepel. Li Xiang gaf toe: “We hebben veel uitdagingen ervaren op het AI-gebied, zoals de duisternis voor de dageraad, maar we geloven dat als we volharden, we het licht zullen zien.” De R&D van VLA staat voor problemen zoals rekenkrachtknelpunten en data-ethiek, maar Li Auto heeft geleidelijk hun technologische dageraad ingeluid door middel van zelfontwikkelde basismodellen en wereldmodellen.
Li Xiang noemde in het interview ook dat het succes van VLA onlosmakelijk verbonden is met de opkomst van Chinese AI.
Hij zei dat de opkomst van modellen zoals DeepSeek en Tongyi Qianwen het AI-niveau van China snel heeft doen naderen tot de Verenigde Staten. Onder hen is de open source geest die DeepSeek aanhangt bijzonder bemoedigend, wat Li Auto er direct toe aanzette Xinghuan OS open source te maken. Li Xiang zei: “Dit is niet uit strategische overwegingen van het bedrijf. DeepSeek heeft ons zoveel geholpen, we zouden iets aan de maatschappij moeten bijdragen.”
Terwijl het technologische doorbraken nastreeft, heeft Li Auto de veiligheids- en ethische kwesties van AI-technologie niet genegeerd. De “super alignment” technologie die door VLA wordt geïntroduceerd, maakt het gedrag van het model dichter bij menselijke gewoonten door Reinforcement Learning from Human Feedback (RLHF). Data tonen aan dat de toepassing van VLA de high-speed MPI (gemiddelde interventie kilometers) heeft verhoogd van 240 km naar 300 km.
Belangrijker nog, Li Auto benadrukt het bouwen van “AI met menselijke waarden” en beschouwt moraliteit en vertrouwen als de hoeksteen van technologische ontwikkeling. Vanuit een meer macro perspectief ligt de betekenis van VLA in het feit dat het de rol van autobedrijven herdefinieert.
In het verleden waren auto’s transportmiddelen uit het industriële tijdperk; tegenwoordig evolueren ze naar “ruimtelijke robots” in het artificial intelligence tijdperk. Li Xiang noemde in AI Talk: “Li Auto liep vroeger in het niemandsland van auto’s, en zal in de toekomst in het niemandsland van artificial intelligence lopen.” Deze transformatie van Li Auto brengt nieuwe verbeeldingsruimte naar het businessmodel van de auto-industrie.
Natuurlijk is de ontwikkeling van VLA niet zonder uitdagingen. De continue investering van rekenkracht, data-ethiek en het vestigen van consumentenvertrouwen in autonoom rijden zijn allemaal kwesties waarmee Li Auto te maken krijgt. Bovendien wordt de concurrentie in de AI-industrie steeds heviger. Binnen- en buitenlandse giganten zoals Tesla, Waymo en OpenAI versnellen de lay-out van multi-modale modellen. Li Auto moet zijn leidende positie in technologische iteratie en marktpromotie behouden. “We hebben geen shortcuts, we kunnen alleen diep cultiveren,” zei Li Xiang.
Ongetwijfeld zal de landing van VLA een belangrijk knooppunt zijn.
Li Auto is van plan VLA tegelijkertijd met de pure elektrische SUV Li Auto i8 in juli 2025 uit te brengen, en massaproductie te bereiken in 2026. Dit is niet alleen een uitgebreide test van technologie, maar ook een belangrijke toetssteen voor de markt.