Im März dieses Jahres stellte Jia Peng, Leiter der Forschung und Entwicklung für autonome Fahrtechnologie bei Li Auto, auf der Spring GTC-Konferenz 2025 von NVIDIA ihre neueste Errungenschaft vor: das große Modell MindVLA.
Dieses Modell ist ein Vision-Language-Action Model (VLA) mit 2,2 Milliarden Parametern. Jia Peng erklärte weiter, dass sie das Modell erfolgreich in Fahrzeuge implementiert haben. Li Auto ist davon überzeugt, dass VLA-Modelle die effektivste Methode sind, um die Herausforderungen der KI bei der Interaktion mit der physischen Welt zu lösen.
Im vergangenen Jahr hat sich die End-to-End-Architektur zu einem technologischen Hotspot im Bereich des intelligenten Fahrens entwickelt und Automobilunternehmen dazu veranlasst, von traditionellen modularen Regeldesigns zu integrierten Systemen überzugehen. Automobilunternehmen, die bisher mit regelbasierten Algorithmen führend waren, stehen vor Übergangsschwierigkeiten, während Nachzügler die Chance auf einen Wettbewerbsvorteil genutzt haben.
Li Auto ist ein Paradebeispiel dafür.
Die Fortschritte von Li Auto im Bereich des intelligenten Fahrens im vergangenen Jahr können als rasant bezeichnet werden. Im Juli übernahm das Unternehmen die Führung bei der landesweiten Einführung von No-Map NOA (Navigation on Autopilot) und lancierte eine einzigartige Architektur \„End-to-End (schnelles System) + VLM (langsames System)", die in der Branche breite Aufmerksamkeit erregt hat.
Heute Abend haben wir mit der zweiten Staffel von Li Auto AI Talk ein tieferes Verständnis dafür gewonnen, was Li Xiang als \„Unternehmen für künstliche Intelligenz\“ bezeichnet.
Der \„Fahrer Large Model\“ ist auch Ihr Fahrer
Li Xiang, CEO von Li Auto, erwähnte VLA erstmals in der ersten Staffel von AI Talk im vergangenen Dezember in einem Gespräch mit Zhang Xiaojun, dem Cheftechnologieautor von Tencent News. Damals sagte er:
Was wir mit Li Auto Companion und autonomem Fahren machen, ist eigentlich getrennt nach Industriestandards, und es befindet sich in einem frühen Stadium. Das Mind GPT, das wir machen, ist eigentlich ein großes Sprachmodell; das autonome Fahren, das wir machen, nennen wir intern Verhaltensintelligenz, aber wie von Li Feifei (Stanford Lifetime Professor, ehemalige Google Chief Scientist) definiert, wird es räumliche Intelligenz genannt. Erst wenn man es wirklich in großem Maßstab macht, wird man wissen, dass diese beiden eines Tages definitiv miteinander verbunden sein werden. Wir nennen es intern VLA (Vision Language Action Model).
Li Xiang glaubt, dass das Basismodell zu einem bestimmten Zeitpunkt definitiv zu VLA wird. Der Grund dafür ist, dass Sprachmodelle die dreidimensionale Welt nur durch Sprache und Kognition verstehen können, was offensichtlich nicht ausreicht. \„Es muss wirklich vektor basiert sein, Diffusion (Diffusionsmodell) verwenden und generative Methoden (um die Welt zu verstehen) verwenden.\“
Man kann sagen, dass die Geburt von VLA nicht nur ein mutiger Versuch ist, Sprachintelligenz und räumliche Intelligenz tiefgreifend zu integrieren, sondern auch eine Neuinterpretation des Konzepts \„intelligentes Auto\“ durch Li Auto.
Li Xiang definierte im heutigen AI Talk weiter: \„VLA ist ein Fahrer Large Model, das wie ein menschlicher Fahrer arbeitet.\“ Es ist nicht nur eine Technologie, sondern auch ein intelligenter Partner, der natürlich mit Benutzern kommunizieren und unabhängige Entscheidungen treffen kann.
Was genau ist also VLA? Der Kern ist eigentlich sehr einfach: Durch die Integration von visueller Wahrnehmung, natürlicher Sprachverständigung und Aktionsgenerierungsfähigkeiten wird das Fahrzeug zu einem \„Fahreragenten\“, der mit Menschen kommunizieren und seine eigenen Entscheidungen treffen kann.
Stellen Sie sich vor, Sie sitzen in Ihrem Auto und sagen beiläufig: \„Ich bin heute etwas müde, fahr langsamer\“, und das Fahrzeug versteht nicht nur, was Sie meinen, sondern passt auch seine Geschwindigkeit an und wählt sogar eine reibungslosere Route. Diese natürliche und reibungslose Interaktion ist genau das, was VLA erreichen will. Li Xiang enthüllte, dass alle kurzen Befehle direkt vom Fahrzeug verarbeitet werden, während komplexe Befehle vom Cloud-basierten Modell mit 3,2 Milliarden Parametern analysiert werden, wodurch sowohl Effizienz als auch Intelligenz gewährleistet werden.
Dieses Ziel zu erreichen ist nicht einfach. Das Besondere an VLA ist, dass es die drei Dimensionen Vision, Sprache und Handlung verbindet. Ein einfacher Befehl des Benutzers kann die Echtzeitwahrnehmung der Umgebung, das genaue Verständnis der Sprachabsicht und die schnelle Anpassung des Fahrverhaltens beinhalten. Die drei sind unerlässlich.
Und das Tolle an VLA ist, dass es diesen drei ermöglicht, nahtlos zusammenzuarbeiten.
Von der Vision zur Realität ist die Forschung und Entwicklung von VLA ein unbeschriebenes Gebiet. Li Xiang räumte ein: \„Die Erfassung von visuellen und Aktionsdaten ist am schwierigsten. Kein Unternehmen kann es ersetzen.\“
Um den technischen Hintergrund von VLA zu verstehen, müssen wir uns auch die Entwicklung des intelligenten Fahrens von Li Auto ansehen.
Li Xiang sagte, dass das frühe System eine Intelligenz auf \„Insektenniveau\“ war, mit nur Millionen von Parametern, angetrieben von Regeln und hochpräzisen Karten, und hilflos war, wenn es auf komplexe Straßenverhältnisse stieß. Später ermöglichten End-to-End-Architektur und visuell-sprachliche Modelle der Technologie den Sprung auf \„Säugetierniveau\“, die Beseitigung der Kartenabhängigkeit, und landesweite No-Map NOA wurde Realität.
Tatsächlich hat dieser Schritt Li Auto bereits an die Spitze der Branche gebracht, aber sie sind damit offensichtlich nicht zufrieden. Nach Ansicht von Li Xiang markiert das Aufkommen von VLA, dass die intelligente Fahrtechnologie von Li Auto in eine neue Phase der \„menschlichen Intelligenz\“ eingetreten ist.
Im Vergleich zum vorherigen System kann VLA nicht nur die physische 3D-Welt wahrnehmen, sondern auch logische Schlussfolgerungen ziehen und sogar Fahrverhalten erzeugen, das dem menschlichen Niveau nahekommt.
Nehmen wir ein einfaches Beispiel: Angenommen, Sie sagen auf einer verstopften Straße \„finde einen Ort zum Wenden\“, wird VLA den Befehl nicht mechanisch ausführen, sondern die Straßenverhältnisse, den Verkehrsfluss und die Verkehrsregeln umfassend berücksichtigen, um den vernünftigsten Zeitpunkt und Ort für die Durchführung der Kehrtwende zu finden.
Li Xiang sagte, dass VLA sich durch die Generierung von Daten schnell an neue Szenarien anpassen kann und die Reaktionen sogar bei komplexen Straßensanierungen zum ersten Mal innerhalb von drei Tagen optimieren kann. Diese Flexibilität und dieses Urteilsvermögen sind die Kernvorteile von VLA.
Der Lehrer von Li Auto ist DeepSeek
Die Unterstützung von VLA ist ein komplexes und ausgeklügeltes technisches System, das unabhängig von Li Auto entwickelt wurde. Dieses System ermöglicht es dem Auto nicht nur, die Welt zu \„verstehen\“, sondern auch wie ein menschlicher Fahrer zu denken und zu handeln.
Das erste ist die 3D-Gauß-Darstellungstechnologie, die viele \„Gauß-Punkte\“ verwendet, um ein 3D-Objekt zu erstellen. Jeder Punkt enthält seine eigene Positions-, Farb- und Größeninformation. Diese Technologie verwendet selbstüberwachtes Lernen, um ein leistungsstarkes 3D-Raumverständnismodell mithilfe massiver realer Daten zu trainieren. Damit kann VLA die Umgebung wie ein Mensch \„verstehen\“, wissen, wo sich die Hindernisse befinden und wo die passierbaren Bereiche sind.
Als nächstes kommt die Mixture of Experts (MoE)-Architektur, die aus Expertennetzwerken, Gating-Netzwerken und Combinern besteht. Wenn die Modellparameter Hundertmilliarden überschreiten, wird die traditionelle Methode alle Neuronen an jeder Berechnung teilnehmen lassen, was eine Verschwendung von Ressourcen darstellt. Das Gating-Netzwerk in der MoE-Architektur wird verschiedene Experten je nach Aufgabe aufrufen, um sicherzustellen, dass die Aktivierungsparameter nicht wesentlich ansteigen.
Als er darüber sprach, lobte Li Xiang auch DeepSeek:
DeepSeek verwendet die besten Praktiken der Menschheit… Als sie DeepSeek V3 entwickelten, war V3 auch ein MoE, ein 671B-Modell. Ich denke, MoE ist eine sehr gute Architektur. Es ist gleichbedeutend mit der Zusammenführung eines Haufens Experten, und jeder von ihnen ist eine Expertenfähigkeit.
Schließlich führte Li Auto Sparse Attention in VLA ein, was in einfachen Worten bedeutet, dass VLA die Aufmerksamkeitsgewichte von Schlüsselbereichen automatisch anpasst, wodurch die Inferenzeffizienz der Endseite verbessert wird.
Li Xiang sagte, dass die Ingenieure von Li Auto im Trainingsprozess dieses neuen Basismodells viel Zeit damit verbracht haben, das beste Datenverhältnis zu finden, eine große Menge an 3D-Daten sowie Text- und Bilddaten im Zusammenhang mit dem autonomen Fahren zu integrieren und den Anteil an literarischen und historischen Daten zu reduzieren.
Von der Wahrnehmung bis zur Entscheidungsfindung greift VLA auf den schnellen und langsamen Kombinationsmodus des menschlichen Denkens zurück. Es kann schnell einfache Handlungsentscheidungen ausgeben, wie z. B. Notfallausweichungen, und kann auch kurze Denkketten verwenden, um \„langsam zu denken\“, um komplexere Szenarien zu bewältigen, wie z. B. die vorübergehende Planung einer Route zur Umgehung des Baustellenbereichs. Um die Echtzeitleistung weiter zu verbessern, führte VLA auch spekulative Schlussfolgerungen und parallele Dekodierungstechnologie ein, wodurch die Rechenleistung des fahrzeugseitigen Chips voll ausgeschöpft wurde, um sicherzustellen, dass der Entscheidungsprozess schnell und nicht chaotisch verläuft.
Bei der Generierung von Fahrverhalten verwendet VLA Diffusionsmodelle und Reinforcement Learning from Human Feedback (RLHF). Das Diffusionsmodell ist für die Generierung optimierter Fahrtrajektorien verantwortlich, während RLHF diese Trajektorien den menschlichen Gewohnheiten näherbringt, sowohl sicher als auch komfortabel. Zum Beispiel verlangsamt VLA automatisch die Geschwindigkeit beim Abbiegen oder lässt genügend Sicherheitsabstand beim Zusammenführen von Fahrspuren. Diese Details spiegeln das tiefe Lernen des menschlichen Fahrverhaltens wider.
Das Weltmodell ist eine weitere Schlüsseltechnologie. Li Auto bietet eine hochwertige virtuelle Umgebung für Reinforcement Learning durch Szenenrekonstruktion und -generierung. Li Xiang enthüllte, dass das Weltmodell die Verifizierungskosten von 170.000-180.000 Yuan pro 10.000 Kilometern auf 4.000 Yuan gesenkt hat. Es ermöglicht VLA, sich in der Simulation kontinuierlich zu optimieren und komplexe Szenarien mit Leichtigkeit zu bewältigen.
Apropos Training, der Wachstumsprozess von VLA ist ebenfalls recht organisiert. Der gesamte Prozess ist in drei Phasen unterteilt: Vortraining, Nachtraining und Reinforcement Learning. \„Vortraining ist wie das Erlernen von Wissen, Nachtraining ist wie das Autofahren in einer Fahrschule und Reinforcement Learning ist wie soziale Praxis\“, sagte Li Xiang.
In der Vortrainingsphase erstellte Li Auto ein visuell-sprachliches Basismodell für VLA und stopfte es mit reichhaltigen visuellen 3D-Daten, hochauflösenden 2D-Bildern und fahrbezogenen Texten voll, sodass es zunächst lernte, zu \„sehen\“ und zu \„hören\“; nach dem Training wird das Aktionsmodul hinzugefügt, wodurch 4-8 Sekunden Fahrtrajektorien generiert werden und das Modell von 3,2 Milliarden Parametern auf 4 Milliarden erweitert wird.
Reinforcement Learning ist in zwei Schritte unterteilt: Zuerst verwenden Sie RLHF, um menschliche Gewohnheiten auszurichten, Übernahmedaten zu analysieren und Sicherheit und Komfort zu gewährleisten; dann verwenden Sie reines Reinforcement Learning, um basierend auf G-Wert (Komfort), Kollision und Feedback zu Verkehrsregeln zu optimieren, sodass VLA \„besser fährt als Menschen\“. Li Xiang erwähnte, dass diese Phase im Weltmodell abgeschlossen wird, wobei reale Verkehrsszenarien simuliert werden, und die Effizienz weitaus besser ist als bei der traditionellen Verifizierung.
Diese Trainingsmethode garantiert nicht nur den technischen Fortschritt, sondern macht VLA auch in praktischen Anwendungen zuverlässig genug.
Li Xiang räumte ein, dass der Erfolg von VLA untrennbar mit der Inspiration von Branchenbenchmarks verbunden ist. Die MoE-Architektur von DeepSeek verbesserte nicht nur die Trainingseffizienz, sondern lieferte auch wertvolle Erfahrungen für Li Auto. Er beklagte: \„Wir stehen auf den Schultern von Riesen und beschleunigen die Forschung und Entwicklung von VLA.\“ Diese offene Lernhaltung ermöglicht es Li Auto, im Niemandsland weiter voranzukommen.
Von \„Informationstools\“ zu \„Produktionstools\“
Derzeit durchläuft die KI-Branche einen tiefgreifenden Wandel von \„Informationstools\“ zu \„Produktionstools\“. Mit der Reife der Large-Model-Technologie beschränkt sich KI nicht mehr auf die Verarbeitung von Daten und die Bereitstellung von Vorschlägen, sondern beginnt, die Fähigkeit zu haben, unabhängige Entscheidungen zu treffen und Aufgaben auszuführen.
Li Xiang schlug in der zweiten Staffel von AI Talk vor, dass KI in Informationstools (wie z. B. Suche), Hilfswerkzeuge (wie z. B. Sprachnavigation) und Produktionstools unterteilt werden kann. Er betonte: \„Künstliche Intelligenz, die zu einem Produktionstool wird, ist der Moment des wahren Ausbruchs.\“ Mit der Reife der Large-Model-Technologie beschränkt sich KI nicht mehr auf die Verarbeitung von Daten, sondern beginnt, die Fähigkeit zu haben, unabhängige Entscheidungen zu treffen und Aufgaben auszuführen.
Dieser Trend wird besonders im Konzept der \„verkörperten Intelligenz\“ deutlich - KI-Systeme erhalten physische Einheiten, die in der Lage sind, die Umgebung wahrzunehmen, zu verstehen und mit ihr zu interagieren.
Das VLA-Modell von Li Auto ist eine lebendige Praxis dieses Trends. Durch die Integration von Vision-, Sprach- und Aktionsintelligenz verwandelt es das Auto in einen intelligenten Agenten, der autonom fahren und auf natürliche Weise mit Benutzern interagieren kann, und interpretiert so perfekt das Kernkonzept der \„verkörperten Intelligenz\“.
Solange Menschen professionelle Fahrer einstellen, kann künstliche Intelligenz zu einem Produktionstool werden. Wenn KI zu einem Produktionstool wird, wird künstliche Intelligenz wirklich explodieren.
Li Xiangs Bemerkungen verdeutlichten den Kernwert von VLA - es ist kein einfaches Hilfsmittel mehr, sondern ein \„Fahreragent\“, der unabhängigAufgaben ausführen und Verantwortung übernehmen kann. Dieser Wandel verbessert nicht nur den praktischen Wert von Autos, sondern eröffnet auch Fantasieräume für die Anwendung von KI in anderen Bereichen.
Li Xiangs Denken über KI hat immer eine Perspektive, die aus dem Rahmen fällt. Er erwähnte auch: \„VLA ist kein plötzlicher Veränderungsprozess, sondern ein evolutionärer Prozess.\“ Dieser Satz fasst den technischen Weg von Li Auto treffend zusammen -
Von frühen regelgesteuerten bis hin zu End-to-End-Durchbrüchen bis hin zum heutigen VLA-Niveau der \„menschlichen Intelligenz\“. Dieses evolutionäre Denken macht VLA nicht nur in der Technologie praktikabler, sondern bietet auch ein Referenzparadigma für die Branche. Im Vergleich zu einigen Versuchen, die blind Subversion verfolgen, ist Li Autos pragmatischer Weg möglicherweise besser für den komplexen chinesischen Markt geeignet.
Von der Technologie zum Glauben ist die KI-Erforschung von Li Auto nicht reibungslos. Li Xiang räumte ein: \„Wir haben viele Herausforderungen im KI-Bereich erlebt, wie die Dunkelheit vor dem Morgengrauen, aber wir glauben, dass wir das Licht sehen werden, wenn wir durchhalten.\“ Die Forschung und Entwicklung von VLA steht vor Problemen wie Engpässen bei der Rechenleistung und der Datenethik, aber Li Auto hat durch selbst entwickelte Basismodelle und Weltmodelle allmählich ihren technologischen Morgengrauen eingeläutet.
Li Xiang erwähnte in dem Interview auch, dass der Erfolg von VLA untrennbar mit dem Aufstieg der chinesischen KI verbunden ist.
Er sagte, dass das Aufkommen von Modellen wie DeepSeek und Tongyi Qianwen das KI-Niveau Chinas schnell an die Vereinigten Staaten angenähert hat. Unter anderem ist der von DeepSeek aufrechterhaltene Open-Source-Geist besonders ermutigend, was Li Auto direkt dazu veranlasste, Xinghuan OS als Open Source bereitzustellen. Li Xiang sagte: \„Dies ist nicht aus unternehmerischen strategischen Überlegungen heraus. DeepSeek hat uns so viel Hilfe gegeben, wir sollten der Gesellschaft etwas beitragen.\“
Während Li Auto technologische Durchbrüche verfolgt, hat es die Sicherheits- und Ethikfragen der KI-Technologie nicht ignoriert. Die von VLA eingeführte \„Super-Alignment\“-Technologie macht das Verhalten des Modells durch Reinforcement Learning from Human Feedback (RLHF) den menschlichen Gewohnheiten ähnlicher. Daten zeigen, dass die Anwendung von VLA den hochgeschwindigkeits-MPI (durchschnittliche Interventionsstrecke) von 240 km auf 300 km erhöht hat.
Noch wichtiger ist, dass Li Auto den Aufbau von \„KI mit menschlichen Werten\“ betont und Moral und Vertrauen als Eckpfeiler der technologischen Entwicklung betrachtet. Aus einer makroökonomischeren Perspektive liegt die Bedeutung von VLA darin, dass es die Rolle von Automobilunternehmen neu definiert.
In der Vergangenheit waren Autos Transportmittel aus dem Industriezeitalter; heute entwickeln sie sich zu \„Raumrobotern\“ im Zeitalter der künstlichen Intelligenz. Li Xiang erwähnte in AI Talk: \„Li Auto ging früher im Niemandsland der Autos und wird in Zukunft im Niemandsland der künstlichen Intelligenz gehen.\“ Diese Transformation von Li Auto bringt neue Fantasieräume für das Geschäftsmodell der Automobilindustrie.
Natürlich ist die Entwicklung von VLA nicht ohne Herausforderungen. Die kontinuierliche Investition von Rechenleistung, Datenethik und der Aufbau des Vertrauens der Verbraucher in das autonome Fahren sind alles Fragen, mit denen sich Li Auto auseinandersetzen muss. Darüber hinaus wird der Wettbewerb in der KI-Branche immer härter. In- und ausländische Giganten wie Tesla, Waymo und OpenAI beschleunigen das Layout von multimodalen Modellen. Li Auto muss seine führende Position bei der Technologieiteration und der Marktförderung behaupten. \„Wir haben keine Abkürzungen, wir können nur tief kultivieren\“, sagte Li Xiang.
Zweifellos wird die Landung von VLA ein wichtiger Knotenpunkt sein.
Li Auto plant, VLA gleichzeitig mit dem reinen Elektro-SUV Li Auto i8 im Juli 2025 auf den Markt zu bringen und die Massenproduktion im Jahr 2026 zu erreichen. Dies ist nicht nur ein umfassender Test der Technologie, sondern auch ein wichtiger Lackmustest für den Markt.