Ewolucja od zwierząt do ludzi - Li Auto i VLA

W marcu tego roku, na konferencji NVIDIA’s 2025 Spring GTC, Jia Peng, szef działu badań i rozwoju technologii autonomicznej jazdy w Li Auto, przedstawił najnowsze osiągnięcie firmy: duży model MindVLA.

Model ten jest modelem Vision-Language-Action Model (VLA) z 2,2 miliardami parametrów. Jia Peng dodał, że z sukcesem wdrożyli model w pojazdach. Li Auto wierzy, że modele VLA to najbardziej efektywna metoda rozwiązywania wyzwań związanych z interakcją AI ze światem fizycznym.

W ciągu ostatniego roku architektura end-to-end stała się technologicznym hitem w dziedzinie inteligentnej jazdy, co skłoniło firmy samochodowe do przejścia z tradycyjnego modularnego projektowania opartego na regułach do zintegrowanych systemów. Firmy samochodowe, które wcześniej przodowały w algorytmach opartych na regułach, borykają się z trudnościami przejściowymi, podczas gdy spóźnialscy wykorzystali okazję do zdobycia przewagi konkurencyjnej.

Li Auto jest doskonałym przykładem tego zjawiska.

Postęp Li Auto w dziedzinie inteligentnej jazdy w zeszłym roku można opisać jako szybki. W lipcu firma objęła prowadzenie w osiągnięciu ogólnokrajowego NOA bez map (Navigation on Autopilot) i wprowadziła unikalną architekturę “end-to-end (szybki system) + VLM (wolny system)”, która zyskała szerokie uznanie w branży.

Dzisiejszego wieczoru, dzięki drugiemu sezonowi Li Auto AI Talk, zdobyliśmy głębsze zrozumienie tego, co Li Xiang nazywa “firmą zajmującą się sztuczną inteligencją”.

„Duży Model Kierowcy” To Także Twój Kierowca

Li Xiang, CEO Li Auto, po raz pierwszy wspomniał o VLA w pierwszej edycji AI Talk w grudniu ubiegłego roku, w rozmowie z Zhangiem Xiaojunem, głównym redaktorem technologicznym Tencent News. Powiedział wtedy:

To, co robimy z Li Auto Companion i autonomiczną jazdą, jest w rzeczywistości oddzielne zgodnie ze standardami branżowymi i znajduje się na wczesnym etapie. Mind GPT, nad którym pracujemy, to w rzeczywistości duży model językowy; autonomiczną jazdę, nad którą pracujemy, nazywamy wewnętrznie inteligencją behawioralną, ale zgodnie z definicją Li Feifei (dożywotni profesor Stanford, były główny naukowiec Google), nazywa się inteligencją przestrzenną. Dopiero gdy naprawdę zrobisz to na dużą skalę, dowiesz się, że te dwa aspekty na pewno kiedyś się połączą. Wewnętrznie nazywamy to VLA (Vision Language Action Model).

Li Xiang uważa, że model bazowy na pewno w pewnym momencie stanie się VLA. Powodem jest to, że modele językowe mogą rozumieć trójwymiarowy świat tylko poprzez język i poznanie, co jest oczywiście niewystarczające. “Musi być naprawdę wektorowy, używać Diffusion (model dyfuzji) i używać metod generatywnych (aby zrozumieć świat).”

Można powiedzieć, że powstanie VLA to nie tylko śmiała próba głębokiej integracji inteligencji językowej i przestrzennej, ale także reinterpretacja koncepcji “inteligentnego samochodu” przez Li Auto.

Li Xiang doprecyzował w dzisiejszej edycji AI Talk: “VLA to duży model kierowcy, działający jak ludzki kierowca”. To nie tylko technologia, ale także inteligentny partner, który może naturalnie komunikować się z użytkownikami i podejmować niezależne decyzje.

Czym więc dokładnie jest VLA? Sedno jest w rzeczywistości bardzo proste: poprzez integrację percepcji wzrokowej, rozumienia języka naturalnego i możliwości generowania akcji, pojazd staje się “agentem kierowcy”, który może komunikować się z ludźmi i podejmować własne decyzje.

Wyobraź sobie, że siedzisz w samochodzie i od niechcenia mówisz: “Jestem dzisiaj trochę zmęczony, jedź wolniej”, a pojazd nie tylko zrozumie, co masz na myśli, ale także dostosuje prędkość, a nawet wybierze płynniejszą trasę. Ta naturalna i płynna interakcja jest dokładnie tym, co VLA chce osiągnąć. Li Xiang ujawnił, że wszystkie krótkie polecenia są przetwarzane bezpośrednio przez pojazd, a złożone polecenia są analizowane przez model oparty na chmurze z 3,2 miliardami parametrów, co zapewnia zarówno wydajność, jak i inteligencję.

Osiągnięcie tego celu nie jest łatwe. Szczególną cechą VLA jest to, że łączy trzy wymiary: wizję, język i działanie. Proste polecenie od użytkownika może obejmować percepcję otoczenia w czasie rzeczywistym, dokładne zrozumienie intencji językowej i szybką regulację zachowania podczas jazdy. Trzy elementy są niezbędne.

A wspaniałą rzeczą w VLA jest to, że pozwala tym trzem elementom bezproblemowo współpracować.

Od wizji do rzeczywistości, badania i rozwój VLA to niezbadane terytorium. Li Xiang przyznał: “Pozyskiwanie danych wizualnych i danych dotyczących akcji jest najtrudniejsze. Żadna firma nie może tego zastąpić.”

Aby zrozumieć techniczne tło VLA, musimy również przyjrzeć się ewolucji inteligentnej jazdy Li Auto.

Li Xiang powiedział, że wczesny system charakteryzował się inteligencją na poziomie “owada”, z zaledwie milionami parametrów, napędzany regułami i mapami o wysokiej precyzji, i był bezradny w obliczu złożonych warunków drogowych. Później architektura end-to-end i modele wizualno-językowe pozwoliły technologii przeskoczyć na poziom “ssaka”, pozbyć się zależności od map i urzeczywistnić ogólnokrajowe NOA bez map.

W rzeczywistości ten krok już postawił Li Auto w czołówce branży, ale oczywiście nie są oni z tego zadowoleni. Zdaniem Li Xianga, pojawienie się VLA oznacza, że technologia inteligentnej jazdy Li Auto weszła w nowy etap “inteligencji ludzkiej”.

W porównaniu z poprzednim systemem, VLA może nie tylko postrzegać trójwymiarowy świat fizyczny, ale także przeprowadzać logiczne rozumowanie, a nawet generować zachowania podczas jazdy zbliżone do poziomu ludzkiego.

Dla prostego przykładu, załóżmy, że mówisz “znajdź miejsce do zawrócenia” na zatłoczonej ulicy, VLA nie wykona mechanicznie polecenia, ale kompleksowo rozważy warunki drogowe, natężenie ruchu i przepisy ruchu drogowego, aby znaleźć najrozsądniejszy czas i miejsce do wykonania zawracania.

Li Xiang powiedział, że VLA może szybko dostosować się do nowych scenariuszy, generując dane, i może zoptymalizować reakcje nawet w przypadku napotkania skomplikowanych remontów dróg po raz pierwszy w ciągu trzech dni. Ta elastyczność i osąd są podstawowymi zaletami VLA.

Nauczycielem Li Auto jest DeepSeek

Wsparciem dla VLA jest złożony i wyrafinowany system techniczny opracowany niezależnie przez Li Auto. System ten pozwala samochodowi nie tylko “rozumieć” świat, ale także myśleć i działać jak ludzki kierowca.

Pierwsza to technologia reprezentacji 3D Gaussa, która wykorzystuje wiele “punktów Gaussa” do tworzenia obiektu 3D. Każdy punkt zawiera własną pozycję, kolor i informacje o rozmiarze. Technologia ta wykorzystuje uczenie się bez nadzoru do trenowania potężnego modelu rozumienia przestrzeni 3D przy użyciu ogromnej ilości rzeczywistych danych. Dzięki niemu VLA może “rozumieć” otaczający świat jak człowiek, wiedząc, gdzie są przeszkody i gdzie są obszary przejezdne.

Następnie architektura Mixture of Experts (MoE), która składa się z sieci ekspertów, sieci bramkujących i kombinatorów. Gdy parametry modelu przekraczają setki miliardów, tradycyjna metoda sprawi, że wszystkie neurony będą uczestniczyć w każdej kalkulacji, co jest marnotrawstwem zasobów. Sieć bramkująca w architekturze MoE wywoła różnych ekspertów w zależności od różnych zadań, aby zapewnić, że parametry aktywacji nie wzrosną znacząco.

Mówiąc o tym, Li Xiang pochwalił również DeepSeek:

DeepSeek wykorzystuje najlepsze praktyki ludzkości… Kiedy robili DeepSeek V3, V3 również był MoE, modelem 671B. Myślę, że MoE to bardzo dobra architektura. To tak, jakby połączyć ze sobą grupę ekspertów, a każdy z nich ma umiejętności eksperckie.

Wreszcie Li Auto wprowadził Sparse Attention do VLA, co w języku laika oznacza, że VLA automatycznie dostosuje wagi uwagi kluczowych obszarów, poprawiając w ten sposób efektywność wnioskowania strony końcowej.

Li Xiang powiedział, że w procesie szkolenia tego nowego modelu bazowego inżynierowie Li Auto spędzili dużo czasu na znalezieniu najlepszego współczynnika danych, integrując dużą ilość danych 3D oraz danych tekstowych i obrazkowych związanych z autonomiczną jazdą i zmniejszając proporcję danych literackich i historycznych.

Od percepcji do podejmowania decyzji, VLA czerpie z trybu szybkiego i wolnego myślenia ludzkiego. Może szybko wyprowadzać proste decyzje dotyczące działań, takie jak unikanie nagłych wypadków, a także może używać krótkich łańcuchów myślowych do “powolnego myślenia”, aby radzić sobie z bardziej złożonymi scenariuszami, takimi jak tymczasowe planowanie trasy w celu ominięcia obszaru budowy. Aby jeszcze bardziej poprawić wydajność w czasie rzeczywistym, VLA wprowadził również spekulacyjne rozumowanie i technologię równoległego dekodowania, w pełni wykorzystując moc obliczeniową chipu po stronie pojazdu, aby zapewnić, że proces podejmowania decyzji jest szybki i nie chaotyczny.

Podczas generowania zachowania podczas jazdy VLA używa modeli dyfuzji i uczenia się ze wzmocnieniem na podstawie informacji zwrotnych od ludzi (Reinforcement Learning from Human Feedback - RLHF). Model dyfuzji jest odpowiedzialny za generowanie zoptymalizowanych trajektorii jazdy, podczas gdy RLHF sprawia, że trajektorie te są bliższe ludzkim nawykom, zarówno bezpieczne, jak i wygodne. Na przykład VLA automatycznie zwolni podczas skręcania lub pozostawi wystarczającą bezpieczną odległość podczas zmiany pasa ruchu. Te szczegóły odzwierciedlają głębokie uczenie się ludzkiego zachowania podczas jazdy.

Model świata to kolejna kluczowa technologia. Li Auto zapewnia wysokiej jakości wirtualne środowisko do uczenia się ze wzmocnieniem poprzez rekonstrukcję i generowanie scen. Li Xiang ujawnił, że model świata zmniejszył koszt weryfikacji ze 170 000-180 000 juanów za 10 000 kilometrów do 4000 juanów. Pozwala to VLA na ciągłą optymalizację w symulacji i łatwe radzenie sobie ze złożonymi scenariuszami.

Mówiąc o szkoleniu, proces wzrostu VLA jest również dość zorganizowany. Cały proces jest podzielony na trzy etapy: wstępne szkolenie, szkolenie końcowe i uczenie się ze wzmocnieniem. “Wstępne szkolenie jest jak zdobywanie wiedzy, szkolenie końcowe jest jak nauka jazdy w szkole jazdy, a uczenie się ze wzmocnieniem jest jak praktyka społeczna”, powiedział Li Xiang.

Na etapie wstępnego szkolenia Li Auto stworzył wizualno-językowy model bazowy dla VLA, wypełniając go bogatymi danymi wizualnymi 3D, obrazami 2D w wysokiej rozdzielczości i korpusami związanymi z jazdą, pozwalając mu najpierw nauczyć się “widzieć” i “słyszeć”; po szkoleniu dodawany jest moduł akcji, generujący 4-8 sekundowe trajektorie jazdy, a model rozszerza się z 3,2 miliarda parametrów do 4 miliardów.

Uczenie się ze wzmocnieniem jest podzielone na dwa kroki: najpierw użyj RLHF, aby dopasować ludzkie nawyki, przeanalizować dane przejęcia i zapewnić bezpieczeństwo i komfort; następnie użyj czystego uczenia się ze wzmocnieniem do optymalizacji, w oparciu o wartość G (komfort), kolizję i informacje zwrotne dotyczące przepisów ruchu drogowego, aby VLA “jeździł lepiej niż ludzie”. Li Xiang wspomniał, że ten etap jest zakończony w modelu świata, symulując rzeczywiste scenariusze ruchu drogowego, a wydajność jest znacznie lepsza niż tradycyjna weryfikacja.

Ta metoda szkolenia nie tylko gwarantuje postęp techniczny, ale także sprawia, że VLA jest wystarczająco niezawodny w zastosowaniach praktycznych.

Li Xiang przyznał, że sukces VLA jest nierozerwalnie związany z inspiracją standardów branżowych. Architektura MoE DeepSeek nie tylko poprawiła efektywność szkolenia, ale także zapewniła cenne doświadczenie dla Li Auto. Ubolewał: “Stoimy na ramionach gigantów i przyspieszamy badania i rozwój VLA”. Ta otwarta postawa uczenia się pozwala Li Auto iść dalej w ziemi niczyjej.

Od „Narzędzi Informacyjnych” do „Narzędzi Produkcyjnych”

Obecnie branża AI przechodzi głęboką transformację od „narzędzi informacyjnych” do „narzędzi produkcyjnych”. Wraz z dojrzałością technologii dużych modeli, AI nie ogranicza się już do przetwarzania danych i udzielania sugestii, ale zaczyna mieć zdolność do podejmowania niezależnych decyzji i wykonywania zadań.

Li Xiang zaproponował w drugim sezonie AI Talk, że AI można podzielić na narzędzia informacyjne (takie jak wyszukiwanie), narzędzia pomocnicze (takie jak nawigacja głosowa) i narzędzia produkcyjne. Podkreślił: “Sztuczna inteligencja staje się narzędziem produkcyjnym w momencie prawdziwego wybuchu”. Wraz z dojrzałością technologii dużych modeli, AI nie ogranicza się już do przetwarzania danych, ale zaczyna mieć zdolność do podejmowania niezależnych decyzji i wykonywania zadań.

Trend ten jest szczególnie widoczny w koncepcji “ucieleśnionej inteligencji” - systemy AI otrzymują byty fizyczne, zdolne do odczuwania, rozumienia i interakcji z otoczeniem.

Model VLA Li Auto jest żywą praktyką tego trendu. Integrując wizję, język i inteligencję akcji, przekształca samochód w inteligentnego agenta, który może jeździć autonomicznie i naturalnie wchodzić w interakcje z użytkownikami, doskonale interpretując podstawową koncepcję “ucieleśnionej inteligencji”.

Dopóki ludzie zatrudniają profesjonalnych kierowców, sztuczna inteligencja może stać się narzędziem produkcyjnym. Kiedy AI stanie się narzędziem produkcyjnym, sztuczna inteligencja naprawdę wybuchnie.

Uwagi Li Xianga wyjaśniły podstawową wartość VLA - nie jest to już proste narzędzie pomocnicze, ale “agent kierowcy”, który może niezależnie wykonywać zadania i przyjmować obowiązki. Ta transformacja nie tylko poprawia praktyczną wartość samochodów, ale także otwiera przestrzeń wyobraźni dla zastosowania AI w innych dziedzinach.

Myślenie Li Xianga o AI zawsze ma perspektywę, która wykracza poza schematy. Wspomniał również: “VLA nie jest procesem nagłej zmiany, ale procesem ewolucyjnym”. To zdanie dokładnie podsumowuje ścieżkę techniczną Li Auto -

Od wczesnego sterowania opartego na regułach, przez przełomy end-to-end, po dzisiejszy poziom “inteligencji ludzkiej” VLA. To ewolucyjne myślenie nie tylko sprawia, że VLA jest bardziej wykonalny w technologii, ale także zapewnia paradygmat odniesienia dla branży. W porównaniu z niektórymi próbami, które ślepo dążą do obalenia, pragmatyczna ścieżka Li Auto może być bardziej odpowiednia dla złożonego chińskiego rynku.

Od technologii po przekonania, eksploracja AI przez Li Auto nie jest gładka. Li Xiang przyznał: “Doświadczyliśmy wielu wyzwań w dziedzinie AI, jak ciemność przed świtem, ale wierzymy, że jeśli wytrwamy, zobaczymy światło”. Badania i rozwój VLA stają w obliczu problemów, takich jak wąskie gardła mocy obliczeniowej i etyka danych, ale Li Auto stopniowo wprowadził swój technologiczny świt dzięki samodzielnie opracowanym modelom bazowym i modelom świata.

Li Xiang wspomniał również w wywiadzie, że sukces VLA jest nierozerwalnie związany z rozwojem chińskiej AI.

Powiedział, że pojawienie się modeli takich jak DeepSeek i Tongyi Qianwen sprawiło, że poziom AI w Chinach szybko zbliżył się do Stanów Zjednoczonych. Wśród nich szczególnie zachęcający jest duch open source, który wyznaje DeepSeek, co bezpośrednio skłoniło Li Auto do udostępnienia Xinghuan OS na zasadach open source. Li Xiang powiedział: “To nie wynika z rozważań strategicznych firmy. DeepSeek dał nam tak wiele pomocy, powinniśmy wnieść coś do społeczeństwa”.

Dążąc do przełomów technologicznych, Li Auto nie zignorował kwestii bezpieczeństwa i etyki technologii AI. Technologia “super alignment” wprowadzona przez VLA sprawia, że zachowanie modelu jest bliższe ludzkim nawykom dzięki uczeniu się ze wzmocnieniem na podstawie informacji zwrotnych od ludzi (RLHF). Dane pokazują, że zastosowanie VLA zwiększyło MPI (średni przebieg interwencji) na autostradzie z 240 km do 300 km.

Co ważniejsze, Li Auto podkreśla budowanie “AI z ludzkimi wartościami” i uważa moralność i zaufanie za kamień węgielny rozwoju technologicznego. Z bardziej makroekonomicznej perspektywy znaczenie VLA polega na tym, że na nowo definiuje rolę firm samochodowych.

W przeszłości samochody były środkami transportu z epoki przemysłowej; dziś ewoluują w “roboty przestrzenne” w erze sztucznej inteligencji. Li Xiang wspomniał w AI Talk: “Li Auto chodził po ziemi niczyjej samochodów, a w przyszłości będzie chodził po ziemi niczyjej sztucznej inteligencji”. Ta transformacja Li Auto wnosi nową przestrzeń wyobraźni do modelu biznesowego branży motoryzacyjnej.

Oczywiście rozwój VLA nie jest pozbawiony wyzwań. Ciągłe inwestycje w moc obliczeniową, etyka danych i budowanie zaufania konsumentów do autonomicznej jazdy to kwestie, z którymi Li Auto musi się zmierzyć. Ponadto konkurencja w branży AI staje się coraz bardziej zacięta. Krajowi i zagraniczni giganci, tacy jak Tesla, Waymo i OpenAI, przyspieszają układ modeli multimodalnych. Li Auto musi utrzymać swoją wiodącą pozycję w iteracji technologii i promocji rynkowej. “Nie mamy żadnych skrótów, możemy tylko głęboko uprawiać”, powiedział Li Xiang.

Bez wątpienia lądowanie VLA będzie kluczowym węzłem.

Li Auto planuje wypuścić VLA jednocześnie z czysto elektrycznym SUV-em Li Auto i8 w lipcu 2025 roku i osiągnąć masową produkcję w 2026 roku. To nie tylko kompleksowy test technologii, ale także ważny papierek lakmusowy dla rynku.