На конференцията NVIDIA GTC през пролетта на 2025 г., Jia Peng, ръководител на R&D отдела за автономно шофиране в Li Auto, представи най-новото им постижение: големият модел MindVLA.
Този модел е Vision-Language-Action Model (VLA) с 2.2 милиарда параметри. Jia Peng сподели, че успешно са внедрили модела в автомобилите. Li Auto смята, че VLA моделите са най-ефективният метод за решаване на предизвикателствата пред AI при взаимодействието му с физическия свят.
През изминалата година архитектурата от край до край (end-to-end) се превърна в технологична гореща точка в областта на интелигентното шофиране, подтиквайки автомобилните компании да се преместят от традиционния модулен дизайн, базиран на правила, към интегрирани системи. Автомобилните компании, които преди водеха с алгоритми, базирани на правила, изпитват преходни трудности, докато новодошлите се възползваха от възможността за конкурентно предимство.
Li Auto е отличен пример за това.
Напредъкът на Li Auto в интелигентното шофиране през последната година може да бъде описан като бърз. През юли, те поеха водещата роля в постигането на nationwide no-map NOA (Navigation on Autopilot) и пуснаха уникална архитектура "end-to-end (бърза система) + VLM (бавна система)", която получи широко внимание в индустрията.
С втория сезон на Li Auto AI Talk, получихме по-дълбоко разбиране за това, което Li Xiang нарича "компания за изкуствен интелект".
“Големият модел за шофьори” е и вашият шофьор
Li Xiang, CEO на Li Auto, за първи път спомена VLA в първия сезон на AI Talk миналия декември, в разговор с Zhang Xiaojun, главен технологичен писател на Tencent News. Тогава той каза:
Това, което правим с Li Auto Companion и автономното шофиране, всъщност е разделено според индустриалните стандарти и е в ранните етапи. Mind GPT, който правим, всъщност е голям езиков модел; автономното шофиране, което правим, ние наричаме поведенчески интелект вътрешно, но както е определено от Li Feifei (Stanford Lifetime Professor, бивш главен учен на Google), се нарича пространствен интелект. Само когато наистина го направите в голям мащаб, ще знаете, че тези две неща със сигурност ще бъдат свързани един ден. Ние го наричаме VLA (Vision Language Action Model) вътрешно.
Li Xiang вярва, че базовият модел определено ще стане VLA в определен момент. Причината е, че езиковите модели могат да разберат триизмерния свят само чрез език и познание, което очевидно не е достатъчно. “Трябва да бъде наистина базирано на вектори, използвайки Diffusion (дифузионен модел) и използвайки генеративни методи (за да разбере света).”
Може да се каже, че раждането на VLA е не само смел опит за дълбоко интегриране на езиковата интелигентност и пространствената интелигентност, но и нова интерпретация на концепцията за “интелигентен автомобил” от Li Auto.
Li Xiang допълнително дефинира в тазвечерния AI Talk: “VLA е голям модел за шофьори, работещ като човешки шофьор.” Той е не само технология, но и интелигентен партньор, който може да комуникира естествено с потребителите и да взема независими решения.
И така, какво точно е VLA? Ядрото всъщност е много просто: чрез интегриране на визуалното възприятие, разбирането на естествения език и възможностите за генериране на действия, автомобилът се превръща в “шофьорски агент”, който може да комуникира с хората и да взема свои собствени решения.
Представете си, че седите в колата си и небрежно казвате: “Днес съм малко уморен, карай по-бавно” и автомобилът не само ще разбере какво имате предвид, но и ще коригира скоростта си и дори ще избере по-плавен маршрут. Това естествено и плавно взаимодействие е точно това, което VLA иска да постигне. Li Xiang разкри, че всички кратки команди се обработват директно от автомобила, докато сложните команди се анализират от базиран на облак модел с 3.2 милиарда параметри, осигурявайки едновременно ефективност и интелигентност.
Постигането на тази цел не е лесно. Особеното при VLA е, че той свързва трите измерения на зрението, езика и действието. Една проста команда от потребителя може да включва възприемане в реално време на околната среда, точно разбиране на езиковото намерение и бързо коригиране на поведението при шофиране. Трите са незаменими.
И великото нещо при VLA е, че той позволява на тези три неща да работят безпроблемно заедно.
От визия към реалност, научноизследователската и развойна дейност на VLA е неизследвана територия. Li Xiang призна: “Придобиването на визуални данни и данни за действие е най-трудно. Никоя компания не може да го замени.”
За да разберем техническия произход на VLA, трябва също да разгледаме еволюцията на интелигентното шофиране на Li Auto.
Li Xiang каза, че ранната система е била с “интелигентност на ниво насекомо”, само с милиони параметри, задвижвана от правила и карти с висока прецизност, и е била безпомощна при среща с комплексни пътни условия. По-късно, архитектурата от край до край и визуално-езиковите модели позволиха на технологията да скочи до “ниво на бозайник”, да се отърве от зависимостта от карти и nationwide no-map NOA стана реалност.
Всъщност, тази стъпка вече постави Li Auto начело в индустрията, но те очевидно не са доволни от това. Според Li Xiang, появата на VLA бележи, че технологията за интелигентно шофиране на Li Auto е влязла в нов етап на “човешки интелект”.
В сравнение с предишната система, VLA може не само да възприема 3D физическия свят, но и да извършва логически разсъждения и дори да генерира поведение при шофиране, близко до човешкото ниво.
За прост пример, да предположим, че кажете “намерете място за обръщане” на задръстена улица, VLA няма механично да изпълни командата, а ще разгледа цялостно пътните условия, трафика и правилата за движение, за да намери най-разумното време и място за завършване на обратния завой.
Li Xiang каза, че VLA може бързо да се адаптира към нови сценарии чрез генериране на данни и може да оптимизира отговорите дори при среща с сложни ремонти на пътя за първи път в рамките на три дни. Тази гъвкавост и преценка са основните предимства на VLA.
Учителят на Li Auto е DeepSeek
Подкрепата за VLA е сложна и сложна техническа система, независимо разработена от Li Auto. Тази система позволява на колата не само да “разбира” света, но и да мисли и действа като човешки шофьор.
Първо е 3D Gaussian технология за представяне, която използва много “Gaussian точки” за създаване на 3D обект. Всяка точка съдържа собствена позиция, цвят и информация за размера. Тази технология използва самоконтролирано обучение за обучение на мощен 3D модел за пространствено разбиране, използвайки масивни реални данни. С него VLA може да “разбира” околния свят като човек, знаейки къде са препятствията и къде са проходимите зони.
След това е архитектурата Mixture of Experts (MoE), която се състои от експертни мрежи, портални мрежи и комбинатори. Когато параметрите на модела надхвърлят стотици милиарди, традиционният метод ще накара всички неврони да участват във всяко изчисление, което е загуба на ресурси. Порталната мрежа в архитектурата MoE ще извика различни експерти според различни задачи, за да гарантира, че параметрите на активиране няма да се увеличат значително.
Говорейки за това, Li Xiang също похвали DeepSeek:
DeepSeek използва най-добрите практики на човечеството… Когато правиха DeepSeek V3, V3 също беше MoE, модел 671B. Мисля, че MoE е много добра архитектура. Еквивалентно е на комбиниране на куп експерти заедно и всеки е експертна способност.
И накрая, Li Auto въведе Sparse Attention към VLA, което на езика на обикновения човек означава, че VLA автоматично ще коригира теглата на вниманието на ключовите области, като по този начин ще подобри ефективността на изводите на крайната страна.
Li Xiang каза, че в процеса на обучение на този нов базов модел, инженерите на Li Auto са прекарали много време в намиране на най-доброто съотношение на данни, интегрирайки голямо количество 3D данни и текстови и графични данни, свързани с автономното шофиране, и намалявайки дела на литературните и историческите данни.
От възприятие до вземане на решения, VLA черпи от бързия и бавен режим на комбиниране на човешкото мислене. Той може бързо да извежда прости решения за действие, като например аварийно избягване, и може също да използва кратки вериги на мислене, за да “мисли бавно”, за да се справи с по-сложни сценарии, като например временно планиране на маршрут за заобикаляне на строителната зона. За да подобри допълнително производителността в реално време, VLA също въведе спекулативни разсъждения и технология за паралелно декодиране, като използва пълноценно изчислителната мощност на чипа от страна на автомобила, за да гарантира, че процесът на вземане на решения е бърз и не е хаотичен.
Когато генерира поведение при шофиране, VLA използва Diffusion модели и Reinforcement Learning from Human Feedback (RLHF). Diffusion моделът е отговорен за генериране на оптимизирани траектории на шофиране, докато RLHF прави тези траектории по-близки до човешките навици, едновременно безопасни и удобни. Например, VLA автоматично ще забави скоростта при завиване или ще остави достатъчно безопасно разстояние при сливане на ленти. Тези детайли отразяват дълбокото обучение на човешкото поведение при шофиране.
Световният модел е друга ключова технология. Li Auto предоставя висококачествена виртуална среда за обучение с подсилване чрез реконструкция и генериране на сцени. Li Xiang разкри, че световният модел е намалил разходите за проверка от 170 000-180 000 юана на 10 000 километра до 4 000 юана. Той позволява на VLA непрекъснато да оптимизира в симулация и да се справя със сложни сценарии с лекота.
Говорейки за обучение, процесът на растеж на VLA също е доста организиран. Целият процес е разделен на три етапа: предварително обучение, последващо обучение и обучение с подсилване. “Предварителното обучение е като учене на знания, последващото обучение е като учене на шофиране в школа за шофиране, а обучението с подсилване е като социална практика”, каза Li Xiang.
В етапа на предварително обучение, Li Auto създаде визуално-езиков базов модел за VLA, пълнейки го с богати 3D визуални данни, 2D изображения с висока разделителна способност и корпуси, свързани с шофирането, позволявайки му първо да се научи да “вижда” и “чува”; след обучението се добавя модулът за действие, генерирайки 4-8 секундни траектории на шофиране и моделът се разширява от 3.2 милиарда параметри до 4 милиарда.
Обучението с подсилване е разделено на две стъпки: първо, използвайте RLHF за привеждане в съответствие с човешките навици, анализирайте данните за поемане и осигурете безопасност и комфорт; след това, използвайте чисто обучение с подсилване за оптимизиране, въз основа на G-стойност (комфорт), сблъсък и обратна връзка за правилата за движение, така че VLA “да шофира по-добре от хората”. Li Xiang спомена, че този етап е завършен в световния модел, симулирайки реални сценарии на трафик и ефективността е далеч по-добра от традиционната проверка.
Този метод на обучение не само гарантира техническия напредък, но и прави VLA достатъчно надежден в практическите приложения.
Li Xiang призна, че успехът на VLA е неразривно свързан с вдъхновението на индустриалните еталони. MoE архитектурата на DeepSeek не само подобри ефективността на обучението, но и предостави ценен опит за Li Auto. Той се оплака: “Ние стоим на раменете на гиганти и ускоряваме R&D на VLA.” Това отворено отношение към ученето позволява на Li Auto да отиде по-далеч в ничията земя.
От “информационни инструменти” до “производствени инструменти”
В момента AI индустрията претърпява дълбока трансформация от “информационни инструменти” до “производствени инструменти”. С узряването на технологията на големите модели, AI вече не се ограничава до обработка на данни и предоставяне на предложения, а започва да има способността да взема независими решения и да изпълнява задачи.
Li Xiang предложи във втория сезон на AI Talk, че AI може да бъде разделен на информационни инструменти (като търсене), спомагателни инструменти (като гласова навигация) и производствени инструменти. Той подчерта: “Изкуственият интелект, превръщайки се в производствен инструмент, е моментът на истинско избухване.” С узряването на технологията на големите модели, AI вече не се ограничава до обработка на данни, а започва да има способността да взема независими решения и да изпълнява задачи.
Тази тенденция е особено очевидна в концепцията за “въплътена интелигентност” - AI системите получават физически обекти, способни да усещат, разбират и взаимодействат с околната среда.
VLA моделът на Li Auto е ярко упражнение на тази тенденция. Чрез интегриране на зрението, езика и интелигентността на действието, той трансформира колата в интелигентен агент, който може да шофира автономно и да взаимодейства естествено с потребителите, перфектно интерпретирайки основната концепция за “въплътена интелигентност”.
Докато хората наемат професионални шофьори, изкуственият интелект може да се превърне в производствен инструмент. Когато AI стане производствен инструмент, изкуственият интелект наистина ще избухне.
Забележките на Li Xiang изясниха основната стойност на VLA - той вече не е прост спомагателен инструмент, а “шофьорски агент”, който може независимо да изпълнява задачи и да поема отговорности. Тази трансформация не само подобрява практическата стойност на автомобилите, но и отваря пространство за въображение за прилагането на AI в други области.
Мисленето на Li Xiang за AI винаги има перспектива, която излиза извън кутията. Той също така спомена: “VLA не е процес на внезапна промяна, а еволюционен процес.” Това изречение точно обобщава техническия път на Li Auto -
От ранно управление, базирано на правила, до пробиви от край до край, до днешното ниво на “човешка интелигентност” на VLA. Това еволюционно мислене не само прави VLA по-осъществим в технологиите, но и предоставя еталонен модел за индустрията. В сравнение с някои опити, които сляпо преследват подривна дейност, прагматичният път на Li Auto може да е по-подходящ за сложния китайски пазар.
От технология до вяра, AI проучването на Li Auto не е гладко. Li Xiang призна: “Преживяхме много предизвикателства в областта на AI, като тъмнината преди зазоряване, но вярваме, че ако постоянстваме, ще видим светлината.” R&D на VLA е изправена пред проблеми като затруднения с изчислителната мощност и етиката на данните, но Li Auto постепенно отвори технологичния си зори чрез самостоятелно разработени базови модели и световни модели.
Li Xiang също спомена в интервюто, че успехът на VLA е неразривно свързан с възхода на китайския AI.
Той каза, че появата на модели като DeepSeek и Tongyi Qianwen е накарала нивото на AI в Китай бързо да се доближи до Съединените щати. Сред тях, духът с отворен код, поддържан от DeepSeek, е особено окуражаващ, което директно подтикна Li Auto да отвори изходния код на Xinghuan OS. Li Xiang каза: “Това не е от стратегически съображения на компанията. DeepSeek ни даде толкова много помощ, трябва да допринесем нещо за обществото.”
Докато преследва технологични пробиви, Li Auto не е пренебрегнал проблемите за безопасността и етиката на AI технологията. Технологията “супер подравняване”, въведена от VLA, прави поведението на модела по-близко до човешките навици чрез Reinforcement Learning from Human Feedback (RLHF). Данните показват, че прилагането на VLA е увеличило високоскоростния MPI (среден пробег на намеса) от 240 км до 300 км.
По-важното е, че Li Auto набляга на изграждането на “AI с човешки ценности” и разглежда морала и доверието като крайъгълен камък на технологичното развитие. От по-макро перспектива, значението на VLA се състои в това, че предефинира ролята на автомобилните компании.
В миналото автомобилите са били транспортни средства от индустриалната ера; днес те се развиват в “пространствени роботи” в ерата на изкуствения интелект. Li Xiang спомена в AI Talk: “Li Auto преди ходеше в ничията земя на автомобилите и ще ходи в ничията земя на изкуствения интелект в бъдеще.” Тази трансформация на Li Auto носи ново пространство за въображение на бизнес модела на автомобилната индустрия.
Разбира се, развитието на VLA не е без предизвикателства. Непрекъснатите инвестиции на изчислителна мощност, етиката на данните и установяването на потребителско доверие в автономното шофиране са всички въпроси, с които Li Auto трябва да се изправи. В допълнение, конкуренцията в AI индустрията става все по-ожесточена. Домашни и чуждестранни гиганти като Tesla, Waymo и OpenAI ускоряват оформлението на мултимодални модели. Li Auto трябва да поддържа водещата си позиция в технологичната итерация и пазарното популяризиране. “Нямаме преки пътища, можем само да култивираме дълбоко”, каза Li Xiang.
Несъмнено кацането на VLA ще бъде ключов възел.
Li Auto планира да пусне VLA едновременно с изцяло електрическия SUV Li Auto i8 през юли 2025 г. и да постигне масово производство през 2026 г. Това е не само цялостен тест на технологията, но и важен лакмусов тест за пазара.