В марте этого года на весенней конференции NVIDIA GTC 2025 Цзя Пэн, руководитель отдела исследований и разработок технологий автономного вождения в Li Auto, представил последнее достижение компании: большую модель MindVLA.
Эта модель представляет собой Vision-Language-Action Model (VLA) с 2,2 миллиардами параметров. Цзя Пэн также заявил, что они успешно развернули модель в транспортных средствах. Li Auto считает, что модели VLA являются наиболее эффективным методом решения проблем взаимодействия ИИ с физическим миром.
За последний год сквозная архитектура стала технологической горячей точкой в области интеллектуального вождения, побуждая автомобильные компании переходить от традиционного модульного проектирования правил к интегрированным системам. Автомобильные компании, которые ранее лидировали с алгоритмами, основанными на правилах, сталкиваются с переходными трудностями, в то время как новички воспользовались возможностью для получения конкурентного преимущества.
Li Auto является ярким примером этого.
Прогресс Li Auto в интеллектуальном вождении в прошлом году можно охарактеризовать как быстрый. В июле компания первой достигла общенационального NOA (Navigation on Autopilot) без карт и запустила уникальную архитектуру «сквозная (быстрая система) + VLM (медленная система)», которая получила широкое внимание в отрасли.
Сегодня, со вторым сезоном Li Auto AI Talk, мы получили более глубокое понимание того, что Ли Сян называет «компанией искусственного интеллекта».
«Водительская большая модель» – это также и ваш водитель
Ли Сян, генеральный директор Li Auto, впервые упомянул VLA в первом сезоне AI Talk в декабре прошлого года, в разговоре с Чжан Сяоцзюнем, главным техническим писателем Tencent News. В то время он сказал:
То, что мы делаем с Li Auto Companion и автономным вождением, на самом деле разделено в соответствии с отраслевыми стандартами, и это находится на ранних стадиях. Mind GPT, который мы делаем, на самом деле является большой языковой моделью; автономное вождение, которое мы делаем, мы называем это поведенческим интеллектом внутри компании, но, как определено Ли Фэйфэй (пожизненный профессор Стэнфорда, бывший главный научный сотрудник Google), это называется пространственным интеллектом. Только когда вы действительно делаете это в большом масштабе, вы поймете, что эти два обязательно будут связаны однажды. Мы называем это VLA (Vision Language Action Model) внутри компании.
Ли Сян считает, что базовая модель обязательно станет VLA в определенный момент. Причина в том, что языковые модели могут понимать трехмерный мир только через язык и познание, чего явно недостаточно. «Он должен быть действительно векторным, используя Diffusion (диффузионную модель) и используя генеративные методы (чтобы понимать мир)».
Можно сказать, что рождение VLA – это не только смелая попытка глубоко интегрировать языковой интеллект и пространственный интеллект, но и переосмысление концепции «интеллектуального автомобиля» компанией Li Auto.
Ли Сян далее определил в сегодняшнем AI Talk: «VLA – это большая модель водителя, работающая как человеческий водитель». Это не только технология, но и интеллектуальный партнер, который может естественно общаться с пользователями и принимать независимые решения.
Итак, что же такое VLA? Ядро на самом деле очень простое: интегрируя визуальное восприятие, понимание естественного языка и возможности генерации действий, транспортное средство становится «агентом-водителем», который может общаться с людьми и принимать собственные решения.
Представьте, что вы сидите в своей машине и небрежно говорите: «Я сегодня немного устал, езжай медленнее», и транспортное средство не только поймет, что вы имеете в виду, но и скорректирует свою скорость и даже выберет более плавный маршрут. Это естественное и плавное взаимодействие – именно то, чего хочет достичь VLA. Ли Сян сообщил, что все короткие команды обрабатываются непосредственно транспортным средством, в то время как сложные команды анализируются облачной моделью с 3,2 миллиардами параметров, обеспечивая как эффективность, так и интеллект.
Достижение этой цели непросто. Особенность VLA в том, что он соединяет три измерения: зрение, язык и действие. Простая команда от пользователя может включать в себя восприятие окружающей среды в реальном времени, точное понимание языкового намерения и быструю корректировку поведения при вождении. Все три незаменимы.
И замечательная вещь в VLA – это то, что он позволяет этим трем работать вместе без проблем.
От видения к реальности, исследования и разработки VLA – это неизведанная территория. Ли Сян признал: «Получение визуальных данных и данных о действиях – самое сложное. Ни одна компания не может этого заменить».
Чтобы понять техническую подоплеку VLA, мы также должны взглянуть на эволюцию интеллектуального вождения Li Auto.
Ли Сян сказал, что ранняя система была «интеллектом уровня насекомых», с миллионами параметров, управляемая правилами и картами высокой точности, и была беспомощна при столкновении со сложными дорожными условиями. Позже, сквозная архитектура и визуально-языковые модели позволили технологии совершить скачок до «уровня млекопитающих», избавиться от зависимости от карт, и общенациональный NOA без карт стал реальностью.
Фактически, этот шаг уже вывел Li Auto на передовые позиции в отрасли, но они явно этим не удовлетворены. С точки зрения Ли Сяна, появление VLA знаменует собой то, что технология интеллектуального вождения Li Auto вступила в новую стадию «человеческого интеллекта».
По сравнению с предыдущей системой, VLA может не только воспринимать трехмерный физический мир, но и выполнять логические рассуждения и даже генерировать поведение при вождении, близкое к человеческому уровню.
Для простого примера, предположим, что вы говорите «найди место для разворота» на перегруженной улице, VLA не будет механически выполнять команду, но всесторонне рассмотрит дорожные условия, транспортный поток и правила дорожного движения, чтобы найти наиболее разумное время и место для завершения разворота.
Ли Сян сказал, что VLA может быстро адаптироваться к новым сценариям, генерируя данные, и может оптимизировать ответы даже при столкновении со сложным ремонтом дорог в первый раз в течение трех дней. Эта гибкость и суждение являются основными преимуществами VLA.
Учитель Li Auto– DeepSeek
Поддержкой VLA является сложная и сложная техническая система, независимо разработанная Li Auto. Эта система позволяет автомобилю не только «понимать» мир, но и думать и действовать как человеческий водитель.
Первым является технология 3D Gaussian representation, которая использует множество «гауссовых точек» для создания трехмерного объекта. Каждая точка содержит свою собственную позицию, цвет и информацию о размере. Эта технология использует самоконтролируемое обучение для обучения мощной модели трехмерного пространственного понимания с использованием массивных реальных данных. С его помощью VLA может «понимать» окружающий мир, как человек, зная, где находятся препятствия и где находятся проходимые области.
Далее идет архитектура Mixture of Experts (MoE), которая состоит из экспертных сетей, сетей стробированияи комбинаторов. Когда параметры модели превышают сотни миллиардов, традиционный метод заставит все нейроны участвовать в каждом вычислении, что является пустой тратой ресурсов. Сеть стробирования в архитектуре MoE будет вызывать разных экспертов в соответствии с разными задачами, чтобы гарантировать, что параметры активации не увеличатся значительно.
Говоря об этом, Ли Сян также похвалил DeepSeek:
DeepSeek использует лучшие практики человечества… Когда они делали DeepSeek V3, V3 также был MoE, модель 671B. Я думаю, что MoE – это очень хорошая архитектура. Это эквивалентно объединению кучи экспертов вместе, и каждый из них является экспертом в своей области.
Наконец, Li Auto представила Sparse Attention для VLA, что, говоря простым языком, означает, что VLA будет автоматически корректировать веса внимания ключевых областей, тем самым улучшая эффективность вывода конечной стороны.
Ли Сян сказал, что в процессе обучения этой новой базовой модели инженеры Li Auto потратили много времени на поиск наилучшего соотношения данных, интеграцию большого количества 3D-данных и текстовых и графических данных, связанных с автономным вождением, и сокращение доли литературных и исторических данных.
От восприятия до принятия решений VLA опирается на режим быстрого и медленного сочетания человеческого мышления. Он может быстро выдавать простые решения о действиях, такие как экстренное избежание, а также может использовать короткие цепочки мышления, чтобы «думать медленно», чтобы справиться с более сложными сценариями, такими как временное планирование маршрута для обхода строительной площадки. Чтобы еще больше повысить производительность в реальном времени, VLA также представила спекулятивные рассуждения и технологию параллельного декодирования, в полной мере используя вычислительную мощность чипа на стороне транспортного средства, чтобы гарантировать, что процесс принятия решений является быстрым и не хаотичным.
При создании поведения при вождении VLA использует модели Diffusion и Reinforcement Learning from Human Feedback (RLHF). Модель Diffusion отвечает за создание оптимизированных траекторий вождения, в то время как RLHF делает эти траектории более близкими к человеческим привычкам, безопасными и комфортными. Например, VLA будет автоматически замедляться при повороте или оставлять достаточно безопасное расстояние при перестроении в полосу движения. Эти детали отражают глубокое изучение поведения человека при вождении.
Мировая модель – еще одна ключевая технология. Li Auto предоставляет высококачественную виртуальную среду для обучения с подкреплением посредством реконструкции и генерации сцен. Ли Сян сообщил, что мировая модель снизила стоимость проверки с 170 000-180 000 юаней за 10 000 километров до 4 000 юаней. Это позволяет VLA постоянно оптимизировать в симуляции и с легкостью справляться со сложными сценариями.
Говоря об обучении, процесс роста VLA также довольно организован. Весь процесс делится на три этапа: предварительное обучение, постобработка и обучение с подкреплением. «Предварительное обучение похоже на изучение знаний, постобработка похожа на обучение вождению в автошколе, а обучение с подкреплением похоже на общественную практику», – сказал Ли Сян.
На этапе предварительного обучения Li Auto создала визуально-языковую базовую модель для VLA, наполнив ее богатыми трехмерными визуальными данными, двухмерными изображениями высокой четкости и корпусами, связанными с вождением, что позволило ей сначала научиться «видеть» и «слышать»; после обучения добавляется модуль действий, генерирующий 4-8 секундные траектории вождения, и модель расширяется с 3,2 миллиарда параметров до 4 миллиардов.
Обучение с подкреплением делится на два этапа: сначала используйте RLHF для выравнивания человеческих привычек, анализа данных о перехватах и обеспечения безопасности и комфорта; затем используйте чистое обучение с подкреплением для оптимизации, на основе G-value (комфорт), столкновения и обратной связи по правилам дорожного движения, чтобы VLA «водил лучше, чем люди». Ли Сян упомянул, что этот этап завершается в мировой модели, моделируя реальные сценарии дорожного движения, и эффективность намного лучше, чем традиционная проверка.
Этот метод обучения не только гарантирует технический прогресс, но и делает VLA достаточно надежным в практическом применении.
Ли Сян признал, что успех VLA неотделим от вдохновения отраслевых эталонов. Архитектура MoE DeepSeek не только повысила эффективность обучения, но и предоставила ценный опыт для Li Auto. Он посетовал: «Мы стоим на плечах гигантов и ускоряем исследования и разработки VLA». Это открытое отношение к обучению позволяет Li Auto продвигаться дальше в ничейную землю.
От «информационных инструментов» к «производственным инструментам»
В настоящее время индустрия искусственного интеллекта претерпевает глубокую трансформацию от «информационных инструментов» к «производственным инструментам». С развитием технологии больших моделей ИИ больше не ограничивается обработкой данных и предоставлением предложений, но начинает обладать способностью принимать независимые решения и выполнять задачи.
Ли Сян предложил во втором сезоне AI Talk, что ИИ можно разделить на информационные инструменты (такие как поиск), вспомогательные инструменты (такие как голосовая навигация) и производственные инструменты. Он подчеркнул: «Искусственный интеллект, становящийся производственным инструментом, – это момент настоящего прорыва». С развитием технологии больших моделей ИИ больше не ограничивается обработкой данных, но начинает обладать способностью принимать независимые решения и выполнять задачи.
Эта тенденция особенно очевидна в концепции «воплощенного интеллекта» – системам ИИ предоставляются физические сущности, способные чувствовать, понимать и взаимодействовать с окружающей средой.
Модель VLA Li Auto – яркий пример этой тенденции. Интегрируя зрение, язык и интеллект действий, она превращает автомобиль в интеллектуального агента, который может ездить автономно и взаимодействовать с пользователями естественным образом, прекрасно интерпретируя основную концепцию «воплощенного интеллекта».
До тех пор, пока люди нанимают профессиональных водителей, искусственный интеллект может стать производственным инструментом. Когда ИИ станет производственным инструментом, искусственный интеллект действительно взорвется.
Замечания Ли Сяна прояснили основную ценность VLA – это больше не простой вспомогательный инструмент, а «агент-водитель», который может самостоятельно выполнять задачи и брать на себя обязанности. Эта трансформация не только повышает практическую ценность автомобилей, но и открывает пространство для воображения для применения ИИ в других областях.
Мышление Ли Сяна об ИИ всегда имеет перспективу, которая выходит за рамки общепринятого. Он также упомянул: «VLA – это не процесс внезапного изменения, а процесс эволюции». Это предложение точно суммирует технический путь Li Auto –
От раннего управления на основе правил, до сквозных прорывов, до сегодняшнего уровня «человеческого интеллекта» VLA. Это эволюционное мышление не только делает VLA более осуществимым в технологиях, но и предоставляет эталонную парадигму для отрасли. По сравнению с некоторыми попытками, которые слепо преследуют подрывную деятельность, прагматичный путь Li Auto может быть более подходящим для сложного китайского рынка.
От технологии до веры, исследование ИИ Li Auto не проходит гладко. Ли Сян признал: «Мы пережили много проблем в области ИИ, как тьма перед рассветом, но мы верим, что, если мы будем настойчивы, мы увидим свет». Исследования и разработки VLA сталкиваются с такими проблемами, как узкие места в вычислительной мощности и этика данных, но Li Auto постепенно приблизилась к своему технологическому рассвету благодаря самостоятельно разработанным базовым моделям и мировым моделям.
Ли Сян также упомянул в интервью, что успех VLA неотделим от подъема китайского ИИ.
Он сказал, что появление таких моделей, как DeepSeek и Tongyi Qianwen, позволило уровню ИИ в Китае быстро приблизиться к уровню Соединенных Штатов. Среди них особенно воодушевляет дух открытого исходного кода, поддерживаемый DeepSeek, который непосредственно побудил Li Auto открыть исходный код Xinghuan OS. Ли Сян сказал: «Это не из соображений стратегических соображений компании. DeepSeek оказал нам так много помощи, мы должны внести что-то в общество».
Стремясь к технологическим прорывам, Li Auto не игнорирует вопросы безопасности и этики технологии ИИ. Технология «супервыравнивания», представленная VLA, приближает поведение модели к человеческим привычкам посредством Reinforcement Learning from Human Feedback (RLHF). Данные показывают, что применение VLA увеличило высокоскоростной MPI (средний пробег вмешательства) с 240 км до 300 км.
Что еще более важно, Li Auto подчеркивает построение «ИИ с человеческими ценностями» и рассматривает мораль и доверие как краеугольный камень технологического развития. С более макроскопической точки зрения значение VLA заключается в том, что он переопределяет роль автомобильных компаний.
В прошлом автомобили были транспортными средствами индустриальной эпохи; сегодня они превращаются в «пространственных роботов» в эпоху искусственного интеллекта. Ли Сян упомянул в AI Talk: «Li Auto раньше ходила по ничейной земле автомобилей, и в будущем будет ходить по ничейной земле искусственного интеллекта». Эта трансформация Li Auto открывает новое пространство воображения для бизнес-модели автомобильной промышленности.
Конечно, развитие VLA не лишено проблем. Постоянные инвестиции в вычислительную мощность, этика данных и установление доверия потребителей к автономному вождению – все это вопросы, с которыми Li Auto необходимо столкнуться. Кроме того, конкуренция в индустрии ИИ становится все более жесткой. Отечественные и зарубежные гиганты, такие как Tesla, Waymo и OpenAI, ускоряют разработку многомодальных моделей. Li Auto необходимо поддерживать свои лидирующие позиции в технологической итерации и продвижении на рынке. «У нас нет коротких путей, мы можем только углубляться», – сказал Ли Сян.
Несомненно, посадка VLA станет ключевым узлом.
Li Auto планирует выпустить VLA одновременно с чисто электрическим внедорожником Li Auto i8 в июле 2025 года и достичь массового производства в 2026 году. Это не только всестороннее испытание технологии, но и важный пробный камень для рынка.