从动物进化到人:理想汽车的VLA之路

“驾驶员大模型”也是你的司机

今年三月,在NVIDIA 2025春季GTC大会上,理想汽车自动驾驶技术研发负责人贾鹏介绍了他们的最新成果:MindVLA大模型。

这个模型是一个拥有22亿参数的视觉-语言-动作模型 (Vision-Language-Action Model, VLA)。贾鹏进一步表示,他们已经成功地将该模型部署在了车辆上。理想汽车认为,VLA模型是解决AI与物理世界交互挑战的最有效方法。

在过去的一年中,端到端架构已成为智能驾驶领域的技术热点,推动汽车公司从传统的模块化规则设计转向集成系统。此前在基于规则的算法方面领先的汽车公司面临转型之痛,而后来者则抓住了获得竞争优势的机会。

理想汽车就是其中的一个典型例子。

理想汽车去年在智能驾驶方面的进展可谓飞速。7月,它率先实现了全国无图NOA(Navigation on Autopilot,导航辅助驾驶),并推出了独特的“端到端(快系统)+ VLM(慢系统)”架构,在业内引起了广泛关注。

今晚,通过理想汽车AI Talk第二季,我们对李想所说的“人工智能公司”有了更深入的了解。

理想汽车CEO李想在去年12月的第一季AI Talk中,与腾讯新闻的首席技术作者张晓军的对话中,首次提到了VLA:

我们用理想同学和自动驾驶做的事情实际上按照行业标准是分开的,而且是早期阶段。我们做的Mind GPT实际上是一个大型语言模型;我们所做的自动驾驶,我们在内部称之为行为智能,但正如李飞飞(斯坦福终身教授,前谷歌首席科学家)所定义的那样,它被称为空间智能。只有当你真正大规模地做这件事时,你才会知道这两者有一天一定会连接起来。我们在内部称之为VLA(Vision Language Action Model)。

李想认为,基础模型肯定会在某个时刻成为VLA。原因是语言模型只能通过语言和认知来理解三维世界,这显然是不够的。“它需要真正基于向量,使用Diffusion(扩散模型),并使用生成方法(来理解世界)。”

可以说,VLA的诞生不仅是一次大胆的尝试,旨在深入整合语言智能和空间智能,也是理想汽车对“智能汽车”概念的重新诠释。

李想在今晚的AI Talk中进一步定义:“VLA是一个驾驶员大模型,像人类驾驶员一样工作。”它不仅是一项技术,还是一个可以与用户自然沟通并做出独立决策的智能伙伴。

那么,VLA究竟是什么?其核心实际上非常简单:通过整合视觉感知、自然语言理解和动作生成能力,车辆就变成了一个可以与人交流并自主决策的“驾驶代理”。

想象一下,你坐在车里,随意地说:“今天有点累,开慢点”,车辆不仅会理解你的意思,还会调整速度,甚至选择更平稳的路线。这种自然而流畅的互动正是VLA想要实现的。李想透露,所有短命令都由车辆直接处理,而复杂的命令则由基于云端的32亿参数模型解析,从而确保了效率和智能。

实现这个目标并不容易。VLA的特别之处在于它连接了视觉、语言和动作这三个维度。用户的一个简单命令可能涉及对周围环境的实时感知、对语言意图的准确理解以及对驾驶行为的快速调整。这三者缺一不可。

而VLA的伟大之处在于它能让这三者无缝地协同工作。

从愿景到现实,VLA的研发是一片未知的领域。李想坦言:“视觉和动作数据的获取是最困难的。没有公司可以替代它。”

要理解VLA的技术背景,我们还必须了解理想汽车智能驾驶的演变。

李想说,早期的系统是“昆虫级”智能,只有数百万个参数,由规则和高精度地图驱动,在遇到复杂的路况时束手无策。后来,端到端架构和视觉-语言模型使该技术跃升到“哺乳动物级”,摆脱了对地图的依赖,全国无图NOA成为现实。

事实上,这一步已经使理想汽车走在了行业的前沿,但他们显然并不满足于此。在李想看来,VLA的出现标志着理想汽车的智能驾驶技术已经进入了一个新的“人类智能”阶段。

与之前的系统相比,VLA不仅可以感知3D物理世界,还可以进行逻辑推理,甚至可以生成接近人类水平的驾驶行为。

举一个简单的例子,假设你在拥挤的街道上说“找个地方掉头”,VLA不会机械地执行命令,而是会综合考虑路况、交通流量和交通规则,找到最合理的时间和地点来完成掉头。

李想表示,VLA可以通过生成数据来快速适应新的场景,并且即使第一次遇到复杂的道路维修,也可以在三天内优化响应。这种灵活性和判断力是VLA的核心优势。

理想汽车的老师是DeepSeek

支撑VLA的是理想汽车独立开发的复杂而精密的的技术体系。该系统使汽车不仅“理解”世界,还能像人类驾驶员一样思考和行动。

首先是3D高斯表示技术,该技术使用许多“高斯点”来创建3D对象。每个点都包含其自己的位置、颜色和大小信息。该技术使用自监督学习来训练强大的3D空间理解模型,使用大量真实数据。有了它,VLA可以像人类一样“理解”周围的世界,知道障碍物在哪里,可通行区域在哪里。

接下来是专家混合 (Mixture of Experts, MoE) 架构,它由专家网络、门控网络和组合器组成。当模型参数超过数千亿时,传统方法会使所有神经元参与每次计算,这是一种资源浪费。MoE架构中的门控网络将根据不同的任务调用不同的专家,以确保激活参数不会显着增加。

谈到这一点,李想也称赞了DeepSeek:

DeepSeek使用了人类的最佳实践……当他们做DeepSeek V3时,V3也是一个MoE,一个671B模型。我认为MoE是一个非常好的架构。它相当于把一群专家组合在一起,每个人都是一个专家能力。

最后,理想汽车将稀疏注意力 (Sparse Attention) 引入了VLA,用外行的话说,这意味着VLA将自动调整关键区域的注意力权重,从而提高终端侧的推理效率。

李想说,在这个新基础模型的训练过程中,理想汽车的工程师花费了大量时间来寻找最佳的数据比例,整合了大量的3D数据以及与自动驾驶相关的文本和图像数据,并降低了文学和历史数据的比例。

从感知到决策,VLA借鉴了人类思维的快慢结合模式。它可以快速输出简单的动作决策,例如紧急避让,也可以使用短思考链“慢慢思考”以处理更复杂的场景,例如临时计划一条绕过施工区域的路线。为了进一步提高实时性能,VLA还引入了推测推理和并行解码技术,充分利用车载芯片的计算能力,以确保决策过程快速且不混乱。

在生成驾驶行为时,VLA使用Diffusion模型和从人类反馈中进行强化学习 (Reinforcement Learning from Human Feedback, RLHF)。Diffusion模型负责生成优化的驾驶轨迹,而RLHF使这些轨迹更接近人类习惯,既安全又舒适。例如,VLA会在转弯时自动减速,或者在并道时留出足够的安全距离。这些细节反映了对人类驾驶行为的深度学习。

世界模型是另一项关键技术。理想汽车通过场景重建和生成为强化学习提供了高质量的虚拟环境。李想透露,世界模型已将每10,000公里的验证成本从170,000-180,000元降低到4,000元。它允许VLA在模拟中不断优化,并轻松应对复杂场景。

说到训练,VLA的成长过程也相当有条理。整个过程分为三个阶段:预训练、后训练和强化学习。李想说:“预训练就像学习知识,后训练就像在驾校学习驾驶,而强化学习就像社会实践。”

在预训练阶段,理想汽车为VLA创建了一个视觉-语言基础模型,其中填充了丰富的3D视觉数据、2D高清图像和与驾驶相关的语料库,使其首先学会“看”和“听”;训练后,添加动作模块,生成4-8秒的驾驶轨迹,模型从32亿参数扩展到40亿。

强化学习分为两个步骤:首先,使用RLHF来对齐人类习惯,分析接管数据,并确保安全和舒适;然后,使用纯粹的强化学习进行优化,基于G值(舒适度)、碰撞和交通规则反馈,使VLA“比人类驾驶得更好”。李想提到,这个阶段是在世界模型中完成的,模拟真实的交通场景,效率远胜于传统的验证。

这种训练方法不仅保证了技术的先进性,而且使VLA在实际应用中足够可靠。

李想承认,VLA的成功离不开行业基准的启发。DeepSeek的MoE架构不仅提高了训练效率,而且为理想汽车提供了宝贵的经验。他感叹道:“我们站在巨人的肩膀上,加速了VLA的研发。”这种开放的学习态度使理想汽车能够在无人区走得更远。

从“信息工具”到“生产工具”

目前,人工智能行业正在经历从“信息工具”到“生产工具”的深刻转型。随着大型模型技术的成熟,人工智能不再局限于处理数据和提供建议,而是开始具备独立决策和执行任务的能力。

李想在AI Talk第二季中提出,AI可以分为信息工具(如搜索)、辅助工具(如语音导航)和生产工具。他强调:“人工智能成为生产工具是真正爆发的时刻。”随着大型模型技术的成熟,人工智能不再局限于处理数据,而是开始具备独立决策和执行任务的能力。

这种趋势在“具身智能”的概念中尤为明显——人工智能系统被赋予物理实体,能够感知、理解和与环境交互。

理想汽车的VLA模型是这一趋势的生动实践。通过整合视觉、语言和动作智能,它将汽车转变为一个能够自动驾驶并与用户自然交互的智能代理,完美地诠释了“具身智能”的核心概念。

只要人类雇佣专业司机,人工智能就可以成为生产工具。当AI成为生产工具时,人工智能将真正爆发。

李想的这番话阐明了VLA的核心价值——它不再是一个简单的辅助工具,而是一个可以独立执行任务并承担责任的“驾驶代理”。这种转变不仅提高了汽车的实用价值,也为人工智能在其他领域的应用开辟了想象空间。

李想对人工智能的思考始终有一种跳出框架的视角。他还提到:“VLA不是一个突变的过程,而是一个进化的过程。”这句话准确地总结了理想汽车的技术路径——

从早期的规则驱动,到端到端的突破,再到如今VLA的“人类智能”水平。这种进化的思维不仅使VLA在技术上更可行,也为行业提供了一个参考范式。与一些盲目追求颠覆的尝试相比,理想汽车的务实路径可能更适合复杂的中国市场。

从技术到信念,理想汽车的人工智能探索并非一帆风顺。李想坦言:“我们在人工智能领域经历了很多挑战,就像黎明前的黑暗,但我们相信,如果我们坚持下去,就会看到光明。”VLA的研发面临着算力瓶颈和数据伦理等问题,但理想汽车通过自研基础模型和世界模型,逐渐迎来了他们的技术黎明。

李想还在采访中提到,VLA的成功离不开中国人工智能的崛起。

他说,像DeepSeek和通义千问这样的模型的出现,使得中国的人工智能水平迅速接近美国。其中,DeepSeek秉持的开源精神尤其令人鼓舞,这直接促使理想汽车开源星环OS。李想说:“这不是出于公司战略考虑。DeepSeek给了我们这么多帮助,我们应该为社会贡献一些东西。”

在追求技术突破的同时,理想汽车也没有忽视人工智能技术的安全和伦理问题。VLA引入的“超对齐”技术通过从人类反馈中进行强化学习 (RLHF) 使得模型的行为更接近人类习惯。数据显示,VLA的应用已将高速MPI(平均干预里程)从240公里增加到300公里。

更重要的是,理想汽车强调构建“具有人类价值观的AI”,并将道德和信任视为技术发展的基石。从更宏观的角度来看,VLA的意义在于它重新定义了汽车公司的角色。

过去,汽车是工业时代的交通工具;今天,它们正在演变成人工智能时代的“空间机器人”。李想在AI Talk中提到:“理想汽车过去走在汽车的无人区,未来将走在人工智能的无人区。”理想汽车的这种转型为汽车行业的商业模式带来了新的想象空间。

当然,VLA的发展并非没有挑战。算力的持续投入、数据伦理以及消费者对自动驾驶的信任建立,都是理想汽车需要面对的问题。此外,人工智能行业的竞争也日趋激烈。特斯拉、Waymo和OpenAI等国内外巨头正在加速多模态模型的布局。理想汽车需要在技术迭代和市场推广方面保持领先地位。“我们没有捷径可走,只能深耕细作,”李想说。

毫无疑问,VLA的落地将是一个关键节点。

理想汽车计划在2025年7月与纯电动SUV理想汽车i8同步发布VLA,并在2026年实现量产。这不仅是对技术的全面测试,也是对市场的重要试金石。