De la Evolución Animal a Humanos: Li Auto y el VLA

En marzo de este año, en la conferencia GTC de primavera de NVIDIA 2025, Jia Peng, Jefe de I+D de Tecnología de Conducción Autónoma en Li Auto, presentó su último logro: el modelo grande MindVLA.

Este modelo es un Modelo de Visión-Lenguaje-Acción (VLA) con 2.2 mil millones de parámetros. Jia Peng declaró además que han implementado con éxito el modelo en vehículos. Li Auto cree que los modelos VLA son el método más efectivo para resolver los desafíos de la IA que interactúa con el mundo físico.

Durante el año pasado, la arquitectura de extremo a extremo se ha convertido en un punto de acceso tecnológico en el campo de la conducción inteligente, impulsando a las compañías de automóviles a cambiar del diseño de reglas modulares tradicionales a sistemas integrados. Las compañías de automóviles que antes lideraban con algoritmos basados ​​en reglas enfrentan dolores de transición, mientras que los recién llegados han aprovechado la oportunidad para obtener una ventaja competitiva.

Li Auto es un excelente ejemplo de esto.

El progreso de Li Auto en la conducción inteligente el año pasado puede describirse como rápido. En julio, tomó la delantera en el logro de la NOA (Navegación en Piloto Automático) nacional sin mapas y lanzó una arquitectura única de "extremo a extremo (sistema rápido) + VLM (sistema lento)", que ha recibido una atención generalizada en la industria.

Esta noche, con la segunda temporada de Li Auto AI Talk, hemos obtenido una comprensión más profunda de lo que Li Xiang se refiere como una "empresa de inteligencia artificial".

El "Modelo Grande del Conductor" También Es Tu Conductor

Li Xiang, CEO de Li Auto, mencionó por primera vez VLA en la primera temporada de AI Talk el pasado diciembre, en una conversación con Zhang Xiaojun, el principal escritor de tecnología de Tencent News. En ese momento, dijo:

Lo que estamos haciendo con Li Auto Companion y la conducción autónoma en realidad está separado de acuerdo con los estándares de la industria, y está en las primeras etapas. El Mind GPT que estamos haciendo es en realidad un modelo de lenguaje grande; la conducción autónoma que estamos haciendo, la llamamos internamente inteligencia conductual, pero según la definición de Li Feifei (profesora vitalicia de Stanford, ex científica jefe de Google), se llama inteligencia espacial. Solo cuando realmente lo haces a gran escala sabrás que estos dos definitivamente se conectarán algún día. Lo llamamos VLA (Modelo de Acción del Lenguaje de Visión) internamente.

Li Xiang cree que el modelo base definitivamente se convertirá en VLA en un cierto momento. La razón es que los modelos de lenguaje solo pueden comprender el mundo tridimensional a través del lenguaje y la cognición, lo cual obviamente no es suficiente. "Necesita ser verdaderamente basado en vectores, usando Difusión (modelo de difusión) y usando métodos generativos (para comprender el mundo)".

Se puede decir que el nacimiento de VLA no es solo un intento audaz de integrar profundamente la inteligencia del lenguaje y la inteligencia espacial, sino también una reinterpretación del concepto de "automóvil inteligente" por parte de Li Auto.

Li Xiang definió aún más en el AI Talk de esta noche: "VLA es un modelo grande de conductor, que funciona como un conductor humano". No es solo una tecnología, sino también un socio inteligente que puede comunicarse naturalmente con los usuarios y tomar decisiones independientes.

Entonces, ¿qué es exactamente VLA? El núcleo es en realidad muy sencillo: al integrar la percepción visual, la comprensión del lenguaje natural y las capacidades de generación de acciones, el vehículo se convierte en un "agente conductor" que puede comunicarse con las personas y tomar sus propias decisiones.

Imagínese sentado en su automóvil y diciendo casualmente: "Estoy un poco cansado hoy, conduzca más lento", y el vehículo no solo comprenderá lo que quiere decir, sino que también ajustará su velocidad e incluso elegirá una ruta más suave. Esta interacción natural y fluida es exactamente lo que VLA quiere lograr. Li Xiang reveló que todos los comandos cortos son procesados ​​directamente por el vehículo, mientras que los comandos complejos son analizados por el modelo de 3.2 mil millones de parámetros basado en la nube, lo que garantiza tanto la eficiencia como la inteligencia.

Lograr este objetivo no es fácil. Lo especial de VLA es que conecta las tres dimensiones de la visión, el lenguaje y la acción. Un simple comando del usuario puede implicar la percepción en tiempo real del entorno circundante, la comprensión precisa de la intención del lenguaje y el ajuste rápido del comportamiento de conducción. Los tres son indispensables.

Y lo grandioso de VLA es que permite que estos tres trabajen juntos sin problemas.

Desde la visión hasta la realidad, la I+D de VLA es un territorio inexplorado. Li Xiang admitió: "La adquisición de datos visuales y de acción es lo más difícil. Ninguna empresa puede reemplazarlo".

Para comprender los antecedentes técnicos de VLA, también debemos observar la evolución de la conducción inteligente de Li Auto.

Li Xiang dijo que el sistema temprano era inteligencia de "nivel de insecto", con solo millones de parámetros, impulsado por reglas y mapas de alta precisión, y estaba indefenso al encontrarse con condiciones de carretera complejas. Más tarde, la arquitectura de extremo a extremo y los modelos visuales-lingüísticos permitieron que la tecnología saltara al "nivel de mamífero", se deshiciera de la dependencia de mapas y la NOA nacional sin mapas se hizo realidad.

De hecho, este paso ya ha puesto a Li Auto a la vanguardia de la industria, pero obviamente no están satisfechos con esto. En opinión de Li Xiang, la aparición de VLA marca que la tecnología de conducción inteligente de Li Auto ha entrado en una nueva etapa de "inteligencia humana".

En comparación con el sistema anterior, VLA no solo puede percibir el mundo físico 3D, sino también realizar razonamientos lógicos e incluso generar comportamientos de conducción cercanos al nivel humano.

Para un ejemplo simple, suponga que dice "encuentre un lugar para dar la vuelta" en una calle congestionada, VLA no ejecutará mecánicamente el comando, sino que considerará integralmente las condiciones de la carretera, el flujo de tráfico y las normas de tráfico para encontrar el momento y el lugar más razonables para completar el giro en U.

Li Xiang dijo que VLA puede adaptarse rápidamente a nuevos escenarios generando datos y puede optimizar las respuestas incluso cuando se encuentra con reparaciones complejas de carreteras por primera vez en tres días. Esta flexibilidad y juicio son las principales ventajas de VLA.

El Maestro de Li Auto Es DeepSeek

El soporte para VLA es un sistema técnico complejo y sofisticado desarrollado independientemente por Li Auto. Este sistema permite que el automóvil no solo "comprenda" el mundo, sino que también piense y actúe como un conductor humano.

La primera es la tecnología de representación gaussiana 3D, que utiliza muchos "puntos gaussianos" para crear un objeto 3D. Cada punto contiene su propia información de posición, color y tamaño. Esta tecnología utiliza el aprendizaje autosupervisado para entrenar un poderoso modelo de comprensión espacial 3D utilizando datos reales masivos. Con él, VLA puede "comprender" el mundo circundante como un humano, sabiendo dónde están los obstáculos y dónde están las áreas transitables.

El siguiente es la arquitectura de Mixture of Experts (MoE), que consta de redes expertas, redes de gating y combinadores. Cuando los parámetros del modelo exceden cientos de miles de millones, el método tradicional hará que todas las neuronas participen en cada cálculo, lo cual es un desperdicio de recursos. La red de gating en la arquitectura MoE llamará a diferentes expertos de acuerdo con diferentes tareas para garantizar que los parámetros de activación no aumenten significativamente.

Hablando de esto, Li Xiang también elogió a DeepSeek:

DeepSeek utiliza las mejores prácticas de la humanidad… Cuando estaban haciendo DeepSeek V3, V3 también era un MoE, un modelo 671B. Creo que MoE es una arquitectura muy buena. Es equivalente a combinar un montón de expertos, y cada uno es una capacidad experta.

Finalmente, Li Auto introdujo Sparse Attention a VLA, lo que en términos sencillos significa que VLA ajustará automáticamente los pesos de atención de las áreas clave, mejorando así la eficiencia de inferencia del lado final.

Li Xiang dijo que en el proceso de entrenamiento de este nuevo modelo base, los ingenieros de Li Auto pasaron mucho tiempo buscando la mejor proporción de datos, integrando una gran cantidad de datos 3D y datos de texto e imagen relacionados con la conducción autónoma, y ​​reduciendo la proporción de datos literarios e históricos.

Desde la percepción hasta la toma de decisiones, VLA se basa en el modo de combinación rápido y lento del pensamiento humano. Puede generar rápidamente decisiones de acción simples, como la evitación de emergencia, y también puede usar cadenas de pensamiento cortas para "pensar lentamente" para lidiar con escenarios más complejos, como planificar temporalmente una ruta para evitar el área de construcción. Para mejorar aún más el rendimiento en tiempo real, VLA también introdujo el razonamiento especulativo y la tecnología de decodificación paralela, aprovechando al máximo la potencia informática del chip del lado del vehículo para garantizar que el proceso de toma de decisiones sea rápido y no caótico.

Al generar un comportamiento de conducción, VLA utiliza modelos de difusión y aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). El modelo de difusión es responsable de generar trayectorias de conducción optimizadas, mientras que RLHF hace que estas trayectorias sean más cercanas a los hábitos humanos, tanto seguras como cómodas. Por ejemplo, VLA se ralentizará automáticamente al girar o dejará suficiente distancia de seguridad al fusionar carriles. Estos detalles reflejan el aprendizaje profundo del comportamiento de conducción humano.

El modelo mundial es otra tecnología clave. Li Auto proporciona un entorno virtual de alta calidad para el aprendizaje por refuerzo a través de la reconstrucción y generación de escenas. Li Xiang reveló que el modelo mundial ha reducido el costo de verificación de 170,000-180,000 yuanes por 10,000 kilómetros a 4,000 yuanes. Permite que VLA se optimice continuamente en la simulación y se enfrente a escenarios complejos con facilidad.

Hablando de entrenamiento, el proceso de crecimiento de VLA también está bastante organizado. Todo el proceso se divide en tres etapas: preentrenamiento, postentrenamiento y aprendizaje por refuerzo. "El preentrenamiento es como aprender conocimientos, el postentrenamiento es como aprender a conducir en una autoescuela y el aprendizaje por refuerzo es como la práctica social", dijo Li Xiang.

En la etapa de preentrenamiento, Li Auto creó un modelo base visual-lingüístico para VLA, rellenándolo con ricos datos visuales 3D, imágenes de alta definición 2D y corpus relacionados con la conducción, lo que le permite primero aprender a "ver" y "oír"; después del entrenamiento, se agrega el módulo de acción, generando trayectorias de conducción de 4 a 8 segundos, y el modelo se expande de 3.2 mil millones de parámetros a 4 mil millones.

El aprendizaje por refuerzo se divide en dos pasos: primero, use RLHF para alinear los hábitos humanos, analizar los datos de adquisición y garantizar la seguridad y la comodidad; luego, use el aprendizaje por refuerzo puro para optimizar, basado en el valor G (comodidad), la colisión y la retroalimentación de las normas de tráfico, para que VLA "conduzca mejor que los humanos". Li Xiang mencionó que esta etapa se completa en el modelo mundial, simulando escenarios de tráfico reales, y la eficiencia es mucho mejor que la verificación tradicional.

Este método de entrenamiento no solo garantiza el avance técnico, sino que también hace que VLA sea lo suficientemente confiable en aplicaciones prácticas.

Li Xiang admitió que el éxito de VLA es inseparable de la inspiración de los puntos de referencia de la industria. La arquitectura MoE de DeepSeek no solo mejoró la eficiencia del entrenamiento, sino que también proporcionó una valiosa experiencia para Li Auto. Lamentó: "Estamos de pie sobre los hombros de gigantes y acelerando la I+D de VLA". Esta actitud de aprendizaje abierto permite que Li Auto vaya más allá en la tierra de nadie.

De "Herramientas de Información" a "Herramientas de Producción"

En la actualidad, la industria de la IA está experimentando una profunda transformación de "herramientas de información" a "herramientas de producción". Con la madurez de la tecnología de modelos grandes, la IA ya no se limita a procesar datos y proporcionar sugerencias, sino que comienza a tener la capacidad de tomar decisiones independientes y realizar tareas.

Li Xiang propuso en la segunda temporada de AI Talk que la IA se puede dividir en herramientas de información (como la búsqueda), herramientas auxiliares (como la navegación por voz) y herramientas de producción. Enfatizó: "La inteligencia artificial que se convierte en una herramienta de producción es el momento del verdadero brote". Con la madurez de la tecnología de modelos grandes, la IA ya no se limita a procesar datos, sino que comienza a tener la capacidad de tomar decisiones independientes y realizar tareas.

Esta tendencia es particularmente evidente en el concepto de "inteligencia encarnada": a los sistemas de IA se les dan entidades físicas, capaces de sentir, comprender e interactuar con el entorno.

El modelo VLA de Li Auto es una práctica vívida de esta tendencia. Al integrar la visión, el lenguaje y la inteligencia de acción, transforma el automóvil en un agente inteligente que puede conducir de forma autónoma e interactuar naturalmente con los usuarios, interpretando perfectamente el concepto central de "inteligencia encarnada".

Siempre que los humanos contraten conductores profesionales, la inteligencia artificial puede convertirse en una herramienta de producción. Cuando la IA se convierta en una herramienta de producción, la inteligencia artificial realmente explotará.

Los comentarios de Li Xiang aclararon el valor central de VLA: ya no es una simple herramienta auxiliar, sino un "agente conductor" que puede realizar tareas de forma independiente y asumir responsabilidades. Esta transformación no solo mejora el valor práctico de los automóviles, sino que también abre un espacio de imaginación para la aplicación de la IA en otros campos.

El pensamiento de Li Xiang sobre la IA siempre tiene una perspectiva que rompe la caja. También mencionó: "VLA no es un proceso de cambio repentino, sino un proceso evolutivo". Esta frase resume con precisión la trayectoria técnica de Li Auto:

Desde la conducción temprana basada en reglas, hasta los avances de extremo a extremo, hasta el nivel de "inteligencia humana" de VLA en la actualidad. Este pensamiento evolutivo no solo hace que VLA sea más factible en tecnología, sino que también proporciona un paradigma de referencia para la industria. En comparación con algunos intentos que persiguen ciegamente la subversión, el camino pragmático de Li Auto puede ser más adecuado para el complejo mercado chino.

Desde la tecnología hasta la creencia, la exploración de la IA de Li Auto no es fluida. Li Xiang admitió: "Hemos experimentado muchos desafíos en el campo de la IA, como la oscuridad antes del amanecer, pero creemos que si perseveramos, veremos la luz". La I+D de VLA se enfrenta a problemas como los cuellos de botella de la potencia informática y la ética de los datos, pero Li Auto ha marcado gradualmente el comienzo de su amanecer tecnológico a través de modelos base y modelos mundiales de desarrollo propio.

Li Xiang también mencionó en la entrevista que el éxito de VLA es inseparable del auge de la IA china.

Dijo que la aparición de modelos como DeepSeek y Tongyi Qianwen ha hecho que el nivel de IA de China se acerque rápidamente a Estados Unidos. Entre ellos, el espíritu de código abierto defendido por DeepSeek es particularmente alentador, lo que impulsó directamente a Li Auto a abrir el código fuente de Xinghuan OS. Li Xiang dijo: "Esto no se debe a consideraciones estratégicas de la empresa. DeepSeek nos ha brindado mucha ayuda, debemos contribuir con algo a la sociedad".

Mientras busca avances tecnológicos, Li Auto no ha ignorado los problemas de seguridad y ética de la tecnología de IA. La tecnología de "super alineación" introducida por VLA hace que el comportamiento del modelo sea más cercano a los hábitos humanos a través del aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). Los datos muestran que la aplicación de VLA ha aumentado el MPI de alta velocidad (kilometraje de intervención promedio) de 240 km a 300 km.

Más importante aún, Li Auto enfatiza la construcción de "IA con valores humanos" y considera la moralidad y la confianza como la piedra angular del desarrollo tecnológico. Desde una perspectiva más macro, la importancia de VLA radica en que redefine el papel de las empresas automotrices.

En el pasado, los automóviles eran medios de transporte de la era industrial; hoy, están evolucionando hacia "robots espaciales" en la era de la inteligencia artificial. Li Xiang mencionó en AI Talk: "Li Auto solía caminar en la tierra de nadie de los automóviles, y caminará en la tierra de nadie de la inteligencia artificial en el futuro". Esta transformación de Li Auto aporta un nuevo espacio de imaginación al modelo de negocio de la industria automotriz.

Por supuesto, el desarrollo de VLA no está exento de desafíos. La inversión continua de la potencia informática, la ética de los datos y el establecimiento de la confianza del consumidor en la conducción autónoma son todos los problemas que Li Auto debe enfrentar. Además, la competencia en la industria de la IA es cada vez más feroz. Los gigantes nacionales y extranjeros como Tesla, Waymo y OpenAI están acelerando el diseño de modelos multi-modales. Li Auto necesita mantener su posición de liderazgo en la iteración tecnológica y la promoción en el mercado. "No tenemos atajos, solo podemos cultivar profundamente", dijo Li Xiang.

Sin duda, el aterrizaje de VLA será un nodo clave.

Li Auto planea lanzar VLA simultáneamente con el SUV eléctrico puro Li Auto i8 en julio de 2025 y lograr la producción en masa en 2026. Esta no es solo una prueba integral de la tecnología, sino también una piedra de toque importante para el mercado.