Da Evolução Animal aos Humanos: Li Auto e o VLA

Em março deste ano, na conferência NVIDIA GTC Spring de 2025, Jia Peng, Chefe de P&D de Tecnologia de Condução Autônoma da Li Auto, apresentou sua mais recente conquista: o modelo grande MindVLA.

Este modelo é um Vision-Language-Action Model (VLA) com 2,2 bilhões de parâmetros. Jia Peng afirmou ainda que eles implantaram com sucesso o modelo em veículos. A Li Auto acredita que os modelos VLA são o método mais eficaz para resolver os desafios da IA que interage com o mundo físico.

No ano passado, a arquitetura end-to-end tornou-se um ponto quente tecnológico no campo da condução inteligente, impulsionando as empresas de automóveis a mudar do design modular tradicional baseado em regras para sistemas integrados. As empresas de automóveis que antes lideravam com algoritmos baseados em regras enfrentam dificuldades de transição, enquanto os retardatários aproveitaram a oportunidade para obter uma vantagem competitiva.

A Li Auto é um excelente exemplo disso.

O progresso da Li Auto na condução inteligente no ano passado pode ser descrito como rápido. Em julho, assumiu a liderança ao alcançar o NOA (Navigation on Autopilot) nacional sem mapa e lançou uma arquitetura única "end-to-end (sistema rápido) + VLM (sistema lento)", que recebeu ampla atenção na indústria.

Hoje à noite, com a segunda temporada do Li Auto AI Talk, obtivemos uma compreensão mais profunda do que Li Xiang se refere como uma "empresa de inteligência artificial".

O "Driver Large Model" Também É Seu Motorista

Li Xiang, CEO da Li Auto, mencionou pela primeira vez o VLA na primeira temporada do AI Talk em dezembro passado, em uma conversa com Zhang Xiaojun, o principal escritor de tecnologia da Tencent News. Naquela época, ele disse:

O que estamos fazendo com o Li Auto Companion e a condução autônoma é, na verdade, separado de acordo com os padrões da indústria, e está nos estágios iniciais. O Mind GPT que estamos fazendo é, na verdade, um grande modelo de linguagem; a condução autônoma que estamos fazendo, chamamos internamente de inteligência comportamental, mas, conforme definido por Li Feifei (professora vitalícia de Stanford, ex-Cientista Chefe do Google), é chamada de inteligência espacial. Somente quando você realmente fizer isso em grande escala saberá que esses dois definitivamente serão conectados um dia. Chamamos isso internamente de VLA (Vision Language Action Model).

Li Xiang acredita que o modelo base definitivamente se tornará VLA em um determinado momento. A razão é que os modelos de linguagem só podem entender o mundo tridimensional por meio da linguagem e da cognição, o que obviamente não é suficiente. "Ele precisa ser verdadeiramente baseado em vetores, usando Difusão (modelo de difusão) e usando métodos generativos (para entender o mundo)."

Pode-se dizer que o nascimento do VLA não é apenas uma tentativa ousada de integrar profundamente a inteligência da linguagem e a inteligência espacial, mas também uma reinterpretação do conceito de "carro inteligente" pela Li Auto.

Li Xiang definiu ainda no AI Talk desta noite: "VLA é um modelo grande de driver, funcionando como um motorista humano." Não é apenas uma tecnologia, mas também um parceiro inteligente que pode se comunicar naturalmente com os usuários e tomar decisões independentes.

Então, o que exatamente é VLA? O núcleo é realmente muito direto: ao integrar percepção visual, compreensão da linguagem natural e recursos de geração de ação, o veículo se torna um "agente de driver" que pode se comunicar com as pessoas e tomar suas próprias decisões.

Imagine-se sentado em seu carro e dizendo casualmente: "Estou um pouco cansado hoje, dirija mais devagar", e o veículo não apenas entenderá o que você quer dizer, mas também ajustará sua velocidade e até escolherá uma rota mais suave. Essa interação natural e suave é exatamente o que o VLA deseja alcançar. Li Xiang revelou que todos os comandos curtos são processados diretamente pelo veículo, enquanto os comandos complexos são analisados pelo modelo baseado em nuvem de 3,2 bilhões de parâmetros, garantindo eficiência e inteligência.

Alcançar esse objetivo não é fácil. O especial do VLA é que ele conecta as três dimensões de visão, linguagem e ação. Um comando simples do usuário pode envolver a percepção em tempo real do ambiente circundante, a compreensão precisa da intenção da linguagem e o ajuste rápido do comportamento de direção. Os três são indispensáveis.

E o grande do VLA é que ele permite que esses três trabalhem juntos perfeitamente.

Da visão à realidade, o P&D do VLA é um território desconhecido. Li Xiang admitiu: "A aquisição de dados visuais e de ação é a mais difícil. Nenhuma empresa pode substituí-la."

Para entender o histórico técnico do VLA, também devemos analisar a evolução da condução inteligente da Li Auto.

Li Xiang disse que o sistema inicial era inteligência de "nível de inseto", com apenas milhões de parâmetros, impulsionado por regras e mapas de alta precisão, e era impotente ao encontrar condições de estrada complexas. Mais tarde, a arquitetura end-to-end e os modelos visuais-linguísticos permitiram que a tecnologia saltasse para o "nível de mamífero", se livrasse da dependência de mapas e o NOA nacional sem mapa se tornou uma realidade.

Na verdade, este passo já colocou a Li Auto na vanguarda da indústria, mas eles obviamente não estão satisfeitos com isso. Na visão de Li Xiang, o surgimento do VLA marca que a tecnologia de condução inteligente da Li Auto entrou em um novo estágio de "inteligência humana".

Comparado com o sistema anterior, o VLA não só pode perceber o mundo físico 3D, mas também realizar raciocínio lógico e até gerar comportamentos de condução próximos ao nível humano.

Para um exemplo simples, suponha que você diga "encontre um lugar para virar" em uma rua congestionada, o VLA não executará mecanicamente o comando, mas considerará de forma abrangente as condições da estrada, o fluxo de tráfego e as regras de trânsito para encontrar o momento e o local mais razoáveis para concluir o retorno.

Li Xiang disse que o VLA pode se adaptar rapidamente a novos cenários gerando dados e pode otimizar as respostas mesmo ao encontrar reparos complexos na estrada pela primeira vez em três dias. Essa flexibilidade e julgamento são as principais vantagens do VLA.

O Professor da Li Auto É DeepSeek

Apoiar o VLA é um sistema técnico complexo e sofisticado desenvolvido independentemente pela Li Auto. Este sistema permite que o carro não só "entenda" o mundo, mas também pense e aja como um motorista humano.

A primeira é a tecnologia de representação gaussiana 3D, que usa muitos "pontos gaussianos" para criar um objeto 3D. Cada ponto contém sua própria posição, cor e informações de tamanho. Esta tecnologia usa o aprendizado autossupervisionado para treinar um poderoso modelo de compreensão espacial 3D usando dados reais massivos. Com ele, o VLA pode "entender" o mundo ao redor como um humano, sabendo onde estão os obstáculos e onde estão as áreas passíveis.

Em seguida, está a arquitetura Mixture of Experts (MoE), que consiste em redes de especialistas, redes de gating e combinadores. Quando os parâmetros do modelo excedem centenas de bilhões, o método tradicional fará com que todos os neurônios participem de cada cálculo, o que é um desperdício de recursos. A rede de gating na arquitetura MoE chamará diferentes especialistas de acordo com diferentes tarefas para garantir que os parâmetros de ativação não aumentem significativamente.

Falando sobre isso, Li Xiang também elogiou o DeepSeek:

DeepSeek usa as melhores práticas da humanidade… Quando eles estavam fazendo o DeepSeek V3, o V3 também era um MoE, um modelo de 671B. Acho que o MoE é uma arquitetura muito boa. É equivalente a combinar um monte de especialistas juntos, e cada um é uma habilidade de especialista.

Finalmente, a Li Auto introduziu o Sparse Attention ao VLA, o que, em termos leigos, significa que o VLA ajustará automaticamente os pesos de atenção das áreas-chave, melhorando assim a eficiência de inferência do lado final.

Li Xiang disse que no processo de treinamento deste novo modelo base, os engenheiros da Li Auto gastaram muito tempo encontrando a melhor proporção de dados, integrando uma grande quantidade de dados 3D e dados de texto e imagem relacionados à condução autônoma e reduzindo a proporção de dados literários e históricos.

Da percepção à tomada de decisão, o VLA se baseia no modo de combinação rápida e lenta do pensamento humano. Ele pode produzir rapidamente decisões de ação simples, como evitar emergências, e também pode usar cadeias de pensamento curtas para "pensar lentamente" para lidar com cenários mais complexos, como planejar temporariamente uma rota para desviar da área de construção. A fim de melhorar ainda mais o desempenho em tempo real, o VLA também introduziu raciocínio especulativo e tecnologia de decodificação paralela, fazendo pleno uso do poder de computação do chip do lado do veículo para garantir que o processo de tomada de decisão seja rápido e não caótico.

Ao gerar o comportamento de direção, o VLA usa modelos de Difusão e Reinforcement Learning from Human Feedback (RLHF). O modelo de Difusão é responsável por gerar trajetórias de direção otimizadas, enquanto o RLHF torna essas trajetórias mais próximas dos hábitos humanos, seguras e confortáveis. Por exemplo, o VLA irá desacelerar automaticamente ao virar ou deixar distância de segurança suficiente ao mudar de faixa. Esses detalhes refletem o aprendizado profundo do comportamento de direção humano.

O modelo mundial é outra tecnologia chave. A Li Auto fornece um ambiente virtual de alta qualidade para o aprendizado por reforço através da reconstrução e geração de cenas. Li Xiang revelou que o modelo mundial reduziu o custo de verificação de 170.000-180.000 yuan por 10.000 quilômetros para 4.000 yuan. Ele permite que o VLA otimize continuamente em simulação e lide com cenários complexos com facilidade.

Falando em treinamento, o processo de crescimento do VLA também é bastante organizado. Todo o processo é dividido em três etapas: pré-treinamento, pós-treinamento e aprendizado por reforço. "O pré-treinamento é como aprender conhecimento, o pós-treinamento é como aprender a dirigir em uma autoescola e o aprendizado por reforço é como a prática social", disse Li Xiang.

Na fase de pré-treinamento, a Li Auto criou um modelo base visual-linguístico para o VLA, enchendo-o com ricos dados visuais 3D, imagens de alta definição 2D e corpora relacionados à direção, permitindo que ele primeiro aprenda a "ver" e "ouvir"; após o treinamento, o módulo de ação é adicionado, gerando trajetórias de direção de 4 a 8 segundos, e o modelo se expande de 3,2 bilhões de parâmetros para 4 bilhões.

O aprendizado por reforço é dividido em duas etapas: primeiro, use o RLHF para alinhar os hábitos humanos, analisar os dados de aquisição e garantir segurança e conforto; então, use o aprendizado por reforço puro para otimizar, com base no valor G (conforto), colisão e feedback das regras de trânsito, para que o VLA "dirija melhor que os humanos". Li Xiang mencionou que esta etapa é concluída no modelo mundial, simulando cenários de tráfego reais, e a eficiência é muito melhor do que a verificação tradicional.

Este método de treinamento não só garante o avanço técnico, mas também torna o VLA confiável o suficiente em aplicações práticas.

Li Xiang admitiu que o sucesso do VLA é inseparável da inspiração dos benchmarks da indústria. A arquitetura MoE do DeepSeek não só melhorou a eficiência do treinamento, mas também forneceu uma experiência valiosa para a Li Auto. Ele lamentou: "Estamos nos apoiando nos ombros de gigantes e acelerando o P&D do VLA." Esta atitude de aprendizado aberto permite que a Li Auto vá mais longe na terra de ninguém.

De "Ferramentas de Informação" a "Ferramentas de Produção"

Atualmente, a indústria de IA está passando por uma profunda transformação de "ferramentas de informação" para "ferramentas de produção". Com a maturidade da tecnologia de modelo grande, a IA não se limita mais a processar dados e fornecer sugestões, mas começa a ter a capacidade de tomar decisões independentes e realizar tarefas.

Li Xiang propôs na segunda temporada do AI Talk que a IA pode ser dividida em ferramentas de informação (como pesquisa), ferramentas auxiliares (como navegação por voz) e ferramentas de produção. Ele enfatizou: "A inteligência artificial se tornando uma ferramenta de produção é o momento do verdadeiro surto." Com a maturidade da tecnologia de modelo grande, a IA não se limita mais a processar dados, mas começa a ter a capacidade de tomar decisões independentes e realizar tarefas.

Essa tendência é particularmente evidente no conceito de "inteligência incorporada" - os sistemas de IA recebem entidades físicas, capazes de sentir, entender e interagir com o ambiente.

O modelo VLA da Li Auto é uma prática vívida dessa tendência. Ao integrar visão, linguagem e inteligência de ação, ele transforma o carro em um agente inteligente que pode dirigir autonomamente e interagir naturalmente com os usuários, interpretando perfeitamente o conceito central de "inteligência incorporada".

Enquanto os humanos contratam motoristas profissionais, a inteligência artificial pode se tornar uma ferramenta de produção. Quando a IA se torna uma ferramenta de produção, a inteligência artificial realmente explodirá.

As observações de Li Xiang esclareceram o valor central do VLA - não é mais uma simples ferramenta auxiliar, mas um "agente de motorista" que pode realizar tarefas de forma independente e assumir responsabilidades. Esta transformação não só melhora o valor prático dos carros, mas também abre espaço de imaginação para a aplicação da IA em outros campos.

O pensamento de Li Xiang sobre a IA sempre tem uma perspectiva que sai da caixa. Ele também mencionou: "O VLA não é um processo de mudança repentina, mas um processo evolutivo." Esta frase resume com precisão o caminho técnico da Li Auto -

Desde o início, orientado por regras, até os avanços end-to-end, até o nível de "inteligência humana" do VLA de hoje. Este pensamento evolutivo não só torna o VLA mais viável em tecnologia, mas também fornece um paradigma de referência para a indústria. Comparado com algumas tentativas que buscam cegamente a subversão, o caminho pragmático da Li Auto pode ser mais adequado para o complexo mercado chinês.

Da tecnologia à crença, a exploração de IA da Li Auto não é tranquila. Li Xiang admitiu: "Passamos por muitos desafios no campo da IA, como a escuridão antes do amanhecer, mas acreditamos que, se perseverarmos, veremos a luz." O P&D do VLA enfrenta problemas como gargalos de poder de computação e ética de dados, mas a Li Auto gradualmente inaugurou seu amanhecer tecnológico através de modelos base autodesenvolvidos e modelos mundiais.

Li Xiang também mencionou na entrevista que o sucesso do VLA é inseparável da ascensão da IA chinesa.

Ele disse que o surgimento de modelos como DeepSeek e Tongyi Qianwen fez com que o nível de IA da China se aproximasse rapidamente dos Estados Unidos. Entre eles, o espírito de código aberto defendido pelo DeepSeek é particularmente encorajador, o que levou diretamente a Li Auto a abrir o código do Xinghuan OS. Li Xiang disse: "Isto não é por considerações estratégicas da empresa. DeepSeek nos deu tanta ajuda, devemos contribuir com algo para a sociedade."

Ao buscar avanços tecnológicos, a Li Auto não ignorou as questões de segurança e ética da tecnologia de IA. A tecnologia de "super alinhamento" introduzida pelo VLA torna o comportamento do modelo mais próximo dos hábitos humanos através do Reinforcement Learning from Human Feedback (RLHF). Os dados mostram que a aplicação do VLA aumentou o MPI de alta velocidade (quilometragem média de intervenção) de 240km para 300km.

Mais importante, a Li Auto enfatiza a construção de "IA com valores humanos" e considera a moralidade e a confiança como a pedra angular do desenvolvimento tecnológico. De uma perspectiva mais macro, o significado do VLA reside no fato de que ele redefine o papel das empresas de automóveis.

No passado, os carros eram meios de transporte da era industrial; hoje, eles estão evoluindo para "robôs espaciais" na era da inteligência artificial. Li Xiang mencionou no AI Talk: "A Li Auto costumava caminhar na terra de ninguém dos carros e caminhará na terra de ninguém da inteligência artificial no futuro." Esta transformação da Li Auto traz um novo espaço de imaginação para o modelo de negócios da indústria automotiva.

Claro, o desenvolvimento do VLA não é isento de desafios. O investimento contínuo de poder de computação, a ética de dados e o estabelecimento da confiança do consumidor na condução autônoma são todas questões que a Li Auto precisa enfrentar. Além disso, a competição na indústria de IA está se tornando cada vez mais acirrada. Gigantes domésticos e estrangeiros, como Tesla, Waymo e OpenAI, estão acelerando o layout de modelos multimodais. A Li Auto precisa manter sua posição de liderança na iteração tecnológica e na promoção do mercado. "Não temos atalhos, só podemos cultivar profundamente", disse Li Xiang.

Sem dúvida, o desembarque do VLA será um nó chave.

A Li Auto planeja lançar o VLA simultaneamente com o SUV elétrico puro Li Auto i8 em julho de 2025 e alcançar a produção em massa em 2026. Este não é apenas um teste abrangente de tecnologia, mas também uma importante pedra de toque para o mercado.