동물 진화에서 인간으로: 이상적 VLA 모델 심층 분석

“드라이버 대형 모델”은 곧 당신의 운전사

지난 3월 NVIDIA의 2025 춘계 GTC 컨퍼런스에서 Li Auto의 자율 주행 기술 R&D 책임자인 Jia Peng은 최신 성과인 MindVLA 대형 모델을 소개했습니다.

이 모델은 22억 개의 파라미터를 가진 Vision-Language-Action Model (VLA)입니다. Jia Peng은 이 모델이 차량에 성공적으로 배포되었다고 밝혔습니다. Li Auto는 VLA 모델이 AI가 물리적 세계와 상호 작용하는 데 있어 가장 효과적인 방법이라고 믿고 있습니다.

지난 한 해 동안 엔드-투-엔드 아키텍처는 지능형 운전 분야에서 기술적 핫스팟이 되었고, 자동차 회사들이 전통적인 모듈식 규칙 설계에서 통합 시스템으로 전환하도록 이끌었습니다. 기존에 규칙 기반 알고리즘으로 선도했던 자동차 회사들은 전환의 고통을 겪고 있는 반면, 후발 주자들은 경쟁 우위를 확보할 기회를 잡았습니다.

Li Auto는 이러한 변화를 잘 보여주는 대표적인 예입니다.

Li Auto의 지능형 운전 분야에서의 발전은 작년에 급속하게 이루어졌습니다. 7월에는 전국적인 지도 없는 NOA (Navigation on Autopilot)를 최초로 달성하고, 독특한 “엔드-투-엔드 (빠른 시스템) + VLM (느린 시스템)” 아키텍처를 출시하여 업계에서 광범위한 주목을 받았습니다.

오늘 밤, Li Auto AI Talk의 두 번째 시즌을 통해 우리는 Li Xiang이 “인공 지능 회사”라고 부르는 것에 대해 더 깊이 이해하게 되었습니다.

Li Auto의 CEO인 Li Xiang은 작년 12월 텐센트 뉴스 수석 기술 작가인 Zhang Xiaojun과의 대화에서 AI Talk 첫 번째 시즌에서 VLA를 처음 언급했습니다. 당시 그는 다음과 같이 말했습니다.

Li Auto Companion과 자율 주행을 통해 우리가 하고 있는 것은 실제로 업계 표준에 따라 분리되어 있으며 초기 단계에 있습니다. 우리가 하고 있는 Mind GPT는 실제로 대형 언어 모델입니다. 우리가 하고 있는 자율 주행은 내부적으로 행동 지능이라고 부르지만, Li Feifei (스탠포드 평생 교수, 전 Google 수석 과학자)가 정의한 바에 따르면 공간 지능이라고 합니다. 대규모로 실제로 수행해야만 이 두 가지가 언젠가는 연결될 것이라는 것을 알게 될 것입니다. 내부적으로는 VLA (Vision Language Action Model)라고 부릅니다.

Li Xiang은 기본 모델이 특정 순간에 VLA가 될 것이라고 믿고 있습니다. 그 이유는 언어 모델은 언어와 인식을 통해서만 3차원 세계를 이해할 수 있으며, 이는 분명히 충분하지 않기 때문입니다. “진정으로 벡터 기반이어야 하고, Diffusion (확산 모델)을 사용하고, 생성적 방법 (세계를 이해하는 데 사용)을 사용해야 합니다.”

VLA의 탄생은 언어 지능과 공간 지능을 깊이 통합하려는 대담한 시도일 뿐만 아니라, Li Auto의 “지능형 자동차” 개념을 재해석하는 것이라고 할 수 있습니다.

Li Xiang은 오늘 밤 AI Talk에서 다음과 같이 더 구체적으로 정의했습니다. “VLA는 인간 운전자처럼 작동하는 드라이버 대형 모델입니다.” 이는 기술일 뿐만 아니라 사용자와 자연스럽게 소통하고 독립적인 결정을 내릴 수 있는 지능형 파트너입니다.

그렇다면 VLA는 정확히 무엇일까요? 핵심은 실제로 매우 간단합니다. 시각적 인식, 자연어 이해 및 액션 생성 기능을 통합함으로써 차량은 사람들과 소통하고 스스로 결정을 내릴 수 있는 “드라이버 에이전트”가 됩니다.

차에 앉아 무심코 “오늘 좀 피곤하니 천천히 운전해 줘”라고 말하면 차량은 당신의 의미를 이해할 뿐만 아니라 속도를 조정하고 더 부드러운 경로를 선택할 수도 있습니다. 이러한 자연스럽고 원활한 상호 작용이 바로 VLA가 달성하고자 하는 것입니다. Li Xiang은 모든 짧은 명령어는 차량에서 직접 처리하고, 복잡한 명령어는 클라우드 기반의 32억 개의 파라미터 모델에서 분석하여 효율성과 지능을 모두 보장한다고 밝혔습니다.

이러한 목표를 달성하는 것은 쉽지 않습니다. VLA의 특별한 점은 시각, 언어 및 액션의 세 가지 차원을 연결한다는 것입니다. 사용자의 간단한 명령에는 주변 환경에 대한 실시간 인식, 언어 의도의 정확한 이해, 운전 행동의 빠른 조정이 포함될 수 있습니다. 이 세 가지는 필수 불가결합니다.

그리고 VLA의 위대한 점은 이 세 가지가 원활하게 함께 작동하도록 한다는 것입니다.

비전에서 현실로, VLA의 R&D는 미지의 영역입니다. Li Xiang은 “시각 및 액션 데이터의 획득이 가장 어렵습니다. 어떤 회사도 대체할 수 없습니다.”라고 인정했습니다.

VLA의 기술적 배경을 이해하려면 Li Auto의 지능형 운전의 진화를 살펴봐야 합니다.

Li Xiang은 초기 시스템은 규칙과 고정밀 지도에 의해 구동되는 수백만 개의 파라미터만 가진 “곤충 수준”의 지능이었으며, 복잡한 도로 상황에 직면했을 때는 무력했다고 말했습니다. 나중에 엔드-투-엔드 아키텍처와 시각-언어 모델을 통해 기술은 “포유류 수준”으로 도약하여 지도 의존성을 없애고 전국적인 지도 없는 NOA가 현실이 되었습니다.

사실, 이 단계만으로도 Li Auto는 이미 업계의 최전선에 서 있었지만, 그들은 이에 만족하지 않았습니다. Li Xiang의 관점에서 VLA의 등장은 Li Auto의 지능형 운전 기술이 “인간 지능”의 새로운 단계에 진입했음을 의미합니다.

이전 시스템과 비교하여 VLA는 3D 물리적 세계를 인식할 뿐만 아니라 논리적 추론을 수행하고 인간 수준에 가까운 운전 행동을 생성할 수도 있습니다.

간단한 예로, 혼잡한 거리에서 “돌아갈 곳을 찾아줘”라고 말하면 VLA는 명령을 기계적으로 실행하지 않고 도로 상황, 교통 흐름 및 교통 규칙을 종합적으로 고려하여 U턴을 완료할 가장 합리적인 시간과 장소를 찾습니다.

Li Xiang은 VLA가 데이터를 생성하여 새로운 시나리오에 빠르게 적응할 수 있으며, 복잡한 도로 수리를 처음 접했을 때에도 3일 이내에 응답을 최적화할 수 있다고 말했습니다. 이러한 유연성과 판단력이 VLA의 핵심 강점입니다.

Li Auto의 스승은 DeepSeek

VLA를 지원하는 것은 Li Auto에서 독립적으로 개발한 복잡하고 정교한 기술 시스템입니다. 이 시스템을 통해 자동차는 세상을 “이해”할 뿐만 아니라 인간 운전자처럼 생각하고 행동할 수 있습니다.

첫 번째는 3D Gaussian 표현 기술로, 많은 “Gaussian 점”을 사용하여 3D 객체를 만듭니다. 각 점은 자체 위치, 색상 및 크기 정보를 포함합니다. 이 기술은 자체 감독 학습을 사용하여 대량의 실제 데이터를 사용하여 강력한 3D 공간 이해 모델을 훈련합니다. 이를 통해 VLA는 주변 세계에 장애물이 어디에 있고 통과 가능한 영역이 어디에 있는지 아는 것처럼 인간처럼 주변 세계를 “이해”할 수 있습니다.

다음은 전문가 네트워크, 게이팅 네트워크 및 컴바이너로 구성된 MoE (Mixture of Experts) 아키텍처입니다. 모델 파라미터가 수천억 개를 초과하면 기존 방법은 각 계산에 모든 뉴런을 참여시켜 리소스를 낭비합니다. MoE 아키텍처의 게이팅 네트워크는 다양한 작업에 따라 다양한 전문가를 호출하여 활성화 파라미터가 크게 증가하지 않도록 합니다.

이것에 대해 이야기하면서 Li Xiang은 DeepSeek를 칭찬했습니다.

DeepSeek는 인류의 가장 좋은 사례를 사용합니다… DeepSeek V3를 수행했을 때 V3도 MoE, 671B 모델이었습니다. 저는 MoE가 매우 좋은 아키텍처라고 생각합니다. 그것은 마치 전문가들을 모아 놓은 것과 같습니다. 각자 전문가 능력을 가지고 있습니다.

마지막으로 Li Auto는 Sparse Attention을 VLA에 도입했습니다. 이는 평신도의 말로 VLA가 핵심 영역의 주의 가중치를 자동으로 조정하여 엔드 측의 추론 효율성을 향상시킨다는 것을 의미합니다.

Li Xiang은 이 새로운 기본 모델의 훈련 과정에서 Li Auto의 엔지니어들이 최적의 데이터 비율을 찾고, 자율 주행과 관련된 3D 데이터와 텍스트 및 이미지 데이터를 대량으로 통합하고, 문학 및 역사 데이터의 비율을 줄이는 데 많은 시간을 할애했다고 말했습니다.

인식에서 의사 결정에 이르기까지 VLA는 인간 사고의 빠르고 느린 조합 모드를 활용합니다. 응급 회피와 같은 간단한 액션 결정을 빠르게 출력할 수 있으며, 건설 영역을 우회하기 위한 경로를 일시적으로 계획하는 것과 같이 더 복잡한 시나리오를 처리하기 위해 짧은 사고 체인을 사용하여 “천천히 생각”할 수도 있습니다. 실시간 성능을 더욱 향상시키기 위해 VLA는 추측적 추론 및 병렬 디코딩 기술도 도입하여 차량 측 칩의 컴퓨팅 능력을 최대한 활용하여 의사 결정 프로세스가 빠르고 혼란스럽지 않도록 합니다.

운전 행동을 생성할 때 VLA는 Diffusion 모델과 인간 피드백을 통한 강화 학습 (RLHF)을 사용합니다. Diffusion 모델은 최적화된 운전 궤적을 생성하는 역할을 하고, RLHF는 이러한 궤적을 인간의 습관에 더 가깝게 만들어 안전하고 편안하게 만듭니다. 예를 들어 VLA는 회전할 때 자동으로 속도를 줄이거나 차선을 합류할 때 충분한 안전 거리를 유지합니다. 이러한 세부 사항은 인간의 운전 행동에 대한 심층 학습을 반영합니다.

세계 모델은 또 다른 핵심 기술입니다. Li Auto는 장면 재구성 및 생성을 통해 강화 학습을 위한 고품질 가상 환경을 제공합니다. Li Xiang은 세계 모델이 10,000km당 검증 비용을 170,000-180,000위안에서 4,000위안으로 줄였다고 밝혔습니다. 이를 통해 VLA는 시뮬레이션에서 지속적으로 최적화하고 복잡한 시나리오를 쉽게 처리할 수 있습니다.

훈련에 대해 말하자면 VLA의 성장 과정도 매우 체계적입니다. 전체 프로세스는 사전 훈련, 사후 훈련 및 강화 학습의 세 단계로 나뉩니다. “사전 훈련은 지식을 배우는 것과 같고, 사후 훈련은 운전 학교에서 운전하는 법을 배우는 것과 같고, 강화 학습은 사회 생활을 하는 것과 같습니다.”라고 Li Xiang은 말했습니다.

사전 훈련 단계에서 Li Auto는 VLA를 위한 시각-언어 기본 모델을 만들고 풍부한 3D 시각 데이터, 2D 고화질 이미지 및 운전 관련 코퍼스로 채워 먼저 “보고” “듣는” 법을 배우도록 했습니다. 훈련 후에는 액션 모듈이 추가되어 4-8초 운전 궤적을 생성하고 모델은 32억 개의 파라미터에서 40억 개로 확장됩니다.

강화 학습은 두 단계로 나뉩니다. 먼저 RLHF를 사용하여 인간의 습관을 맞추고, 인수 데이터를 분석하고, 안전과 편안함을 보장합니다. 그런 다음 순수한 강화 학습을 사용하여 G-값 (편안함), 충돌 및 교통 규칙 피드백을 기반으로 최적화하여 VLA가 “인간보다 더 잘 운전”하도록 합니다. Li Xiang은 이 단계가 실제 교통 시나리오를 시뮬레이션하는 세계 모델에서 완료되며 효율성이 기존 검증보다 훨씬 낫다고 언급했습니다.

이 훈련 방법은 기술적 발전을 보장할 뿐만 아니라 VLA를 실제 응용 프로그램에서 충분히 신뢰할 수 있게 만듭니다.

Li Xiang은 VLA의 성공이 업계 벤치마크의 영감과 불가분의 관계에 있다고 인정했습니다. DeepSeek의 MoE 아키텍처는 훈련 효율성을 향상시켰을 뿐만 아니라 Li Auto에게 귀중한 경험을 제공했습니다. 그는 “우리는 거인의 어깨 위에 서서 VLA의 R&D를 가속화하고 있습니다.”라고 한탄했습니다. 이러한 개방적인 학습 태도를 통해 Li Auto는 무인의 땅에서 더 멀리 나아갈 수 있습니다.

“정보 도구”에서 “생산 도구”로

현재 AI 산업은 “정보 도구”에서 “생산 도구”로 심오한 변화를 겪고 있습니다. 대형 모델 기술의 성숙으로 AI는 더 이상 데이터를 처리하고 제안을 제공하는 데 국한되지 않고 독립적인 결정을 내리고 작업을 수행할 수 있는 능력을 갖기 시작했습니다.

Li Xiang은 AI Talk의 두 번째 시즌에서 AI를 정보 도구 (예: 검색), 보조 도구 (예: 음성 내비게이션) 및 생산 도구로 나눌 수 있다고 제안했습니다. 그는 “인공 지능이 생산 도구가 되는 순간이 진정한 폭발의 순간입니다.”라고 강조했습니다. 대형 모델 기술의 성숙으로 AI는 더 이상 데이터를 처리하는 데 국한되지 않고 독립적인 결정을 내리고 작업을 수행할 수 있는 능력을 갖기 시작했습니다.

이러한 추세는 특히 “구체화된 지능”의 개념에서 두드러집니다. AI 시스템은 물리적 개체를 제공받아 환경을 감지, 이해 및 상호 작용할 수 있습니다.

Li Auto의 VLA 모델은 이러한 추세의 생생한 실천입니다. 비전, 언어 및 액션 지능을 통합함으로써 자동차를 자율적으로 운전하고 사용자와 자연스럽게 상호 작용할 수 있는 지능형 에이전트로 변환하여 “구체화된 지능”의 핵심 개념을 완벽하게 해석합니다.

인간이 전문 운전사를 고용하는 한 인공 지능은 생산 도구가 될 수 있습니다. AI가 생산 도구가 되면 인공 지능은 진정으로 폭발할 것입니다.

Li Xiang의 발언은 VLA의 핵심 가치를 명확히 했습니다. 그것은 더 이상 단순한 보조 도구가 아니라 독립적으로 작업을 수행하고 책임을 질 수 있는 “드라이버 에이전트”입니다. 이러한 변환은 자동차의 실용적인 가치를 향상시킬 뿐만 아니라 다른 분야에서 AI 응용 프로그램에 대한 상상력 공간을 열어줍니다.

AI에 대한 Li Xiang의 생각은 항상 틀에서 벗어나는 관점을 가지고 있습니다. 그는 또한 “VLA는 갑작스러운 변화 과정이 아니라 진화 과정입니다.”라고 언급했습니다. 이 문장은 Li Auto의 기술 경로를 정확하게 요약합니다.

초기 규칙 기반에서 엔드-투-엔드 돌파구, 오늘날 VLA의 “인간 지능” 수준까지. 이러한 진화적 사고는 VLA를 기술적으로 더 실현 가능하게 만들 뿐만 아니라 업계에 참조 패러다임을 제공합니다. 맹목적으로 전복을 추구하는 일부 시도와 비교하여 Li Auto의 실용적인 경로는 복잡한 중국 시장에 더 적합할 수 있습니다.

기술에서 신념으로, Li Auto의 AI 탐구는 순조롭지 않습니다. Li Xiang은 “우리는 AI 분야에서 새벽 전의 어둠과 같이 많은 도전을 경험했지만, 우리가 인내하면 빛을 볼 것이라고 믿습니다.”라고 인정했습니다. VLA의 R&D는 컴퓨팅 능력 병목 현상 및 데이터 윤리와 같은 문제에 직면했지만, Li Auto는 자체 개발 기본 모델과 세계 모델을 통해 기술적 새벽을 점차적으로 맞이했습니다.

Li Xiang은 또한 인터뷰에서 VLA의 성공이 중국 AI의 부상과 불가분의 관계에 있다고 언급했습니다.

그는 DeepSeek 및 Tongyi Qianwen과 같은 모델의 출현으로 중국의 AI 수준이 미국에 빠르게 접근했다고 말했습니다. 그중에서도 DeepSeek가 옹호하는 오픈 소스 정신은 특히 고무적이며, 이는 Li Auto가 Xinghuan OS를 오픈 소스로 공개하도록 직접적으로 유도했습니다. Li Xiang은 “이것은 회사 전략적 고려 사항에서 나온 것이 아닙니다. DeepSeek가 우리에게 너무 많은 도움을 주었기 때문에 사회에 무언가를 기여해야 합니다.”라고 말했습니다.

기술적 돌파구를 추구하는 동시에 Li Auto는 AI 기술의 안전 및 윤리적 문제를 간과하지 않았습니다. VLA에서 도입한 “슈퍼 정렬” 기술은 인간 피드백을 통한 강화 학습 (RLHF)을 통해 모델의 행동을 인간의 습관에 더 가깝게 만듭니다. 데이터에 따르면 VLA의 적용은 고속 MPI (평균 개입 마일리지)를 240km에서 300km로 증가시켰습니다.

더 중요한 것은 Li Auto가 “인간 가치를 가진 AI”를 구축하는 것을 강조하고 도덕성과 신뢰를 기술 개발의 초석으로 간주한다는 것입니다. 더 거시적인 관점에서 VLA의 의미는 자동차 회사의 역할을 재정의한다는 데 있습니다.

과거에 자동차는 산업 시대의 운송 수단이었지만, 오늘날에는 인공 지능 시대의 “공간 로봇”으로 진화하고 있습니다. Li Xiang은 AI Talk에서 “Li Auto는 과거에 자동차의 무인의 땅을 걸었고, 앞으로는 인공 지능의 무인의 땅을 걸을 것입니다.”라고 언급했습니다. 이러한 Li Auto의 변화는 자동차 산업의 비즈니스 모델에 새로운 상상력 공간을 제공합니다.

물론 VLA의 개발에는 어려움이 따릅니다. 컴퓨팅 능력의 지속적인 투자, 데이터 윤리 및 자율 주행에 대한 소비자 신뢰 구축은 모두 Li Auto가 직면해야 할 문제입니다. 또한 AI 산업의 경쟁이 점점 더 치열해지고 있습니다. Tesla, Waymo 및 OpenAI와 같은 국내외 거물들이 다중 모드 모델의 레이아웃을 가속화하고 있습니다. Li Auto는 기술 반복 및 시장 홍보에서 선두 위치를 유지해야 합니다. “우리에게는 지름길이 없고, 깊이 경작할 수밖에 없습니다.”라고 Li Xiang은 말했습니다.

의심할 여지 없이 VLA의 착륙은 핵심 노드가 될 것입니다.

Li Auto는 2025년 7월 순수 전기 SUV Li Auto i8과 동시에 VLA를 출시하고 2026년에 대량 생산을 달성할 계획입니다. 이것은 기술에 대한 포괄적인 테스트일 뿐만 아니라 시장에 대한 중요한 시험대이기도 합니다.