Pada bulan Maret tahun ini, di konferensi NVIDIA Spring GTC 2025, Jia Peng, Kepala Litbang Teknologi Kemudi Otonom di Li Auto, memperkenalkan pencapaian terbaru mereka: model besar MindVLA.
Model ini adalah Model Visi-Bahasa-Aksi (Vision-Language-Action Model/VLA) dengan 2,2 miliar parameter. Jia Peng lebih lanjut menyatakan bahwa mereka telah berhasil menyebarkan model tersebut di dalam kendaraan. Li Auto percaya bahwa model VLA adalah metode paling efektif untuk memecahkan tantangan AI yang berinteraksi dengan dunia fisik.
Selama setahun terakhir, arsitektur end-to-end telah menjadi titik fokus teknologi di bidang kemudi cerdas, mendorong perusahaan mobil untuk beralih dari desain aturan modular tradisional ke sistem terintegrasi. Perusahaan mobil yang sebelumnya memimpin dengan algoritma berbasis aturan menghadapi kesulitan transisi, sementara pendatang baru telah merebut peluang untuk mendapatkan keunggulan kompetitif.
Li Auto adalah contoh utama dari hal ini.
Kemajuan Li Auto dalam kemudi cerdas tahun lalu dapat digambarkan sebagai pesat. Pada bulan Juli, mereka memimpin dalam mencapai NOA (Navigation on Autopilot) tanpa peta secara nasional dan meluncurkan arsitektur “end-to-end (sistem cepat) + VLM (sistem lambat)” yang unik, yang telah menerima perhatian luas di industri.
Malam ini, dengan musim kedua Li Auto AI Talk, kita telah mendapatkan pemahaman yang lebih dalam tentang apa yang disebut Li Xiang sebagai “perusahaan kecerdasan buatan.”
“Driver Large Model” Juga Pengemudi Anda
Li Xiang, CEO Li Auto, pertama kali menyebut VLA di musim pertama AI Talk Desember lalu, dalam percakapan dengan Zhang Xiaojun, penulis teknologi utama Tencent News. Saat itu, dia berkata:
Apa yang kami lakukan dengan Li Auto Companion dan kemudi otonom sebenarnya terpisah menurut standar industri, dan masih dalam tahap awal. Mind GPT yang kami lakukan sebenarnya adalah model bahasa yang besar; kemudi otonom yang kami lakukan, kami menyebutnya kecerdasan perilaku secara internal, tetapi sebagaimana didefinisikan oleh Li Feifei (Profesor Seumur Hidup Stanford, mantan Kepala Ilmuwan Google), disebut kecerdasan spasial. Hanya ketika Anda benar-benar melakukannya dalam skala besar, Anda akan tahu bahwa keduanya pasti akan terhubung suatu hari nanti. Kami menyebutnya VLA (Vision Language Action Model) secara internal.
Li Xiang percaya bahwa model dasar pasti akan menjadi VLA pada saat tertentu. Alasannya adalah bahwa model bahasa hanya dapat memahami dunia tiga dimensi melalui bahasa dan kognisi, yang jelas tidak cukup. “Perlu benar-benar berbasis vektor, menggunakan Diffusion (model difusi), dan menggunakan metode generatif (untuk memahami dunia).”
Dapat dikatakan bahwa kelahiran VLA bukan hanya upaya berani untuk mengintegrasikan secara mendalam kecerdasan bahasa dan kecerdasan spasial, tetapi juga penafsiran ulang konsep “mobil cerdas” oleh Li Auto.
Li Xiang lebih lanjut mendefinisikan dalam AI Talk malam ini: “VLA adalah driver large model, bekerja seperti pengemudi manusia.” Ini bukan hanya teknologi, tetapi juga mitra cerdas yang dapat berkomunikasi secara alami dengan pengguna dan membuat keputusan independen.
Jadi, apa sebenarnya VLA itu? Intinya sebenarnya sangat mudah: dengan mengintegrasikan persepsi visual, pemahaman bahasa alami, dan kemampuan menghasilkan tindakan, kendaraan menjadi “agen pengemudi” yang dapat berkomunikasi dengan orang-orang dan membuat keputusannya sendiri.
Bayangkan Anda duduk di mobil Anda dan dengan santai berkata, “Saya sedikit lelah hari ini, mengemudi lebih pelan,” dan kendaraan tidak hanya akan memahami apa yang Anda maksud, tetapi juga menyesuaikan kecepatannya dan bahkan memilih rute yang lebih mulus. Interaksi alami dan lancar inilah yang ingin dicapai oleh VLA. Li Xiang mengungkapkan bahwa semua perintah pendek diproses langsung oleh kendaraan, sementara perintah kompleks diuraikan oleh model 3,2 miliar parameter berbasis cloud, memastikan efisiensi dan kecerdasan.
Mencapai tujuan ini tidaklah mudah. Hal khusus tentang VLA adalah ia menghubungkan tiga dimensi penglihatan, bahasa, dan tindakan. Perintah sederhana dari pengguna dapat melibatkan persepsi waktu nyata dari lingkungan sekitar, pemahaman akurat tentang maksud bahasa, dan penyesuaian cepat perilaku mengemudi. Ketiganya sangat diperlukan.
Dan hal hebat tentang VLA adalah ia memungkinkan ketiganya bekerja bersama secara mulus.
Dari visi ke realitas, litbang VLA adalah wilayah yang belum dipetakan. Li Xiang mengakui: "Perolehan data visual dan tindakan adalah yang paling sulit. Tidak ada perusahaan yang dapat menggantikannya."
Untuk memahami latar belakang teknis VLA, kita juga harus melihat evolusi kemudi cerdas Li Auto.
Li Xiang mengatakan bahwa sistem awal adalah kecerdasan “tingkat serangga,” dengan hanya jutaan parameter, didorong oleh aturan dan peta presisi tinggi, dan tidak berdaya ketika menghadapi kondisi jalan yang kompleks. Kemudian, arsitektur end-to-end dan model visual-bahasa memungkinkan teknologi untuk melompat ke “tingkat mamalia,” menyingkirkan ketergantungan peta, dan NOA tanpa peta secara nasional menjadi kenyataan.
Faktanya, langkah ini telah menempatkan Li Auto di garis depan industri, tetapi mereka jelas tidak puas dengan ini. Dalam pandangan Li Xiang, kemunculan VLA menandai bahwa teknologi kemudi cerdas Li Auto telah memasuki tahap baru “kecerdasan manusia.”
Dibandingkan dengan sistem sebelumnya, VLA tidak hanya dapat memahami dunia fisik 3D, tetapi juga melakukan penalaran logis dan bahkan menghasilkan perilaku mengemudi yang mendekati tingkat manusia.
Sebagai contoh sederhana, misalkan Anda mengatakan “cari tempat untuk berputar” di jalan yang macet, VLA tidak akan menjalankan perintah secara mekanis, tetapi akan secara komprehensif mempertimbangkan kondisi jalan, arus lalu lintas, dan aturan lalu lintas untuk menemukan waktu dan lokasi yang paling masuk akal untuk menyelesaikan putaran U.
Li Xiang mengatakan bahwa VLA dapat dengan cepat beradaptasi dengan skenario baru dengan menghasilkan data, dan dapat mengoptimalkan respons bahkan ketika menghadapi perbaikan jalan yang kompleks untuk pertama kalinya dalam waktu tiga hari. Fleksibilitas dan penilaian ini adalah keunggulan inti VLA.
Guru Li Auto Adalah DeepSeek
Mendukung VLA adalah sistem teknis yang kompleks dan canggih yang dikembangkan secara independen oleh Li Auto. Sistem ini memungkinkan mobil tidak hanya “memahami” dunia, tetapi juga berpikir dan bertindak seperti pengemudi manusia.
Yang pertama adalah teknologi representasi Gaussian 3D, yang menggunakan banyak “titik Gaussian” untuk membuat objek 3D. Setiap titik berisi posisi, warna, dan informasi ukuran sendiri. Teknologi ini menggunakan pembelajaran mandiri untuk melatih model pemahaman spasial 3D yang kuat menggunakan data nyata yang masif. Dengan itu, VLA dapat “memahami” dunia sekitarnya seperti manusia, mengetahui di mana rintangan berada dan di mana area yang dapat dilalui.
Selanjutnya adalah arsitektur Mixture of Experts (MoE), yang terdiri dari jaringan ahli, jaringan gerbang, dan penggabung. Ketika parameter model melebihi ratusan miliar, metode tradisional akan membuat semua neuron berpartisipasi dalam setiap perhitungan, yang merupakan pemborosan sumber daya. Jaringan gerbang dalam arsitektur MoE akan memanggil ahli yang berbeda sesuai dengan tugas yang berbeda untuk memastikan bahwa parameter aktivasi tidak akan meningkat secara signifikan.
Berbicara tentang ini, Li Xiang juga memuji DeepSeek:
DeepSeek menggunakan praktik terbaik umat manusia… Ketika mereka melakukan DeepSeek V3, V3 juga merupakan MoE, model 671B. Saya pikir MoE adalah arsitektur yang sangat bagus. Ini setara dengan menggabungkan sekelompok ahli bersama-sama, dan masing-masing adalah kemampuan ahli.
Akhirnya, Li Auto memperkenalkan Sparse Attention ke VLA, yang dalam istilah awam berarti bahwa VLA akan secara otomatis menyesuaikan bobot perhatian area utama, sehingga meningkatkan efisiensi inferensi sisi akhir.
Li Xiang mengatakan bahwa dalam proses pelatihan model dasar baru ini, para insinyur Li Auto menghabiskan banyak waktu untuk menemukan rasio data terbaik, mengintegrasikan sejumlah besar data 3D dan data teks dan gambar yang terkait dengan kemudi otonom, dan mengurangi proporsi data sastra dan sejarah.
Dari persepsi hingga pengambilan keputusan, VLA mengacu pada mode kombinasi cepat dan lambat dari pemikiran manusia. Ia dapat dengan cepat mengeluarkan keputusan tindakan sederhana, seperti penghindaran darurat, dan juga dapat menggunakan rantai pemikiran pendek untuk “berpikir perlahan” untuk menangani skenario yang lebih kompleks, seperti merencanakan sementara rute untuk melewati area konstruksi. Untuk lebih meningkatkan kinerja waktu nyata, VLA juga memperkenalkan penalaran spekulatif dan teknologi decoding paralel, memanfaatkan sepenuhnya daya komputasi chip sisi kendaraan untuk memastikan bahwa proses pengambilan keputusan cepat dan tidak kacau.
Saat menghasilkan perilaku mengemudi, VLA menggunakan model Diffusion dan Reinforcement Learning from Human Feedback (RLHF). Model Diffusion bertanggung jawab untuk menghasilkan lintasan mengemudi yang dioptimalkan, sementara RLHF membuat lintasan ini lebih dekat dengan kebiasaan manusia, baik aman maupun nyaman. Misalnya, VLA akan secara otomatis melambat saat berbelok, atau meninggalkan jarak aman yang cukup saat bergabung ke jalur lain. Detail ini mencerminkan pembelajaran mendalam tentang perilaku mengemudi manusia.
Model dunia adalah teknologi kunci lainnya. Li Auto menyediakan lingkungan virtual berkualitas tinggi untuk pembelajaran penguatan melalui rekonstruksi dan generasi adegan. Li Xiang mengungkapkan bahwa model dunia telah mengurangi biaya verifikasi dari 170.000-180.000 yuan per 10.000 kilometer menjadi 4.000 yuan. Hal ini memungkinkan VLA untuk terus mengoptimalkan dalam simulasi dan menangani skenario kompleks dengan mudah.
Berbicara tentang pelatihan, proses pertumbuhan VLA juga cukup terorganisir. Seluruh proses dibagi menjadi tiga tahap: pra-pelatihan, pasca-pelatihan, dan pembelajaran penguatan. "Pra-pelatihan seperti belajar pengetahuan, pasca-pelatihan seperti belajar mengemudi di sekolah mengemudi, dan pembelajaran penguatan seperti praktik sosial," kata Li Xiang.
Pada tahap pra-pelatihan, Li Auto menciptakan model dasar visual-bahasa untuk VLA, memasukkannya dengan data visual 3D yang kaya, gambar definisi tinggi 2D, dan korpora terkait mengemudi, memungkinkannya untuk pertama-tama belajar “melihat” dan “mendengar”; setelah pelatihan, modul tindakan ditambahkan, menghasilkan lintasan mengemudi 4-8 detik, dan model berkembang dari 3,2 miliar parameter menjadi 4 miliar.
Pembelajaran penguatan dibagi menjadi dua langkah: pertama, gunakan RLHF untuk menyelaraskan kebiasaan manusia, menganalisis data pengambilalihan, dan memastikan keamanan dan kenyamanan; kemudian, gunakan pembelajaran penguatan murni untuk mengoptimalkan, berdasarkan nilai-G (kenyamanan), tabrakan, dan umpan balik aturan lalu lintas, sehingga VLA “mengemudi lebih baik daripada manusia.” Li Xiang menyebutkan bahwa tahap ini diselesaikan dalam model dunia, mensimulasikan skenario lalu lintas nyata, dan efisiensinya jauh lebih baik daripada verifikasi tradisional.
Metode pelatihan ini tidak hanya menjamin kemajuan teknis, tetapi juga membuat VLA cukup andal dalam aplikasi praktis.
Li Xiang mengakui bahwa keberhasilan VLA tidak terlepas dari inspirasi benchmark industri. Arsitektur MoE DeepSeek tidak hanya meningkatkan efisiensi pelatihan, tetapi juga memberikan pengalaman berharga bagi Li Auto. Dia menyesalkan: “Kami berdiri di atas bahu raksasa dan mempercepat litbang VLA.” Sikap belajar terbuka ini memungkinkan Li Auto untuk melangkah lebih jauh di tanah tak bertuan.
Dari “Alat Informasi” ke “Alat Produksi”
Saat ini, industri AI sedang mengalami transformasi mendalam dari “alat informasi” menjadi “alat produksi.” Dengan kematangan teknologi model besar, AI tidak lagi terbatas pada memproses data dan memberikan saran, tetapi mulai memiliki kemampuan untuk membuat keputusan independen dan melakukan tugas.
Li Xiang mengusulkan di musim kedua AI Talk bahwa AI dapat dibagi menjadi alat informasi (seperti pencarian), alat bantu (seperti navigasi suara), dan alat produksi. Dia menekankan: “Kecerdasan buatan menjadi alat produksi adalah momen wabah yang sebenarnya.” Dengan kematangan teknologi model besar, AI tidak lagi terbatas pada memproses data, tetapi mulai memiliki kemampuan untuk membuat keputusan independen dan melakukan tugas.
Tren ini sangat jelas dalam konsep “kecerdasan yang diwujudkan” - sistem AI diberikan entitas fisik, mampu merasakan, memahami, dan berinteraksi dengan lingkungan.
Model VLA Li Auto adalah praktik nyata dari tren ini. Dengan mengintegrasikan visi, bahasa, dan kecerdasan tindakan, ia mengubah mobil menjadi agen cerdas yang dapat mengemudi secara otonom dan berinteraksi secara alami dengan pengguna, menafsirkan dengan sempurna konsep inti dari “kecerdasan yang diwujudkan.”
Selama manusia mempekerjakan pengemudi profesional, kecerdasan buatan dapat menjadi alat produksi. Ketika AI menjadi alat produksi, kecerdasan buatan akan benar-benar meledak.
Pernyataan Li Xiang mengklarifikasi nilai inti VLA - ia bukan lagi alat bantu sederhana, tetapi “agen pengemudi” yang dapat secara independen melakukan tugas dan memikul tanggung jawab. Transformasi ini tidak hanya meningkatkan nilai praktis mobil, tetapi juga membuka ruang imajinasi untuk aplikasi AI di bidang lain.
Pemikiran Li Xiang tentang AI selalu memiliki perspektif yang keluar dari kotak. Dia juga menyebutkan: “VLA bukanlah proses perubahan mendadak, tetapi proses evolusi.” Kalimat ini secara akurat merangkum jalur teknis Li Auto -
Dari awal yang digerakkan oleh aturan, hingga terobosan end-to-end, hingga tingkat “kecerdasan manusia” VLA saat ini. Pemikiran evolusioner ini tidak hanya membuat VLA lebih layak dalam teknologi, tetapi juga memberikan paradigma referensi bagi industri. Dibandingkan dengan beberapa upaya yang membabi buta mengejar subversi, jalur pragmatis Li Auto mungkin lebih cocok untuk pasar Cina yang kompleks.
Dari teknologi hingga keyakinan, eksplorasi AI Li Auto tidak mulus. Li Xiang mengakui: “Kami telah mengalami banyak tantangan di bidang AI, seperti kegelapan sebelum fajar, tetapi kami percaya bahwa jika kami