Evolusi Haiwan ke Manusia: VLA Li Auto

Pada bulan Mac tahun ini, di persidangan NVIDIA Spring GTC 2025, Jia Peng, Ketua R&D Teknologi Pemanduan Autonomi di Li Auto, memperkenalkan pencapaian terbaru mereka: model besar MindVLA.

Model ini ialah Model Visi-Bahasa-Tindakan (VLA) dengan 2.2 bilion parameter. Jia Peng selanjutnya menyatakan bahawa mereka telah berjaya menggunakan model tersebut dalam kenderaan. Li Auto percaya bahawa model VLA ialah kaedah paling berkesan untuk menyelesaikan cabaran AI berinteraksi dengan dunia fizikal.

Sejak setahun yang lalu, seni bina hujung-ke-hujung telah menjadi tumpuan teknologi dalam bidang pemanduan pintar, mendorong syarikat kereta untuk beralih daripada reka bentuk peraturan modular tradisional kepada sistem bersepadu. Syarikat kereta yang sebelum ini memimpin dengan algoritma berasaskan peraturan menghadapi kesakitan peralihan, manakala pendatang baru telah merebut peluang untuk kelebihan daya saing.

Li Auto ialah contoh utama perkara ini.

Kemajuan Li Auto dalam pemanduan pintar tahun lepas boleh digambarkan sebagai pesat. Pada bulan Julai, ia mendahului dalam mencapai NOA (Navigasi pada Autopilot) tanpa peta di seluruh negara dan melancarkan seni bina “hujung-ke-hujung (sistem pantas) + VLM (sistem perlahan)” yang unik, yang telah mendapat perhatian meluas dalam industri.

Malam ini, dengan musim kedua Li Auto AI Talk, kami telah mendapat pemahaman yang lebih mendalam tentang apa yang Li Xiang maksudkan sebagai "syarikat kecerdasan buatan."

"Model Besar Pemandu" Juga Pemandu Anda

Li Xiang, Ketua Pegawai Eksekutif Li Auto, pertama kali menyebut VLA dalam musim pertama AI Talk Disember lalu, dalam perbualan dengan Zhang Xiaojun, penulis teknologi ketua Tencent News. Pada masa itu, dia berkata:

Apa yang kami lakukan dengan Li Auto Companion dan pemanduan autonomi sebenarnya berasingan mengikut piawaian industri, dan ia masih di peringkat awal. Mind GPT yang kami lakukan sebenarnya ialah model bahasa yang besar; pemanduan autonomi yang kami lakukan, kami memanggilnya kecerdasan tingkah laku secara dalaman, tetapi seperti yang ditakrifkan oleh Li Feifei (Profesor Seumur Hidup Stanford, bekas Ketua Saintis Google), ia dipanggil kecerdasan spatial. Hanya apabila anda benar-benar melakukannya pada skala yang besar, anda akan tahu bahawa kedua-duanya pasti akan dihubungkan suatu hari nanti. Kami memanggilnya VLA (Model Tindakan Bahasa Visi) secara dalaman.

Li Xiang percaya bahawa model asas pasti akan menjadi VLA pada masa tertentu. Sebabnya ialah model bahasa hanya boleh memahami dunia tiga dimensi melalui bahasa dan kognisi, yang jelas tidak mencukupi. "Ia perlu berasaskan vektor, menggunakan Diffusion (model penyebaran), dan menggunakan kaedah generatif (untuk memahami dunia)."

Boleh dikatakan bahawa kelahiran VLA bukan sahaja percubaan berani untuk mengintegrasikan kecerdasan bahasa dan kecerdasan spatial secara mendalam, tetapi juga tafsiran semula konsep "kereta pintar" oleh Li Auto.

Li Xiang selanjutnya ditakrifkan dalam AI Talk malam ini: "VLA ialah model besar pemandu, berfungsi seperti pemandu manusia." Ia bukan sahaja teknologi, tetapi juga rakan kongsi pintar yang boleh berkomunikasi secara semula jadi dengan pengguna dan membuat keputusan bebas.

Jadi, apakah sebenarnya VLA? Intinya sebenarnya sangat mudah: dengan mengintegrasikan persepsi visual, pemahaman bahasa semula jadi dan keupayaan penjanaan tindakan, kenderaan menjadi "ejen pemandu" yang boleh berkomunikasi dengan orang ramai dan membuat keputusannya sendiri.

Bayangkan duduk di dalam kereta anda dan secara santai berkata, "Saya agak letih hari ini, pandu perlahan-lahan," dan kenderaan itu bukan sahaja akan memahami maksud anda, tetapi juga melaraskan kelajuannya dan juga memilih laluan yang lebih lancar. Interaksi semula jadi dan lancar inilah yang ingin dicapai oleh VLA. Li Xiang mendedahkan bahawa semua arahan pendek diproses terus oleh kenderaan, manakala arahan kompleks dihuraikan oleh model 3.2 bilion parameter berasaskan awan, memastikan kedua-dua kecekapan dan kecerdasan.

Mencapai matlamat ini tidak mudah. Perkara istimewa tentang VLA ialah ia menghubungkan tiga dimensi penglihatan, bahasa dan tindakan. Arahan mudah daripada pengguna mungkin melibatkan persepsi masa nyata persekitaran sekeliling, pemahaman yang tepat tentang niat bahasa dan pelarasan pantas tingkah laku pemanduan. Ketiga-tiganya adalah amat diperlukan.

Dan perkara yang hebat tentang VLA ialah ia membolehkan ketiga-tiganya berfungsi dengan lancar bersama-sama.

Daripada penglihatan kepada realiti, R&D VLA ialah wilayah yang belum dipetakan. Li Xiang mengakui: "Pemerolehan data visual dan tindakan adalah yang paling sukar. Tiada syarikat boleh menggantikannya."

Untuk memahami latar belakang teknikal VLA, kita juga mesti melihat evolusi pemanduan pintar Li Auto.

Li Xiang berkata bahawa sistem awal ialah kecerdasan "peringkat serangga", dengan hanya berjuta-juta parameter, didorong oleh peraturan dan peta berketepatan tinggi, dan tidak berdaya apabila menghadapi keadaan jalan raya yang kompleks. Kemudian, seni bina hujung-ke-hujung dan model visual-bahasa membolehkan teknologi melompat ke "peringkat mamalia," menyingkirkan pergantungan peta, dan NOA tanpa peta di seluruh negara menjadi kenyataan.

Malah, langkah ini telah meletakkan Li Auto di barisan hadapan industri, tetapi mereka jelas tidak berpuas hati dengan ini. Pada pandangan Li Xiang, kemunculan VLA menandakan bahawa teknologi pemanduan pintar Li Auto telah memasuki peringkat baru "kecerdasan manusia."

Berbanding dengan sistem sebelumnya, VLA bukan sahaja boleh melihat dunia fizikal 3D, tetapi juga melakukan penaakulan logik dan juga menjana tingkah laku pemanduan yang hampir dengan tahap manusia.

Sebagai contoh mudah, andaikan anda berkata "cari tempat untuk berpatah balik" di jalan yang sesak, VLA tidak akan melaksanakan arahan secara mekanikal, tetapi akan mempertimbangkan secara menyeluruh keadaan jalan raya, aliran trafik dan peraturan lalu lintas untuk mencari masa dan lokasi yang paling munasabah untuk menyelesaikan pusingan U.

Li Xiang berkata bahawa VLA boleh menyesuaikan diri dengan cepat kepada senario baharu dengan menjana data, dan boleh mengoptimumkan respons walaupun apabila menghadapi pembaikan jalan yang kompleks buat kali pertama dalam tempoh tiga hari. Fleksibiliti dan pertimbangan ini adalah kelebihan teras VLA.

Guru Li Auto Ialah DeepSeek

Menyokong VLA ialah sistem teknikal yang kompleks dan canggih yang dibangunkan secara bebas oleh Li Auto. Sistem ini membolehkan kereta bukan sahaja "memahami" dunia, tetapi juga berfikir dan bertindak seperti pemandu manusia.

Yang pertama ialah teknologi perwakilan Gaussian 3D, yang menggunakan banyak "titik Gaussian" untuk mencipta objek 3D. Setiap titik mengandungi kedudukan, warna dan maklumat saiznya sendiri. Teknologi ini menggunakan pembelajaran kendiri untuk melatih model pemahaman spatial 3D yang berkuasa menggunakan data sebenar yang besar. Dengannya, VLA boleh "memahami" dunia sekeliling seperti manusia, mengetahui di mana halangan dan di mana kawasan yang boleh dilalui.

Seterusnya ialah seni bina Campuran Pakar (MoE), yang terdiri daripada rangkaian pakar, rangkaian get dan penggabung. Apabila parameter model melebihi ratusan bilion, kaedah tradisional akan membuat semua neuron mengambil bahagian dalam setiap pengiraan, yang merupakan pembaziran sumber. Rangkaian get dalam seni bina MoE akan memanggil pakar yang berbeza mengikut tugas yang berbeza untuk memastikan parameter pengaktifan tidak meningkat dengan ketara.

Bercakap tentang perkara ini, Li Xiang juga memuji DeepSeek:

DeepSeek menggunakan amalan terbaik manusia… Apabila mereka melakukan DeepSeek V3, V3 juga merupakan MoE, model 671B. Saya fikir MoE ialah seni bina yang sangat baik. Ia bersamaan dengan menggabungkan sekumpulan pakar bersama-sama, dan setiap satu ialah keupayaan pakar.

Akhir sekali, Li Auto memperkenalkan Tumpuan Jarang kepada VLA, yang dalam bahasa awam bermaksud bahawa VLA akan melaraskan secara automatik berat perhatian kawasan utama, dengan itu meningkatkan kecekapan inferens bahagian akhir.

Li Xiang berkata bahawa dalam proses latihan model asas baharu ini, jurutera Li Auto menghabiskan banyak masa untuk mencari nisbah data terbaik, mengintegrasikan sejumlah besar data 3D dan data teks dan imej yang berkaitan dengan pemanduan autonomi, dan mengurangkan perkadaran data sastera dan sejarah.

Daripada persepsi kepada membuat keputusan, VLA menggunakan mod kombinasi pantas dan perlahan pemikiran manusia. Ia boleh mengeluarkan keputusan tindakan mudah dengan cepat, seperti mengelakkan kecemasan, dan juga boleh menggunakan rantaian pemikiran pendek untuk "berfikir perlahan-lahan" untuk menangani senario yang lebih kompleks, seperti merancang laluan sementara untuk memintas kawasan pembinaan. Untuk meningkatkan lagi prestasi masa nyata, VLA juga memperkenalkan penaakulan spekulatif dan teknologi penyahkodan selari, menggunakan sepenuhnya kuasa pengkomputeran cip bahagian kenderaan untuk memastikan proses membuat keputusan adalah pantas dan tidak huru-hara.

Apabila menjana tingkah laku pemanduan, VLA menggunakan model Diffusion dan Pembelajaran Pengukuhan daripada Maklum Balas Manusia (RLHF). Model Diffusion bertanggungjawab untuk menjana trajektori pemanduan yang dioptimumkan, manakala RLHF menjadikan trajektori ini lebih dekat dengan tabiat manusia, kedua-duanya selamat dan selesa. Sebagai contoh, VLA akan melambatkan secara automatik apabila membelok, atau meninggalkan jarak selamat yang mencukupi apabila menggabungkan lorong. Butiran ini mencerminkan pembelajaran mendalam tingkah laku pemanduan manusia.

Model dunia ialah satu lagi teknologi utama. Li Auto menyediakan persekitaran maya berkualiti tinggi untuk pembelajaran pengukuhan melalui pembinaan semula dan penjanaan adegan. Li Xiang mendedahkan bahawa model dunia telah mengurangkan kos pengesahan daripada 170,000-180,000 yuan setiap 10,000 kilometer kepada 4,000 yuan. Ia membolehkan VLA untuk terus mengoptimumkan dalam simulasi dan menangani senario yang kompleks dengan mudah.

Bercakap tentang latihan, proses pertumbuhan VLA juga agak teratur. Keseluruhan proses dibahagikan kepada tiga peringkat: pra-latihan, pasca-latihan dan pembelajaran pengukuhan. "Pra-latihan adalah seperti mempelajari pengetahuan, pasca-latihan adalah seperti belajar memandu di sekolah memandu, dan pembelajaran pengukuhan adalah seperti amalan sosial," kata Li Xiang.

Dalam peringkat pra-latihan, Li Auto mencipta model asas visual-bahasa untuk VLA, menyumbatnya dengan data visual 3D yang kaya, imej definisi tinggi 2D dan korpus berkaitan pemanduan, membolehkannya mula-mula belajar untuk "melihat" dan "mendengar"; selepas latihan, modul tindakan ditambah, menjana trajektori pemanduan 4-8 saat, dan model berkembang daripada 3.2 bilion parameter kepada 4 bilion.

Pembelajaran pengukuhan dibahagikan kepada dua langkah: pertama, gunakan RLHF untuk menjajarkan tabiat manusia, menganalisis data pengambilalihan dan memastikan keselamatan dan keselesaan; kemudian, gunakan pembelajaran pengukuhan tulen untuk mengoptimumkan, berdasarkan nilai G (keselesaan), perlanggaran dan maklum balas peraturan lalu lintas, supaya VLA "memandu lebih baik daripada manusia." Li Xiang menyebut bahawa peringkat ini diselesaikan dalam model dunia, mensimulasikan senario trafik sebenar, dan kecekapan jauh lebih baik daripada pengesahan tradisional.

Kaedah latihan ini bukan sahaja menjamin kemajuan teknikal, tetapi juga menjadikan VLA cukup boleh dipercayai dalam aplikasi praktikal.

Li Xiang mengakui bahawa kejayaan VLA tidak dapat dipisahkan daripada inspirasi penanda aras industri. Seni bina MoE DeepSeek bukan sahaja meningkatkan kecekapan latihan, tetapi juga memberikan pengalaman berharga untuk Li Auto. Dia meratapi: "Kami berdiri di atas bahu gergasi dan mempercepatkan R&D VLA." Sikap pembelajaran terbuka ini membolehkan Li Auto melangkah lebih jauh di tanah tanpa orang.

Daripada "Alat Maklumat" kepada "Alat Pengeluaran"

Pada masa ini, industri AI sedang mengalami transformasi mendalam daripada "alat maklumat" kepada "alat pengeluaran." Dengan kematangan teknologi model besar, AI tidak lagi terhad kepada memproses data dan memberikan cadangan, tetapi mula mempunyai keupayaan untuk membuat keputusan bebas dan melaksanakan tugas.

Li Xiang mencadangkan dalam musim kedua AI Talk bahawa AI boleh dibahagikan kepada alat maklumat (seperti carian), alat bantu (seperti navigasi suara) dan alat pengeluaran. Beliau menekankan: "Kecerdasan buatan menjadi alat pengeluaran adalah saat letusan sebenar." Dengan kematangan teknologi model besar, AI tidak lagi terhad kepada memproses data, tetapi mula mempunyai keupayaan untuk membuat keputusan bebas dan melaksanakan tugas.

Trend ini amat ketara dalam konsep "kecerdasan terjelma" - sistem AI diberikan entiti fizikal, mampu mengesan, memahami dan berinteraksi dengan persekitaran.

Model VLA Li Auto ialah amalan jelas trend ini. Dengan mengintegrasikan penglihatan, bahasa dan kecerdasan tindakan, ia mengubah kereta menjadi ejen pintar yang boleh memandu secara autonomi dan berinteraksi secara semula jadi dengan pengguna, mentafsir dengan sempurna konsep teras "kecerdasan terjelma."

Selagi manusia mengupah pemandu profesional, kecerdasan buatan boleh menjadi alat pengeluaran. Apabila AI menjadi alat pengeluaran, kecerdasan buatan akan benar-benar meletup.

Ucapan Li Xiang menjelaskan nilai teras VLA - ia bukan lagi alat bantu mudah, tetapi "ejen pemandu" yang boleh melaksanakan tugas secara bebas dan memikul tanggungjawab. Transformasi ini bukan sahaja meningkatkan nilai praktikal kereta, tetapi juga membuka ruang imaginasi untuk penggunaan AI dalam bidang lain.

Pemikiran Li Xiang tentang AI sentiasa mempunyai perspektif yang memecahkan kotak. Beliau juga menyebut: "VLA bukan proses perubahan mendadak, tetapi proses evolusi." Ayat ini merumuskan dengan tepat laluan teknikal Li Auto -

Daripada dipacu peraturan awal, kepada penemuan hujung-ke-hujung, kepada tahap "kecerdasan manusia" VLA hari ini. Pemikiran evolusi ini bukan sahaja menjadikan VLA lebih berdaya maju dalam teknologi, tetapi juga menyediakan paradigma rujukan untuk industri. Berbanding dengan beberapa percubaan yang mengejar subversi secara membabi buta, laluan pragmatik Li Auto mungkin lebih sesuai untuk pasaran China yang kompleks.

Daripada teknologi kepada kepercayaan, penerokaan AI Li Auto tidak lancar. Li Xiang mengakui: "Kami telah mengalami banyak cabaran dalam bidang AI, seperti kegelapan sebelum subuh, tetapi kami percaya bahawa jika kami berterusan, kami akan melihat cahaya." R&D VLA menghadapi masalah seperti kesesakan kuasa pengkomputeran dan etika data, tetapi Li Auto secara beransur-ansur mengantarkan subuh teknologi mereka melalui model asas yang dibangunkan sendiri dan model dunia.

Li Xiang juga menyebut dalam temu bual bahawa kejayaan VLA tidak dapat dipisahkan daripada kebangkitan AI Cina.

Beliau berkata bahawa kemunculan model seperti DeepSeek dan Tongyi Qianwen telah menjadikan tahap AI China menghampiri Amerika Syarikat dengan pantas. Antaranya, semangat sumber terbuka yang dipegang oleh DeepSeek amat menggalakkan, yang secara langsung mendorong Li Auto untuk membuka sumber Xinghuan OS. Li Xiang berkata: "Ini bukan disebabkan oleh pertimbangan strategik syarikat. DeepSeek telah memberikan kami begitu banyak bantuan, kami harus menyumbang sesuatu kepada masyarakat."

Sambil meneruskan penemuan teknologi, Li Auto tidak mengabaikan isu keselamatan dan etika teknologi AI. Teknologi "penjajaran super" yang diperkenalkan oleh VLA menjadikan tingkah laku model lebih dekat dengan tabiat manusia melalui Pembelajaran Pengukuhan daripada Maklum Balas Manusia (RLHF). Data menunjukkan bahawa penggunaan VLA telah meningkatkan MPI berkelajuan tinggi (milej intervensi purata) daripada 240km kepada 300km.

Lebih penting lagi, Li Auto menekankan pembinaan "AI dengan nilai manusia" dan menganggap moral dan kepercayaan sebagai asas pembangunan teknologi. Dari perspektif yang lebih makro, kepentingan VLA terletak pada hakikat bahawa ia mentakrifkan semula peranan syarikat kereta.

Pada masa lalu, kereta adalah cara pengangkutan zaman industri; hari ini, mereka berkembang menjadi "robot spatial" dalam era kecerdasan buatan. Li Xiang menyebut dalam AI Talk: "Li Auto dahulunya berjalan di tanah tanpa orang kereta, dan akan berjalan di tanah tanpa orang kecerdasan buatan pada masa hadapan." Transformasi Li Auto ini membawa ruang imaginasi baharu kepada model perniagaan industri automotif.

Sudah tentu, pembangunan VLA bukanlah tanpa cabaran. Pelaburan kuasa pengkomputeran yang berterusan, etika data dan penubuhan kepercayaan pengguna dalam pemanduan autonomi adalah semua isu yang perlu dihadapi oleh Li Auto. Selain itu, persaingan dalam industri AI semakin sengit. Gergasi domestik dan asing seperti Tesla, Waymo dan OpenAI mempercepatkan susun atur model berbilang modal. Li Auto perlu mengekalkan kedudukan utamanya dalam lelaran teknologi dan promosi pasaran. "Kami tidak mempunyai jalan pintas, kami hanya boleh bercucuk tanam dalam-dalam," kata Li Xiang.

Tidak dinafikan, pendaratan VLA akan menjadi nod utama.

Li Auto merancang untuk mengeluarkan VLA serentak dengan SUV elektrik tulen Li Auto i8 pada Julai 2025, dan mencapai pengeluaran besar-besaran pada tahun 2026. Ini bukan sahaja ujian komprehensif teknologi, tetapi juga batu ujian penting untuk pasaran.