從動物演化到人類:理想汽車的VLA之路

今年三月,在NVIDIA 2025春季GTC大會上,理想汽車自動駕駛技術研發負責人賈鵬介紹了他們最新的成果:MindVLA大型模型。

該模型是一個擁有22億參數的Vision-Language-Action Model (VLA)。賈鵬進一步表示,他們已經成功將該模型部署在車輛上。理想汽車認為,VLA模型是解決AI與物理世界互動挑戰的最有效方法。

過去一年,端到端架構已成為智慧駕駛領域的技術熱點,推動車企從傳統的模組化規則設計轉向整合系統。先前領先的基於規則演算法的車企面臨轉型之痛,而後來者則抓住了機會,取得了競爭優勢。

理想汽車就是一個很好的例子。

理想汽車去年在智慧駕駛方面的進展可謂迅速。7月,它率先實現了全國範圍內的無地圖NOA (Navigation on Autopilot),並推出了一種獨特的「端到端(快速系統)+ VLM(慢速系統)」架構,在業界引起了廣泛關注。

今晚,隨著理想汽車AI Talk第二季的播出,我們更深入地了解了李想所說的「人工智慧公司」。

「駕駛員大型模型」也是你的司機

理想汽車CEO李想在去年12月的第一季AI Talk中首次提到了VLA,當時他與騰訊新聞的首席技術作家張小軍進行了對話。當時他說:

我們理想汽車在做理想同學和自動駕駛,其實按照行業標準是分開的,而且還是在早期階段。我們在做的Mind GPT其實是一個大型語言模型;我們在做的自動駕駛,我們內部叫行為智能,但是按照李飛飛(史丹佛大學終身教授,前Google首席科學家)的定義,它叫做空間智能。只有你真的大規模做了之後,你才會知道這兩個一定有一天會被連通起來。我們內部稱之為VLA (Vision Language Action Model)。

李想認為,基礎模型一定會在某個時刻變成VLA。原因是,語言模型只能透過語言和認知來理解三維世界,這顯然是不夠的。「它需要真正基於向量,使用Diffusion (擴散模型),並使用生成方法(來理解世界)。」

可以說,VLA的誕生不僅是大膽嘗試將語言智能和空間智能深度整合,也是理想汽車對「智能汽車」概念的重新詮釋。

李想在今晚的AI Talk中進一步定義:「VLA是一個駕駛員大型模型,像人類駕駛員一樣工作。」它不僅僅是一種技術,更是一個可以與用戶自然交流並做出獨立決策的智慧夥伴。

那麼,VLA究竟是什麼?核心其實很簡單:透過整合視覺感知、自然語言理解和動作生成能力,車輛變成了一個可以與人交流並做出自己決策的「駕駛代理」。

想像一下,你坐在車裡,隨意說一句:「我今天有點累,開慢一點」,車輛不僅會理解你的意思,還會調整速度,甚至選擇更平穩的路線。這種自然而流暢的互動,正是VLA想要實現的。李想透露,所有短指令都由車輛直接處理,而複雜指令則由雲端的32億參數模型解析,確保了效率和智能。

實現這個目標並不容易。VLA的特殊之處在於它連接了視覺、語言和動作三個維度。用戶的一個簡單指令可能涉及對周圍環境的即時感知、對語言意圖的準確理解以及對駕駛行為的快速調整。三者缺一不可。

而VLA的厲害之處在於,它可以讓這三者無縫協同工作。

從視覺到現實,VLA的研發是一片未知的領域。李想坦言:「視覺和動作數據的獲取是最困難的。沒有一家公司可以替代。」

要了解VLA的技術背景,我們還必須了解理想汽車智慧駕駛的演進歷程。

李想說,早期的系統是「昆蟲級」智能,只有數百萬個參數,由規則和高精度地圖驅動,遇到複雜的路況就無能為力。後來,端到端架構和視覺語言模型使技術躍升到「哺乳動物級」,擺脫了對地圖的依賴,全國無地圖NOA成為現實。

事實上,這一步已經讓理想汽車走在了行業前列,但他們顯然並不滿足於此。在李想看來,VLA的出現標誌著理想汽車的智慧駕駛技術進入了一個新的「人類智能」階段。

與之前的系統相比,VLA不僅可以感知3D物理世界,還可以進行邏輯推理,甚至生成接近人類水平的駕駛行為。

舉一個簡單的例子,假設你在擁擠的街道上說「找個地方掉頭」,VLA不會機械地執行指令,而是會綜合考慮路況、交通流量和交通規則,找到最合理的時機和地點來完成掉頭。

李想說,VLA可以透過生成數據快速適應新的場景,甚至可以在三天內優化對首次遇到的複雜道路維修的反應。這種靈活性和判斷力是VLA的核心優勢。

理想汽車的老師是DeepSeek

支撐VLA的是理想汽車獨立開發的複雜而精密的技術系統。該系統使汽車不僅能「理解」世界,還能像人類駕駛員一樣思考和行動。

首先是3D Gaussian representation技術,它使用許多「高斯點」來創建3D物體。每個點都包含其自身的位置、顏色和大小信息。該技術使用自監督學習來訓練一個強大的3D空間理解模型,使用大量的真實數據。有了它,VLA可以像人類一樣「理解」周圍的世界,知道障礙物在哪裡,可通行區域在哪裡。

接下來是Mixture of Experts (MoE) 架構,它由專家網路、門控網路和組合器組成。當模型參數超過數千億時,傳統方法會讓所有神經元都參與每次計算,這是一種資源浪費。MoE架構中的門控網路會根據不同的任務調用不同的專家,以確保激活參數不會顯著增加。

談到這一點,李想也稱讚了DeepSeek:

DeepSeek使用了人類的最佳實踐……當他們在做DeepSeek V3的時候,V3也是一個MoE,一個671B的模型。我認為MoE是一個非常好的架構。它相當於將一群專家組合在一起,每一個都是一種專家能力。

最後,理想汽車將Sparse Attention引入到VLA中,用外行話來說,這意味著VLA會自動調整關鍵區域的注意力權重,從而提高終端側的推理效率。

李想說,在這個新基礎模型的訓練過程中,理想汽車的工程師花費了大量的時間來尋找最佳的數據比例,整合了大量的3D數據和與自動駕駛相關的文字和圖像數據,並降低了文學和歷史數據的比例。

從感知到決策,VLA借鑒了人類思維的快慢組合模式。它可以快速輸出簡單的動作決策,例如緊急避讓,也可以使用短思考鏈來「慢慢思考」以應對更複雜的場景,例如臨時規劃一條繞過施工區域的路線。為了進一步提高實時性能,VLA還引入了推測推理和平行解碼技術,充分利用車載晶片的計算能力,以確保決策過程快速而不混亂。

在生成駕駛行為時,VLA使用Diffusion模型和Reinforcement Learning from Human Feedback (RLHF)。Diffusion模型負責生成優化的駕駛軌跡,而RLHF則使這些軌跡更接近人類習慣,既安全又舒適。例如,VLA會在轉彎時自動減速,或者在合併車道時保持足夠的安全距離。這些細節反映了對人類駕駛行為的深入學習。

世界模型是另一項關鍵技術。理想汽車透過場景重建和生成,為強化學習提供了一個高品質的虛擬環境。李想透露,世界模型已將每1萬公里的驗證成本從17萬至18萬元降至4000元。它允許VLA在模擬中不斷優化,並輕鬆應對複雜的場景。

說到訓練,VLA的成長過程也相當有組織。整個過程分為三個階段:預訓練、後訓練和強化學習。李想說:「預訓練就像學習知識,後訓練就像在駕校學習駕駛,而強化學習就像社會實踐。」

在預訓練階段,理想汽車為VLA創建了一個視覺語言基礎模型,塞滿了豐富的3D視覺數據、2D高清圖像和與駕駛相關的語料庫,讓它首先學會「看」和「聽」;訓練後,添加動作模組,生成4-8秒的駕駛軌跡,模型從32億個參數擴展到40億個。

強化學習分為兩個步驟:首先,使用RLHF來對齊人類習慣,分析接管數據,並確保安全性和舒適性;然後,使用純粹的強化學習進行優化,基於G值(舒適度)、碰撞和交通規則反饋,使VLA「比人類駕駛得更好」。李想提到,這個階段是在世界模型中完成的,模擬真實的交通場景,效率遠勝於傳統的驗證。

這種訓練方法不僅保證了技術的先進性,也使得VLA在實際應用中足夠可靠。

李想承認,VLA的成功離不開業界標竿的啟發。DeepSeek的MoE架構不僅提高了訓練效率,也為理想汽車提供了寶貴的經驗。他感嘆:「我們站在巨人的肩膀上,加速VLA的研發。」這種開放的學習態度讓理想汽車在無人區走得更遠。

從「資訊工具」到「生產工具」

目前,AI產業正在經歷從「資訊工具」到「生產工具」的深刻轉型。隨著大型模型技術的成熟,AI不再僅限於處理數據和提供建議,而是開始具備獨立決策和執行任務的能力。

李想在AI Talk第二季中提出,AI可以分為資訊工具(如搜索)、輔助工具(如語音導航)和生產工具。他強調:「人工智慧成為生產工具的那一刻,才是真正爆發的時刻。」隨著大型模型技術的成熟,AI不再僅限於處理數據,而是開始具備獨立決策和執行任務的能力。

這種趨勢在「具身智能」的概念中尤其明顯——AI系統被賦予物理實體,能夠感知、理解和與環境互動。

理想汽車的VLA模型正是這一趨勢的生動實踐。透過整合視覺、語言和動作智能,它將汽車轉變為一個可以自主駕駛並與用戶自然互動的智能代理,完美地詮釋了「具身智能」的核心概念。

只要人類聘請專業司機,人工智慧就可以成為一種生產工具。當人工智慧成為一種生產工具時,人工智慧將真正爆發。

李想的這番話闡明了VLA的核心價值——它不再是一個簡單的輔助工具,而是一個可以獨立執行任務和承擔責任的「駕駛代理」。這種轉變不僅提高了汽車的實用價值,也為AI在其他領域的應用開闢了想像空間。

李想對AI的思考始終具有一種跳脫框架的視角。他還提到:「VLA不是一個突變的過程,而是一個演化的過程。」這句話準確地概括了理想汽車的技術路徑——

從早期的規則驅動,到端到端突破,再到今天的VLA的「人類智能」水平。這種演化的思維不僅使VLA在技術上更具可行性,也為業界提供了一個參考範式。與一些盲目追求顛覆的嘗試相比,理想汽車務實的道路可能更適合複雜的中國市場。

從技術到信念,理想汽車的AI探索並非一帆風順。李想坦言:「我們在AI領域經歷了很多挑戰,就像黎明前的黑暗,但我們相信,只要我們堅持不懈,我們就會看到光明。」VLA的研發面臨著諸如計算能力瓶頸和數據倫理等問題,但理想汽車透過自研基礎模型和世界模型,逐漸迎來了他們的技術黎明。

李想也在採訪中提到,VLA的成功離不開中國AI的崛起。

他說,DeepSeek和通義千問等模型的出現,使中國的AI水平迅速接近美國。其中,DeepSeek秉持的開源精神尤其令人鼓舞,這直接促使理想汽車開源星環OS。李想說:「這並非出於公司戰略考慮。DeepSeek給了我們這麼多幫助,我們應該為社會貢獻一些東西。」

在追求技術突破的同時,理想汽車並未忽視AI技術的安全和倫理問題。VLA引入的「超級對齊」技術透過Reinforcement Learning from Human Feedback (RLHF)使模型的行為更接近人類習慣。數據顯示,VLA的應用使高速MPI (平均介入里程) 從240公里增加到300公里。

更重要的是,理想汽車強調構建「具有人類價值觀的AI」,並將道德和信任視為技術發展的基石。從更宏觀的角度來看,VLA的意義在於它重新定義了汽車公司的角色。

過去,汽車是工業時代的交通工具;今天,它們正在演變成人工智慧時代的「空間機器人」。李想在AI Talk中提到:「理想汽車過去走在汽車的無人區,未來將走在人工智慧的無人區。」理想汽車的這種轉型為汽車產業的商業模式帶來了新的想像空間。

當然,VLA的發展並非沒有挑戰。計算能力的持續投入、數據倫理以及消費者對自動駕駛的信任建立,都是理想汽車需要面對的問題。此外,AI產業的競爭也日益激烈。國內外巨頭如Tesla、Waymo和OpenAI都在加速多模態模型的佈局。理想汽車需要在技術迭代和市場推廣方面保持領先地位。「我們沒有捷徑,只能深耕細作,」李想說。

毫無疑問,VLA的落地將是一個關鍵節點。

理想汽車計劃在2025年7月與純電動SUV理想汽車i8同步發布VLA,並在2026年實現量產。這不僅是對技術的全面考驗,也是對市場的重要試金石。