मार्च में, NVIDIA के 2025 स्प्रिंग GTC सम्मेलन में, ली ऑटो में स्वायत्त ड्राइविंग टेक्नोलॉजी R&D के प्रमुख जिया पेंग ने अपनी नवीनतम उपलब्धि: MindVLA बड़े मॉडल का परिचय दिया।
यह मॉडल 2.2 बिलियन पैरामीटर वाला विजन-लैंग्वेज-एक्शन मॉडल (VLA) है। जिया पेंग ने आगे कहा कि उन्होंने मॉडल को वाहनों में सफलतापूर्वक तैनात कर दिया है। ली ऑटो का मानना है कि VLA मॉडल AI के भौतिक दुनिया के साथ इंटरैक्ट करने की चुनौतियों को हल करने का सबसे प्रभावी तरीका है।
पिछले एक साल में, एंड-टू-एंड आर्किटेक्चर इंटेलिजेंट ड्राइविंग के क्षेत्र में एक तकनीकी हॉटस्पॉट बन गया है, जिससे कार कंपनियां पारंपरिक मॉड्यूलर नियम डिजाइन से एकीकृत सिस्टम में स्थानांतरित हो गई हैं। कार कंपनियां जो पहले नियम-आधारित एल्गोरिदम के साथ नेतृत्व करती थीं, उन्हें संक्रमणकालीन दर्द का सामना करना पड़ता है, जबकि देर से आने वालों ने प्रतिस्पर्धात्मक लाभ के लिए अवसर का लाभ उठाया है।
ली ऑटो इसका एक प्रमुख उदाहरण है।
पिछले साल इंटेलिजेंट ड्राइविंग में ली ऑटो की प्रगति को तीव्र कहा जा सकता है। जुलाई में, इसने देशव्यापी नो-मैप NOA (Navigation on Autopilot) प्राप्त करने में बढ़त बनाई और एक अद्वितीय "एंड-टू-एंड (फास्ट सिस्टम) + VLM (स्लो सिस्टम)" आर्किटेक्चर लॉन्च किया, जिसे उद्योग में व्यापक रूप से सराहा गया है।
आज रात, ली ऑटो एआई टॉक के दूसरे सीज़न के साथ, हमने इस बारे में गहरी समझ हासिल की है कि ली जियांग "कृत्रिम बुद्धिमत्ता कंपनी" किसे कहते हैं।
"ड्राइवर लार्ज मॉडल" आपका ड्राइवर भी है
ली ऑटो के सीईओ ली जियांग ने पिछले साल दिसंबर में एआई टॉक के पहले सीज़न में पहली बार VLA का उल्लेख किया था, Tencent News के मुख्य प्रौद्योगिकी लेखक झांग जिओजुन के साथ बातचीत में। उस समय, उन्होंने कहा:
हम ली ऑटो कंपैनियन और स्वायत्त ड्राइविंग के साथ जो कर रहे हैं, वह वास्तव में उद्योग मानकों के अनुसार अलग है, और यह शुरुआती चरणों में है। Mind GPT जो हम कर रहे हैं, वह वास्तव में एक बड़ा भाषा मॉडल है; स्वायत्त ड्राइविंग जो हम कर रहे हैं, उसे हम आंतरिक रूप से व्यवहारिक बुद्धिमत्ता कहते हैं, लेकिन जैसा कि ली फेइफेई (स्टैनफोर्ड लाइफटाइम प्रोफेसर, पूर्व Google चीफ साइंटिस्ट) द्वारा परिभाषित किया गया है, इसे स्थानिक बुद्धिमत्ता कहा जाता है। जब आप वास्तव में इसे बड़े पैमाने पर करते हैं, तो आपको पता चलेगा कि ये दोनों निश्चित रूप से एक दिन जुड़ जाएंगे। हम इसे आंतरिक रूप से VLA (विजन लैंग्वेज एक्शन मॉडल) कहते हैं।
ली जियांग का मानना है कि बेस मॉडल निश्चित रूप से एक निश्चित क्षण में VLA बन जाएगा। इसका कारण यह है कि भाषा मॉडल केवल भाषा और संज्ञान के माध्यम से त्रि-आयामी दुनिया को समझ सकते हैं, जो स्पष्ट रूप से पर्याप्त नहीं है। "इसे वास्तव में वेक्टर-आधारित होने की आवश्यकता है, डिफ्यूजन (डिफ्यूजन मॉडल) का उपयोग करना और दुनिया को समझने के लिए जनरेटिव विधियों (का उपयोग करना)।"
यह कहा जा सकता है कि VLA का जन्म न केवल भाषा बुद्धिमत्ता और स्थानिक बुद्धिमत्ता को गहराई से एकीकृत करने का एक साहसिक प्रयास है, बल्कि ली ऑटो द्वारा "इंटेलिजेंट कार" की अवधारणा का एक पुन: स्पष्टीकरण भी है।
ली जियांग ने आज रात के एआई टॉक में आगे परिभाषित किया: "VLA एक ड्राइवर लार्ज मॉडल है, जो एक मानव ड्राइवर की तरह काम करता है।" यह न केवल एक तकनीक है, बल्कि एक बुद्धिमान भागीदार भी है जो उपयोगकर्ताओं के साथ स्वाभाविक रूप से संवाद कर सकता है और स्वतंत्र निर्णय ले सकता है।
तो, VLA वास्तव में क्या है? मूल वास्तव में बहुत सीधा है: दृश्य धारणा, प्राकृतिक भाषा समझ और क्रिया पीढ़ी क्षमताओं को एकीकृत करके, वाहन एक "ड्राइवर एजेंट" बन जाता है जो लोगों के साथ संवाद कर सकता है और अपने स्वयं के निर्णय ले सकता है।
कल्पना कीजिए कि आप अपनी कार में बैठे हैं और लापरवाही से कहते हैं, "मैं आज थोड़ा थका हुआ हूं, धीरे ड्राइव करें," और वाहन न केवल आपके कहने का मतलब समझेगा, बल्कि अपनी गति को भी समायोजित करेगा और यहां तक कि एक सुगम मार्ग भी चुनेगा। यह स्वाभाविक और सहज इंटरैक्शन वास्तव में वही है जिसे VLA प्राप्त करना चाहता है। ली जियांग ने खुलासा किया कि सभी छोटे कमांड सीधे वाहन द्वारा संसाधित किए जाते हैं, जबकि जटिल कमांड को क्लाउड-आधारित 3.2 बिलियन पैरामीटर मॉडल द्वारा पार्स किया जाता है, जो दक्षता और बुद्धिमत्ता दोनों सुनिश्चित करता है।
इस लक्ष्य को प्राप्त करना आसान नहीं है। VLA की विशेष बात यह है कि यह दृष्टि, भाषा और क्रिया के तीन आयामों को जोड़ता है। उपयोगकर्ता से एक सरल कमांड में आसपास के वातावरण की रीयल-टाइम धारणा, भाषा के इरादे की सटीक समझ और ड्राइविंग व्यवहार का तेजी से समायोजन शामिल हो सकता है। तीनों अपरिहार्य हैं।
और VLA की महान बात यह है कि यह इन तीनों को एक साथ निर्बाध रूप से काम करने की अनुमति देता है।
दृष्टि से वास्तविकता तक, VLA का R&D एक अज्ञात क्षेत्र है। ली जियांग ने स्वीकार किया: "दृश्य और क्रिया डेटा का अधिग्रहण सबसे कठिन है। कोई भी कंपनी इसे प्रतिस्थापित नहीं कर सकती है।"
VLA की तकनीकी पृष्ठभूमि को समझने के लिए, हमें ली ऑटो की इंटेलिजेंट ड्राइविंग के विकास को भी देखना होगा।
ली जियांग ने कहा कि शुरुआती प्रणाली "कीट-स्तर" की बुद्धिमत्ता थी, जिसमें केवल लाखों पैरामीटर थे, जो नियमों और उच्च-सटीक मानचित्रों द्वारा संचालित थे, और जटिल सड़क स्थितियों का सामना करने पर असहाय थे। बाद में, एंड-टू-एंड आर्किटेक्चर और विजुअल-लैंग्वेज मॉडल ने तकनीक को "स्तनधारी-स्तर" तक पहुंचने, मानचित्र निर्भरता से छुटकारा पाने और देशव्यापी नो-मैप NOA को वास्तविकता बनाने की अनुमति दी।
वास्तव में, इस कदम ने पहले ही ली ऑटो को उद्योग में सबसे आगे रख दिया है, लेकिन वे स्पष्ट रूप से इससे संतुष्ट नहीं हैं। ली जियांग की दृष्टि में, VLA का उदय इस बात का प्रतीक है कि ली ऑटो की इंटेलिजेंट ड्राइविंग तकनीक "मानव बुद्धिमत्ता" के एक नए चरण में प्रवेश कर चुकी है।
पिछली प्रणाली की तुलना में, VLA न केवल 3D भौतिक दुनिया को महसूस कर सकता है, बल्कि तार्किक तर्क भी कर सकता है और यहां तक कि मानव स्तर के करीब ड्राइविंग व्यवहार भी उत्पन्न कर सकता है।
एक साधारण उदाहरण के लिए, मान लीजिए कि आप एक भीड़भाड़ वाली सड़क पर "घूमने के लिए एक जगह ढूंढें" कहते हैं, VLA यांत्रिक रूप से कमांड को निष्पादित नहीं करेगा, बल्कि यू-टर्न पूरा करने के लिए सबसे उचित समय और स्थान खोजने के लिए सड़क की स्थिति, ट्रैफ़िक प्रवाह और ट्रैफ़िक नियमों पर व्यापक रूप से विचार करेगा।
ली जियांग ने कहा कि VLA डेटा उत्पन्न करके नए परिदृश्यों के लिए जल्दी से अनुकूल हो सकता है, और जटिल सड़क मरम्मत का पहली बार सामना करने पर भी तीन दिनों के भीतर प्रतिक्रियाओं को अनुकूलित कर सकता है। यह लचीलापन और निर्णय VLA के मुख्य फायदे हैं।
ली ऑटो के शिक्षक डीपसीक हैं
VLA का समर्थन एक जटिल और परिष्कृत तकनीकी प्रणाली है जिसे ली ऑटो द्वारा स्वतंत्र रूप से विकसित किया गया है। यह प्रणाली कार को न केवल दुनिया को "समझने" की अनुमति देती है, बल्कि एक मानव ड्राइवर की तरह सोचने और कार्य करने की भी अनुमति देती है।
पहला 3D गॉसियन प्रतिनिधित्व तकनीक है, जो 3D ऑब्जेक्ट बनाने के लिए कई "गॉसियन पॉइंट्स" का उपयोग करती है। प्रत्येक बिंदु में अपनी स्थिति, रंग और आकार की जानकारी होती है। यह तकनीक बड़े पैमाने पर वास्तविक डेटा का उपयोग करके एक शक्तिशाली 3D स्थानिक समझ मॉडल को प्रशिक्षित करने के लिए स्व-पर्यवेक्षित सीखने का उपयोग करती है। इसके साथ, VLA एक इंसान की तरह आसपास की दुनिया को "समझ" सकता है, यह जानकर कि बाधाएं कहां हैं और पास करने योग्य क्षेत्र कहां हैं।
अगला मिक्सचर ऑफ एक्सपर्ट्स (MoE) आर्किटेक्चर है, जिसमें विशेषज्ञ नेटवर्क, गेटिंग नेटवर्क और कंबाइनर शामिल हैं। जब मॉडल पैरामीटर सैकड़ों अरबों से अधिक हो जाते हैं, तो पारंपरिक विधि प्रत्येक गणना में सभी न्यूरॉन्स को भाग लेने के लिए बनाएगी, जो संसाधनों की बर्बादी है। MoE आर्किटेक्चर में गेटिंग नेटवर्क विभिन्न कार्यों के अनुसार विभिन्न विशेषज्ञों को बुलाएगा ताकि यह सुनिश्चित किया जा सके कि सक्रियण पैरामीटर महत्वपूर्ण रूप से नहीं बढ़ेंगे।
इस बारे में बात करते हुए, ली जियांग ने डीपसीक की भी प्रशंसा की:
डीपसीक मानव जाति की सर्वोत्तम प्रथाओं का उपयोग करता है… जब वे डीपसीक V3 कर रहे थे, तो V3 भी एक MoE था, एक 671B मॉडल। मुझे लगता है कि MoE एक बहुत अच्छा आर्किटेक्चर है। यह विशेषज्ञों के एक समूह को एक साथ मिलाने के बराबर है, और प्रत्येक एक विशेषज्ञ क्षमता है।
अंत में, ली ऑटो ने VLA में स्पार्स अटेंशन पेश किया, जिसका अर्थ है कि VLA स्वचालित रूप से प्रमुख क्षेत्रों के ध्यान भार को समायोजित करेगा, जिससे एंड साइड की अनुमान दक्षता में सुधार होगा।
ली जियांग ने कहा कि इस नए बेस मॉडल के प्रशिक्षण की प्रक्रिया में, ली ऑटो के इंजीनियरों ने सर्वश्रेष्ठ डेटा अनुपात खोजने, बड़ी मात्रा में 3D डेटा और स्वायत्त ड्राइविंग से संबंधित पाठ और छवि डेटा को एकीकृत करने और साहित्यिक और ऐतिहासिक डेटा के अनुपात को कम करने में बहुत समय बिताया।
धारणा से लेकर निर्णय लेने तक, VLA मानव सोच के तेज और धीमी संयोजन मोड पर आधारित है। यह आपातकालीन परिहार जैसे सरल क्रिया निर्णय जल्दी से आउटपुट कर सकता है, और निर्माण क्षेत्र को दरकिनार करने के लिए अस्थायी रूप से मार्ग की योजना बनाने जैसे अधिक जटिल परिदृश्यों से निपटने के लिए छोटी सोच श्रृंखलाओं का भी उपयोग कर सकता है। वास्तविक समय के प्रदर्शन को और बेहतर बनाने के लिए, VLA ने अनुमानित तर्क और समानांतर डिकोडिंग तकनीक भी पेश की, जिससे वाहन-साइड चिप की कंप्यूटिंग शक्ति का पूरा उपयोग सुनिश्चित किया जा सके कि निर्णय लेने की प्रक्रिया तेज और अराजक नहीं है।
ड्राइविंग व्यवहार उत्पन्न करते समय, VLA डिफ्यूजन मॉडल और ह्यूमन फीडबैक (RLHF) से रिइंफोर्समेंट लर्निंग का उपयोग करता है। डिफ्यूजन मॉडल अनुकूलित ड्राइविंग प्रक्षेपवक्र उत्पन्न करने के लिए जिम्मेदार है, जबकि RLHF इन प्रक्षेपवक्रों को मानव आदतों के करीब बनाता है, दोनों सुरक्षित और आरामदायक। उदाहरण के लिए, VLA मुड़ते समय स्वचालित रूप से धीमा हो जाएगा, या लेन मर्ज करते समय पर्याप्त सुरक्षित दूरी छोड़ देगा। ये विवरण मानव ड्राइविंग व्यवहार के गहन सीखने को दर्शाते हैं।
वर्ल्ड मॉडल एक और महत्वपूर्ण तकनीक है। ली ऑटो दृश्य पुनर्निर्माण और पीढ़ी के माध्यम से सुदृढीकरण सीखने के लिए एक उच्च-गुणवत्ता वाला आभासी वातावरण प्रदान करता है। ली जियांग ने खुलासा किया कि विश्व मॉडल ने 10,000 किलोमीटर प्रति 170,000-180,000 युआन से सत्यापन लागत को 4,000 युआन तक कम कर दिया है। यह VLA को सिमुलेशन में लगातार अनुकूलित करने और जटिल परिदृश्यों से आसानी से निपटने की अनुमति देता है।
प्रशिक्षण की बात करें तो, VLA की वृद्धि प्रक्रिया भी काफी व्यवस्थित है। पूरी प्रक्रिया को तीन चरणों में विभाजित किया गया है: पूर्व-प्रशिक्षण, उत्तर-प्रशिक्षण और सुदृढीकरण सीखना। ली जियांग ने कहा, "पूर्व-प्रशिक्षण ज्ञान सीखने जैसा है, उत्तर-प्रशिक्षण ड्राइविंग स्कूल में ड्राइविंग सीखने जैसा है, और सुदृढीकरण सीखना सामाजिक अभ्यास जैसा है।"
पूर्व-प्रशिक्षण चरण में, ली ऑटो ने VLA के लिए एक दृश्य-भाषा आधार मॉडल बनाया, जिसमें समृद्ध 3D दृश्य डेटा, 2D उच्च-परिभाषा चित्र और ड्राइविंग से संबंधित कॉर्पोरा भरे गए, जिससे इसे पहले "देखना" और "सुनना" सीखना पड़ा; प्रशिक्षण के बाद, क्रिया मॉड्यूल जोड़ा जाता है, 4-8 सेकंड के ड्राइविंग प्रक्षेपवक्र उत्पन्न होते हैं, और मॉडल 3.2 बिलियन पैरामीटर से बढ़कर 4 बिलियन हो जाता है।
सुदृढीकरण सीखने को दो चरणों में विभाजित किया गया है: पहले, मानव आदतों को संरेखित करने, टेकओवर डेटा का विश्लेषण करने और सुरक्षा और आराम सुनिश्चित करने के लिए RLHF का उपयोग करें; फिर, अनुकूलित करने के लिए शुद्ध सुदृढीकरण सीखने का उपयोग करें, G-वैल्यू (आराम), टक्कर और ट्रैफ़िक नियमों की प्रतिक्रिया के आधार पर, ताकि VLA "मनुष्यों से बेहतर ड्राइव करे।" ली जियांग ने उल्लेख किया कि यह चरण विश्व मॉडल में पूरा हो गया है, वास्तविक ट्रैफ़िक परिदृश्यों का अनुकरण करता है, और दक्षता पारंपरिक सत्यापन की तुलना में कहीं बेहतर है।
यह प्रशिक्षण विधि न केवल तकनीकी प्रगति की गारंटी देती है, बल्कि व्यावहारिक अनुप्रयोगों में VLA को पर्याप्त विश्वसनीय भी बनाती है।
ली जियांग ने स्वीकार किया कि VLA की सफलता उद्योग बेंचमार्क की प्रेरणा से अविभाज्य है। डीपसीक के MoE आर्किटेक्चर ने न केवल प्रशिक्षण दक्षता में सुधार किया, बल्कि ली ऑटो के लिए बहुमूल्य अनुभव भी प्रदान किया। उन्होंने विलाप किया: "हम दिग्गजों के कंधों पर खड़े हैं और VLA के R&D को तेज कर रहे हैं।" यह खुला सीखने वाला दृष्टिकोण ली ऑटो को नो-मैन्स लैंड में आगे बढ़ने की अनुमति देता है।
"सूचना उपकरण" से "उत्पादन उपकरण" तक
वर्तमान में, AI उद्योग "सूचना उपकरण" से "उत्पादन उपकरण" में एक गहरा परिवर्तन कर रहा है। बड़े मॉडल तकनीक की परिपक्वता के साथ, AI अब केवल डेटा को संसाधित करने और सुझाव प्रदान करने तक सीमित नहीं है, बल्कि स्वतंत्र निर्णय लेने और कार्य करने की क्षमता रखने लगा है।
ली जियांग ने एआई टॉक के दूसरे सीज़न में प्रस्तावित किया कि एआई को सूचना उपकरण (जैसे खोज), सहायक उपकरण (जैसे वॉयस नेविगेशन) और उत्पादन उपकरण में विभाजित किया जा सकता है। उन्होंने जोर दिया: "कृत्रिम बुद्धिमत्ता का उत्पादन उपकरण बनना सच्चे प्रकोप का क्षण है।" बड़े मॉडल तकनीक की परिपक्वता के साथ, AI अब केवल डेटा को संसाधित करने तक सीमित नहीं है, बल्कि स्वतंत्र निर्णय लेने और कार्य करने की क्षमता रखने लगा है।
यह प्रवृत्ति विशेष रूप से "एंबॉडिड इंटेलिजेंस" की अवधारणा में स्पष्ट है - AI सिस्टम को भौतिक संस्थाएं दी जाती हैं, जो पर्यावरण को समझने, समझने और उसके साथ बातचीत करने में सक्षम हैं।
ली ऑटो का VLA मॉडल इस प्रवृत्ति का एक ज्वलंत अभ्यास है। दृष्टि, भाषा और क्रिया बुद्धिमत्ता को एकीकृत करके, यह कार को एक बुद्धिमान एजेंट में बदल देता है जो स्वायत्त रूप से ड्राइव कर सकता है और उपयोगकर्ताओं के साथ स्वाभाविक रूप से बातचीत कर सकता है, "एंबॉडिड इंटेलिजेंस" की मुख्य अवधारणा की पूरी तरह से व्याख्या करता है।
जब तक मनुष्य पेशेवर ड्राइवरों को काम पर रखते हैं, कृत्रिम बुद्धिमत्ता एक उत्पादन उपकरण बन सकती है। जब AI एक उत्पादन उपकरण बन जाता है, तो कृत्रिम बुद्धिमत्ता वास्तव में फट जाएगी।
ली जियांग की टिप्पणियों ने VLA के मूल मूल्य को स्पष्ट किया - यह अब एक साधारण सहायक उपकरण नहीं है, बल्कि एक "ड्राइवर एजेंट" है जो स्वतंत्र रूप से कार्य कर सकता है और जिम्मेदारियों को मान सकता है। यह परिवर्तन न केवल कारों के व्यावहारिक मूल्य में सुधार करता है, बल्कि अन्य क्षेत्रों में AI के अनुप्रयोग के लिए कल्पना स्थान भी खोलता है।
AI पर ली जियांग की सोच में हमेशा एक ऐसा दृष्टिकोण होता है जो बॉक्स से बाहर निकल जाता है। उन्होंने यह भी उल्लेख किया: "VLA अचानक परिवर्तन की प्रक्रिया नहीं है, बल्कि एक विकासवादी प्रक्रिया है।" यह वाक्य ली ऑटो के तकनीकी पथ को सटीक रूप से सारांशित करता है -
शुरुआती नियम-चालित, एंड-टू-एंड सफलताओं से लेकर आज के VLA के "मानव बुद्धिमत्ता" स्तर तक। यह विकासवादी सोच न केवल तकनीक में VLA को अधिक व्यवहार्य बनाती है, बल्कि उद्योग के लिए एक संदर्भ प्रतिमान भी प्रदान करती है। कुछ प्रयासों की तुलना में जो अंधाधुंध तोड़फोड़ करते हैं, ली ऑटो का व्यावहारिक मार्ग जटिल चीनी बाजार के लिए अधिक उपयुक्त हो सकता है।
प्रौद्योगिकी से लेकर विश्वास तक, ली ऑटो की AI खोज सुगम नहीं है। ली जियांग ने स्वीकार किया: "हमने AI क्षेत्र में कई चुनौतियों का अनुभव किया है, जैसे भोर से पहले अंधेरा, लेकिन हमारा मानना है कि यदि हम दृढ़ रहेंगे, तो हम प्रकाश देखेंगे।" VLA का R&D कंप्यूटिंग शक्ति की कमी और डेटा नैतिकता जैसी समस्याओं का सामना करता है, लेकिन ली ऑटो ने धीरे-धीरे स्व-विकसित बेस मॉडल और विश्व मॉडल के माध्यम से अपनी तकनीकी सुबह का स्वागत किया है।
ली जियांग ने साक्षात्कार में यह भी उल्लेख किया कि VLA की सफलता चीनी AI के उदय से अविभाज्य है।
उन्होंने कहा कि डीपसीक और टोंगयी कियानवेन जैसे मॉडलों के उदय ने चीन के AI स्तर को तेजी से संयुक्त राज्य अमेरिका के करीब ला दिया है। उनमें से, डीपसीक द्वारा बनाए रखा गया ओपन सोर्स स्पिरिट विशेष रूप से उत्साहजनक है, जिसने सीधे ली ऑटो को Xinghuan OS को ओपन सोर्स करने के लिए प्रेरित किया। ली जियांग ने कहा: "यह कंपनी की रणनीतिक विचारों से बाहर नहीं है। डीपसीक ने हमारी इतनी मदद की है, हमें समाज में कुछ योगदान करना चाहिए।"
तकनीकी सफलताओं का पीछा करते हुए, ली ऑटो ने AI तकनीक की सुरक्षा और नैतिक मुद्दों को नजरअंदाज नहीं किया है। VLA द्वारा पेश की गई "सुपर अलाइनमेंट" तकनीक मानव प्रतिक्रिया (RLHF) से सुदृढीकरण सीखने के माध्यम से मॉडल के व्यवहार को मानव आदतों के करीब बनाती है। डेटा से पता चलता है कि VLA के आवेदन ने उच्च गति MPI (औसत हस्तक्षेप माइलेज) को 240 किमी से बढ़ाकर 300 किमी कर दिया है।
इससे भी महत्वपूर्ण बात यह है कि ली ऑटो "मानव मूल्यों के साथ AI" बनाने पर जोर देता है और नैतिकता और विश्वास को तकनीकी विकास की आधारशिला मानता है। एक अधिक व्यापक परिप्रेक्ष्य से, VLA का महत्व यह है कि यह कार कंपनियों की भूमिका को फिर से परिभाषित करता है।
अतीत में, कारें औद्योगिक युग के परिवहन के साधन थीं; आज, वे कृत्रिम बुद्धिमत्ता युग में "स्थानिक रोबोट" के रूप में विकसित हो रही हैं। ली जियांग ने एआई टॉक में उल्लेख किया: "ली ऑटो पहले कारों के नो-मैन्स लैंड में चलता था, और भविष्य में कृत्रिम बुद्धिमत्ता के नो-मैन्स लैंड में चलेगा।" ली ऑटो का यह परिवर्तन मोटर वाहन उद्योग के व्यावसायिक मॉडल के लिए नई कल्पना स्थान लाता है।
बेशक, VLA का विकास चुनौतियों से रहित नहीं है। कंप्यूटिंग शक्ति, डेटा नैतिकता का निरंतर निवेश और स्वायत्त ड्राइविंग में उपभोक्ता विश्वास की स्थापना, ये सभी मुद्दे हैं जिनका ली ऑटो को सामना करना होगा। इसके अलावा, AI उद्योग में प्रतिस्पर्धा तेजी से भयंकर होती जा रही है। टेस्ला, वेमो और OpenAI जैसे घरेलू और विदेशी दिग्गज मल्टी-मोडल मॉडल के लेआउट को तेज कर रहे हैं। ली ऑटो को तकनीकी पुनरावृत्ति और बाजार संवर्धन में अपनी अग्रणी स्थिति बनाए रखने की आवश्यकता है। ली जियांग ने कहा, "हमारे पास कोई शॉर्टकट नहीं है, हम केवल गहराई से खेती कर सकते हैं।"
निस्संदेह, VLA की लैंडिंग एक महत्वपूर्ण नोड होगी।
ली ऑटो ने जुलाई 2025 में प्योर इलेक्ट्रिक SUV ली ऑटो i8 के साथ एक साथ VLA जारी करने और 2026 में बड़े पैमाने पर उत्पादन प्राप्त करने की योजना बनाई है। यह न केवल प्रौद्योगिकी का एक व्यापक परीक्षण है, बल्कि बाजार के लिए एक महत्वपूर्ण कसौटी भी है।