مارچ میں، NVIDIA کی 2025 کی موسم بہار کی GTC کانفرنس میں، Li Auto میں خود مختار ڈرائیونگ ٹیکنالوجی R&D کے سربراہ، Jia Peng نے اپنی تازہ ترین کامیابی: MindVLA بڑا ماڈل متعارف کرایا۔
یہ ماڈل 2.2 بلین پیرامیٹرز کے ساتھ ایک ویژن-لینگویج-ایکشن ماڈل (VLA) ہے۔ Jia Peng نے مزید کہا کہ انہوں نے ماڈل کو کامیابی سے گاڑیوں میں تعینات کر دیا ہے۔ Li Auto کا خیال ہے کہ VLA ماڈل AI کے لیے جسمانی دنیا کے ساتھ تعامل کے چیلنجوں کو حل کرنے کا سب سے مؤثر طریقہ ہے۔
گزشتہ ایک سال کے دوران، اینڈ ٹو اینڈ آرکیٹیکچر ذہین ڈرائیونگ کے شعبے میں ایک تکنیکی مرکز بن گیا ہے، جس سے کار کمپنیاں روایتی ماڈیولر رول ڈیزائن سے مربوط نظاموں کی طرف منتقل ہو رہی ہیں۔ وہ کار کمپنیاں جو پہلے رول بیسڈ الگورتھم کے ساتھ آگے بڑھ رہی تھیں، انہیں عبوری درد کا سامنا ہے، جبکہ دیر سے آنے والوں نے مسابقتی فائدہ کے لیے موقع حاصل کر لیا ہے۔
Li Auto اس کی ایک بہترین مثال ہے۔
گزشتہ سال ذہین ڈرائیونگ میں Li Auto کی پیشرفت کو تیز رفتار قرار دیا جا سکتا ہے۔ جولائی میں، اس نے ملک گیر نو-میپ NOA (Navigation on Autopilot) حاصل کرنے میں سبقت حاصل کی اور ایک منفرد "اینڈ ٹو اینڈ (فاسٹ سسٹم) + VLM (سلو سسٹم)" آرکیٹیکچر شروع کیا، جس نے صنعت میں وسیع پیمانے پر توجہ حاصل کی۔
آج رات، Li Auto AI Talk کے دوسرے سیزن کے ساتھ، ہم نے اس بارے میں گہری سمجھ حاصل کی ہے کہ Li Xiang کس چیز کو "مصنوعی ذہانت کمپنی" کہتے ہیں۔
"ڈرائیور بڑا ماڈل" آپ کا ڈرائیور بھی ہے
Li Auto کے CEO، Li Xiang نے پہلی بار دسمبر میں AI Talk کے پہلے سیزن میں VLA کا ذکر کیا، جو Tencent News کے چیف ٹیکنالوجی رائٹر، Zhang Xiaojun کے ساتھ گفتگو میں تھا۔ اس وقت انہوں نے کہا:
Li Auto Companion اور خود مختار ڈرائیونگ کے ساتھ ہم جو کچھ کر رہے ہیں وہ درحقیقت صنعتی معیارات کے مطابق الگ ہے، اور یہ ابتدائی مراحل میں ہے۔ Mind GPT جو ہم کر رہے ہیں وہ درحقیقت ایک بڑا لسانی ماڈل ہے۔ خود مختار ڈرائیونگ جو ہم کر رہے ہیں، اسے ہم اندرونی طور پر رویے کی ذہانت کہتے ہیں، لیکن جیسا کہ Li Feifei (Stanford Lifetime Professor، سابق Google چیف سائنسدان) نے بیان کیا ہے، اسے مکانی ذہانت کہا جاتا ہے۔ جب آپ واقعی اسے بڑے پیمانے پر کریں گے تو آپ کو معلوم ہوگا کہ یہ دونوں ایک دن ضرور جڑیں گے۔ ہم اسے اندرونی طور پر VLA (Vision Language Action Model) کہتے ہیں۔
Li Xiang کا خیال ہے کہ بیس ماڈل ایک خاص لمحے میں یقینی طور پر VLA بن جائے گا۔ اس کی وجہ یہ ہے کہ لسانی ماڈل صرف زبان اور ادراک کے ذریعے سہ جہتی دنیا کو سمجھ سکتے ہیں، جو کہ واضح طور پر کافی نہیں ہے۔ "اسے واقعی ویکٹر پر مبنی ہونے کی ضرورت ہے، Diffusion (diffusion model) استعمال کرنا، اور دنیا کو سمجھنے کے لیے generative طریقے استعمال کرنا۔"
یہ کہا جا سکتا ہے کہ VLA کی پیدائش نہ صرف لسانی ذہانت اور مکانی ذہانت کو گہرائی سے مربوط کرنے کی ایک جرات مندانہ کوشش ہے، بلکہ Li Auto کی طرف سے "ذہین کار" کے تصور کی دوبارہ تشریح بھی ہے۔
Li Xiang نے آج رات کی AI Talk میں مزید وضاحت کی: "VLA ایک ڈرائیور بڑا ماڈل ہے، جو ایک انسانی ڈرائیور کی طرح کام کرتا ہے۔" یہ نہ صرف ایک ٹیکنالوجی ہے، بلکہ ایک ذہین شراکت دار بھی ہے جو صارفین کے ساتھ فطری طور پر بات چیت کر سکتا ہے اور آزادانہ فیصلے کر سکتا ہے۔
تو، VLA دراصل کیا ہے؟ اس کا بنیادی نکتہ درحقیقت بہت واضح ہے: بصری ادراک، قدرتی زبان کی تفہیم، اور ایکشن جنریشن کی صلاحیتوں کو مربوط کرکے، گاڑی ایک "ڈرائیور ایجنٹ" بن جاتی ہے جو لوگوں کے ساتھ بات چیت کر سکتی ہے اور اپنے فیصلے خود کر سکتی ہے۔
تصور کریں کہ آپ اپنی کار میں بیٹھے ہیں اور اتفاق سے کہتے ہیں، "میں آج تھوڑا تھکا ہوا ہوں، آہستہ ڈرائیو کریں،" اور گاڑی نہ صرف آپ کا مطلب سمجھے گی، بلکہ اپنی رفتار کو بھی ایڈجسٹ کرے گی اور یہاں تک کہ ایک ہموار راستہ بھی منتخب کرے گی۔ یہ فطری اور ہموار تعامل بالکل وہی ہے جو VLA حاصل کرنا چاہتا ہے۔ Li Xiang نے انکشاف کیا کہ تمام مختصر کمانڈز براہ راست گاڑی کے ذریعے پروسیس کی جاتی ہیں، جبکہ پیچیدہ کمانڈز کو کلاؤڈ بیسڈ 3.2 بلین پیرامیٹر ماڈل کے ذریعے پارس کیا جاتا ہے، جو کارکردگی اور ذہانت دونوں کو یقینی بناتا ہے۔
اس مقصد کو حاصل کرنا آسان نہیں ہے۔ VLA کی خاص بات یہ ہے کہ یہ بصارت، زبان اور عمل کے تین جہات کو جوڑتا ہے۔ صارف کی طرف سے ایک سادہ کمانڈ میں آس پاس کے ماحول کا حقیقی وقت میں ادراک، زبان کے ارادے کی درست تفہیم، اور ڈرائیونگ کے رویے کی فوری ایڈجسٹمنٹ شامل ہو سکتی ہے۔ یہ تینوں ناگزیر ہیں۔
اور VLA کی سب سے بڑی بات یہ ہے کہ یہ ان تینوں کو بغیر کسی رکاوٹ کے ایک ساتھ کام کرنے کی اجازت دیتا ہے۔
بصارت سے حقیقت تک، VLA کی R&D ایک نامعلوم علاقہ ہے۔ Li Xiang نے اعتراف کیا: "بصری اور ایکشن ڈیٹا کا حصول سب سے مشکل ہے۔ کوئی بھی کمپنی اس کی جگہ نہیں لے سکتی۔"
VLA کے تکنیکی پس منظر کو سمجھنے کے لیے، ہمیں Li Auto کی ذہین ڈرائیونگ کے ارتقاء کو بھی دیکھنا ہوگا۔
Li Xiang نے کہا کہ ابتدائی نظام "کیڑے کی سطح" کی ذہانت تھی، جس میں صرف لاکھوں پیرامیٹرز تھے، جو اصولوں اور اعلیٰ صحت سے متعلق نقشوں کے ذریعے چلائی جاتی تھی، اور پیچیدہ سڑک کے حالات کا سامنا کرنے پر بے بس تھی۔ بعد میں، اینڈ ٹو اینڈ آرکیٹیکچر اور بصری لسانی ماڈلز نے ٹیکنالوجی کو "میممل کی سطح" تک پہنچنے، نقشے پر انحصار سے چھٹکارا حاصل کرنے، اور ملک گیر نو-میپ NOA کو حقیقت بنانے کی اجازت دی۔
درحقیقت، اس قدم نے Li Auto کو پہلے ہی صنعت میں سب سے آگے کر دیا ہے، لیکن وہ واضح طور پر اس سے مطمئن نہیں ہیں۔ Li Xiang کے نقطہ نظر سے، VLA کا ظہور اس بات کی نشاندہی کرتا ہے کہ Li Auto کی ذہین ڈرائیونگ ٹیکنالوجی "انسانی ذہانت" کے ایک نئے مرحلے میں داخل ہو گئی ہے۔
پچھلے نظام کے مقابلے میں، VLA نہ صرف 3D جسمانی دنیا کو سمجھ سکتا ہے، بلکہ منطقی استدلال بھی انجام دے سکتا ہے اور یہاں تک کہ انسانی سطح کے قریب ڈرائیونگ کا رویہ بھی پیدا کر سکتا ہے۔
ایک سادہ مثال کے طور پر، فرض کریں کہ آپ ایک بھیڑ بھاڑ والی سڑک پر "گھومنے کے لیے کوئی جگہ تلاش کریں" کہتے ہیں، VLA میکانکی طور پر کمانڈ پر عمل نہیں کرے گا، بلکہ U-turn مکمل کرنے کے لیے سب سے مناسب وقت اور مقام تلاش کرنے کے لیے سڑک کے حالات، ٹریفک کے بہاؤ اور ٹریفک کے قوانین پر جامع طور پر غور کرے گا۔
Li Xiang نے کہا کہ VLA ڈیٹا تیار کرکے نئے منظرناموں کے مطابق تیزی سے ڈھل سکتا ہے، اور یہاں تک کہ تین دن کے اندر پہلی بار پیچیدہ سڑک کی مرمت کا سامنا کرنے پر بھی ردعمل کو بہتر بنا سکتا ہے۔ یہ لچک اور فیصلہ VLA کے بنیادی فوائد ہیں۔
Li Auto کا استاد DeepSeek ہے
VLA کی معاونت ایک پیچیدہ اور نفیس تکنیکی نظام ہے جسے Li Auto نے آزادانہ طور پر تیار کیا ہے۔ یہ نظام کار کو نہ صرف دنیا کو "سمجھنے" کی اجازت دیتا ہے، بلکہ ایک انسانی ڈرائیور کی طرح سوچنے اور عمل کرنے کی بھی اجازت دیتا ہے۔
سب سے پہلے 3D Gaussian نمائندگی ٹیکنالوجی ہے، جو 3D آبجیکٹ بنانے کے لیے بہت سے "Gaussian پوائنٹس" استعمال کرتی ہے۔ ہر پوائنٹ میں اپنی پوزیشن، رنگ اور سائز کی معلومات ہوتی ہے۔ یہ ٹیکنالوجی بڑے پیمانے پر حقیقی ڈیٹا کا استعمال کرتے ہوئے ایک طاقتور 3D مکانی تفہیم ماڈل کو تربیت دینے کے لیے خود نگرانی سیکھنے کا استعمال کرتی ہے۔ اس کے ساتھ، VLA آس پاس کی دنیا کو ایک انسان کی طرح "سمجھ" سکتا ہے، یہ جانتا ہے کہ رکاوٹیں کہاں ہیں اور قابل گزر علاقے کہاں ہیں۔
اگلا Mixture of Experts (MoE) آرکیٹیکچر ہے، جو ماہر نیٹ ورکس، گیٹنگ نیٹ ورکس اور کمبینرز پر مشتمل ہے۔ جب ماڈل پیرامیٹرز سینکڑوں ارب سے تجاوز کر جائیں گے، تو روایتی طریقہ ہر حساب میں تمام نیورونز کو حصہ لینے پر مجبور کرے گا، جو وسائل کا ضیاع ہے۔ MoE آرکیٹیکچر میں گیٹنگ نیٹ ورک مختلف کاموں کے مطابق مختلف ماہرین کو کال کرے گا تاکہ یہ یقینی بنایا جا سکے کہ ایکٹیویشن پیرامیٹرز میں نمایاں اضافہ نہیں ہوگا۔
اس کے بارے میں بات کرتے ہوئے، Li Xiang نے DeepSeek کی بھی تعریف کی:
DeepSeek انسانیت کے بہترین طریقوں کو استعمال کرتا ہے… جب وہ DeepSeek V3 کر رہے تھے، تو V3 بھی MoE تھا، ایک 671B ماڈل۔ مجھے لگتا ہے کہ MoE ایک بہت اچھا آرکیٹیکچر ہے۔ یہ ماہرین کے ایک گروپ کو اکٹھا کرنے کے مترادف ہے، اور ہر ایک ایک ماہر کی صلاحیت ہے۔
آخر میں، Li Auto نے Sparse Attention کو VLA میں متعارف کرایا، جس کا عام الفاظ میں مطلب یہ ہے کہ VLA خود بخود کلیدی علاقوں کی توجہ کے وزن کو ایڈجسٹ کرے گا، اس طرح اینڈ سائیڈ کی انفرنس کارکردگی کو بہتر بنایا جائے گا۔
Li Xiang نے کہا کہ اس نئے بیس ماڈل کی تربیتی عمل میں، Li Auto کے انجینئرز نے بہترین ڈیٹا تناسب تلاش کرنے، 3D ڈیٹا اور خود مختار ڈرائیونگ سے متعلقہ ٹیکسٹ اور امیج ڈیٹا کی بڑی مقدار کو مربوط کرنے اور ادبی اور تاریخی ڈیٹا کے تناسب کو کم کرنے میں بہت وقت صرف کیا۔
ادراک سے لے کر فیصلہ سازی تک، VLA انسانی سوچ کے تیز اور سست امتزاج موڈ پر مبنی ہے۔ یہ فوری طور پر سادہ ایکشن فیصلے جاری کر سکتا ہے، جیسے کہ ہنگامی صورتحال سے بچنا، اور زیادہ پیچیدہ منظرناموں سے نمٹنے کے لیے مختصر سوچ کے سلسلے کو بھی استعمال کر سکتا ہے، جیسے کہ عارضی طور پر تعمیراتی علاقے کو نظرانداز کرنے کے لیے ایک راستہ منصوبہ بنانا۔ ریئل ٹائم کارکردگی کو مزید بہتر بنانے کے لیے، VLA نے قیاس آرائی پر مبنی استدلال اور متوازی ڈیکوڈنگ ٹیکنالوجی بھی متعارف کرائی، گاڑی کی طرف چپ کی کمپیوٹنگ پاور کا مکمل استعمال کرتے ہوئے اس بات کو یقینی بنایا کہ فیصلہ سازی کا عمل تیز اور افراتفری سے پاک ہو۔
ڈرائیونگ کا رویہ تیار کرتے وقت، VLA Diffusion ماڈلز اور Reinforcement Learning from Human Feedback (RLHF) کا استعمال کرتا ہے۔ Diffusion ماڈل بہتر ڈرائیونگ ٹریجیکٹریز تیار کرنے کا ذمہ دار ہے، جبکہ RLHF ان ٹریجیکٹریز کو انسانی عادات کے قریب تر بناتا ہے، جو محفوظ اور آرام دہ دونوں ہیں۔ مثال کے طور پر، VLA موڑتے وقت خود بخود سست ہو جائے گا، یا لین کو ضم کرتے وقت کافی محفوظ فاصلہ چھوڑ دے گا۔ یہ تفصیلات انسانی ڈرائیونگ کے رویے کی گہری سیکھنے کی عکاسی کرتی ہیں۔
ورلڈ ماڈل ایک اور کلیدی ٹیکنالوجی ہے۔ Li Auto منظر کی تعمیر نو اور جنریشن کے ذریعے کمک سیکھنے کے لیے ایک اعلیٰ معیار کا ورچوئل ماحول فراہم کرتا ہے۔ Li Xiang نے انکشاف کیا کہ ورلڈ ماڈل نے تصدیق کے اخراجات کو 10,000 کلومیٹر فی 170,000-180,000 یوآن سے کم کرکے 4,000 یوآن کر دیا ہے۔ یہ VLA کو نقلی میں مسلسل بہتر بنانے اور پیچیدہ منظرناموں سے آسانی سے نمٹنے کی اجازت دیتا ہے۔
ٹریننگ کی بات کرتے ہوئے، VLA کی ترقی کا عمل بھی کافی منظم ہے۔ پورے عمل کو تین مراحل میں تقسیم کیا گیا ہے: پری ٹریننگ، پوسٹ ٹریننگ اور کمک سیکھنا۔ Li Xiang نے کہا: "پری ٹریننگ علم سیکھنے کی طرح ہے، پوسٹ ٹریننگ ڈرائیونگ اسکول میں ڈرائیونگ سیکھنے کی طرح ہے، اور کمک سیکھنا سماجی مشق کی طرح ہے۔"
پری ٹریننگ کے مرحلے میں، Li Auto نے VLA کے لیے ایک بصری لسانی بیس ماڈل بنایا، جس میں بھرپور 3D بصری ڈیٹا، 2D ہائی ڈیفینیشن تصاویر، اور ڈرائیونگ سے متعلقہ کارپورا بھرے، جس سے اسے پہلے "دیکھنے" اور "سننے" کی اجازت دی گئی۔ ٹریننگ کے بعد، ایکشن ماڈیول شامل کیا جاتا ہے، جو 4-8 سیکنڈ کی ڈرائیونگ ٹریجیکٹریز تیار کرتا ہے، اور ماڈل 3.2 بلین پیرامیٹرز سے بڑھ کر 4 بلین ہو جاتا ہے۔
کمک سیکھنے کو دو مراحل میں تقسیم کیا گیا ہے: پہلے، انسانی عادات کو ہم آہنگ کرنے، ٹیک اوور ڈیٹا کا تجزیہ کرنے اور حفاظت اور آرام کو یقینی بنانے کے لیے RLHF کا استعمال کریں۔ پھر، G-value (آرام)، تصادم اور ٹریفک کے قوانین کی رائے کی بنیاد پر، بہتر بنانے کے لیے خالص کمک سیکھنے کا استعمال کریں، تاکہ VLA "انسانوں سے بہتر ڈرائیو کرے۔" Li Xiang نے ذکر کیا کہ یہ مرحلہ ورلڈ ماڈل میں مکمل کیا گیا ہے، حقیقی ٹریفک کے منظرناموں کی نقل کرتے ہوئے، اور کارکردگی روایتی تصدیق سے کہیں بہتر ہے۔
یہ تربیتی طریقہ نہ صرف تکنیکی ترقی کی ضمانت دیتا ہے، بلکہ عملی ایپلی کیشنز میں VLA کو کافی حد تک قابل اعتماد بھی بناتا ہے۔
Li Xiang نے اعتراف کیا کہ VLA کی کامیابی صنعتی معیارات کی ترغیب سے الگ نہیں ہے۔ DeepSeek کے MoE آرکیٹیکچر نے نہ صرف تربیتی کارکردگی کو بہتر بنایا، بلکہ Li Auto کے لیے بھی قیمتی تجربہ فراہم کیا۔ انہوں نے افسوس کا اظہار کیا: "ہم بڑے بڑے لوگوں کے کندھوں پر کھڑے ہیں اور VLA کی R&D کو تیز کر رہے ہیں۔" یہ کھلا سیکھنے والا رویہ Li Auto کو کسی کے زیر قبضہ نہ ہونے والی زمین میں مزید آگے جانے کی اجازت دیتا ہے۔
"معلوماتی ٹولز" سے "پروڈکشن ٹولز" تک
اس وقت، AI انڈسٹری "معلوماتی ٹولز" سے "پروڈکشن ٹولز" میں گہری تبدیلی سے گزر رہی ہے۔ بڑے ماڈل ٹیکنالوجی کی پختگی کے ساتھ، AI اب صرف ڈیٹا پر کارروائی کرنے اور تجاویز فراہم کرنے تک محدود نہیں ہے، بلکہ آزادانہ فیصلے کرنے اور کام انجام دینے کی صلاحیت بھی رکھتا ہے۔
Li Xiang نے AI Talk کے دوسرے سیزن میں تجویز پیش کی کہ AI کو معلوماتی ٹولز (جیسے سرچ)، معاون ٹولز (جیسے وائس نیویگیشن) اور پروڈکشن ٹولز میں تقسیم کیا جا سکتا ہے۔ انہوں نے زور دیا: "مصنوعی ذہانت کا پروڈکشن ٹول بننا سچی وبا کا لمحہ ہے۔" بڑے ماڈل ٹیکنالوجی کی پختگی کے ساتھ، AI اب صرف ڈیٹا پر کارروائی کرنے تک محدود نہیں ہے، بلکہ آزادانہ فیصلے کرنے اور کام انجام دینے کی صلاحیت بھی رکھتا ہے۔
یہ رجحان خاص طور پر "مجسم ذہانت" کے تصور میں واضح ہے - AI سسٹمز کو جسمانی ادارے دیے جاتے ہیں، جو ماحول کو محسوس کرنے، سمجھنے اور اس کے ساتھ تعامل کرنے کے قابل ہوتے ہیں۔
Li Auto کا VLA ماڈل اس رجحان کی ایک واضح مشق ہے۔ بصارت، زبان اور ایکشن انٹیلی جنس کو مربوط کرکے، یہ کار کو ایک ذہین ایجنٹ میں تبدیل کر دیتا ہے جو خود مختار طور پر ڈرائیو کر سکتا ہے اور صارفین کے ساتھ فطری طور پر تعامل کر سکتا ہے، "مجسم ذہانت" کے بنیادی تصور کی مکمل طور پر تشریح کرتا ہے۔
جب تک انسان پیشہ ور ڈرائیوروں کو ملازمت دیتے ہیں، مصنوعی ذہانت ایک پروڈکشن ٹول بن سکتی ہے۔ جب AI ایک پروڈکشن ٹول بن جاتا ہے، تو مصنوعی ذہانت واقعی پھٹ جائے گی۔
Li Xiang کے ریمارکس نے VLA کی بنیادی قدر کو واضح کیا - یہ اب ایک سادہ معاون ٹول نہیں ہے، بلکہ ایک "ڈرائیور ایجنٹ" ہے جو آزادانہ طور پر کام انجام دے سکتا ہے اور ذمہ داریاں قبول کر سکتا ہے۔ یہ تبدیلی نہ صرف کاروں کی عملی قدر کو بہتر بناتی ہے، بلکہ AI کے دیگر شعبوں میں اطلاق کے لیے تخیل کی جگہ بھی کھولتی ہے۔
AI پر Li Xiang کی سوچ میں ہمیشہ ایک ایسا نقطہ نظر ہوتا ہے جو باکس سے باہر نکلتا ہے۔ انہوں نے یہ بھی ذکر کیا: "VLA ایک اچانک تبدیلی کا عمل نہیں ہے، بلکہ ایک ارتقائی عمل ہے۔" یہ جملہ Li Auto کے تکنیکی راستے کا درست خلاصہ کرتا ہے -
ابتدائی اصول پر مبنی، سے اینڈ ٹو اینڈ پیش رفت، آج کے VLA کی "انسانی ذہانت" کی سطح تک۔ یہ ارتقائی سوچ نہ صرف VLA کو ٹیکنالوجی میں زیادہ قابل عمل بناتی ہے، بلکہ صنعت کے لیے ایک حوالہ پیراڈم بھی فراہم کرتی ہے۔ کچھ کوششوں کے مقابلے میں جو اندھا دھند تخریب کاری کا پیچھا کرتی ہیں، Li Auto کا عملی راستہ پیچیدہ چینی مارکیٹ کے لیے زیادہ موزوں ہو سکتا ہے۔
ٹیکنالوجی سے لے کر عقیدے تک، Li Auto کی AI کی تلاش آسان نہیں ہے۔ Li Xiang نے اعتراف کیا: "ہم نے AI کے میدان میں بہت سے چیلنجوں کا سامنا کیا ہے، جیسے کہ طلوع فجر سے پہلے اندھیرا، لیکن ہم مانتے ہیں کہ اگر ہم ثابت قدم رہیں تو ہم روشنی دیکھیں گے۔" VLA کی R&D کو کمپیوٹنگ پاور کی رکاوٹوں اور ڈیٹا اخلاقیات جیسے مسائل کا سامنا ہے، لیکن Li Auto نے آہستہ آہستہ خود تیار کردہ بیس ماڈلز اور ورلڈ ماڈلز کے ذریعے اپنی تکنیکی فجر کا آغاز کیا ہے۔
Li Xiang نے انٹرویو میں یہ بھی ذکر کیا کہ VLA کی کامیابی چینی AI کے عروج سے الگ نہیں ہے۔
انہوں نے کہا کہ DeepSeek اور Tongyi Qianwen جیسے ماڈلز کے ظہور نے چین کی AI کی سطح کو تیزی سے امریکہ کے قریب کر دیا ہے۔ ان میں، DeepSeek کے ذریعہ برقرار رکھا گیا اوپن سورس جذبہ خاص طور پر حوصلہ افزا ہے، جس نے براہ راست Li Auto کو Xinghuan OS کو اوپن سورس کرنے پر آمادہ کیا۔ Li Xiang نے کہا: "یہ کمپنی کی اسٹریٹجک غور و فکر سے باہر نہیں ہے۔ DeepSeek نے ہماری اتنی مدد کی ہے، ہمیں معاشرے میں کچھ حصہ ڈالنا چاہیے۔"
تکنیکی پیش رفت کے حصول کے دوران، Li Auto نے AI ٹیکنالوجی کے حفاظت اور اخلاقی مسائل کو نظرانداز نہیں کیا۔ VLA کے ذریعہ متعارف کرائی گئی "سپر الائنمنٹ" ٹیکنالوجی Reinforcement Learning from Human Feedback (RLHF) کے ذریعے ماڈل کے رویے کو انسانی عادات کے قریب تر بناتی ہے۔ اعداد و شمار سے پتہ چلتا ہے کہ VLA کے اطلاق نے تیز رفتار MPI (اوسط مداخلت مائلیج) کو 240km سے بڑھا کر 300km کر دیا ہے۔
زیادہ اہم بات یہ ہے کہ Li Auto "انسانی اقدار کے ساتھ AI" بنانے پر زور دیتا ہے اور اخلاقیات اور اعتماد کو تکنیکی ترقی کی بنیاد سمجھتا ہے۔ ایک زیادہ میکرو نقطہ نظر سے، VLA کی اہمیت اس میں مضمر ہے کہ یہ کار کمپنیوں کے کردار کی ازسرنو تعریف کرتا ہے۔
ماضی میں، کاریں صنعتی دور کی نقل و حمل کے ذرائع تھیں۔ آج، وہ مصنوعی ذہانت کے دور میں "مکانی روبوٹ" میں تبدیل ہو رہی ہیں۔ Li Xiang نے AI Talk میں ذکر کیا: "Li Auto پہلے کاروں کی کسی کے زیر قبضہ نہ ہونے والی زمین میں چلتا تھا، اور مستقبل میں مصنوعی ذہانت کی کسی کے زیر قبضہ نہ ہونے والی زمین میں چلے گا۔" Li Auto کی یہ تبدیلی آٹوموٹو صنعت کے کاروباری ماڈل میں تخیل کی نئی جگہ لاتی ہے۔
بلاشبہ، VLA کی ترقی بغیر چیلنجوں کے نہیں ہے۔ کمپیوٹنگ پاور کی مسلسل سرمایہ کاری، ڈیٹا اخلاقیات، اور خود مختار ڈرائیونگ میں صارفین کے اعتماد کا قیام وہ تمام مسائل ہیں جن کا Li Auto کو سامنا کرنا پڑے گا۔ اس کے علاوہ، AI انڈسٹری میں مقابلہ تیزی سے شدید ہوتا جا رہا ہے۔ Tesla، Waymo اور OpenAI جیسے ملکی اور غیر ملکی جنات ملٹی موڈل ماڈلز کی ترتیب کو تیز کر رہے ہیں۔ Li Auto کو تکنیکی تکرار اور مارکیٹ پروموشن میں اپنی سرکردہ پوزیشن برقرار رکھنے کی ضرورت ہے۔ Li Xiang نے کہا: "ہمارے پاس کوئی شارٹ کٹ نہیں ہے، ہم صرف گہری کاشتکاری کر سکتے ہیں۔"
بلاشبہ، VLA کی لینڈنگ ایک کلیدی نوڈ ہوگی۔
Li Auto کا منصوبہ ہے کہ VLA کو خالص برقی SUV Li Auto i8 کے ساتھ جولائی 2025 میں بیک وقت جاری کیا جائے، اور 2026 میں بڑے پیمانے پر پیداوار حاصل کی جائے۔ یہ نہ صرف ٹیکنالوجی کا ایک جامع امتحان ہے، بلکہ مارکیٹ کے لیے بھی ایک اہم امتحان ہے۔