در کنفرانس بهاره GTC 2025 انویدیا (NVIDIA)، جیا پنگ، رئیس تحقیق و توسعه فناوری رانندگی خودران در Li Auto، از آخرین دستاورد خود، مدل بزرگ MindVLA، پرده برداشت.
این مدل یک مدل دیداری-زبانی-عملی (VLA) با ۲.۲ میلیارد پارامتر است. جیا پنگ در ادامه اظهار داشت که آنها با موفقیت این مدل را در خودروها مستقر کردهاند. Li Auto بر این باور است که مدلهای VLA مؤثرترین روش برای حل چالشهای تعامل هوش مصنوعی با دنیای فیزیکی هستند.
در طول سال گذشته، معماری end-to-end به یک نقطه کانونی فناوری در زمینه رانندگی هوشمند تبدیل شده و شرکتهای خودروسازی را به سمت تغییر از طراحی قانونمدار ماژولار سنتی به سیستمهای یکپارچه سوق داده است. شرکتهای خودروسازی که پیش از این با الگوریتمهای مبتنی بر قانون پیشتاز بودند، با دردهای انتقالی مواجه هستند، در حالی که تازهواردها از این فرصت برای کسب مزیت رقابتی استفاده کردهاند.
Li Auto نمونه بارز این موضوع است.
پیشرفت Li Auto در رانندگی هوشمند در سال گذشته را میتوان به سرعت برقآسا توصیف کرد. در ماه ژوئیه، این شرکت در دستیابی به NOA (Navigation on Autopilot) بدون نقشه در سطح ملی پیشگام شد و یک معماری منحصر به فرد "end-to-end (سیستم سریع) + VLM (سیستم کند)" را راهاندازی کرد که توجه گستردهای را در صنعت به خود جلب کرده است.
امشب، با فصل دوم Li Auto AI Talk، درک عمیقتری از آنچه لی زیانگ (Li Xiang) به عنوان یک "شرکت هوش مصنوعی" از آن یاد میکند، به دست آوردهایم.
"مدل بزرگ راننده" راننده شما نیز هست
لی زیانگ، مدیرعامل Li Auto، برای اولین بار در فصل اول AI Talk در دسامبر گذشته، در گفتگویی با ژانگ شیائوجون (Zhang Xiaojun)، نویسنده ارشد فناوری Tencent News، به VLA اشاره کرد. در آن زمان، او گفت:
کاری که ما با Li Auto Companion و رانندگی خودران انجام میدهیم، در واقع مطابق با استانداردهای صنعت جداگانه است و در مراحل اولیه قرار دارد. Mind GPT که ما در حال انجام آن هستیم، در واقع یک مدل زبانی بزرگ است. رانندگی خودرانی که ما انجام میدهیم، در داخل شرکت آن را هوش رفتاری مینامیم، اما همانطور که لی فیفی (Li Feifei) (استاد مادام العمر استنفورد، دانشمند ارشد سابق گوگل) تعریف کرده است، آن را هوش فضایی مینامند. تنها زمانی که واقعاً آن را در مقیاس بزرگ انجام دهید، متوجه خواهید شد که این دو قطعاً روزی به هم متصل خواهند شد. ما در داخل شرکت آن را VLA (مدل دیداری-زبانی-عملی) مینامیم.
لی زیانگ بر این باور است که مدل پایه قطعاً در لحظهای خاص به VLA تبدیل خواهد شد. دلیل آن این است که مدلهای زبانی تنها میتوانند دنیای سه بعدی را از طریق زبان و شناخت درک کنند، که بدیهی است کافی نیست. "آن باید واقعاً مبتنی بر بردار باشد، از Diffusion (مدل انتشار) استفاده کند و از روشهای مولد (برای درک جهان) استفاده کند."
میتوان گفت که تولد VLA نه تنها یک تلاش جسورانه برای ادغام عمیق هوش زبانی و هوش فضایی است، بلکه تفسیری مجدد از مفهوم "خودروی هوشمند" توسط Li Auto نیز به شمار میرود.
لی زیانگ در AI Talk امشب تعریف جامعتری ارائه داد: "VLA یک مدل بزرگ راننده است و مانند یک راننده انسانی کار میکند." این نه تنها یک فناوری، بلکه یک شریک هوشمند است که میتواند به طور طبیعی با کاربران ارتباط برقرار کند و تصمیمات مستقلی اتخاذ کند.
بنابراین، VLA دقیقاً چیست؟ هسته اصلی آن بسیار ساده است: با ادغام ادراک بصری، درک زبان طبیعی و قابلیتهای تولید عمل، خودرو به یک "نماینده راننده" تبدیل میشود که میتواند با مردم ارتباط برقرار کند و تصمیمات خود را بگیرد.
تصور کنید در ماشین خود نشستهاید و به طور اتفاقی میگویید: "امروز کمی خستهام، آهستهتر رانندگی کن" و خودرو نه تنها منظور شما را درک میکند، بلکه سرعت خود را تنظیم میکند و حتی مسیر هموارتری را انتخاب میکند. این تعامل طبیعی و روان دقیقاً همان چیزی است که VLA میخواهد به آن دست یابد. لی زیانگ فاش کرد که تمام دستورات کوتاه مستقیماً توسط خودرو پردازش میشوند، در حالی که دستورات پیچیده توسط مدل ۳.۲ میلیارد پارامتری مبتنی بر ابر تجزیه و تحلیل میشوند و هم کارایی و هم هوش را تضمین میکنند.
رسیدن به این هدف آسان نیست. نکته خاص در مورد VLA این است که سه بعد دید، زبان و عمل را به هم متصل میکند. یک دستور ساده از کاربر ممکن است شامل ادراک بیدرنگ محیط اطراف، درک دقیق منظور زبان و تنظیم سریع رفتار رانندگی باشد. هر سه مورد ضروری هستند.
و نکته جالب در مورد VLA این است که به این سه اجازه میدهد تا به طور یکپارچه با هم کار کنند.
از دید به واقعیت، تحقیق و توسعه VLA یک قلمرو ناشناخته است. لی زیانگ اعتراف کرد: "به دست آوردن دادههای بصری و عملی دشوارترین کار است. هیچ شرکتی نمیتواند جایگزین آن شود."
برای درک پیشینه فنی VLA، باید به تکامل رانندگی هوشمند Li Auto نیز نگاهی بیندازیم.
لی زیانگ گفت که سیستم اولیه یک هوش "در سطح حشره" بود که تنها میلیونها پارامتر داشت، با قوانین و نقشههای با دقت بالا هدایت میشد و هنگام مواجهه با شرایط جادهای پیچیده درمانده بود. بعداً، معماری end-to-end و مدلهای دیداری-زبانی به این فناوری اجازه دادند تا به "سطح پستاندار" جهش کند، از وابستگی به نقشه رها شود و NOA بدون نقشه در سراسر کشور به واقعیت تبدیل شود.
در واقع، این گام قبلاً Li Auto را در خط مقدم صنعت قرار داده است، اما آنها ظاهراً از این راضی نیستند. از دیدگاه لی زیانگ، ظهور VLA نشان میدهد که فناوری رانندگی هوشمند Li Auto وارد مرحله جدیدی از "هوش انسانی" شده است.
در مقایسه با سیستم قبلی، VLA نه تنها میتواند دنیای فیزیکی سه بعدی را درک کند، بلکه میتواند استدلال منطقی انجام دهد و حتی رفتارهای رانندگی نزدیک به سطح انسان را تولید کند.
به عنوان یک مثال ساده، فرض کنید در یک خیابان شلوغ میگویید "مکانی برای دور زدن پیدا کن"، VLA به طور مکانیکی دستور را اجرا نمیکند، بلکه شرایط جاده، جریان ترافیک و قوانین راهنمایی و رانندگی را به طور جامع در نظر میگیرد تا معقولترین زمان و مکان را برای تکمیل دور زدن پیدا کند.
لی زیانگ گفت که VLA میتواند با تولید دادهها به سرعت با سناریوهای جدید سازگار شود و حتی در مواجهه با تعمیرات پیچیده جادهای برای اولین بار در عرض سه روز پاسخها را بهینه کند. این انعطافپذیری و قضاوت مزایای اصلی VLA هستند.
معلم Li Auto دیپسیک (DeepSeek) است
پشتیبانی از VLA یک سیستم فنی پیچیده و پیشرفته است که به طور مستقل توسط Li Auto توسعه یافته است. این سیستم به خودرو اجازه میدهد نه تنها جهان را "درک کند"، بلکه مانند یک راننده انسانی فکر و عمل کند.
اولین مورد، فناوری نمایش گاوسی سه بعدی است که از تعداد زیادی "نقاط گاوسی" برای ایجاد یک شی سه بعدی استفاده میکند. هر نقطه حاوی موقعیت، رنگ و اطلاعات اندازه خود است. این فناوری از یادگیری خود نظارتی برای آموزش یک مدل قدرتمند درک فضایی سه بعدی با استفاده از دادههای واقعی گسترده استفاده میکند. با آن، VLA میتواند مانند یک انسان دنیای اطراف را "درک کند" و بداند موانع کجا هستند و مناطق قابل عبور کجا هستند.
بعد معماری ترکیب خبرگان (MoE) است که از شبکههای متخصص، شبکههای دروازهبانی و ترکیب کنندهها تشکیل شده است. هنگامی که پارامترهای مدل از صدها میلیارد فراتر میرود، روش سنتی باعث میشود که همه نورونها در هر محاسبه شرکت کنند، که یک اتلاف منابع است. شبکه دروازهبانی در معماری MoE متخصصان مختلف را با توجه به وظایف مختلف فراخوانی میکند تا اطمینان حاصل شود که پارامترهای فعالسازی به طور قابل توجهی افزایش نمییابند.
لی زیانگ در این مورد صحبت کرد و از دیپسیک تمجید کرد:
دیپسیک از بهترین روشهای بشریت استفاده میکند… هنگامی که آنها در حال انجام DeepSeek V3 بودند، V3 نیز یک MoE بود، یک مدل ۶۷۱B. من فکر میکنم MoE یک معماری بسیار خوب است. معادل ترکیب یک دسته از متخصصان با هم است و هر یک یک توانایی متخصص هستند.
در نهایت، Li Auto توجه پراکنده را به VLA معرفی کرد، که به زبان ساده به این معنی است که VLA به طور خودکار وزنهای توجه مناطق کلیدی را تنظیم میکند و در نتیجه کارایی استنتاج سمت انتهایی را بهبود میبخشد.
لی زیانگ گفت که در فرآیند آموزش این مدل پایه جدید، مهندسان Li Auto زمان زیادی را صرف یافتن بهترین نسبت داده، ادغام مقدار زیادی از دادههای سه بعدی و دادههای متنی و تصویری مربوط به رانندگی خودران و کاهش نسبت دادههای ادبی و تاریخی کردند.
از ادراک تا تصمیمگیری، VLA از حالت ترکیبی سریع و آهسته تفکر انسان استفاده میکند. این میتواند به سرعت تصمیمات عملی ساده مانند اجتناب اضطراری را خروجی دهد و همچنین میتواند از زنجیرههای تفکر کوتاه برای "آهسته فکر کردن" برای مقابله با سناریوهای پیچیدهتر مانند برنامهریزی موقت یک مسیر برای دور زدن منطقه ساخت و ساز استفاده کند. به منظور بهبود بیشتر عملکرد بیدرنگ، VLA همچنین استدلال سفتهبازی و فناوری رمزگشایی موازی را معرفی کرد و از قدرت محاسباتی تراشه سمت خودرو به طور کامل استفاده کرد تا اطمینان حاصل شود که فرآیند تصمیمگیری سریع و بدون آشفتگی است.
هنگام تولید رفتار رانندگی، VLA از مدلهای انتشار و یادگیری تقویتی از بازخورد انسانی (RLHF) استفاده میکند. مدل انتشار مسئول تولید مسیرهای رانندگی بهینه است، در حالی که RLHF این مسیرها را به عادات انسانی نزدیکتر میکند، هم ایمن و هم راحت. به عنوان مثال، VLA هنگام چرخیدن به طور خودکار سرعت خود را کم میکند یا هنگام ادغام خطوط، فاصله ایمن کافی را باقی میگذارد. این جزئیات منعکس کننده یادگیری عمیق رفتار رانندگی انسان است.
مدل جهانی یکی دیگر از فناوریهای کلیدی است. Li Auto یک محیط مجازی با کیفیت بالا برای یادگیری تقویتی از طریق بازسازی صحنه و تولید فراهم میکند. لی زیانگ فاش کرد که مدل جهانی هزینه تأیید را از ۱۷۰۰۰۰-۱۸۰۰۰۰ یوان در هر ۱۰۰۰۰ کیلومتر به ۴۰۰۰ یوان کاهش داده است. این به VLA اجازه میدهد تا به طور مداوم در شبیهسازی بهینه شود و با سهولت با سناریوهای پیچیده مقابله کند.
در مورد آموزش، روند رشد VLA نیز کاملاً سازمان یافته است. کل فرآیند به سه مرحله تقسیم میشود: پیش آموزش، پس آموزش و یادگیری تقویتی. لی زیانگ گفت: "پیش آموزش مانند یادگیری دانش است، پس آموزش مانند یادگیری رانندگی در یک آموزشگاه رانندگی است و یادگیری تقویتی مانند تمرین اجتماعی است."
در مرحله پیش آموزش، Li Auto یک مدل پایه دیداری-زبانی برای VLA ایجاد کرد و آن را با دادههای بصری سه بعدی غنی، تصاویر با کیفیت بالا دو بعدی و پیکرههای مربوط به رانندگی پر کرد و به آن اجازه داد ابتدا "دیدن" و "شنیدن" را یاد بگیرد. پس از آموزش، ماژول عمل اضافه میشود، مسیرهای رانندگی ۴-۸ ثانیهای تولید میشود و مدل از ۳.۲ میلیارد پارامتر به ۴ میلیارد پارامتر گسترش مییابد.
یادگیری تقویتی به دو مرحله تقسیم میشود: ابتدا از RLHF برای همسویی عادات انسانی، تجزیه و تحلیل دادههای تصاحب و اطمینان از ایمنی و راحتی استفاده کنید. سپس، از یادگیری تقویتی خالص برای بهینهسازی، بر اساس مقدار G (راحتی)، برخورد و بازخورد قوانین راهنمایی و رانندگی استفاده کنید تا VLA "بهتر از انسان رانندگی کند." لی زیانگ اشاره کرد که این مرحله در مدل جهانی تکمیل میشود، سناریوهای ترافیکی واقعی را شبیهسازی میکند و کارایی بسیار بهتر از تأیید سنتی است.
این روش آموزشی نه تنها پیشرفت فنی را تضمین میکند، بلکه VLA را در کاربردهای عملی به اندازه کافی قابل اعتماد میکند.
لی زیانگ اعتراف کرد که موفقیت VLA جدایی ناپذیر از الهامگیری از معیارهای صنعت است. معماری MoE دیپسیک نه تنها کارایی آموزش را بهبود بخشید، بلکه تجربه ارزشمندی را برای Li Auto فراهم کرد. او ابراز تاسف کرد: "ما روی شانههای غولها ایستادهایم و تحقیق و توسعه VLA را تسریع میکنیم." این نگرش یادگیری باز به Li Auto اجازه میدهد تا در سرزمین بیصاحب پیشروی کند.
از "ابزارهای اطلاعاتی" تا "ابزارهای تولید"
در حال حاضر، صنعت هوش مصنوعی در حال یک تحول عمیق از "ابزارهای اطلاعاتی" به "ابزارهای تولید" است. با بلوغ فناوری مدل بزرگ، هوش مصنوعی دیگر محدود به پردازش دادهها و ارائه پیشنهادات نیست، بلکه شروع به داشتن توانایی تصمیمگیری مستقل و انجام وظایف میکند.
لی زیانگ در فصل دوم AI Talk پیشنهاد کرد که هوش مصنوعی را میتوان به ابزارهای اطلاعاتی (مانند جستجو)، ابزارهای کمکی (مانند مسیریابی صوتی) و ابزارهای تولید تقسیم کرد. او تأکید کرد: "هوش مصنوعی که به یک ابزار تولید تبدیل میشود، لحظه شیوع واقعی است." با بلوغ فناوری مدل بزرگ، هوش مصنوعی دیگر محدود به پردازش دادهها نیست، بلکه شروع به داشتن توانایی تصمیمگیری مستقل و انجام وظایف میکند.
این روند به ویژه در مفهوم "هوش تجسم یافته" مشهود است - سیستمهای هوش مصنوعی موجودیتهای فیزیکی داده میشوند که قادر به حس کردن، درک و تعامل با محیط هستند.
مدل VLA Li Auto یک تمرین زنده از این روند است. با ادغام هوش دید، زبان و عمل، خودرو را به یک عامل هوشمند تبدیل میکند که میتواند به طور مستقل رانندگی کند و به طور طبیعی با کاربران تعامل داشته باشد و به طور کامل مفهوم اصلی "هوش تجسم یافته" را تفسیر کند.
تا زمانی که انسانها رانندگان حرفهای استخدام کنند، هوش مصنوعی میتواند به یک ابزار تولید تبدیل شود. هنگامی که هوش مصنوعی به یک ابزار تولید تبدیل شود، هوش مصنوعی واقعاً منفجر خواهد شد.
اظهارات لی زیانگ ارزش اصلی VLA را روشن کرد - این دیگر یک ابزار کمکی ساده نیست، بلکه یک "عامل راننده" است که میتواند به طور مستقل وظایف را انجام دهد و مسئولیتها را بر عهده بگیرد. این تحول نه تنها ارزش عملی خودروها را بهبود میبخشد، بلکه فضای تخیلی را برای کاربرد هوش مصنوعی در زمینههای دیگر باز میکند.
تفکر لی زیانگ در مورد هوش مصنوعی همواره دارای چشماندازی است که از چارچوب خارج میشود. او همچنین اشاره کرد: "VLA یک فرآیند تغییر ناگهانی نیست، بلکه یک فرآیند تکاملی است." این جمله به طور دقیق مسیر فنی Li Auto را خلاصه میکند -
از رانندگی قانونمدار اولیه، تا پیشرفتهای end-to-end، تا سطح "هوش انسانی" VLA امروزی. این تفکر تکاملی نه تنها VLA را از نظر فناوری امکانپذیرتر میکند، بلکه یک الگوی مرجع برای صنعت ارائه میدهد. در مقایسه با برخی از تلاشهایی که به طور کورکورانه به دنبال براندازی هستند، مسیر عملگرایانه Li Auto ممکن است برای بازار پیچیده چین مناسبتر باشد.
از فناوری تا باور، اکتشاف هوش مصنوعی Li Auto هموار نیست. لی زیانگ اعتراف کرد: "ما چالشهای زیادی را در زمینه هوش مصنوعی تجربه کردهایم، مانند تاریکی قبل از سحر، اما ما معتقدیم که اگر استقامت کنیم، نور را خواهیم دید." تحقیق و توسعه VLA با مشکلاتی مانند گلوگاههای قدرت محاسباتی و اخلاق دادهها مواجه است، اما Li Auto به تدریج از طریق مدلهای پایه خود توسعه یافته و مدلهای جهانی خود طلوع فناوری خود را آغاز کرده است.
لی زیانگ همچنین در مصاحبه اشاره کرد که موفقیت VLA جدایی ناپذیر از ظهور هوش مصنوعی چین است.
او گفت که ظهور مدلهایی مانند DeepSeek و Tongyi Qianwen سطح هوش مصنوعی چین را به سرعت به ایالات متحده نزدیک کرده است. در میان آنها، روحیه منبع باز که توسط DeepSeek حمایت میشود به ویژه دلگرم کننده است، که به طور مستقیم باعث شد Li Auto سیستم عامل Xinghuan OS را منبع باز کند. لی زیانگ گفت: "این خارج از ملاحظات استراتژیک شرکت نیست. DeepSeek کمک زیادی به ما کرده است، ما باید چیزی به جامعه کمک کنیم."
در حالی که Li Auto به دنبال پیشرفتهای فناوری است، مسائل ایمنی و اخلاقی فناوری هوش مصنوعی را نادیده نگرفته است. فناوری "همسویی فوق العاده" که توسط VLA معرفی شده است، رفتار مدل را از طریق یادگیری تقویتی از بازخورد انسانی (RLHF) به عادات انسانی نزدیکتر میکند. دادهها نشان میدهد که استفاده از VLA MPI با سرعت بالا (میانگین مسافت پیموده شده مداخله) را از ۲۴۰ کیلومتر به ۳۰۰ کیلومتر افزایش داده است.
مهمتر از آن، Li Auto بر ساخت "هوش مصنوعی با ارزشهای انسانی" تأکید دارد و اخلاق و اعتماد را به عنوان سنگ بنای توسعه فناوری در نظر میگیرد. از دیدگاه کلانتر، اهمیت VLA در این است که نقش شرکتهای خودروسازی را دوباره تعریف میکند.
در گذشته، خودروها وسایل حمل و نقل عصر صنعتی بودند. امروزه، آنها در حال تکامل به "رباتهای فضایی" در عصر هوش مصنوعی هستند. لی زیانگ در AI Talk اشاره کرد: "Li Auto در گذشته در سرزمین بیصاحب خودروها قدم میزد و در آینده در سرزمین بیصاحب هوش مصنوعی قدم خواهد زد." این تحول Li Auto فضای تخیلی جدیدی را برای مدل کسب و کار صنعت خودرو به ارمغان میآورد.
البته، توسعه VLA بدون چالش نیست. سرمایه گذاری مداوم قدرت محاسباتی، اخلاق دادهها و ایجاد اعتماد مصرف کننده به رانندگی خودران، همگی مسائلی هستند که Li Auto باید با آنها روبرو شود. علاوه بر این، رقابت در صنعت هوش مصنوعی به طور فزایندهای شدید میشود. غولهای داخلی و خارجی مانند تسلا (Tesla)، ویمو (Waymo) و اوپن ای آی (OpenAI) در حال تسریع چیدمان مدلهای چندوجهی هستند. Li Auto باید موقعیت پیشرو خود را در تکرار فناوری و ترویج بازار حفظ کند. لی زیانگ گفت: "ما هیچ میانبری نداریم، فقط میتوانیم عمیقاً کشت کنیم."
بدون شک، فرود VLA یک گره کلیدی خواهد بود.
Li Auto قصد دارد VLA را به طور همزمان با خودروی شاسی بلند برقی خالص Li Auto i8 در ژوئیه ۲۰۲۵ عرضه کند و در سال ۲۰۲۶ به تولید انبوه دست یابد. این نه تنها یک آزمایش جامع فناوری است، بلکه یک سنگ محک مهم برای بازار نیز به شمار میرود.