از تکامل حیوانات تا انسان: مدل بزرگ Li Auto

در کنفرانس بهاره GTC 2025 انویدیا (NVIDIA)، جیا پنگ، رئیس تحقیق و توسعه فناوری رانندگی خودران در Li Auto، از آخرین دستاورد خود، مدل بزرگ MindVLA، پرده برداشت.

این مدل یک مدل دیداری-زبانی-عملی (VLA) با ۲.۲ میلیارد پارامتر است. جیا پنگ در ادامه اظهار داشت که آنها با موفقیت این مدل را در خودروها مستقر کرده‌اند. Li Auto بر این باور است که مدل‌های VLA مؤثرترین روش برای حل چالش‌های تعامل هوش مصنوعی با دنیای فیزیکی هستند.

در طول سال گذشته، معماری end-to-end به یک نقطه کانونی فناوری در زمینه رانندگی هوشمند تبدیل شده و شرکت‌های خودروسازی را به سمت تغییر از طراحی قانون‌مدار ماژولار سنتی به سیستم‌های یکپارچه سوق داده است. شرکت‌های خودروسازی که پیش از این با الگوریتم‌های مبتنی بر قانون پیشتاز بودند، با دردهای انتقالی مواجه هستند، در حالی که تازه‌واردها از این فرصت برای کسب مزیت رقابتی استفاده کرده‌اند.

Li Auto نمونه بارز این موضوع است.

پیشرفت Li Auto در رانندگی هوشمند در سال گذشته را می‌توان به سرعت برق‌آسا توصیف کرد. در ماه ژوئیه، این شرکت در دستیابی به NOA (Navigation on Autopilot) بدون نقشه در سطح ملی پیشگام شد و یک معماری منحصر به فرد "end-to-end (سیستم سریع) + VLM (سیستم کند)" را راه‌اندازی کرد که توجه گسترده‌ای را در صنعت به خود جلب کرده است.

امشب، با فصل دوم Li Auto AI Talk، درک عمیق‌تری از آنچه لی زیانگ (Li Xiang) به عنوان یک "شرکت هوش مصنوعی" از آن یاد می‌کند، به دست آورده‌ایم.

"مدل بزرگ راننده" راننده شما نیز هست

لی زیانگ، مدیرعامل Li Auto، برای اولین بار در فصل اول AI Talk در دسامبر گذشته، در گفتگویی با ژانگ شیائوجون (Zhang Xiaojun)، نویسنده ارشد فناوری Tencent News، به VLA اشاره کرد. در آن زمان، او گفت:

کاری که ما با Li Auto Companion و رانندگی خودران انجام می‌دهیم، در واقع مطابق با استانداردهای صنعت جداگانه است و در مراحل اولیه قرار دارد. Mind GPT که ما در حال انجام آن هستیم، در واقع یک مدل زبانی بزرگ است. رانندگی خودرانی که ما انجام می‌دهیم، در داخل شرکت آن را هوش رفتاری می‌نامیم، اما همانطور که لی فیفی (Li Feifei) (استاد مادام العمر استنفورد، دانشمند ارشد سابق گوگل) تعریف کرده است، آن را هوش فضایی می‌نامند. تنها زمانی که واقعاً آن را در مقیاس بزرگ انجام دهید، متوجه خواهید شد که این دو قطعاً روزی به هم متصل خواهند شد. ما در داخل شرکت آن را VLA (مدل دیداری-زبانی-عملی) می‌نامیم.

لی زیانگ بر این باور است که مدل پایه قطعاً در لحظه‌ای خاص به VLA تبدیل خواهد شد. دلیل آن این است که مدل‌های زبانی تنها می‌توانند دنیای سه بعدی را از طریق زبان و شناخت درک کنند، که بدیهی است کافی نیست. "آن باید واقعاً مبتنی بر بردار باشد، از Diffusion (مدل انتشار) استفاده کند و از روش‌های مولد (برای درک جهان) استفاده کند."

می‌توان گفت که تولد VLA نه تنها یک تلاش جسورانه برای ادغام عمیق هوش زبانی و هوش فضایی است، بلکه تفسیری مجدد از مفهوم "خودروی هوشمند" توسط Li Auto نیز به شمار می‌رود.

لی زیانگ در AI Talk امشب تعریف جامع‌تری ارائه داد: "VLA یک مدل بزرگ راننده است و مانند یک راننده انسانی کار می‌کند." این نه تنها یک فناوری، بلکه یک شریک هوشمند است که می‌تواند به طور طبیعی با کاربران ارتباط برقرار کند و تصمیمات مستقلی اتخاذ کند.

بنابراین، VLA دقیقاً چیست؟ هسته اصلی آن بسیار ساده است: با ادغام ادراک بصری، درک زبان طبیعی و قابلیت‌های تولید عمل، خودرو به یک "نماینده راننده" تبدیل می‌شود که می‌تواند با مردم ارتباط برقرار کند و تصمیمات خود را بگیرد.

تصور کنید در ماشین خود نشسته‌اید و به طور اتفاقی می‌گویید: "امروز کمی خسته‌ام، آهسته‌تر رانندگی کن" و خودرو نه تنها منظور شما را درک می‌کند، بلکه سرعت خود را تنظیم می‌کند و حتی مسیر هموارتری را انتخاب می‌کند. این تعامل طبیعی و روان دقیقاً همان چیزی است که VLA می‌خواهد به آن دست یابد. لی زیانگ فاش کرد که تمام دستورات کوتاه مستقیماً توسط خودرو پردازش می‌شوند، در حالی که دستورات پیچیده توسط مدل ۳.۲ میلیارد پارامتری مبتنی بر ابر تجزیه و تحلیل می‌شوند و هم کارایی و هم هوش را تضمین می‌کنند.

رسیدن به این هدف آسان نیست. نکته خاص در مورد VLA این است که سه بعد دید، زبان و عمل را به هم متصل می‌کند. یک دستور ساده از کاربر ممکن است شامل ادراک بی‌درنگ محیط اطراف، درک دقیق منظور زبان و تنظیم سریع رفتار رانندگی باشد. هر سه مورد ضروری هستند.

و نکته جالب در مورد VLA این است که به این سه اجازه می‌دهد تا به طور یکپارچه با هم کار کنند.

از دید به واقعیت، تحقیق و توسعه VLA یک قلمرو ناشناخته است. لی زیانگ اعتراف کرد: "به دست آوردن داده‌های بصری و عملی دشوارترین کار است. هیچ شرکتی نمی‌تواند جایگزین آن شود."

برای درک پیشینه فنی VLA، باید به تکامل رانندگی هوشمند Li Auto نیز نگاهی بیندازیم.

لی زیانگ گفت که سیستم اولیه یک هوش "در سطح حشره" بود که تنها میلیون‌ها پارامتر داشت، با قوانین و نقشه‌های با دقت بالا هدایت می‌شد و هنگام مواجهه با شرایط جاده‌ای پیچیده درمانده بود. بعداً، معماری end-to-end و مدل‌های دیداری-زبانی به این فناوری اجازه دادند تا به "سطح پستاندار" جهش کند، از وابستگی به نقشه رها شود و NOA بدون نقشه در سراسر کشور به واقعیت تبدیل شود.

در واقع، این گام قبلاً Li Auto را در خط مقدم صنعت قرار داده است، اما آنها ظاهراً از این راضی نیستند. از دیدگاه لی زیانگ، ظهور VLA نشان می‌دهد که فناوری رانندگی هوشمند Li Auto وارد مرحله جدیدی از "هوش انسانی" شده است.

در مقایسه با سیستم قبلی، VLA نه تنها می‌تواند دنیای فیزیکی سه بعدی را درک کند، بلکه می‌تواند استدلال منطقی انجام دهد و حتی رفتارهای رانندگی نزدیک به سطح انسان را تولید کند.

به عنوان یک مثال ساده، فرض کنید در یک خیابان شلوغ می‌گویید "مکانی برای دور زدن پیدا کن"، VLA به طور مکانیکی دستور را اجرا نمی‌کند، بلکه شرایط جاده، جریان ترافیک و قوانین راهنمایی و رانندگی را به طور جامع در نظر می‌گیرد تا معقول‌ترین زمان و مکان را برای تکمیل دور زدن پیدا کند.

لی زیانگ گفت که VLA می‌تواند با تولید داده‌ها به سرعت با سناریوهای جدید سازگار شود و حتی در مواجهه با تعمیرات پیچیده جاده‌ای برای اولین بار در عرض سه روز پاسخ‌ها را بهینه کند. این انعطاف‌پذیری و قضاوت مزایای اصلی VLA هستند.

معلم Li Auto دیپ‌سیک (DeepSeek) است

پشتیبانی از VLA یک سیستم فنی پیچیده و پیشرفته است که به طور مستقل توسط Li Auto توسعه یافته است. این سیستم به خودرو اجازه می‌دهد نه تنها جهان را "درک کند"، بلکه مانند یک راننده انسانی فکر و عمل کند.

اولین مورد، فناوری نمایش گاوسی سه بعدی است که از تعداد زیادی "نقاط گاوسی" برای ایجاد یک شی سه بعدی استفاده می‌کند. هر نقطه حاوی موقعیت، رنگ و اطلاعات اندازه خود است. این فناوری از یادگیری خود نظارتی برای آموزش یک مدل قدرتمند درک فضایی سه بعدی با استفاده از داده‌های واقعی گسترده استفاده می‌کند. با آن، VLA می‌تواند مانند یک انسان دنیای اطراف را "درک کند" و بداند موانع کجا هستند و مناطق قابل عبور کجا هستند.

بعد معماری ترکیب خبرگان (MoE) است که از شبکه‌های متخصص، شبکه‌های دروازه‌بانی و ترکیب کننده‌ها تشکیل شده است. هنگامی که پارامترهای مدل از صدها میلیارد فراتر می‌رود، روش سنتی باعث می‌شود که همه نورون‌ها در هر محاسبه شرکت کنند، که یک اتلاف منابع است. شبکه دروازه‌بانی در معماری MoE متخصصان مختلف را با توجه به وظایف مختلف فراخوانی می‌کند تا اطمینان حاصل شود که پارامترهای فعال‌سازی به طور قابل توجهی افزایش نمی‌یابند.

لی زیانگ در این مورد صحبت کرد و از دیپ‌سیک تمجید کرد:

دیپ‌سیک از بهترین روش‌های بشریت استفاده می‌کند… هنگامی که آنها در حال انجام DeepSeek V3 بودند، V3 نیز یک MoE بود، یک مدل ۶۷۱B. من فکر می‌کنم MoE یک معماری بسیار خوب است. معادل ترکیب یک دسته از متخصصان با هم است و هر یک یک توانایی متخصص هستند.

در نهایت، Li Auto توجه پراکنده را به VLA معرفی کرد، که به زبان ساده به این معنی است که VLA به طور خودکار وزن‌های توجه مناطق کلیدی را تنظیم می‌کند و در نتیجه کارایی استنتاج سمت انتهایی را بهبود می‌بخشد.

لی زیانگ گفت که در فرآیند آموزش این مدل پایه جدید، مهندسان Li Auto زمان زیادی را صرف یافتن بهترین نسبت داده، ادغام مقدار زیادی از داده‌های سه بعدی و داده‌های متنی و تصویری مربوط به رانندگی خودران و کاهش نسبت داده‌های ادبی و تاریخی کردند.

از ادراک تا تصمیم‌گیری، VLA از حالت ترکیبی سریع و آهسته تفکر انسان استفاده می‌کند. این می‌تواند به سرعت تصمیمات عملی ساده مانند اجتناب اضطراری را خروجی دهد و همچنین می‌تواند از زنجیره‌های تفکر کوتاه برای "آهسته فکر کردن" برای مقابله با سناریوهای پیچیده‌تر مانند برنامه‌ریزی موقت یک مسیر برای دور زدن منطقه ساخت و ساز استفاده کند. به منظور بهبود بیشتر عملکرد بی‌درنگ، VLA همچنین استدلال سفته‌بازی و فناوری رمزگشایی موازی را معرفی کرد و از قدرت محاسباتی تراشه سمت خودرو به طور کامل استفاده کرد تا اطمینان حاصل شود که فرآیند تصمیم‌گیری سریع و بدون آشفتگی است.

هنگام تولید رفتار رانندگی، VLA از مدل‌های انتشار و یادگیری تقویتی از بازخورد انسانی (RLHF) استفاده می‌کند. مدل انتشار مسئول تولید مسیرهای رانندگی بهینه است، در حالی که RLHF این مسیرها را به عادات انسانی نزدیک‌تر می‌کند، هم ایمن و هم راحت. به عنوان مثال، VLA هنگام چرخیدن به طور خودکار سرعت خود را کم می‌کند یا هنگام ادغام خطوط، فاصله ایمن کافی را باقی می‌گذارد. این جزئیات منعکس کننده یادگیری عمیق رفتار رانندگی انسان است.

مدل جهانی یکی دیگر از فناوری‌های کلیدی است. Li Auto یک محیط مجازی با کیفیت بالا برای یادگیری تقویتی از طریق بازسازی صحنه و تولید فراهم می‌کند. لی زیانگ فاش کرد که مدل جهانی هزینه تأیید را از ۱۷۰۰۰۰-۱۸۰۰۰۰ یوان در هر ۱۰۰۰۰ کیلومتر به ۴۰۰۰ یوان کاهش داده است. این به VLA اجازه می‌دهد تا به طور مداوم در شبیه‌سازی بهینه شود و با سهولت با سناریوهای پیچیده مقابله کند.

در مورد آموزش، روند رشد VLA نیز کاملاً سازمان یافته است. کل فرآیند به سه مرحله تقسیم می‌شود: پیش آموزش، پس آموزش و یادگیری تقویتی. لی زیانگ گفت: "پیش آموزش مانند یادگیری دانش است، پس آموزش مانند یادگیری رانندگی در یک آموزشگاه رانندگی است و یادگیری تقویتی مانند تمرین اجتماعی است."

در مرحله پیش آموزش، Li Auto یک مدل پایه دیداری-زبانی برای VLA ایجاد کرد و آن را با داده‌های بصری سه بعدی غنی، تصاویر با کیفیت بالا دو بعدی و پیکره‌های مربوط به رانندگی پر کرد و به آن اجازه داد ابتدا "دیدن" و "شنیدن" را یاد بگیرد. پس از آموزش، ماژول عمل اضافه می‌شود، مسیرهای رانندگی ۴-۸ ثانیه‌ای تولید می‌شود و مدل از ۳.۲ میلیارد پارامتر به ۴ میلیارد پارامتر گسترش می‌یابد.

یادگیری تقویتی به دو مرحله تقسیم می‌شود: ابتدا از RLHF برای همسویی عادات انسانی، تجزیه و تحلیل داده‌های تصاحب و اطمینان از ایمنی و راحتی استفاده کنید. سپس، از یادگیری تقویتی خالص برای بهینه‌سازی، بر اساس مقدار G (راحتی)، برخورد و بازخورد قوانین راهنمایی و رانندگی استفاده کنید تا VLA "بهتر از انسان رانندگی کند." لی زیانگ اشاره کرد که این مرحله در مدل جهانی تکمیل می‌شود، سناریوهای ترافیکی واقعی را شبیه‌سازی می‌کند و کارایی بسیار بهتر از تأیید سنتی است.

این روش آموزشی نه تنها پیشرفت فنی را تضمین می‌کند، بلکه VLA را در کاربردهای عملی به اندازه کافی قابل اعتماد می‌کند.

لی زیانگ اعتراف کرد که موفقیت VLA جدایی ناپذیر از الهام‌گیری از معیارهای صنعت است. معماری MoE دیپ‌سیک نه تنها کارایی آموزش را بهبود بخشید، بلکه تجربه ارزشمندی را برای Li Auto فراهم کرد. او ابراز تاسف کرد: "ما روی شانه‌های غول‌ها ایستاده‌ایم و تحقیق و توسعه VLA را تسریع می‌کنیم." این نگرش یادگیری باز به Li Auto اجازه می‌دهد تا در سرزمین بی‌صاحب پیشروی کند.

از "ابزارهای اطلاعاتی" تا "ابزارهای تولید"

در حال حاضر، صنعت هوش مصنوعی در حال یک تحول عمیق از "ابزارهای اطلاعاتی" به "ابزارهای تولید" است. با بلوغ فناوری مدل بزرگ، هوش مصنوعی دیگر محدود به پردازش داده‌ها و ارائه پیشنهادات نیست، بلکه شروع به داشتن توانایی تصمیم‌گیری مستقل و انجام وظایف می‌کند.

لی زیانگ در فصل دوم AI Talk پیشنهاد کرد که هوش مصنوعی را می‌توان به ابزارهای اطلاعاتی (مانند جستجو)، ابزارهای کمکی (مانند مسیریابی صوتی) و ابزارهای تولید تقسیم کرد. او تأکید کرد: "هوش مصنوعی که به یک ابزار تولید تبدیل می‌شود، لحظه شیوع واقعی است." با بلوغ فناوری مدل بزرگ، هوش مصنوعی دیگر محدود به پردازش داده‌ها نیست، بلکه شروع به داشتن توانایی تصمیم‌گیری مستقل و انجام وظایف می‌کند.

این روند به ویژه در مفهوم "هوش تجسم یافته" مشهود است - سیستم‌های هوش مصنوعی موجودیت‌های فیزیکی داده می‌شوند که قادر به حس کردن، درک و تعامل با محیط هستند.

مدل VLA Li Auto یک تمرین زنده از این روند است. با ادغام هوش دید، زبان و عمل، خودرو را به یک عامل هوشمند تبدیل می‌کند که می‌تواند به طور مستقل رانندگی کند و به طور طبیعی با کاربران تعامل داشته باشد و به طور کامل مفهوم اصلی "هوش تجسم یافته" را تفسیر کند.

تا زمانی که انسان‌ها رانندگان حرفه‌ای استخدام کنند، هوش مصنوعی می‌تواند به یک ابزار تولید تبدیل شود. هنگامی که هوش مصنوعی به یک ابزار تولید تبدیل شود، هوش مصنوعی واقعاً منفجر خواهد شد.

اظهارات لی زیانگ ارزش اصلی VLA را روشن کرد - این دیگر یک ابزار کمکی ساده نیست، بلکه یک "عامل راننده" است که می‌تواند به طور مستقل وظایف را انجام دهد و مسئولیت‌ها را بر عهده بگیرد. این تحول نه تنها ارزش عملی خودروها را بهبود می‌بخشد، بلکه فضای تخیلی را برای کاربرد هوش مصنوعی در زمینه‌های دیگر باز می‌کند.

تفکر لی زیانگ در مورد هوش مصنوعی همواره دارای چشم‌اندازی است که از چارچوب خارج می‌شود. او همچنین اشاره کرد: "VLA یک فرآیند تغییر ناگهانی نیست، بلکه یک فرآیند تکاملی است." این جمله به طور دقیق مسیر فنی Li Auto را خلاصه می‌کند -

از رانندگی قانون‌مدار اولیه، تا پیشرفت‌های end-to-end، تا سطح "هوش انسانی" VLA امروزی. این تفکر تکاملی نه تنها VLA را از نظر فناوری امکان‌پذیرتر می‌کند، بلکه یک الگوی مرجع برای صنعت ارائه می‌دهد. در مقایسه با برخی از تلاش‌هایی که به طور کورکورانه به دنبال براندازی هستند، مسیر عمل‌گرایانه Li Auto ممکن است برای بازار پیچیده چین مناسب‌تر باشد.

از فناوری تا باور، اکتشاف هوش مصنوعی Li Auto هموار نیست. لی زیانگ اعتراف کرد: "ما چالش‌های زیادی را در زمینه هوش مصنوعی تجربه کرده‌ایم، مانند تاریکی قبل از سحر، اما ما معتقدیم که اگر استقامت کنیم، نور را خواهیم دید." تحقیق و توسعه VLA با مشکلاتی مانند گلوگاه‌های قدرت محاسباتی و اخلاق داده‌ها مواجه است، اما Li Auto به تدریج از طریق مدل‌های پایه خود توسعه یافته و مدل‌های جهانی خود طلوع فناوری خود را آغاز کرده است.

لی زیانگ همچنین در مصاحبه اشاره کرد که موفقیت VLA جدایی ناپذیر از ظهور هوش مصنوعی چین است.

او گفت که ظهور مدل‌هایی مانند DeepSeek و Tongyi Qianwen سطح هوش مصنوعی چین را به سرعت به ایالات متحده نزدیک کرده است. در میان آنها، روحیه منبع باز که توسط DeepSeek حمایت می‌شود به ویژه دلگرم کننده است، که به طور مستقیم باعث شد Li Auto سیستم عامل Xinghuan OS را منبع باز کند. لی زیانگ گفت: "این خارج از ملاحظات استراتژیک شرکت نیست. DeepSeek کمک زیادی به ما کرده است، ما باید چیزی به جامعه کمک کنیم."

در حالی که Li Auto به دنبال پیشرفت‌های فناوری است، مسائل ایمنی و اخلاقی فناوری هوش مصنوعی را نادیده نگرفته است. فناوری "همسویی فوق العاده" که توسط VLA معرفی شده است، رفتار مدل را از طریق یادگیری تقویتی از بازخورد انسانی (RLHF) به عادات انسانی نزدیک‌تر می‌کند. داده‌ها نشان می‌دهد که استفاده از VLA MPI با سرعت بالا (میانگین مسافت پیموده شده مداخله) را از ۲۴۰ کیلومتر به ۳۰۰ کیلومتر افزایش داده است.

مهم‌تر از آن، Li Auto بر ساخت "هوش مصنوعی با ارزش‌های انسانی" تأکید دارد و اخلاق و اعتماد را به عنوان سنگ بنای توسعه فناوری در نظر می‌گیرد. از دیدگاه کلان‌تر، اهمیت VLA در این است که نقش شرکت‌های خودروسازی را دوباره تعریف می‌کند.

در گذشته، خودروها وسایل حمل و نقل عصر صنعتی بودند. امروزه، آنها در حال تکامل به "ربات‌های فضایی" در عصر هوش مصنوعی هستند. لی زیانگ در AI Talk اشاره کرد: "Li Auto در گذشته در سرزمین بی‌صاحب خودروها قدم می‌زد و در آینده در سرزمین بی‌صاحب هوش مصنوعی قدم خواهد زد." این تحول Li Auto فضای تخیلی جدیدی را برای مدل کسب و کار صنعت خودرو به ارمغان می‌آورد.

البته، توسعه VLA بدون چالش نیست. سرمایه گذاری مداوم قدرت محاسباتی، اخلاق داده‌ها و ایجاد اعتماد مصرف کننده به رانندگی خودران، همگی مسائلی هستند که Li Auto باید با آنها روبرو شود. علاوه بر این، رقابت در صنعت هوش مصنوعی به طور فزاینده‌ای شدید می‌شود. غول‌های داخلی و خارجی مانند تسلا (Tesla)، ویمو (Waymo) و اوپن ای آی (OpenAI) در حال تسریع چیدمان مدل‌های چندوجهی هستند. Li Auto باید موقعیت پیشرو خود را در تکرار فناوری و ترویج بازار حفظ کند. لی زیانگ گفت: "ما هیچ میانبری نداریم، فقط می‌توانیم عمیقاً کشت کنیم."

بدون شک، فرود VLA یک گره کلیدی خواهد بود.

Li Auto قصد دارد VLA را به طور همزمان با خودروی شاسی بلند برقی خالص Li Auto i8 در ژوئیه ۲۰۲۵ عرضه کند و در سال ۲۰۲۶ به تولید انبوه دست یابد. این نه تنها یک آزمایش جامع فناوری است، بلکه یک سنگ محک مهم برای بازار نیز به شمار می‌رود.