في شهر مارس من هذا العام، وخلال مؤتمر NVIDIA’s 2025 Spring GTC، قدم Jia Peng، رئيس قسم البحث والتطوير لتكنولوجيا القيادة الذاتية في Li Auto، أحدث إنجازاتهم: نموذج MindVLA الكبير.
هذا النموذج هو نموذج Vision-Language-Action Model (VLA) يضم 2.2 مليار معلمة. صرح Jia Peng أيضًا أنهم نجحوا في نشر النموذج في المركبات. تعتقد Li Auto أن نماذج VLA هي الطريقة الأكثر فعالية لحل تحديات تفاعل الذكاء الاصطناعي مع العالم المادي.
على مدار العام الماضي، أصبحت الهندسة المعمارية الشاملة نقطة جذب تكنولوجية في مجال القيادة الذكية، مما دفع شركات السيارات إلى التحول من التصميم модульной правило التقليدي إلى الأنظمة المتكاملة. تواجه شركات السيارات التي كانت تقود سابقًا بخوارزميات قائمة على القواعد آلامًا انتقالية، بينما اغتنم المتأخرون الفرصة لتحقيق ميزة تنافسية.
Li Auto هي مثال رئيسي على ذلك.
يمكن وصف تقدم Li Auto في القيادة الذكية العام الماضي بأنه سريع. في يوليو، أخذت زمام المبادرة في تحقيق NOA (Navigation on Autopilot) على مستوى الدولة بدون خرائط وأطلقت بنية فريدة من نوعها “شاملة (نظام سريع) + VLM (نظام بطيء)”، والتي حظيت باهتمام واسع النطاق في الصناعة.
الليلة، مع الموسم الثاني من Li Auto AI Talk، اكتسبنا فهمًا أعمق لما يشير إليه Li Xiang بأنه “شركة ذكاء اصطناعي”.
“نموذج السائق الكبير” هو أيضًا سائقك
ذكر Li Xiang، الرئيس التنفيذي لشركة Li Auto، VLA لأول مرة في الموسم الأول من AI Talk في ديسمبر الماضي، في محادثة مع Zhang Xiaojun، كبير الكتاب التقنيين في Tencent News. في ذلك الوقت، قال:
ما نقوم به مع Li Auto Companion والقيادة الذاتية هو في الواقع منفصل وفقًا لمعايير الصناعة، وهو في المراحل المبكرة. إن Mind GPT الذي نقوم به هو في الواقع نموذج لغوي كبير؛ القيادة الذاتية التي نقوم بها، نسميها الذكاء السلوكي داخليًا، ولكن كما حددها Li Feifei (أستاذة مدى الحياة في جامعة ستانفورد، ورئيسة العلماء السابقة في Google)، يُطلق عليها الذكاء المكاني. فقط عندما تفعل ذلك على نطاق واسع حقًا ستعرف أن هذين الأمرين سيتم توصيلهما بالتأكيد يومًا ما. نسميها VLA (Vision Language Action Model) داخليًا.
يعتقد Li Xiang أن النموذج الأساسي سيصبح بالتأكيد VLA في لحظة معينة. السبب هو أن النماذج اللغوية لا يمكنها فهم العالم ثلاثي الأبعاد إلا من خلال اللغة والإدراك، وهو أمر غير كافٍ بالطبع. “يجب أن يكون قائمًا على المتجهات حقًا، باستخدام Diffusion (نموذج الانتشار)، وباستخدام الأساليب التوليدية (لفهم العالم).”
يمكن القول أن ولادة VLA ليست مجرد محاولة جريئة لدمج الذكاء اللغوي والذكاء المكاني بعمق، ولكنها أيضًا إعادة تفسير لمفهوم “السيارة الذكية” من قبل Li Auto.
حدد Li Xiang كذلك في AI Talk الليلة: “VLA هو نموذج سائق كبير، يعمل مثل سائق بشري.” إنه ليس مجرد تقنية، ولكنه أيضًا شريك ذكي يمكنه التواصل بشكل طبيعي مع المستخدمين واتخاذ قرارات مستقلة.
إذن، ما هو VLA بالضبط؟ الجوهر بسيط للغاية: من خلال دمج الإدراك البصري وفهم اللغة الطبيعية وقدرات توليد الإجراءات، تصبح السيارة “وكيل سائق” يمكنه التواصل مع الأشخاص واتخاذ قراراته الخاصة.
تخيل أنك تجلس في سيارتك وتقول عرضًا: “أنا متعب قليلاً اليوم، قد ببطء”، ولن تفهم السيارة ما تعنيه فحسب، بل ستضبط سرعتها أيضًا وتختار طريقًا أكثر سلاسة. هذا التفاعل الطبيعي والسلس هو بالضبط ما تريد VLA تحقيقه. كشف Li Xiang أن جميع الأوامر القصيرة تتم معالجتها مباشرة بواسطة السيارة، بينما يتم تحليل الأوامر المعقدة بواسطة النموذج القائم على السحابة والذي يضم 3.2 مليار معلمة، مما يضمن الكفاءة والذكاء.
إن تحقيق هذا الهدف ليس بالأمر السهل. الشيء الخاص في VLA هو أنه يربط الأبعاد الثلاثة للرؤية واللغة والفعل. قد يتضمن الأمر البسيط من المستخدم إدراكًا فوريًا للبيئة المحيطة، وفهمًا دقيقًا للنية اللغوية، وتعديلًا سريعًا لسلوك القيادة. الثلاثة لا غنى عنها.
والشيء الرائع في VLA هو أنه يسمح لهذه الثلاثة بالعمل معًا بسلاسة.
من الرؤية إلى الواقع، يعد البحث والتطوير في VLA منطقة مجهولة. اعترف Li Xiang: “إن الحصول على البيانات المرئية وبيانات الإجراءات هو الأصعب. لا يمكن لأي شركة استبدالها.”
لفهم الخلفية التقنية لـ VLA، يجب علينا أيضًا إلقاء نظرة على تطور القيادة الذكية في Li Auto.
قال Li Xiang إن النظام المبكر كان ذكاءً “على مستوى الحشرات”، مع ملايين المعلمات فقط، مدفوعة بالقواعد والخرائط عالية الدقة، وكان عاجزًا عند مواجهة ظروف الطريق المعقدة. في وقت لاحق، سمحت الهندسة المعمارية الشاملة والنماذج المرئية اللغوية للتكنولوجيا بالقفز إلى “مستوى الثدييات”، والتخلص من الاعتماد على الخرائط، وأصبح NOA على مستوى الدولة بدون خرائط حقيقة واقعة.
في الواقع، وضعت هذه الخطوة بالفعل Li Auto في طليعة الصناعة، لكنهم من الواضح أنهم غير راضين عن ذلك. من وجهة نظر Li Xiang، فإن ظهور VLA يشير إلى أن تقنية القيادة الذكية في Li Auto قد دخلت مرحلة جديدة من “الذكاء البشري”.
بالمقارنة مع النظام السابق، لا يمكن لـ VLA إدراك العالم المادي ثلاثي الأبعاد فحسب، بل يمكنه أيضًا إجراء استدلال منطقي وحتى توليد سلوكيات قيادة قريبة من المستوى البشري.
على سبيل المثال البسيط، افترض أنك تقول “ابحث عن مكان للدوران” في شارع مزدحم، فلن ينفذ VLA الأمر بشكل ميكانيكي، ولكنه سينظر بشكل شامل في ظروف الطريق وحركة المرور وقواعد المرور للعثور على الوقت والموقع الأكثر منطقية لإكمال الدوران.
قال Li Xiang إن VLA يمكنه التكيف بسرعة مع السيناريوهات الجديدة عن طريق إنشاء البيانات، ويمكنه تحسين الاستجابات حتى عند مواجهة إصلاحات الطرق المعقدة لأول مرة في غضون ثلاثة أيام. هذه المرونة والحكم هما الميزتان الأساسيتان لـ VLA.
معلم Li Auto هو DeepSeek
إن دعم VLA هو نظام تقني معقد ومتطور طورته Li Auto بشكل مستقل. يسمح هذا النظام للسيارة ليس فقط “بفهم” العالم، ولكن أيضًا بالتفكير والتصرف مثل سائق بشري.
الأول هو تقنية التمثيل الغاوسي ثلاثية الأبعاد، التي تستخدم العديد من “النقاط الغاوسية” لإنشاء كائن ثلاثي الأبعاد. تحتوي كل نقطة على معلومات خاصة بها حول الموضع واللون والحجم. تستخدم هذه التقنية التعلم الذاتي للإشراف لتدريب نموذج قوي لفهم الفضاء ثلاثي الأبعاد باستخدام بيانات حقيقية ضخمة. مع ذلك، يمكن لـ VLA “فهم” العالم المحيط مثل الإنسان، مع معرفة مكان وجود العوائق ومكان وجود المناطق الصالحة للمرور.
التالي هو بنية Mixture of Experts (MoE)، والتي تتكون من شبكات الخبراء وشبكات البوابة والمجمعات. عندما تتجاوز معلمات النموذج مئات الملايين، فإن الطريقة التقليدية ستجعل جميع الخلايا العصبية تشارك في كل حساب، وهو ما يمثل إهدارًا للموارد. ستستدعي شبكة البوابة في بنية MoE خبراء مختلفين وفقًا لمهام مختلفة لضمان عدم زيادة معلمات التنشيط بشكل كبير.
بالحديث عن هذا، أشاد Li Xiang أيضًا بـ DeepSeek:
تستخدم DeepSeek أفضل الممارسات للبشرية … عندما كانوا يعملون على DeepSeek V3، كان V3 أيضًا MoE، نموذج 671B. أعتقد أن MoE بنية جيدة جدًا. إنه يعادل الجمع بين مجموعة من الخبراء معًا، وكل واحد منهم يتمتع بقدرة خبير.
أخيرًا، قدمت Li Auto Sparse Attention إلى VLA، والتي تعني بعبارات بسيطة أن VLA سيقوم تلقائيًا بضبط أوزان الانتباه للمناطق الرئيسية، وبالتالي تحسين كفاءة الاستدلال في الطرف النهائي.
قال Li Xiang إنه في عملية التدريب على هذا النموذج الأساسي الجديد، أمضى مهندسو Li Auto الكثير من الوقت في إيجاد أفضل نسبة للبيانات، ودمج كمية كبيرة من البيانات ثلاثية الأبعاد وبيانات النصوص والصور المتعلقة بالقيادة الذاتية، وتقليل نسبة البيانات الأدبية والتاريخية.
من الإدراك إلى اتخاذ القرار، يعتمد VLA على وضع الجمع السريع والبطيء للتفكير البشري. يمكنه إخراج قرارات الإجراءات البسيطة بسرعة، مثل تجنب الطوارئ، ويمكنه أيضًا استخدام سلاسل التفكير القصيرة “للتفكير ببطء” للتعامل مع السيناريوهات الأكثر تعقيدًا، مثل التخطيط مؤقتًا لطريق لتجاوز منطقة البناء. من أجل زيادة تحسين الأداء في الوقت الفعلي، قدم VLA أيضًا الاستدلال التخميني وتقنية فك التشفير المتوازية، مما يتيح الاستفادة الكاملة من قوة الحوسبة لشريحة جانب السيارة لضمان أن تكون عملية اتخاذ القرار سريعة وغير فوضوية.
عند إنشاء سلوك القيادة، يستخدم VLA نماذج الانتشار والتعلم المعزز من ملاحظات الإنسان (RLHF). نموذج الانتشار مسؤول عن إنشاء مسارات قيادة محسنة، بينما تجعل RLHF هذه المسارات أقرب إلى العادات البشرية، آمنة ومريحة على حد سواء. على سبيل المثال، سيتباطأ VLA تلقائيًا عند الانعطاف، أو يترك مسافة أمان كافية عند تغيير المسارات. تعكس هذه التفاصيل التعلم العميق لسلوك القيادة البشري.
العالم النموذجي هو تقنية رئيسية أخرى. توفر Li Auto بيئة افتراضية عالية الجودة للتعلم المعزز من خلال إعادة بناء المشهد وإنشائه. كشف Li Xiang أن النموذج العالمي قد قلل من تكلفة التحقق من 170,000-180,000 يوان لكل 10,000 كيلومتر إلى 4,000 يوان. يسمح لـ VLA بالتحسين المستمر في المحاكاة والتعامل مع السيناريوهات المعقدة بسهولة.
بالحديث عن التدريب، فإن عملية نمو VLA منظمة تمامًا أيضًا. تنقسم العملية بأكملها إلى ثلاث مراحل: التدريب المسبق والتدريب اللاحق والتعلم المعزز. قال Li Xiang: “التدريب المسبق يشبه تعلم المعرفة، والتدريب اللاحق يشبه تعلم القيادة في مدرسة لتعليم القيادة، والتعلم المعزز يشبه الممارسة الاجتماعية”.
في مرحلة التدريب المسبق، أنشأت Li Auto نموذجًا أساسيًا مرئيًا لغويًا لـ VLA، وحشوته ببيانات بصرية ثلاثية الأبعاد غنية، وصور عالية الدقة ثنائية الأبعاد، ومجموعات كلمات متعلقة بالقيادة، مما سمح لها بالتعلم أولاً “الرؤية” و “السمع”؛ بعد التدريب، تتم إضافة وحدة الإجراء، وإنشاء مسارات قيادة من 4 إلى 8 ثوانٍ، ويتوسع النموذج من 3.2 مليار معلمة إلى 4 مليارات.
ينقسم التعلم المعزز إلى خطوتين: أولاً، استخدم RLHF لمحاذاة العادات البشرية، وتحليل بيانات الاستحواذ، وضمان السلامة والراحة؛ ثم استخدم التعلم المعزز الخالص للتحسين، بناءً على القيمة G (الراحة) والاصطدام وملاحظات قواعد المرور، بحيث “تقود VLA بشكل أفضل من البشر”. ذكر Li Xiang أن هذه المرحلة تكتمل في النموذج العالمي، ومحاكاة سيناريوهات المرور الحقيقية، والكفاءة أفضل بكثير من التحقق التقليدي.
لا يضمن هذا الأسلوب التدريبي التقدم التقني فحسب، بل يجعل VLA موثوقًا بدرجة كافية في التطبيقات العملية.
اعترف Li Xiang بأن نجاح VLA لا ينفصل عن إلهام المعايير الصناعية. لم تعمل بنية MoE الخاصة بـ DeepSeek على تحسين كفاءة التدريب فحسب، بل قدمت أيضًا تجربة قيمة لـ Li Auto. وأعرب عن أسفه قائلاً: “نحن نقف على أكتاف العمالقة ونسرع البحث والتطوير في VLA.” يسمح هذا الموقف التعليمي المفتوح لـ Li Auto بالذهاب إلى أبعد من ذلك في أرض لا يسكنها أحد.
من “أدوات المعلومات” إلى “أدوات الإنتاج”
يشهد قطاع الذكاء الاصطناعي حاليًا تحولًا عميقًا من “أدوات المعلومات” إلى “أدوات الإنتاج”. مع نضوج تكنولوجيا النموذج الكبير، لم يعد الذكاء الاصطناعي يقتصر على معالجة البيانات وتقديم الاقتراحات، بل بدأ يتمتع بالقدرة على اتخاذ قرارات مستقلة وتنفيذ المهام.
اقترح Li Xiang في الموسم الثاني من AI Talk أنه يمكن تقسيم الذكاء الاصطناعي إلى أدوات معلومات (مثل البحث) وأدوات مساعدة (مثل التنقل الصوتي) وأدوات إنتاج. وأكد: “إن تحول الذكاء الاصطناعي إلى أداة إنتاج هو لحظة التفشي الحقيقي”. مع نضوج تكنولوجيا النموذج الكبير، لم يعد الذكاء الاصطناعي يقتصر على معالجة البيانات، بل بدأ يتمتع بالقدرة على اتخاذ قرارات مستقلة وتنفيذ المهام.
ويتضح هذا الاتجاه بشكل خاص في مفهوم “الذكاء المجسد” - حيث تُمنح أنظمة الذكاء الاصطناعي كيانات مادية قادرة على استشعار البيئة وفهمها والتفاعل معها.
يعد نموذج VLA الخاص بـ Li Auto ممارسة حية لهذا الاتجاه. من خلال دمج الرؤية واللغة والذكاء الحركي، فإنه يحول السيارة إلى وكيل ذكي يمكنه القيادة بشكل مستقل والتفاعل بشكل طبيعي مع المستخدمين، وتفسير المفهوم الأساسي لـ “الذكاء المجسد” بشكل مثالي.
طالما أن البشر يوظفون سائقين محترفين، يمكن أن يصبح الذكاء الاصطناعي أداة إنتاج. عندما يصبح الذكاء الاصطناعي أداة إنتاج، سينفجر الذكاء الاصطناعي حقًا.
أوضحت تصريحات Li Xiang القيمة الأساسية لـ VLA - فهي لم تعد مجرد أداة مساعدة بسيطة، بل “وكيل سائق” يمكنه أداء المهام وتحمل المسؤوليات بشكل مستقل. هذا التحول لا يحسن القيمة العملية للسيارات فحسب، بل يفتح أيضًا مساحة للخيال لتطبيق الذكاء الاصطناعي في مجالات أخرى.
لطالما كانت أفكار Li Xiang حول الذكاء الاصطناعي تتمتع بمنظور يخرج عن المألوف. وذكر أيضًا: “VLA ليست عملية تغيير مفاجئة، ولكنها عملية تطورية.” تلخص هذه الجملة بدقة المسار التقني لـ Li Auto -
من القيادة المبكرة القائمة على القواعد، إلى الاختراقات الشاملة، إلى مستوى “الذكاء البشري” الحالي لـ VLA. لا يجعل هذا التفكير التطوري VLA أكثر جدوى من الناحية التكنولوجية فحسب، بل يوفر أيضًا نموذجًا مرجعيًا للصناعة. بالمقارنة مع بعض المحاولات التي تسعى بشكل أعمى إلى التخريب، قد يكون مسار Li Auto العملي أكثر ملاءمة للسوق الصينية المعقدة.
من التكنولوجيا إلى الإيمان، فإن استكشاف Li Auto للذكاء الاصطناعي ليس سلسًا. اعترف Li Xiang: “لقد واجهنا العديد من التحديات في مجال الذكاء الاصطناعي، مثل الظلام الذي يسبق الفجر، لكننا نعتقد أنه إذا ثابرنا، فسوف نرى النور.” يواجه البحث والتطوير في VLA مشكلات مثل اختناقات قوة الحوسبة وأخلاقيات البيانات، لكن Li Auto بشرت تدريجيًا بفجرها التكنولوجي من خلال النماذج الأساسية المطورة ذاتيًا والنماذج العالمية.
ذكر Li Xiang أيضًا في المقابلة أن نجاح VLA لا ينفصل عن صعود الذكاء الاصطناعي الصيني.
وقال إن ظهور نماذج مثل DeepSeek و Tongyi Qianwen جعل مستوى الذكاء الاصطناعي في الصين يقترب بسرعة من الولايات المتحدة. ومن بين هؤلاء، فإن روح المصادر المفتوحة التي تدعمها DeepSeek مشجعة بشكل خاص، مما دفع Li Auto مباشرة إلى فتح Xinghuan OS. قال Li Xiang: “هذا ليس نابعًا من اعتبارات استراتيجية للشركة. لقد قدمت DeepSeek لنا الكثير من المساعدة، يجب أن نساهم بشيء للمجتمع.”
في الوقت الذي تسعى فيه Li Auto إلى تحقيق اختراقات تكنولوجية، فإنها لم تتجاهل قضايا السلامة والأخلاق المتعلقة بتكنولوجيا الذكاء الاصطناعي. تجعل تقنية “المحاذاة الفائقة” التي قدمتها VLA سلوك النموذج أقرب إلى العادات البشرية من خلال التعلم المعزز من ملاحظات الإنسان (RLHF). تُظهر البيانات أن تطبيق VLA قد زاد من MPI عالي السرعة (متوسط عدد الكيلومترات للتدخل) من 240 كم إلى 300 كم.
والأهم من ذلك، أن Li Auto تؤكد على بناء “الذكاء الاصطناعي بقيم إنسانية” وتعتبر الأخلاق والثقة حجر الزاوية في التطور التكنولوجي. من منظور أوسع، تكمن أهمية VLA في أنها تعيد تعريف دور شركات السيارات.
في الماضي، كانت السيارات وسيلة نقل في العصر الصناعي؛ أما اليوم، فهي تتطور إلى “روبوتات فضائية” في عصر الذكاء الاصطناعي. ذكر Li Xiang في AI Talk: “اعتادت Li Auto على السير في أرض لا يسكنها أحد من السيارات، وستسير في أرض لا يسكنها أحد من الذكاء الاصطناعي في المستقبل.” يجلب هذا التحول في Li Auto مساحة جديدة للخيال لنموذج أعمال صناعة السيارات.
بطبيعة الحال، فإن تطوير VLA لا يخلو من التحديات. إن الاستثمار المستمر في قوة الحوسبة وأخلاقيات البيانات وإنشاء ثقة المستهلك في القيادة الذاتية كلها قضايا تحتاج Li Auto إلى مواجهتها. بالإضافة إلى ذلك، أصبحت المنافسة في صناعة الذكاء الاصطناعي شرسة بشكل متزايد. تقوم الشركات العملاقة المحلية والأجنبية مثل Tesla و Waymo و OpenAI بتسريع تخطيط النماذج متعددة الوسائط. تحتاج Li Auto إلى الحفاظ على مكانتها الرائدة في تكرار التكنولوجيا والترويج للسوق. قال Li Xiang: “ليس لدينا طرق مختصرة، يمكننا فقط أن نزرع بعمق”.
ومما لا شك فيه أن هبوط VLA سيكون نقطة مفصلية.
تخطط Li Auto لإطلاق VLA في نفس الوقت مع سيارة الدفع الرباعي الكهربائية النقية Li Auto i8 في يوليو 2025، وتحقيق الإنتاج الضخم في عام 2026. وهذا ليس مجرد اختبار شامل للتكنولوجيا، ولكنه أيضًا حجر الزاوية الهام للسوق.