วิวัฒนาการ AI สู่มนุษย์: เจาะลึก VLA ของ Li Auto

ในเดือนมีนาคมของปีนี้ ในการประชุม NVIDIA’s 2025 Spring GTC conference Jia Peng หัวหน้าฝ่ายวิจัยและพัฒนาเทคโนโลยีการขับขี่อัตโนมัติของ Li Auto ได้แนะนำความสำเร็จล่าสุดของพวกเขา: MindVLA large model

โมเดลนี้คือ Vision-Language-Action Model (VLA) ที่มีพารามิเตอร์ 2.2 พันล้าน Jia Peng กล่าวเพิ่มเติมว่าพวกเขาได้ปรับใช้โมเดลในยานพาหนะเรียบร้อยแล้ว Li Auto เชื่อว่าโมเดล VLA เป็นวิธีที่มีประสิทธิภาพที่สุดในการแก้ปัญหาความท้าทายของ AI ที่มีปฏิสัมพันธ์กับโลกทางกายภาพ

ในช่วงปีที่ผ่านมา สถาปัตยกรรมแบบ end-to-end ได้กลายเป็นจุดสนใจทางเทคโนโลยีในด้านการขับขี่อัจฉริยะ ขับเคลื่อนบริษัทรถยนต์ให้เปลี่ยนจากรูปแบบกฎเกณฑ์แบบโมดูลาร์ดั้งเดิมไปสู่ระบบบูรณาการ บริษัทรถยนต์ที่เคยเป็นผู้นำด้วยอัลกอริธึมตามกฎเกณฑ์กำลังเผชิญกับความเจ็บปวดในการเปลี่ยนผ่าน ในขณะที่ผู้มาทีหลังได้คว้าโอกาสในการสร้างความได้เปรียบทางการแข่งขัน

Li Auto เป็นตัวอย่างสำคัญของเรื่องนี้

ความก้าวหน้าของ Li Auto ในด้านการขับขี่อัจฉริยะเมื่อปีที่แล้วสามารถอธิบายได้ว่ารวดเร็ว ในเดือนกรกฎาคม บริษัทได้เป็นผู้นำในการบรรลุ NOA (Navigation on Autopilot) แบบไม่มีแผนที่ทั่วประเทศ และเปิดตัวสถาปัตยกรรม “end-to-end (ระบบเร็ว) + VLM (ระบบช้า)” ที่เป็นเอกลักษณ์ ซึ่งได้รับการยอมรับอย่างกว้างขวางในอุตสาหกรรม

คืนนี้ จาก Li Auto AI Talk ซีซั่นที่สอง เราได้รับความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับสิ่งที่ Li Xiang อ้างถึงว่าเป็น “บริษัทปัญญาประดิษฐ์”

"Driver Large Model" ก็คือคนขับรถของคุณเช่นกัน

Li Xiang, CEO ของ Li Auto กล่าวถึง VLA เป็นครั้งแรกใน AI Talk ซีซั่นแรกเมื่อเดือนธันวาคมปีที่แล้ว ในการสนทนากับ Zhang Xiaojun หัวหน้านักเขียนด้านเทคโนโลยีของ Tencent News ในเวลานั้นเขากล่าวว่า:

สิ่งที่เรากำลังทำกับ Li Auto Companion และการขับขี่อัตโนมัตินั้นแยกจากกันตามมาตรฐานอุตสาหกรรม และอยู่ในช่วงเริ่มต้น Mind GPT ที่เรากำลังทำอยู่นั้นเป็น large language model การขับขี่อัตโนมัติที่เรากำลังทำอยู่ เราเรียกมันว่า behavioral intelligence ภายใน แต่ตามที่ Li Feifei (Stanford Lifetime Professor อดีต Google Chief Scientist) กำหนดไว้ มันถูกเรียกว่า spatial intelligence เมื่อคุณทำมันในวงกว้างจริงๆ เท่านั้น คุณจะรู้ว่าทั้งสองสิ่งนี้จะต้องเชื่อมต่อกันในวันหนึ่ง เราเรียกมันว่า VLA (Vision Language Action Model) ภายใน

Li Xiang เชื่อว่า base model จะกลายเป็น VLA อย่างแน่นอนในบางช่วงเวลา เหตุผลก็คือ language model สามารถเข้าใจโลกสามมิติผ่านภาษาและการรับรู้เท่านั้น ซึ่งเห็นได้ชัดว่าไม่เพียงพอ "มันต้องเป็นแบบเวกเตอร์อย่างแท้จริง ใช้ Diffusion (diffusion model) และใช้วิธีการสร้าง (เพื่อทำความเข้าใจโลก)"

กล่าวได้ว่าการกำเนิดของ VLA ไม่ได้เป็นเพียงความพยายามที่กล้าหาญในการบูรณาการความฉลาดทางภาษาและความฉลาดเชิงพื้นที่อย่างลึกซึ้งเท่านั้น แต่ยังเป็นการตีความใหม่ของแนวคิด "รถยนต์อัจฉริยะ" โดย Li Auto

Li Xiang ได้ให้คำจำกัดความเพิ่มเติมใน AI Talk คืนนี้ว่า: "VLA คือ driver large model ทำงานเหมือนคนขับรถที่เป็นมนุษย์" ไม่ใช่แค่เทคโนโลยีเท่านั้น แต่ยังเป็นคู่หูอัจฉริยะที่สามารถสื่อสารกับผู้ใช้ได้อย่างเป็นธรรมชาติและตัดสินใจได้อย่างอิสระ

ดังนั้น VLA คืออะไรกันแน่? หัวใจหลักนั้นตรงไปตรงมามาก: โดยการบูรณาการการรับรู้ด้วยภาพ การทำความเข้าใจภาษาธรรมชาติ และความสามารถในการสร้างการกระทำ ยานพาหนะจะกลายเป็น "driver agent" ที่สามารถสื่อสารกับผู้คนและตัดสินใจด้วยตนเองได้

ลองจินตนาการว่าคุณนั่งอยู่ในรถของคุณและพูดอย่างไม่เป็นทางการว่า "วันนี้ฉันเหนื่อยเล็กน้อย ขับช้าลงหน่อย" และยานพาหนะจะไม่เพียงแต่เข้าใจสิ่งที่คุณหมายถึงเท่านั้น แต่ยังปรับความเร็วและเลือกเส้นทางที่ราบรื่นยิ่งขึ้นอีกด้วย ปฏิสัมพันธ์ที่เป็นธรรมชาติและราบรื่นนี้คือสิ่งที่ VLA ต้องการทำให้สำเร็จ Li Xiang เปิดเผยว่าคำสั่งสั้นๆ ทั้งหมดได้รับการประมวลผลโดยตรงโดยยานพาหนะ ในขณะที่คำสั่งที่ซับซ้อนได้รับการวิเคราะห์โดยโมเดลพารามิเตอร์ 3.2 พันล้านบนคลาวด์ เพื่อให้มั่นใจถึงประสิทธิภาพและความฉลาด

การบรรลุเป้าหมายนี้ไม่ใช่เรื่องง่าย สิ่งพิเศษเกี่ยวกับ VLA คือการเชื่อมต่อสามมิติของวิสัยทัศน์ ภาษา และการกระทำ คำสั่งง่ายๆ จากผู้ใช้อาจเกี่ยวข้องกับการรับรู้สภาพแวดล้อมโดยรอบแบบเรียลไทม์ ความเข้าใจที่ถูกต้องเกี่ยวกับเจตนาของภาษา และการปรับพฤติกรรมการขับขี่อย่างรวดเร็ว ทั้งสามสิ่งนี้ขาดไม่ได้

และสิ่งที่ยอดเยี่ยมเกี่ยวกับ VLA คือช่วยให้ทั้งสามสิ่งนี้ทำงานร่วมกันได้อย่างราบรื่น

จากการมองเห็นสู่ความเป็นจริง การวิจัยและพัฒนา VLA เป็นดินแดนที่ไม่เคยมีใครสำรวจมาก่อน Li Xiang ยอมรับว่า: "การได้มาซึ่งข้อมูลภาพและการกระทำเป็นสิ่งที่ยากที่สุด ไม่มีบริษัทใดสามารถทดแทนได้"

เพื่อให้เข้าใจพื้นฐานทางเทคนิคของ VLA เราต้องดูวิวัฒนาการของการขับขี่อัจฉริยะของ Li Auto ด้วย

Li Xiang กล่าวว่าระบบในช่วงแรกเป็นความฉลาดระดับ "แมลง" ที่มีพารามิเตอร์เพียงไม่กี่ล้าน ขับเคลื่อนด้วยกฎและแผนที่ที่มีความแม่นยำสูง และทำอะไรไม่ได้เลยเมื่อเผชิญกับสภาพถนนที่ซับซ้อน ต่อมา สถาปัตยกรรมแบบ end-to-end และ visual-language model ช่วยให้เทคโนโลยีก้าวกระโดดไปสู่ระดับ "สัตว์เลี้ยงลูกด้วยนม" กำจัดการพึ่งพาแผนที่ และ NOA แบบไม่มีแผนที่ทั่วประเทศก็กลายเป็นความจริง

ในความเป็นจริง ขั้นตอนนี้ได้ทำให้ Li Auto อยู่ในแถวหน้าของอุตสาหกรรมแล้ว แต่เห็นได้ชัดว่าพวกเขายังไม่พอใจกับสิ่งนี้ ในมุมมองของ Li Xiang การเกิดขึ้นของ VLA ถือเป็นการที่เทคโนโลยีการขับขี่อัจฉริยะของ Li Auto ได้เข้าสู่ขั้นตอนใหม่ของ "ความฉลาดของมนุษย์"

เมื่อเทียบกับระบบก่อนหน้า VLA ไม่เพียงแต่สามารถรับรู้โลกทางกายภาพ 3 มิติเท่านั้น แต่ยังสามารถทำการใช้เหตุผลเชิงตรรกะและสร้างพฤติกรรมการขับขี่ที่ใกล้เคียงกับระดับมนุษย์ได้อีกด้วย

ตัวอย่างง่ายๆ สมมติว่าคุณพูดว่า "หาที่กลับรถ" บนถนนที่แออัด VLA จะไม่ดำเนินการตามคำสั่งอย่างกลไก แต่จะพิจารณาอย่างครอบคลุมถึงสภาพถนน การจราจร และกฎจราจรเพื่อหาเวลาและสถานที่ที่เหมาะสมที่สุดในการกลับรถ

Li Xiang กล่าวว่า VLA สามารถปรับตัวเข้ากับสถานการณ์ใหม่ๆ ได้อย่างรวดเร็วโดยการสร้างข้อมูล และสามารถปรับการตอบสนองให้เหมาะสมที่สุดแม้เมื่อเผชิญกับการซ่อมแซมถนนที่ซับซ้อนเป็นครั้งแรกภายในสามวัน ความยืดหยุ่นและการตัดสินนี้คือข้อได้เปรียบหลักของ VLA

ครูของ Li Auto คือ DeepSeek

การสนับสนุน VLA คือระบบทางเทคนิคที่ซับซ้อนและซับซ้อนซึ่งพัฒนาขึ้นโดย Li Auto อย่างอิสระ ระบบนี้ช่วยให้รถไม่เพียงแต่ "เข้าใจ" โลกเท่านั้น แต่ยังคิดและทำตัวเหมือนคนขับรถที่เป็นมนุษย์อีกด้วย

ประการแรกคือเทคโนโลยีการแสดงผลแบบ Gaussian 3 มิติ ซึ่งใช้ "จุด Gaussian" จำนวนมากเพื่อสร้างวัตถุ 3 มิติ แต่ละจุดมีข้อมูลตำแหน่ง สี และขนาดของตัวเอง เทคโนโลยีนี้ใช้การเรียนรู้แบบ self-supervised เพื่อฝึกฝนโมเดลการทำความเข้าใจเชิงพื้นที่ 3 มิติที่ทรงพลังโดยใช้ข้อมูลจริงจำนวนมาก ด้วยสิ่งนี้ VLA สามารถ "เข้าใจ" โลกโดยรอบได้เหมือนมนุษย์ โดยรู้ว่าสิ่งกีดขวางอยู่ที่ไหนและพื้นที่ที่สามารถผ่านได้อยู่ที่ไหน

ต่อไปคือสถาปัตยกรรม Mixture of Experts (MoE) ซึ่งประกอบด้วย expert network, gating network และ combiner เมื่อพารามิเตอร์ของโมเดลเกินหลายแสนล้าน วิธีการดั้งเดิมจะทำให้เซลล์ประสาททั้งหมดมีส่วนร่วมในการคำนวณแต่ละครั้ง ซึ่งเป็นการสิ้นเปลืองทรัพยากร gating network ในสถาปัตยกรรม MoE จะเรียกผู้เชี่ยวชาญที่แตกต่างกันตามงานที่แตกต่างกันเพื่อให้แน่ใจว่าพารามิเตอร์การเปิดใช้งานจะไม่เพิ่มขึ้นอย่างมีนัยสำคัญ

เมื่อพูดถึงเรื่องนี้ Li Xiang ก็ยกย่อง DeepSeek:

DeepSeek ใช้วิธีปฏิบัติที่ดีที่สุดของมนุษย์… เมื่อพวกเขาทำ DeepSeek V3 V3 ก็เป็น MoE เช่นกัน ซึ่งเป็นโมเดล 671B ฉันคิดว่า MoE เป็นสถาปัตยกรรมที่ดีมาก เทียบเท่ากับการรวมผู้เชี่ยวชาญจำนวนมากเข้าด้วยกัน และแต่ละคนก็มีความสามารถของผู้เชี่ยวชาญ

สุดท้าย Li Auto ได้แนะนำ Sparse Attention ให้กับ VLA ซึ่งในแง่ของคนธรรมดาหมายความว่า VLA จะปรับน้ำหนักความสนใจของพื้นที่สำคัญโดยอัตโนมัติ ซึ่งจะช่วยปรับปรุงประสิทธิภาพการอนุมานของส่วนท้าย

Li Xiang กล่าวว่าในกระบวนการฝึกอบรมของ base model ใหม่นี้ วิศวกรของ Li Auto ใช้เวลาอย่างมากในการค้นหาอัตราส่วนข้อมูลที่ดีที่สุด บูรณาการข้อมูล 3 มิติจำนวนมาก และข้อมูลข้อความและรูปภาพที่เกี่ยวข้องกับการขับขี่อัตโนมัติ และลดสัดส่วนของข้อมูลวรรณกรรมและประวัติศาสตร์

จากการรับรู้สู่การตัดสินใจ VLA ดึงเอาโหมดการผสมผสานระหว่างเร็วและช้าของการคิดของมนุษย์ สามารถส่งออกการตัดสินใจเชิงปฏิบัติที่เรียบง่ายได้อย่างรวดเร็ว เช่น การหลีกเลี่ยงฉุกเฉิน และยังสามารถใช้ห่วงโซ่การคิดสั้นๆ เพื่อ "คิดอย่างช้าๆ" เพื่อจัดการกับสถานการณ์ที่ซับซ้อนมากขึ้น เช่น การวางแผนเส้นทางชั่วคราวเพื่อเลี่ยงพื้นที่ก่อสร้าง เพื่อปรับปรุงประสิทธิภาพแบบเรียลไทม์ VLA ยังได้แนะนำเทคโนโลยีการให้เหตุผลเชิงเก็งกำไรและการถอดรหัสแบบขนาน โดยใช้ประโยชน์จากพลังการประมวลผลของชิปด้านยานพาหนะอย่างเต็มที่เพื่อให้แน่ใจว่ากระบวนการตัดสินใจนั้นรวดเร็วและไม่วุ่นวาย

เมื่อสร้างพฤติกรรมการขับขี่ VLA จะใช้ Diffusion model และ Reinforcement Learning from Human Feedback (RLHF) Diffusion model มีหน้าที่รับผิดชอบในการสร้างเส้นทางการขับขี่ที่เหมาะสมที่สุด ในขณะที่ RLHF ทำให้เส้นทางเหล่านั้นใกล้เคียงกับนิสัยของมนุษย์มากขึ้น ทั้งปลอดภัยและสะดวกสบาย ตัวอย่างเช่น VLA จะชะลอความเร็วโดยอัตโนมัติเมื่อเลี้ยว หรือเว้นระยะห่างที่ปลอดภัยเพียงพอเมื่อรวมเลน รายละเอียดเหล่านี้สะท้อนถึงการเรียนรู้เชิงลึกของพฤติกรรมการขับขี่ของมนุษย์

world model เป็นอีกหนึ่งเทคโนโลยีที่สำคัญ Li Auto มอบสภาพแวดล้อมเสมือนจริงที่มีคุณภาพสูงสำหรับการเรียนรู้แบบ reinforcement ผ่านการสร้างและสร้างฉากใหม่ Li Xiang เปิดเผยว่า world model ได้ลดต้นทุนการตรวจสอบจาก 170,000-180,000 หยวนต่อ 10,000 กิโลเมตร เหลือ 4,000 หยวน ช่วยให้ VLA สามารถปรับให้เหมาะสมอย่างต่อเนื่องในการจำลองและจัดการกับสถานการณ์ที่ซับซ้อนได้อย่างง่ายดาย

เมื่อพูดถึงการฝึกอบรม กระบวนการเติบโตของ VLA ก็ได้รับการจัดระเบียบอย่างดีเช่นกัน กระบวนการทั้งหมดแบ่งออกเป็นสามขั้นตอน: pre-training, post-training และ reinforcement learning "Pre-training เหมือนกับการเรียนรู้ความรู้ Post-training เหมือนกับการเรียนรู้ขับรถในโรงเรียนสอนขับรถ และ reinforcement learning เหมือนกับการฝึกงานทางสังคม" Li Xiang กล่าว

ในขั้นตอน pre-training Li Auto ได้สร้าง visual-language base model สำหรับ VLA โดยบรรจุข้อมูลภาพ 3 มิติ รูปภาพความละเอียดสูง 2 มิติ และ corpora ที่เกี่ยวข้องกับการขับขี่ ทำให้สามารถเรียนรู้ที่จะ "เห็น" และ "ได้ยิน" ก่อน หลังการฝึกอบรม โมดูลการกระทำจะถูกเพิ่มเข้าไป สร้างเส้นทางการขับขี่ 4-8 วินาที และโมเดลจะขยายจากพารามิเตอร์ 3.2 พันล้านเป็น 4 พันล้าน

Reinforcement learning แบ่งออกเป็นสองขั้นตอน: ขั้นแรก ใช้ RLHF เพื่อปรับแนวให้สอดคล้องกับนิสัยของมนุษย์ วิเคราะห์ข้อมูลการเข้าควบคุม และรับประกันความปลอดภัยและความสะดวกสบาย จากนั้น ใช้ reinforcement learning บริสุทธิ์เพื่อปรับให้เหมาะสมที่สุด โดยอิงตามค่า G (ความสะดวกสบาย) การชน และข้อเสนอแนะกฎจราจร เพื่อให้ VLA "ขับได้ดีกว่ามนุษย์" Li Xiang กล่าวว่าขั้นตอนนี้เสร็จสมบูรณ์ใน world model โดยจำลองสถานการณ์การจราจรจริง และประสิทธิภาพดีกว่าการตรวจสอบแบบดั้งเดิมมาก

วิธีการฝึกอบรมนี้ไม่เพียงแต่รับประกันความก้าวหน้าทางเทคนิคเท่านั้น แต่ยังทำให้ VLA น่าเชื่อถือเพียงพอในการใช้งานจริงอีกด้วย

Li Xiang ยอมรับว่าความสำเร็จของ VLA แยกไม่ออกจากแรงบันดาลใจของ benchmarks ในอุตสาหกรรม สถาปัตยกรรม MoE ของ DeepSeek ไม่เพียงแต่ปรับปรุงประสิทธิภาพการฝึกอบรมเท่านั้น แต่ยังมอบประสบการณ์อันมีค่าให้กับ Li Auto อีกด้วย เขาคร่ำครวญว่า: "เรากำลังยืนอยู่บนบ่าของยักษ์ใหญ่และเร่งการวิจัยและพัฒนา VLA" ทัศนคติการเรียนรู้แบบเปิดนี้ช่วยให้ Li Auto ก้าวไปได้ไกลกว่าในดินแดนที่ไม่เคยมีใครสำรวจ

จาก "เครื่องมือข้อมูล" สู่ "เครื่องมือการผลิต"

ปัจจุบัน อุตสาหกรรม AI กำลังอยู่ระหว่างการเปลี่ยนแปลงอย่างลึกซึ้งจาก "เครื่องมือข้อมูล" สู่ "เครื่องมือการผลิต" ด้วยความสมบูรณ์ของเทคโนโลยี large model AI ไม่ได้จำกัดอยู่แค่การประมวลผลข้อมูลและการให้คำแนะนำอีกต่อไป แต่เริ่มมีความสามารถในการตัดสินใจอย่างอิสระและดำเนินงานต่างๆ

Li Xiang เสนอใน AI Talk ซีซั่นที่สองว่า AI สามารถแบ่งออกเป็นเครื่องมือข้อมูล (เช่น การค้นหา) เครื่องมือช่วยเหลือ (เช่น การนำทางด้วยเสียง) และเครื่องมือการผลิต เขาเน้นย้ำว่า: "ปัญญาประดิษฐ์กลายเป็นเครื่องมือการผลิตคือช่วงเวลาแห่งการระเบิดที่แท้จริง" ด้วยความสมบูรณ์ของเทคโนโลยี large model AI ไม่ได้จำกัดอยู่แค่การประมวลผลข้อมูลอีกต่อไป แต่เริ่มมีความสามารถในการตัดสินใจอย่างอิสระและดำเนินงานต่างๆ

แนวโน้มนี้เห็นได้ชัดเจนเป็นพิเศษในแนวคิด "embodied intelligence" - ระบบ AI ได้รับเอนทิตีทางกายภาพ สามารถรับรู้ ทำความเข้าใจ และโต้ตอบกับสิ่งแวดล้อมได้

VLA model ของ Li Auto เป็นแนวปฏิบัติที่ชัดเจนของแนวโน้มนี้ ด้วยการบูรณาการวิสัยทัศน์ ภาษา และความฉลาดในการกระทำ จะเปลี่ยนรถให้กลายเป็น agent อัจฉริยะที่สามารถขับเคลื่อนด้วยตนเองและโต้ตอบกับผู้ใช้ได้อย่างเป็นธรรมชาติ ตีความแนวคิดหลักของ "embodied intelligence" ได้อย่างสมบูรณ์แบบ

ตราบใดที่มนุษย์จ้างคนขับรถมืออาชีพ ปัญญาประดิษฐ์ก็สามารถกลายเป็นเครื่องมือการผลิตได้ เมื่อ AI กลายเป็นเครื่องมือการผลิต ปัญญาประดิษฐ์ก็จะระเบิดอย่างแท้จริง

คำกล่าวของ Li Xiang ชี้แจงถึงคุณค่าหลักของ VLA - ไม่ใช่แค่เครื่องมือช่วยเหลือที่เรียบง่ายอีกต่อไป แต่เป็น "driver agent" ที่สามารถปฏิบัติงานได้อย่างอิสระและรับผิดชอบ การเปลี่ยนแปลงนี้ไม่เพียงแต่ปรับปรุงมูลค่าเชิงปฏิบัติของรถยนต์เท่านั้น แต่ยังเปิดพื้นที่จินตนาการสำหรับการประยุกต์ใช้ AI ในสาขาอื่นๆ อีกด้วย

การคิดเกี่ยวกับ AI ของ Li Xiang มักจะมีมุมมองที่แหวกแนวเสมอ เขายังกล่าวอีกว่า: "VLA ไม่ใช่กระบวนการเปลี่ยนแปลงที่เกิดขึ้นอย่างกะทันหัน แต่เป็นกระบวนการวิวัฒนาการ" ประโยคนี้สรุปเส้นทางทางเทคนิคของ Li Auto ได้อย่างแม่นยำ -

จากระบบที่ขับเคลื่อนด้วยกฎในยุคแรก สู่ความก้าวหน้าแบบ end-to-end สู่ระดับ "ความฉลาดของมนุษย์" ของ VLA ในปัจจุบัน การคิดเชิงวิวัฒนาการนี้ไม่เพียงแต่ทำให้ VLA มีความเป็นไปได้มากขึ้นในด้านเทคโนโลยีเท่านั้น แต่ยังให้กระบวนทัศน์อ้างอิงสำหรับอุตสาหกรรมอีกด้วย เมื่อเทียบกับความพยายามบางอย่างที่ไล่ตามการล้มล้างอย่างสุ่มสี่สุ่มห้า เส้นทางที่ใช้งานได้จริงของ Li Auto อาจเหมาะสมกว่าสำหรับตลาดจีนที่ซับซ้อน

จากเทคโนโลยีสู่ความเชื่อ การสำรวจ AI ของ Li Auto ไม่ราบรื่น Li Xiang ยอมรับว่า: "เราได้เผชิญกับความท้าทายมากมายในด้าน AI เช่น ความมืดก่อนรุ่งอรุณ แต่เราเชื่อว่าถ้าเราพากเพียร เราจะเห็นแสงสว่าง" การวิจัยและพัฒนา VLA เผชิญกับปัญหาต่างๆ เช่น ข้อจำกัดด้านพลังการประมวลผลและจริยธรรมข้อมูล แต่ Li Auto ได้นำพาแสงสว่างทางเทคโนโลยีมาสู่บริษัททีละน้อยผ่าน base model และ world model ที่พัฒนาขึ้นเอง

Li Xiang ยังกล่าวในการสัมภาษณ์ว่าความสำเร็จของ VLA แยกไม่ออกจากความก้าวหน้าของ AI ของจีน

เขากล่าวว่าการเกิดขึ้นของโมเดลต่างๆ เช่น DeepSeek และ Tongyi Qianwen ทำให้ระดับ AI ของจีนเข้าใกล้สหรัฐอเมริกาอย่างรวดเร็ว ในบรรดาสิ่งเหล่านี้ จิตวิญญาณโอเพนซอร์สที่ DeepSeek ยึดถือเป็นสิ่งที่น่ายินดียิ่ง โดยกระตุ้นให้ Li Auto เปิดโอเพนซอร์ส Xinghuan OS โดยตรง Li Xiang กล่าวว่า: "นี่ไม่ใช่เพราะข้อพิจารณาเชิงกลยุทธ์ของบริษัท DeepSeek ได้ให้ความช่วยเหลือแก่เรามากมาย เราควรมีส่วนร่วมบางอย่างต่อสังคม"

ในขณะที่ไล่ตามความก้าวหน้าทางเทคโนโลยี Li Auto ไม่ได้เพิกเฉยต่อปัญหาด้านความปลอดภัยและจริยธรรมของเทคโนโลยี AI เทคโนโลยี "super alignment" ที่ VLA นำมาใช้ทำให้พฤติกรรมของโมเดลใกล้เคียงกับนิสัยของมนุษย์มากขึ้นผ่าน Reinforcement Learning from Human Feedback (RLHF) ข้อมูลแสดงให้เห็นว่าการประยุกต์ใช้ VLA ได้เพิ่ม MPI (ระยะทางแทรกแซงเฉลี่ย) ความเร็วสูงจาก 240 กม. เป็น 300 กม.

ที่สำคัญกว่านั้นคือ Li Auto เน้นย้ำถึงการสร้าง "AI ด้วยค่านิยมของมนุษย์" และถือว่าศีลธรรมและความไว้วางใจเป็นรากฐานของการพัฒนาเทคโนโลยี จากมุมมองที่กว้างขึ้น ความสำคัญของ VLA อยู่ที่การกำหนดบทบาทของบริษัทรถยนต์ใหม่

ในอดีต รถยนต์เป็นวิธีการขนส่งในยุคอุตสาหกรรม วันนี้ รถยนต์กำลังพัฒนาไปสู่ "spatial robot" ในยุคปัญญาประดิษฐ์ Li Xiang กล่าวใน AI Talk ว่า: "Li Auto เคยเดินอยู่ในดินแดนที่ไม่เคยมีใครสำรวจของรถยนต์ และจะเดินอยู่ในดินแดนที่ไม่เคยมีใครสำรวจของปัญญาประดิษฐ์ในอนาคต" การเปลี่ยนแปลงของ Li Auto นำมาซึ่งพื้นที่จินตนาการใหม่สำหรับรูปแบบธุรกิจของอุตสาหกรรมยานยนต์

แน่นอน การพัฒนา VLA ไม่ใช่เรื่องท้าทาย การลงทุนอย่างต่อเนื่องด้านพลังการประมวลผล จริยธรรมข้อมูล และการสร้างความไว้วางใจของผู้บริโภคในการขับขี่อัตโนมัติ ล้วนเป็นประเด็นที่ Li Auto ต้องเผชิญ นอกจากนี้ การแข่งขันในอุตสาหกรรม AI กำลังทวีความรุนแรงขึ้น ยักษ์ใหญ่ทั้งในและต่างประเทศ เช่น Tesla, Waymo และ OpenAI กำลังเร่งการวางผังของโมเดล multi-modal Li Auto จำเป็นต้องรักษาสถานะผู้นำในการทำซ้ำเทคโนโลยีและการส่งเสริมการตลาด "เราไม่มีทางลัด เราทำได้แค่ปลูกฝังอย่างลึกซึ้ง" Li Xiang กล่าว

ไม่ต้องสงสัยเลยว่าการลงจอดของ VLA จะเป็นโหนดสำคัญ

Li Auto วางแผนที่จะเปิดตัว VLA พร้อมกับ SUV ไฟฟ้าบริสุทธิ์ Li Auto i8 พร้อมกันในเดือนกรกฎาคม 2025 และบรรลุการผลิตจำนวนมากในปี 2026 นี่ไม่ใช่แค่การทดสอบเทคโนโลยีอย่างครอบคลุมเท่านั้น แต่ยังเป็นหินลองที่สำคัญสำหรับตลาดอีกด้วย