במרץ השנה, בכנס ה-GTC האביבי של NVIDIA לשנת 2025, ג’יה פנג, ראש מחלקת מחקר ופיתוח טכנולוגיית נהיגה אוטונומית ב-Li Auto, הציג את ההישג האחרון שלהם: מודל MindVLA גדול.
מודל זה הוא Vision-Language-Action Model (VLA) עם 2.2 מיליארד פרמטרים. ג’יה פנג הצהיר עוד כי הם הצליחו לפרוס את המודל בכלי רכב. Li Auto מאמינה כי מודלי VLA הם השיטה היעילה ביותר לפתרון האתגרים של בינה מלאכותית באינטראקציה עם העולם הפיזי.
במהלך השנה האחרונה, ארכיטקטורת מקצה לקצה הפכה למוקד טכנולוגי בתחום הנהיגה החכמה, מה שמניע חברות רכב לעבור מתכנון כללים מודולרי מסורתי למערכות משולבות. חברות רכב שהובילו בעבר עם אלגוריתמים מבוססי כללים מתמודדות עם כאבי מעבר, בעוד שאלה שהגיעו מאוחר יותר ניצלו את ההזדמנות ליתרון תחרותי.
Li Auto היא דוגמה מצוינת לכך.
ההתקדמות של Li Auto בנהיגה חכמה בשנה שעברה יכולה להיות מתוארת כמהירה. ביולי, היא לקחה את ההובלה בהשגת NOA (Navigation on Autopilot) ארצי ללא מפה והשיקה ארכיטקטורת “מקצה לקצה (מערכת מהירה) + VLM (מערכת איטית)” ייחודית, שזכתה לתשומת לב רחבה בתעשייה.
הערב, עם העונה השנייה של Li Auto AI Talk, השגנו הבנה מעמיקה יותר של מה שלי שיאנג מכנה “חברת בינה מלאכותית”.
“מודל הנהג הגדול” הוא גם הנהג שלך
לי שיאנג, מנכ”ל Li Auto, הזכיר לראשונה את VLA בעונה הראשונה של AI Talk בדצמבר האחרון, בשיחה עם ג’אנג שיאוג’ון, הכותב הטכנולוגי הראשי של Tencent News. באותה תקופה הוא אמר:
מה שאנו עושים עם Li Auto Companion ונהיגה אוטונומית מופרד למעשה על פי תקני התעשייה, וזה בשלבים המוקדמים. Mind GPT שאנחנו עושים הוא למעשה מודל שפה גדול; הנהיגה האוטונומית שאנחנו עושים, אנחנו קוראים לזה מודיעין התנהגותי באופן פנימי, אבל כפי שהוגדר על ידי לי פייפיי (פרופסור לכל החיים בסטנפורד, מדען ראשי לשעבר בגוגל), זה נקרא מודיעין מרחבי. רק כשעושים את זה באמת בקנה מידה גדול יודעים ששניהם בהחלט יתחברו יום אחד. אנו קוראים לזה VLA (Vision Language Action Model) באופן פנימי.
לי שיאנג מאמין שמודל הבסיס בהחלט יהפוך ל-VLA ברגע מסוים. הסיבה לכך היא שמודלי שפה יכולים להבין את העולם התלת מימדי רק באמצעות שפה והכרה, וזה כמובן לא מספיק. "זה צריך להיות מבוסס וקטור באמת, להשתמש ב-Diffusion (מודל דיפוזיה), ולהשתמש בשיטות גנרטיביות (כדי להבין את העולם)."
אפשר לומר שהולדתו של VLA היא לא רק ניסיון נועז לשלב באופן מעמיק מודיעין שפתי ומודיעין מרחבי, אלא גם פרשנות מחודשת של המושג "מכונית חכמה" על ידי Li Auto.
לי שיאנג הגדיר עוד ב-AI Talk של הלילה: "VLA הוא מודל נהג גדול, שפועל כמו נהג אנושי." זה לא רק טכנולוגיה, אלא גם שותף אינטליגנטי שיכול לתקשר באופן טבעי עם משתמשים ולקבל החלטות עצמאיות.
אז, מהו בעצם VLA? הליבה היא למעשה מאוד פשוטה: על ידי שילוב תפיסה חזותית, הבנת שפה טבעית ויכולות יצירת פעולה, הרכב הופך ל"סוכן נהיגה" שיכול לתקשר עם אנשים ולקבל החלטות משלו.
תארו לעצמכם שאתם יושבים במכונית שלכם ואומרים באקראי, "אני קצת עייף היום, סע לאט יותר," והרכב לא רק יבין למה אתם מתכוונים, אלא גם יתאים את המהירות שלו ואף יבחר מסלול חלק יותר. האינטראקציה הטבעית והחלקה הזו היא בדיוק מה ש-VLA רוצה להשיג. לי שיאנג חשף שכל הפקודות הקצרות מעובדות ישירות על ידי הרכב, בעוד שפקודות מורכבות מנותחות על ידי המודל מבוסס הענן של 3.2 מיליארד פרמטרים, מה שמבטיח גם יעילות וגם אינטליגנציה.
השגת מטרה זו אינה קלה. הדבר המיוחד ב-VLA הוא שהוא מחבר בין שלושת הממדים של ראייה, שפה ופעולה. פקודה פשוטה מהמשתמש עשויה לכלול תפיסה בזמן אמת של הסביבה, הבנה מדויקת של כוונת השפה והתאמה מהירה של התנהגות הנהיגה. השלושה הם הכרחיים.
והדבר הגדול ב-VLA הוא שהוא מאפשר לשלושת אלה לעבוד יחד בצורה חלקה.
מראייה למציאות, המחקר והפיתוח של VLA הוא שטח לא ממופה. לי שיאנג הודה: "רכישת נתוני ראייה ופעולה היא הקשה ביותר. אף חברה לא יכולה להחליף אותה."
כדי להבין את הרקע הטכני של VLA, עלינו להסתכל גם על האבולוציה של הנהיגה החכמה של Li Auto.
לי שיאנג אמר שהמערכת המוקדמת הייתה אינטליגנציה "ברמת חרקים", עם מיליוני פרמטרים בלבד, מונעת על ידי כללים ומפות ברמת דיוק גבוהה, והייתה חסרת אונים כאשר נתקלה בתנאי דרך מורכבים. מאוחר יותר, ארכיטקטורת מקצה לקצה ומודלים חזותיים-לשוניים אפשרו לטכנולוגיה לקפוץ ל"רמת יונקים", להיפטר מתלות במפה, ו-NOA ארצי ללא מפה הפך למציאות.
למעשה, צעד זה כבר העמיד את Li Auto בחזית התעשייה, אבל הם כמובן לא מסתפקים בכך. לדעתו של לי שיאנג, הופעתו של VLA מסמנת שטכנולוגיית הנהיגה החכמה של Li Auto נכנסה לשלב חדש של "מודיעין אנושי".
בהשוואה למערכת הקודמת, VLA יכול לא רק לתפוס את העולם הפיזי התלת מימדי, אלא גם לבצע נימוק לוגי ואף ליצור התנהגויות נהיגה הקרובות לרמה אנושית.
לדוגמה פשוטה, נניח שאתה אומר "תמצא מקום להסתובב" ברחוב עמוס, VLA לא יבצע את הפקודה באופן מכני, אלא ישקול באופן מקיף את תנאי הדרך, זרימת התנועה ותקנות התנועה כדי למצוא את הזמן והמקום ההגיוניים ביותר להשלמת פניית הפרסה.
לי שיאנג אמר ש-VLA יכול להסתגל במהירות לתרחישים חדשים על ידי יצירת נתונים, ויכול לייעל תגובות גם כאשר נתקלים בתיקוני דרך מורכבים בפעם הראשונה תוך שלושה ימים. גמישות ושיקול דעת זה הם היתרונות העיקריים של VLA.
המורה של Li Auto הוא DeepSeek
תמיכה ב-VLA היא מערכת טכנית מורכבת ומתוחכמת שפותחה באופן עצמאי על ידי Li Auto. מערכת זו מאפשרת למכונית לא רק "להבין" את העולם, אלא גם לחשוב ולפעול כמו נהג אנושי.
הראשונה היא טכנולוגיית ייצוג גאוסיאני תלת מימדית, המשתמשת ב"נקודות גאוסיאניות" רבות כדי ליצור אובייקט תלת מימדי. כל נקודה מכילה את המיקום, הצבע ומידע הגודל שלה. טכנולוגיה זו משתמשת בלמידה בפיקוח עצמי כדי לאמן מודל הבנה מרחבית תלת מימדית רב עוצמה באמצעות נתונים אמיתיים מסיביים. בעזרתו, VLA יכול "להבין" את העולם הסובב כמו אדם, לדעת היכן המכשולים והיכן האזורים העבירים.
הבא הוא ארכיטקטורת Mixture of Experts (MoE), המורכבת מרשתות מומחים, רשתות שערים ומשלבות. כאשר פרמטרי המודל עולים על מאות מיליארדים, השיטה המסורתית תגרום לכל הנוירונים להשתתף בכל חישוב, וזה בזבוז משאבים. רשת השערים בארכיטקטורת MoE תקרא למומחים שונים בהתאם למשימות שונות כדי להבטיח שפרמטרי ההפעלה לא יגדלו באופן משמעותי.
כשדיבר על כך, לי שיאנג גם שיבח את DeepSeek:
DeepSeek משתמשת בשיטות העבודה המומלצות ביותר של האנושות… כשעשו את DeepSeek V3, V3 הייתה גם MoE, מודל 671B. אני חושב ש-MoE היא ארכיטקטורה טובה מאוד. זה שווה ערך לשילוב של חבורה של מומחים יחד, וכל אחד הוא יכולת מומחה.
לבסוף, Li Auto הציגה Sparse Attention ל-VLA, שבמילים פשוטות פירושה ש-VLA יתאים אוטומטית את משקלי תשומת הלב של אזורי מפתח, ובכך ישפר את יעילות ההסקה של הצד הסופי.
לי שיאנג אמר שבתהליך האימון של מודל בסיס חדש זה, המהנדסים של Li Auto בילו זמן רב במציאת יחס הנתונים הטוב ביותר, שילוב של כמות גדולה של נתוני תלת מימד ונתוני טקסט ותמונה הקשורים לנהיגה אוטונומית, והפחתת שיעור נתוני הספרות וההיסטוריה.
מתפיסה לקבלת החלטות, VLA שואב מהשילוב המהיר והאיטי של אופן החשיבה האנושי. הוא יכול להוציא במהירות החלטות פעולה פשוטות, כגון הימנעות חירום, ויכול גם להשתמש בשרשראות חשיבה קצרות כדי "לחשוב לאט" כדי להתמודד עם תרחישים מורכבים יותר, כגון תכנון זמני של מסלול לעקיפת אזור הבנייה. על מנת לשפר עוד יותר את הביצועים בזמן אמת, VLA הציגה גם נימוקים ספקולטיביים וטכנולוגיית פענוח מקבילי, תוך ניצול מלא של כוח המחשוב של שבב צד הרכב כדי להבטיח שתהליך קבלת ההחלטות יהיה מהיר ולא כאוטי.
בעת יצירת התנהגות נהיגה, VLA משתמש במודלי Diffusion וב-Reinforcement Learning from Human Feedback (RLHF). מודל ה-Diffusion אחראי ליצירת מסלולי נהיגה אופטימליים, בעוד ש-RLHF הופך את המסלולים הללו לקרובים יותר להרגלים אנושיים, בטוחים ונוחים כאחד. לדוגמה, VLA תאט אוטומטית בפנייה, או תשאיר מספיק מרחק בטוח בעת מיזוג נתיבים. פרטים אלה משקפים את הלמידה העמוקה של התנהגות נהיגה אנושית.
מודל העולם הוא טכנולוגיית מפתח נוספת. Li Auto מספקת סביבה וירטואלית באיכות גבוהה ללמידת חיזוק באמצעות שחזור ויצירת סצנות. לי שיאנג חשף שמודל העולם הפחית את עלות האימות מ-170,000-180,000 יואן לכל 10,000 קילומטרים ל-4,000 יואן. זה מאפשר ל-VLA לייעל באופן רציף בסימולציה ולהתמודד עם תרחישים מורכבים בקלות.
כשדיבר על אימון, תהליך הצמיחה של VLA מאורגן גם הוא למדי. התהליך כולו מחולק לשלושה שלבים: אימון מוקדם, אימון פוסט וחיזוק למידה. "אימון מוקדם הוא כמו ללמוד ידע, אימון פוסט הוא כמו ללמוד לנהוג בבית ספר לנהיגה, וחיזוק למידה הוא כמו פרקטיקה חברתית," אמר לי שיאנג.
בשלב האימון המוקדם, Li Auto יצרה מודל בסיס חזותי-לשוני עבור VLA, דחפה אותו עם נתוני ראייה תלת מימדיים עשירים, תמונות בהבחנה גבוהה דו-ממדית וקורפוסים הקשורים לנהיגה, מה שאפשר לו ללמוד תחילה "לראות" ו"לשמוע"; לאחר האימון, מתווסף מודול הפעולה, היוצר מסלולי נהיגה של 4-8 שניות, והמודל מתרחב מ-3.2 מיליארד פרמטרים ל-4 מיליארד.
חיזוק למידה מחולק לשני שלבים: ראשית, השתמש ב-RLHF כדי ליישר הרגלים אנושיים, לנתח נתוני השתלטות ולהבטיח בטיחות ונוחות; לאחר מכן, השתמש בחיזוק למידה טהורה כדי לייעל, בהתבסס על משוב G-value (נוחות), התנגשות ותקנות תנועה, כך ש-VLA "נוהג טוב יותר מבני אדם." לי שיאנג הזכיר ששלב זה הושלם במודל העולם, תוך הדמיית תרחישי תנועה אמיתיים, והיעילות טובה בהרבה מאימות מסורתי.
שיטת אימון זו לא רק מבטיחה את ההתקדמות הטכנית, אלא גם הופכת את VLA לאמין מספיק ביישומים מעשיים.
לי שיאנג הודה שהצלחת ה-VLA אינה ניתנת להפרדה מההשראה של אמות מידה בתעשייה. ארכיטקטורת ה-MoE של DeepSeek לא רק שיפרה את יעילות האימון, אלא גם סיפקה ניסיון רב ערך עבור Li Auto. הוא התאונן: "אנו עומדים על כתפי ענקים ומאיצים את המחקר והפיתוח של VLA." גישת למידה פתוחה זו מאפשרת ל-Li Auto להתקדם הלאה בארץ הפקר.
מ"כלי מידע" ל"כלי ייצור"
נכון לעכשיו, תעשיית הבינה המלאכותית עוברת שינוי עמוק מ"כלי מידע" ל"כלי ייצור." עם התבגרות טכנולוגיית המודלים הגדולים, הבינה המלאכותית אינה מוגבלת עוד לעיבוד נתונים ומסירת הצעות, אלא מתחילה להיות בעלת יכולת לקבל החלטות עצמאיות ולבצע משימות.
לי שיאנג הציע בעונה השנייה של AI Talk שניתן לחלק את הבינה המלאכותית לכלי מידע (כגון חיפוש), כלי עזר (כגון ניווט קולי) וכלי ייצור. הוא הדגיש: "בינה מלאכותית שהופכת לכלי ייצור היא רגע ההתפרצות האמיתי." עם התבגרות טכנולוגיית המודלים הגדולים, הבינה המלאכותית אינה מוגבלת עוד לעיבוד נתונים, אלא מתחילה להיות בעלת יכולת לקבל החלטות עצמאיות ולבצע משימות.
מגמה זו בולטת במיוחד במושג "בינה מגולמת" - מערכות בינה מלאכותית מקבלות ישויות פיזיות, המסוגלות לחוש, להבין ולקיים אינטראקציה עם הסביבה.
מודל ה-VLA של Li Auto הוא תרגול חי של מגמה זו. על ידי שילוב ראייה, שפה ובינת פעולה, הוא הופך את המכונית לסוכן אינטליגנטי שיכול לנהוג באופן אוטונומי ולקיים אינטראקציה טבעית עם משתמשים, תוך פרשנות מושלמת של מושג הליבה של "בינה מגולמת."
כל עוד בני אדם שוכרים נהגים מקצועיים, בינה מלאכותית יכולה להפוך לכלי ייצור. כאשר הבינה המלאכותית הופכת לכלי ייצור, הבינה המלאכותית תתפוצץ באמת.
הערותיו של לי שיאנג הבהירו את ערך הליבה של VLA - הוא אינו כלי עזר פשוט יותר, אלא "סוכן נהיגה" שיכול לבצע משימות באופן עצמאי ולקחת אחריות. שינוי זה לא רק משפר את הערך המעשי של מכוניות, אלא גם פותח מרחב דמיון ליישום הבינה המלאכותית בתחומים אחרים.
לחשיבה של לי שיאנג על בינה מלאכותית יש תמיד פרספקטיבה שפורצת מהקופסה. הוא גם הזכיר: "VLA אינו תהליך שינוי פתאומי, אלא תהליך אבולוציוני." משפט זה מסכם במדויק את הנתיב הטכני של Li Auto -
מהנעה מוקדמת מבוססת כללים, לפריצות דרך מקצה לקצה, לרמת "האינטליגנציה האנושית" של VLA של היום. חשיבה אבולוציונית זו לא רק הופכת את VLA ליותר אפשרית בטכנולוגיה, אלא גם מספקת פרדיגמה להתייחסות לתעשייה. בהשוואה לכמה ניסיונות שרודפים באופן עיוור אחר חתרנות, הנתיב הפרגמטי של Li Auto עשוי להתאים יותר לשוק הסיני המורכב.
מטכנולוגיה לאמונה, חקר הבינה המלאכותית של Li Auto אינו חלק. לי שיאנג הודה: "חווינו אתגרים רבים בתחום הבינה המלאכותית, כמו החושך שלפני עלות השחר, אך אנו מאמינים שאם נתמיד, נראה את האור." המחקר והפיתוח של VLA מתמודדים עם בעיות כמו צווארי בקבוק של כוח מחשוב ואתיקה של נתונים, אך Li Auto בישרה בהדרגה את שחר הטכנולוגיה שלהם באמצעות מודלים בסיסיים שפותחו בעצמם ומודלי עולם.
לי שיאנג הזכיר גם בראיון שהצלחת ה-VLA אינה ניתנת להפרדה מעלייתה של הבינה המלאכותית הסינית.
הוא אמר שהופעתם של מודלים כמו DeepSeek ו-Tongyi Qianwen הפכה את רמת הבינה המלאכותית של סין לקרובה במהירות לארצות הברית. בין היתר, רוח הקוד הפתוח שדוגלת בה DeepSeek מעודדת במיוחד, מה שגרם ישירות ל-Li Auto לפתוח את Xinghuan OS בקוד פתוח. לי שיאנג אמר: "זה לא מתוך שיקולים אסטרטגיים של החברה. DeepSeek נתנה לנו כל כך הרבה עזרה, עלינו לתרום משהו לחברה."
תוך כדי רדיפה אחר פריצות דרך טכנולוגיות, Li Auto לא התעלמה מנושאי הבטיחות והאתיקה של טכנולוגיית הבינה המלאכותית. טכנולוגיית "היישור הסופר" שהוצגה על ידי VLA הופכת את התנהגות המודל לקרובה יותר להרגלים אנושיים באמצעות Reinforcement Learning from Human Feedback (RLHF). נתונים מראים שהיישום של VLA הגדיל את ה-MPI המהיר (קילומטראז’ התערבות ממוצע) מ-240 ק”מ ל-300 ק”מ.
חשוב מכך, Li Auto מדגישה בניית "בינה מלאכותית עם ערכים אנושיים" ורואה במוסר ואמון את אבן הפינה של הפיתוח הטכנולוגי. מנקודת מבט מאקרו יותר, המשמעות של VLA טמונה בכך שהוא מגדיר מחדש את תפקידם של חברות רכב.
בעבר, מכוניות היו אמצעי תחבורה בעידן התעשייה; כיום, הם מתפתחים ל"רובוטים מרחביים" בעידן הבינה המלאכותית. לי שיאנג הזכיר ב-AI Talk: "Li Auto נהגה לצעוד בארץ הפקר של מכוניות, ותצעד בארץ הפקר של בינה מלאכותית בעתיד." השינוי הזה של Li Auto מביא מרחב דמיון חדש למודל העסקי של תעשיית הרכב.
כמובן, הפיתוח של VLA אינו חף מאתגרים. ההשקעה המתמשכת של כוח מחשוב, אתיקה של נתונים וביסוס אמון הצרכנים בנהיגה אוטונומית הם כולם נושאים ש-Li Auto צריכה להתמודד איתם. בנוסף, התחרות בתעשיית הבינה המלאכותית הולכת וגוברת. ענקיות מקומיות וזרות כמו טסלה, Waymo ו-OpenAI מאיצות את פריסת המודלים הרב-מודאליים. Li Auto צריכה לשמור על מעמדה המוביל באיטרציה טכנולוגית וקידום שוק. "אין לנו קיצורי דרך, אנחנו יכולים רק לטפח לעומק," אמר לי שיאנג.
ללא ספק, נחיתת ה-VLA תהיה צומת מפתח.
Li Auto מתכננת לשחרר את VLA בו זמנית עם רכב השטח החשמלי הטהור Li Auto i8 ביולי 2025, ולהשיג ייצור המוני בשנת 2026. זהו לא רק מבחן מקיף של טכנולוגיה, אלא גם אבן בוחן חשובה לשוק.