Mwaka huu, mnamo Machi, katika kongamano la NVIDIA la 2025 Spring GTC, Jia Peng, Mkuu wa R&D ya Teknolojia ya Uendeshaji Kiotomatiki katika Li Auto, alianzisha mafanikio yao ya hivi karibuni: mfumo mkuu wa MindVLA.
Mfumo huu ni Vision-Language-Action Model (VLA) yenye parameta bilioni 2.2. Jia Peng alisema zaidi kuwa wamefanikiwa kuweka mfumo huo kwenye magari. Li Auto inaamini kuwa mifumo ya VLA ndiyo njia bora zaidi ya kutatua changamoto za AI kuingiliana na ulimwengu halisi.
Katika mwaka uliopita, usanifu wa mwisho hadi mwisho umekuwa eneo lenye msisimko wa kiteknolojia katika uwanja wa uendeshaji akili, ukiendesha kampuni za magari kuhama kutoka muundo wa kimfumo wa kimoduli wa kimila hadi mifumo iliyojumuishwa. Kampuni za magari ambazo hapo awali ziliongoza na algoriti zinazotegemea sheria zinakabiliwa na maumivu ya mpito, huku wacheleweshaji wamechukua fursa ya faida ya ushindani.
Li Auto ni mfano mkuu wa hili.
Maendeleo ya Li Auto katika uendeshaji akili mwaka jana yanaweza kuelezewa kama ya haraka. Mnamo Julai, ilichukua hatua ya kuongoza katika kufikia NOA (Navigation on Autopilot) ya kitaifa bila ramani na ilizindua usanifu wa kipekee wa "mwisho hadi mwisho (mfumo wa haraka) + VLM (mfumo wa polepole)," ambayo imepokea umakini mkubwa katika tasnia.
Usiku huu, na msimu wa pili wa Li Auto AI Talk, tumepata uelewa wa kina wa kile Li Xiang anachokiita "kampuni ya akili bandia."
"Mfumo Mkuu wa Udereva" Pia Ni Dereva Wako
Li Xiang, CEO wa Li Auto, kwanza alitaja VLA katika msimu wa kwanza wa AI Talk mnamo Desemba iliyopita, katika mazungumzo na Zhang Xiaojun, mwandishi mkuu wa teknolojia wa Tencent News. Wakati huo, alisema:
Kile tunachofanya na Li Auto Companion na uendeshaji otomatiki kwa kweli ni tofauti kulingana na viwango vya tasnia, na iko katika hatua za mwanzo. Akili bandia ya Mind GPT tunayofanya kwa kweli ni mfumo mkuu wa lugha; uendeshaji otomatiki tunafanya, tunaiita akili ya kitabia ndani, lakini kama ilivyoelezewa na Li Feifei (Profesa wa Maisha wa Stanford, Mwanasayansi Mkuu wa zamani wa Google), inaitwa akili ya anga. Ni wakati tu utakapofanya kwa kiwango kikubwa ndipo utakapojua kuwa hizi mbili hakika zitaunganishwa siku moja. Tunaiita VLA (Vision Language Action Model) ndani.
Li Xiang anaamini kuwa mfumo mkuu hakika utakuwa VLA wakati fulani. Sababu ni kwamba mifumo ya lugha inaweza tu kuelewa ulimwengu wa pande tatu kupitia lugha na utambuzi, ambayo ni dhahiri haitoshi. "Inahitaji kuwa ya msingi wa vekta kweli, kwa kutumia Diffusion (mfumo wa utawanyiko), na kutumia mbinu za uzalishaji (kuelewa ulimwengu)."
Inaweza kusemwa kuwa kuzaliwa kwa VLA sio jaribio la ujasiri tu la kuunganisha kwa kina akili ya lugha na akili ya anga, lakini pia tafsiri mpya ya dhana ya "gari lenye akili" na Li Auto.
Li Xiang alielezea zaidi katika AI Talk ya usiku huu: "VLA ni mfumo mkuu wa udereva, unaofanya kazi kama dereva binadamu." Sio teknolojia tu, bali pia mshirika mwenye akili ambaye anaweza kuwasiliana kawaida na watumiaji na kufanya maamuzi huru.
Kwa hivyo, VLA ni nini hasa? Msingi kwa kweli ni wa moja kwa moja sana: kwa kuunganisha utambuzi wa kuona, uelewa wa lugha asilia, na uwezo wa uzalishaji wa vitendo, gari inakuwa "wakala wa udereva" ambaye anaweza kuwasiliana na watu na kufanya maamuzi yake mwenyewe.
Fikiria kukaa kwenye gari lako na kusema kawaida, "Nimechoka kidogo leo, endesha polepole," na gari haitaelewa tu unachomaanisha, lakini pia itarekebisha kasi yake na hata kuchagua njia laini. Mwingiliano huu wa asili na laini ndio hasa VLA inataka kufikia. Li Xiang alifunua kuwa amri zote fupi zinashughulikiwa moja kwa moja na gari, wakati amri ngumu zinachambuliwa na mfumo wa parameta bilioni 3.2 wa msingi wa wingu, kuhakikisha ufanisi na akili.
Kufikia lengo hili sio rahisi. Jambo maalum kuhusu VLA ni kwamba inaunganisha vipimo vitatu vya kuona, lugha, na hatua. Amri rahisi kutoka kwa mtumiaji inaweza kuhusisha utambuzi wa wakati halisi wa mazingira, uelewa sahihi wa nia ya lugha, na marekebisho ya haraka ya tabia ya kuendesha gari. Hizi tatu ni muhimu.
Na jambo kubwa kuhusu VLA ni kwamba inaruhusu hizi tatu kufanya kazi pamoja bila mshono.
Kutoka kwa kuona hadi uhalisia, R&D ya VLA ni eneo ambalo halijachunguzwa. Li Xiang alikiri: "Upataji wa data ya kuona na hatua ndio ngumu zaidi. Hakuna kampuni inayoweza kuibadilisha."
Ili kuelewa msingi wa kiufundi wa VLA, lazima pia tuangalie mageuzi ya uendeshaji akili wa Li Auto.
Li Xiang alisema kuwa mfumo wa mapema ulikuwa akili ya "kiwango cha wadudu," na parameta milioni chache tu, iliyoendeshwa na sheria na ramani za usahihi wa hali ya juu, na haikuwa na msaada wakati wa kukutana na hali ngumu za barabara. Baadaye, usanifu wa mwisho hadi mwisho na mifumo ya lugha ya kuona iliruhusu teknolojia kuruka hadi "kiwango cha mamalia," kuondoa utegemezi wa ramani, na NOA ya kitaifa bila ramani ikawa ukweli.
Kwa kweli, hatua hii tayari imeweka Li Auto mstari wa mbele katika tasnia, lakini kwa wazi hawajaridhika na hili. Kwa mtazamo wa Li Xiang, kuibuka kwa VLA kunaashiria kuwa teknolojia ya uendeshaji akili ya Li Auto imeingia katika hatua mpya ya "akili ya binadamu."
Ikilinganishwa na mfumo uliopita, VLA haiwezi tu kutambua ulimwengu wa kimwili wa 3D, lakini pia kufanya hoja za kimantiki na hata kutoa tabia za kuendesha gari karibu na kiwango cha binadamu.
Kwa mfano rahisi, tuseme unasema "tafuta mahali pa kugeuka" kwenye barabara iliyojaa, VLA haitatekeleza amri kiufundi, lakini itazingatia kikamilifu hali ya barabara, mtiririko wa trafiki, na sheria za trafiki ili kupata wakati na eneo linalofaa zaidi kukamilisha mzunguko wa U.
Li Xiang alisema kuwa VLA inaweza kuzoea haraka hali mpya kwa kutoa data, na inaweza kuboresha majibu hata wakati wa kukutana na ukarabati tata wa barabara kwa mara ya kwanza ndani ya siku tatu. Ubadilikaji huu na hukumu ndio faida kuu za VLA.
Mwalimu wa Li Auto Ni DeepSeek
Kusaidia VLA ni mfumo tata na wa kisasa wa kiufundi uliotengenezwa kwa kujitegemea na Li Auto. Mfumo huu unaruhusu gari sio tu "kuelewa" ulimwengu, lakini pia kufikiria na kutenda kama dereva binadamu.
Ya kwanza ni teknolojia ya uwakilishi wa Gaussian ya 3D, ambayo hutumia "pointi za Gaussian" nyingi kuunda kitu cha 3D. Kila pointi ina msimamo wake, rangi, na habari ya ukubwa. Teknolojia hii hutumia kujifunza kwa usimamizi binafsi kufundisha mfumo wenye nguvu wa uelewa wa anga wa 3D kwa kutumia data kubwa halisi. Pamoja nayo, VLA inaweza "kuelewa" ulimwengu unaozunguka kama binadamu, kujua vizuizi vilipo na maeneo yanayopitika yako wapi.
Ifuatayo ni usanifu wa Mchanganyiko wa Wataalam (MoE), ambao una mifumo ya wataalam, mifumo ya lango, na wachanganyaji. Wakati parameta za mfumo zinazidi mamia ya mabilioni, njia ya jadi itafanya niuroni zote kushiriki katika kila hesabu, ambayo ni upotezaji wa rasilimali. Mfumo wa lango katika usanifu wa MoE utaita wataalam tofauti kulingana na kazi tofauti ili kuhakikisha kuwa parameta za uanzishaji hazitaongezeka sana.
Akizungumzia hili, Li Xiang pia alimsifu DeepSeek:
DeepSeek hutumia mazoea bora ya wanadamu… Walipokuwa wakifanya DeepSeek V3, V3 pia ilikuwa MoE, mfumo wa 671B. Nadhani MoE ni usanifu mzuri sana. Ni sawa na kuunganisha rundo la wataalam pamoja, na kila mmoja ni uwezo wa wataalam.
Mwishowe, Li Auto ilianzisha Sparse Attention kwa VLA, ambayo kwa maneno ya kawaida inamaanisha kuwa VLA itarekebisha kiotomatiki uzito wa umakini wa maeneo muhimu, na hivyo kuboresha ufanisi wa hitimisho wa upande wa mwisho.
Li Xiang alisema kuwa katika mchakato wa mafunzo ya mfumo huu mpya mkuu, wahandisi wa Li Auto walitumia muda mwingi kutafuta uwiano bora wa data, kuunganisha kiasi kikubwa cha data ya 3D na data ya maandishi na picha inayohusiana na uendeshaji otomatiki, na kupunguza uwiano wa data ya fasihi na kihistoria.
Kutoka kwa mtazamo hadi kufanya maamuzi, VLA inachota kutoka kwa hali ya mchanganyiko wa haraka na polepole ya kufikiria kwa binadamu. Inaweza kutoa haraka maamuzi rahisi ya hatua, kama vile kuepuka dharura, na pia inaweza kutumia minyororo mifupi ya kufikiria "kufikiria polepole" ili kushughulikia hali ngumu zaidi, kama vile kupanga kwa muda njia ya kukwepa eneo la ujenzi. Ili kuboresha zaidi utendaji wa wakati halisi, VLA pia ilianzisha hoja za kubahatisha na teknolojia ya usimbaji sambamba, ikitumia kikamilifu nguvu ya kompyuta ya chip ya upande wa gari ili kuhakikisha kuwa mchakato wa kufanya maamuzi ni wa haraka na sio wa machafuko.
Wakati wa kutoa tabia ya kuendesha gari, VLA hutumia mifumo ya Diffusion na Reinforcement Learning from Human Feedback (RLHF). Mfumo wa Diffusion unawajibika kwa kutoa mwelekeo bora wa kuendesha gari, wakati RLHF inafanya mwelekeo huu uwe karibu na tabia za binadamu, salama na starehe. Kwa mfano, VLA itapunguza kiotomatiki kasi wakati wa kugeuka, au kuacha umbali wa kutosha salama wakati wa kuunganisha njia. Maelezo haya yanaonyesha ujifunzaji wa kina wa tabia ya kuendesha gari kwa binadamu.
Mfumo wa ulimwengu ni teknolojia nyingine muhimu. Li Auto hutoa mazingira ya ubora wa juu kwa ujifunzaji wa uimarishaji kupitia ujenzi na uzalishaji wa eneo. Li Xiang alifunua kuwa mfumo wa ulimwengu umepunguza gharama ya uthibitisho kutoka yuan 170,000-180,000 kwa kilomita 10,000 hadi yuan 4,000. Inaruhusu VLA kuendelea kuboresha katika uigaji na kushughulikia hali ngumu kwa urahisi.
Akizungumzia mafunzo, mchakato wa ukuaji wa VLA pia umepangwa vizuri. Mchakato mzima umegawanywa katika hatua tatu: mafunzo ya awali, mafunzo ya baada ya, na ujifunzaji wa uimarishaji. "Mafunzo ya awali ni kama kujifunza maarifa, mafunzo ya baada ya ni kama kujifunza kuendesha gari katika shule ya udereva, na ujifunzaji wa uimarishaji ni kama mazoezi ya kijamii," alisema Li Xiang.
Katika hatua ya mafunzo ya awali, Li Auto iliunda mfumo mkuu wa lugha ya kuona kwa VLA, ikijaza na data tajiri ya kuona ya 3D, picha za ufafanuzi wa juu za 2D, na corpora zinazohusiana na kuendesha gari, ikiruhusu kwanza kujifunza "kuona" na "kusikia"; baada ya mafunzo, moduli ya hatua imeongezwa, ikitoa mwelekeo wa kuendesha gari wa sekunde 4-8, na mfumo unapanuka kutoka parameta bilioni 3.2 hadi bilioni 4.
Ujifunzaji wa uimarishaji umegawanywa katika hatua mbili: kwanza, tumia RLHF kupatanisha tabia za binadamu, kuchambua data ya uchukuaji, na kuhakikisha usalama na faraja; kisha, tumia ujifunzaji safi wa uimarishaji kuboresha, kulingana na thamani ya G (faraja), mgongano, na maoni ya sheria za trafiki, ili VLA "endesha vizuri kuliko wanadamu." Li Xiang alitaja kuwa hatua hii imekamilika katika mfumo wa ulimwengu, kuiga hali halisi za trafiki, na ufanisi ni bora zaidi kuliko uthibitisho wa jadi.
Njia hii ya mafunzo haihakikishi tu maendeleo ya kiufundi, lakini pia inafanya VLA iwe ya kuaminika vya kutosha katika matumizi ya vitendo.
Li Xiang alikiri kuwa mafanikio ya VLA hayawezi kutenganishwa na msukumo wa alama za tasnia. Usanifu wa MoE wa DeepSeek haukuboresha tu ufanisi wa mafunzo, lakini pia ulitoa uzoefu muhimu kwa Li Auto. Alilalamika: "Tunasimama juu ya mabega ya majitu na kuharakisha R&D ya VLA." Mtazamo huu wa kujifunza wazi unaruhusu Li Auto kwenda mbali zaidi katika nchi ya hakuna mtu.
Kutoka "Zana za Habari" hadi "Zana za Uzalishaji"
Hivi sasa, tasnia ya AI inafanyiwa mabadiliko makubwa kutoka "zana za habari" hadi "zana za uzalishaji." Pamoja na ukomavu wa teknolojia kubwa ya mfumo, AI haizuiliwi tena kwa usindikaji wa data na kutoa maoni, lakini huanza kuwa na uwezo wa kufanya maamuzi huru na kutekeleza kazi.
Li Xiang alipendekeza katika msimu wa pili wa AI Talk kwamba AI inaweza kugawanywa katika zana za habari (kama vile utafutaji), zana saidizi (kama vile urambazaji wa sauti), na zana za uzalishaji. Alisisitiza: "Akili bandia kuwa zana ya uzalishaji ndio wakati wa mlipuko wa kweli." Pamoja na ukomavu wa teknolojia kubwa ya mfumo, AI haizuiliwi tena kwa usindikaji wa data, lakini huanza kuwa na uwezo wa kufanya maamuzi huru na kutekeleza kazi.
Mwelekeo huu unaonekana wazi katika dhana ya "akili iliyojumuishwa" - mifumo ya AI hupewa vyombo vya kimwili, vyenye uwezo wa kuhisi, kuelewa, na kuingiliana na mazingira.
Mfumo wa VLA wa Li Auto ni mazoezi ya wazi ya mwelekeo huu. Kwa kuunganisha maono, lugha, na akili ya hatua, inabadilisha gari kuwa wakala mwenye akili ambaye anaweza kuendesha kiotomatiki na kuingiliana kawaida na watumiaji, akitafsiri kikamilifu dhana kuu ya "akili iliyojumuishwa."
Mradi wanadamu wanaajiri madereva wa kitaalam, akili bandia inaweza kuwa zana ya uzalishaji. Wakati AI inakuwa zana ya uzalishaji, akili bandia itapasuka kweli.
Matamshi ya Li Xiang yamefafanua thamani kuu ya VLA - sio zana rahisi ya usaidizi tena, lakini "wakala wa udereva" ambaye anaweza kufanya kazi kwa uhuru na kuchukua majukumu. Mabadiliko haya hayaboresha tu thamani ya vitendo ya magari, lakini pia yanafungua nafasi ya mawazo kwa matumizi ya AI katika nyanja zingine.
Kufikiria kwa Li Xiang juu ya AI kila wakati kuna mtazamo ambao huvunja sanduku. Alitaja pia: "VLA sio mchakato wa mabadiliko ya ghafla, lakini mchakato wa mabadiliko." Sentensi hii inafupisha kwa usahihi njia ya kiufundi ya Li Auto -
Kutoka kwa kuendeshwa na sheria za mapema, hadi mafanikio ya mwisho hadi mwisho, hadi kiwango cha "akili ya binadamu" ya VLA ya leo. Kufikiria huku kwa mabadiliko hakufanyi tu VLA iwezekane zaidi katika teknolojia, lakini pia kunatoa dhana ya kumbukumbu kwa tasnia. Ikilinganishwa na majaribio mengine ambayo yanafuata upinduzi kwa upofu, njia ya vitendo ya Li Auto inaweza kufaa zaidi kwa soko ngumu la China.
Kutoka kwa teknolojia hadi imani, uchunguzi wa AI wa Li Auto sio laini. Li Xiang alikiri: "Tumepitia changamoto nyingi katika uwanja wa AI, kama vile giza kabla ya alfajiri, lakini tunaamini kwamba tukivumilia, tutaona mwanga." R&D ya VLA inakabiliwa na shida kama vile vikwazo vya nguvu ya kompyuta na maadili ya data, lakini Li Auto hatua kwa hatua imeanzisha alfajiri yao ya kiteknolojia kupitia mifumo mikuu iliyojitengeneza na mifumo ya ulimwengu.
Li Xiang pia alitaja katika mahojiano kwamba mafanikio ya VLA hayawezi kutenganishwa na kupanda kwa AI ya Kichina.
Alisema kuwa kuibuka kwa mifumo kama vile DeepSeek na Tongyi Qianwen kumeifanya kiwango cha AI cha China kukaribia haraka Merika. Miongoni mwao, roho ya chanzo wazi iliyoshikiliwa na DeepSeek inatia moyo haswa, ambayo ilisababisha moja kwa moja Li Auto kufungua chanzo Xinghuan OS. Li Xiang alisema: "Hii haitokani na mazingatio ya kimkakati ya kampuni. DeepSeek imetupa msaada mwingi, tunapaswa kuchangia kitu kwa jamii."
Wakati wa kufuata mafanikio ya kiteknolojia, Li Auto haijapuuza masuala ya usalama na kimaadili ya teknolojia ya AI. Teknolojia ya "upatanishi mkuu" iliyoanzishwa na VLA inafanya tabia ya mfumo kuwa karibu na tabia za binadamu kupitia Reinforcement Learning from Human Feedback (RLHF). Data inaonyesha kuwa matumizi ya VLA yameongeza MPI ya kasi ya juu (maili ya wastani ya uingiliaji) kutoka 240km hadi 300km.
Muhimu zaidi, Li Auto inasisitiza kujenga "AI yenye maadili ya kibinadamu" na inaona maadili na uaminifu kama msingi wa maendeleo ya kiteknolojia. Kutoka kwa mtazamo mpana zaidi, umuhimu wa VLA unatokana na ukweli kwamba inafafanua upya jukumu la kampuni za magari.
Hapo zamani, magari yalikuwa njia za usafirishaji za enzi ya viwanda; leo, yanabadilika kuwa "roboti za anga" katika enzi ya akili bandia. Li Xiang alitaja katika AI Talk: "Li Auto ilikuwa ikitembea katika nchi ya hakuna mtu ya magari, na itatembea katika nchi ya hakuna mtu ya akili bandia katika siku zijazo." Mabadiliko haya ya Li Auto yanaleta nafasi mpya ya mawazo kwa mfumo wa biashara wa tasnia ya magari.
Kwa kweli, maendeleo ya VLA hayana changamoto. Uwekezaji endelevu wa nguvu ya kompyuta, maadili ya data, na uanzishwaji wa uaminifu wa watumiaji katika uendeshaji otomatiki ni masuala ambayo Li Auto inahitaji kukabiliana nayo. Kwa kuongeza, ushindani katika tasnia ya AI unazidi kuwa mkali. Majitu ya ndani na nje kama vile Tesla, Waymo, na OpenAI wanaharakisha mpangilio wa mifumo ya aina nyingi. Li Auto inahitaji kudumisha nafasi yake ya kuongoza katika marudio ya teknolojia na ukuzaji wa soko. "Hatuna njia za mkato, tunaweza tu kulima kwa kina," alisema Li Xiang.
Bila shaka, kutua kwa VLA itakuwa nodi muhimu.
Li Auto inapanga kutoa VLA wakati huo huo na SUV ya umeme safi Li Auto i8 mnamo Julai 2025, na kufikia uzalishaji wa wingi mnamo 2026. Hii sio jaribio kamili tu la teknolojia, lakini pia jiwe muhimu la kugusa kwa soko.