ఈ సంవత్సరం మార్చిలో, NVIDIA యొక్క 2025 స్ప్రింగ్ GTC సమావేశంలో, Li Auto యొక్క అటానమస్ డ్రైవింగ్ టెక్నాలజీ R&D హెడ్ జియా పెంగ్, వారి తాజా విజయాన్ని పరిచయం చేశారు: MindVLA పెద్ద మోడల్.
ఈ మోడల్ 2.2 బిలియన్ పారామీటర్లతో కూడిన విజన్-లాంగ్వేజ్-యాక్షన్ మోడల్ (VLA). AI భౌతిక ప్రపంచంతో సంకర్షణ చెందడానికి VLA నమూనాలు అత్యంత ప్రభావవంతమైన పద్ధతి అని జియా పెంగ్ మరింత పేర్కొన్నారు. ఈ నమూనాను వాహనాల్లో విజయవంతంగా ఉపయోగించామని ఆయన అన్నారు.
గత సంవత్సరం, ఎండ్-టు-ఎండ్ ఆర్కిటెక్చర్ తెలివైన డ్రైవింగ్ రంగంలో ఒక సాంకేతిక హాట్స్పాట్గా మారింది, కార్ల కంపెనీలు సాంప్రదాయ మాడ్యులర్ రూల్ డిజైన్ నుండి ఇంటిగ్రేటెడ్ సిస్టమ్స్కు మారడానికి దారితీసింది. నియమం ఆధారిత అల్గారిథమ్లతో ఇంతకు ముందు నడిపించిన కార్ల కంపెనీలు పరివర్తన బాధలను ఎదుర్కొంటుండగా, ఆలస్యంగా వచ్చినవారు పోటీ ప్రయోజనం కోసం అవకాశాన్ని అందిపుచ్చుకున్నారు.
Li Auto దీనికి ఒక ప్రధాన ఉదాహరణ.
గత సంవత్సరం తెలివైన డ్రైవింగ్లో Li Auto యొక్క పురోగతి వేగంగా ఉందని చెప్పవచ్చు. జూలైలో, ఇది దేశవ్యాప్తంగా మ్యాప్ లేని NOA (Navigation on Autopilot) సాధించడంలో ముందంజలో ఉంది మరియు ప్రత్యేకమైన “ఎండ్-టు-ఎండ్ (ఫాస్ట్ సిస్టమ్) + VLM (స్లో సిస్టమ్)” ఆర్కిటెక్చర్ను ప్రారంభించింది, ఇది పరిశ్రమలో విస్తృత దృష్టిని ఆకర్షించింది.
ఈ రాత్రి, Li Auto AI Talk యొక్క రెండవ సీజన్తో, Li Xiang “కృత్రిమ మేధస్సు సంస్థ” అని చెప్పే దాని గురించి మరింత అవగాహన పొందాము.
“డ్రైవర్ లార్జ్ మోడల్” మీ డ్రైవర్ కూడా
Li Auto CEO Li Xiang మొదటి AI Talk మొదటి సీజన్లో గత డిసెంబర్లో టెన్సెంట్ న్యూస్ యొక్క చీఫ్ టెక్నాలజీ రచయిత జాంగ్ జియావోజున్తో సంభాషణలో VLA గురించి మొదటిసారి ప్రస్తావించారు. ఆ సమయంలో అతను ఇలా అన్నాడు:
Li Auto కంపానియన్ మరియు అటానమస్ డ్రైవింగ్తో మనం ఏమి చేస్తున్నామో వాస్తవానికి పరిశ్రమ ప్రమాణాల ప్రకారం వేరుగా ఉంది మరియు ఇది ప్రారంభ దశలో ఉంది. మనం చేస్తున్న మైండ్ GPT నిజానికి ఒక పెద్ద భాషా నమూనా; మనం చేస్తున్న అటానమస్ డ్రైవింగ్ను మేము అంతర్గతంగా ప్రవర్తనా మేధస్సు అని పిలుస్తాము, అయితే లి ఫీఫీ (స్టాన్ఫోర్డ్ లైఫ్టైమ్ ప్రొఫెసర్, గూగుల్ చీఫ్ సైంటిస్ట్) నిర్వచించినట్లుగా, దీనిని ప్రాదేశిక మేధస్సు అంటారు. మీరు నిజంగా పెద్ద ఎత్తున చేసినప్పుడు మాత్రమే ఈ రెండూ ఒక రోజు కనెక్ట్ అవుతాయని మీకు తెలుస్తుంది. మేము దీనిని అంతర్గతంగా VLA (విజన్ లాంగ్వేజ్ యాక్షన్ మోడల్) అని పిలుస్తాము.
ఒక నిర్దిష్ట సమయంలో బేస్ మోడల్ ఖచ్చితంగా VLAగా మారుతుందని Li Xiang అభిప్రాయపడ్డారు. భాషా నమూనాలు భాష మరియు జ్ఞానం ద్వారా మాత్రమే త్రిమితీయ ప్రపంచాన్ని అర్థం చేసుకోగలవు కాబట్టి, ఇది స్పష్టంగా సరిపోదు. “ఇది నిజంగా వెక్టర్ ఆధారితంగా ఉండాలి, డిఫ్యూషన్ (డిఫ్యూషన్ మోడల్) ఉపయోగించాలి మరియు జనరేటివ్ పద్ధతులను (ప్రపంచాన్ని అర్థం చేసుకోవడానికి) ఉపయోగించాలి.”
VLA యొక్క ఆవిర్భావం భాషా మేధస్సు మరియు ప్రాదేశిక మేధస్సును లోతుగా ఏకీకృతం చేయడానికి ఒక ధైర్యమైన ప్రయత్నం మాత్రమే కాదని, Li Auto ద్వారా “తెలివైన కారు” అనే భావనను పునర్నిర్వచించడం అని చెప్పవచ్చు.
ఈ రాత్రి AI టాక్లో Li Xiang మరింత నిర్వచించారు: "VLA అనేది డ్రైవర్ లార్జ్ మోడల్, ఇది మానవ డ్రైవర్ లాగా పనిచేస్తుంది." ఇది సాంకేతికత మాత్రమే కాదు, వినియోగదారులతో సహజంగా కమ్యూనికేట్ చేయగల మరియు స్వతంత్ర నిర్ణయాలు తీసుకోగల తెలివైన భాగస్వామి కూడా.
కాబట్టి, VLA అంటే ఏమిటి? దీని ప్రధాన ఉద్దేశ్యం చాలా సూటిగా ఉంటుంది: విజువల్ పర్సెప్షన్, నేచురల్ లాంగ్వేజ్ అండర్స్టాండింగ్ మరియు యాక్షన్ జనరేషన్ సామర్థ్యాలను సమగ్రపరచడం ద్వారా, వాహనం ప్రజలతో కమ్యూనికేట్ చేయగల మరియు తన సొంత నిర్ణయాలు తీసుకోగల "డ్రైవర్ ఏజెంట్"గా మారుతుంది.
మీరు మీ కారులో కూర్చుని, "నేను ఈ రోజు కొంచెం అలసిపోయాను, నెమ్మదిగా డ్రైవ్ చేయండి" అని సాధారణంగా చెప్పినట్లు ఊహించుకోండి, మరియు వాహనం మీరు ఏమి చెప్పాలనుకుంటున్నారో అర్థం చేసుకోవడమే కాకుండా, దాని వేగాన్ని సర్దుబాటు చేస్తుంది మరియు మరింత సున్నితమైన మార్గాన్ని కూడా ఎంచుకుంటుంది. ఈ సహజమైన మరియు సున్నితమైన పరస్పర చర్యను సాధించడమే VLA లక్ష్యం. అన్ని చిన్న ఆదేశాలను వాహనం నేరుగా ప్రాసెస్ చేస్తుందని, క్లిష్టమైన ఆదేశాలను క్లౌడ్ ఆధారిత 3.2 బిలియన్ పారామీటర్ మోడల్ విశ్లేషిస్తుందని Li Xiang వెల్లడించారు, ఇది సమర్థత మరియు తెలివితేటలను నిర్ధారిస్తుంది.
ఈ లక్ష్యాన్ని సాధించడం అంత సులభం కాదు. VLA యొక్క ప్రత్యేకత ఏమిటంటే ఇది దృష్టి, భాష మరియు చర్య యొక్క మూడు కోణాలను కలుపుతుంది. వినియోగదారు నుండి వచ్చిన ఒక సాధారణ ఆదేశం పరిసర వాతావరణం యొక్క నిజ-సమయ అవగాహన, భాష ఉద్దేశ్యం యొక్క ఖచ్చితమైన అవగాహన మరియు డ్రైవింగ్ ప్రవర్తన యొక్క వేగవంతమైన సర్దుబాటును కలిగి ఉంటుంది. ఈ మూడు తప్పనిసరిగా ఉండాలి.
ఈ మూడింటిని సజావుగా కలిసి పనిచేసేలా చేయడం VLA యొక్క గొప్పతనం.
దృష్టి నుండి వాస్తవికత వరకు, VLA యొక్క R&D అనేది అన్వేషించబడని భూభాగం. విజువల్ మరియు యాక్షన్ డేటాను పొందడం చాలా కష్టమని Li Xiang అంగీకరించారు. ఏ సంస్థ దీనిని భర్తీ చేయలేదు.
VLA యొక్క సాంకేతిక నేపథ్యాన్ని అర్థం చేసుకోవడానికి, మనం Li Auto యొక్క తెలివైన డ్రైవింగ్ యొక్క పరిణామాన్ని కూడా చూడాలి.
ప్రారంభ వ్యవస్థ "కీటకాల స్థాయి" మేధస్సు అని Li Xiang అన్నారు, కేవలం మిలియన్ల పారామీటర్లు మాత్రమే ఉన్నాయి, నియమాలు మరియు అధిక-ఖచ్చితత్వ మ్యాప్ల ద్వారా నడపబడుతోంది మరియు సంక్లిష్టమైన రహదారి పరిస్థితులను ఎదుర్కొన్నప్పుడు నిస్సహాయంగా ఉంది. తరువాత, ఎండ్-టు-ఎండ్ ఆర్కిటెక్చర్ మరియు విజువల్-లాంగ్వేజ్ నమూనాలు సాంకేతికత "క్షీరదాల స్థాయికి" ఎదగడానికి, మ్యాప్ ఆధారపడటాన్ని తొలగించడానికి మరియు దేశవ్యాప్తంగా మ్యాప్ లేని NOA వాస్తవికతగా మారడానికి అనుమతించాయి.
వాస్తవానికి, ఈ చర్య ఇప్పటికే Li Autoని పరిశ్రమలో ముందంజలో ఉంచింది, కానీ వారు దీనితో సంతృప్తి చెందడం లేదు. Li Xiang దృష్టిలో, VLA ఆవిర్భావం Li Auto యొక్క తెలివైన డ్రైవింగ్ సాంకేతికత "మానవ మేధస్సు" యొక్క కొత్త దశలోకి ప్రవేశించిందని సూచిస్తుంది.
మునుపటి వ్యవస్థతో పోలిస్తే, VLA 3D భౌతిక ప్రపంచాన్ని గ్రహించడమే కాకుండా, తార్కిక తార్కాన్ని కూడా నిర్వహించగలదు మరియు మానవ స్థాయికి దగ్గరగా డ్రైవింగ్ ప్రవర్తనలను కూడా ఉత్పత్తి చేయగలదు.
ఒక సాధారణ ఉదాహరణకు, మీరు రద్దీగా ఉండే వీధిలో "తిరగడానికి ఒక స్థలాన్ని కనుగొనండి" అని చెప్పాలనుకుంటే, VLA ఆదేశాన్ని యాంత్రికంగా అమలు చేయదు, కానీ U-టర్న్ను పూర్తి చేయడానికి చాలా సమంజసమైన సమయం మరియు స్థానాన్ని కనుగొనడానికి రహదారి పరిస్థితులు, ట్రాఫిక్ ప్రవాహం మరియు ట్రాఫిక్ నియమాలను సమగ్రంగా పరిగణిస్తుంది.
VLA డేటాను ఉత్పత్తి చేయడం ద్వారా కొత్త దృశ్యాలకు త్వరగా అనుగుణంగా ఉంటుందని Li Xiang చెప్పారు మరియు మూడు రోజుల్లో మొదటిసారిగా సంక్లిష్టమైన రహదారి మరమ్మతులను ఎదుర్కొన్నప్పుడు కూడా ప్రతిస్పందనలను ఆప్టిమైజ్ చేయవచ్చు. ఈ వశ్యత మరియు తీర్పు VLA యొక్క ప్రధాన ప్రయోజనాలు.
Li Auto యొక్క టీచర్ డీప్సీక్
VLAకి మద్దతు ఇవ్వడం అనేది Li Auto స్వతంత్రంగా అభివృద్ధి చేసిన సంక్లిష్టమైన మరియు అధునాతన సాంకేతిక వ్యవస్థ. ఈ వ్యవస్థ కారును ప్రపంచాన్ని "అర్థం చేసుకోవడానికి" మాత్రమే కాకుండా, మానవ డ్రైవర్ లాగా ఆలోచించడానికి మరియు పని చేయడానికి కూడా అనుమతిస్తుంది.
మొదట 3D గాస్సియన్ ప్రాతినిధ్య సాంకేతికత, ఇది 3D వస్తువును సృష్టించడానికి అనేక "గాస్సియన్ పాయింట్లను" ఉపయోగిస్తుంది. ప్రతి పాయింట్లో దాని స్వంత స్థానం, రంగు మరియు పరిమాణం సమాచారం ఉంటుంది. ఈ సాంకేతికత స్వీయ-సూపర్వైజ్డ్ లెర్నింగ్ను ఉపయోగించి భారీ నిజమైన డేటాను ఉపయోగించి శక్తివంతమైన 3D ప్రాదేశిక అవగాహన మోడల్కు శిక్షణ ఇస్తుంది. దానితో, VLA అడ్డంకులు ఎక్కడ ఉన్నాయి మరియు ప్రయాణించదగిన ప్రాంతాలు ఎక్కడ ఉన్నాయో తెలుసుకుని, చుట్టుపక్కల ప్రపంచాన్ని మానవుడిలా "అర్థం చేసుకోవచ్చు".
తరువాత మిక్చర్ ఆఫ్ ఎక్స్పర్ట్స్ (MoE) ఆర్కిటెక్చర్ ఉంది, ఇందులో నిపుణుల నెట్వర్క్లు, గేటింగ్ నెట్వర్క్లు మరియు కంబైనర్లు ఉంటాయి. మోడల్ పారామీటర్లు వందల బిలియన్లను మించినప్పుడు, సాంప్రదాయ పద్ధతి ప్రతి లెక్కలో అన్ని న్యూరాన్లను పాల్గొనేలా చేస్తుంది, ఇది వనరుల వృధా. MoE ఆర్కిటెక్చర్లోని గేటింగ్ నెట్వర్క్ వేర్వేరు పనులకు అనుగుణంగా వేర్వేరు నిపుణులను పిలుస్తుంది, ఇది యాక్టివేషన్ పారామీటర్లు గణనీయంగా పెరగకుండా చూస్తుంది.
దీని గురించి మాట్లాడుతూ, Li Xiang డీప్సీక్ను కూడా ప్రశంసించారు:
డీప్సీక్ మానవాళి యొక్క ఉత్తమ పద్ధతులను ఉపయోగిస్తుంది… వారు డీప్సీక్ V3ని చేస్తున్నప్పుడు, V3 కూడా MoE, 671B మోడల్. MoE ఒక మంచి ఆర్కిటెక్చర్ అని నేను అనుకుంటున్నాను. ఇది ఒక గుంపు నిపుణులను కలపడానికి సమానం మరియు ప్రతి ఒక్కరూ నిపుణుల సామర్థ్యం కలిగి ఉంటారు.
చివరగా Li Auto VLAకి స్పార్స్ అటెన్షన్ను పరిచయం చేసింది, ఇది సాధారణ పరిభాషలో VLA స్వయంచాలకంగా ముఖ్య ప్రాంతాల శ్రద్ధ బరువులను సర్దుబాటు చేస్తుంది, తద్వారా ఎండ్ సైడ్ యొక్క అనుమితి సామర్థ్యాన్ని మెరుగుపరుస్తుంది.
ఈ కొత్త బేస్ మోడల్ యొక్క శిక్షణ ప్రక్రియలో, Li Auto ఇంజనీర్లు ఉత్తమ డేటా నిష్పత్తిని కనుగొనడానికి, 3D డేటా మరియు అటానమస్ డ్రైవింగ్కు సంబంధించిన టెక్స్ట్ మరియు ఇమేజ్ డేటాను ఏకీకృతం చేయడానికి మరియు సాహిత్య మరియు చారిత్రక డేటా నిష్పత్తిని తగ్గించడానికి చాలా సమయం వెచ్చించారని Li Xiang చెప్పారు.
అవగాహన నుండి నిర్ణయం తీసుకోవడం వరకు, VLA మానవ ఆలోచన యొక్క వేగవంతమైన మరియు నెమ్మదైన కలయిక మోడ్ను ఉపయోగిస్తుంది. ఇది అత్యవసర నివారణ వంటి సాధారణ చర్య నిర్ణయాలను త్వరగా అవుట్పుట్ చేయగలదు మరియు నిర్మాణ ప్రాంతాన్ని దాటవేయడానికి తాత్కాలికంగా మార్గాన్ని ప్లాన్ చేయడం వంటి మరింత సంక్లిష్టమైన దృశ్యాలను ఎదుర్కోవడానికి చిన్న ఆలోచనా గొలుసులను ఉపయోగించవచ్చు. నిజ-సమయ పనితీరును మరింత మెరుగుపరచడానికి, VLA ఊహాజనిత తార్కికం మరియు సమాంతర డీకోడింగ్ సాంకేతికతను కూడా ప్రవేశపెట్టింది, వాహన-వైపు చిప్ యొక్క కంప్యూటింగ్ శక్తిని పూర్తిగా ఉపయోగించుకోవడం ద్వారా నిర్ణయం తీసుకునే ప్రక్రియ వేగంగా మరియు గందరగోళంగా లేదని నిర్ధారిస్తుంది.
డ్రైవింగ్ ప్రవర్తనను ఉత్పత్తి చేస్తున్నప్పుడు, VLA డిఫ్యూషన్ మోడల్స్ మరియు రీన్ఫోర్స్మెంట్ లెర్నింగ్ ఫ్రమ్ హ్యూమన్ ఫీడ్బ్యాక్ (RLHF) ఉపయోగిస్తుంది. డిఫ్యూషన్ మోడల్ ఆప్టిమైజ్ చేయబడిన డ్రైవింగ్ పథాలను ఉత్పత్తి చేయడానికి బాధ్యత వహిస్తుంది, అయితే RLHF ఈ పథాలను మానవ అలవాట్లకు దగ్గరగా, సురక్షితంగా మరియు సౌకర్యవంతంగా చేస్తుంది. ఉదాహరణకు, VLA తిరిగేటప్పుడు స్వయంచాలకంగా వేగాన్ని తగ్గిస్తుంది లేదా లేన్లను విలీనం చేసేటప్పుడు తగినంత సురక్షితమైన దూరాన్ని వదిలివేస్తుంది. ఈ వివరాలు మానవ డ్రైవింగ్ ప్రవర్తన యొక్క లోతైన అభ్యాసాన్ని ప్రతిబింబిస్తాయి.
ప్రపంచ నమూనా మరొక ముఖ్యమైన సాంకేతికత. Li Auto దృశ్య పునర్నిర్మాణం మరియు ఉత్పత్తి ద్వారా రీన్ఫోర్స్మెంట్ లెర్నింగ్ కోసం అధిక-నాణ్యత వర్చువల్ వాతావరణాన్ని అందిస్తుంది. ప్రపంచ నమూనా ప్రతి 10,000 కిలోమీటర్లకు ధ్రువీకరణ వ్యయాన్ని 170,000-180,000 యువాన్ నుండి 4,000 యువాన్లకు తగ్గించిందని Li Xiang వెల్లడించారు. ఇది VLAని అనుకరణలో నిరంతరం ఆప్టిమైజ్ చేయడానికి మరియు సంక్లిష్టమైన దృశ్యాలను సులభంగా పరిష్కరించడానికి అనుమతిస్తుంది.
శిక్షణ గురించి మాట్లాడుతూ, VLA యొక్క వృద్ధి ప్రక్రియ కూడా చాలా క్రమబద్ధంగా ఉంది. మొత్తం ప్రక్రియను మూడు దశలుగా విభజించారు: ప్రీ-ట్రైనింగ్, పోస్ట్-ట్రైనింగ్ మరియు రీన్ఫోర్స్మెంట్ లెర్నింగ్. Li Xiang మాట్లాడుతూ, “ప్రీ-ట్రైనింగ్ అంటే జ్ఞానాన్ని నేర్చుకోవడం, పోస్ట్-ట్రైనింగ్ అంటే డ్రైవింగ్ పాఠశాలలో డ్రైవింగ్ నేర్చుకోవడం మరియు రీన్ఫోర్స్మెంట్ లెర్నింగ్ అంటే సామాజిక అభ్యాసం లాంటిది.”
ప్రీ-ట్రైనింగ్ దశలో, Li Auto VLA కోసం విజువల్-లాంగ్వేజ్ బేస్ మోడల్ను రూపొందించింది, ఇందులో గొప్ప 3D విజువల్ డేటా, 2D హై-డెఫినిషన్ చిత్రాలు మరియు డ్రైవింగ్కు సంబంధించిన కార్పోరాను నింపింది, ఇది మొదట "చూడటానికి" మరియు "వినడానికి" నేర్చుకోవడానికి అనుమతిస్తుంది; శిక్షణ తర్వాత, యాక్షన్ మాడ్యూల్ జోడించబడింది, 4-8 సెకన్ల డ్రైవింగ్ పథాలను ఉత్పత్తి చేస్తుంది మరియు మోడల్ 3.2 బిలియన్ పారామీటర్ల నుండి 4 బిలియన్లకు విస్తరిస్తుంది.
రీన్ఫోర్స్మెంట్ లెర్నింగ్ను రెండు దశలుగా విభజించారు: మొదటిది, మానవ అలవాట్లను సమలేఖనం చేయడానికి RLHFని ఉపయోగించండి, టేకోవర్ డేటాను విశ్లేషించండి మరియు భద్రత మరియు సౌకర్యాన్ని నిర్ధారించండి; అప్పుడు, G-విలువ (సౌకర్యం), ఢీకొనడం మరియు ట్రాఫిక్ నియమాల అభిప్రాయం ఆధారంగా ఆప్టిమైజ్ చేయడానికి స్వచ్ఛమైన రీన్ఫోర్స్మెంట్ లెర్నింగ్ను ఉపయోగించండి, తద్వారా VLA "మానవుల కంటే మెరుగ్గా డ్రైవ్ చేస్తుంది." Li Xiang ఈ దశ ప్రపంచ నమూనాలలో పూర్తయిందని, నిజమైన ట్రాఫిక్ దృశ్యాలను అనుకరిస్తుందని మరియు సాంప్రదాయ ధ్రువీకరణ కంటే సామర్థ్యం చాలా మెరుగ్గా ఉంటుందని పేర్కొన్నారు.
ఈ శిక్షణా పద్ధతి సాంకేతిక పురోగతికి హామీ ఇవ్వడమే కాకుండా, ఆచరణాత్మక అనువర్తనాల్లో VLAని తగినంతగా విశ్వసనీయంగా చేస్తుంది.
VLA యొక్క విజయం పరిశ్రమ ప్రమాణాల స్ఫూర్తి నుండి విడదీయరానిదని Li Xiang అంగీకరించారు. డీప్సీక్ యొక్క MoE ఆర్కిటెక్చర్ శిక్షణ సామర్థ్యాన్ని మెరుగుపరచడమే కాకుండా, Li Autoకి విలువైన అనుభవాన్ని అందించింది. అతను విలపించాడు: “మేము దిగ్గజాల భుజాలపై నిలబడి VLA యొక్క R&Dని వేగవంతం చేస్తున్నాము.” ఈ బహిరంగ అభ్యాస వైఖరి Li Autoని ఎవరూ లేని భూమిలో మరింత ముందుకు వెళ్లడానికి అనుమతిస్తుంది.
"సమాచార సాధనాలు" నుండి "ఉత్పత్తి సాధనాలు" వరకు
ప్రస్తుతం, AI పరిశ్రమ "సమాచార సాధనాలు" నుండి "ఉత్పత్తి సాధనాలు"గా లోతైన మార్పును ఎదుర్కొంటోంది. పెద్ద మోడల్ సాంకేతికత యొక్క పరిణతితో, AI డేటాను ప్రాసెస్ చేయడానికి మరియు సూచనలు ఇవ్వడానికి పరిమితం కాదు, కానీ స్వతంత్ర నిర్ణయాలు తీసుకునే మరియు పనులను నిర్వహించే సామర్థ్యాన్ని కలిగి ఉంది.
AI Talk యొక్క రెండవ సీజన్లో సమాచార సాధనాలు (శోధన వంటివి), సహాయక సాధనాలు (వాయిస్ నావిగేషన్ వంటివి) మరియు ఉత్పత్తి సాధనాలుగా AIని విభజించవచ్చని Li Xiang ప్రతిపాదించారు. “కృత్రిమ మేధస్సు ఉత్పత్తి సాధనంగా మారిన క్షణం నిజమైన విస్ఫోటనం” అని ఆయన నొక్కి చెప్పారు. పెద్ద మోడల్ సాంకేతికత యొక్క పరిణతితో, AI డేటాను ప్రాసెస్ చేయడానికి మాత్రమే పరిమితం కాదు, కానీ స్వతంత్ర నిర్ణయాలు తీసుకునే మరియు పనులను నిర్వహించే సామర్థ్యాన్ని కలిగి ఉంది.
ఈ ధోరణి ప్రత్యేకంగా "embodied intelligence" అనే భావనలో స్పష్టంగా కనిపిస్తుంది - AI వ్యవస్థలకు భౌతిక సంస్థలు ఇవ్వబడతాయి, అవి పర్యావరణాన్ని గ్రహించగలవు, అర్థం చేసుకోగలవు మరియు సంకర్షణ చెందగలవు.
Li Auto యొక్క VLA మోడల్ ఈ ధోరణికి ఒక స్పష్టమైన అభ్యాసం. దృష్టి, భాష మరియు కార్యాచరణ మేధస్సును ఏకీకృతం చేయడం ద్వారా, ఇది కారును స్వయంప్రతిపత్తితో డ్రైవ్ చేయగల మరియు వినియోగదారులతో సహజంగా సంకర్షణ చెందగల తెలివైన ఏజెంట్గా మారుస్తుంది, "embodied intelligence" యొక్క ప్రధాన భావనను సంపూర్ణంగా అర్థం చేసుకుంటుంది.
మానవులు వృత్తిపరమైన డ్రైవర్లను నియమించుకున్నంత కాలం, కృత్రిమ మేధస్సు ఉత్పత్తి సాధనంగా మారగలదు. AI ఉత్పత్తి సాధనంగా మారినప్పుడు, కృత్రిమ మేధస్సు నిజంగా విస్ఫోటనం చెందుతుంది.
VLA యొక్క ప్రధాన విలువను Li Xiang యొక్క వ్యాఖ్యలు స్పష్టం చేశాయి - ఇది సాధారణ సహాయక సాధనం కాదు, స్వతంత్రంగా పనులను నిర్వహించగల మరియు బాధ్యతలను స్వీకరించగల "డ్రైవర్ ఏజెంట్". ఈ మార్పు కార్ల యొక్క ఆచరణాత్మక విలువను మెరుగుపరచడమే కాకుండా, ఇతర రంగాలలో AI యొక్క అనువర్తనానికి ఊహాజనిత స్థలాన్ని తెరుస్తుంది.
AIపై Li Xiang యొక్క ఆలోచనలు ఎల్లప్పుడూ బాక్స్ నుండి బయటకు వచ్చే దృక్పథాన్ని కలిగి ఉంటాయి. అతను ఇలా కూడా పేర్కొన్నాడు: “VLA అనేది ఆకస్మిక మార్పు ప్రక్రియ కాదు, పరిణామ ప్రక్రియ.” ఈ వాక్యం Li Auto యొక్క సాంకేతిక మార్గాన్ని ఖచ్చితంగా సంగ్రహిస్తుంది -
ప్రారంభ నియమం-నడిచే నుండి, ఎండ్-టు-ఎండ్ పురోగతి వరకు, నేటి VLA యొక్క “మానవ మేధస్సు” స్థాయి వరకు. ఈ పరిణామ ఆలోచన సాంకేతికంగా VLAని మరింత సాధ్యమయ్యేలా చేయడమే కాకుండా, పరిశ్రమకు సూచన నమూనాను కూడా అందిస్తుంది. కొంతమంది అణచివేతను గుడ్డిగా కొనసాగించే ప్రయత్నాలతో పోలిస్తే, Li Auto యొక్క ఆచరణాత్మక మార్గం సంక్లిష్టమైన చైనా మార్కెట్కు మరింత అనుకూలంగా ఉండవచ్చు.
సాంకేతికత నుండి విశ్వాసం వరకు, Li Auto యొక్క AI అన్వేషణ సాఫీగా లేదు. Li Xiang అంగీకరించారు: “మేము AI రంగంలో అనేక సవాళ్లను ఎదుర్కొన్నాము, తెల్లవారుజాముకు ముందు చీకటి లాంటిది, కానీ మేము పట్టుదలతో ఉంటే, మేము కాంతిని చూస్తామని నమ్ముతున్నాము.” VLA యొక్క R&D కంప్యూటింగ్ శక్తి ప్రతిబంధకాలు మరియు డేటా నైతికత వంటి సమస్యలను ఎదుర్కొంటుంది, కానీ Li Auto స్వీయ-అభివృద్ధి చెందిన బేస్ మోడల్స్ మరియు ప్రపంచ నమూనాల ద్వారా వారి సాంకేతిక తెల్లవారుజామును క్రమంగా స్వాగతించింది.
డీప్సీక్ మరియు టోంగ్యి కియాన్వెన్ వంటి నమూనాల ఆవిర్భావం చైనా యొక్క AI స్థాయిని యునైటెడ్ స్టేట్స్కు వేగంగా దగ్గర చేసిందని Li Xiang ఇంటర్వ్యూలో పేర్కొన్నారు. వారిలో, డీప్సీక్ సమర్థించిన ఓపెన్ సోర్స్ స్ఫూర్తి ప్రత్యేకంగా ప్రోత్సాహకరంగా ఉంది, ఇది Li Auto Xinghuan OSని ఓపెన్ సోర్స్ చేయడానికి నేరుగా ప్రేరేపించింది. Li Xiang మాట్లాడుతూ, “ఇది కంపెనీ వ్యూహాత్మక పరిశీలనల నుండి కాదు. డీప్సీక్ మాకు చాలా సహాయం చేసింది, మనం సమాజానికి ఏదైనా అందించాలి.”
సాంకేతిక పురోగతిని కొనసాగిస్తూ, Li Auto AI సాంకేతికత యొక్క భద్రత మరియు నైతిక సమస్యలను విస్మరించలేదు. VLA ద్వారా ప్రవేశపెట్టిన “సూపర్ అలైన్మెంట్” సాంకేతికత రీన్ఫోర్స్మెంట్ లెర్నింగ్ ఫ్రమ్ హ్యూమన్ ఫీడ్బ్యాక్ (RLHF) ద్వారా మోడల్ యొక్క ప్రవర్తనను మానవ అలవాట్లకు దగ్గరగా చేస్తుంది. VLA యొక్క అనువర్తనం హై-స్పీడ్ MPI (సగటు జోక్య మైలేజ్)ని 240 కిమీ నుండి 300 కిమీలకు పెంచిందని డేటా చూపిస్తుంది.
మరింత ముఖ్యంగా, Li Auto "మానవ విలువలతో కూడిన AI"ని నిర్మించడాన్ని నొక్కి చెబుతుంది మరియు నైతికత మరియు విశ్వాసాన్ని సాంకేతిక అభివృద్ధికి మూలస్తంభంగా భావిస్తుంది. మరింత స్థూల దృక్పథం నుండి, VLA యొక్క ప్రాముఖ్యత అది కార్ల కంపెనీల పాత్రను పునర్నిర్వచించడంలో ఉంది.
గతంలో, కార్లు పారిశ్రామిక-యుగం రవాణా సాధనాలు; నేడు, అవి కృత్రిమ మేధస్సు యుగంలో "ప్రాదేశిక రోబోట్లు"గా అభివృద్ధి చెందుతున్నాయి. Li Xiang AI టాక్లో పేర్కొన్నారు: “Li Auto గతంలో కార్ల ఎవరూ లేని భూమిలో నడిచింది మరియు భవిష్యత్తులో కృత్రిమ మేధస్సు యొక్క ఎవరూ లేని భూమిలో నడుస్తుంది.” Li Auto యొక్క ఈ మార్పు ఆటోమోటివ్ పరిశ్రమ యొక్క వ్యాపార నమూనాకు కొత్త ఊహాజనిత స్థలాన్ని తెస్తుంది.
వాస్తవానికి, VLA అభివృద్ధి సవాళ్లు లేకుండా లేదు. కంప్యూటింగ్ శక్తి యొక్క నిరంతర పెట్టుబడి, డేటా నైతికత మరియు స్వయంప్రతిపత్త డ్రైవింగ్లో వినియోగదారుల విశ్వాసాన్ని ఏర్పరచడం Li Auto ఎదుర్కోవాల్సిన సమస్యలు. అదనంగా, AI పరిశ్రమలో పోటీ మరింత తీవ్రమవుతోంది. Tesla, Waymo మరియు OpenAI వంటి దేశీయ మరియు విదేశీ దిగ్గజాలు బహుళ-మాడల్ మోడళ్ల లేఅవుట్ను వేగవంతం చేస్తున్నాయి. Li Auto సాంకేతిక పునరావృతం మరియు మార్కెట్ ప్రమోషన్లో దాని అగ్రగామి స్థానాన్ని కొనసాగించాలి. “మాకు ఎటువంటి సత్వరమార్గాలు లేవు, మేము లోతుగా సాగు చేయాలి,” అని Li Xiang చెప్పారు.
నిస్సందేహంగా, VLA యొక్క ల్యాండింగ్ ఒక ముఖ్యమైన నోడ్ అవుతుంది.
Li Auto జూలై 2025లో స్వచ్ఛమైన ఎలక్ట్రిక్ SUV Li Auto i8తో ఏకకాలంలో VLAని విడుదల చేయడానికి మరియు 2026లో భారీ ఉత్పత్తిని సాధించాలని యోచిస్తోంది. ఇది సాంకేతికత యొక్క సమగ్ర పరీక్ష మాత్రమే కాదు, మార్కెట్ కోసం ఒక ముఖ్యమైన టచ్స్టోన్ కూడా.