விலங்கு பரிணாமத்திலிருந்து மனிதர்கள் வரை

இந்த ஆண்டு மார்ச் மாதத்தில், NVIDIAவின் 2025 ஸ்பிரிங் GTC மாநாட்டில், Li Autoவின் தன்னாட்சி ஓட்டுநர் தொழில்நுட்ப R&D பிரிவின் தலைவர் Jia Peng, அவர்களின் சமீபத்திய சாதனையான MindVLA பெரிய மாடலை அறிமுகப்படுத்தினார்.

இந்த மாடல் 2.2 பில்லியன் அளவுருக்களைக் கொண்ட விஷன்-லாங்குவேஜ்-ஆக்சன் மாடல் (VLA) ஆகும். இந்த மாடலை வாகனங்களில் வெற்றிகரமாக நிறுவியுள்ளதாகவும் Jia Peng மேலும் தெரிவித்தார். இயற்பியல் உலகத்துடன் AI தொடர்பு கொள்ளும் சவால்களைத் தீர்ப்பதற்கு VLA மாடல்கள் மிகவும் பயனுள்ள முறை என்று Li Auto நம்புகிறது.

கடந்த ஆண்டில், இறுதி முதல் இறுதி கட்டமைப்பு அறிவார்ந்த ஓட்டுநர் துறையில் ஒரு தொழில்நுட்ப ஹாட்ஸ்பாட் ஆக மாறியுள்ளது. இது கார் நிறுவனங்களை பாரம்பரிய தொகுதி விதி வடிவமைப்பிலிருந்து ஒருங்கிணைந்த அமைப்புகளுக்கு மாற்ற தூண்டுகிறது. முன்னர் விதி அடிப்படையிலான வழிமுறைகளுடன் முன்னிலை வகித்த கார் நிறுவனங்கள், மாற்றத்தின் வலியை எதிர்கொள்கின்றன. அதே நேரத்தில் தாமதமாக வந்தவர்கள் ஒரு போட்டி advantageக்கான வாய்ப்பைப் பயன்படுத்தியுள்ளனர்.

இதற்கு Li Auto ஒரு சிறந்த எடுத்துக்காட்டு.

Li Autoவின் அறிவார்ந்த ஓட்டுநர் துறையில் கடந்த ஆண்டு முன்னேற்றம் வேகமாக இருந்தது என்று கூறலாம். ஜூலை மாதம், நாடு தழுவிய வரைபடமில்லாத NOA (Navigation on Autopilot)வை அடைவதில் முன்னிலை வகித்தது. மேலும் தனித்துவமான "எண்டு-டு-எண்டு (வேகமான அமைப்பு) + VLM (மெதுவான அமைப்பு)" கட்டமைப்பை அறிமுகப்படுத்தியது. இது தொழில்துறையில் பரவலான கவனத்தைப் பெற்றது.

இன்று இரவு, Li Auto AI Talk இன் இரண்டாவது சீசனில், Li Xiang ஒரு "செயற்கை நுண்ணறிவு நிறுவனம்" என்று குறிப்பிடுவது குறித்து ஆழமான புரிதலைப் பெற்றுள்ளோம்.

“ஓட்டுநர் பெரிய மாடல்” உங்கள் ஓட்டுனரும் கூட

Li Autoவின் CEO Li Xiang, கடந்த ஆண்டு டிசம்பரில் நடந்த AI Talk முதல் சீசனில், டென்சென்ட் செய்தி நிறுவனத்தின் தலைமை தொழில்நுட்ப எழுத்தாளர் Zhang Xiaojun உடனான உரையாடலில் VLA பற்றிக் குறிப்பிட்டார்:

நாங்கள் Li Auto Companion மற்றும் தன்னாட்சி ஓட்டுநர் மூலம் செய்வது உண்மையில் தொழில் தரநிலைகளின்படி தனித்தனியாக உள்ளது. மேலும் இது ஆரம்ப கட்டங்களில் உள்ளது. நாங்கள் செய்யும் Mind GPT ஒரு பெரிய மொழி மாதிரி. நாங்கள் செய்யும் தன்னாட்சி ஓட்டுதலை, உள்நாட்டில் நடத்தை நுண்ணறிவு என்று அழைக்கிறோம். ஆனால் Li Feifei (ஸ்டான்போர்ட் வாழ்நாள் பேராசிரியர், முன்னாள் கூகிள் தலைமை விஞ்ஞானி) வரையறுத்துள்ளபடி, இது இடஞ்சார்ந்த நுண்ணறிவு என்று அழைக்கப்படுகிறது. இந்த இரண்டையும் ஒரு நாள் இணைக்க வேண்டும் என்று உங்களுக்குத் தெரியும். இதை நாங்கள் உள்நாட்டில் VLA (விஷன் லாங்குவேஜ் ஆக்சன் மாடல்) என்று அழைக்கிறோம்.

ஒரு குறிப்பிட்ட தருணத்தில் அடிப்படை மாதிரி நிச்சயமாக VLA ஆக மாறும் என்று Li Xiang நம்புகிறார். ஏனென்றால் மொழி மாதிரிகள் மொழி மற்றும் அறிவாற்றல் மூலம் மட்டுமே மூன்று பரிமாண உலகைப் புரிந்துகொள்ள முடியும். இது போதுமானதாக இல்லை. “இது உண்மையில் வெக்டார் அடிப்படையிலானதாக இருக்க வேண்டும். டிஃபியூஷன் (பரவல் மாதிரி) மற்றும் ஜெனரேட்டிவ் முறைகளைப் பயன்படுத்தி (உலகைப் புரிந்துகொள்ள வேண்டும்).”

VLAவின் பிறப்பு, மொழி நுண்ணறிவு மற்றும் இடஞ்சார்ந்த நுண்ணறிவை ஆழமாக ஒருங்கிணைப்பதற்கான ஒரு துணிச்சலான முயற்சி மட்டுமல்ல, Li Autoவின் "அறிவார்ந்த கார்" என்ற கருத்தை மறுவிளக்கம் செய்வதாகும்.

இன்றிரவு AI Talk இல் Li Xiang மேலும் வரையறுத்தார்: “VLA ஒரு ஓட்டுநர் பெரிய மாதிரி. இது ஒரு மனித ஓட்டுநர் போல வேலை செய்கிறது.” இது ஒரு தொழில்நுட்பம் மட்டுமல்ல. பயனர்களுடன் இயற்கையாக தொடர்பு கொள்ளவும், சுதந்திரமான முடிவுகளை எடுக்கவும் கூடிய ஒரு அறிவார்ந்த கூட்டாளியும் கூட.

அப்படியானால் VLA என்றால் என்ன? விஷுவல் பெர்செப்ஷன், நேச்சுரல் லாங்குவேஜ் அண்டர்ஸ்டாண்டிங் மற்றும் ஆக்சன் ஜெனரேஷன் திறன்களை ஒருங்கிணைப்பதன் மூலம், வாகனம் மக்களுடன் தொடர்பு கொள்ளவும், சொந்தமாக முடிவுகளை எடுக்கவும் கூடிய ஒரு "ஓட்டுநர் முகவராக" மாறுகிறது.

உங்கள் காரில் உட்கார்ந்து கொண்டு, “இன்று கொஞ்சம் சோர்வாக இருக்கிறது, மெதுவாக ஓட்டுங்கள்” என்று நீங்கள் சொன்னால், வாகனம் நீங்கள் சொல்வதைப் புரிந்துகொள்வது மட்டுமல்லாமல், அதன் வேகத்தை சரிசெய்து, மென்மையான வழியைத் தேர்ந்தெடுக்கும் என்று கற்பனை செய்து பாருங்கள். இந்த இயல்பான மற்றும் மென்மையான தொடர்பைத்தான் VLA அடைய விரும்புகிறது. அனைத்து குறுகிய கட்டளைகளும் நேரடியாக வாகனத்தால் செயல்படுத்தப்படுகின்றன. அதே நேரத்தில் சிக்கலான கட்டளைகள் கிளவுட் அடிப்படையிலான 3.2 பில்லியன் அளவுரு மாதிரி மூலம் பாகுபடுத்தப்படுகின்றன. இது செயல்திறன் மற்றும் நுண்ணறிவு இரண்டையும் உறுதி செய்கிறது என்று Li Xiang வெளிப்படுத்தினார்.

இந்த இலக்கை அடைவது எளிதானது அல்ல. VLAவின் சிறப்பு என்னவென்றால், இது பார்வை, மொழி மற்றும் செயல் ஆகிய மூன்று பரிமாணங்களையும் இணைக்கிறது. பயனரிடமிருந்து வரும் ஒரு எளிய கட்டளையில் சுற்றியுள்ள சூழலின் நிகழ்நேர உணர்வு, மொழியின் நோக்கத்தைப் பற்றிய துல்லியமான புரிதல் மற்றும் ஓட்டுநர் நடத்தையின் விரைவான சரிசெய்தல் ஆகியவை அடங்கும். இந்த மூன்றும் இன்றியமையாதவை.

இந்த மூன்று விஷயங்களையும் தடையின்றி ஒன்றாக வேலை செய்ய வைப்பதுதான் VLAவின் சிறப்பு.

பார்வையிலிருந்து உண்மைக்கு, VLAவின் R&D ஒரு வரைபடமில்லாத பிரதேசம். “காட்சி மற்றும் செயல் தரவைப் பெறுவது மிகவும் கடினமானது. எந்த நிறுவனமும் இதை மாற்ற முடியாது” என்று Li Xiang ஒப்புக்கொண்டார்.

VLAவின் தொழில்நுட்ப பின்னணியைப் புரிந்துகொள்ள, Li Autoவின் அறிவார்ந்த ஓட்டுநரின் பரிணாமத்தையும் நாம் பார்க்க வேண்டும்.

ஆரம்பகால அமைப்பு “பூச்சி-நிலை” நுண்ணறிவு என்று Li Xiang கூறினார். இதில் மில்லியன் கணக்கான அளவுருக்கள் மட்டுமே இருந்தன. விதிமுறைகள் மற்றும் அதி துல்லிய வரைபடங்களால் இயக்கப்பட்டது. சிக்கலான சாலை நிலைமைகளை எதிர்கொண்டபோது உதவியற்றதாக இருந்தது. பின்னர் எண்டு-டு-எண்டு கட்டமைப்பு மற்றும் விஷுவல்-லாங்குவேஜ் மாடல்கள் தொழில்நுட்பத்தை “பாலூட்டி-நிலைக்கு” உயர்த்த அனுமதித்தன. வரைபட சார்பு நிலையிலிருந்து விடுபட்டு, நாடு தழுவிய வரைபடமில்லாத NOA உண்மையாக்கப்பட்டது.

உண்மையில், இந்த படி ஏற்கனவே Li Autoவை தொழில்துறையின் முன்னணியில் நிறுத்தியுள்ளது. ஆனால் அவர்கள் இதில் திருப்தி அடையவில்லை. Li Xiang பார்வையில், VLAவின் தோற்றம் Li Autoவின் அறிவார்ந்த ஓட்டுநர் தொழில்நுட்பம் “மனித நுண்ணறிவு” என்ற புதிய கட்டத்திற்குள் நுழைந்துள்ளது என்பதைக் குறிக்கிறது.

முந்தைய அமைப்போடு ஒப்பிடும்போது, VLA மூன்று பரிமாண இயற்பியல் உலகத்தை உணர முடிவது மட்டுமல்லாமல், தர்க்கரீதியான காரணங்களையும் செய்ய முடியும். மேலும் மனித நிலையிலிருந்து ஓட்டுநர் நடத்தைகளையும் உருவாக்க முடியும்.

ஒரு எளிய உதாரணத்திற்கு, நெரிசலான சாலையில் “திரும்புவதற்கு ஒரு இடத்தைக் கண்டுபிடி” என்று நீங்கள் சொன்னால், VLA கட்டளையை இயந்திரத்தனமாக செயல்படுத்தாது. ஆனால் திரும்பும் செயல்முறையை முடிக்க மிகவும் நியாயமான நேரம் மற்றும் இடத்தைக் கண்டுபிடிக்க சாலை நிலைமைகள், போக்குவரத்து மற்றும் போக்குவரத்து விதிகள் ஆகியவற்றை முழுமையாகக் கருத்தில் கொள்ளும்.

VLA தரவை உருவாக்குவதன் மூலம் புதிய காட்சிகளுக்கு விரைவாக மாற்றியமைக்க முடியும். மேலும் மூன்று நாட்களுக்குள் முதன்முறையாக சிக்கலான சாலை பழுதுகளை எதிர்கொள்ளும் போது கூட பதில்களை மேம்படுத்த முடியும் என்று Li Xiang கூறினார். இந்த நெகிழ்வுத்தன்மை மற்றும் தீர்ப்பு ஆகியவை VLAவின் முக்கிய நன்மைகள்.

Li Autoவின் ஆசிரியர் DeepSeek

VLAவுக்கு ஆதரவளிப்பது Li Autoவால் சுயாதீனமாக உருவாக்கப்பட்ட சிக்கலான மற்றும் அதிநவீன தொழில்நுட்ப அமைப்பாகும். இந்த அமைப்பு காரை உலகை "புரிந்துகொள்ள" மட்டுமல்லாமல், ஒரு மனித ஓட்டுநரைப் போல சிந்திக்கவும் செயல்படவும் அனுமதிக்கிறது.

முதலில் 3D Gaussian ரெப்ரெசெண்டேஷன் டெக்னாலஜி. இது பல "காஸியன் புள்ளிகளைப்" பயன்படுத்தி ஒரு 3D பொருளை உருவாக்குகிறது. ஒவ்வொரு புள்ளியிலும் அதன் சொந்த நிலை, நிறம் மற்றும் அளவு தகவல் உள்ளது. இந்த தொழில்நுட்பம் தன்னியக்க கற்றலைப் பயன்படுத்தி பாரிய உண்மையான தரவைப் பயன்படுத்தி சக்திவாய்ந்த 3D இடஞ்சார்ந்த புரிதல் மாதிரியைப் பயிற்றுவிக்கிறது. இதன் மூலம் VLA ஒரு மனிதனைப் போல சுற்றியுள்ள உலகைப் “புரிந்துகொள்ள” முடியும். தடைகள் எங்கே உள்ளன, கடந்து செல்லக்கூடிய பகுதிகள் எங்கே உள்ளன என்பதை அறிய முடியும்.

அடுத்து மிக்சர் ஆஃப் எக்ஸ்பெர்ட்ஸ் (MoE) கட்டமைப்பு. இது நிபுணர் நெட்வொர்க்குகள், கேட்டிங் நெட்வொர்க்குகள் மற்றும் கம்பைனர்களைக் கொண்டுள்ளது. மாதிரி அளவுருக்கள் நூற்றுக்கணக்கான பில்லியன்களைத் தாண்டும்போது, பாரம்பரிய முறை ஒவ்வொரு கணக்கீட்டிலும் அனைத்து நியூரான்களையும் பங்கேற்கச் செய்யும். இது வளங்களை வீணடிக்கும் செயல். MoE கட்டமைப்பில் உள்ள கேட்டிங் நெட்வொர்க் வெவ்வேறு பணிகளுக்கு ஏற்ப வெவ்வேறு நிபுணர்களை அழைக்கும். இது செயல்படுத்தல் அளவுருக்கள் கணிசமாக அதிகரிக்காது என்பதை உறுதி செய்யும்.

இதைப் பற்றி பேசுகையில், Li Xiang DeepSeekயையும் பாராட்டினார்:

DeepSeek மனிதகுலத்தின் சிறந்த நடைமுறைகளைப் பயன்படுத்துகிறது… அவர்கள் DeepSeek V3ஐச் செய்தபோது, V3 ஒரு MoE, ஒரு 671B மாடல். MoE ஒரு சிறந்த கட்டமைப்பு என்று நான் நினைக்கிறேன். இது ஒரு கொத்து நிபுணர்களை ஒன்றாக இணைப்பதற்குச் சமம். மேலும் ஒவ்வொன்றும் ஒரு நிபுணர் திறன்.

இறுதியாக Li Auto ஸ்பார்ஸ் அட்டென்ஷனை VLAவுக்கு அறிமுகப்படுத்தியது. இதன் பொருள் VLA தானாகவே முக்கிய பகுதிகளின் அட்டென்ஷன் எடைகளை சரிசெய்யும். இதன் மூலம் எண்டு சைடின் அனுமான திறனை மேம்படுத்தும்.

இந்த புதிய அடிப்படை மாதிரியின் பயிற்சி செயல்பாட்டில், சிறந்த தரவு விகிதத்தைக் கண்டறிய Li Autoவின் பொறியாளர்கள் நிறைய நேரம் செலவிட்டனர். தன்னாட்சி ஓட்டுதலுடன் தொடர்புடைய நிறைய 3D தரவு மற்றும் உரை மற்றும் படத் தரவை ஒருங்கிணைத்து, இலக்கிய மற்றும் வரலாற்றுத் தரவின் விகிதத்தைக் குறைத்தனர் என்று Li Xiang கூறினார்.

பெர்செப்ஷனிலிருந்து டெசிஷன் மேக்கிங் வரை, VLA மனித சிந்தனையின் வேகமான மற்றும் மெதுவான கலவை முறையைப் பயன்படுத்துகிறது. அவசரநிலை தவிர்ப்பது போன்ற எளிய செயல் முடிவுகளை விரைவாக வழங்க முடியும். மேலும் கட்டுமானப் பகுதியைத் தவிர்க்க ஒரு வழியைத் தற்காலிகமாகத் திட்டமிடுவது போன்ற சிக்கலான சூழ்நிலைகளைச் சமாளிக்க குறுகிய சிந்தனை சங்கிலிகளைப் பயன்படுத்தலாம். நிகழ்நேர செயல்திறனை மேலும் மேம்படுத்த, VLA ஊகரீதியான பகுத்தறிவு மற்றும் இணையான டிகோடிங் தொழில்நுட்பத்தையும் அறிமுகப்படுத்தியது. இது வாகனத்தின் பக்க சிப்பின் கணக்கீட்டு சக்தியை முழுமையாகப் பயன்படுத்தி, டெசிஷன் மேக்கிங் செயல்முறை வேகமாகவும் குழப்பமில்லாமலும் இருப்பதை உறுதி செய்கிறது.

ஓட்டுநர் நடத்தையை உருவாக்கும்போது, VLA டிஃபியூஷன் மாடல்கள் மற்றும் ரீயின்ஃபோர்ஸ்மென்ட் லேர்னிங் ஃப்ரம் ஹியூமன் ஃபீட்பேக் (RLHF)ஐப் பயன்படுத்துகிறது. டிஃபியூஷன் மாடல் உகந்த ஓட்டுநர் பாதைகளை உருவாக்குவதற்குப் பொறுப்பாகும். அதே நேரத்தில் RLHF இந்த பாதைகளை மனித பழக்கங்களுக்கு நெருக்கமாக மாற்றுகிறது. இது பாதுகாப்பானது மற்றும் வசதியானது. உதாரணமாக, VLA திரும்பும்போது தானாகவே வேகத்தைக் குறைக்கும். அல்லது பாதைகளை இணைக்கும்போது போதுமான பாதுகாப்பான தூரத்தை விட்டுவிடும். இந்த விவரங்கள் மனித ஓட்டுநர் நடத்தையின் ஆழமான கற்றலைப் பிரதிபலிக்கின்றன.

உலக மாதிரி மற்றொரு முக்கிய தொழில்நுட்பமாகும். காட்சி மறுகட்டமைப்பு மற்றும் உருவாக்கத்தின் மூலம் வலுவூட்டல் கற்றலுக்கான உயர்தர மெய்நிகர் சூழலை Li Auto வழங்குகிறது. உலக மாதிரி ஒரு கிலோமீட்டருக்கு 170,000-180,000 யுவானாக இருந்த சரிபார்ப்புச் செலவை 4,000 யுவானாகக் குறைத்துள்ளது என்று Li Xiang வெளிப்படுத்தினார். இது உருவகப்படுத்துதலில் தொடர்ந்து மேம்படுத்தவும், சிக்கலான சூழ்நிலைகளை எளிதாகச் சமாளிக்கவும் VLAவுக்கு அனுமதிக்கிறது.

பயிற்சியைப் பற்றி பேசுகையில், VLAவின் வளர்ச்சி செயல்முறையும் மிகவும் ஒழுங்கமைக்கப்பட்டுள்ளது. முழு செயல்முறையும் மூன்று நிலைகளாகப் பிரிக்கப்பட்டுள்ளது: முன் பயிற்சி, பிந்தைய பயிற்சி மற்றும் வலுவூட்டல் கற்றல். “முன் பயிற்சி என்பது அறிவைப் படிப்பதற்கும், பிந்தைய பயிற்சி என்பது ஓட்டுநர் பள்ளியில் ஓட்டுநர் பயிற்சி பெறுவதற்கும், வலுவூட்டல் கற்றல் என்பது சமூக நடைமுறையைப் போன்றது” என்று Li Xiang கூறினார்.

முன் பயிற்சி கட்டத்தில், Li Auto VLAக்கான விஷுவல்-லாங்குவேஜ் அடிப்படை மாதிரியை உருவாக்கியது. அதில் நிறைய 3D விஷுவல் தரவு, 2D உயர் வரையறை படங்கள் மற்றும் ஓட்டுநர் தொடர்பான கார்ப்பஸை நிரப்பியது. இதன் மூலம் முதலில் “பார்க்க” மற்றும் “கேட்க” கற்றுக்கொள்ள அனுமதித்தது. பயிற்சிக்குப் பிறகு, செயல் தொகுதி சேர்க்கப்பட்டு, 4-8 வினாடி ஓட்டுநர் பாதைகளை உருவாக்குகிறது. மேலும் மாதிரி 3.2 பில்லியன் அளவுருக்களிலிருந்து 4 பில்லியனாக விரிவடைகிறது.

வலுவூட்டல் கற்றல் இரண்டு படிகளாக பிரிக்கப்பட்டுள்ளது: முதலில் RLHFஐப் பயன்படுத்தி மனித பழக்கங்களை சீரமைக்கவும், டேக்ஓவர் தரவை பகுப்பாய்வு செய்யவும், பாதுகாப்பு மற்றும் வசதியை உறுதி செய்யவும்; பின்னர், G-மதிப்பு (வசதி), மோதல் மற்றும் போக்குவரத்து விதிகள் கருத்துக்களை அடிப்படையாகக் கொண்டு, தூய வலுவூட்டல் கற்றலைப் பயன்படுத்தி, VLA “மனிதர்களை விட சிறப்பாக ஓட்டுகிறது.” இந்த நிலை உலக மாதிரியில் முடிக்கப்பட்டுள்ளது, உண்மையான போக்குவரத்து சூழ்நிலைகளை உருவகப்படுத்துகிறது, மேலும் செயல்திறன் பாரம்பரிய சரிபார்ப்பை விட சிறந்தது என்று Li Xiang குறிப்பிட்டார்.

இந்த பயிற்சி முறை தொழில்நுட்ப முன்னேற்றத்தை உத்தரவாதம் செய்வது மட்டுமல்லாமல், நடைமுறை பயன்பாடுகளில் VLA போதுமான நம்பகமானதாக ஆக்குகிறது.

தொழில்துறை அளவுகோல்களின் உத்வேகம் இல்லாமல் VLAவின் வெற்றி இல்லை என்று Li Xiang ஒப்புக்கொண்டார். DeepSeekன் MoE கட்டமைப்பு பயிற்சி திறனை மேம்படுத்துவது மட்டுமல்லாமல், Li Autoவுக்கு மதிப்புமிக்க அனுபவத்தையும் வழங்கியது. “நாங்கள் ஜாம்பவான்களின் தோள்களில் நின்று VLAவின் R&Dஐ துரிதப்படுத்துகிறோம்” என்று அவர் புலம்பினார். இந்த திறந்த கற்றல் அணுகுமுறை Li Autoவை ஒருவரின் நிலத்தில் மேலும் செல்ல அனுமதிக்கிறது.

“தகவல் கருவிகள்” முதல் “உற்பத்தி கருவிகள்” வரை

தற்போது AI தொழில் “தகவல் கருவிகள்” என்பதிலிருந்து “உற்பத்தி கருவிகள்” ஆக ஆழமான மாற்றத்தை சந்தித்து வருகிறது. பெரிய மாதிரி தொழில்நுட்பத்தின் முதிர்ச்சியுடன், AI தரவைச் செயலாக்குவதற்கும் பரிந்துரைகளை வழங்குவதற்கும் மட்டுப்படுத்தப்படவில்லை. ஆனால் சுயாதீனமான முடிவுகளை எடுக்கும் மற்றும் பணிகளைச் செய்யும் திறனைக் கொண்டுள்ளது.

AI Talk இரண்டாவது சீசனில், AIஐ தகவல் கருவிகள் (தேடல் போன்றவை), துணை கருவிகள் (குரல் வழிசெலுத்தல் போன்றவை) மற்றும் உற்பத்தி கருவிகள் என பிரிக்கலாம் என்று Li Xiang முன்மொழிந்தார். “செயற்கை நுண்ணறிவு ஒரு உற்பத்தி கருவியாக மாறுவது உண்மையான வெடிப்பு தருணம்” என்று அவர் வலியுறுத்தினார். பெரிய மாதிரி தொழில்நுட்பத்தின் முதிர்ச்சியுடன், AI தரவைச் செயலாக்குவதற்கும் மட்டுப்படுத்தப்படவில்லை. ஆனால் சுயாதீனமான முடிவுகளை எடுக்கும் மற்றும் பணிகளைச் செய்யும் திறனைக் கொண்டுள்ளது.

இந்த போக்கு குறிப்பாக “உருவக நுண்ணறிவு” என்ற கருத்தில் தெளிவாகத் தெரிகிறது - AI அமைப்புகளுக்கு இயற்பியல் நிறுவனங்கள் கொடுக்கப்படுகின்றன. அவை சூழலை உணரவும், புரிந்துகொள்ளவும் மற்றும் தொடர்பு கொள்ளவும் திறன் கொண்டவை.

Li Autoவின் VLA மாடல் இந்த போக்கின் தெளிவான நடைமுறை. பார்வை, மொழி மற்றும் செயல் நுண்ணறிவை ஒருங்கிணைப்பதன் மூலம், இது காரை ஒரு அறிவார்ந்த முகவராக மாற்றுகிறது. இது தன்னாட்சி ஓட்டவும், பயனர்களுடன் இயல்பாக தொடர்பு கொள்ளவும் முடியும். மேலும் “உருவக நுண்ணறிவு” என்ற முக்கிய கருத்தை சரியாக விளக்குகிறது.

மனிதர்கள் தொழில்முறை ஓட்டுநர்களை பணியமர்த்தும் வரை, செயற்கை நுண்ணறிவு ஒரு உற்பத்தி கருவியாக மாற முடியும். AI ஒரு உற்பத்தி கருவியாக மாறும்போது, செயற்கை நுண்ணறிவு உண்மையில் வெடிக்கும்.

VLAவின் முக்கிய மதிப்பை Li Xiangன் கூற்று தெளிவுபடுத்தியது - இது ஒரு எளிய துணை கருவி அல்ல. மாறாக பணிகளைச் சுதந்திரமாகச் செய்து பொறுப்புகளை ஏற்கக்கூடிய ஒரு “ஓட்டுநர் முகவர்”. இந்த மாற்றம் கார்களின் நடைமுறை மதிப்பை மேம்படுத்துவது மட்டுமல்லாமல், பிற துறைகளில் AI பயன்பாட்டிற்கான கற்பனை இடத்தையும் திறக்கிறது.

AI குறித்த Li Xiangன் சிந்தனை எப்போதும் பெட்டியிலிருந்து வெளியேறும் ஒரு கண்ணோட்டத்தைக் கொண்டுள்ளது. அவர் மேலும் குறிப்பிட்டார்: “VLA ஒரு திடீர் மாற்ற செயல்முறை அல்ல, ஆனால் ஒரு பரிணாம வளர்ச்சி செயல்முறை.” இந்த வாக்கியம் Li Autoவின் தொழில்நுட்ப பாதையை துல்லியமாக சுருக்கமாகக் கூறுகிறது -

ஆரம்பகால விதி இயக்கத்திலிருந்து, இறுதி முதல் இறுதி முன்னேற்றங்கள் வரை, இன்றைய VLAவின் “மனித நுண்ணறிவு” நிலை வரை. இந்த பரிணாம சிந்தனை தொழில்நுட்பத்தில் VLAவை சாத்தியமாக்குவது மட்டுமல்லாமல், தொழில்துறைக்கான ஒரு குறிப்பு முன்னுதாரணத்தையும் வழங்குகிறது. சில முயற்சிகளுடன் ஒப்பிடும்போது, Li Autoவின் யதார்த்தமான பாதை சிக்கலான சீன சந்தைக்கு மிகவும் பொருத்தமானதாக இருக்கலாம்.

தொழில்நுட்பத்திலிருந்து நம்பிக்கை வரை, Li Autoவின் AI ஆய்வு சுமுகமாக இல்லை. “AI துறையில் பல சவால்களை நாங்கள் அனுபவித்திருக்கிறோம். விடியலுக்கு முந்தைய இருளைப் போல, ஆனால் நாங்கள் தொடர்ந்து முயற்சி செய்தால், ஒளியைக் காண்போம் என்று நாங்கள் நம்புகிறோம்” என்று Li Xiang ஒப்புக்கொண்டார். VLAவின் R&D கணக்கீட்டு சக்தி தடைகள் மற்றும் தரவு நெறிமுறைகள் போன்ற சிக்கல்களை எதிர்கொள்கிறது. ஆனால் Li Auto சுயாதீனமாக உருவாக்கப்பட்ட அடிப்படை மாதிரிகள் மற்றும் உலக மாதிரிகள் மூலம் படிப்படியாக அவர்களின் தொழில்நுட்ப விடியலை வரவேற்றது.

DeepSeek மற்றும் Tongyi Qianwen போன்ற மாதிரிகளின் வருகை சீனாவின் AI அளவை வேகமாக அமெரிக்காவை நெருங்க வைத்துள்ளது என்று Li Xiang பேட்டியில் குறிப்பிட்டார். அவர்களில், DeepSeek கடைபிடிக்கும் திறந்த மூல உணர்வு குறிப்பாக ஊக்கமளிக்கிறது. இது Li Autoவை Xinghuan OSஐ திறந்த மூலமாக்க நேரடியாகத் தூண்டியது. “இது நிறுவன மூலோபாய பரிசீலனைகளிலிருந்து வரவில்லை. DeepSeek எங்களுக்கு நிறைய உதவி செய்துள்ளது, நாங்கள் சமுதாயத்திற்கு ஏதாவது பங்களிக்க வேண்டும்” என்று Li Xiang கூறினார்.

தொழில்நுட்ப முன்னேற்றங்களைத் தொடரும் அதே வேளையில், AI தொழில்நுட்பத்தின் பாதுகாப்பு மற்றும் நெறிமுறை சிக்கல்களை Li Auto புறக்கணிக்கவில்லை. VLA அறிமுகப்படுத்திய “சூப்பர் சீரமைப்பு” தொழில்நுட்பம், ரியின்ஃபோர்ஸ்மென்ட் லேர்னிங் ஃப்ரம் ஹியூமன் ஃபீட்பேக் (RLHF) மூலம் மாதிரியின் நடத்தை மனித பழக்கங்களுக்கு நெருக்கமாக ஆக்குகிறது. VLA பயன்பாடு அதிவேக MPI (சராசரி தலையீடு மைலேஜ்) 240 கிமீவிலிருந்து 300 கிமீ ஆக அதிகரித்துள்ளது என்று தரவு காட்டுகிறது.

முக்கியமாக Li Auto “மனித மதிப்புகளைக் கொண்ட AI” உருவாக்குவதை வலியுறுத்துகிறது. மேலும் தார்மீகத்தையும் நம்பிக்கையையும் தொழில்நுட்ப வளர்ச்சியின் மூலக்கல்லாகக் கருதுகிறது. ஒரு பரந்த முன்னோக்கிலிருந்து, VLAவின் முக்கியத்துவம் கார் நிறுவனங்களின் பங்கை மறுவரையறை செய்வதில் உள்ளது.

கடந்த காலத்தில், கார்கள் தொழில்துறை வயது போக்குவரத்து வழிமுறையாக இருந்தன. இன்று அவை செயற்கை நுண்ணறிவு சகாப்தத்தில் “இடஞ்சார்ந்த ரோபோக்களாக” பரிணமித்து வருகின்றன. AI Talk இல் Li Xiang குறிப்பிட்டார்: “Li Auto முன்பு கார்களின் வரைபடமில்லாத நிலத்தில் நடந்துகொண்டிருந்தது. எதிர்காலத்தில் செயற்கை நுண்ணறிவின் வரைபடமில்லாத நிலத்தில் நடக்கும்.” Li Autoவின் இந்த மாற்றம் வாகனத் தொழிலின் வணிக மாதிரியில் புதிய கற்பனை இடத்தைக் கொண்டுவருகிறது.

நிச்சயமாக VLAவின் வளர்ச்சி சவால்கள் இல்லாமல் இல்லை. கணக்கீட்டு சக்தியின் தொடர்ச்சியான முதலீடு, தரவு நெறிமுறைகள் மற்றும் தன்னாட்சி ஓட்டுதலில் நுகர்வோர் நம்பிக்கையை நிறுவுதல் ஆகியவை Li Auto எதிர்கொள்ள வேண்டிய பிரச்சினைகள். கூடுதலாக, AI துறையில் போட்டி அதிகரித்து வருகிறது. டெஸ்லா, வேய்மோ மற்றும் OpenAI போன்ற உள்நாட்டு மற்றும் வெளிநாட்டு ஜாம்பவான்கள் பல மாதிரி மாதிரிகளின் தளவமைப்பை துரிதப்படுத்தி வருகின்றனர். Li Auto தொழில்நுட்ப மறு செய்கை மற்றும் சந்தை ஊக்குவிப்பில் அதன் முன்னணி நிலையைத் தக்க வைத்துக் கொள்ள வேண்டும். “எங்களுக்கு எந்த குறுக்குவழிகளும் இல்லை, நாங்கள் ஆழமாக பயிரிட முடியும்” என்று Li Xiang கூறினார்.

நிச்சயமாக VLAவின் தரையிறக்கம் ஒரு முக்கிய முனையாக இருக்கும்.

Li Auto 2025 ஜூலையில் தூய எலக்ட்ரிக் SUV Li Auto i8 உடன் VLAவை ஒரே நேரத்தில் வெளியிடவும், 2026ல் வெகுஜன உற்பத்தியை அடையவும் திட்டமிட்டுள்ளது. இது தொழில்நுட்பத்தின் விரிவான சோதனை மட்டுமல்ல, சந்தைக்கு ஒரு முக்கியமான தடையாக உள்ளது.