மூன்ஷாட் ஏஐ (Moonshot AI) நிறுவனத்தின் கிமி-விஎல் (Kimi-VL): உரை, படங்கள், வீடியோக்களை கையாளும் திறன்மிகுந்த ஒரு சிறிய ஏஐ (AI) சாதனம்
சீனாவில் இயங்கி வரும் ஒரு ஸ்டார்ட்அப் நிறுவனமான மூன்ஷாட் ஏஐ (Moonshot AI), செயற்கை நுண்ணறிவுத் துறையில் புதிய அலைகளை உருவாக்கும் ஒரு புதிய திறந்த மூல ஏஐ மாதிரியை அறிமுகப்படுத்தியுள்ளது. கிமி-விஎல் (Kimi-VL) என்று பெயரிடப்பட்ட இந்த மாதிரி, படங்கள், உரை மற்றும் வீடியோக்கள் உட்பட பல்வேறு வகையான தரவுகளை குறிப்பிடத்தக்க செயல்திறனுடன் செயலாக்க வடிவமைக்கப்பட்டுள்ளது. கிமி-விஎல் மாதிரியை தனித்துவமாக்குவது என்னவென்றால், அதன் சிறிய அளவைப் பராமரிக்கும் அதே வேளையில், நீண்ட ஆவணங்களைக் கையாளவும், சிக்கலான காரணங்களில் ஈடுபடவும், பயனர் இடைமுகங்களைப் புரிந்துகொள்ளவும் கூடிய திறன் ஆகும்.
கிமி-விஎல்: கட்டிடக்கலை மூலம் செயல்திறன்
மூன்ஷாட் ஏஐ-யின் கூற்றுப்படி, கிமி-விஎல் மாதிரியின் செயல்திறன், நிபுணர்களின் கலவை (MoE) கட்டிடக்கலையைப் பயன்படுத்துவதில் இருந்து வருகிறது. இந்த வடிவமைப்பு, ஒவ்வொரு பணிக்கும் அதன் அளவுருக்களின் ஒரு குறிப்பிட்ட பகுதியை மட்டும் செயல்படுத்த மாதிரியை அனுமதிக்கிறது, இது கணிசமான கணக்கீட்டு சேமிப்புக்கு வழிவகுக்கிறது. வெறும் 2.8 பில்லியன் செயலில் உள்ள அளவுருக்கள் மூலம், கிமி-விஎல் பல தரப்படுத்தப்பட்ட சோதனைகளில் மிகப் பெரிய மாதிரிகளுக்கு இணையாக செயல்திறன் அளவுகளை அடைகிறது.
பாரம்பரிய ஏஐ மாதிரிகள் பெரும்பாலும் அவற்றின் அளவு மற்றும் சிக்கலான தன்மை காரணமாக மிகப்பெரிய கணக்கீட்டு ஆதாரங்கள் தேவைப்படுகின்றன. கிமி-விஎல்-இல் உள்ள MoE கட்டிடக்கலை, வேகமான செயலாக்கம் மற்றும் குறைக்கப்பட்ட ஆற்றல் நுகர்வு ஆகியவற்றை அனுமதிக்கும் ஒரு நெறிப்படுத்தப்பட்ட அணுகுமுறையை வழங்குகிறது. இந்த செயல்திறன், குறைந்த வளங்களைக் கொண்ட சாதனங்களில் மற்றும் நிகழ்நேர செயல்திறன் முக்கியமான பயன்பாடுகளில் பயன்படுத்த கிமி-விஎல் ஒரு நம்பிக்கைக்குரிய வேட்பாளராக ஆக்குகிறது.
இந்த கட்டிடக்கலை தேர்வின் தாக்கம் கணிசமானது. மாதிரியின் தேவையான பகுதிகளை மட்டும் தேர்ந்தெடுத்து செயல்படுத்துவதன் மூலம், கிமி-விஎல் பொருத்தமற்ற தகவல்களை செயலாக்குவதுடன் தொடர்புடைய கணக்கீட்டு சுமையைத் தவிர்க்கிறது. இந்த இலக்கு அணுகுமுறை செயல்திறனை அதிகரிப்பது மட்டுமல்லாமல், உள்ளீட்டு தரவின் மிக முக்கியமான அம்சங்களில் கவனம் செலுத்த மாதிரியின் திறனையும் மேம்படுத்துகிறது.
நீட்டிக்கப்பட்ட சூழல் சாளரம் (Extended Context Window)
கிமி-விஎல்-இன் தனித்துவமான அம்சங்களில் ஒன்று 128,000 டோக்கன்களின் பெரிய சூழல் சாளரம் ஆகும். இந்த விரிவான சாளரம், முழு புத்தகங்கள் அல்லது நீண்ட வீடியோ டிரான்ஸ்கிரிப்ட்களை செயலாக்க மாதிரியை அனுமதிக்கிறது, இது கல்வி, பொழுதுபோக்கு மற்றும் ஆராய்ச்சி போன்ற துறைகளில் ஏஐ பயன்பாடுகளுக்கு புதிய சாத்தியங்களைத் திறக்கிறது. கிமி-விஎல் லாங் வீடியோபெஞ்ச் (LongVideoBench) மற்றும் எம்எம்லாங் பெஞ்ச்-டாக் (MMLongBench-Doc) போன்ற சோதனைகளில் தொடர்ந்து சிறப்பாக செயல்படுகிறது என்று மூன்ஷாட் ஏஐ தெரிவித்துள்ளது, இது நீண்ட வடிவ உள்ளடக்கத்தை திறம்பட கையாளும் திறனை நிரூபிக்கிறது.
நீண்ட ஆவணங்களைச் செயலாக்கும் திறன் பல நிஜ உலக காட்சிகளில் ஒரு குறிப்பிடத்தக்க நன்மை. உதாரணமாக, கிமி-விஎல் சட்ட ஒப்பந்தங்கள், ஆராய்ச்சி ஆவணங்கள் அல்லது தொழில்நுட்ப கையேடுகளை சிறிய பகுதிகளாக உடைக்காமல் பகுப்பாய்வு செய்ய பயன்படுத்தப்படலாம். இந்த திறன் நேரத்தையும் முயற்சியையும் சேமிப்பது மட்டுமல்லாமல், துண்டு துண்டான தரவை செயலாக்கும்போது தவறவிடக்கூடிய நுணுக்கங்களையும் ஒன்றோடொன்று சார்ந்திருப்பதையும் பிடிக்க மாதிரியை அனுமதிக்கிறது.
மேலும், நீட்டிக்கப்பட்ட சூழல் சாளரம் ஒரு உள்ளடக்கத்தின் ஒட்டுமொத்த சூழலைப் புரிந்துகொள்ள கிமி-விஎல் திறனை மேம்படுத்துகிறது. இது காரணங்காட்டும் மற்றும் ஊகிக்க வேண்டிய பணிகளுக்கு மிகவும் முக்கியமானது, ஏனெனில் மாதிரி மிகவும் துல்லியமான மற்றும் தகவலறிந்த முடிவுகளை அடைய தகவல்களின் பெரிய தொகுப்பைப் பயன்படுத்த முடியும்.
பட செயலாக்க திறன் (Image Processing Prowess)
கிமி-விஎல்-இன் பட செயலாக்க திறன்களும் குறிப்பிடத்தக்கவை. சில ஏஐ அமைப்புகளைப் போலல்லாமல், கிமி-விஎல் முழுமையான ஸ்கிரீன்ஷாட்களை அல்லது சிக்கலான கிராஃபிக்ஸ்களை சிறிய பகுதிகளாக உடைக்காமல் பகுப்பாய்வு செய்ய முடியும். கணித பட சிக்கல்களை பகுப்பாய்வு செய்தல் மற்றும் கையால் எழுதப்பட்ட குறிப்புகளை விளக்குவது உட்பட பரந்த அளவிலான பட தொடர்பான பணிகளை மாதிரி கையாள இந்த திறன் அனுமதிக்கிறது.
முழுமையான ஸ்கிரீன்ஷாட்களை பகுப்பாய்வு செய்யும் திறன் மென்பொருள் சோதனை மற்றும் பயனர் இடைமுக வடிவமைப்பு போன்ற பயன்பாடுகளில் மிகவும் பயனுள்ளதாக இருக்கும். மென்பொருள் இடைமுகங்களில் உள்ள பிழைகள் அல்லது முரண்பாடுகளை தானாகவே அடையாளம் காண கிமி-விஎல் பயன்படுத்தப்படலாம், இது டெவலப்பர்களுக்கு மதிப்புமிக்க கருத்துகளையும் நுண்ணறிவுகளையும் வழங்குகிறது.
கணித பட சிக்கல்கள் மற்றும் கையால் எழுதப்பட்ட குறிப்புகளை கையாளும் மாதிரியின் திறன் அதன் பல்துறை திறனை மேலும் நிரூபிக்கிறது. மாணவர் வேலையை தானாகவே தரப்படுத்தக்கூடிய கல்வி கருவிகளை உருவாக்க அல்லது குறைபாடுகள் உள்ளவர்கள் எழுதப்பட்ட பொருட்களை அணுகவும் தொடர்பு கொள்ளவும் உதவும் உதவி தொழில்நுட்பங்களை உருவாக்க இந்த திறன்களைப் பயன்படுத்தலாம். ஒரு சோதனையில், கிமி-விஎல் கையால் எழுதப்பட்ட கையெழுத்துப் பிரதியை பகுப்பாய்வு செய்தது, ஆல்பர்ட் ஐன்ஸ்டீனின் குறிப்புகளை அடையாளம் கண்டது மற்றும் அவற்றின் பொருத்தத்தை விளக்கியது, சிக்கலான உள்ளடக்கத்தைப் புரிந்துகொண்டு அர்த்தமுள்ள இணைப்புகளை உருவாக்கும் திறனை வெளிப்படுத்துகிறது.
ஒரு மென்பொருள் உதவியாளர் (A Software Assistant)
கிமி-விஎல் ஒரு மென்பொருள் உதவியாளராகவும் செயல்பட முடியும், கிராஃபிகல் பயனர் இடைமுகங்களை விளக்கி டிஜிட்டல் பணிகளை தானியக்கமாக்குகிறது. மூன்ஷாட் ஏஐ-யின் கூற்றுப்படி, உலாவி மெனுக்களை வழிநடத்திய அல்லது அமைப்புகளை மாற்றிய சோதனைகளில் ஜிபிடி-4ஓ (GPT-4o) உட்பட பல அமைப்புகளை கிமி-விஎல் விஞ்சியது.
ஒரு மென்பொருள் உதவியாளராக கிமி-விஎல்-இன் சாத்தியமான பயன்பாடுகள் பரந்தவை. படிவங்களை நிரப்புதல் அல்லது சந்திப்புகளை திட்டமிடுதல் போன்ற மீண்டும் மீண்டும் செய்யும் பணிகளை தானியக்கமாக்க இதைப் பயன்படுத்தலாம், இது பயனர்கள் முக்கியமான செயல்பாடுகளில் கவனம் செலுத்த அனுமதிக்கிறது. சில மென்பொருள் பயன்பாடுகள் அல்லது டிஜிட்டல் இடைமுகங்களைப் பற்றி அறிமுகமில்லாத பயனர்களுக்கு தனிப்பயனாக்கப்பட்ட உதவியை வழங்கவும் இதைப் பயன்படுத்தலாம்.
இந்த பயன்பாடுகளுக்கு மாதிரி கிராஃபிகல் பயனர் இடைமுகங்களைப் புரிந்துகொண்டு தொடர்பு கொள்ளும் திறன் ஒரு முக்கிய காரணியாகும். பயனர் இடைமுகத்தின் காட்சி கூறுகள் மற்றும் அடிப்படை தர்க்கத்தை விளக்குவதன் மூலம், கிமி-விஎல் பயனரின் சார்பாக செயல்களைச் செய்ய முடியும், இது ஒரு டிஜிட்டல் உதவியாளராக திறம்பட செயல்படுகிறது.
செயல்திறன் தரநிலைகள் (Performance Benchmarks)
க்வென்2.5-விஎல்-7பி (Qwen2.5-VL-7B) மற்றும் ஜெம்மா-3-12பி-ஐடி (Gemma-3-12B-IT) போன்ற பிற திறந்த மூல மாதிரிகளுடன் ஒப்பிடும்போது, கிமி-விஎல் மிகவும் திறமையானதாகத் தெரிகிறது. மூன்ஷாட் ஏஐ-யின் கூற்றுப்படி, மிகக் குறைவான செயலில் உள்ள அளவுருக்களுடன் செயல்பட்டாலும், 24 தரநிலைகளில் 19 இல் இது முன்னிலை வகிக்கிறது. எம்எம்பிஞ்ச்-ஈஎன் (MMBench-EN) மற்றும் ஏஐ2டி (AI2D) ஆகியவற்றில், பெரிய, வணிக மாதிரிகளிடமிருந்து பொதுவாகக் காணப்படுபவற்றுக்கு இணையாக அல்லது அதிகமாக மதிப்பெண்களைப் பெற்றுள்ளதாக கூறப்படுகிறது.
இந்த செயல்திறன் தரநிலைகள் மற்ற மாதிரிகள் தேவைப்படும் வளங்களின் ஒரு பகுதியைக் கொண்டு போட்டி முடிவுகளை அடையும் கிமி-விஎல் திறனை எடுத்துக்காட்டுகின்றன. அதிகப்படியான கணக்கீட்டு செலவுகளைச் செய்யாமல் ஏஐ தீர்வுகளை பயன்படுத்த விரும்பும் நிறுவனங்களுக்கு கிமி-விஎல் ஒரு கவர்ச்சிகரமான விருப்பமாக இந்த செயல்திறன் ஆக்குகிறது.
சில தரநிலைகளில் பெரிய, வணிக மாதிரிகளின் செயல்திறனை கிமி-விஎல் பொருத்தவோ அல்லது மீறவோ முடியும் என்பது குறிப்பாக ஈர்க்கக்கூடியது. மூன்ஷாட் ஏஐ பயிற்சி அணுகுமுறையின் செயல்திறனையும், சிறிய, திறமையான மாதிரிகள் ஏஐ-யின் எதிர்காலத்தில் ஒரு முக்கிய பங்கை வகிக்க முடியும் என்பதையும் இது நிரூபிக்கிறது.
பயிற்சி அணுகுமுறை (Training Approach)
கிமி-விஎல்-இன் செயல்திறனுக்கு அதன் பயிற்சி அணுகுமுறையே காரணம் என்று மூன்ஷாட் ஏஐ கூறுகிறது. நிலையான மேற்பார்வையிடப்பட்ட நுணுக்கமான சரிசெய்தலுக்கு கூடுதலாக, கிமி-விஎல் வலுவூட்டல் கற்றலைப் பயன்படுத்துகிறது. கணித ரீசனிங் போன்ற மிகவும் சிக்கலான சிந்தனை தேவைப்படும் பணிகளில் செயல்திறனை அதிகரிக்கும் வகையில், கிமி-விஎல்-சிங்கிங் (Kimi-VL-Thinking) எனப்படும் ஒரு சிறப்பு பதிப்பு நீண்ட காரணவியல் படிகள் மூலம் இயக்க பயிற்சி அளிக்கப்பட்டது.
மேற்பார்வையிடப்பட்ட நுணுக்கமான சரிசெய்தல் என்பது ஏஐ மாதிரிகளுக்கு பயிற்சி அளிப்பதற்கான ஒரு பொதுவான நுட்பமாகும், ஆனால் வலுவூட்டல் கற்றலைச் சேர்ப்பது ஒரு குறிப்பிடத்தக்க மேம்பாடு ஆகும். வலுவூட்டல் கற்றல் மாதிரி அதன் சொந்த அனுபவங்களிலிருந்து கற்றுக்கொள்ள அனுமதிக்கிறது, இது முடிவுகளை எடுக்கும் மற்றும் காலப்போக்கில் சிக்கல்களைத் தீர்க்கும் திறனை மேம்படுத்துகிறது.
நீண்ட காரணவியல் படிகள் மூலம் இயக்க பயிற்சி அளிக்கப்பட்ட மாதிரியின் ஒரு சிறப்பு பதிப்பான கிமி-விஎல்-சிங்கிங் மேம்பாடு, புதுமைக்கான மூன்ஷாட் ஏஐ அர்ப்பணிப்பை மேலும் நிரூபிக்கிறது. கணித ரீசனிங் போன்ற சிக்கலான சிந்தனை தேவைப்படும் பணிகளில் இந்த இலக்கு அணுகுமுறை குறிப்பிடத்தக்க செயல்திறன் ஆதாயங்களுக்கு வழிவகுத்தது.
வரம்புகள் மற்றும் எதிர்கால திட்டங்கள் (Limitations and Future Plans)
கிமி-விஎல் அதன் வரம்புகள் இல்லாமல் இல்லை. அதன் தற்போதைய அளவு மிகவும் மொழி-தீவிரமான அல்லது முக்கிய பணிகளில் அதன் செயல்திறனைக் கட்டுப்படுத்துகிறது, மேலும் விரிவாக்கப்பட்ட சூழல் சாளரத்துடன் கூட, மிக நீண்ட சூழல்களுடன் இது இன்னும் தொழில்நுட்ப சவால்களை எதிர்கொள்கிறது.
இந்த வரம்புகள் இருந்தபோதிலும், கிமி-விஎல் திறமையான மற்றும் பல்துறை ஏஐ மாதிரிகளின் வளர்ச்சியில் ஒரு குறிப்பிடத்தக்க முன்னேற்றத்தைக் குறிக்கிறது. மூன்ஷாட் ஏஐ அதன் பயிற்சி அணுகுமுறையைத் தொடர்ந்து மேம்படுத்துவதாலும், மாதிரியின் திறன்களை விரிவுபடுத்துவதாலும், கிமி-விஎல் பரந்த அளவிலான பயன்பாடுகளுக்கு இன்னும் சக்திவாய்ந்த கருவியாக மாறும் வாய்ப்புள்ளது.
பெரிய மாதிரி பதிப்புகளை உருவாக்கவும், கூடுதல் பயிற்சி தரவை இணைக்கவும், நுணுக்கமான சரிசெய்தலை மேம்படுத்தவும் மூன்ஷாட் ஏஐ திட்டமிட்டுள்ளது. ஆராய்ச்சியிலும் தொழில்துறையிலும் நிஜ உலக பயன்பாட்டிற்கு ஏற்ற ‘சக்திவாய்ந்த ஆனால் வள-திறனுள்ள அமைப்பை’ உருவாக்குவதே நிறுவனத்தின் நீண்டகால குறிக்கோள் என்று கூறப்பட்டுள்ளது. ஏஐ தொழில்நுட்பத்தின் எல்லைகளைத் தள்ளுவதற்கும், நிஜ உலக தாக்கத்தை ஏற்படுத்தக்கூடிய தீர்வுகளை உருவாக்குவதற்கும் மூன்ஷாட் ஏஐ கொண்டிருக்கும் அர்ப்பணிப்பை இந்த இலக்குகள் அடிக்கோடிட்டுக் காட்டுகின்றன. வள-திறனுள்ள அமைப்புகளை உருவாக்குவதில் கவனம் செலுத்துவது மிகவும் முக்கியமானது, ஏனெனில் இது ஏஐ தொழில்நுட்பத்தை நிலையான மற்றும் அணுகக்கூடிய முறையில் பயன்படுத்த முடியும் என்பதை உறுதி செய்கிறது.
ஏஐ-யின் எதிர்காலம் சக்திவாய்ந்த மற்றும் திறமையான மாதிரிகளால் வடிவமைக்கப்பட வாய்ப்புள்ளது, மேலும் இந்தத் துறையில் ஒரு தலைவராக மூன்ஷாட் ஏஐ நன்கு நிலைநிறுத்தப்பட்டுள்ளது. அதன் புதுமையான கட்டிடக்கலை, மேம்பட்ட பயிற்சி நுட்பங்கள் மற்றும் தொடர்ச்சியான மேம்பாட்டிற்கான அர்ப்பணிப்புடன், கிமி-விஎல் புத்திசாலித்தனமும் உறுதியும் ஒருங்கிணையும்போது என்ன சாதிக்க முடியும் என்பதற்கு ஒரு நம்பிக்கைக்குரிய உதாரணமாகும். ஏஐ தொடர்ந்து வளர்ச்சியடைந்து வருவதால், கிமி-விஎல் போன்ற மாதிரிகள் தொழில்நுட்பம் மற்றும் சமூகத்தின் எதிர்காலத்தை வடிவமைப்பதில் பெருகிய முறையில் முக்கிய பங்கு வகிக்கும்.