இந்தியாவின் லட்சிய AI முயற்சி: சர்வமும் AI இறையாண்மை LLM வளர்ச்சியை வழிநடத்த உள்ளது
பெங்களூரை தளமாகக் கொண்ட வளர்ந்து வரும் startup நிறுவனமான சர்வமும் AI, இந்தியாAI மிஷனின் கீழ் நாட்டின் முதலாவது இறையாண்மை பெரிய மொழி மாதிரி (LLM) வளர்ச்சியை முன்னெடுக்கும் முக்கியப் பணியை மேற்கொண்டு, தனது சொந்த சுயாதீன செயற்கை நுண்ணறிவு திறன்களை நிறுவுவதற்கான ஒரு உருமாறும் பயணத்தை இந்தியா தொடங்கியுள்ளது. இந்த லட்சிய முயற்சி, தொழில்நுட்ப தன்னிறைவை வளர்ப்பதற்கும், அதன் குடிமக்களின் நலனுக்காக AI சக்தியைப் பயன்படுத்துவதற்கும் இந்தியாவின் அர்ப்பணிப்பை அடிக்கோடிட்டுக் காட்டுகிறது.
உள்நாட்டு AI க்கான ஒரு தொலைநோக்கு பார்வை
இந்த முயற்சியின் இதயத்தில் ஒரு ஆழமான பார்வை உள்ளது: இது உள்நாட்டிலேயே உருவாக்கப்பட்ட ஒரு AI மாதிரி மட்டுமல்லாமல், மேம்பட்ட பகுத்தறிவு திறன்கள், அதிநவீன பேச்சு செயலாக்க திறன்கள் மற்றும் பல்வேறு இந்திய மொழிகளில் தடையற்ற சரளத்துடன் இருக்க வேண்டும். இந்த மாதிரி இந்திய மொழியியல் மற்றும் கலாச்சார நிலப்பரப்பில் ஆழமாக வேரூன்றி, நாட்டின் தனித்துவமான அடையாளத்தையும் பாரம்பரியத்தையும் பிரதிபலிக்கிறது.
இந்த தொலைநோக்கு பார்வையை செயல்படுத்துவதை எளிதாக்குவதற்காக, சர்வமும் AI க்கு 4,086 NVIDIA H100 GPU களைக் கொண்ட ஒரு வலுவான கணக்கீட்டு ஆதாரத்திற்கான அணுகல் ஆறு மாத காலத்திற்கு வழங்கப்படும். இந்த அணுகல் startup நிறுவனத்தை LLM ஐ தரையிலிருந்து கட்டியெழுப்பவும், இந்திய சூழலின் குறிப்பிட்ட தேவைகள் மற்றும் விருப்பங்களுக்கு ஏற்பவும் அதிகாரம் அளிக்கும்.
மூன்று தனித்துவமான வகைகள்
இந்த இறையாண்மை LLM இன் வளர்ச்சி மூன்று தனித்துவமான வகைகளை உள்ளடக்கும், ஒவ்வொன்றும் ஒரு குறிப்பிட்ட பயன்பாடுகள் மற்றும் தேவைகளுக்கு ஏற்ப வடிவமைக்கப்பட்டுள்ளது:
சர்வமும்-லார்ஜ் (Sarvam-Large): இந்த வகை சிக்கலான பகுத்தறிவு மற்றும் தலைமுறை பணிகளில் சிறந்து விளங்க வடிவமைக்கப்பட்டுள்ளது, இது சிக்கலான சிக்கல்களைத் தீர்க்கவும் அதிநவீன உள்ளடக்கத்தை உருவாக்கவும் உதவுகிறது.
சர்வமும்-ஸ்மால் (Sarvam-Small): இந்த வகை நிகழ்நேர ஊடாடும் பயன்பாடுகளுக்கு உகந்ததாக இருக்கும், இது பல்வேறு சூழ்நிலைகளில் பயனர்களுடன் வேகமான மற்றும் பதிலளிக்கக்கூடிய தொடர்புகளை உறுதி செய்கிறது.
சர்வமும்-எட்ஜ் (Sarvam-Edge): இந்த வகை சாதனத்தில் செயல்படுவதற்காக வடிவமைக்கப்பட்டுள்ளது, இது கிளவுடுக்கான நிலையான இணைப்பு தேவையில்லாமல், வள-கட்டுப்படுத்தப்பட்ட சாதனங்களில் தடையின்றி செயல்பட அனுமதிக்கிறது.
ஒரு கூட்டு முயற்சியில், AI4பாரத் (AI4Bharat), IIT மெட்ராஸின் ஒரு முயற்சியுடன் சர்வமும் AI கூட்டு சேர்ந்து, மாதிரிகள் இந்திய மொழியியல் மற்றும் கலாச்சார சூழல்களில் ஆழமாக உட்பொதிக்கப்படுவதை உறுதி செய்யும். இந்த ஒத்துழைப்பு AI4பாரத்தின் இயற்கை மொழி செயலாக்கத்தில் உள்ள நிபுணத்துவத்தையும் இந்திய மொழி ஆதாரங்களின் வளமான களஞ்சியத்தையும் பயன்படுத்தும்.
சர்வமும் AI இன் நிரூபிக்கப்பட்ட சாதனைப் பதிவு
சர்வமும் AI ஏற்கனவே இந்திய AI நிலப்பரப்பில் ஒரு முன்னணியில் தன்னை வேறுபடுத்திக் கொண்டுள்ளது, குறிப்பாக பன்மொழி AI துறையில். நிறுவனத்தின் புதுமைக்கான சாதனை மற்றும் இந்திய சூழலின் தனித்துவமான சவால்களை எதிர்கொள்ளும் அர்ப்பணிப்பு ஆகியவை இந்த லட்சிய திட்டத்தை வழிநடத்த ஒரு இயற்கையான தேர்வாக நிலைநிறுத்தியுள்ளன.
அக்டோபர் 2024 இல், சர்வமும் AI சர்வமும்-1 ஐ வெளியிட்டது, இது 2 பில்லியன் அளவுரு LLM ஆகும், இது இந்திய மொழிகளுக்காக குறிப்பாக வடிவமைக்கப்பட்டு மேம்படுத்தப்பட்டது. இந்த மாதிரி ஆங்கிலத்துடன் கூடுதலாக பெங்காலி, குஜராத்தி, இந்தி, கன்னடம், மலையாளம், மராத்தி, ஒடியா, பஞ்சாபி, தமிழ் மற்றும் தெலுங்கு உள்ளிட்ட பத்து முக்கிய இந்திய மொழிகளுக்கான ஆதரவைக் கொண்டுள்ளது.
இண்டிக் ஸ்கிரிப்ட்களை செயலாக்கும்போது டோக்கன் திறமையின்மையுடன் போராடும் பல தற்போதுள்ள மாதிரிகள் போலல்லாமல், சர்வமும்-1 ஒரு வார்த்தைக்கு 1.4 முதல் 2.1 டோக்கன்கள் வரை கருவுறுதல் விகிதத்தை அடைகிறது. இந்த குறிப்பிடத்தக்க சாதனை செயலாக்க திறனை கணிசமாக மேம்படுத்துகிறது, இது இந்திய மொழிகளை அதிக வேகம் மற்றும் துல்லியத்துடன் கையாள மாதிரியை செயல்படுத்துகிறது.
உள்நாட்டு பயிற்சி மற்றும் உள்கட்டமைப்பு
சர்வமும்-1 முழுவதும் இந்தியாவில் பயிற்றுவிக்கப்பட்டது, NVIDIA H100 டென்சர் கோர் GPU கள், யோட்டாவின் தரவு மையங்கள் மற்றும் AI4பாரத்தின் மொழி ஆதாரங்களால் இயக்கப்படும் உள்நாட்டு AI உள்கட்டமைப்பைப் பயன்படுத்துகிறது. இந்த இறுதி முதல் இறுதி உள்நாட்டு அணுகுமுறை AI மேம்பாட்டில் இந்தியாவின் வளர்ந்து வரும் திறன்களையும், ஒரு தன்னிறைவு AI சுற்றுச்சூழல் அமைப்பை உருவாக்குவதற்கான அதன் அர்ப்பணிப்பையும் அடிக்கோடிட்டுக் காட்டுகிறது.
செயல்திறன் அளவுகோல்கள் சர்வமும்-1 பொருந்தவில்லை என்பதைக் காட்டுகின்றன, ஆனால் சில சந்தர்ப்பங்களில் மெட்டாவின் லாமா 3.1 8B மற்றும் கூகிளின் ஜெம்மா-2-9B போன்ற பெரிய மாதிரிகளை விஞ்சுகின்றன, குறிப்பாக இண்டிக் மொழிகளை உள்ளடக்கிய பணிகளில். இந்த ஈர்க்கக்கூடிய செயல்திறன் சர்வமும் AI அணுகுமுறையின் செயல்திறனையும் உலகளாவிய AI தலைவர்களுடன் போட்டியிடும் திறனையும் எடுத்துக்காட்டுகிறது.
இண்டிக் மொழிகளில் TriviaQA அளவுகோலில், சர்வமும்-1 86.11 துல்லியத்தை எட்டியது, லாமா-3.1 8B இன் 61.47 மதிப்பெண்ணை விஞ்சியது. இந்த குறிப்பிடத்தக்க விளிம்பு இந்திய மொழிகளில் தகவல்களைப் புரிந்துகொள்வதிலும் செயலாக்குவதிலும் சர்வமும்-1 இன் சிறந்த திறன்களை நிரூபிக்கிறது.
எதிர்நோக்கும் சவால்கள்
சர்வமும் AI சர்வமும்-1 உடன் தனது திறன்களை நிரூபித்திருந்தாலும், முதல் உள்நாட்டு அடித்தள மாதிரியை உருவாக்கும் பணி சவால்கள் இல்லாமல் இல்லை. இந்த சவால்களை சமாளிக்க புத்திசாலித்தனம், விடாமுயற்சி மற்றும் ஒரு கூட்டு மனப்பான்மை தேவைப்படும்.
உள்கட்டமைப்பு அளவிடுதல்
பெரிய மாதிரிகளைப் பயிற்றுவிக்கும் தேவைகளைப் பூர்த்தி செய்ய உள்கட்டமைப்பை அளவிடுவது மிகவும் குறிப்பிடத்தக்க தடைகளில் ஒன்றாகும். இந்த மாதிரிகளைப் பயிற்றுவிக்க நீண்ட காலத்திற்கு அதிக கணக்கீட்டு சக்தி தேவைப்படுகிறது. ஆயிரக்கணக்கான NVIDIA H100 GPU களை அரசாங்கம் வழங்குவது ஒரு குறிப்பிடத்தக்க படி முன்னேற்றம் என்றாலும், அத்தகைய உயர்நிலை வளங்களை நிர்வகித்தல், மேம்படுத்துதல் மற்றும் பராமரிப்பது ஒரு சிக்கலான பணியாகும்.
பயிற்சி செயல்முறை திறமையானதாகவும் செலவு குறைந்ததாகவும் இருப்பதை உறுதி செய்ய பயனுள்ள வள மேலாண்மை முக்கியமானது. இது GPU களின் பயன்பாட்டை மேம்படுத்துதல், நினைவக ஒதுக்கீட்டை நிர்வகித்தல் மற்றும் சாத்தியமான கழுத்து நெரிசல்களைத் தணிப்பதற்கான உத்திகளை செயல்படுத்துவதை உள்ளடக்கும்.
தரவு க்யூரேஷன்
மற்றொரு முக்கியமான சவால் உயர்தர, மாறுபட்ட தரவுத்தொகுப்புகளை க்யூரேஷன் செய்வதில் உள்ளது. இந்தியாவின் மொழியியல் நிலப்பரப்பு நம்பமுடியாத அளவிற்கு சிக்கலானது, மொழிகளுக்கு இடையிலான வேறுபாடுகள் மட்டுமல்லாமல், வட்டார வழக்குகள், கலாச்சாரங்கள் மற்றும் எழுதும் பாணிகளுக்குள்ளும் வேறுபாடுகள் உள்ளன. பாரபட்சங்களை அறிமுகப்படுத்தாமல் இந்த பன்முகத்தன்மையை உண்மையிலேயே கைப்பற்றும் ஒரு சீரான தரவுத்தொகுப்பை உருவாக்குவது அவசியம், ஆனால் மிகவும் சவாலானது.
தரவுத்தொகுப்பு இந்தியாவின் பல்வேறு பகுதிகள், சமூகங்கள் மற்றும் சமூகக் குழுக்களைப் பிரதிநிதித்துவப்படுத்த வேண்டும். இது நியாயமற்ற அல்லது பாகுபாடான விளைவுகளுக்கு வழிவகுக்கும் பாரபட்சங்களிலிருந்து விடுபட வேண்டும். இந்த அளவுகோல்களை பூர்த்தி செய்வதை உறுதி செய்வதற்காக தரவைத் தேர்ந்தெடுப்பதற்கும் சிறுகுறிப்பு எழுதுவதற்கும் கவனமான கவனம் செலுத்தப்பட வேண்டும்.
மொழியியல் நுணுக்கங்கள்
மேலும், மாதிரிகள் மரபுச் சொற்கள், உருவகங்கள் மற்றும் கலாச்சார குறிப்புகள் உள்ளிட்ட இந்திய மொழிகளின் நுட்பமான நுணுக்கங்களைப் பிடிக்க முடியும். இந்த மொழிகள் பயன்படுத்தப்படும் கலாச்சார சூழலைப் பற்றிய ஆழமான புரிதல் இதற்குத் தேவைப்படுகிறது.
சர்வமும் AI இன் AI4பாரத்துடனான ஒத்துழைப்பு இந்த சவால்களை எதிர்கொள்வதில் கருவியாக இருக்கும். இந்திய மொழிகளில் AI4பாரத்தின் நிபுணத்துவம் மற்றும் மொழியியல் வளங்களின் பரந்த களஞ்சியத்திற்கான அதன் அணுகல் இறையாண்மை LLM இன் வளர்ச்சிக்கு மதிப்புமிக்க ஆதரவை வழங்கும்.
இந்தியாவுக்கான தாக்கங்கள்
இறையாண்மை LLM இன் வளர்ச்சி இந்தியாவின் தொழில்நுட்ப நிலப்பரப்பு மற்றும் உலகளாவிய AI அரங்கில் அதன் பங்கு ஆகியவற்றிற்கு ஆழமான தாக்கங்களைக் கொண்டுள்ளது. இந்த முயற்சி கல்வி, சுகாதாரம், நிதி மற்றும் ஆட்சி உள்ளிட்ட பல்வேறு துறைகளை மாற்றும் திறனைக் கொண்டுள்ளது.
பொருளாதார வளர்ச்சி
புதுமையை வளர்ப்பதன் மூலமும் பொருளாதார வளர்ச்சியை ஊக்குவிப்பதன் மூலமும், இறையாண்மை LLM இந்திய வணிகங்கள் மற்றும் தொழில் முனைவோருக்கு புதிய வாய்ப்புகளை உருவாக்க முடியும். உள்ளூர் மொழிகளில் தகவல்களுக்கும் சேவைகளுக்கும் அணுகலை வழங்குவதன் மூலம் டிஜிட்டல் பிளவைக் குறைக்க இது உதவும்.
அதிகாரமளித்தல்
மேலும், தனிப்பயனாக்கப்பட்ட கல்வி, சுகாதாரம் மற்றும் பிற அத்தியாவசிய சேவைகளுக்கான அணுகலை வழங்குவதன் மூலம் LLM குடிமக்களுக்கு அதிகாரமளிக்க முடியும். இது மொழித் தடைகளை உடைப்பதன் மூலமும் வெவ்வேறு சமூகங்களுக்கிடையில் தொடர்புகளை வளர்ப்பதன் மூலமும் சமூக உள்ளடக்கத்தை ஊக்குவிக்க உதவும்.
மூலோபாய சுதந்திரம்
இறுதியில், இறையாண்மை LLM இன் வளர்ச்சி இந்தியாவுக்கு ஒரு மூலோபாய கட்டாயமாகும். இது வெளிநாட்டு தொழில்நுட்பத்தின் மீதான அதன் சார்பைக் குறைத்து அதன் டிஜிட்டல் இறையாண்மையை உறுதி செய்வதன் மூலம் தனது சொந்த AI திறன்களை உருவாக்க தேசத்தை இயக்கும்.
ஒரு கூட்டு சுற்றுச்சூழல் அமைப்பு
இந்த லட்சிய முயற்சியின் வெற்றி அரசாங்கம், தொழில், கல்வி மற்றும் startup சமூகம் ஆகியவற்றை ஒன்றிணைக்கும் ஒரு கூட்டு சுற்றுச்சூழல் அமைப்பை உருவாக்குவதில் உள்ளது. ஒன்றாக இணைந்து செயல்படுவதன் மூலம், இந்த பங்குதாரர்கள் தங்கள் கூட்டு நிபுணத்துவம் மற்றும் வளங்களை புதுமையை இயக்கவும் இந்தியாவில் AI வளர்ச்சியை துரிதப்படுத்தவும் பயன்படுத்த முடியும்.
சர்வமும் AI க்கான அரசாங்கத்தின் ஆதரவு மற்றும் கணக்கீட்டு ஆதாரங்களுக்கான அணுகலை வழங்குவதற்கான அதன் அர்ப்பணிப்பு இந்த சுற்றுச்சூழல் அமைப்பின் முக்கியமான இயக்கிகள். தொழில்துறை கூட்டாண்மை நிஜ உலக தரவு மற்றும் நிபுணத்துவத்திற்கான அணுகலை வழங்க முடியும், அதே நேரத்தில் கல்வி நிறுவனங்கள் அதிநவீன ஆராய்ச்சி மற்றும் திறமையை பங்களிக்க முடியும்.
AI ஆல் இயக்கப்படும் ஒரு எதிர்காலம்
இந்தியா இந்த உருமாறும் பயணத்தைத் தொடங்கும்போது, AI இன் அளப்பரிய திறனைத் திறக்க தேசம் தயாராக உள்ளது, மேலும் புதுமை, உள்ளடக்கம் மற்றும் தன்னிறைவு ஆகியவற்றால் இயக்கப்படும் ஒரு எதிர்காலத்தை உருவாக்குகிறது. இறையாண்மை LLM இன் வளர்ச்சி இந்தியாவின் லட்சியத்திற்கும் செயற்கை நுண்ணறிவு சகாப்தத்தில் அதன் சொந்த விதியை வடிவமைக்க அதன் அசைக்க முடியாத அர்ப்பணிப்புக்கும் ஒரு சான்றாகும்.