NVIDIA நிறுவனத்தின் ஜோயி கான்வே அவர்களின் பிரத்யேக நேர்காணலில், Llama Nemotron Ultra மற்றும் Parakeet ஆகிய அதிநவீன திறந்த மூல பெரிய மொழி மாதிரிகள் (LLM) மற்றும் தானியங்கி பேச்சு அங்கீகாரம் (ASR) ஆகியவற்றில் NVIDIA செய்துள்ள சமீபத்திய முன்னேற்றங்களைப் பற்றி விரிவாகக் காணலாம். இது AI தொழில்நுட்பத்தின் எல்லைகளை விரிவுபடுத்துவதில் NVIDIAவின் அர்ப்பணிப்பை எடுத்துக்காட்டும் ஒரு முன்னோடி முயற்சியாகும்.
NVIDIAவின் திறந்த மூல உத்தி
NVIDIA திறந்த மூல AI துறையில் ஒரு முக்கிய சக்தியாக வேகமாக வளர்ந்து வருகிறது. Llama Nemotron Ultra மற்றும் Parakeet TDT போன்ற மேம்பட்ட மாதிரிகளை வெளியிடுவது, AI தொழில்நுட்பத்தை ஜனநாயகப்படுத்துவதற்கும் சமூகத்தில் புதுமைகளை வளர்ப்பதற்கும் ஒரு மூலோபாய நகர்வாகும். இந்த அதிநவீன கருவிகளை கிடைக்கச் செய்வதன் மூலம், பல்வேறு தொழில்களில் AI தீர்வுகளின் ஆராய்ச்சி, மேம்பாடு மற்றும் பயன்பாட்டை விரைவுபடுத்த NVIDIA இலக்கு வைத்துள்ளது.
Llama Nemotron Ultra: செயல்திறன் மற்றும் திறனை மறுவரையறை செய்தல்
Llama Nemotron Ultra, 253 பில்லியன் அளவுரு மாதிரி, NVIDIA இன் பொறியியல் திறமைக்கு ஒரு சான்றாகும். Llama 405B மற்றும் DeepSeek R1 போன்ற இரண்டு மடங்கு பெரிய அளவிலான மாதிரிகளுக்கு இணையான செயல்திறனை வழங்கும் திறன் தான் இதன் சிறப்பு. இந்த குறிப்பிடத்தக்க சாதனை, ஒரு 8x H100 முனையில் பயன்படுத்தப்பட அனுமதிக்கிறது, இது பரவலான பயனர்களுக்கு அணுகக்கூடியதாக இருக்கும்.
ரகசிய சாஸ்: FFN Fusion
Llama Nemotron Ultraவின் ஈர்க்கக்கூடிய செயல்திறன் பெரும்பாலும் FFN (Feed-Forward Network) fusion எனப்படும் ஒரு புதுமையான நுட்பத்தால் ஏற்படுகிறது. NVIDIA’வின் Puzzle neural architecture search மூலம் கண்டறியப்பட்ட இந்த மேம்படுத்தல் உத்தி, தேவையற்ற கவன அடுக்குகளைக் குறைப்பதன் மூலம் மாதிரியின் கட்டமைப்பை ஒழுங்குபடுத்துகிறது.
FFN அடுக்குகளை ஒரு வரிசையில் சீரமைப்பதன் மூலம், GPUs இல் அதிக இணையான கணக்கீட்டை இந்த நுட்பம் செயல்படுத்துகிறது. மீதமுள்ள அடுக்குகளை ஒன்றிணைப்பது அல்லது இணைப்பது செயல்திறனை அதிகரிக்கிறது, குறிப்பாக Meta’s Llama 3.1 - 405B அடிப்படையிலான பெரிய மாதிரிகளுக்கு இது நன்மை பயக்கும். FFN fusion இன் நன்மைகள் இரண்டு: இது கணிசமாக வேகத்தை அதிகரிக்கிறது, 3 முதல் 5 மடங்கு வேகத்தை அடைகிறது, மேலும் மாதிரியின் நினைவகத் தேவையையும் குறைக்கிறது. குறைக்கப்பட்ட அளவு பெரிய KV cache ஐப் பயன்படுத்த அனுமதிக்கிறது, waardoor de model grotere contextlengtes aankan.
தேவையின் பேரில் பகுத்தறிவு: ஒரு விளையாட்டு மாற்றும் அம்சம்
Llama Nemotron Ultraவின் மிகவும் தனித்துவமான மற்றும் மதிப்புமிக்க அம்சங்களில் ஒன்று அதன் "reasoning on/off" திறன் ஆகும். இது மாதிரியின் பகுத்தறிவு செயல்முறையின் மீது முன்னோடியில்லாத கட்டுப்பாட்டை அனுமதிக்கிறது, உற்பத்தி பயன்பாடுகள் மற்றும் செலவு மேம்படுத்தலுக்கு குறிப்பிடத்தக்க நன்மைகளை வழங்குகிறது.
சூழல் அறிவிப்பு மூலம் பகுத்தறிவை இயக்கவும் அணைக்கவும் உள்ள திறன், துல்லியத்தை தாமதம் மற்றும் செலவுடன் சமப்படுத்த நிறுவனங்களுக்கு நெகிழ்வுத்தன்மையை வழங்குகிறது. சிக்கலான சிக்கல்களைத் தீர்ப்பதற்கு பகுத்தறிவு முக்கியமானது என்றாலும், அது அதிக டோக்கன்களை உருவாக்குகிறது, இது அதிக தாமதம் மற்றும் செலவுக்கு வழிவகுக்கிறது. வெளிப்படையான கட்டுப்பாட்டை வழங்குவதன் மூலம், NVIDIA பயனர்கள் பகுத்தறிவைப் பயன்படுத்தும் போது தகவலறிந்த முடிவுகளை எடுக்க உதவுகிறது, இதனால் செயல்திறன் மற்றும் வள பயன்பாட்டை மேம்படுத்துகிறது.
இந்த அம்சத்தை செயல்படுத்த, NVIDIA supervised fine-tuning கட்டத்தில் எப்போது பகுத்தறிவு செய்ய வேண்டும், எப்போது செய்யக்கூடாது என்பதை மாதிரியிடம் வெளிப்படையாகக் கற்பித்தது. இதில் இரண்டு வெவ்வேறு பதில்களுடன் ஒரே கேள்வியை முன்வைப்பது அடங்கும்: ஒன்று விரிவான பகுத்தறிவுடன், மற்றொன்று இல்லாமல், இந்த குறிப்பிட்ட நோக்கத்திற்காக தரவுத்தொகுப்பை இரட்டிப்பாக்குகிறது. இதன் விளைவாக ஒரு மாதிரி கிடைக்கிறது. இதில் பயனர்கள் "use detailed thinking on" அல்லது "use detailed thinking off" என்பதை அறிவிப்பில் சேர்ப்பதன் மூலம் பகுத்தறிவு செயல்முறையை கட்டுப்படுத்த முடியும்.
Parakeet TDT உடன் பேச்சு அங்கீகாரத்தில் புரட்சி
NVIDIA வின் அதிநவீன ASR மாதிரியான Parakeet TDT, பேச்சு அங்கீகாரத்தில் வேகம் மற்றும் துல்லியத்திற்கான அளவுகோல்களை மறுவரையறை செய்துள்ளது. இது ஒரு மணி நேர ஆடியோவை ஒரு நொடியில் 6% பிழை விகிதத்துடன் மாற்றும் திறன் கொண்டது - மற்ற திறந்த மூல மாற்றீடுகளை விட 50 மடங்கு வேகமானது.
கட்டமைப்பு கண்டுபிடிப்புகள்: Parakeet இன் செயல்திறனின் "எப்படி"
Parakeet TDT இன் ஈர்க்கக்கூடிய செயல்திறன், கட்டமைப்பு தேர்வுகள் மற்றும் குறிப்பிட்ட மேம்பாடுகளின் கலவையாகும். இது ஒரு வேகமான கன்பார்மர் கட்டமைப்பை அடிப்படையாகக் கொண்டது. இது ஆழமான பிரிப்புடன் கூடிய convolution downsampling மற்றும் வரம்புக்குட்பட்ட சூழ்நிலை கவனம் போன்ற தொழில்நுட்பங்களுடன் மேம்படுத்தப்பட்டுள்ளது.
உள்ளீட்டு கட்டத்தில் ஆழமான முறையில் பிரிக்கக்கூடிய கன்வல்யூஷன் டவுன்சாம்பிளிங் கணக்கீட்டுச் செலவைக் கணிசமாகக் குறைக்கிறது. நினைவகத் தேவைகளையும் குறைக்கிறது. ஆடியோவின் சிறிய, ஒன்றுடன் ஒன்று இருக்கும் பகுதிகளுக்கு கவனம் செலுத்துவதன் மூலம் limited context attention துல்லியத்தை பராமரிக்கிறது. அதே நேரத்தில் செயலாக்கத்தில் வேகத்தையும் அடைகிறது. குறியாக்கி பக்கத்தில், சறுக்கும் சாளர கவனம் செலுத்தும் நுட்பம், மாதிரியை நீண்ட ஆடியோ கோப்புகளை சிறிய பகுதிகளாகப் பிரிக்காமல் செயலாக்க அனுமதிக்கிறது. இது நீண்ட வடிவ ஆடியோவைக் கையாள இன்றியமையாதது.
Token Duration Transducer (TDT): வேகத்திற்கான திறவுகோல்
கன்பார்மர் கட்டமைப்பிற்கு அப்பால், Parakeet TDT டோக்கன் மற்றும் கால அளவீட்டு டிரான்ஸ்யூசரை (TDT) உள்ளடக்கியது. பாரம்பரிய நரம்பியல் நெட்வொர்க் (RNN) டிரான்ஸ்யூசர் தொழில்நுட்பம் ஆடியோ சட்டத்தை சட்டத்தின் படி செயலாக்குகிறது. TDT மாதிரியை டோக்கன்கள் மற்றும் அந்த டோக்கன்களின் எதிர்பார்க்கப்படும் கால அளவு இரண்டையும் கணிக்க உதவுகிறது, இது தேவையற்ற சட்டங்களை தவிர்க்கவும் டிரான்ஸ்கிரிப்ஷன் செயல்முறையை கணிசமாக வேகப்படுத்தவும் அனுமதிக்கிறது.
இந்த TDT கண்டுபிடிப்பு மட்டுமே சுமார் 1.5 முதல் 2 மடங்கு வேகத்தை அளிக்கிறது. கூடுதலாக, லேபிள் லூப்பிங் அல்காரிதம் தொகுதி அனுமானத்தின் போது வெவ்வேறு மாதிரிகளுக்கான டோக்கன்களைச் சுயாதீனமாக உயர்த்த அனுமதிக்கிறது, இது குறியாக்கச் செயல்முறையை மேலும் துரிதப்படுத்துகிறது. டிகோடர் பக்கத்தில் கணக்கீட்டை CUDA கிராஃப்களாக நகர்த்துவது மற்றொரு 3 மடங்கு வேகத்தை வழங்குகிறது. CONNECTIONIST TEMPORAL CLASSIFICATION (CTC) டிகோடர்களுக்கு இணையான வேகத்தை அடைய இந்த கண்டுபிடிப்புகள் Parakeet TDT ஐ செயல்படுத்துகின்றன, அவற்றின் வேகத்திற்காக அறியப்படுகின்றன, அதே நேரத்தில் உயர் துல்லியத்தை பராமரிக்கின்றன.
திறந்த தரவு மூலம் AI ஐ ஜனநாயகப்படுத்துதல்
திறந்த மூல சமூகத்திற்கான NVIDIAவின் அர்ப்பணிப்பு மாதிரி வெளியீடுகளைத் தாண்டி மொழி மற்றும் பேச்சு இரண்டிற்கும் பெரிய, உயர்தர தரவுத் தொகுப்புகளைப் பகிர்வதற்கும் நீட்டிக்கப்படுகிறது. தரவு க்யூரேஷனுக்கான நிறுவனத்தின் அணுகுமுறை வெளிப்படைத்தன்மையையும் வெளிப்படைத்தன்மையையும் வலியுறுத்துகிறது, அதன் தரவு, நுட்பங்கள் மற்றும் கருவிகள் பற்றி முடிந்தவரை பகிர்ந்து கொள்வதை நோக்கமாகக் கொண்டுள்ளது, இதனால் சமூகம் அவற்றைப் புரிந்துகொண்டு பயன்படுத்த முடியும்.
Llama Nemotron Ultra க்கான தரவு க்யூரேஷன்
Llama Nemotron Ultra க்கான தரவு க்யூரேஷனின் முதன்மை குறிக்கோள் கணிதம் மற்றும் குறியீடாக்கம் போன்ற பகுத்தறிவு பணிகள் மற்றும் கருவி அழைப்பு, அறிவுறுத்தல் பின்பற்றுதல் மற்றும் அரட்டை போன்ற பகுத்தறிவற்ற பணிகள் உள்ளிட்ட பல முக்கிய களங்களில் துல்லியத்தை மேம்படுத்துவதாகும்.
இந்த பகுதிகளில் செயல்திறனை அதிகரிக்க குறிப்பிட்ட தரவுத்தொகுப்புகளை க்யூரேட் செய்வதை இந்த உத்தி உள்ளடக்கியது. supervised fine-tuning செயல்பாட்டில். NVIDIA "reasoning on" மற்றும் "reasoning off" காட்சிகள் ஆகியவற்றுக்கு இடையே வேறுபடுத்திக் காட்டியது. சமூகத்திலிருந்து பெறப்பட்ட உயர்தர மாதிரிகள் குறிப்பிட்ட களங்களில் "நிபுணர்களாகப்" பயன்படுத்தப்பட்டன. எடுத்துக்காட்டாக, DeepSeek R-1 பகுத்தறிதிறன் கொண்ட கணிதம் மற்றும் குறியீட்டு பணிகளுக்கு விரிவாகப் பயன்படுத்தப்பட்டது. அதே நேரத்தில் Llama மற்றும் Qwen போன்ற மாதிரிகள் அடிப்படை கணிதம், குறியீடாக்கம், அரட்டை மற்றும் கருவி அழைப்பு போன்ற பகுத்தறிவற்ற பணிகளுக்கு பயன்படுத்தப்பட்டன. சுமார் 30 மில்லியன் கேள்வி-பதில் ஜோடிகளைக் கொண்ட இந்த க்யூரேட் செய்யப்பட்ட தரவுத்தொகுப்பு Hugging Face இல் பொதுவில் கிடைக்கிறது.
தரவு தரத்தை உறுதி செய்தல்: பல அடுக்கு அணுகுமுறை
தரவின் கணிசமான பகுதி மற்ற மாதிரிகளைப் பயன்படுத்தி உருவாக்கப்பட்டிருப்பதால், NVIDIA ஒரு கண்டிப்பான பல அடுக்கு தர உத்தரவாத செயல்முறையை செயல்படுத்தியது. இது பின்வருவனவற்றை உள்ளடக்கியது:
- ஒவ்வொரு நிபுணர் மாதிரியையும் பயன்படுத்தி ஒரே அறிவிப்புக்காக பல மாதிரி பதில்களை உருவாக்குதல்.
- சரியான தன்மை, ஒருமைப்பாடு மற்றும் அறிவிப்புக்கு ஏற்ப உருவாக்குதல் ஆகியவற்றின் அடிப்படையில் இந்த மாதிரி பதில்களை மதிப்பிடுவதற்கு தனி "விமர்சகர்" மாதிரிகளின் தொகுப்பைப் பயன்படுத்துதல்.
- ஒவ்வொரு உருவாக்கிய கேள்வி-பதில் ஜோடியும் விமர்சகர் மாதிரியின் மதிப்பீட்டின் அடிப்படையில் தர மதிப்பெண்ணைப் பெற்ற ஒரு மதிப்பெண் வழிமுறையைச் செயல்படுத்துதல், ஏற்றுக்கொள்ள அதிக வரம்பு நிர்ணயிக்கப்பட்டது.
- தரவு விஞ்ஞானிகள் மற்றும் பொறியாளர்கள் உருவாக்கப்பட்ட தரவின் மாதிரிகளை கைமுறையாக ஆய்வு செய்து ஏதேனும் முறையான பிழைகள், சார்புகள் அல்லது மாயத்தோற்றம் நிகழ்வுகளை அடையாளம் காணுவதன் மூலம் மனித மதிப்பாய்வை பல்வேறு நிலைகளில் ஒருங்கிணைத்தல்.
- ஒவ்வொரு களத்திலும் பரந்த அளவிலான எடுத்துக்காட்டுகளை உறுதிப்படுத்த உருவாக்கப்பட்ட தரவின் பன்முகத்தன்மையில் கவனம் செலுத்துதல்.
- இந்த க்யூரேட் செய்யப்பட்ட தரவில் Llama Nemotron Ultra ஐப் பயிற்றுவித்த பிறகு, அளவுகோல் தரவுத்தொகுப்புகளுக்கு எதிராகவும், உண்மையான பயன்பாட்டு நிகழ்வுகளிலும் விரிவான மதிப்பீடுகளை நடத்துதல்.
Parakeet TDT க்கான பேச்சு தரவுத் தொகுப்பைத் திறப்பது
NVIDIA சுமார் 100,000 மணிநேரம் கொண்ட ஒரு பெரிய பேச்சு தரவுத் தொகுப்பைத் திறக்க திட்டமிட்டுள்ளது, இது உண்மையான உலக பன்முகத்தன்மையை பிரதிபலிக்கும் வகையில் உன்னிப்பாக க்யூரேட் செய்யப்பட்டுள்ளது. இந்த தரவுத் தொகுப்பில் ஒலி அளவுகள், சிக்னல்-க்கு-இரைச்சல் விகிதங்கள், பின்னணி இரைச்சல் வகைகள் மற்றும் அழைப்பு மையங்களுக்கு பொருத்தமான தொலைபேசி ஆடியோ வடிவங்கள் கூட இருக்கும். பரந்த அளவிலான நிஜ உலக காட்சிகளில் மாதிரிகள் சிறப்பாகச் செயல்பட உதவும் உயர்தர, மாறுபட்ட தரவை சமூகத்திற்கு வழங்குவதே குறிக்கோள்.
எதிர்கால திசைகள்: சிறிய மாதிரிகள், பல மொழி ஆதரவு, நேரடி ஒளிபரப்பு
பன்மொழி ஆதரவு, இன்னும் சிறிய எட்ஜ்-மேம்படுத்தப்பட்ட மாதிரிகள் மற்றும் பேச்சு அங்கீகாரத்திற்கான நிகழ்நேர ஸ்ட்ரீமிங் மேம்பாடுகள் ஆகியவை NVIDIAவின் எதிர்காலத்திற்கான பார்வையில் அடங்கும்.
பன்மொழி திறன்கள்
பெரிய நிறுவனங்களுக்கு பல மொழிகளை ஆதரிப்பது மிக முக்கியம். NVIDIA ஒரு சில முக்கிய மொழிகளில் கவனம் செலுத்துவதை நோக்கமாகக் கொண்டுள்ளது. மேலும் அந்த மொழிகளுக்குள் பகுத்தறிவு, கருவி அழைப்பு மற்றும் அரட்டைக்கு உலகத்தரம் வாய்ந்த துல்லியத்தை உறுதி செய்கிறது. இது அடுத்த பெரிய விரிவாக்க பகுதியாக இருக்கக்கூடும்.
எட்ஜ்-மேம்படுத்தப்பட்ட மாதிரிகள்
சத்தம் நிறைந்த சூழலில் ரோபோக்களுக்கான நிகழ்நேர ஆடியோ செயலாக்கத்தை இயக்குவது போன்ற சிறிய தடம் தேவைப்படும் விளிம்பில் உள்ள பயன்பாட்டு நிகழ்வுகளைத் தீர்க்க NVIDIA சுமார் 50 மில்லியன் அளவுருக்கள் வரை மாதிரிகளைக் கருதுகிறது.
Parakeet TDT க்கான நிகழ்நேர ஸ்ட்ரீமிங்
தொழில்நுட்ப ரீதியாக NVIDIA நிகழ்நேர நேரடி டிரான்ஸ்கிரிப்ஷனை செயல்படுத்த TDT க்கான செய்தியோடை திறன்களில் வேலை செய்ய திட்டமிட்டுள்ளது.
உற்பத்திக்குத் தயாரான AI: உண்மையான உலக பயன்பாட்டிற்காக வடிவமைத்தல்
Llama Nemotron Ultra மற்றும் Parakeet TDT இரண்டுமே உண்மையான உலக பயன்பாட்டு சவால்களை மனதில் கொண்டு துல்லியம், செயல்திறன் மற்றும் செலவு குறைந்த தன்மை ஆகியவற்றில் கவனம் செலுத்துகின்றன.
அளவிடுதல் மற்றும் செலவு செயல்திறனுக்கான Reasoning On/Off
அதிகப்படியான காரணத்தால் அளவிடுதல் சிக்கல்கள் மற்றும் உற்பத்தி சூழல்களில் அதிகரித்த தாமதம் ஏற்படலாம். Llama Nemotron Ultra இல் அறிமுகப்படுத்தப்பட்ட reasoning on/off அம்சம் ஒவ்வொரு வினவலுக்கும் காரணத்தை கட்டுப்படுத்த நெகிழ்வுத்தன்மையை வழங்குகிறது. இது ஏராளமான உற்பத்தி பயன்பாட்டு நிகழ்வுகளை செயல்படுத்துகிறது.
துல்லியம் மற்றும் செயல்திறனை சமநிலைப்படுத்துதல்
துல்லியம் மற்றும் செயல்திறனை சமநிலைப்படுத்துவது ஒரு நிலையான சவாலாகும். ஒவ்வொரு திறனுக்கான சகாப்தங்களின் எண்ணிக்கையை கவனமாக பரிசீலித்து தொடர்ந்து துல்லியத்தை அளவிடுவதை NVIDIAவின் அணுகுமுறை உள்ளடக்கியது. அனைத்து முக்கிய பகுதிகளிலும் செயல்திறனை மேம்படுத்துவதே குறிக்கோள்.
திறந்த மூல சுற்றுச்சூழல் அமைப்பில் NVIDIA வின் மாதிரிகளின் பங்கு
Llama Nemotron Ultra மற்றும் Parakeet TDT இன் பங்கை, பரந்த திறந்த மூல மற்றும் LLM சுற்றுச்சூழல் அமைப்பிற்குள் ஏற்கனவே உள்ள அடித்தளங்களை உருவாக்குவதாகவும், குறிப்பிட்ட பகுதிகளில் கவனம் செலுத்துவதாகவும் NVIDIA கருதுகிறது. இதன் மூலம் குறிப்பிடத்தக்க மதிப்பை சேர்க்கிறது. நிறுவனம் தொடர்ந்து பங்களிக்கக்கூடிய குறிப்பிட்ட பகுதிகளை அடையாளம் காண முற்படுகிறது. மற்றவர்கள் நிறுவன உற்பத்திக்கான சிறந்த பொது நோக்க மாதிரிகளை உருவாக்க தொடர்கின்றனர்.
முக்கிய குறிப்புகள்: திறந்த மூல, வேகமான, அதிக வேகம், செலவு குறைந்த
Llama Nemotron Ultra மற்றும் Parakeet TDT இல் NVIDIA வின் வேலையிலிருந்து பெறப்பட்ட முக்கிய குறிப்புகள் அனைத்தையும் திறந்த மூலமாக்குவதற்கான அர்ப்பணிப்பு, அதிநவீன துல்லியத்தை அடைதல், தாமதம் மற்றும் வேகம் ஆகியவற்றின் அடிப்படையில் திறமையான GPU பயன்பாட்டிற்கான தடங்களை மேம்படுத்துதல் மற்றும் சமூகத்திற்கு அதிகாரமளித்தல் ஆகும்.
அனைத்து மாதிரிகள் மற்றும் தரவுத் தொகுப்புகள் Hugging Face இல் கிடைக்கின்றன. அவற்றை இயக்க தேவையான மென்பொருள் நிரல் NVIDIA இலிருந்து வருகிறது. இது அதன் உள்ளடக்க களஞ்சியமான NGC இல் கிடைக்கிறது. பல முக்கிய மென்பொருள்கள் திறந்த மூலமாகும், GitHub இல் காணப்படுகின்றன. Nemo கட்டமைப்பு இந்த மென்பொருள் நிரலின் மைய மையமாகும்.