NVIDIA நிறுவனம் Parakeet எனும் அதிநவீன AI உரைமாற்றி கருவியை அறிமுகம் செய்துள்ளது. இது குறைந்த பிழைகளுடன், போட்டியாளர்களை விட அதிக துல்லியத்துடன் செயல்படுகிறது. இந்த தொழில்நுட்பம் GitHub மூலம் பொதுமக்களுக்குக் கிடைக்கிறது.
புதிய Parakeet கருவியின் திறன்கள் மற்றும் அணுகல்
Parakeet TDT 0.6B, 600 மில்லியன் அளவுருக்களைக் கொண்ட ஒரு தானியங்கி பேச்சுணரி மாடல் ஆகும். இது ஒரு நொடியில் 60 நிமிட ஆடியோவை மாற்றும் திறன் கொண்டது என்று Hugging Face நிறுவனத்தின் டேட்டா விஞ்ஞானி வைபவ் ஸ்ரீவஸ்தவ் தெரிவித்துள்ளார். இது பேச்சுணரி தொழில்நுட்பத்தில் ஒரு பெரிய முன்னேற்றம் ஆகும்.
Parakeet TDT 0.6B ஆனது உரையாடல் AI, குரல் உதவியாளர்கள், உரைமாற்றி சேவைகள், வசன உருவாக்கம் மற்றும் குரல் பகுப்பாய்வு தளங்களில் பயன்படுத்தப்படலாம். இருப்பினும், தற்போதைய பதிப்பு ஆங்கில மொழி உரைமாற்றத்திற்கு மட்டுமே கிடைக்கும்.
NVIDIA நிறுவனம் Parakeet TDT 0.6B கருவியை Creative Commons உரிமத்தின் கீழ் வெளியிட்டுள்ளது. இதனால், டெவலப்பர்கள் இந்த கருவியை தங்கள் தயாரிப்புகளில் உள்வாங்கிக்கொள்ள முடியும்.
NVIDIA நிறுவனம் பாடல்களின் வரிகள் போன்ற சிக்கலான உள்ளடக்கத்தையும் துல்லியமாக மாற்றும் திறனைக் கொண்டுள்ளது. மேலும், தானியங்கி நிறுத்தற்குறிகள் மற்றும் பெரிய எழுத்து அம்சங்களையும் உள்ளடக்கியுள்ளது. பேசும் எண்களை துல்லியமாக மாற்றுவதில் சிறப்பு கவனம் செலுத்துகிறது.
Hugging Face-ன் Open ASR Leaderboard மூலம் Parakeet TDT 0.6B-இன் துல்லியம் சரிபார்க்கப்பட்டுள்ளது. Parakeet TDT 0.6B V2 முதலிடத்தில் உள்ளது, இது Microsoft மற்றும் OpenAI போன்ற பெரிய நிறுவனங்களின் தயாரிப்புகளை விட சிறப்பாக செயல்படுகிறது. Parakeet TDT 0.6B V2 NVIDIA-வின் மற்ற உரைமாற்றி மாடல்களை விட சிறப்பாக செயல்படுகிறது. வன்பொருளின் அடிப்படையில் இதன் செயல்திறன் மாறுபடலாம்.
Parakeet TDT 0.6B கருவியை Hugging Face மற்றும் NVIDIA-வின் NeMo toolkit மூலம் அணுகலாம்.
இந்த மாடல் Fast Conformer encoder கட்டமைப்பை அடிப்படையாகக் கொண்டது, இது NVIDIA NeMo-வின் முக்கிய அங்கமாகும். இது Granary தரவுத்தொகுப்பைப் பயன்படுத்தி பயிற்சி அளிக்கப்பட்டது, இது சுமார் 120,000 மணிநேர ஆங்கில பேச்சுத் தரவைக் கொண்டுள்ளது. இதில் மனிதர்களால் மாற்றியமைக்கப்பட்ட பேச்சு மற்றும் YouTube-Commons போன்ற மூலங்களிலிருந்து தானாகவே லேபிளிடப்பட்ட பேச்சு ஆகியவை அடங்கும்.
NVIDIA-வின் போர்ட்ஃபோலியோ மற்றும் போட்டி நிலப்பரப்பில் Parakeet-இன் மூலோபாய நிலைப்பாடு
NVIDIA நிறுவனம் Parakeet TDT 0.6B கருவியை திறந்த மூலமாக வெளியிடுவதற்கான காரணம், AI தொழில்நுட்பத்தை மேம்படுத்துவதே ஆகும். NVIDIA-வின் GPUs இந்த முன்னேற்றங்களுக்கு உதவும் முக்கிய வன்பொருளாக செயல்படுகிறது. Parakeet TDT 0.6B என்பது NVIDIA-வின் AI கருவிகள் மற்றும் சேவைகளின் ஒரு பகுதியாகும்.
Microsoft-ன் Phi-4-multimodal-instruct மாடல் 23 மொழிகளில் பேச்சை மாற்றும் திறன் கொண்டது.
NVIDIA-வின் Parakeet உரைமாற்றி கருவியை பற்றி மேலும்
Parakeet-இன் தொழில்நுட்பம்
NVIDIA-வின் Parakeet தானியங்கி பேச்சுணரி (ASR) தொழில்நுட்பத்தில் ஒரு முக்கியமான முன்னேற்றமாகும். குறைந்த பிழைகளுடன் ஆடியோவை வேகமாக மாற்றும் திறன் மற்ற கருவிகளிலிருந்து வேறுபடுத்துகிறது.
Fast Conformer encoder கட்டமைப்பு, பேச்சு போன்ற தொடர்ச்சியான தரவை செயலாக்குவதில் திறன் கொண்டது. இந்த கட்டமைப்பு Parakeet ஆடியோ சிக்னல்களை பகுப்பாய்வு செய்து, அதை விரைவாகவும் துல்லியமாகவும் உரையாக மாற்ற அனுமதிக்கிறது.
Granary பயிற்சித் தரவுத்தொகுப்பு Parakeet-இன் செயல்திறனில் முக்கிய பங்கு வகிக்கிறது. பல்வேறு வகையான ஆங்கில பேச்சுத் தரவுகளுக்கு இந்த மாடல் வெளிப்படுத்துவதன் மூலம், பல்வேறு உச்சரிப்புகள், பேசும் முறைகள் மற்றும் ஆடியோ நிலைகளுக்கு ஏற்றவாறு NVIDIA நிறுவனம் Parakeet-ஐ உருவாக்கியுள்ளது.
Parakeet-இன் பயன்பாடுகள்
Parakeet-இன் பயன்பாடுகள் பல்வேறு தொழில்கள் மற்றும் பயன்பாடுகளில் உள்ளன.
- உரையாடல் AI: Parakeet சாட்போட்கள் மற்றும் மெய்நிகர் உதவியாளர்களின் துல்லியத்தையும் பதிலளிக்கும் திறனையும் மேம்படுத்தும்.
- குரல் உதவியாளர்கள்: ஸ்மார்ட் ஸ்பீக்கர்கள் மற்றும் பிற குரல் கட்டுப்பாடு சாதனங்கள் Parakeet-இன் உரைமாற்றி திறன்களால் பயனடைகின்றன.
- உரைமாற்றி சேவைகள்: Parakeet தொழில்முறை உரைமாற்றி சேவைகளின் பணிச்சுமையை குறைக்கிறது.
- வசன உருவாக்கம்: Parakeet வீடியோக்கள் மற்றும் திரைப்படங்களுக்கு தானாகவே வசனங்களை உருவாக்க பயன்படுகிறது.
- குரல் பகுப்பாய்வு தளங்கள்: Parakeet குரல் பகுப்பாய்வு தளங்களை ஆடியோ தரவிலிருந்து மதிப்புமிக்க நுண்ணறிவுகளை எடுக்க உதவுகிறது.
- ஊடகம் மற்றும் பொழுதுபோக்கு: ஊடகம் மற்றும் பொழுதுபோக்கு துறைகளில், Parakeet நேர்காணல்கள், போட்காஸ்ட்கள் மற்றும் பிற ஆடியோ உள்ளடக்கத்தை தானாக மாற்ற பயன்படுகிறது.
- கல்வி: Parakeet விரிவுரைகள் மற்றும் விளக்கக்காட்சிகளை தானாக மாற்ற பயன்படுகிறது.
- சுகாதாரம்: சுகாதாரத் துறையில், Parakeet மருத்துவர்-நோயாளி உரையாடல்கள், மருத்துவ அறிக்கைகள் மற்றும் பிற ஆடியோ ஆவணங்களை மாற்ற பயன்படுகிறது.
மற்ற உரைமாற்றி கருவிகளுடன் Parakeet-ஐ ஒப்பிடுதல்
பேச்சுணரி சந்தையில் பல கருவிகள் உள்ளன. Parakeet-ஐ மற்ற கருவிகளுடன் ஒப்பிடும்போது, பல காரணிகள் உள்ளன:
- துல்லியம்: Parakeet-இன் குறைந்த பிழை விகிதம் அதன் முக்கிய பலங்களில் ஒன்றாகும்.
- வேகம்: இந்த கருவியின் வேகம் ஒரு நொடியில் 60 நிமிட ஆடியோவை மாற்றும் திறன் கொண்டது.
- மொழி ஆதரவு: தற்போது, Parakeet ஆங்கில உரைமாற்றத்தை மட்டுமே ஆதரிக்கிறது. NVIDIA எதிர்காலத்தில் பிற மொழிகளுக்கான ஆதரவை அதிகரிக்கும்.
- உரிமம்: Parakeet-இன் Creative Commons உரிமம் டெவலப்பர்கள் தங்கள் தயாரிப்புகளில் இந்த கருவியை ஒருங்கிணைக்க அனுமதிக்கிறது.
- ஒருங்கிணைப்பு: Hugging Face மற்றும் NVIDIA-வின் NeMo toolkit மூலம் Parakeet கிடைப்பது தற்போதுள்ள பணிப்பாய்வுகள் மற்றும் மேம்பாட்டு சூழல்களில் ஒருங்கிணைப்பதை எளிதாக்குகிறது.
பேச்சுணரி தொழில்நுட்பத்தின் எதிர்காலம்
NVIDIA-வின் Parakeet பேச்சுணரி துறையில் ஒரு அற்புதமான முன்னேற்றமாகும். AI தொழில்நுட்பம் தொடர்ந்து வளர்ச்சியடைந்து வருவதால், இன்னும் அதிநவீன மற்றும் துல்லியமான உரைமாற்றி கருவிகள் உருவாகும் என்று எதிர்பார்க்கலாம். சில சாத்தியமான எதிர்கால போக்குகள் பின்வருமாறு:
- மேம்படுத்தப்பட்ட துல்லியம்: பேச்சுணரி கருவிகளுக்கான பிழை விகிதங்கள் குறைய வாய்ப்புள்ளது.
- விரிவாக்கப்பட்ட மொழி ஆதரவு: பரந்த அளவிலான மொழிகளில் பேச்சை மாற்றும் திறன் அதிகரிக்கும்.
- நிகழ்நேர உரைமாற்றம்: நிகழ்நேர உரைமாற்ற திறன்கள் நேரடி தலைப்புகள் மற்றும் உடனடி மொழிபெயர்ப்பு போன்ற புதிய பயன்பாடுகளை உருவாக்கும்.
- தனிப்பயனாக்கம்: குறிப்பிட்ட உச்சரிப்புகள், வட்டார வழக்குகள் மற்றும் களங்களுக்கு பேச்சுணரி மாதிரிகளை தனிப்பயனாக்கும் திறன் துல்லியத்தையும் செயல்திறனையும் மேம்படுத்தும்.
- பிற AI தொழில்நுட்பங்களுடன் ஒருங்கிணைப்பு: பேச்சுணரி இயற்கையான மொழி செயலாக்கம் (NLP) மற்றும் இயந்திர மொழிபெயர்ப்பு போன்ற பிற AI தொழில்நுட்பங்களுடன் ஒருங்கிணைக்கப்படும்.
திறந்த மூல மேம்பாட்டிற்கான NVIDIA-வின் அர்ப்பணிப்பு துறையில் ஒத்துழைப்பு மற்றும் கண்டுபிடிப்பை ஊக்குவிக்கும், மேலும் புதிய மற்றும் மேம்படுத்தப்பட்ட பேச்சுணரி தொழில்நுட்பங்களின் வளர்ச்சியை துரிதப்படுத்தும்.