NVIDIAவின் Llama Nemotron Nano VL

NVIDIA சமீபத்தில் Llama Nemotron Nano VL ஐ அறிமுகப்படுத்தியுள்ளது. இது ஒரு பார்வை-மொழி மாதிரி (VLM), ஆவண-நிலை புரிதல் பணிகளை செயல்திறன் மற்றும் ஒப்பிடமுடியாத துல்லியத்துடன் கையாள கவனமாக வடிவமைக்கப்பட்டுள்ளது. இந்த புதுமையான அமைப்பு Llama 3.1 கட்டமைப்பை அடிப்படையாகக் கொண்டது மற்றும் ஒரு நெறிப்படுத்தப்பட்ட பார்வை என்கோடரை உள்ளடக்கியது, இது ஸ்கேன் செய்யப்பட்ட படிவங்கள், விரிவான நிதி அறிக்கைகள் மற்றும் சிக்கலான தொழில்நுட்ப வரைபடங்கள் போன்ற சிக்கலான ஆவண கட்டமைப்புகளின் உன்னிப்பான பாகுபடுத்தலை கோரும் பயன்பாடுகளுக்கு மிகவும் பொருத்தமானது.

மாதிரி கட்டமைப்பு மற்றும் விரிவான கண்ணோட்டம்

Llama Nemotron Nano VL CRadioV2-H vision encoder ஐ ஒரு நுணுக்கமாக சரிசெய்யப்பட்ட Llama 3.1 8B Instruct language model உடன் தடையின்றி ஒருங்கிணைக்கிறது. இந்த சக்திவாய்ந்த சேர்க்கை பல பக்க ஆவணங்களை உள்ளடக்கிய மல்டிமோடல் உள்ளீடுகளை ஒரு ஒருங்கிணைந்த முறையில் செயலாக்கக்கூடிய ஒரு குழாயை உருவாக்குகிறது, இது காட்சி மற்றும் உரை கூறுகளைக் கொண்டுள்ளது.

இந்த மாதிரியின் கட்டமைப்பு குறிப்பாக உகந்த டோக்கன் செயல்திறனுக்காக வடிவமைக்கப்பட்டுள்ளது, இது படம் மற்றும் உரை வரிசைகள் இரண்டிலும் 16K வரை உள்ளடக்க நீளங்களுக்கு இடமளிக்கிறது. உரை உள்ளீட்டுடன் பல படங்களைக் கையாளும் திறன், நீண்ட வடிவ பல்லூடகப் பணிகளுக்கு குறிப்பாக உதவுகிறது. மேம்பட்ட திட்ட அடுக்குகள் மற்றும் சுழற்சி நிலை குறியாக்கம் ஆகியவற்றின் பயன்பாட்டின் மூலம் துல்லியமான பார்வை-உரை சீரமைப்பு அடையப்படுகிறது, அவை பட இணைப்பு உட்பொதிவுகளுக்காக வடிவமைக்கப்பட்டுள்ளன.

பயிற்சி முறை மூஃணறு தனித்துவமான கட்டங்களாக பிரிக்கப்பட்டது:

  • கட்டம் 1: விரிவான வணிக படம் மற்றும் வீடியோ தரவுத்தொகுப்புகளில் குறுக்கிடப்பட்ட படம்-உரை முன் பயிற்சி. இந்த கட்டம் மாடலை ஒரு பரந்த அளவிலான காட்சி மற்றும் உரை தகவல்களில் அடிப்படையாகக் கொள்வதற்கு முக்கியமானதாக இருந்தது.
  • கட்டம் 2: ஊடாடும் தூண்டுதலை செயல்படுத்த மல்டிமோடல் அறிவுறுத்தல் டியூனிங், டைனமிக் தொடர்பு மற்றும் பயனர் வினவல்களுக்கு மேம்படுத்தப்பட்ட பதிலளிக்கும் திறன் ஆகியவற்றை அனுமதிக்கிறது.
  • கட்டம் 3: நிலையான LLM அளவுகோல்களில் செயல்திறனை மேம்படுத்த உரை-மட்டும் அறிவுறுத்தல் தரவை மீண்டும் கலத்தல், பொது மொழி புரிதல் மற்றும் பகுத்தறிவில் மாடலின் திறமையை மேம்படுத்துகிறது.

பயிற்சி செயல்முறை முழுவதையும் NVIDIAவின் Megatron-LLM frameworkஐப் பயன்படுத்தி உயர் செயல்திறன் கொண்ட Energon தரவு ஏற்றுபவருடன் செயல்படுத்தப்பட்டது. ஒர்க்லோட் அதிநவீன A100 மற்றும் H100 GPUs மூலம் இயக்கப்படும் கிளஸ்டர்களில் விநியோகிக்கப்பட்டது, இது உகந்த கணக்கீட்டுத் திறனை உறுதி செய்கிறது.

அளவுகோல் முடிவுகள் மற்றும் மதிப்பீட்டு அளவீடுகளின் ஆழமான பகுப்பாய்வு

Llama Nemotron Nano VL OCRBench v2 இல் கடுமையான மதிப்பீட்டிற்கு உட்படுத்தப்பட்டது, இது ஆவண-நிலை பார்வை-மொழி புரிதலை விரிவாக மதிப்பிடுவதற்கு வடிவமைக்கப்பட்ட ஒரு அதிநவீன அளவுகோலாகும். இந்த அளவுகோல் OCR (ஒளியியல் எழுத்துணரி), அட்டவணை பாகுபடுத்தல் மற்றும் வரைபட பகுத்தறிவு உள்ளிட்ட பல்வேறு பணிகளை உள்ளடக்கியது. OCRBench நிதி, சுகாதாரம், சட்டம் மற்றும் அறிவியல் வெளியீடு போன்ற பல்வேறு களங்களைச் சேர்ந்த ஆவணங்களை உள்ளடக்கிய 10,000க்கும் மேற்பட்ட மனிதனால் சரிபார்க்கப்பட்ட QA ஜோடிகளின் கணிசமான தொகுப்பை உள்ளடக்கியது.

மதிப்பீட்டு முடிவுகள், சவாலான இந்த அளவுகோலில் காம்பாக்ட் VLMகளிடையே மாதிரி சிறந்த துல்லியத்தை அடைகிறது என்பதைக் காட்டுகிறது. குறிப்பாக, கட்டமைப்பு தரவை (எ.கா., அட்டவணைகள் மற்றும் முக்கிய-மதிப்பு ஜோடிகள்) பிரித்தெடுப்பது மற்றும் தளவமைப்பு சார்ந்த வினவல்களுக்குப் பதிலளிப்பது போன்ற பணிகளில் இதன் செயல்திறன் கணிசமாக பெரிய மற்றும் குறைவான திறமையான மாடல்களுடன் போட்டியிடுகிறது.

ஆங்கிலம் அல்லாத ஆவணங்களில் மற்றும் தரமிறக்கப்பட்ட ஸ்கேன் தரம் கொண்ட ஆவணங்களில் மாதிரி திறம்பட பொதுமைப்படுத்தும் திறன், அதன் வலிமை மற்றும் உண்மையான உலக காட்சிகளில் நடைமுறைப் பயன்பாட்டை அடிக்கோடிட்டுக் காட்டுகிறது.

வரிசைப்படுத்தல் உத்திகள், குவாண்டம் நுட்பங்கள் மற்றும் செயல்திறன் மேம்பாடுகள்

Llama Nemotron Nano VL நெகிழ்வான வரிசைப்படுத்தலுக்காக வடிவமைக்கப்பட்டுள்ளது, இது சேவையகம் மற்றும் எட்ஜ் ஊக காட்சிகள் இரண்டையும் ஆதரிக்கிறது. NVIDIA ஒரு குவாண்டமைஸ் செய்யப்பட்ட 4-பிட் பதிப்பை (AWQ) வழங்குகிறது, இது TinyChat மற்றும் TensorRT-LLM ஐப் பயன்படுத்தி திறமையான ஊகத்தை செயல்படுத்துகிறது. இந்த குவாண்டமைஸ் செய்யப்பட்ட பதிப்பு ஜெட்சன் ஓரினுடனும் (Jetson Orin) மற்றும் பிற வளக் கட்டுப்பாடுகள் நிறைந்த சூழல்களுடனும் இணக்கமானது, இது பயன்பாடுகளின் பரந்த வரம்பிற்கு அதன் பயன்பாட்டை நீட்டிக்கிறது.

அதன் செயல்திறன் மற்றும் பல்துறைக்கு பங்களிக்கும் முக்கிய தொழில்நுட்ப அம்சங்கள் பின்வருமாறு:

  • மாடுலர் NIM (NVIDIA Inference Microservice) ஆதரவு, இது API ஒருங்கிணைப்பை எளிதாக்குகிறது மற்றும் மைக்ரோசர்வீஸ் கட்டமைப்புகளுக்குள் தடையற்ற வரிசைப்படுத்தலை எளிதாக்குகிறது.
  • ONNX மற்றும் TensorRT ஏற்றுமதி ஆதரவு, இது வன்பொருள் முடுக்கத்துடன் இணக்கத்தன்மையை உறுதிசெய்து, பல்வேறு தளங்களில் செயல்திறனை மேம்படுத்துகிறது.
  • முன்கூட்டியே கணக்கிடப்பட்ட பார்வை உட்பொதிவு விருப்பம், இது நிலையான பட ஆவணங்களுக்கான தாமதத்தை காட்சித் தகவலை முன்கூட்டியே செயலாக்குவதன்மூலம் குறைக்கிறது.

முக்கிய தொழில்நுட்ப அடிப்படைகள்

Llama Nemotron Nano VL இன் தொழில்நுட்ப அம்சங்களுக்குள் ஆழமாகச் சென்று, பார்வை-மொழி புரிதலில் அதன் திறமைக்கு பங்களிக்கும் தனிப்பட்ட கூறுகள் மற்றும் பயிற்சி முறைகளை பிரிப்பது முக்கியமானது. இந்த மாதிரி Llama 3.1 கட்டமைப்பை CRadioV2-H vision encoder உடனான தடையற்ற கலவையுடன் தனித்துக்காட்டுகிறது, இது மல்டிமோடல் உள்ளீடுகளை ஒரே நேரத்தில் செயலாக்குவதில் திறமையான ஒரு இணக்கமான குழாயில் முடிவடைகிறது. இது காட்சி மற்றும் உரை கூறுகளை உள்ளடக்கிய பல பக்க ஆவணங்களை விளக்கும் திறனை உள்ளடக்கியது, இது சிக்கலான ஆவண ஏற்பாடுகளின் முழுமையான பகுப்பாய்வு தேவைப்படும் பயன்பாடுகளுக்கு உறுதியாக மதிப்புமிக்கதாக இருக்கும்.

மைய வடிவமைப்பு நெறி டோக்கன்களின் உகந்த பயன்பாட்டைச் சுற்றி வருகிறது, இது படம் மற்றும் உரை வரிசைகள் இரண்டிலும் 16K ஐ அடையும் சூழல் நீளங்களுக்கு இடமளிக்க மாதிரியை சாத்தியமாக்கும் பண்பு. இந்த நீட்டிக்கப்பட்ட சூழல் சாளரம் மாதிரியானது அதிகமான சூழல் விவரங்களை தக்க வைத்துக் கொள்ளவும் பயன்படுத்தவும் உதவுகிறது, சிக்கலான பகுத்தறிவு ஒதுக்கீடுகளில் அதன் துல்லியம் மற்றும் நம்பகத்தன்மையை கணிசமாக மேம்படுத்துகிறது. மேலும், உரை உள்ளீட்டுடன் பல படங்களை நிர்வகிக்கும் திறன் பல காட்சி மற்றும் உரை உறுப்புகளுக்கு இடையிலான தொடர்பு முக்கியமானது என்ற நீட்டிக்கப்பட்ட மல்டிமோடல் பணிகளுக்கு இது குறிப்பிடத்தக்க வகையில் பொருத்தமானது.

துல்லியமான பார்வை-உரை சீரமைப்பின் சாதனையானது, மேம்பட்ட திட்ட அடுக்குகள் மற்றும் சுழற்சி நிலை குறியீட்டின் பயன்பாடு மூலம் உணரப்படுகிறது, இது படத் இணைப்பு உட்பொதிவுகளுக்காக புத்திசாலித்தனமாக வடிவமைக்கப்பட்டுள்ளது. இந்த வழிமுறைகள் காட்சி மற்றும் உரை தரவு துல்லியமாக ஒத்திசைக்கப்படுவதை உறுதிசெய்கின்றன, இதன் மூலம் பல்வகை உள்ளீடுகளிலிருந்து அர்த்தமுள்ள நுண்ணறிவுகளைப் பிரித்தெடுக்கும் மாதிரியின் திறனை அதிகரிக்கும்.

பயிற்சி செயல்முறையின் விரிவான கண்ணோட்டம்

Llama Nemotron Nano VL க்கான பயிற்சி முன்னுதாரணம் மூன்று குறிப்பிட்ட கட்டங்களாக நுணுக்கமாக கட்டமைக்கப்பட்டது, ஒவ்வொன்றும் மாதிரியின் விரிவான திறன் தொகுப்பிற்கு பங்களிக்கிறது. பயிற்சியின் மூலோபாயப் பிரிவானது இலக்கு மேம்பாடுகளுக்கும் ஃபைன்-ட்யூனிங்கிற்கும் அனுமதிக்கிறது, இதன் மூலம் மாதிரியின் சாத்தியமான செயல்பாட்டை அதிகரிக்கிறது.

தொடக்கக் கட்டம் பரந்த வணிக படம் மற்றும் வீடியோ தரவுத்தொகுப்புகளில் குறுக்கிடப்பட்ட படம்-உரை முன்தயாரிப்பை உள்ளடக்கியது. இந்த அஸ்திவாரப் படி, மாதிரி காட்சி மற்றும் உரை தகவல் இரண்டையும் பற்றிய ஆழமான புரிதலை வழங்குவதற்கு இன்றியமையாதது, இதனால் அடுத்தடுத்த கற்றலுக்கான ஒரு சக்திவாய்ந்த அடித்தளத்தை உருவாக்குகிறது. பரந்த அளவிலான பல்வகைத் தரவுக்கு மாதிரியை வெளிப்படுத்துவதன் மூலம், அது மாறுபட்ட முறைகளை உள்ளடக்கிய சிக்கலான சங்கங்களையும் வடிவங்களையும் கண்டறியும் திறனைப் பெறுகிறது.

அடுத்த கட்டம் ஊடாடும் தூண்டுதலை செயல்படுத்த மல்டிமோடல் அறிவுறுத்தல் ட்யூனிங்கில் கவனம் செலுத்துகிறது. இந்த கட்டத்தில் மாதிரி பல்வேறு வகையான அறிவுறுத்தல் அடிப்படையிலான தரவுத்தொகுப்புகளுடன் நுட்பமான முறையில் சரிசெய்யப்படுகிறது, இதன் மூலம் பயனரின் விசாரணைகள் மற்றும் அறிவுறுத்தல்களுக்கு சிந்தனையுடன் பதிலளிக்க உதவுகிறது. ஊடாடும் தூண்டுதல், மாதிரி டைனமிக் தொடர்புகளில் பங்கேற்க உதவுகிறது, அதன் மேம்பட்ட புரிதல் மற்றும் பகுத்தறிவு திறன்களைக் காட்டுகின்ற நிகழ்விற்கான தகவல்களை வழங்குகிறது.

முடிவு கட்டம் நிலையான LLM அளவுகோல்களில் செயல்திறனை மேம்படுத்துவதற்காக உரை-மட்டும் அறிவுறுத்தல் தரவின் மறு கலவையை உள்ளடக்கியது. இந்த கட்டம் மாதிரியின் மொழி புரிதல் திறன்களை மேம்படுத்துவதில் ஒரு முக்கிய படியாக செயல்படுகிறது. உரை-மட்டும் டேட்டாவில் மாதிரியை நுணுக்கமாக சரிசெய்வது மொழியியல் பணிகளில் அதன் சரளம், ஒத்திசைவு மற்றும் துல்லியத்தை மேம்படுத்த உதவுகிறது.

அளவுகோல் விளைவுகள் மற்றும் மதிப்பீட்டின் முழுமையான ஆய்வு

Llama Nemotron Nano VL பரவலாக அங்கீகரிக்கப்பட்ட OCRBench v2 அளவுகோலில் கடுமையான மதிப்பீட்டிற்கு உட்படுத்தப்பட்டது, இது ஆவண-நிலை பார்வை-மொழி புரிதல் திறன்களை நுணுக்கமாக மதிப்பிடுவதற்காக உருவாக்கப்பட்ட ஒரு முழுமையான ஆய்வு நடவடிக்கை. இந்த அளவுகோல் OCR, அட்டவணை பாகுபடுத்தல் மற்றும் வரைபட சிந்தனை உள்ளிட்ட ஒரு பரந்த அளவிலான பொறுப்புகளை உள்ளடக்கியது, பல்வேறு ஆவண செயலாக்க ஒதுக்கீடுகளில் மாதிரியின் திறன்களின் முழுமையான மதிப்பீட்டை வழங்குகிறது.

OCRBench மனிதனால் சரிபார்க்கப்பட்ட QA ஜோடிகளின் கணிசமான தொகுப்பை உள்ளடக்கியது, இது பல்வேறு மாதிரிகளின் செயல்திறனை ஒப்பிடுவதற்கு ஒரு நம்பகமான தரநிலையாக உள்ளது. QA ஜோடிகள் மனிதனால் சரிபார்க்கப்பட்ட तथ्य அதிக அளவு துல்லியம் மற்றும் நம்பகத்தன்மையை உறுதி செய்கிறது, இது மாதிரியின் திறன்களை மதிப்பீடு చేయడానికి ஒரு வலுவான அடித்தளத்தை உருவாக்குகிறது.

Llama Nemotron Nano VL OCRBench v2 அளவுகோலில் சிறிய VLMகளிடையே நவீன துல்லியத்தை அடைகிறது என்பதை மதிப்பீட்டு விளைவுகள் வெளிப்படுத்துகின்றன. ஆவண புரிதல் ஒதுக்கீடுகளில் மாதிரியின் சிறந்த செயல்திறனை இந்த சாதனை அடிக்கோடிட்டுக் காட்டுகிறது, இது துறையில் ஒரு முக்கிய போட்டியாளராக நிலைநிறுத்துகிறது. ஆச்சரியப்படும் விதமாக, இதன் செயல்பாடு கணிசமாக பெரிய மற்றும் குறைவான திறமையான மாதிரிகளுடன் போட்டியிடுகிறது, குறிப்பாக கட்டமைப்பு தரவை பிரித்தெடுப்பது (எ.கா., அட்டவணைகள் மற்றும் முக்கிய-மதிப்பு ஜோடிகள்) மற்றும் தளவமைப்பு சார்ந்த வினவல்களுக்கு ответить. இது மாதிரியின் துல்லியம் மற்றும் அளவிடக்கூடிய தன்மையை அடிக்கோடிட்டுக் காட்டுகிறது, மேலும் இது விரிவான கணக்கீட்டு வளங்கள் தேவையில்லாமல் மேல்-நிலை விளைவுகளை அடைய முடியும் என்பதை காண்பிக்கிறது.

ஆங்கிலம் அல்லாத ஆவணங்கள் மற்றும் தரங்குறைந்த ஸ்கேன் தரம் கொண்ட ஆவணங்களில் மாதிரி வெற்றிகரமாக பொதுமைப்படுத்தும் திறன், அதன் வலிமை மற்றும் நிஜ உலக காட்சிகளில் நடைமுறைப் பயன்பாட்டை அடிக்கோடிட்டுக் காட்டுகிறது. இந்த தகவமைப்புத்தன்மை அதை பல்வேறு மொழியியல் மற்றும் காட்சி தன்மைகளுடன் மாறுபட்ட ஆவணங்களை அனுபவிக்கக்கூடிய மாறுபட்ட சூழ்நிலைகளில் வரிசைப்படுத்தப்படுவதற்கு బాగా பொருத்தமானது. தரங்குறைந்த ஸ்கேன் качествੀਆਂ справиться со специфичните по-важно, тъй като тя дава възможност на модела устойчиво да поддържа своята ефективност дори когато се обработват несъвършени или остарели документи.

Разширяване на внедряващите сценарии и процедурите по квантуване

Llama Nemotron Nano VL е предназначен за функционално внедряване, като позволява както сървърни, така и крайни сценарии за заключение. Тази гъвкавост му дава възможност да бъде внедрен в широк спектър от контексти, от базирани на облак сървъри до крайни устройства с ограничени ресурси.

NVIDIA предлага квантифицирана версия с 4 бита, позволяваща продуктивно заключение с TinyChat и TensorRT-LLM. Тази квантифицирана версия е съвместима и с Jetson Orin и други настройки с ограничени ресурси, разширявайки полезността си в широк спектър от приложения. Квантуването е жизненоважен метод за оптимизация, който намалява размера и изчислителните изисквания на модела, което го прави значително по-възможен за внедряване на устройства с ограничена хардуерна възможност.

Съвместимостта на модела с TinyChat и TensorRT-LLM улеснява плавното интегриране в текущите работни процеси, позволявайки на клиентите да използват предимствата на Llama Nemotron Nano VL без значителни модификации на тяхната инфраструктура. Тази простота на интегриране е значително предимство, тъй като намалява тежестта за навлизане и позволява бързо приемане на модела.

Освен това съвместимостта на модела с Jetson Orin и други настройки с ограничени ресурсу разширява потенциалните му внедрявания към сценарии за крайни изчисления, където може да бъде внедрен на устройства с ограничени възможности за захранване и изчисления. Това отваря нови случаи за разбиране на документи в реално време на устройства като смартфони, таблети и вградени системи.

Подробен преглед на ключовите технологични спецификации

Llama Nemotron Nano VL предлага различни технологични опции, които подобряват неговата ефикасност, много гъвкавост и леснота на внедряване. Тези спецификации се грижат за най-голям брой изисквания за приложение, което го прави гъвкаво решение за разнообразни задачи за разбиране на всеки документ.

Модулната поддръжка на NIM (NVIDIA Inference Microservice) опростява интегрирането на API, позволяваща плавното интегриране в микросервизни архитектури. NIM (NVIDIA Inference Microservice) е контейнеризиран формат за внедряване, който предлага стандартен интерфейс за достъп до възможностите за заключение. Тази модулност опростява внедряването и управляемостта на модела, особено в сложни, базирани на микросервизираща системи.

Помощта на модела за ONNX и TensorRT експорт си гарантира съвместимост с апаратни ускорения, оптимизирайки производителността на множество платформи. ONNX (Open Neural Network Exchange) е отворен стандарт за сигнализиране на модели за машинно самообучение, позволяващ оперативна съвместимост между различни рамки и апаратни платформи. TensorRT е високопроизводителния оптимизатор и среда за изпълнение на NVIDIA, предлагащ съществен буст на NVIDIA GPU.

Опцията за предварително изчислени визуални вграждания намалява латентността за статични визуални документи чрез предварително обработване на визуалната информация. Тази оптимизация е особено полезна за приложения, включващи неподвижни документи, където визуалните вграждания могат да се изчислят предварително и да се използват повторно, като по този начин се минимизира времето за заключение и се подобрява цялостното потребителско изживяване. Чрез предварително изчисляване на визуалните вграждания, моделът може да се концентрира върху обработката на текстовата информация, в резултат на което да е по-ефективното разбиране на документите.

Стратегическо значение и последици за реалния свят

Дебютът на Llama Nemotron Nano VL от NVIDIA обозначава забележително подобрение в областта на моделите на зрение-език, предлагащ мощна комбинация от прецизност, ефективност и гъвкавост. Чрез увеличаване на стабилната архитектура Llama 3.1 и интегриране на рационализиран визуален кодиращ модул, този модел дава възможност на клиентите да се захващат с задачи за разбиране на ниво документ с ненадмината ефективност.

Съвременното състояние на точността на модела на еталонната стойност OCRBench v2 подчертава неговата отлична производителност в отговорностите за разбиране на документите, определяйки висок стандарт за компактни VLM. Способността му да обобщава в английски документи и документи с деградирало качество при сканиране го прави безценен актив за внедряване в реалния свят, където може да се справя с различни класове и качества на документи.

Възможностите за разположаване на Llama Nemotron Nano VL, процедурите за квантуване и жизненоважни технологични спецификации допълнително затвърждават мястото му като трансформиращо решение за разбиране на документи. Независимо дали е разположен на сървъри или крайни устройства, този модел има възможността да революционизира начина, по който компаниите и отделните лица си взаимодействат с документи, отключвайки нови степени на ефективност, продуктивност и познания. Докато бизнесите прогресивно прегръщат решения, захранвани от AI, за да подобрят операциите си, Llama Nemotron Nano VL е готов да играе решаваща част в ускоряването на приемането на технологии за разбиране на документи.