NVIDIA ਨੇ ਹਾਲ ਹੀ ਵਿੱਚ Llama Nemotron Nano VL ਲਾਂਚ ਕੀਤਾ ਹੈ, ਜੋ ਇੱਕ ਵਿਜ਼ਨ-ਲੈਂਗੂਏਜ ਮਾਡਲ (VLM) ਹੈ ਅਤੇ ਇਸਨੂੰ ਦਸਤਾਵੇਜ਼-ਪੱਧਰ ਦੀਆਂ ਸਮਝਣ ਵਾਲੀਆਂ ਟਾਸਕਾਂ ਨੂੰ ਕੁਸ਼ਲਤਾ ਅਤੇ ਬੇਮਿਸਾਲ ਸ਼ੁੱਧਤਾ ਨਾਲ ਨਜਿੱਠਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਹ ਨਵੀਨਤਾਕਾਰੀ ਸਿਸਟਮ ਮਜ਼ਬੂਤ Llama 3.1 ਆਰਕੀਟੈਕਚਰ ‘ਤੇ ਬਣਾਇਆ ਗਿਆ ਹੈ ਅਤੇ ਇਸ ਵਿੱਚ ਇੱਕ ਸੁਚਾਰੂ ਵਿਜ਼ਨ ਐਨਕੋਡਰ ਸ਼ਾਮਲ ਹੈ, ਜੋ ਇਸਨੂੰ ਉਹਨਾਂ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਬਹੁਤ ਵਧੀਆ ਬਣਾਉਂਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਗੁੰਝਲਦਾਰ ਦਸਤਾਵੇਜ਼ਾਂ ਜਿਵੇਂ ਕਿ ਸਕੈਨ ਕੀਤੇ ਫਾਰਮ, ਵਿਸਤ੍ਰਿਤ ਵਿੱਤੀ ਰਿਪੋਰਟਾਂ ਅਤੇ ਗੁੰਝਲਦਾਰ ਤਕਨੀਕੀ ਡਾਇਗ੍ਰਾਮਾਂ ਦੀ ਸਾਵਧਾਨੀ ਨਾਲ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
ਮਾਡਲ ਆਰਕੀਟੈਕਚਰ ਅਤੇ ਵਿਆਪਕ ਸੰਖੇਪ ਜਾਣਕਾਰੀ
Llama Nemotron Nano VL ਸਹਿਜੇ ਹੀ CRadioV2-H ਵਿਜ਼ਨ ਐਨਕੋਡਰ ਨੂੰ ਇੱਕ ਸੁਚੱਜੇ ਢੰਗ ਨਾਲ ਫਾਈਨ-ਟਿਊਨ ਕੀਤੇ Llama 3.1 8B ਇੰਸਟਰਕਟ ਲੈਂਗੂਏਜ ਮਾਡਲ ਨਾਲ ਜੋੜਦਾ ਹੈ। ਇਹ ਸ਼ਕਤੀਸ਼ਾਲੀ ਸੁਮੇਲ ਇੱਕ ਅਜਿਹੀ ਪਾਈਪਲਾਈਨ ਬਣਾਉਂਦਾ ਹੈ ਜੋ ਮਲਟੀਮੋਡਲ ਇਨਪੁਟਸ ਨੂੰ ਸਹਿਯੋਗੀ ਢੰਗ ਨਾਲ ਪ੍ਰੋਸੈਸ ਕਰਨ ਦੇ ਸਮਰੱਥ ਹੈ, ਜਿਸ ਵਿੱਚ ਮਲਟੀ-ਪੇਜ਼ ਦਸਤਾਵੇਜ਼ ਸ਼ਾਮਲ ਹਨ ਜੋ ਵਿਜ਼ੂਅਲ ਅਤੇ ਟੈਕਸਚੁਅਲ ਹਿੱਸੇ ਦੋਵੇਂ ਪੇਸ਼ ਕਰਦੇ ਹਨ।
ਮਾਡਲ ਦਾ ਆਰਕੀਟੈਕਚਰ ਵਿਸ਼ੇਸ਼ ਤੌਰ ‘ਤੇ ਟੋਕਨ ਕੁਸ਼ਲਤਾ ਲਈ ਇੰਜਨੀਅਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਜੋ ਚਿੱਤਰ ਅਤੇ ਟੈਕਸਟ ਦੋਵਾਂ ਸੀਕਵੈਂਸਾਂ ਵਿੱਚ 16K ਤੱਕ ਦੇ ਪ੍ਰਸੰਗ ਦੀ ਲੰਬਾਈ ਨੂੰ ਅਨੁਕੂਲਿਤ ਕਰਦਾ ਹੈ। ਟੈਕਸਚੁਅਲ ਇਨਪੁਟ ਦੇ ਨਾਲ-ਨਾਲ ਕਈ ਚਿੱਤਰਾਂ ਨੂੰ ਸੰਭਾਲਣ ਦੀ ਇਸਦੀ ਸਮਰੱਥਾ ਇਸਨੂੰ ਲੰਬੇ ਫਾਰਮ ਵਾਲੇ ਮਲਟੀਮੋਡਲ ਟਾਸਕਾਂ ਵਿੱਚ ਖਾਸ ਤੌਰ ‘ਤੇ ਨਿਪੁੰਨ ਬਣਾਉਂਦੀ ਹੈ। ਉੱਨਤ ਪ੍ਰੋਜੈਕਸ਼ਨ ਲੇਅਰਾਂ ਅਤੇ ਰੋਟਰੀ ਪੋਜ਼ੀਸ਼ਨਲ ਐਨਕੋਡਿੰਗ ਦੀ ਵਰਤੋਂ ਦੁਆਰਾ ਸਟੀਕ ਵਿਜ਼ਨ-ਟੈਕਸਟ ਅਲਾਈਨਮੈਂਟ ਪ੍ਰਾਪਤ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, ਜੋ ਚਿੱਤਰ ਪੈਚ ਏਮਬੈਡਿੰਗ ਲਈ ਕਸਟਮ-ਡਿਜ਼ਾਈਨ ਕੀਤੀ ਗਈ ਹੈ।
ਟ੍ਰੇਨਿੰਗ ਰੈਜੀਮੈਂਟ ਨੂੰ ਰਣਨੀਤਕ ਤੌਰ ‘ਤੇ ਤਿੰਨ ਵੱਖਰੇ ਪੜਾਵਾਂ ਵਿੱਚ ਵੰਡਿਆ ਗਿਆ ਸੀ:
- Phase 1: ਵਪਾਰਕ ਚਿੱਤਰ ਅਤੇ ਵੀਡੀਓ ਡੇਟਾਸੈੱਟਾਂ ‘ਤੇ ਇੰਟਰਲੀਵਡ ਚਿੱਤਰ-ਟੈਕਸਟ ਪ੍ਰੀਟਰੇਨਿੰਗ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਗਈ। ਇਹ ਪੜਾਅ ਵਿਜ਼ੂਅਲ ਅਤੇ ਟੈਕਸਚੁਅਲ ਜਾਣਕਾਰੀ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਵਿੱਚ ਮਾਡਲ ਨੂੰ ਗਰਾਊਂਡ ਕਰਨ ਲਈ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਸੀ।
- Phase 2: ਇੰਟਰਐਕਟਿਵ ਪ੍ਰੋਂਪਟਿੰਗ ਨੂੰ ਸਮਰੱਥ ਕਰਨ ਲਈ ਮਲਟੀਮੋਡਲ ਇੰਸਟਰਕਸ਼ਨ ਟਿਊਨਿੰਗ ਦਾ ਲਾਭ ਉਠਾਇਆ ਗਿਆ, ਜਿਸ ਨਾਲ ਡਾਇਨਾਮਿਕ ਇੰਟਰੈਕਸ਼ਨ ਅਤੇ ਉਪਭੋਗਤਾ ਸਵਾਲਾਂ ਲਈ ਵਧੀ ਹੋਈ ਜਵਾਬਦੇਹੀ ਦੀ ਆਗਿਆ ਦਿੱਤੀ ਗਈ।
- Phase 3: ਸਟੈਂਡਰਡ LLM ਬੈਂਚਮਾਰਕਸ ‘ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਸੁਧਾਰਨ ਲਈ ਟੈਕਸਟ-ਓਨਲੀ ਇੰਸਟਰਕਸ਼ਨ ਡੇਟਾ ਨੂੰ ਮੁੜ-ਮਿਲਾਇਆ ਗਿਆ, ਜਿਸ ਨਾਲ ਆਮ ਭਾਸ਼ਾ ਦੀ ਸਮਝ ਅਤੇ ਤਰਕ ਵਿੱਚ ਮਾਡਲ ਦੀ ਮੁਹਾਰਤ ਵਧਾਈ ਗਈ।
ਸਾਰੀ ਟ੍ਰੇਨਿੰਗ ਪ੍ਰਕਿਰਿਆ NVIDIA ਦੇ Megatron-LLM ਫਰੇਮਵਰਕ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਉੱਚ-ਪ੍ਰਦਰਸ਼ਨ ਵਾਲੇ ਏਨਰਗੋਨ ਡਾਟਾਲੋਡਰ ਨਾਲ ਚਲਾਈ ਗਈ। ਵਰਕਲੋਡ ਨੂੰ A100 ਅਤੇ H100 GPUs ਦੁਆਰਾ ਸੰਚਾਲਿਤ ਕਲੱਸਟਰਾਂ ਵਿੱਚ ਵੰਡਿਆ ਗਿਆ ਸੀ, ਜਿਸ ਨਾਲ ਸਰਵੋਤਮ ਕੰਪਿਊਟੇਸ਼ਨਲ ਕੁਸ਼ਲਤਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਇਆ ਗਿਆ ਸੀ।
ਬੈਂਚਮਾਰਕ ਨਤੀਜਿਆਂ ਅਤੇ ਮੁਲਾਂਕਣ ਮੈਟ੍ਰਿਕਸ ਦਾ ਡੂੰਘਾਈ ਨਾਲ ਵਿਸ਼ਲੇਸ਼ਣ
Llama Nemotron Nano VL ਨੇ OCRBench v2 ‘ਤੇ ਸਖ਼ਤ ਮੁਲਾਂਕਣ ਕੀਤਾ, ਜੋ ਕਿ ਇੱਕ ਸੂਝਵਾਨ ਬੈਂਚਮਾਰਕ ਹੈ ਜੋ ਦਸਤਾਵੇਜ਼-ਪੱਧਰ ਦੀ ਵਿਜ਼ਨ-ਲੈਂਗੂਏਜ ਸਮਝ ਦਾ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਸ ਬੈਂਚਮਾਰਕ ਵਿੱਚ OCR (ਆਪਟੀਕਲ ਕਰੈਕਟਰ ਰਿਕਗਨੀਸ਼ਨ), ਟੇਬਲ ਪਾਰਸਿੰਗ ਅਤੇ ਡਾਇਗ੍ਰਾਮ ਤਰਕ ਸਮੇਤ ਕਈ ਤਰ੍ਹਾਂ ਦੇ ਟਾਸਕ ਸ਼ਾਮਲ ਹਨ। OCRBench ਵਿੱਚ ਵਿੱਤ, ਸਿਹਤ ਸੰਭਾਲ, ਕਾਨੂੰਨੀ ਅਤੇ ਵਿਗਿਆਨਕ ਪ੍ਰਕਾਸ਼ਨ ਵਰਗੇ ਵਿਭਿੰਨ ਡੋਮੇਨਾਂ ਤੋਂ ਦਸਤਾਵੇਜ਼ਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦੇ ਹੋਏ 10,000 ਤੋਂ ਵੱਧ ਮਨੁੱਖੀ-ਪ੍ਰਮਾਣਿਤ QA ਜੋੜਿਆਂ ਦਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਸੰਗ੍ਰਹਿ ਸ਼ਾਮਲ ਹੈ।
ਮੁਲਾਂਕਣ ਨਤੀਜੇ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ ਮਾਡਲ ਇਸ ਚੁਣੌਤੀਪੂਰਨ ਬੈਂਚਮਾਰਕ ‘ਤੇ ਸੰਖੇਪ VLMs ਵਿੱਚ ਸਟੇਟ-ਆਫ-ਦੀ-ਆਰਟ ਸ਼ੁੱਧਤਾ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ। ਖਾਸ ਤੌਰ ‘ਤੇ, ਇਸਦਾ ਪ੍ਰਦਰਸ਼ਨ ਖਾਸ ਤੌਰ ‘ਤੇ ਉਹਨਾਂ ਟਾਸਕਾਂ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵੱਡੇ ਅਤੇ ਘੱਟ ਕੁਸ਼ਲ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ ਜ਼ਿਆਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਢਾਂਚਾਗਤ ਡੇਟਾ (ਉਦਾਹਰਨ ਲਈ, ਟੇਬਲ ਅਤੇ ਕੁੰਜੀ-ਮੁੱਲ ਜੋੜੇ) ਕੱਢਣ ਅਤੇ ਲੇਆਉਟ-ਨਿਰਭਰ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣੇ ਸ਼ਾਮਲ ਹਨ।
ਗੈਰ-ਅੰਗਰੇਜ਼ੀ ਦਸਤਾਵੇਜ਼ਾਂ ਅਤੇ ਘਟੀਆ ਸਕੈਨ ਗੁਣਵੱਤਾ ਵਾਲੇ ਦਸਤਾਵੇਜ਼ਾਂ ਵਿੱਚ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਆਮ ਬਣਾਉਣ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ ਅਸਲ-ਸੰਸਾਰ ਦੇ ਹਾਲਾਤਾਂ ਵਿੱਚ ਇਸਦੀ ਮਜ਼ਬੂਤੀ ਅਤੇ ਵਿਹਾਰਕ ਉਪਯੋਗਤਾ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦੀ ਹੈ।
ਤੈਨਾਤੀ ਰਣਨੀਤੀਆਂ, ਕੁਆਂਟੀਜ਼ੇਸ਼ਨ ਤਕਨੀਕਾਂ ਅਤੇ ਕੁਸ਼ਲਤਾ ਅਨੁਕੂਲਤਾਵਾਂ
Llama Nemotron Nano VL ਨੂੰ ਲਚਕਦਾਰ ਤੈਨਾਤੀ ਲਈ ਇੰਜਨੀਅਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਜੋ ਸਰਵਰ ਅਤੇ ਐਜ ਇਨਫਰੈਂਸ ਦੋਵਾਂ ਹਾਲਤਾਂ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ। NVIDIA ਇੱਕ ਕੁਆਂਟਾਈਜ਼ਡ 4-ਬਿੱਟ ਵਰਜ਼ਨ (AWQ) ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ ਜੋ TinyChat ਅਤੇ TensorRT-LLM ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੁਸ਼ਲ ਇਨਫਰੈਂਸ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦਾ ਹੈ। ਇਹ ਕੁਆਂਟਾਈਜ਼ਡ ਵਰਜ਼ਨ Jetson Orin ਅਤੇ ਹੋਰ ਸਰੋਤ-ਪ੍ਰਤੀਬੰਧਿਤ ਵਾਤਾਵਰਣਾਂ ਦੇ ਅਨੁਕੂਲ ਵੀ ਹੈ, ਜੋ ਇਸਦੀ ਉਪਯੋਗਤਾ ਨੂੰ ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਤੱਕ ਵਧਾਉਂਦਾ ਹੈ।
ਮੁੱਖ ਤਕਨੀਕੀ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਜੋ ਇਸਦੀ ਕੁਸ਼ਲਤਾ ਅਤੇ ਬਹੁਪੱਖੀਤਾ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਉਂਦੀਆਂ ਹਨ, ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
- ਮਾਡਿਊਲਰ NIM (NVIDIA ਇਨਫਰੈਂਸ ਮਾਈਕ੍ਰੋਸਰਵਿਸ) ਸਪੋਰਟ, ਜੋ API ਏਕੀਕਰਣ ਨੂੰ ਸਰਲ ਬਣਾਉਂਦਾ ਹੈ ਅਤੇ ਮਾਈਕ੍ਰੋਸਰਵਿਸ ਆਰਕੀਟੈਕਚਰ ਦੇ ਅੰਦਰ ਸਹਿਜ ਤੈਨਾਤੀ ਦੀ ਸਹੂਲਤ ਦਿੰਦਾ ਹੈ।
- ONNX ਅਤੇ TensorRT ਐਕਸਪੋਰਟ ਸਪੋਰਟ, ਵੱਖ-ਵੱਖ ਪਲੇਟਫਾਰਮਾਂ ਵਿੱਚ ਹਾਰਡਵੇਅਰ ਐਕਸਲਰੇਸ਼ਨ ਅਤੇ ਅਨੁਕੂਲਿਤ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਨਾਲ ਅਨੁਕੂਲਤਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ।
- ਪ੍ਰੀਕੰਪਿਊਟਡ ਵਿਜ਼ਨ ਏਮਬੈਡਿੰਗਜ਼ ਵਿਕਲਪ, ਜੋ ਵਿਜ਼ੂਅਲ ਜਾਣਕਾਰੀ ਨੂੰ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸ ਕਰਕੇ ਸਥਿਰ ਚਿੱਤਰ ਦਸਤਾਵੇਜ਼ਾਂ ਲਈ ਲੇਟੈਂਸੀ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ।
ਕੋਰ ਤਕਨੀਕੀ ਅਧਾਰ
Llama Nemotron Nano VL ਦੇ ਤਕਨੀਕੀ ਪਹਿਲੂਆਂ ਵਿੱਚ ਡੂੰਘਾਈ ਨਾਲ ਜਾਣ ‘ਤੇ, ਇਸਦੇ ਵਿਅਕਤੀਗਤ ਕੰਪੋਨੈਂਟਸ ਅਤੇ ਸਿਖਲਾਈ ਵਿਧੀਆਂ ਨੂੰ ਵੱਖ ਕਰਨਾ ਬਹੁਤ ਜ਼ਰੂਰੀ ਹੈ ਜੋ ਵਿਜ਼ਨ-ਲੈਂਗੂਏਜ ਸਮਝ ਵਿੱਚ ਇਸਦੀ ਸਮਰੱਥਾ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਉਂਦੇ ਹਨ। ਮਾਡਲ ਆਪਣੇ ਆਪ ਨੂੰ Llama 3.1 ਆਰਕੀਟੈਕਚਰ ਨੂੰ CRadioV2-H ਵਿਜ਼ਨ ਐਨਕੋਡਰ ਨਾਲ ਜੋੜ ਕੇ ਵੱਖਰਾ ਕਰਦਾ ਹੈ, ਜਿਸਦੇ ਨਤੀਜੇ ਵਜੋਂ ਇੱਕ ਅਜਿਹੀ ਹਾਰਮੋਨੀਅਸ ਪਾਈਪਲਾਈਨ ਸਾਹਮਣੇ ਆਉਂਦੀ ਹੈ ਜੋ ਮਲਟੀਮੋਡਲ ਇਨਪੁਟਸ ਨੂੰ ਇੱਕੋ ਸਮੇਂ ਪ੍ਰੋਸੈਸ ਕਰਨ ਵਿੱਚ ਨਿਪੁੰਨ ਹੈ। ਇਸ ਵਿੱਚ ਮਲਟੀ-ਪੇਜ਼ ਦਸਤਾਵੇਜ਼ਾਂ ਦੀ ਵਿਆਖਿਆ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਸ਼ਾਮਲ ਹੈ ਜਿਸ ਵਿੱਚ ਵਿਜ਼ੂਅਲ ਅਤੇ ਟੈਕਸਟ ਦੋਵੇਂ ਹਿੱਸੇ ਸ਼ਾਮਲ ਹਨ, ਜੋ ਇਸਨੂੰ ਗੁੰਝਲਦਾਰ ਦਸਤਾਵੇਜ਼ ਪ੍ਰਬੰਧਾਂ ਦੇ ਵਿਸਤ੍ਰਿਤ ਵਿਸ਼ਲੇਸ਼ਣ ਦੀ ਲੋੜ ਵਾਲੀਆਂ ਐਪਾਂ ਲਈ ਨਿਰਣਾਇਕ ਤੌਰ ‘ਤੇ ਕੀਮਤੀ ਬਣਾਉਂਦਾ ਹੈ।
ਕੇਂਦਰੀ ਡਿਜ਼ਾਈਨ ਈਥੋਸ ਟੋਕਨਾਂ ਦੀ ਸਰਵੋਤਮ ਵਰਤੋਂ ਦੇ ਦੁਆਲੇ ਘੁੰਮਦਾ ਹੈ, ਇੱਕ ਵਿਸ਼ੇਸ਼ਤਾ ਜੋ ਮਾਡਲ ਨੂੰ ਚਿੱਤਰ ਅਤੇ ਟੈਕਸਟ ਦੋਵਾਂ ਸੀਕਵੈਂਸਾਂ ਵਿੱਚ 16K ਤੱਕ ਪਹੁੰਚਣ ਵਾਲੇ ਪ੍ਰਸੰਗ ਦੀ ਲੰਬਾਈ ਨੂੰ ਅਨੁਕੂਲਿਤ ਕਰਨਾ ਸੰਭਵ ਬਣਾਉਂਦੀ ਹੈ। ਇਹ ਵਿਸਤ੍ਰਿਤ ਪ੍ਰਸੰਗ ਵਿੰਡੋ ਮਾਡਲ ਨੂੰ ਵਧੇਰੇ ਪ੍ਰਸੰਗਿਕ ਵੇਰਵਿਆਂ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਣ ਅਤੇ ਵਰਤਣ ਲਈ ਸਮਰੱਥ ਬਣਾਉਂਦੀ ਹੈ, ਇਸਦੀ ਸ਼ੁੱਧਤਾ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵਧਾਉਂਦੀ ਹੈ ਅਤੇ ਸੂਝਵਾਨ ਤਰਕ ਨਿਰਧਾਰਨਾਂ ਵਿੱਚ ਭਰੋਸੇਯੋਗਤਾ ਨੂੰ ਵਧਾਉਂਦੀ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਟੈਕਸਚੁਅਲ ਇਨਪੁਟ ਦੇ ਨਾਲ-ਨਾਲ ਕਈ ਚਿੱਤਰਾਂ ਨੂੰ ਪ੍ਰਬੰਧਿਤ ਕਰਨ ਦੀ ਮੁਹਾਰਤ ਇਸ ਨੂੰ ਲੰਬੀਆਂ ਮਲਟੀਮੋਡਲ ਟਾਸਕਾਂ ਲਈ ਕਾਫ਼ੀ ਢੁਕਵਾਂ ਬਣਾਉਂਦੀ ਹੈ, ਜਿੱਥੇ ਵੱਖ-ਵੱਖ ਵਿਜ਼ੂਅਲ ਅਤੇ ਟੈਕਸਚੁਅਲ ਤੱਤਾਂ ਵਿਚਕਾਰ ਆਪਸੀ ਤਾਲਮੇਲ ਮਹੱਤਵਪੂਰਨ ਹੁੰਦਾ ਹੈ।
ਸਟੀਕ ਵਿਜ਼ਨ-ਟੈਕਸਟ ਅਲਾਈਨਮੈਂਟ ਦੀ ਪ੍ਰਾਪਤੀ ਸਟੇਟ-ਆਫ-ਦੀ-ਆਰਟ ਪ੍ਰੋਜੈਕਸ਼ਨ ਲੇਅਰਾਂ ਅਤੇ ਰੋਟਰੀ ਪੋਜ਼ੀਸ਼ਨਲ ਐਨਕੋਡਿੰਗ ਦੀ ਵਰਤੋਂ ਦੁਆਰਾ ਸਾਕਾਰ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, ਜੋ ਸਮਝਦਾਰੀ ਨਾਲ ਚਿੱਤਰ ਪੈਚ ਏਮਬੈਡਿੰਗ ਲਈ ਤਿਆਰ ਕੀਤੀ ਗਈ ਹੈ। ਇਹ ਮੈਕਨਿਜ਼ਮ ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦੇ ਹਨ ਕਿ ਵਿਜ਼ੂਅਲ ਅਤੇ ਟੈਕਸਚੁਅਲ ਡੇਟਾ ਸਹੀ ਢੰਗ ਨਾਲ ਸਿੰਕ੍ਰੋਨਾਈਜ਼ ਕੀਤੇ ਗਏ ਹਨ, ਇਸ ਤਰ੍ਹਾਂ ਮਲਟੀਮੋਡਲ ਇਨਪੁਟਸ ਤੋਂ ਸਾਰਥਕ ਜਾਣਕਾਰੀ ਨੂੰ ਕੱਢਣ ਦੀ ਮਾਡਲ ਦੀ ਸਮਰੱਥਾ ਨੂੰ ਵਧਾਉਂਦੇ ਹਨ।
ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਦੀ ਵਿਆਪਕ ਸੰਖੇਪ ਜਾਣਕਾਰੀ
Llama Nemotron Nano VL ਲਈ ਸਿਖਲਾਈ ਪੈਰਾਡਾਈਮ ਨੂੰ ਤਿੰਨ ਖਾਸ ਪੜਾਵਾਂ ਵਿੱਚ ਸੁਚੱਜੇ ਢੰਗ ਨਾਲ ਬਣਾਇਆ ਗਿਆ ਸੀ, ਜਿਨ੍ਹਾਂ ਵਿੱਚੋਂ ਹਰ ਇੱਕ ਮਾਡਲ ਦੇ ਵਿਆਪਕ ਹੁਨਰ ਸੈੱਟ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਉਂਦਾ ਹੈ। ਸਿਖਲਾਈ ਦੀ ਰਣਨੀਤਕ ਵੰਡ ਨਿਸ਼ਾਨਾ ਵਧਾਉਣ ਅਤੇ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਲਈ ਸਹਾਇਕ ਹੈ, ਇਸ ਤਰ੍ਹਾਂ ਮਾਡਲ ਦੀ ਸੰਭਾਵਿਤ ਕਾਰਜਕੁਸ਼ਲਤਾ ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
ਮੁਢਲੇ ਪੜਾਅ ਵਿੱਚ ਵਿਸ਼ਾਲ ਵਪਾਰਕ ਚਿੱਤਰ ਅਤੇ ਵੀਡੀਓ ਡੇਟਾਸੈੱਟਾਂ ‘ਤੇ ਇੰਟਰਲੀਵਡ ਚਿੱਤਰ-ਟੈਕਸਟ ਪ੍ਰੀਟਰੇਨਿੰਗ ਸ਼ਾਮਲ ਹੈ। ਇਹ ਬੁਨਿਆਦੀ ਕਦਮ ਮਾਡਲ ਨੂੰ ਵਿਜ਼ੂਅਲ ਅਤੇ ਟੈਕਸਚੁਅਲ ਜਾਣਕਾਰੀ ਦੋਵਾਂ ਦੀ ਡੂੰਘੀ ਸਮਝ ਨਾਲ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ, ਇਸ ਤਰ੍ਹਾਂ ਬਾਅਦ ਵਿੱਚ ਸਿੱਖਣ ਲਈ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਬੁਨਿਆਦ ਬਣਾਈ ਜਾਂਦੀ ਹੈ। ਮਾਡਲ ਨੂੰ ਮਲਟੀਮੋਡਲ ਡੇਟਾ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਲੜੀ ਦਾ ਸਾਹਮਣਾ ਕਰਵਾ ਕੇ, ਇਹ ਅਸਮਾਨ ਸਮਾਨਤਾਵਾਂ ਨੂੰ ਫੈਲਾਉਣ ਵਾਲੇ ਗੁੰਝਲਦਾਰ ਐਸੋਸੀਏਸ਼ਨਾਂ ਅਤੇ ਪੈਟਰਨਾਂ ਦਾ ਪਤਾ ਲਗਾਉਣ ਦੀ ਸਮਰੱਥਾ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ।
ਬਾਅਦ ਵਾਲਾ ਪੜਾਅ ਇੰਟਰਐਕਟਿਵ ਪ੍ਰੋਂਪਟਿੰਗ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਣ ਲਈ ਮਲਟੀਮੋਡਲ ਇੰਸਟਰਕਸ਼ਨ ਟਿਊਨਿੰਗ ‘ਤੇ ਕੇਂਦਰਿਤ ਹੈ। ਇਸ ਪੜਾਅ ਵਿੱਚ ਮਾਡਲ ਨੂੰ ਨਿਰਦੇਸ਼-ਅਧਾਰਤ ਡੇਟਾਸੈੱਟਾਂ ਦੀ ਇੱਕ ਵਿਭਿੰਨ ਕਿਸਮ ਨਾਲ ਫਾਈਨ-ਟਿਊਨ ਕਰਨਾ ਸ਼ਾਮਲ ਹੈ, ਇਸ ਤਰ੍ਹਾਂ ਇਸਨੂੰ ਉਪਭੋਗਤਾ ਪੁੱਛਗਿੱਛਾਂ ਅਤੇ ਨਿਰਦੇਸ਼ਾਂ ਪ੍ਰਤੀ ਸੋਚ-ਸਮਝ ਕੇ ਜਵਾਬ ਦੇਣ ਲਈ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇੰਟਰਐਕਟਿਵ ਪ੍ਰੋਂਪਟਿੰਗ ਮਾਡਲ ਨੂੰ ਡਾਇਨਾਮਿਕ ਇੰਟਰੈਕਸ਼ਨਾਂ ਵਿੱਚ ਹਿੱਸਾ ਲੈਣ ਲਈ ਸਮਰੱਥ ਬਣਾਉਂਦੀ ਹੈ, ਸੰਦਰਭ ਦੇ ਅਨੁਸਾਰ ਢੁਕਵੇਂ ਜਵਾਬ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ ਜੋ ਇਸਦੀ ਬਿਹਤਰ ਸਮਝ ਅਤੇ ਤਰਕ ਦੇ ਹੁਨਰ ਨੂੰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦੇ ਹਨ।
ਸਮਾਪਤੀ ਵਾਲਾ ਪੜਾਅ ਮਿਆਰੀ LLM ਬੈਂਚਮਾਰਕਸ ‘ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਸੁਧਾਰਨ ਲਈ ਟੈਕਸਟ-ਓਨਲੀ ਇੰਸਟਰਕਸ਼ਨ ਡੇਟਾ ਦੇ ਮੁੜ-ਮਿਸ਼ਰਣ ਨੂੰ ਘੇਰਦਾ ਹੈ। ਇਹ ਪੜਾਅ ਮਾਡਲ ਦੀ ਭਾਸ਼ਾ ਸਮਝਣ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਸੰਪੂਰਨ ਕਰਨ ਵਿੱਚ ਇੱਕ ਮੁੱਖ ਕਦਮ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ। ਮਾਡਲ ਨੂੰ ਸਿਰਫ਼ ਟੈਕਸਟ ਡੇਟਾ ‘ਤੇ ਫਾਈਨ-ਟਿਊਨ ਕਰਨ ਨਾਲ ਇਸਨੂੰ ਭਾਸ਼ਾਈ ਟਾਸਕਾਂ ਵਿੱਚ ਆਪਣੀ ਰਵਾਨਗੀ, ਇਕਸਾਰਤਾ ਅਤੇ ਸ਼ੁੱਧਤਾ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਸਮਰੱਥ ਬਣਾਇਆ ਜਾਂਦਾ ਹੈ।
ਬੈਂਚਮਾਰਕ ਨਤੀਜਿਆਂ ਅਤੇ ਮੁਲਾਂਕਣ ਦੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਜਾਂਚ ਪੜਤਾਲ
Llama Nemotron Nano VL ਨੇ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਮਾਨਤਾ ਪ੍ਰਾਪਤ OCRBench v2 ਬੈਂਚਮਾਰਕ ‘ਤੇ ਸਖ਼ਤ ਮੁਲਾਂਕਣ ਕੀਤਾ, ਇੱਕ ਚੰਗੀ ਤਰ·ਾਂ ਸਮੀਖਿਆ ਪ੍ਰਕਿਰਿਆ ਜਿਸਨੂੰ ਦਸਤਾਵੇਜ਼-ਪੱਧਰ ਦੀ ਵਿਜ਼ਨ-ਲੈਂਗੂਏਜ ਸਮਝਣ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਸਾਵਧਾਨੀ ਨਾਲ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਬਣਾਇਆ ਗਿਆ ਹੈ। ਬੈਂਚਮਾਰਕ ਜ਼ਿੰਮੇਵਾਰੀਆਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਲੜੀ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ OCR, ਟੇਬਲ ਪਾਰਸਿੰਗ ਅਤੇ ਡਾਇਗ੍ਰਾਮ ਸੋਚ ਸ਼ਾਮਲ ਹੈ, ਜੋ ਵਿਭਿੰਨ ਦਸਤਾਵੇਜ਼ ਪ੍ਰੋਸੈਸਿੰਗ ਨਿਰਧਾਰਣਾਂ ਵਿੱਚ ਮਾਡਲ ਦੀਆਂ ਯੋਗਤਾਵਾਂ ਦਾ ਇੱਕ ਸੰਪੂਰਨ ਮੁਲਾਂਕਣ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।
OCRBench ਵਿੱਚ ਮਨੁੱਖੀ-ਪ੍ਰਮਾਣਿਤ QA ਜੋੜਿਆਂ ਦਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਸੰਗ੍ਰਹਿ ਸ਼ਾਮਲ ਹੈ, ਜੋ ਇਸਨੂੰ ਵਿਭਿੰਨ ਮਾਡਲਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੀ ਤੁਲਨਾ ਕਰਨ ਲਈ ਇੱਕ ਭਰੋਸੇਯੋਗ ਮਾਪਦੰਡ ਬਣਾਉਂਦਾ ਹੈ। ਇਹ ਤੱਥ ਕਿ QA ਜੋੜੇ ਮਨੁੱਖੀ-ਪ੍ਰਮਾਣਿਤ ਹਨ ਸ਼ੁੱਧ ਹੋਣ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਦੀ ਉੱਚ ਡਿਗਰੀ ਦੀ ਗਾਰੰਟੀ ਦਿੰਦੇ ਹਨ, ਮਾਡਲ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇੱਕ ਮਜ਼ਬੂਤ ਬੁਨਿਆਦ ਬਣਾਉਂਦੇ ਹਨ।
ਮੁਲਾਂਕਣ ਨਤੀਜੇ ਦੱਸਦੇ ਹਨ ਕਿ Llama Nemotron Nano VL OCRBench v2 ਬੈਂਚਮਾਰਕ ‘ਤੇ ਸੰਖੇਪ VLMs ਵਿੱਚ ਸਟੇਟ-ਆਫ-ਦੀ-ਆਰਟ ਸ਼ੁੱਧਤਾ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ। ਇਹ ਪ੍ਰਾਪਤੀ ਦਸਤਾਵੇਜ਼ ਸਮਝਣ ਦੇ ਨਿਰਧਾਰਣਾਂ ਵਿੱਚ ਮਾਡਲ ਦੇ ਉੱਚ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦੀ ਹੈ, ਇਸਨੂੰ ਖੇਤਰ ਵਿੱਚ ਇੱਕ ਪ੍ਰਮੁੱਖ ਦਾਅਵੇਦਾਰ ਵਜੋਂ ਸਥਿਤੀ ਦਿੰਦੀ ਹੈ। ਹੈਰਾਨੀਜਨਕ ਗੱਲ ਹੈ, ਇਸਦੀ ਕਾਰਜਕੁਸ਼ਲਤਾ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵੱਡੇ ਅਤੇ ਘੱਟ ਕੁਸ਼ਲ ਮਾਡਲ ਦੇ ਮੁਕਾਬਲੇ ਜ਼ਿਆਦਾ ਹੈ, ਖਾਸ ਕਰਕੇ ਜ਼ਿੰਮੇਵਾਰੀਆਂ ਵਿੱਚ ਜਿਹਨਾਂ ਵਿੱਚ ਢਾਂਚਾਗਤ ਡੇਟਾ (ਉਦਾਹਰਨ ਲਈ, ਟੇਬਲ ਅਤੇ ਕੁੰਜੀ-ਮੁੱਲ ਜੋੜੇ) ਨੂੰ ਕੱਢਣਾ ਸ਼ਾਮਲ ਹੈ ਅਤੇ ਲੇਆਉਟ-ਨਿਰਭਰ ਪੁੱਛਗਿੱਛਾਂ ਦੇ ਜਵਾਬ ਦੇਣਾ ਸ਼ਾਮਲ ਹੈ। ਇਹ ਮਾਡਲ ਦੀ ਕੁਸ਼ਲਤਾ ਅਤੇ ਸਕੇਲੇਬਿਲਟੀ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦਾ ਹੈ, ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਇਹ ਵਿਆਪਕ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਰੋਤਾਂ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਉੱਚ-ਪੱਧਰੀ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦਾ ਹੈ।
ਗੈਰ-ਅੰਗਰੇਜ਼ੀ ਦਸਤਾਵੇਜ਼ਾਂ ਅਤੇ ਘਟੀਆ ਸਕੈਨ ਗੁਣਵੱਤਾ ਵਾਲੇ ਦਸਤਾਵੇਜ਼ਾਂ ਵਿੱਚ ਸਫ਼ਲਤਾਪੂਰਵਕ ਆਮ ਬਣਾਉਣ ਦੀ ਮਾਡਲ ਦੀ ਸਮਰੱਥਾ ਅਸਲ-ਸੰਸਾਰ ਦੇ ਹਾਲਾਤਾਂ ਵਿੱਚ ਇਸਦੀ ਮਜ਼ਬੂਤੀ ਅਤੇ ਵਿਹਾਰਕ ਉਪਯੋਗਤਾ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦੀ ਹੈ। ਇਹ ਅਨੁਕੂਲਤਾ ਇਸਨੂੰ ਵਿਭਿੰਨ ਪ੍ਰਸੰਗਾਂ ਵਿੱਚ ਤੈਨਾਤੀ ਲਈ ਚੰਗੀ ਤਰ੍ਹਾਂ ਅਨੁਕੂਲ ਬਣਾਉਂਦੀ ਹੈ, ਜਿੱਥੇ ਇਸਨੂੰ ਵੱਖ-ਵੱਖ ਭਾਸ਼ਾਈ ਅਤੇ ਵਿਜ਼ੂਅਲ ਗੁਣਵੱਤਾਵਾਂ ਵਾਲੇ ਦਸਤਾਵੇਜ਼ਾਂ ਦਾ ਅਨੁਭਵ ਹੋ ਸਕਦਾ ਹੈ। ਘਟੀਆ ਸਕੈਨ ਗੁਣਵੱਤਾਵਾਂ ਨਾਲ ਨਜਿੱਠਣ ਦੀ ਸਮਰੱਥਾ ਖਾਸ ਤੌਰ ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਹੈ, ਕਿਉਂਕਿ ਇਹ ਮਾਡਲ ਨੂੰ ਅਸੰਗਤ ਜਾਂ ਪੁਰਾਣੇ ਦਸਤਾਵੇਜ਼ਾਂ ਨਾਲ ਨਜਿੱਠਣ ‘ਤੇ ਵੀ ਆਪਣੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਣ ਲਈ ਸਮਰੱਥ ਬਣਾਉਂਦੀ ਹੈ।
ਤੈਨਾਤੀ ਹਾਲਾਤਾਂ ਅਤੇ ਮਾਤਰਾਤਮਕ ਪ੍ਰਕਿਰਿਆਵਾਂ ‘ਤੇ ਵਿਸਥਾਰ ਕਰਨਾ
Llama Nemotron Nano VL ਨੂੰ ਕਾਰਜਸ਼ੀਲ ਤੈਨਾਤੀ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਜੋ ਸਰਵਰ ਅਤੇ ਐਜ ਇਨਫਰੈਂਸ ਦੋਵਾਂ ਹਾਲਾਤਾਂ ਨੂੰ ਅਨੁਕੂਲਿਤ ਕਰਦਾ ਹੈ। ਇਹ ਬਹੁਪੱਖੀਤਾ ਇਸਨੂੰ ਕਲਾਉਡ-ਅਧਾਰਿਤ ਸਰਵਰਾਂ ਤੋਂ ਲੈ ਕੇ ਸਰੋਤ-ਪ੍ਰਤੀਬੰਧਿਤ ਐਜ ਡਿਵਾਈਸਾਂ ਤੱਕ, ਪ੍ਰਸੰਗਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਲੜੀ ਵਿੱਚ ਤੈਨਾਤ ਕਰਨ ਲਈ ਸਮਰੱਥ ਬਣਾਉਂਦੀ ਹੈ।
NVIDIA ਇੱਕ ਮਾਤਰਾਤਮਕ 4-ਬਿੱਟ ਵਰਜ਼ਨ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ, TinyChat ਅਤੇ TensorRT-LLM ਨਾਲ ਉਤਪਾਦਕ ਇਨਫਰੈਂਸ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦਾ ਹੈ। ਇਹ ਮਾਤਰਾਤਮਕ ਵਰਜ਼ਨ Jetson Orin ਅਤੇ ਹੋਰ ਸਰੋਤ-ਪ੍ਰਤੀਬੰਧਿਤ ਸੈਟਿੰਗਾਂ ਦੇ ਅਨੁਕੂਲ ਵੀ ਹੈ, ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਲੜੀ ਲਈ ਇਸਦੀ ਉਪਯੋਗਤਾ ਨੂੰ ਵਧਾਉਂਦਾ ਹੈ। ਮਾਤਰਾਤਮਕਕਰਣ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਅਨੁਕੂਲਤਾ ਦੀ ਵਿਧੀ ਹੈ ਜੋ ਮਾਡਲ ਦੇ ਆਕਾਰ ਅਤੇ ਕੰਪਿਊਟੇਸ਼ਨਲ ਲੋੜਾਂ ਨੂੰ ਘਟਾਉਂਦੀ ਹੈ, ਇਸਨੂੰ ਪ੍ਰਤਿਬੰਧਿਤ ਹਾਰਡਵੇਅਰ ਸਮਰੱਥਾਵਾਂ ਵਾਲੇ ਡਿਵਾਈਸਾਂ ‘ਤੇ ਕਾਫ਼ੀ ਜ਼ਿਆਦਾ ਤੈਨਾਤ ਕਰਨ ਯੋਗ ਬਣਾਉਂਦੀ ਹੈ।
TinyChat ਅਤੇ TensorRT-LLM ਨਾਲ ਮਾਡਲ ਦੀ ਅਨੁਕੂਲਤਾ ਮੌਜੂਦਾ ਵਰਕਫਲੋ ਵਿੱਚ ਆਸਾਨ ਏਕੀਕਰਣ ਦੀ ਸਹੂਲਤ ਦਿੰਦੀ ਹੈ, ਗਾਹਕਾਂ ਨੂੰ ਉਹਨਾਂ ਦੇ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸੋਧਾਂ ਕੀਤੇ ਬਿਨਾਂ Llama Nemotron Nano VL ਦੇ ਲਾਭਾਂ ਦਾ ਲਾਭ ਲੈਣ ਲਈ ਸਮਰੱਥ ਬਣਾਉਂਦੀ ਹੈ। ਏਕੀਕਰਣ ਦੀ ਇਹ ਸਾਦਗੀ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਲਾਭ ਹੈ, ਕਿਉਂਕਿ ਇਹ ਐਂਟਰੀ ਵਿੱਚ ਰੁਕਾਵਟ ਨੂੰ ਘਟਾਉਂਦੀ ਹੈ ਅਤੇ ਮਾਡਲ ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਅਪਣਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ।
ਇਸ ਤੋਂ ਇਲਾਵਾ, Jetson Orin ਅਤੇ ਹੋਰ ਸਰੋਤ-ਪ੍ਰਤੀਬੰਧਿਤ ਸੈਟਿੰਗਾਂ ਨਾਲ ਮਾਡਲ ਦੀ ਅਨੁਕੂਲਤਾ ਐਜ ਕੰਪਿਊਟਿੰਗ ਦੇ ਹਾਲਾਤਾਂ ਵਿੱਚ ਇਸਦੀ ਸੰਭਾਵਿਤ ਤੈਨਾਤੀਆਂ ਦਾ ਵਿਸਤਾਰ ਕਰਦੀ ਹੈ, ਜਿੱਥੇ ਇਸਨੂੰ ਪ੍ਰਤਿਬੰਧਿਤ ਪਾਵਰ ਅਤੇ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਮਰੱਥਾਵਾਂ ਵਾਲੇ ਡਿਵਾਈਸਾਂ ‘ਤੇ ਤੈਨਾਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਇਹ ਸਮਾਰਟਫ਼ੋਨ, ਟੈਬਲੈੱਟ ਅਤੇ ਐਮਬੈੱਡਡ ਸਿਸਟਮ ਵਰਗੇ ਡਿਵਾਈਸਾਂ ‘ਤੇ ਅਸਲ-ਸਮੇਂ ਦੇ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਸਮਝਣ ਲਈ ਨਵੇਂ ਮੌਕੇ ਖੋਲ੍ਹਦਾ ਹੈ।
ਮੁੱਖ ਤਕਨੀਕੀ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੀ ਵਿਸਤ੍ਰਿਤ ਜਾਂਚ
Llama Nemotron Nano VL ਵਿੱਚ ਕਈ ਤਰ੍ਹਾਂ ਦੇ ਤਕਨੀਕੀ ਵਿਕਲਪ ਹਨ ਜੋ ਇਸਦੀ ਕੁਸ਼ਲਤਾ, ਬਹੁਪੱਖਤਾ ਅਤੇ ਤੈਨਾਤੀ ਦੀ ਸੌਖ ਨੂੰ ਵਧਾਉਂਦੇ ਹਨ। ਇਹ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਐਪਲੀਕੇਸ਼ਨ ਦੀਆਂ ਜ਼ਰੂਰਤਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਲੜੀ ਨੂੰ ਪੂਰਾ ਕਰਦੀਆਂ ਹਨ, ਇਸਨੂੰ ਵਿਭਿੰਨ ਦਸਤਾਵੇਜ਼ ਸਮਝਣ ਦੇ ਸੌਂਪਣਾਂ ਲਈ ਇੱਕ ਲਚਕਦਾਰ ਹੱਲ ਬਣਾਉਂਦੀਆਂ ਹਨ।
ਮਾਡਿਊਲਰ NIM ਸਪੋਰਟ API ਏਕੀਕਰਣ ਨੂੰ ਸਰਲ ਬਣਾਉਂਦਾ ਹੈ, ਮਾਈਕ੍ਰੋਸਰਵਿਸ ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ ਆਸਾਨ ਏਕੀਕਰਣ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦਾ ਹੈ। NIM (NVIDIA ਇਨਫਰੈਂਸ ਮਾਈਕ੍ਰੋਸਰਵਿਸ) ਇੱਕ ਕੰਟੇਨਰਾਈਜ਼ਡ ਤੈਨਾਤੀ ਫਾਰਮੈਟ ਹੈ ਜੋ ਇਨਫਰੈਂਸ ਸਮਰੱਥਾਵਾਂ ਤੱਕ ਪਹੁੰਚ ਕਰਨ ਲਈ ਇੱਕ ਮਿਆਰੀ ਇੰਟਰਫੇਸ ਪੈਦਾ ਕਰਦਾ ਹੈ। ਇਹ ਮਾਡਿਊਲਰਿਟੀ ਖਾਸ ਤੌਰ ‘ਤੇ ਗੁੰਝਲਦਾਰ, ਮਾਈਕ੍ਰੋਸਰਵਿਸ-ਅਧਾਰਿਤ ਸਿਸਟਮਾਂ ਵਿੱਚ ਮਾਡਲ ਦੇ ਲਾਗੂਕਰਣ ਅਤੇ ਪ੍ਰਬੰਧਨ ਨੂੰ ਸਰਲ ਬਣਾਉਂਦੀ ਹੈ।
ONNX ਅਤੇ TensorRT ਐਕਸਪੋਰਟ ਲਈ ਮਾਡਲ ਦੀ ਸਹਾਇਤਾ ਹਾਰਡਵੇਅਰ ਐਕਸਲਰੇਸ਼ਨ ਅਨੁਕੂਲਤਾ ਦੀ ਗਾਰੰਟੀ ਦਿੰਦੀ ਹੈ, ਕਈਂ ਪਲੇਟਫਾਰਮਾਂ ‘ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਅਨੁਕੂਲਿਤ ਕਰਦੇ ਹਨ। ONNX (ਓਪਨ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਐਕਸਚੇਂਜ) ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਮਾਡਲਾਂ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਇੱਕ ਖੁੱਲ੍ਹਾ ਮਿਆਰ ਹੈ, ਜੋ ਵਿਭਿੰਨ ਫਰੇਮਵਰਕ ਅਤੇ ਹਾਰਡਵੇਅਰ ਪਲੇਟਫਾਰਮਾਂ ਦੇ ਵਿਚਕਾਰ ਇੰਟਰਓਪਰਬਿਲਟੀ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦਾ ਹੈ। TensorRT NVIDIA ਦਾ ਉੱਚ-ਪ੍ਰਦਰਸ਼ਨ ਇਨਫਰੈਂਸ ਆਪਟੀਮਾਈਜ਼ਰ ਅਤੇ ਰਨਟਾਈਮ ਹੈ, NVIDIA GPUs ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਪ੍ਰਵੇਗ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।
ਪ੍ਰੀਕੰਪਿਊਟਡ ਵਿਜ਼ਨ ਏਮਬੈਡਿੰਗਜ਼ ਵਿਕਲਪ ਵਿਜ਼ੂਅਲ ਜਾਣਕਾਰੀ ਨੂੰ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸ ਕਰਕੇ ਸਥਿਰ ਚਿੱਤਰ ਦਸਤਾਵੇਜ਼ਾਂ ਲਈ ਲੇਟੈਂਸੀ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ। ਇਹ ਅਨੁਕੂਲਤਾ ਖਾਸ ਤੌਰ ‘ਤੇ ਸਥਿਰ ਦਸਤਾਵੇਜ਼ਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਵਾਲੀਆਂ ਐਪਾਂ ਲਈ ਉਪਯੋਗੀ ਹੈ, ਜਿੱਥੇ ਵਿਜ਼ੂਅਲ ਏਮਬੈਡਿੰਗਜ਼ ਨੂੰ ਪ੍ਰੀਕੰਪਿਊਟ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ ਅਤੇ ਦੁਬਾਰਾ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਇਸ ਤਰ੍ਹਾਂ ਅਨੁਮਾਨ ਲਗਾਉਣ ਦੇ సమਾਂ (ਸਮਾਂ) ਨੂੰ ਘੱਟ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਸਮੁੱਚੇ ਉਪਭੋਗਤਾ ਅਨੁਭਵ ਨੂੰ ਵਧਾਇਆ ਜਾਂਦਾ ਹੈ। ਵਿਜ਼ਨ ਏਮਬੈਡਿੰਗਜ਼ ਨੂੰ ਪ੍ਰੀਕੰਪਿਊਟ ਕਰਕੇ, ਮਾਡਲ ਟੈਕਸਚੁਅਲ ਜਾਣਕਾਰੀ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਨ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰ ਸਕਦਾ ਹੈ, ਜਿਸਦੇ ਨਤੀਜੇ ਵਜੋਂ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਜ਼ਿਆਦਾ ਤੇਜ਼ੀ ਨਾਲ ਸਮਝਿਆ ਜਾਂਦਾ ਹੈ ਅਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸਮਝਿਆ ਜਾਂਦਾ ਹੈ।
ਰਣਨੀਤਕ ਮਹੱਤਤਾ ਅਤੇ ਅਸਲ-ਸੰਸਾਰ ਪ੍ਰਭਾਵ
NVIDIA ਦੇ Llama Nemotron Nano VL ਦੀ ਸ਼ੁਰੂਆਤ ਵਿਜ਼ਨ-ਲੈਂਗੂਏਜ ਮਾਡਲ ਦੇ ਖੇਤਰ ਵਿੱਚ ਇੱਕ ਧਿਆਨ ਦੇਣ ਯੋਗ ਸੁਧਾਰ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ, ਜੋ ਸ਼ੁੱਧਤਾ, ਕੁਸ਼ਲਤਾ ਅਤੇ ਲਚਕਤਾ ਦਾ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਸੁਮੇਲ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ। ਮਜ਼ਬੂਤ Llama 3.1 ਆਰਕੀਟੈਕਚਰ ਦਾ ਲਾਭ ਉਠਾ ਕੇ ਅਤੇ ਇੱਕ ਸੁਚਾਰੂ ਵਿਜ਼ਨ ਐਨਕੋਡਰ ਨੂੰ ਏਕੀਕ੍ਰਿਤ ਕਰਕੇ, ਇਹ ਮਾਡਲ ਗਾਹਕਾਂ ਨੂੰ ਬੇਮੇਲ ਕੁਸ਼ਲਤਾ ਨਾਲ ਦਸਤਾਵੇਜ਼-ਪੱਧਰ ਨੂੰ