ਫਾਈ-4-ਮਲਟੀਮੋਡਲ: ਆਨ-ਡਿਵਾਈਸ AI ਲਈ ਪਾਵਰਹਾਊਸ

ਫਾਈ ਪਰਿਵਾਰ ਦਾ ਵਿਸਤਾਰ: ਮਲਟੀਮੋਡਲ ਸਮਰੱਥਾਵਾਂ ਦੀ ਜਾਣ-ਪਛਾਣ

ਮਾਈਕ੍ਰੋਸਾਫਟ ਨੇ ਛੋਟੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (SLMs) ਦੇ ਇਸ ਵਧ ਰਹੇ ਖੇਤਰ ਵਿੱਚ ਫਾਈ ਪਰਿਵਾਰ ਦੇ ਰੂਪ ਵਿੱਚ ਯੋਗਦਾਨ ਦਿੱਤਾ ਹੈ, ਜੋ ਕਿ ਛੋਟੇ ਮਾਡਲਾਂ ਦਾ ਇੱਕ ਸੂਟ ਹੈ। ਫਾਈ ਦੀ ਚੌਥੀ ਪੀੜ੍ਹੀ ਨੂੰ ਸ਼ੁਰੂ ਵਿੱਚ ਦਸੰਬਰ ਵਿੱਚ ਪੇਸ਼ ਕੀਤਾ ਗਿਆ ਸੀ, ਅਤੇ ਹੁਣ, ਮਾਈਕ੍ਰੋਸਾਫਟ ਦੋ ਮਹੱਤਵਪੂਰਨ ਜੋੜਾਂ ਦੇ ਨਾਲ ਲਾਈਨਅੱਪ ਨੂੰ ਵਧਾ ਰਿਹਾ ਹੈ: Phi-4-multimodal ਅਤੇ Phi-4-mini। ਆਪਣੇ ਭੈਣ-ਭਰਾਵਾਂ ਦੇ ਅਨੁਸਾਰ, ਇਹ ਨਵੇਂ ਮਾਡਲ Azure AI Foundry, Hugging Face, ਅਤੇ Nvidia API ਕੈਟਾਲਾਗ ਰਾਹੀਂ, ਸਾਰੇ ਅਨੁਮਤੀਸ਼ੀਲ MIT ਲਾਇਸੈਂਸ ਦੇ ਅਧੀਨ ਆਸਾਨੀ ਨਾਲ ਪਹੁੰਚਯੋਗ ਹੋਣਗੇ।

Phi-4-multimodal, ਖਾਸ ਤੌਰ ‘ਤੇ, ਵੱਖਰਾ ਹੈ। ਇਹ ਇੱਕ 5.6 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਮਾਡਲ ਹੈ ਜੋ ‘ਮਿਕਸਚਰ-ਆਫ-LoRAs’ (ਲੋ-ਰੈਂਕ ਅਡੈਪਟੇਸ਼ਨ) ਨਾਮਕ ਇੱਕ ਵਧੀਆ ਤਕਨੀਕ ਦਾ ਲਾਭ ਉਠਾਉਂਦਾ ਹੈ। ਇਹ ਪਹੁੰਚ ਮਾਡਲ ਨੂੰ ਸਪੀਚ, ਵਿਜ਼ੂਅਲ ਇਨਪੁਟ ਅਤੇ ਟੈਕਸਟ ਡੇਟਾ ਨੂੰ ਇੱਕੋ ਸਮੇਂ ਪ੍ਰੋਸੈਸ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਉਂਦੀ ਹੈ। LoRAs ਖਾਸ ਕੰਮਾਂ ਵਿੱਚ ਇੱਕ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਵਧਾਉਣ ਲਈ ਇੱਕ ਨਵੀਂ ਵਿਧੀ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ, ਇਸਦੇ ਸਾਰੇ ਪੈਰਾਮੀਟਰਾਂ ਵਿੱਚ ਵਿਆਪਕ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਦੀ ਜ਼ਰੂਰਤ ਨੂੰ ਰੋਕਦੇ ਹੋਏ। ਇਸ ਦੀ ਬਜਾਏ, LoRA ਦੀ ਵਰਤੋਂ ਕਰਨ ਵਾਲੇ ਡਿਵੈਲਪਰ ਰਣਨੀਤਕ ਤੌਰ ‘ਤੇ ਮਾਡਲ ਵਿੱਚ ਨਵੇਂ ਵਜ਼ਨ ਦੀ ਇੱਕ ਛੋਟੀ ਜਿਹੀ ਗਿਣਤੀ ਪਾਉਂਦੇ ਹਨ। ਸਿਰਫ਼ ਇਹ ਨਵੇਂ ਪੇਸ਼ ਕੀਤੇ ਗਏ ਵਜ਼ਨ ਹੀ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਕਰਦੇ ਹਨ, ਨਤੀਜੇ ਵਜੋਂ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਤੇਜ਼ ਅਤੇ ਵਧੇਰੇ ਮੈਮੋਰੀ-ਕੁਸ਼ਲ ਪ੍ਰਕਿਰਿਆ ਹੁੰਦੀ ਹੈ। ਨਤੀਜਾ ਵਧੇਰੇ ਹਲਕੇ ਮਾਡਲਾਂ ਦਾ ਸੰਗ੍ਰਹਿ ਹੈ ਜੋ ਸਟੋਰ ਕਰਨ, ਸਾਂਝਾ ਕਰਨ ਅਤੇ ਤੈਨਾਤ ਕਰਨ ਵਿੱਚ ਬਹੁਤ ਸੌਖੇ ਹਨ।

ਇਸ ਕੁਸ਼ਲਤਾ ਦੇ ਪ੍ਰਭਾਵ ਕਾਫ਼ੀ ਹਨ। Phi-4-multimodal ਘੱਟ-ਲੇਟੈਂਸੀ ਅਨੁਮਾਨ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ – ਮਤਲਬ ਕਿ ਇਹ ਜਾਣਕਾਰੀ ‘ਤੇ ਕਾਰਵਾਈ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਬਹੁਤ ਜਲਦੀ ਜਵਾਬ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦਾ ਹੈ – ਜਦੋਂ ਕਿ ਆਨ-ਡਿਵਾਈਸ ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਲਈ ਅਨੁਕੂਲਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਇਹ ਕੰਪਿਊਟੇਸ਼ਨਲ ਓਵਰਹੈੱਡ ਵਿੱਚ ਇੱਕ ਨਾਟਕੀ ਕਮੀ ਦਾ ਅਨੁਵਾਦ ਕਰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਉਹਨਾਂ ਡਿਵਾਈਸਾਂ ‘ਤੇ ਵਧੀਆ AI ਐਪਲੀਕੇਸ਼ਨਾਂ ਨੂੰ ਚਲਾਉਣਾ ਸੰਭਵ ਹੋ ਜਾਂਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਪਹਿਲਾਂ ਲੋੜੀਂਦੀ ਪ੍ਰੋਸੈਸਿੰਗ ਸ਼ਕਤੀ ਦੀ ਘਾਟ ਸੀ।

ਸੰਭਾਵੀ ਵਰਤੋਂ ਦੇ ਮਾਮਲੇ: ਸਮਾਰਟਫ਼ੋਨਾਂ ਤੋਂ ਵਿੱਤੀ ਸੇਵਾਵਾਂ ਤੱਕ

Phi-4-multimodal ਦੀਆਂ ਸੰਭਾਵੀ ਐਪਲੀਕੇਸ਼ਨਾਂ ਵਿਭਿੰਨ ਅਤੇ ਦੂਰਗਾਮੀ ਹਨ। ਮਾਡਲ ਨੂੰ ਸਮਾਰਟਫ਼ੋਨਾਂ ‘ਤੇ ਸਹਿਜੇ ਹੀ ਕੰਮ ਕਰਦੇ ਹੋਏ, ਵਾਹਨਾਂ ਦੇ ਅੰਦਰ ਉੱਨਤ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹੋਏ, ਜਾਂ ਹਲਕੇ ਉਦਯੋਗਿਕ ਐਪਲੀਕੇਸ਼ਨਾਂ ਨੂੰ ਚਲਾਉਂਦੇ ਹੋਏ ਕਲਪਨਾ ਕਰੋ। ਇੱਕ ਮਜਬੂਰ ਕਰਨ ਵਾਲੀ ਉਦਾਹਰਨ ਇੱਕ ਬਹੁ-ਭਾਸ਼ਾਈ ਵਿੱਤੀ ਸੇਵਾਵਾਂ ਐਪਲੀਕੇਸ਼ਨ ਹੈ, ਜੋ ਵੱਖ-ਵੱਖ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਉਪਭੋਗਤਾ ਦੇ ਸਵਾਲਾਂ ਨੂੰ ਸਮਝਣ ਅਤੇ ਜਵਾਬ ਦੇਣ ਦੇ ਯੋਗ ਹੈ, ਦਸਤਾਵੇਜ਼ਾਂ ਵਰਗੇ ਵਿਜ਼ੂਅਲ ਡੇਟਾ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਰਦੀ ਹੈ, ਅਤੇ ਇਹ ਸਭ ਕੁਝ ਉਪਭੋਗਤਾ ਦੇ ਡਿਵਾਈਸ ‘ਤੇ ਕੁਸ਼ਲਤਾ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹੋਏ।

ਉਦਯੋਗ ਦੇ ਵਿਸ਼ਲੇਸ਼ਕ Phi-4-multimodal ਦੀ ਪਰਿਵਰਤਨਸ਼ੀਲ ਸੰਭਾਵਨਾ ਨੂੰ ਪਛਾਣ ਰਹੇ ਹਨ। ਇਸਨੂੰ ਡਿਵੈਲਪਰਾਂ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਵਜੋਂ ਦੇਖਿਆ ਜਾਂਦਾ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਉਹ ਜਿਹੜੇ ਮੋਬਾਈਲ ਡਿਵਾਈਸਾਂ ਜਾਂ ਵਾਤਾਵਰਣਾਂ ਲਈ AI-ਸੰਚਾਲਿਤ ਐਪਲੀਕੇਸ਼ਨਾਂ ਬਣਾਉਣ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹਨ ਜਿੱਥੇ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਰੋਤ ਸੀਮਤ ਹਨ।

ਫੋਰੈਸਟਰ ਦੇ ਵਾਈਸ ਪ੍ਰੈਜ਼ੀਡੈਂਟ ਅਤੇ ਪ੍ਰਿੰਸੀਪਲ ਐਨਾਲਿਸਟ, ਚਾਰਲੀ ਡਾਈ, ਟੈਕਸਟ, ਚਿੱਤਰ ਅਤੇ ਆਡੀਓ ਪ੍ਰੋਸੈਸਿੰਗ ਨੂੰ ਮਜ਼ਬੂਤ ਤਰਕ ਸਮਰੱਥਾਵਾਂ ਨਾਲ ਜੋੜਨ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ ਨੂੰ ਉਜਾਗਰ ਕਰਦੇ ਹਨ। ਉਹ ਇਸ ਗੱਲ ‘ਤੇ ਜ਼ੋਰ ਦਿੰਦੇ ਹਨ ਕਿ ਇਹ ਸੁਮੇਲ AI ਐਪਲੀਕੇਸ਼ਨਾਂ ਨੂੰ ਵਧਾਉਂਦਾ ਹੈ, ਡਿਵੈਲਪਰਾਂ ਅਤੇ ਉੱਦਮਾਂ ਨੂੰ “ਬਹੁਮੁਖੀ, ਕੁਸ਼ਲ ਅਤੇ ਸਕੇਲੇਬਲ ਹੱਲ” ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।

ਐਵਰੈਸਟ ਗਰੁੱਪ ਦੇ ਇੱਕ ਸਾਥੀ, ਯੁਗਲ ਜੋਸ਼ੀ, ਕੰਪਿਊਟ-ਸੀਮਤ ਵਾਤਾਵਰਣਾਂ ਵਿੱਚ ਤੈਨਾਤੀ ਲਈ ਮਾਡਲ ਦੀ ਅਨੁਕੂਲਤਾ ਨੂੰ ਸਵੀਕਾਰ ਕਰਦੇ ਹਨ। ਜਦੋਂ ਕਿ ਉਹ ਨੋਟ ਕਰਦੇ ਹਨ ਕਿ ਮੋਬਾਈਲ ਡਿਵਾਈਸ ਸਾਰੇ ਜਨਰੇਟਿਵ AI ਵਰਤੋਂ ਦੇ ਮਾਮਲਿਆਂ ਲਈ ਆਦਰਸ਼ ਪਲੇਟਫਾਰਮ ਨਹੀਂ ਹੋ ਸਕਦੇ ਹਨ, ਉਹ ਨਵੇਂ SLMs ਨੂੰ ਡੀਪਸੀਕ ਤੋਂ ਪ੍ਰੇਰਨਾ ਲੈਣ ਵਾਲੇ ਮਾਈਕ੍ਰੋਸਾਫਟ ਦੇ ਪ੍ਰਤੀਬਿੰਬ ਵਜੋਂ ਦੇਖਦੇ ਹਨ, ਇੱਕ ਹੋਰ ਪਹਿਲਕਦਮੀ ਜੋ ਵੱਡੇ ਪੈਮਾਨੇ ਦੇ ਕੰਪਿਊਟ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ‘ਤੇ ਨਿਰਭਰਤਾ ਨੂੰ ਘੱਟ ਕਰਨ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੈ।

ਬੈਂਚਮਾਰਕਿੰਗ ਕਾਰਗੁਜ਼ਾਰੀ: ਸ਼ਕਤੀਆਂ ਅਤੇ ਵਿਕਾਸ ਲਈ ਖੇਤਰ

ਜਦੋਂ ਬੈਂਚਮਾਰਕ ਕਾਰਗੁਜ਼ਾਰੀ ਦੀ ਗੱਲ ਆਉਂਦੀ ਹੈ, ਤਾਂ Phi-4-multimodal ਖਾਸ ਤੌਰ ‘ਤੇ ਸਪੀਚ ਪ੍ਰਸ਼ਨ ਉੱਤਰ (QA) ਕਾਰਜਾਂ ਵਿੱਚ, Gemini-2.0-Flash ਅਤੇ GPT-4o-realtime-preview ਵਰਗੇ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ ਕਾਰਗੁਜ਼ਾਰੀ ਦੇ ਅੰਤਰ ਨੂੰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦਾ ਹੈ। ਮਾਈਕ੍ਰੋਸਾਫਟ ਸਵੀਕਾਰ ਕਰਦਾ ਹੈ ਕਿ ਫਾਈ-4 ਮਾਡਲਾਂ ਦਾ ਛੋਟਾ ਆਕਾਰ ਸੁਭਾਵਕ ਤੌਰ ‘ਤੇ ਪ੍ਰਸ਼ਨ-ਉੱਤਰ ਲਈ ਤੱਥਾਂ ਦੇ ਗਿਆਨ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਣ ਦੀ ਉਹਨਾਂ ਦੀ ਸਮਰੱਥਾ ਨੂੰ ਸੀਮਤ ਕਰਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਕੰਪਨੀ ਮਾਡਲ ਦੇ ਭਵਿੱਖ ਦੇ ਦੁਹਰਾਓ ਵਿੱਚ ਇਸ ਸਮਰੱਥਾ ਨੂੰ ਵਧਾਉਣ ਲਈ ਚੱਲ ਰਹੇ ਯਤਨਾਂ ‘ਤੇ ਜ਼ੋਰ ਦਿੰਦੀ ਹੈ।

ਇਸ ਦੇ ਬਾਵਜੂਦ, Phi-4-multimodal ਹੋਰ ਖੇਤਰਾਂ ਵਿੱਚ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਸ਼ਕਤੀਆਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। ਖਾਸ ਤੌਰ ‘ਤੇ, ਇਹ ਗਣਿਤਿਕ ਅਤੇ ਵਿਗਿਆਨਕ ਤਰਕ, ਆਪਟੀਕਲ ਅੱਖਰ ਪਛਾਣ (OCR), ਅਤੇ ਵਿਜ਼ੂਅਲ ਸਾਇੰਸ ਤਰਕ ਸ਼ਾਮਲ ਕਾਰਜਾਂ ਵਿੱਚ ਕਈ ਪ੍ਰਸਿੱਧ LLMs, ਜਿਵੇਂ ਕਿ Gemini-2.0-Flash Lite ਅਤੇ Claude-3.5-Sonnet ਨੂੰ ਪਛਾੜਦਾ ਹੈ। ਇਹ ਵਿਦਿਅਕ ਸੌਫਟਵੇਅਰ ਤੋਂ ਲੈ ਕੇ ਵਿਗਿਆਨਕ ਖੋਜ ਸਾਧਨਾਂ ਤੱਕ, ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਲਈ ਮਹੱਤਵਪੂਰਨ ਸਮਰੱਥਾਵਾਂ ਹਨ।

Phi-4-mini: ਸੰਖੇਪ ਆਕਾਰ, ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਕਾਰਗੁਜ਼ਾਰੀ

Phi-4-multimodal ਦੇ ਨਾਲ, ਮਾਈਕ੍ਰੋਸਾਫਟ ਨੇ Phi-4-mini ਵੀ ਪੇਸ਼ ਕੀਤਾ। ਇਹ ਮਾਡਲ ਹੋਰ ਵੀ ਸੰਖੇਪ ਹੈ, ਜਿਸ ਵਿੱਚ 3.8 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਹਨ। ਇਹ ਇੱਕ ਸੰਘਣੇ ਡੀਕੋਡਰ-ਓਨਲੀ ਟ੍ਰਾਂਸਫਾਰਮਰ ਆਰਕੀਟੈਕਚਰ ‘ਤੇ ਅਧਾਰਤ ਹੈ ਅਤੇ ਇੱਕ ਪ੍ਰਭਾਵਸ਼ਾਲੀ 128,000 ਟੋਕਨਾਂ ਤੱਕ ਦੇ ਕ੍ਰਮਾਂ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ।

ਮਾਈਕ੍ਰੋਸਾਫਟ ਵਿੱਚ ਜਨਰੇਟਿਵ AI ਦੇ VP, ਵੇਈਜ਼ੂ ਚੇਨ, Phi-4-mini ਦੀ ਛੋਟੀ ਜਿਹੀ ਆਕਾਰ ਦੇ ਬਾਵਜੂਦ ਸ਼ਾਨਦਾਰ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਉਜਾਗਰ ਕਰਦੇ ਹਨ। ਨਵੇਂ ਮਾਡਲਾਂ ਦਾ ਵੇਰਵਾ ਦੇਣ ਵਾਲੇ ਇੱਕ ਬਲਾਗ ਪੋਸਟ ਵਿੱਚ, ਉਹ ਨੋਟ ਕਰਦੇ ਹਨ ਕਿ Phi-4-mini “ਟੈਕਸਟ-ਅਧਾਰਤ ਕਾਰਜਾਂ ਵਿੱਚ ਵੱਡੇ ਮਾਡਲਾਂ ਨੂੰ ਪਛਾੜਨਾ ਜਾਰੀ ਰੱਖਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਤਰਕ, ਗਣਿਤ, ਕੋਡਿੰਗ, ਨਿਰਦੇਸ਼-ਪਾਲਣਾ, ਅਤੇ ਫੰਕਸ਼ਨ-ਕਾਲਿੰਗ ਸ਼ਾਮਲ ਹਨ।” ਇਹ ਖਾਸ ਐਪਲੀਕੇਸ਼ਨ ਡੋਮੇਨਾਂ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਮੁੱਲ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਛੋਟੇ ਮਾਡਲਾਂ ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।

IBM ਦੇ ਗ੍ਰੇਨਾਈਟ ਅੱਪਡੇਟ: ਤਰਕ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਵਧਾਉਣਾ

SLMs ਵਿੱਚ ਤਰੱਕੀ ਸਿਰਫ਼ ਮਾਈਕ੍ਰੋਸਾਫਟ ਤੱਕ ਹੀ ਸੀਮਤ ਨਹੀਂ ਹੈ। IBM ਨੇ ਆਪਣੇ ਗ੍ਰੇਨਾਈਟ ਪਰਿਵਾਰ ਦੇ ਬੁਨਿਆਦੀ ਮਾਡਲਾਂ ਲਈ ਇੱਕ ਅੱਪਡੇਟ ਵੀ ਜਾਰੀ ਕੀਤਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਗ੍ਰੇਨਾਈਟ 3.2 2B ਅਤੇ 8B ਮਾਡਲ ਪੇਸ਼ ਕੀਤੇ ਗਏ ਹਨ। ਇਹ ਨਵੇਂ ਮਾਡਲ ਸੁਧਰੀ ਹੋਈ “ਚੇਨ ਆਫ਼ ਥੌਟ” ਸਮਰੱਥਾਵਾਂ ਦੀ ਵਿਸ਼ੇਸ਼ਤਾ ਰੱਖਦੇ ਹਨ, ਜੋ ਕਿ ਤਰਕ ਯੋਗਤਾਵਾਂ ਨੂੰ ਵਧਾਉਣ ਦਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਪਹਿਲੂ ਹੈ। ਇਹ ਸੁਧਾਰ ਮਾਡਲਾਂ ਨੂੰ ਉਹਨਾਂ ਦੇ ਪੂਰਵਜਾਂ ਦੇ ਮੁਕਾਬਲੇ ਉੱਤਮ ਕਾਰਗੁਜ਼ਾਰੀ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।

ਇਸ ਤੋਂ ਇਲਾਵਾ, IBM ਨੇ ਇੱਕ ਨਵਾਂ ਵਿਜ਼ਨ ਲੈਂਗੂਏਜ ਮਾਡਲ (VLM) ਪੇਸ਼ ਕੀਤਾ ਹੈ ਜੋ ਖਾਸ ਤੌਰ ‘ਤੇ ਦਸਤਾਵੇਜ਼ ਸਮਝਣ ਦੇ ਕੰਮਾਂ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਹ VLM DocVQA, ChartQA, AI2D, ਅਤੇ OCRBench1 ਵਰਗੇ ਬੈਂਚਮਾਰਕਾਂ ‘ਤੇ Llama 3.2 11B ਅਤੇ Pixtral 12B ਵਰਗੇ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵੱਡੇ ਮਾਡਲਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਜਾਂ ਉਸ ਤੋਂ ਵੱਧ ਜਾਂਦਾ ਹੈ। ਇਹ ਖਾਸ ਡੋਮੇਨਾਂ ਵਿੱਚ ਪ੍ਰਤੀਯੋਗੀ ਕਾਰਗੁਜ਼ਾਰੀ ਪ੍ਰਦਾਨ ਕਰਨ ਵਾਲੇ ਛੋਟੇ, ਵਿਸ਼ੇਸ਼ ਮਾਡਲਾਂ ਦੇ ਵਧ ਰਹੇ ਰੁਝਾਨ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ।

ਆਨ-ਡਿਵਾਈਸ AI ਦਾ ਭਵਿੱਖ: ਇੱਕ ਪੈਰਾਡਾਈਮ ਸ਼ਿਫਟ

Phi-4-multimodal ਅਤੇ Phi-4-mini ਦੀ ਸ਼ੁਰੂਆਤ, IBM ਦੇ ਗ੍ਰੇਨਾਈਟ ਅੱਪਡੇਟ ਦੇ ਨਾਲ, ਇੱਕ ਅਜਿਹੇ ਭਵਿੱਖ ਵੱਲ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ ਜਿੱਥੇ ਸ਼ਕਤੀਸ਼ਾਲੀ AI ਸਮਰੱਥਾਵਾਂ ਡਿਵਾਈਸਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ‘ਤੇ ਆਸਾਨੀ ਨਾਲ ਉਪਲਬਧ ਹਨ। ਇਸ ਤਬਦੀਲੀ ਦੇ ਵੱਖ-ਵੱਖ ਉਦਯੋਗਾਂ ਅਤੇ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਡੂੰਘੇ ਪ੍ਰਭਾਵ ਹਨ:

  • AI ਦਾ ਲੋਕਤੰਤਰੀਕਰਨ: ਛੋਟੇ, ਵਧੇਰੇ ਕੁਸ਼ਲ ਮਾਡਲ AI ਨੂੰ ਡਿਵੈਲਪਰਾਂ ਅਤੇ ਉਪਭੋਗਤਾਵਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਲਈ ਪਹੁੰਚਯੋਗ ਬਣਾਉਂਦੇ ਹਨ, ਨਾ ਕਿ ਸਿਰਫ਼ ਉਹਨਾਂ ਲਈ ਜਿਨ੍ਹਾਂ ਕੋਲ ਵੱਡੇ ਕੰਪਿਊਟਿੰਗ ਸਰੋਤਾਂ ਤੱਕ ਪਹੁੰਚ ਹੈ।
  • ਵਧੀ ਹੋਈ ਗੋਪਨੀਯਤਾ ਅਤੇ ਸੁਰੱਖਿਆ: ਆਨ-ਡਿਵਾਈਸ ਪ੍ਰੋਸੈਸਿੰਗ ਕਲਾਉਡ ਵਿੱਚ ਸੰਵੇਦਨਸ਼ੀਲ ਡੇਟਾ ਭੇਜਣ ਦੀ ਜ਼ਰੂਰਤ ਨੂੰ ਘਟਾਉਂਦੀ ਹੈ, ਗੋਪਨੀਯਤਾ ਅਤੇ ਸੁਰੱਖਿਆ ਨੂੰ ਵਧਾਉਂਦੀ ਹੈ।
  • ਸੁਧਰੀ ਹੋਈ ਜਵਾਬਦੇਹੀ ਅਤੇ ਲੇਟੈਂਸੀ: ਸਥਾਨਕ ਪ੍ਰੋਸੈਸਿੰਗ ਕਲਾਉਡ-ਅਧਾਰਤ AI ਨਾਲ ਜੁੜੇ ਦੇਰੀ ਨੂੰ ਖਤਮ ਕਰਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਤੇਜ਼ ਜਵਾਬ ਸਮਾਂ ਅਤੇ ਵਧੇਰੇ ਸਹਿਜ ਉਪਭੋਗਤਾ ਅਨੁਭਵ ਹੁੰਦਾ ਹੈ।
  • ਔਫਲਾਈਨ ਕਾਰਜਕੁਸ਼ਲਤਾ: ਆਨ-ਡਿਵਾਈਸ AI ਇੰਟਰਨੈਟ ਕਨੈਕਸ਼ਨ ਤੋਂ ਬਿਨਾਂ ਵੀ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ, ਰਿਮੋਟ ਜਾਂ ਘੱਟ-ਕਨੈਕਟੀਵਿਟੀ ਵਾਤਾਵਰਣਾਂ ਵਿੱਚ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਨਵੀਆਂ ਸੰਭਾਵਨਾਵਾਂ ਖੋਲ੍ਹਦਾ ਹੈ।
  • ਘੱਟ ਊਰਜਾ ਦੀ ਖਪਤ: ਛੋਟੇ ਮਾਡਲਾਂ ਨੂੰ ਕੰਮ ਕਰਨ ਲਈ ਘੱਟ ਊਰਜਾ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਜੋ ਮੋਬਾਈਲ ਡਿਵਾਈਸਾਂ ਲਈ ਲੰਬੀ ਬੈਟਰੀ ਲਾਈਫ ਅਤੇ ਘੱਟ ਵਾਤਾਵਰਣ ਪ੍ਰਭਾਵ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਉਂਦੀ ਹੈ।
  • ਐਜ ਕੰਪਿਊਟਿੰਗ ਐਪਲੀਕੇਸ਼ਨ: ਇਸ ਵਿੱਚ ਆਟੋਨੋਮਸ ਡਰਾਈਵਿੰਗ, ਸਮਾਰਟ ਮੈਨੂਫੈਕਚਰਿੰਗ, ਅਤੇ ਰਿਮੋਟ ਹੈਲਥਕੇਅਰ ਵਰਗੇ ਸੈਕਟਰ ਸ਼ਾਮਲ ਹਨ।

SLMs ਵਿੱਚ ਤਰੱਕੀ AI ਲੈਂਡਸਕੇਪ ਵਿੱਚ ਇੱਕ ਪੈਰਾਡਾਈਮ ਸ਼ਿਫਟ ਨੂੰ ਚਲਾ ਰਹੀ ਹੈ। ਜਦੋਂ ਕਿ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲ ਇੱਕ ਮਹੱਤਵਪੂਰਣ ਭੂਮਿਕਾ ਨਿਭਾਉਂਦੇ ਰਹਿੰਦੇ ਹਨ, ਫਾਈ ਪਰਿਵਾਰ ਵਰਗੇ ਸੰਖੇਪ, ਕੁਸ਼ਲ ਮਾਡਲਾਂ ਦਾ ਵਾਧਾ ਇੱਕ ਅਜਿਹੇ ਭਵਿੱਖ ਲਈ ਰਾਹ ਪੱਧਰਾ ਕਰ ਰਿਹਾ ਹੈ ਜਿੱਥੇ AI ਵਧੇਰੇ ਵਿਆਪਕ, ਪਹੁੰਚਯੋਗ ਅਤੇ ਸਾਡੇ ਰੋਜ਼ਾਨਾ ਜੀਵਨ ਵਿੱਚ ਏਕੀਕ੍ਰਿਤ ਹੈ। ਧਿਆਨ ਸਿਰਫ਼ ਆਕਾਰ ਤੋਂ ਕੁਸ਼ਲਤਾ, ਵਿਸ਼ੇਸ਼ਤਾ, ਅਤੇ ਉਹਨਾਂ ਡਿਵਾਈਸਾਂ ‘ਤੇ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਸ਼ਕਤੀਸ਼ਾਲੀ AI ਸਮਰੱਥਾਵਾਂ ਪ੍ਰਦਾਨ ਕਰਨ ਦੀ ਯੋਗਤਾ ਵੱਲ ਤਬਦੀਲ ਹੋ ਰਿਹਾ ਹੈ ਜਿਨ੍ਹਾਂ ਦੀ ਅਸੀਂ ਹਰ ਰੋਜ਼ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ। ਇਹ ਰੁਝਾਨ ਤੇਜ਼ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਹੈ, ਜਿਸ ਨਾਲ ਵੱਖ-ਵੱਖ ਸੈਕਟਰਾਂ ਵਿੱਚ ਹੋਰ ਵੀ ਨਵੀਨਤਾਕਾਰੀ ਐਪਲੀਕੇਸ਼ਨਾਂ ਅਤੇ AI ਨੂੰ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਅਪਣਾਇਆ ਜਾ ਸਕਦਾ ਹੈ। ਸਰੋਤ-ਸੀਮਤ ਡਿਵਾਈਸਾਂ ‘ਤੇ ਗੁੰਝਲਦਾਰ ਕੰਮ ਕਰਨ ਦੀ ਯੋਗਤਾ, ਜਿਵੇਂ ਕਿ ਮਲਟੀਮੋਡਲ ਇਨਪੁਟਸ ਨੂੰ ਸਮਝਣਾ, ਨਕਲੀ ਬੁੱਧੀ ਦੇ ਵਿਕਾਸ ਵਿੱਚ ਇੱਕ ਨਵਾਂ ਅਧਿਆਏ ਖੋਲ੍ਹਦਾ ਹੈ।
ਵਧਦੀ ਹੋਈ ਬੁੱਧੀਮਾਨ ਅਤੇ ਸਮਰੱਥ SLM ਬਣਾਉਣ ਦੀ ਦੌੜ ਜਾਰੀ ਹੈ, ਅਤੇ ਮਾਈਕ੍ਰੋਸਾਫਟ ਦੀ ਨਵੀਂ ਪੇਸ਼ਕਸ਼ ਇੱਕ ਵੱਡਾ ਕਦਮ ਹੈ।