AI ਕੁਸ਼ਲਤਾ ਬਾਰੇ ਮੁੜ ਵਿਚਾਰ: ਹਰ ਵੇਲੇ 100% ਦਿਮਾਗ ਨਹੀਂ ਚਾਹੀਦਾ

AI ਵਿਕਾਸ ਦੀ ਨਿਰੰਤਰ ਤਰੱਕੀ ਨੇ ਲਗਾਤਾਰ ਦਿਖਾਇਆ ਹੈ ਕਿ ਵੱਡੇ ਮਾਡਲ ਜ਼ਿਆਦਾ ਸਮਾਰਟ ਹੁੰਦੇ ਹਨ, ਪਰ ਉਹਨਾਂ ਦੀਆਂ ਕਾਰਜਸ਼ੀਲ ਮੰਗਾਂ ਵੀ ਵਧਦੀਆਂ ਹਨ। ਇਹ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਚੁਣੌਤੀ ਪੈਦਾ ਕਰਦਾ ਹੈ, ਖਾਸ ਕਰਕੇ ਉਹਨਾਂ ਖੇਤਰਾਂ ਵਿੱਚ ਜਿੱਥੇ ਉੱਨਤ AI ਚਿਪਸ ਤੱਕ ਸੀਮਤ ਪਹੁੰਚ ਹੈ। ਹਾਲਾਂਕਿ, ਭੂਗੋਲਿਕ ਰੁਕਾਵਟਾਂ ਤੋਂ ਇਲਾਵਾ, ਮਾਡਲ ਡਿਵੈਲਪਰਾਂ ਵਿੱਚ Mixture of Experts (MoE) ਆਰਕੀਟੈਕਚਰ ਨੂੰ ਨਵੀਨਤਾਕਾਰੀ ਕੰਪ੍ਰੈਸ਼ਨ ਤਕਨੀਕਾਂ ਨਾਲ ਅਪਣਾਉਣ ਦਾ ਇੱਕ ਵੱਡਾ ਰੁਝਾਨ ਹੈ। ਇਸ ਦਾ ਟੀਚਾ ਕੀ ਹੈ? ਇਹਨਾਂ ਵਿਸ਼ਾਲ Large Language Models (LLMs) ਨੂੰ ਤੈਨਾਤ ਕਰਨ ਅਤੇ ਚਲਾਉਣ ਲਈ ਲੋੜੀਂਦੇ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਰੋਤਾਂ ਨੂੰ ਬਹੁਤ ਘੱਟ ਕਰਨਾ। ChatGPT ਦੁਆਰਾ ਜਨਰੇਟਿਵ AI ਦੇ ਉਭਾਰ ਦੀ ਤੀਜੀ ਵਰ੍ਹੇਗੰਢ ਦੇ ਨੇੜੇ ਆਉਂਦੇ ਹੋਏ, ਉਦਯੋਗ ਆਖਰਕਾਰ ਇਹਨਾਂ ਪਾਵਰ-ਹੰਗਰੀ ਮਾਡਲਾਂ ਨੂੰ ਚਲਾਉਣ ਦੇ ਆਰਥਿਕ ਪ੍ਰਭਾਵਾਂ ‘ਤੇ ਗੰਭੀਰਤਾ ਨਾਲ ਵਿਚਾਰ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰ ਰਿਹਾ ਹੈ।

ਜਦੋਂ ਕਿ Mistral AI ਵਰਗੇ MoE ਮਾਡਲ ਕੁਝ ਸਮੇਂ ਤੋਂ ਮੌਜੂਦ ਹਨ, ਪਰ ਅਸਲ ਸਫਲਤਾ ਪਿਛਲੇ ਸਾਲ ਵਿੱਚ ਮਿਲੀ ਹੈ। ਅਸੀਂ Microsoft, Google, IBM, Meta, DeepSeek, ਅਤੇ Alibaba ਵਰਗੇ ਤਕਨੀਕੀ ਦਿੱਗਜਾਂ ਤੋਂ ਨਵੇਂ ਓਪਨ-ਸੋਰਸ LLMs ਦੀ ਇੱਕ ਲਹਿਰ ਵੇਖੀ ਹੈ, ਜੋ ਸਾਰੇ ਕਿਸੇ ਨਾ ਕਿਸੇ ਰੂਪ ਵਿੱਚ MoE ਆਰਕੀਟੈਕਚਰ ਦੀ ਵਰਤੋਂ ਕਰ ਰਹੇ ਹਨ। ਇਸ ਦੀ ਖਿੱਚ ਸਿੱਧੀ ਹੈ: MoE ਆਰਕੀਟੈਕਚਰ ਰਵਾਇਤੀ "ਗਹਿਣੇ" ਮਾਡਲ ਆਰਕੀਟੈਕਚਰਾਂ ਦੇ ਮੁਕਾਬਲੇ ਬਹੁਤ ਜ਼ਿਆਦਾ ਕੁਸ਼ਲ ਵਿਕਲਪ ਪੇਸ਼ ਕਰਦੇ ਹਨ।

ਮੈਮੋਰੀ ਸੀਮਾਵਾਂ ‘ਤੇ ਕਾਬੂ ਪਾਉਣਾ

MoE ਆਰਕੀਟੈਕਚਰ ਦੀ ਨੀਂਹ 1990 ਦੇ ਦਹਾਕੇ ਦੇ ਸ਼ੁਰੂ ਵਿੱਚ "Adaptive Mixtures of Local Experts" ਦੇ ਪ੍ਰਕਾਸ਼ਨ ਨਾਲ ਰੱਖੀ ਗਈ ਸੀ। ਇਸ ਦਾ ਮੂਲ ਵਿਚਾਰ ਇੱਕ ਵਿਸ਼ਾਲ ਮਾਡਲ ‘ਤੇ ਭਰੋਸਾ ਕਰਨ ਦੀ ਬਜਾਏ, ਕੰਮਾਂ ਨੂੰ ਇੱਕ ਜਾਂ ਇੱਕ ਤੋਂ ਵੱਧ ਵਿਸ਼ੇਸ਼ ਸਬ-ਮਾਡਲਾਂ ਜਾਂ "ਮਾਹਿਰਾਂ" ਨੂੰ ਵੰਡਣਾ ਹੈ, ਜਿਸ ਨੂੰ ਡਾਟਾ ਦੇ ਵਿਆਪਕ ਸਪੈਕਟ੍ਰਮ ਵਿੱਚ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ।

ਸਿਧਾਂਤਕ ਤੌਰ ‘ਤੇ, ਹਰੇਕ ਮਾਹਰ ਨੂੰ ਕੋਡਿੰਗ ਅਤੇ ਗਣਿਤ ਤੋਂ ਲੈ ਕੇ ਰਚਨਾਤਮਕ ਲਿਖਤ ਤੱਕ, ਇੱਕ ਖਾਸ ਡੋਮੇਨ ਲਈ ਸਾਵਧਾਨੀ ਨਾਲ ਅਨੁਕੂਲਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਇਹ ਗੱਲ ਧਿਆਨ ਦੇਣ ਯੋਗ ਹੈ ਕਿ ਜ਼ਿਆਦਾਤਰ ਮਾਡਲ ਡਿਵੈਲਪਰ ਆਪਣੇ MoE ਮਾਡਲਾਂ ਦੇ ਅੰਦਰ ਖਾਸ ਮਾਹਿਰਾਂ ਬਾਰੇ ਸੀਮਤ ਵੇਰਵੇ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ, ਅਤੇ ਮਾਹਿਰਾਂ ਦੀ ਗਿਣਤੀ ਮਾਡਲ ਤੋਂ ਮਾਡਲ ਵਿੱਚ ਵੱਖਰੀ ਹੁੰਦੀ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਹੈ ਕਿ ਸਮੁੱਚੇ ਮਾਡਲ ਦਾ ਸਿਰਫ ਇੱਕ ਹਿੱਸਾ ਕਿਸੇ ਵੀ ਸਮੇਂ ਸਰਗਰਮੀ ਨਾਲ ਜੁੜਿਆ ਹੁੰਦਾ ਹੈ।

DeepSeek ਦੇ V3 ਮਾਡਲ ‘ਤੇ ਗੌਰ ਕਰੋ, ਜਿਸ ਵਿੱਚ ਇੱਕ ਸਾਂਝੇ ਮਾਹਰ ਦੇ ਨਾਲ 256 ਰੂਟ ਕੀਤੇ ਮਾਹਰ ਸ਼ਾਮਲ ਹਨ। ਟੋਕਨ ਪ੍ਰੋਸੈਸਿੰਗ ਦੌਰਾਨ, ਸਿਰਫ ਅੱਠ ਰੂਟ ਕੀਤੇ ਮਾਹਰ, ਅਤੇ ਸਾਂਝੇ ਕੀਤੇ ਮਾਹਰ, ਨੂੰ ਸਰਗਰਮ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਇਸ ਚੋਣਵੇਂ ਐਕਟੀਵੇਸ਼ਨ ਦਾ ਮਤਲਬ ਹੈ ਕਿ MoE ਮਾਡਲ ਹਮੇਸ਼ਾ ਸਮਾਨ ਆਕਾਰ ਦੇ ਗਹਿਣੇ ਮਾਡਲਾਂ ਦੇ ਬਰਾਬਰ ਗੁਣਵੱਤਾ ਪ੍ਰਾਪਤ ਨਹੀਂ ਕਰ ਸਕਦੇ ਹਨ। ਉਦਾਹਰਨ ਲਈ, Alibaba ਦਾ Qwen3-30B-A3B MoE ਮਾਡਲ, Alibaba ਦੇ ਬੈਂਚਮਾਰਕ ਟੈਸਟਾਂ ਵਿੱਚ ਲਗਾਤਾਰ ਗਹਿਣੇ Qwen3-32B ਮਾਡਲ ਤੋਂ ਘੱਟ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ।

ਹਾਲਾਂਕਿ, MoE ਆਰਕੀਟੈਕਚਰ ਦੁਆਰਾ ਪੇਸ਼ ਕੀਤੀ ਗਈ ਕਾਫ਼ੀ ਕੁਸ਼ਲਤਾ ਲਾਭਾਂ ਦੇ ਵਿਰੁੱਧ ਗੁਣਵੱਤਾ ਵਿੱਚ ਇਸ ਮਾਮੂਲੀ ਗਿਰਾਵਟ ਨੂੰ ਪ੍ਰਸੰਗਿਕ ਬਣਾਉਣਾ ਜ਼ਰੂਰੀ ਹੈ। ਸਰਗਰਮ ਪੈਰਾਮੀਟਰਾਂ ਵਿੱਚ ਕਮੀ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਮੈਮੋਰੀ ਬੈਂਡਵਿਡਥ ਦੀਆਂ ਜ਼ਰੂਰਤਾਂ ਹੁਣ ਮਾਡਲ ਦੇ ਭਾਰ ਨੂੰ ਸਟੋਰ ਕਰਨ ਲਈ ਲੋੜੀਂਦੀ ਸਮਰੱਥਾ ਦੇ ਸਿੱਧੇ ਅਨੁਪਾਤਕ ਨਹੀਂ ਹਨ। ਅਸਲ ਵਿੱਚ, ਜਦੋਂ ਕਿ MoE ਮਾਡਲਾਂ ਨੂੰ ਅਜੇ ਵੀ ਕਾਫ਼ੀ ਮੈਮੋਰੀ ਦੀ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ, ਉਹਨਾਂ ਨੂੰ ਜ਼ਰੂਰੀ ਤੌਰ ‘ਤੇ ਸਭ ਤੋਂ ਤੇਜ਼ ਅਤੇ ਸਭ ਤੋਂ ਮਹਿੰਗੀ High Bandwidth Memory (HBM) ਹੋਣ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ।

ਆਓ ਇਸਨੂੰ ਇੱਕ ਤੁਲਨਾ ਨਾਲ ਦਰਸਾਉਂਦੇ ਹਾਂ। Meta ਦੇ ਸਭ ਤੋਂ ਵੱਡੇ "ਗਹਿਣੇ" ਮਾਡਲ, Llama 3.1 405B, ਅਤੇ Llama 4 Maverick, ਇੱਕ ਤੁਲਨਾਤਮਕ ਮਾਡਲ ‘ਤੇ ਗੌਰ ਕਰੋ ਜੋ 17 ਬਿਲੀਅਨ ਸਰਗਰਮ ਪੈਰਾਮੀਟਰਾਂ ਦੇ ਨਾਲ ਇੱਕ MoE ਆਰਕੀਟੈਕਚਰ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਜਦੋਂ ਕਿ ਬਹੁਤ ਸਾਰੇ ਕਾਰਕ, ਜਿਵੇਂ ਕਿ ਬੈਚ ਆਕਾਰ, ਫਲੋਟਿੰਗ-ਪੁਆਇੰਟ ਪ੍ਰਦਰਸ਼ਨ, ਅਤੇ ਕੁੰਜੀ-ਮੁੱਲ ਕੈਸ਼ਿੰਗ, ਅਸਲ-ਸੰਸਾਰ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਉਂਦੇ ਹਨ, ਅਸੀਂ ਦਿੱਤੀ ਗਈ ਸ਼ੁੱਧਤਾ ‘ਤੇ ਗੀਗਾਬਾਈਟਸ ਵਿੱਚ ਮਾਡਲ ਦੇ ਆਕਾਰ (8-ਬਿੱਟ ਮਾਡਲਾਂ ਲਈ ਪ੍ਰਤੀ ਪੈਰਾਮੀਟਰ 1 ਬਾਈਟ) ਨੂੰ ਇੱਕ ਬੈਚ ਆਕਾਰ ‘ਤੇ ਪ੍ਰਤੀ ਸਕਿੰਟ ਟੀਚਾ ਟੋਕਨਾਂ ਨਾਲ ਗੁਣਾ ਕਰਕੇ ਘੱਟੋ-ਘੱਟ ਬੈਂਡਵਿਡਥ ਲੋੜਾਂ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾ ਸਕਦੇ ਹਾਂ।

Llama 3.1 405B ਦੇ 8-ਬਿੱਟ ਕੁਆਂਟਾਈਜ਼ਡ ਸੰਸਕਰਣ ਨੂੰ ਚਲਾਉਣ ਲਈ 405 GB ਤੋਂ ਵੱਧ vRAM ਅਤੇ 50 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ ‘ਤੇ ਟੈਕਸਟ ਜਨਰੇਟ ਕਰਨ ਲਈ ਘੱਟੋ ਘੱਟ 20 TB/s ਮੈਮੋਰੀ ਬੈਂਡਵਿਡਥ ਦੀ ਲੋੜ ਹੋਵੇਗੀ। Nvidia ਦੇ HGX H100-ਅਧਾਰਤ ਸਿਸਟਮ, ਜਿਨ੍ਹਾਂ ਦੀ ਕੀਮਤ ਹਾਲ ਹੀ ਵਿੱਚ $300,000 ਜਾਂ ਵੱਧ ਸੀ, ਨੇ ਸਿਰਫ 640 GB HBM3 ਅਤੇ ਲਗਭਗ 26.8 TB/s ਦੀ ਕੁੱਲ ਬੈਂਡਵਿਡਥ ਪ੍ਰਦਾਨ ਕੀਤੀ। ਪੂਰੇ 16-ਬਿੱਟ ਮਾਡਲ ਨੂੰ ਚਲਾਉਣ ਲਈ ਇਹਨਾਂ ਵਿੱਚੋਂ ਘੱਟੋ-ਘੱਟ ਦੋ ਸਿਸਟਮਾਂ ਦੀ ਲੋੜ ਹੋਵੇਗੀ।

ਇਸਦੇ ਉਲਟ, Llama 4 Maverick, ਜਦੋਂ ਕਿ ਉਹੀ ਮਾਤਰਾ ਵਿੱਚ ਮੈਮੋਰੀ ਦੀ ਖਪਤ ਕਰਦਾ ਹੈ, ਤੁਲਨਾਤਮਕ ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ 1 TB/s ਤੋਂ ਘੱਟ ਬੈਂਡਵਿਡਥ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਹ ਇਸ ਲਈ ਹੈ ਕਿਉਂਕਿ ਮਾਡਲ ਮਾਹਿਰਾਂ ਦੇ ਸਿਰਫ 17 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਸਰਗਰਮੀ ਨਾਲ ਆਉਟਪੁੱਟ ਜਨਰੇਟ ਕਰਨ ਵਿੱਚ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ। ਇਹ ਉਸੇ ਹਾਰਡਵੇਅਰ ‘ਤੇ ਟੈਕਸਟ ਜਨਰੇਸ਼ਨ ਸਪੀਡ ਵਿੱਚ ਇੱਕ ਦਰਜਾ-ਦੇ-ਮਾਗਨੀਟਿਊਡ ਵਾਧਾ ਕਰਦਾ ਹੈ।

ਇਸਦੇ ਉਲਟ, ਜੇਕਰ ਸਿਰਫ਼ ਪ੍ਰਦਰਸ਼ਨ ਇੱਕ ਮੁੱਖ ਚਿੰਤਾ ਨਹੀਂ ਹੈ, ਤਾਂ ਇਹਨਾਂ ਵਿੱਚੋਂ ਬਹੁਤ ਸਾਰੇ ਮਾਡਲਾਂ ਨੂੰ ਹੁਣ ਸਸਤੇ, ਪਰ ਹੌਲੀ, GDDR6, GDDR7, ਜਾਂ ਇੱਥੋਂ ਤੱਕ ਕਿ DDR ਮੈਮੋਰੀ ‘ਤੇ ਵੀ ਚਲਾਇਆ ਜਾ ਸਕਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ Intel ਦੇ ਨਵੀਨਤਮ Xeons ਵਿੱਚ ਦੇਖਿਆ ਗਿਆ ਹੈ।

Nvidia ਦੇ ਨਵੇਂ RTX Pro ਸਰਵਰ, ਜਿਸਦਾ Computex ‘ਤੇ ਐਲਾਨ ਕੀਤਾ ਗਿਆ ਸੀ, ਇਸ ਸਥਿਤੀ ਦੇ ਅਨੁਕੂਲ ਹਨ। ਮਹਿੰਗੇ ਅਤੇ ਪਾਵਰ-ਹੰਗਰੀ HBM ‘ਤੇ ਭਰੋਸਾ ਕਰਨ ਦੀ ਬਜਾਏ ਜਿਸ ਲਈ ਐਡਵਾਂਸਡ ਪੈਕੇਜਿੰਗ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਇਹਨਾਂ ਸਿਸਟਮਾਂ ਵਿੱਚ ਅੱਠ RTX Pro 6000 GPUs ਵਿੱਚੋਂ ਹਰੇਕ 96 GB GDDR7 ਮੈਮੋਰੀ ਨਾਲ ਲੈਸ ਹੈ, ਉਸੇ ਕਿਸਮ ਦੀ ਜੋ ਆਧੁਨਿਕ ਗੇਮਿੰਗ ਕਾਰਡਾਂ ਵਿੱਚ ਪਾਈ ਜਾਂਦੀ ਹੈ।

ਇਹ ਸਿਸਟਮ 768 GB ਤੱਕ vRAM ਅਤੇ 12.8 TB/s ਦੀ ਕੁੱਲ ਬੈਂਡਵਿਡਥ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ, ਜੋ ਕਿ Llama 4 Maverick ਨੂੰ ਸੈਂਕੜੇ ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ ‘ਤੇ ਚਲਾਉਣ ਲਈ ਕਾਫ਼ੀ ਹੈ। ਜਦੋਂ ਕਿ Nvidia ਨੇ ਕੀਮਤਾਂ ਦਾ ਖੁਲਾਸਾ ਨਹੀਂ ਕੀਤਾ ਹੈ, ਇਹਨਾਂ ਕਾਰਡਾਂ ਦਾ ਵਰਕਸਟੇਸ਼ਨ ਐਡੀਸ਼ਨ ਲਗਭਗ $8,500 ਵਿੱਚ ਵਿਕਦਾ ਹੈ, ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਇਹਨਾਂ ਸਰਵਰਾਂ ਦੀ ਕੀਮਤ ਵਰਤੇ ਗਏ HGX H100 ਦੀ ਲਾਗਤ ਦੇ ਅੱਧੇ ਤੋਂ ਵੀ ਘੱਟ ਹੋ ਸਕਦੀ ਹੈ।

ਹਾਲਾਂਕਿ, MoE ਦਾ ਮਤਲਬ HBM-ਸਟੈਕਡ GPUs ਦਾ ਅੰਤ ਨਹੀਂ ਹੈ। Llama 4 Behemoth ਤੋਂ ਉਮੀਦ ਕਰੋ, ਮੰਨ ਲਓ ਕਿ ਇਹ ਕਦੇ ਜਹਾਜ਼ਾਂ ਦਾ, ਇਸਦੇ ਵੱਡੇ ਆਕਾਰ ਦੇ ਕਾਰਨ GPUs ਦੇ ਰੈਕ ਦੀ ਲੋੜ ਹੋਵੇਗੀ।

ਜਦੋਂ ਕਿ ਇਸ ਵਿੱਚ Llama 3.1 405B ਦੇ ਮੁਕਾਬਲੇ ਲਗਭਗ ਅੱਧੇ ਸਰਗਰਮ ਪੈਰਾਮੀਟਰ ਹਨ, ਇਸ ਵਿੱਚ ਕੁੱਲ 2 ਟ੍ਰਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਹਨ। ਵਰਤਮਾਨ ਵਿੱਚ, ਮਾਰਕੀਟ ਵਿੱਚ ਇੱਕ ਵੀ ਰਵਾਇਤੀ GPU ਸਰਵਰ ਨਹੀਂ ਹੈ ਜੋ ਪੂਰੇ 16-ਬਿੱਟ ਮਾਡਲ ਅਤੇ ਇੱਕ ਮਿਲੀਅਨ ਜਾਂ ਇਸ ਤੋਂ ਵੱਧ ਟੋਕਨਾਂ ਦੀ ਇੱਕ ਸੰਦਰਭ ਵਿੰਡੋ ਨੂੰ ਅਨੁਕੂਲਿਤ ਕਰ ਸਕੇ।

AI ਵਿੱਚ CPU ਪੁਨਰਜਾਗਰਣ?

ਖਾਸ ਐਪਲੀਕੇਸ਼ਨ ‘ਤੇ ਨਿਰਭਰ ਕਰਦਿਆਂ, GPU ਹਮੇਸ਼ਾ ਜ਼ਰੂਰੀ ਨਹੀਂ ਹੋ ਸਕਦਾ, ਖਾਸ ਕਰਕੇ ਉਹਨਾਂ ਖੇਤਰਾਂ ਵਿੱਚ ਜਿੱਥੇ ਉੱਚ-ਅੰਤ ਦੇ ਐਕਸਲੇਟਰਾਂ ਤੱਕ ਪਹੁੰਚ ਸੀਮਤ ਹੈ।

Intel ਨੇ ਅਪ੍ਰੈਲ ਵਿੱਚ 8800 MT/s MCRDIMMs ਨਾਲ ਲੈਸ ਇੱਕ ਡੁਅਲ-ਸਾਕਟ Xeon 6 ਪਲੇਟਫਾਰਮ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਇਸ ਸੈੱਟਅੱਪ ਨੇ Llama 4 Maverick ਵਿੱਚ 240 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ ਦੀ ਥ੍ਰੂਪੁੱਟ ਪ੍ਰਾਪਤ ਕੀਤੀ, ਪ੍ਰਤੀ ਟੋਕਨ 100 ms ਤੋਂ ਘੱਟ ਦੀ ਔਸਤ ਆਉਟਪੁੱਟ ਲੇਟੈਂਸੀ ਦੇ ਨਾਲ।

ਸੌਖੇ ਸ਼ਬਦਾਂ ਵਿੱਚ, Xeon ਪਲੇਟਫਾਰਮ ਲਗਭਗ 24 ਸਮਕਾਲੀ ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਪ੍ਰਤੀ ਉਪਭੋਗਤਾ 10 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ ਜਾਂ ਵੱਧ ਕਾਇਮ ਰੱਖ ਸਕਦਾ ਹੈ।

Intel ਨੇ ਸਿੰਗਲ-ਯੂਜ਼ਰ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਅੰਕੜੇ ਦਾ ਖੁਲਾਸਾ ਨਹੀਂ ਕੀਤਾ, ਕਿਉਂਕਿ ਉਹ ਅਸਲ-ਸੰਸਾਰ ਦੇ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਘੱਟ ਸੰਬੰਧਿਤ ਹਨ। ਹਾਲਾਂਕਿ, ਅੰਦਾਜ਼ੇ ਲਗਭਗ 100 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ ਦੀ ਸਿਖਰਲੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਸੁਝਾਅ ਦਿੰਦੇ ਹਨ।

ਫਿਰ ਵੀ, ਜਦੋਂ ਤੱਕ ਕੋਈ ਬਿਹਤਰ ਵਿਕਲਪ ਜਾਂ ਖਾਸ ਲੋੜਾਂ ਨਹੀਂ ਹਨ, CPU-ਅਧਾਰਤ ਅਨੁਮਾਨ ਦੀ ਆਰਥਿਕਤਾ ਉਪਯੋਗ ਦੇ ਕੇਸ ‘ਤੇ ਬਹੁਤ ਜ਼ਿਆਦਾ ਨਿਰਭਰ ਕਰਦੀ ਹੈ।

ਭਾਰ ਘਟਾਉਣਾ: ਛਾਂਟੀ ਅਤੇ ਕੁਆਂਟੀਕਰਨ

MoE ਆਰਕੀਟੈਕਚਰ ਵੱਡੇ ਮਾਡਲਾਂ ਦੀ ਸੇਵਾ ਕਰਨ ਲਈ ਜ਼ਰੂਰੀ ਮੈਮੋਰੀ ਬੈਂਡਵਿਡਥ ਨੂੰ ਘਟਾ ਸਕਦੇ ਹਨ, ਪਰ ਉਹ ਉਹਨਾਂ ਦੇ ਭਾਰ ਨੂੰ ਸਟੋਰ ਕਰਨ ਲਈ ਲੋੜੀਂਦੀ ਮੈਮੋਰੀ ਦੀ ਮਾਤਰਾ ਨੂੰ ਘੱਟ ਨਹੀਂ ਕਰਦੇ ਹਨ। ਇੱਥੋਂ ਤੱਕ ਕਿ 8-ਬਿੱਟ ਸ਼ੁੱਧਤਾ ‘ਤੇ ਵੀ, Llama 4 Maverick ਨੂੰ ਸਰਗਰਮ ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਗਿਣਤੀ ਤੋਂ ਬਿਨਾਂ, ਚਲਾਉਣ ਲਈ 400 GB ਤੋਂ ਵੱਧ ਮੈਮੋਰੀ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਉਭਰ ਰਹੀਆਂ ਛਾਂਟੀ ਤਕਨੀਕਾਂ ਅਤੇ ਕੁਆਂਟੀਕਰਨ ਵਿਧੀਆਂ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਗੁਣਵੱਤਾ ਨਾਲ ਸਮਝੌਤਾ ਕੀਤੇ ਬਿਨਾਂ ਉਸ ਲੋੜ ਨੂੰ ਅੱਧਾ ਕਰ ਸਕਦੀਆਂ ਹਨ।

Nvidia ਛਾਂਟੀ ਦਾ ਇੱਕ ਸਮਰਥਕ ਰਿਹਾ ਹੈ, Meta ਦੇ Llama 3 ਮਾਡਲਾਂ ਦੇ ਛਾਂਟੀ ਕੀਤੇ ਸੰਸਕਰਣਾਂ ਨੂੰ ਜਾਰੀ ਕਰਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਵਿੱਚੋਂ ਬੇਲੋੜੇ ਭਾਰਾਂ ਨੂੰ ਹਟਾ ਦਿੱਤਾ ਗਿਆ ਹੈ।

Nvidia 2022 ਵਿੱਚ 8-ਬਿੱਟ ਫਲੋਟਿੰਗ-ਪੁਆਇੰਟ ਡੇਟਾ ਕਿਸਮਾਂ ਦਾ ਸਮਰਥਨ ਕਰਨ ਵਾਲੀਆਂ ਪਹਿਲੀਆਂ ਕੰਪਨੀਆਂ ਵਿੱਚੋਂ ਵੀ ਇੱਕ ਸੀ, ਅਤੇ ਦੁਬਾਰਾ 2024 ਵਿੱਚ ਇਸਦੇ Blackwell ਆਰਕੀਟੈਕਚਰ ਦੀ ਸ਼ੁਰੂਆਤ ਨਾਲ 4-ਬਿੱਟ ਫਲੋਟਿੰਗ ਪੁਆਇੰਟ ਨਾਲ। ਜਦੋਂ ਕਿ ਸਖ਼ਤੀ ਨਾਲ ਜ਼ਰੂਰੀ ਨਹੀਂ ਹੈ, ਇਹਨਾਂ ਡੇਟਾ ਕਿਸਮਾਂ ਲਈ ਮੂਲ ਹਾਰਡਵੇਅਰ ਸਹਾਇਤਾ ਆਮ ਤੌਰ ‘ਤੇ ਗਣਨਾ ਦੇ ਰੁਕਾਵਟਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨ ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਘਟਾਉਂਦੀ ਹੈ, ਖਾਸ ਕਰਕੇ ਸਕੇਲ ‘ਤੇ ਸੇਵਾ ਕਰਦੇ ਸਮੇਂ।

ਅਸੀਂ ਮਾਡਲ ਡਿਵੈਲਪਰਾਂ ਦੀ ਵੱਧ ਰਹੀ ਗਿਣਤੀ ਨੂੰ ਘੱਟ-ਸ਼ੁੱਧਤਾ ਡੇਟਾ ਕਿਸਮਾਂ ਨੂੰ ਅਪਣਾਉਂਦੇ ਹੋਏ ਵੇਖਿਆ ਹੈ, Meta, Microsoft, ਅਤੇ Alibaba ਆਪਣੇ ਮਾਡਲਾਂ ਦੇ ਅੱਠ-ਬਿੱਟ ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਚਾਰ-ਬਿੱਟ ਕੁਆਂਟਾਈਜ਼ਡ ਸੰਸਕਰਣ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦੇ ਹਨ।

ਕੁਆਂਟੀਕਰਨ ਵਿੱਚ ਮਾਡਲ ਦੇ ਭਾਰ ਨੂੰ ਉਹਨਾਂ ਦੀ ਮੂਲ ਸ਼ੁੱਧਤਾ ਤੋਂ, ਆਮ ਤੌਰ ‘ਤੇ BF16, FP8 ਜਾਂ INT4 ਵਿੱਚ ਸੰਕੁਚਿਤ ਕਰਨਾ ਸ਼ਾਮਲ ਹੈ। ਇਹ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਮਾਡਲਾਂ ਦੀ ਮੈਮੋਰੀ ਬੈਂਡਵਿਡਥ ਅਤੇ ਸਮਰੱਥਾ ਦੀਆਂ ਜ਼ਰੂਰਤਾਂ ਨੂੰ ਅੱਧਾ ਜਾਂ ਤਿੰਨ-ਚੌਥਾਈ ਤੱਕ ਘਟਾਉਂਦਾ ਹੈ, ਕੁਝ ਗੁਣਵੱਤਾ ਦੀ ਕੀਮਤ ‘ਤੇ।

16 ਬਿੱਟ ਤੋਂ 8 ਬਿੱਟ ਵਿੱਚ ਤਬਦੀਲੀ ਨਾਲ ਜੁੜੇ ਨੁਕਸਾਨ ਅਕਸਰ ਨਾਮਾਤਰ ਹੁੰਦੇ ਹਨ, ਅਤੇ DeepSeek ਸਮੇਤ ਕਈ ਮਾਡਲ ਬਿਲਡਰਾਂ ਨੇ ਸ਼ੁਰੂ ਤੋਂ ਹੀ FP8 ਸ਼ੁੱਧਤਾ ‘ਤੇ ਸਿਖਲਾਈ ਸ਼ੁਰੂ ਕਰ ਦਿੱਤੀ ਹੈ। ਹਾਲਾਂਕਿ, ਸ਼ੁੱਧਤਾ ਨੂੰ ਹੋਰ ਚਾਰ ਬਿੱਟਾਂ ਨਾਲ ਘਟਾਉਣ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਗੁਣਵੱਤਾ ਵਿੱਚ ਕਾਫ਼ੀ ਗਿਰਾਵਟ ਆ ਸਕਦੀ ਹੈ। ਨਤੀਜੇ ਵਜੋਂ, GGUF ਵਰਗੀਆਂ ਬਹੁਤ ਸਾਰੀਆਂ ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਕੁਆਂਟੀਕਰਨ ਵਿਧੀਆਂ, ਸਾਰੇ ਭਾਰਾਂ ਨੂੰ ਬਰਾਬਰ ਸੰਕੁਚਿਤ ਨਹੀਂ ਕਰਦੀਆਂ ਹਨ, ਗੁਣਵੱਤਾ ਦੇ ਨੁਕਸਾਨ ਨੂੰ ਘੱਟ ਕਰਨ ਲਈ ਕੁਝ ਨੂੰ ਉੱਚ ਸ਼ੁੱਧਤਾ ਪੱਧਰਾਂ ‘ਤੇ ਛੱਡ ਦਿੰਦੀਆਂ ਹਨ।

Google ਨੇ ਹਾਲ ਹੀ ਵਿੱਚ ਨੇਟਿਵ BF16 ਦੇ ਨੇੜੇ ਗੁਣਵੱਤਾ ਦੇ ਪੱਧਰਾਂ ਨੂੰ ਕਾਇਮ ਰੱਖਦੇ ਹੋਏ, ਆਪਣੇ Gemma 3 ਮਾਡਲਾਂ ਨੂੰ 4x ਦੇ ਕਾਰਕ ਦੁਆਰਾ ਘਟਾਉਣ ਲਈ ਕੁਆਂਟੀਕਰਨ-ਜਾਗਰੂਕ ਸਿਖਲਾਈ (QAT) ਦੀ ਵਰਤੋਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ।

QAT ਸਿਖਲਾਈ ਦੌਰਾਨ ਘੱਟ-ਸ਼ੁੱਧਤਾ ਕਾਰਵਾਈਆਂ ਦੀ ਨਕਲ ਕਰਦਾ ਹੈ। ਇੱਕ ਗੈਰ-ਯੋਗ ਮਾਡਲ ‘ਤੇ ਲਗਭਗ 5,000 ਕਦਮਾਂ ਲਈ ਇਸ ਤਕਨੀਕ ਨੂੰ ਲਾਗੂ ਕਰਕੇ, Google INT4 ਵਿੱਚ ਬਦਲੇ ਜਾਣ ‘ਤੇ ਵਿਸਮਾਦਗੀ ਵਿੱਚ ਗਿਰਾਵਟ ਨੂੰ ਘਟਾਉਣ ਦੇ ਯੋਗ ਸੀ, ਜੋ ਕਿ ਕੁਆਂਟੀਕਰਨ ਨਾਲ ਸਬੰਧਤ ਨੁਕਸਾਨਾਂ ਨੂੰ ਮਾਪਣ ਲਈ ਇੱਕ ਮੈਟ੍ਰਿਕ ਹੈ, 54 ਪ੍ਰਤੀਸ਼ਤ ਤੱਕ।

ਕੁਆਂਟੀਕਰਨ ਲਈ ਇੱਕ ਹੋਰ QAT-ਅਧਾਰਤ ਪਹੁੰਚ, ਜਿਸਨੂੰ Bitnet ਵਜੋਂ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ, ਦਾ ਉਦੇਸ਼ ਹੋਰ ਵੀ ਘੱਟ ਸ਼ੁੱਧਤਾ ਪੱਧਰਾਂ ਲਈ ਹੈ, ਮਾਡਲਾਂ ਨੂੰ ਸਿਰਫ਼ 1.58 ਬਿੱਟਾਂ ਤੱਕ ਸੰਕੁਚਿਤ ਕਰਦਾ ਹੈ, ਜਾਂ ਲਗਭਗ ਉਹਨਾਂ ਦੇ ਅਸਲ ਆਕਾਰ ਦਾ ਦਸਵਾਂ ਹਿੱਸਾ।

ਤਕਨਾਲੋਜੀਆਂ ਦਾ ਤਾਲਮੇਲ

MoE ਅਤੇ 4-ਬਿੱਟ ਕੁਆਂਟੀਕਰਨ ਦਾ ਸੁਮੇਲ ਮਹੱਤਵਪੂਰਨ ਫਾਇਦੇ ਪੇਸ਼ ਕਰਦਾ ਹੈ, ਖਾਸ ਕਰਕੇ ਜਦੋਂ ਬੈਂਡਵਿਡਥ ਸੀਮਤ ਹੁੰਦੀ ਹੈ।

ਹੋਰਾਂ ਲਈ ਜੋ ਬੈਂਡਵਿਡਥ-ਸੀਮਤ ਨਹੀਂ ਹਨ, ਹਾਲਾਂਕਿ, ਦੋ ਤਕਨਾਲੋਜੀਆਂ ਵਿੱਚੋਂ ਕੋਈ ਵੀ, ਭਾਵੇਂ MoE ਹੋਵੇ, ਜਾਂ ਕੁਆਂਟੀਕਰਨ, ਵੱਡੇ ਅਤੇ ਵਧੇਰੇ ਸ਼ਕਤੀਸ਼ਾਲੀ ਮਾਡਲਾਂ ਨੂੰ ਚਲਾਉਣ ਲਈ ਸਾਜ਼ੋ-ਸਾਮਾਨ ਅਤੇ ਸੰਚਾਲਨ ਦੀ ਲਾਗਤ ਨੂੰ ਕਾਫ਼ੀ ਘੱਟ ਕਰ ਸਕਦੀ ਹੈ; ਇਹ ਮੰਨ ਕੇ ਕਿ ਉਹਨਾਂ ਨੂੰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਲਈ ਇੱਕ ਕੀਮਤੀ ਸੇਵਾ ਮਿਲ ਸਕਦੀ ਹੈ।

ਅਤੇ ਜੇ ਨਹੀਂ, ਤਾਂ ਤੁਸੀਂ ਘੱਟੋ-ਘੱਟ ਇਸ ਗੱਲ ਤੋਂ ਸੰਤੁਸ਼ਟ ਹੋ ਸਕਦੇ ਹੋ ਕਿ ਤੁਸੀਂ ਇਕੱਲੇ ਨਹੀਂ ਹੋ–ਇੱਕ ਤਾਜ਼ਾ IBM ਸਰਵੇਖਣ ਵਿੱਚ ਪਤਾ ਲੱਗਾ ਹੈ ਕਿ ਸਿਰਫ ਚਾਰ AI ਤਾਇਨਾਤੀਆਂ ਵਿੱਚੋਂ ਇੱਕ ਨੇ ਨਿਵੇਸ਼ ‘ਤੇ ਉਹ ਵਾਪਸੀ ਦਿੱਤੀ ਹੈ ਜਿਸਦਾ ਵਾਅਦਾ ਕੀਤਾ ਗਿਆ ਸੀ।