NVIDIA FFN Fusion: LLM ਕੁਸ਼ਲਤਾ ਲਈ ਨਵੀਂ ਪਹੁੰਚ | pa

ਆਧੁਨਿਕ AI ਦੀ ਗਣਨਾਤਮਕ ਤੰਗ ਰੱਸੀ

ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲ (LLMs) ਸਮਕਾਲੀ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਦੇ ਥੰਮ੍ਹ ਵਜੋਂ ਖੜ੍ਹੇ ਹਨ, ਜੋ ਕਮਾਲ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ ਜੋ ਉਦਯੋਗਾਂ ਅਤੇ ਵਿਗਿਆਨਕ ਖੋਜਾਂ ਨੂੰ ਨਵਾਂ ਰੂਪ ਦੇ ਰਹੇ ਹਨ। ਮਨੁੱਖ-ਵਰਗੇ ਟੈਕਸਟ ਤਿਆਰ ਕਰਨ, ਗੁੰਝਲਦਾਰ ਗੱਲਬਾਤ ਏਜੰਟਾਂ ਨੂੰ ਸ਼ਕਤੀ ਦੇਣ, ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਗੁੰਝਲਦਾਰ ਖੋਜ ਕਾਰਜਾਂ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰਨ ਵਿੱਚ ਉਹਨਾਂ ਦੀ ਮੁਹਾਰਤ ਨੇ ਉਹਨਾਂ ਨੂੰ ਲਾਜ਼ਮੀ ਸੰਦ ਬਣਾ ਦਿੱਤਾ ਹੈ। ਇਹਨਾਂ ਸ਼ਕਤੀਸ਼ਾਲੀ ਮਾਡਲਾਂ ਦੇ ਦਿਲ ਵਿੱਚ transformer ਆਰਕੀਟੈਕਚਰ ਧੜਕਦਾ ਹੈ, ਇੱਕ ਡਿਜ਼ਾਈਨ ਜੋ ਇਸਦੀਆਂ ਬਦਲਵੀਆਂ ਪਰਤਾਂ ਦੁਆਰਾ ਵਿਸ਼ੇਸ਼ਤਾ ਰੱਖਦਾ ਹੈ। ਇਨਪੁਟ ਡੇਟਾ, ਟੋਕਨਾਂ ਵਿੱਚ ਵੰਡਿਆ ਹੋਇਆ, ਧਿਆਨ ਵਿਧੀਆਂ (attention mechanisms) ਦੀ ਇੱਕ ਲੜੀ ਵਿੱਚੋਂ ਲੰਘਦਾ ਹੈ, ਜੋ ਵੱਖ-ਵੱਖ ਟੋਕਨਾਂ ਦੀ ਮਹੱਤਤਾ ਨੂੰ ਤੋਲਦੇ ਹਨ, ਜਿਸ ਤੋਂ ਬਾਅਦ ਫੀਡ-ਫਾਰਵਰਡ ਨੈੱਟਵਰਕ (FFNs) ਆਉਂਦੇ ਹਨ, ਜੋ ਪ੍ਰਾਪਤ ਕੀਤੀ ਜਾਣਕਾਰੀ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਰਦੇ ਹਨ। ਇਹ ਪਰਤਦਾਰ, ਕ੍ਰਮਵਾਰ ਪ੍ਰੋਸੈਸਿੰਗ ਇਸ ਗੱਲ ਲਈ ਬੁਨਿਆਦੀ ਹੈ ਕਿ ਕਿਵੇਂ transformers ਸਿੱਖਦੇ ਹਨ ਅਤੇ ਆਉਟਪੁੱਟ ਤਿਆਰ ਕਰਦੇ ਹਨ।

ਹਾਲਾਂਕਿ, ਇਹ ਬਹੁਤ ਹੀ ਆਰਕੀਟੈਕਚਰ, ਭਾਵੇਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ, ਇੱਕ ਵਧ ਰਹੀ ਚੁਣੌਤੀ ਪੇਸ਼ ਕਰਦਾ ਹੈ ਕਿਉਂਕਿ ਮਾਡਲ ਆਕਾਰ ਅਤੇ ਗੁੰਝਲਤਾ ਵਿੱਚ ਵਧਦੇ ਹਨ। ਕ੍ਰਮਵਾਰ ਪ੍ਰਕਿਰਤੀ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਹਰੇਕ ਪਰਤ ਨੂੰ ਆਮ ਤੌਰ ‘ਤੇ ਪਿਛਲੀ ਪਰਤ ਦੇ ਆਪਣੀ ਗਣਨਾ ਪੂਰੀ ਕਰਨ ਦੀ ਉਡੀਕ ਕਰਨੀ ਪੈਂਦੀ ਹੈ ਇਸ ਤੋਂ ਪਹਿਲਾਂ ਕਿ ਉਹ ਸ਼ੁਰੂ ਕਰ ਸਕੇ। ਇਹ ਕਦਮ-ਦਰ-ਕਦਮ ਪ੍ਰੋਸੈਸਿੰਗ ਇੱਕ ਅੰਦਰੂਨੀ ਰੁਕਾਵਟ ਪੈਦਾ ਕਰਦੀ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ inference ਪੜਾਅ ਦੌਰਾਨ - ਉਹ ਪੜਾਅ ਜਿੱਥੇ ਇੱਕ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਮਾਡਲ ਅਸਲ ਵਿੱਚ ਭਵਿੱਖਬਾਣੀਆਂ ਜਾਂ ਟੈਕਸਟ ਤਿਆਰ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ। ਜਿਵੇਂ ਕਿ ਉੱਨਤ AI ਸਹਾਇਕਾਂ ਨੂੰ ਸ਼ਕਤੀ ਦੇਣ ਵਾਲੇ ਮਾਡਲ ਸੈਂਕੜੇ ਅਰਬਾਂ, ਜਾਂ ਇੱਥੋਂ ਤੱਕ ਕਿ ਖਰਬਾਂ, ਪੈਰਾਮੀਟਰਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ, inference ਲਈ ਲੋੜੀਂਦੇ ਗਣਨਾਤਮਕ ਸਰੋਤ ਅਤੇ ਸਮਾਂ ਨਾਟਕੀ ਢੰਗ ਨਾਲ ਵਧ ਜਾਂਦੇ ਹਨ। ਇਹ ਵਧਦੀ ਮੰਗ ਮਹੱਤਵਪੂਰਨ ਲੇਟੈਂਸੀ (ਜਵਾਬ ਵਿੱਚ ਦੇਰੀ), ਘਟੀ ਹੋਈ ਥ੍ਰਰੂਪੁੱਟ (ਸਮੇਂ ਦੇ ਨਾਲ ਸੰਭਾਲੀਆਂ ਗਈਆਂ ਬੇਨਤੀਆਂ ਦੀ ਸੰਖਿਆ), ਅਤੇ ਵਧਦੀਆਂ ਸੰਚਾਲਨ ਲਾਗਤਾਂ ਵਿੱਚ ਬਦਲ ਜਾਂਦੀ ਹੈ, ਜੋ ਸਭ ਤੋਂ ਸ਼ਕਤੀਸ਼ਾਲੀ LLMs ਦੀ ਵਿਆਪਕ ਤੈਨਾਤੀ ਅਤੇ ਰੀਅਲ-ਟਾਈਮ ਐਪਲੀਕੇਸ਼ਨ ਵਿੱਚ ਰੁਕਾਵਟ ਪਾਉਂਦੀ ਹੈ। ਸਿੱਟੇ ਵਜੋਂ, inference ਕੁਸ਼ਲਤਾ ਨੂੰ ਵਧਾਉਣਾ AI ਖੋਜ ਭਾਈਚਾਰੇ ਦੇ ਅੰਦਰ ਇੱਕ ਪ੍ਰਮੁੱਖ ਚਿੰਤਾ ਬਣ ਗਈ ਹੈ, ਜਿਸ ਨਾਲ ਨਵੀਨਤਾਕਾਰੀ ਰਣਨੀਤੀਆਂ ਦੀ ਖੋਜ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕੀਤਾ ਗਿਆ ਹੈ ਜੋ ਇਹਨਾਂ ਮਾਡਲਾਂ ਦੁਆਰਾ ਪੇਸ਼ ਕੀਤੇ ਗਏ ਕਮਾਲ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨਾਲ ਸਮਝੌਤਾ ਕੀਤੇ ਬਿਨਾਂ ਗਣਨਾ ਨੂੰ ਸੁਚਾਰੂ ਬਣਾ ਸਕਦੀਆਂ ਹਨ। ਕੇਂਦਰੀ ਚੁਣੌਤੀ ਕ੍ਰਮਵਾਰ ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਦੁਆਰਾ ਲਗਾਈਆਂ ਗਈਆਂ ਰੁਕਾਵਟਾਂ ਨੂੰ ਘੱਟ ਕਰਨ ਵਿੱਚ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਵੰਡੇ ਹੋਏ ਵਾਤਾਵਰਣਾਂ ਵਿੱਚ ਜਿੱਥੇ ਗਣਨਾਵਾਂ ਕਈ GPUs ਵਿੱਚ ਫੈਲੀਆਂ ਹੁੰਦੀਆਂ ਹਨ, ਪ੍ਰੋਸੈਸਿੰਗ ਸਮੇਂ ਵਿੱਚ ਸੰਚਾਰ ਓਵਰਹੈੱਡ ਜੋੜਦੀਆਂ ਹਨ।

ਅਨੁਕੂਲਨ ਲੈਂਡਸਕੇਪ ਨੂੰ ਨੈਵੀਗੇਟ ਕਰਨਾ: ਮੌਜੂਦਾ ਸਾਧਨ ਅਤੇ ਉਹਨਾਂ ਦੀਆਂ ਸੀਮਾਵਾਂ

LLMs ਨੂੰ ਪਤਲਾ ਅਤੇ ਤੇਜ਼ ਬਣਾਉਣ ਦੇ ਚੱਲ ਰਹੇ ਯਤਨਾਂ ਵਿੱਚ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਅਨੁਕੂਲਨ ਤਕਨੀਕਾਂ ਦਾ ਇੱਕ ਟੂਲਕਿੱਟ ਵਿਕਸਤ ਕੀਤਾ ਹੈ। ਹਰ ਇੱਕ ਕੁਸ਼ਲਤਾ ਦਾ ਮਾਰਗ ਪੇਸ਼ ਕਰਦਾ ਹੈ, ਪਰ ਅਕਸਰ ਇਸਦੇ ਆਪਣੇ ਸਮਝੌਤਿਆਂ ਦੇ ਸਮੂਹ ਨਾਲ ਆਉਂਦਾ ਹੈ, ਕਿਸੇ ਵੀ ਇੱਕ ਢੰਗ ਨੂੰ ਇੱਕ ਸਰਵ ਵਿਆਪਕ ਹੱਲ ਹੋਣ ਤੋਂ ਰੋਕਦਾ ਹੈ। FFN Fusion ਵਰਗੀਆਂ ਨਵੀਆਂ ਪਹੁੰਚਾਂ ਦੀ ਲੋੜ ਦੀ ਕਦਰ ਕਰਨ ਲਈ ਇਹਨਾਂ ਵਪਾਰ-ਬੰਦਾਂ ਨੂੰ ਸਮਝਣਾ ਮਹੱਤਵਪੂਰਨ ਹੈ।

ਇੱਕ ਪ੍ਰਮੁੱਖ ਤਕਨੀਕ quantization ਹੈ। ਇਸ ਵਿੱਚ ਮਾਡਲ ਦੇ ਵਜ਼ਨ ਅਤੇ ਐਕਟੀਵੇਸ਼ਨਾਂ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਵਰਤੀ ਜਾਂਦੀ ਸੰਖਿਆਤਮਕ ਸ਼ੁੱਧਤਾ ਨੂੰ ਘਟਾਉਣਾ ਸ਼ਾਮਲ ਹੈ। ਸਟੈਂਡਰਡ 32-ਬਿੱਟ ਫਲੋਟਿੰਗ-ਪੁਆਇੰਟ ਨੰਬਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਬਜਾਏ, ਮਾਡਲ 16-ਬਿੱਟ, 8-ਬਿੱਟ, ਜਾਂ ਇਸ ਤੋਂ ਵੀ ਘੱਟ-ਬਿੱਟ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹਨ। ਇਹ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਮਾਡਲ ਦੀ ਮੈਮੋਰੀ ਫੁੱਟਪ੍ਰਿੰਟ ਨੂੰ ਸੁੰਗੜਦਾ ਹੈ ਅਤੇ ਗਣਨਾਵਾਂ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਤੇਜ਼ ਕਰ ਸਕਦਾ ਹੈ, ਕਿਉਂਕਿ ਘੱਟ-ਸ਼ੁੱਧਤਾ ਵਾਲੇ ਨੰਬਰਾਂ ‘ਤੇ ਓਪਰੇਸ਼ਨ ਆਮ ਤੌਰ ‘ਤੇ ਤੇਜ਼ ਹੁੰਦੇ ਹਨ ਅਤੇ ਘੱਟ ਊਰਜਾ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਹਾਲਾਂਕਿ, quantization ਬਿਨਾਂ ਜੋਖਮ ਦੇ ਨਹੀਂ ਹੈ। ਸ਼ੁੱਧਤਾ ਘਟਾਉਣ ਨਾਲ ਜਾਣਕਾਰੀ ਦਾ ਨੁਕਸਾਨ ਹੋ ਸਕਦਾ ਹੈ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਮਾਡਲ ਦੀ ਸ਼ੁੱਧਤਾ ਨੂੰ ਘਟਾ ਸਕਦਾ ਹੈ। ਇਹ ਜੋਖਮ ਬਹੁਤ ਘੱਟ ਬਿੱਟ-ਚੌੜਾਈ ‘ਤੇ ਵਧੇਰੇ ਸਪੱਸ਼ਟ ਹੋ ਜਾਂਦਾ ਹੈ, ਜਿਸ ਲਈ ਸਾਵਧਾਨੀਪੂਰਵਕ ਲਾਗੂ ਕਰਨ ਅਤੇ ਕਈ ਵਾਰ ਸ਼ੁੱਧਤਾ ਵਿੱਚ ਗਿਰਾਵਟ ਨੂੰ ਘੱਟ ਕਰਨ ਲਈ ਮੁੜ-ਸਿਖਲਾਈ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਚੁਣੌਤੀ ਉਸ ਮਿੱਠੇ ਸਥਾਨ ਨੂੰ ਲੱਭਣ ਵਿੱਚ ਹੈ ਜੋ ਕੁਸ਼ਲਤਾ ਲਾਭਾਂ ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਦਾ ਹੈ ਜਦੋਂ ਕਿ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਗਿਰਾਵਟ ਨੂੰ ਸਵੀਕਾਰਯੋਗ ਸੀਮਾਵਾਂ ਦੇ ਅੰਦਰ ਰੱਖਦਾ ਹੈ।

ਇੱਕ ਹੋਰ ਆਮ ਰਣਨੀਤੀ pruning ਹੈ। ਇਹ ਤਕਨੀਕ ਇਸ ਸਿਧਾਂਤ ‘ਤੇ ਕੰਮ ਕਰਦੀ ਹੈ ਕਿ ਇੱਕ ਵੱਡੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਦੇ ਅੰਦਰ ਬਹੁਤ ਸਾਰੇ ਪੈਰਾਮੀਟਰ ਬੇਲੋੜੇ ਹੋ ਸਕਦੇ ਹਨ ਜਾਂ ਅੰਤਮ ਆਉਟਪੁੱਟ ਵਿੱਚ ਘੱਟੋ ਘੱਟ ਯੋਗਦਾਨ ਪਾ ਸਕਦੇ ਹਨ। Pruning ਐਲਗੋਰਿਦਮ ਇਹਨਾਂ ਘੱਟ ਮਹੱਤਵਪੂਰਨ ਕਨੈਕਸ਼ਨਾਂ ਜਾਂ ਨਿਊਰੋਨਾਂ ਦੀ ਪਛਾਣ ਕਰਦੇ ਹਨ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਹਟਾਉਂਦੇ ਹਨ, ਨਤੀਜੇ ਵਜੋਂ ਇੱਕ ਛੋਟਾ, ਸਪਾਰਸਰ ਮਾਡਲ ਬਣਦਾ ਹੈ। Quantization ਵਾਂਗ, pruning ਮੈਮੋਰੀ ਲੋੜਾਂ ਅਤੇਗਣਨਾਤਮਕ ਲੋਡ ਨੂੰ ਘਟਾਉਂਦੀ ਹੈ। ਹਾਲਾਂਕਿ, ਇਹ ਪਤਾ ਲਗਾਉਣਾ ਕਿ ਕਿਹੜੇ ਪੈਰਾਮੀਟਰ ਹਟਾਉਣ ਲਈ “ਸੁਰੱਖਿਅਤ” ਹਨ, ਗੁੰਝਲਦਾਰ ਹੈ। ਹਮਲਾਵਰ pruning ਅਣਜਾਣੇ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਭਾਗਾਂ ਨੂੰ ਹਟਾ ਸਕਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਸ਼ੁੱਧਤਾ ਦਾ ਕਾਫ਼ੀ ਨੁਕਸਾਨ ਹੋ ਸਕਦਾ ਹੈ। ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਮੁੜ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ pruning ਤੋਂ ਬਾਅਦ ਮਾਡਲ ਨੂੰ ਫਾਈਨ-ਟਿਊਨ ਕਰਨਾ ਅਕਸਰ ਜ਼ਰੂਰੀ ਹੁੰਦਾ ਹੈ, ਵਰਕਫਲੋ ਵਿੱਚ ਗੁੰਝਲਤਾ ਜੋੜਦਾ ਹੈ। ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਸਾਵਧਾਨ ਕੈਲੀਬ੍ਰੇਸ਼ਨ ਜ਼ਰੂਰੀ ਹੈ ਕਿ pruned ਮਾਡਲ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਬਣਿਆ ਰਹੇ।

ਇੱਕ ਹੋਰ ਆਰਕੀਟੈਕਚਰਲ ਤੌਰ ‘ਤੇ ਵੱਖਰੀ ਪਹੁੰਚ Mixture-of-Experts (MoE) ਮਾਡਲ ਹੈ। ਹਰੇਕ ਇਨਪੁਟ ਨੂੰ ਪੂਰੇ ਨੈੱਟਵਰਕ ਰਾਹੀਂ ਪ੍ਰੋਸੈਸ ਕਰਨ ਦੀ ਬਜਾਏ, MoE ਮਾਡਲਾਂ ਵਿੱਚ ਕਈ “ਮਾਹਰ” ਸਬ-ਨੈੱਟਵਰਕ (ਆਮ ਤੌਰ ‘ਤੇ FFNs) ਹੁੰਦੇ ਹਨ। ਹਰੇਕ ਇਨਪੁਟ ਟੋਕਨ ਲਈ, ਇੱਕ ਗੇਟਿੰਗ ਵਿਧੀ ਗਣਨਾ ਕਰਨ ਲਈ ਇਹਨਾਂ ਮਾਹਰਾਂ ਦੇ ਇੱਕ ਛੋਟੇ ਉਪ ਸਮੂਹ ਨੂੰ ਗਤੀਸ਼ੀਲ ਤੌਰ ‘ਤੇ ਚੁਣਦੀ ਹੈ। ਇਸ ਸ਼ਰਤੀਆ ਗਣਨਾ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਕਿਸੇ ਵੀ ਦਿੱਤੇ ਗਏ ਇਨਪੁਟ ਲਈ ਮਾਡਲ ਦੇ ਕੁੱਲ ਪੈਰਾਮੀਟਰਾਂ ਦਾ ਸਿਰਫ ਇੱਕ ਹਿੱਸਾ ਹੀ ਕਿਰਿਆਸ਼ੀਲ ਹੁੰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਮਹੱਤਵਪੂਰਨ ਗਣਨਾਤਮਕ ਬੱਚਤ ਹੁੰਦੀ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਬਹੁਤ ਵੱਡੇ ਮਾਡਲਾਂ ‘ਤੇ ਸਿਖਲਾਈ ਅਤੇ inference ਦੌਰਾਨ। MoE ਮਾਡਲ ਵਾਜਬ ਗਣਨਾਤਮਕ ਲਾਗਤਾਂ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦੇ ਹੋਏ ਖਰਬਾਂ ਪੈਰਾਮੀਟਰਾਂ ਤੱਕ ਸਕੇਲ ਕਰ ਸਕਦੇ ਹਨ। ਹਾਲਾਂਕਿ, ਉਹਨਾਂ ਦੀ ਕੁਸ਼ਲਤਾ ਕੰਮ ਦੇ ਬੋਝ ‘ਤੇ ਬਹੁਤ ਜ਼ਿਆਦਾ ਨਿਰਭਰ ਕਰਦੀ ਹੈ। ਉਹ ਬਹੁਤ ਵੱਡੇ ਬੈਚ ਆਕਾਰਾਂ ਨੂੰ ਸੰਭਾਲਣ ਵਿੱਚ ਉੱਤਮ ਹੁੰਦੇ ਹਨ ਜਿੱਥੇ ਚੋਣਵੇਂ ਐਕਟੀਵੇਸ਼ਨ ਪੈਟਰਨ ਚੰਗੀ ਹਾਰਡਵੇਅਰ ਉਪਯੋਗਤਾ ਵੱਲ ਲੈ ਜਾਂਦੇ ਹਨ। ਛੋਟੇ ਜਾਂ ਵਿਚਕਾਰਲੇ ਬੈਚ ਆਕਾਰਾਂ ‘ਤੇ, MoE ਮਾਡਲ ਗਣਨਾਤਮਕ ਸਰੋਤਾਂ ਦੀ ਘੱਟ ਵਰਤੋਂ ਤੋਂ ਪੀੜਤ ਹੋ ਸਕਦੇ ਹਨ, ਕਿਉਂਕਿ ਸਮਾਨਾਂਤਰ ਹਾਰਡਵੇਅਰ ਨੂੰ ਘੱਟ ਕਿਰਿਆਸ਼ੀਲ ਮਾਹਰਾਂ ਦੁਆਰਾ ਲਗਾਤਾਰ ਵਿਅਸਤ ਨਹੀਂ ਰੱਖਿਆ ਜਾ ਸਕਦਾ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, MoE ਮਾਡਲਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨਾ ਅਤੇ ਲੋਡ-ਬੈਲੈਂਸ ਕਰਨਾ ਸਟੈਂਡਰਡ “ਡੈਂਸ” ਆਰਕੀਟੈਕਚਰਾਂ ਨੂੰ ਤੈਨਾਤ ਕਰਨ ਨਾਲੋਂ ਵਧੇਰੇ ਗੁੰਝਲਦਾਰ ਹੋ ਸਕਦਾ ਹੈ।

ਜਦੋਂ ਕਿ quantization, pruning, ਅਤੇ MoE ਮਾਡਲ LLM ਅਨੁਕੂਲਨ ਵਿੱਚ ਕੀਮਤੀ ਤਰੱਕੀ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ, ਉਹਨਾਂ ਦੀਆਂ ਅੰਦਰੂਨੀ ਸੀਮਾਵਾਂ ਵਿਕਲਪਕ ਜਾਂ ਪੂਰਕ ਰਣਨੀਤੀਆਂ ਦੀ ਲੋੜ ਨੂੰ ਉਜਾਗਰ ਕਰਦੀਆਂ ਹਨ। ਖੋਜ ਉਹਨਾਂ ਤਰੀਕਿਆਂ ਲਈ ਜਾਰੀ ਹੈ ਜੋ ਵੱਖ-ਵੱਖ ਸਥਿਤੀਆਂ ਵਿੱਚ ਵਿਆਪਕ ਕੁਸ਼ਲਤਾ ਸੁਧਾਰ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦੇ ਹਨ, ਆਦਰਸ਼ਕ ਤੌਰ ‘ਤੇ ਸ਼ੁੱਧਤਾ ਜਾਂ ਲਾਗੂ ਕਰਨ ਦੀ ਗੁੰਝਲਤਾ ਨਾਲ ਘੱਟ ਸਮਝੌਤਿਆਂ ਦੇ ਨਾਲ, ਖਾਸ ਤੌਰ ‘ਤੇ ਸੰਘਣੇ ਮਾਡਲ ਆਰਕੀਟੈਕਚਰਾਂ ਲਈ ਜੋ ਸਿਖਲਾਈ ਅਤੇ ਤੈਨਾਤੀ ਵਿੱਚ ਉਹਨਾਂ ਦੀ ਅਨੁਸਾਰੀ ਸਾਦਗੀ ਦੇ ਕਾਰਨ ਪ੍ਰਸਿੱਧ ਰਹਿੰਦੇ ਹਨ।

FFN Fusion: Transformers ਵਿੱਚ ਸਮਾਨਾਂਤਰਤਾ 'ਤੇ ਮੁੜ ਵਿਚਾਰ ਕਰਨਾ

ਅਨੁਕੂਲਨ ਤਕਨੀਕਾਂ ਦੇ ਇਸ ਲੈਂਡਸਕੇਪ ਦੇ ਵਿਚਕਾਰ, NVIDIA ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ FFN Fusion ਨਾਮਕ ਇੱਕ ਮਜਬੂਰ ਕਰਨ ਵਾਲੀ ਨਵੀਂ ਪਹੁੰਚ ਪੇਸ਼ ਕੀਤੀ ਹੈ। ਇਹ ਤਕਨੀਕ transformer ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ ਮੌਜੂਦ ਕ੍ਰਮਵਾਰ ਰੁਕਾਵਟ ਦਾ ਸਿੱਧਾ ਮੁਕਾਬਲਾ ਕਰਦੀ ਹੈ, ਪੈਰਾਮੀਟਰਾਂ ਨੂੰ ਬਦਲ ਕੇ ਜਾਂ ਚੋਣਵੇਂ ਤੌਰ ‘ਤੇ ਭਾਗਾਂ ਨੂੰ ਕਿਰਿਆਸ਼ੀਲ ਕਰਕੇ ਨਹੀਂ, ਬਲਕਿ ਬੁਨਿਆਦੀ ਤੌਰ ‘ਤੇ ਮੁੜ ਵਿਚਾਰ ਕਰਕੇ ਕਿ ਗਣਨਾਵਾਂ ਦੇ ਕ੍ਰਮ ਨੂੰ ਕਿਵੇਂ ਸਮਾਨਾਂਤਰ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਇਹ ਨਵੀਨਤਾ ਡੂੰਘੇ transformer ਮਾਡਲਾਂ ਦੇ ਅੰਦਰ FFN ਪਰਤਾਂ ਦੇ ਵਿਵਹਾਰ ਬਾਰੇ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਨਿਰੀਖਣ ਤੋਂ ਪੈਦਾ ਹੁੰਦੀ ਹੈ।

Puzzle ਨਾਮਕ ਇੱਕ ਡਾਇਗਨੌਸਟਿਕ ਟੂਲ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਵੱਡੇ ਮਾਡਲਾਂ ਦੇ ਅੰਦਰੂਨੀ ਕੰਮਕਾਜ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ। ਜਦੋਂ ਉਹਨਾਂ ਨੇ ਪ੍ਰਯੋਗਾਤਮਕ ਤੌਰ ‘ਤੇ ਧਿਆਨ ਪਰਤਾਂ (attention layers) ਨੂੰ ਹਟਾ ਦਿੱਤਾ, ਤਾਂ ਉਹਨਾਂ ਨੇ ਦੇਖਿਆ ਕਿ ਮਾਡਲਾਂ ਨੇ ਅਕਸਰ ਲਗਾਤਾਰ FFN ਪਰਤਾਂ ਦੇ ਹੈਰਾਨੀਜਨਕ ਤੌਰ ‘ਤੇ ਲੰਬੇ ਕ੍ਰਮ ਬਰਕਰਾਰ ਰੱਖੇ। ਇਸ ਤੋਂ ਵੀ ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਹੈ ਕਿ ਵਿਸ਼ਲੇਸ਼ਣ ਨੇ ਖੁਲਾਸਾ ਕੀਤਾ ਕਿ ਇਹਨਾਂ ਨਾਲ ਲੱਗਦੀਆਂ FFNs ਦੁਆਰਾ ਕੀਤੀਆਂ ਗਈਆਂ ਗਣਨਾਵਾਂ ਅਕਸਰ ਘੱਟੋ ਘੱਟ ਆਪਸੀ ਨਿਰਭਰਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੀਆਂ ਹਨ। ਸੰਖੇਪ ਵਿੱਚ, ਕ੍ਰਮ ਵਿੱਚ ਇੱਕ FFN ਦਾ ਆਉਟਪੁੱਟ ਅਕਸਰ ਦਿਸ਼ਾਤਮਕ ਮਾਰਗ ਜਾਂ ਤੁਰੰਤ ਬਾਅਦ ਵਾਲੇ FFN ਦੁਆਰਾ ਲੋੜੀਂਦੀ ਮੁੱਖ ਜਾਣਕਾਰੀ ਨੂੰ ਬਹੁਤ ਜ਼ਿਆਦਾ ਨਹੀਂ ਬਦਲਦਾ ਸੀ। ਇਸ ਨੇ ਸੁਝਾਅ ਦਿੱਤਾ ਕਿ ਇਹ FFNs, ਜੋ ਰਵਾਇਤੀ ਤੌਰ ‘ਤੇ ਇੱਕ ਤੋਂ ਬਾਅਦ ਇੱਕ ਚਲਾਏ ਜਾਂਦੇ ਹਨ, ਮਾਡਲ ਦੇ ਸਮੁੱਚੇ ਕਾਰਜ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵਿਗਾੜੇ ਬਿਨਾਂ ਇੱਕੋ ਸਮੇਂ, ਸਮਾਨਾਂਤਰ ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਦੀ ਸੰਭਾਵਨਾ ਰੱਖ ਸਕਦੇ ਹਨ।

ਇਹ ਸੂਝ FFN Fusion ਦਾ ਆਧਾਰ ਬਣੀ। ਮੁੱਖ ਵਿਚਾਰ ਸ਼ਾਨਦਾਰ ਤੌਰ ‘ਤੇ ਸਰਲ ਪਰ ਸ਼ਕਤੀਸ਼ਾਲੀ ਹੈ: ਘੱਟ ਗਣਨਾਤਮਕ ਨਿਰਭਰਤਾ ਵਾਲੀਆਂ ਲਗਾਤਾਰ FFN ਪਰਤਾਂ ਦੇ ਕ੍ਰਮ ਦੀ ਪਛਾਣ ਕਰੋ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਇੱਕ ਸਿੰਗਲ, ਚੌੜੀ FFN ਪਰਤ ਵਿੱਚ ਮਿਲਾਓ ਜੋ ਸਮਾਨਾਂਤਰ ਵਿੱਚ ਬਰਾਬਰ ਦੀ ਗਣਨਾ ਕਰਦੀ ਹੈ। Input -> FFN1 -> FFN2 -> FFN3 -> Output ਵਰਗੀ ਲੜੀ ਦੀ ਬਜਾਏ, ਫਿਊਜ਼ਡ ਢਾਂਚਾ Input -> Fused_FFN (ਸਮਾਨਾਂਤਰ ਵਿੱਚ FFN1+FFN2+FFN3 ਦੇ ਬਰਾਬਰ) -> Output ਬਣ ਜਾਂਦਾ ਹੈ। ਇਹ ਆਰਕੀਟੈਕਚਰਲ ਪਰਿਵਰਤਨ ਨੈੱਟਵਰਕ ਦੀ ਕ੍ਰਮਵਾਰ ਡੂੰਘਾਈ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਛੋਟਾ ਕਰਦਾ ਹੈ, ਕਈ ਕਦਮਾਂ ਨੂੰ ਇੱਕ ਸਿੰਗਲ, ਵਿਆਪਕ ਗਣਨਾਤਮਕ ਕਦਮ ਨਾਲ ਬਦਲਦਾ ਹੈ। ਇਹਨਾਂ ਘੱਟ-ਨਿਰਭਰਤਾ ਵਾਲੇ FFN ਕ੍ਰਮਾਂ ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾ ਕੇ, FFN Fusion ਦਾ ਉਦੇਸ਼ ਮਾਡਲ ਦੀ ਪ੍ਰਤੀਨਿਧਤਾਤਮਕ ਸ਼ਕਤੀ ਅਤੇ ਸ਼ੁੱਧਤਾ ਨੂੰ ਸੁਰੱਖਿਅਤ ਰੱਖਦੇ ਹੋਏ ਲੇਟੈਂਸੀ ਅਤੇ ਗਣਨਾਤਮਕ ਲਾਗਤ ਨੂੰ ਘਟਾਉਣਾ ਹੈ। Llama-3.1-405B-Instruct ਤੋਂ Ultra-253B-Base ਦਾ ਵਿਕਾਸ ਇਸ ਤਕਨੀਕ ਦੀ ਸੰਭਾਵਨਾ ਦਾ ਇੱਕ ਪ੍ਰਮੁੱਖ ਪ੍ਰਦਰਸ਼ਨ ਸੀ।

ਆਰਕੀਟੈਕਚਰਲ ਅਲਕੀਮੀ: FFN Fusion ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ

FFN Fusion ਦੇ ਪਿੱਛੇ ਦਾ ਜਾਦੂ ਫੀਡ-ਫਾਰਵਰਡ ਨੈੱਟਵਰਕਾਂ ਦੇ ਅੰਤਰੀਵ ਗਣਿਤਿਕ ਢਾਂਚੇ ਦੀ ਇਸਦੀ ਚਲਾਕ ਹੇਰਾਫੇਰੀ ਵਿੱਚ ਹੈ। ਇਹ ਸਿਰਫ਼ ਮੌਜੂਦਾ ਪਰਤਾਂ ਨੂੰ ਨਾਲੋ-ਨਾਲ ਚਲਾਉਣ ਬਾਰੇ ਨਹੀਂ ਹੈ; ਇਸ ਵਿੱਚ ਇੱਕ ਨਵੀਂ, ਏਕੀਕ੍ਰਿਤ ਪਰਤ ਬਣਾਉਣਾ ਸ਼ਾਮਲ ਹੈ ਜੋ ਅਸਲ ਕ੍ਰਮ ਦੇ ਸਮੂਹਿਕ ਵਿਵਹਾਰ ਨੂੰ ਦੁਹਰਾਉਂਦੀ ਹੈ ਪਰ ਅਜਿਹਾ ਸਮਕਾਲੀ ਰੂਪ ਵਿੱਚ ਕਰਦੀ ਹੈ।

k ਲਗਾਤਾਰ FFN ਪਰਤਾਂ ਦੇ ਕ੍ਰਮ ‘ਤੇ ਵਿਚਾਰ ਕਰੋ। ਇੱਕ ਸਟੈਂਡਰਡ transformer ਵਿੱਚ, ਇਨਪੁਟ x FFN1 ਵਿੱਚੋਂ ਲੰਘਦਾ ਹੈ, ਇਸਦਾ ਆਉਟਪੁੱਟ FFN2 ਲਈ ਇਨਪੁਟ ਬਣ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਇਸ ਤਰ੍ਹਾਂ FFNk ਤੱਕ ਜਾਰੀ ਰਹਿੰਦਾ ਹੈ। ਹਰ ਕਦਮ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਪਿਛਲੇ ਇੱਕ ਦੇ ਪੂਰਾ ਹੋਣ ‘ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ। FFN Fusion ਇਸ ਨਿਰਭਰਤਾ ਲੜੀ ਨੂੰ ਤੋੜਦਾ ਹੈ। ਗਣਿਤਿਕ ਤੌਰ ‘ਤੇ, ਇੱਕ FFN ਵਿੱਚ ਆਮ ਤੌਰ ‘ਤੇ ਦੋ ਲੀਨੀਅਰ ਪਰਿਵਰਤਨ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ ਜਿਸ ਵਿੱਚ ਵਿਚਕਾਰ ਇੱਕ ਗੈਰ-ਲੀਨੀਅਰ ਐਕਟੀਵੇਸ਼ਨ ਫੰਕਸ਼ਨ (ਜਿਵੇਂ ਕਿ GeLU ਜਾਂ SwiGLU) ਹੁੰਦਾ ਹੈ: FFN(x) = W_out * Activation(W_in * x)। FFN Fusion ਇਸ ਤੱਥ ਦਾ ਲਾਭ ਉਠਾਉਂਦਾ ਹੈ ਕਿ ਲੀਨੀਅਰ ਪਰਿਵਰਤਨਾਂ ਨੂੰ ਅਕਸਰ ਜੋੜਿਆ ਜਾ ਸਕਦਾ ਹੈ।

ਫਿਊਜ਼ਨ ਪ੍ਰਕਿਰਿਆ ਵਿਅਕਤੀਗਤ FFN ਪਰਤਾਂ ਦੇ ਵਜ਼ਨਾਂ ਨੂੰ ਜੋੜ ਕੇ ਕੰਮ ਕਰਦੀ ਹੈ। ਖਾਸ ਤੌਰ ‘ਤੇ, ਲਗਾਤਾਰ FFNs ਦੇ ਇਨਪੁਟ ਵਜ਼ਨ ਮੈਟ੍ਰਿਕਸ (W_in) ਨੂੰ ਫਿਊਜ਼ਡ ਪਰਤ ਲਈ ਇੱਕ ਸਿੰਗਲ, ਵੱਡੇ ਇਨਪੁਟ ਵਜ਼ਨ ਮੈਟ੍ਰਿਕਸ ਵਿੱਚ (ਉਦਾਹਰਨ ਲਈ, ਬਲਾਕ-ਡਾਇਗਨਲੀ) ਜੋੜਿਆ ਜਾਂਦਾ ਹੈ। ਇਸੇ ਤਰ੍ਹਾਂ, ਆਉਟਪੁੱਟ ਵਜ਼ਨ ਮੈਟ੍ਰਿਕਸ (W_out) ਨੂੰ ਇੱਕ ਸਿੰਗਲ, ਚੌੜਾ ਆਉਟਪੁੱਟ ਵਜ਼ਨ ਮੈਟ੍ਰਿਕਸ ਬਣਾਉਣ ਲਈ ਜੋੜਿਆ ਜਾਂਦਾ ਹੈ। ਐਕਟੀਵੇਸ਼ਨ ਫੰਕਸ਼ਨ ਇਸ ਵੱਡੇ ਢਾਂਚੇ ਦੇ ਅੰਦਰ ਤੱਤ-ਵਾਰ ਲਾਗੂ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਇਹ ਨਿਰਮਾਣ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਫਿਊਜ਼ਡ FFN ਅਸਲ ਇਨਪੁਟ x ‘ਤੇ ਅਸਲ FFNs ਦੇ ਅਨੁਸਾਰੀ ਸਮਾਨਾਂਤਰ ਮਾਰਗਾਂ ਵਿੱਚ ਇੱਕੋ ਸਮੇਂ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹਨਾਂ ਸਮਾਨਾਂਤਰ ਮਾਰਗਾਂ ਤੋਂ ਆਉਟਪੁੱਟ ਫਿਰ ਜੋੜੇ ਗਏ ਆਉਟਪੁੱਟ ਵਜ਼ਨਾਂ ਦੀ ਬਣਤਰ ਦੁਆਰਾ ਅਪ੍ਰਤੱਖ ਤੌਰ ‘ਤੇ ਇਕੱਠੇ ਕੀਤੇ ਜਾਂਦੇ ਹਨ।

ਸਿਧਾਂਤਕ ਆਧਾਰ ਪੁਸ਼ਟੀ ਕਰਦਾ ਹੈ ਕਿ ਇਹ ਫਿਊਜ਼ਡ ਢਾਂਚਾ FFNs ਦੇ ਅਸਲ ਕ੍ਰਮ ਦੇ ਸਮਾਨ ਪ੍ਰਤੀਨਿਧਤਾਤਮਕ ਸਮਰੱਥਾ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖ ਸਕਦਾ ਹੈ, ਬਸ਼ਰਤੇ ਅਸਲ ਪਰਤਾਂ ਵਿਚਕਾਰ ਨਿਰਭਰਤਾ ਅਸਲ ਵਿੱਚ ਘੱਟ ਹੋਵੇ। ਮੁੱਖ ਗੱਲ ਇਹ ਪਛਾਣਨਾ ਹੈ ਕਿ ਕਿਹੜੇ ਕ੍ਰਮ ਫਿਊਜ਼ਨ ਲਈ ਢੁਕਵੇਂ ਹਨ। ਇਸ ਨੂੰ ਯੋਜਨਾਬੱਧ ਢੰਗ ਨਾਲ ਕਰਨ ਲਈ, NVIDIA ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਇੱਕ ਨਿਰਭਰਤਾ ਵਿਸ਼ਲੇਸ਼ਣ ਤਕਨੀਕ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਉਹਨਾਂ ਨੇ ਇਨਪੁਟ ਟੋਕਨਾਂ ਦੇ ਇੱਕ ਪ੍ਰਤੀਨਿਧ ਸਮੂਹ ਲਈ ਲਗਾਤਾਰ FFN ਪਰਤਾਂ ਦੇ ਆਉਟਪੁੱਟ ਲੁਕਵੇਂ ਸਟੇਟਸ (hidden states) ਵਿਚਕਾਰ cosine distance ਨੂੰ ਮਾਪਿਆ। ਇੱਕ ਛੋਟੀ cosine distance ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ ਇੱਕ FFN ਦਾ ਆਉਟਪੁੱਟ ਵੈਕਟਰ ਕ੍ਰਮ ਵਿੱਚ ਅਗਲੇ FFN ਦੇ ਆਉਟਪੁੱਟ ਵੈਕਟਰ ਦੇ ਸਮਾਨ ਦਿਸ਼ਾ ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਦਾ ਹੈ। ਇਹ ਸਮਾਨਤਾ ਘੱਟ ਕਾਰਜਸ਼ੀਲ ਨਿਰਭਰਤਾ ਦਾ ਸੁਝਾਅ ਦਿੰਦੀ ਹੈ - ਦੂਜਾ FFN ਪਹਿਲੇ ਦੁਆਰਾ ਸਥਾਪਤ ਕੀਤੀ ਜਾਣਕਾਰੀ ਪ੍ਰਤੀਨਿਧਤਾ ਨੂੰ ਬਹੁਤ ਜ਼ਿਆਦਾ ਨਹੀਂ ਬਦਲ ਰਿਹਾ ਹੈ। ਪਰਤਾਂ ਵਿੱਚ ਲਗਾਤਾਰ ਘੱਟ cosine distances ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਨ ਵਾਲੇ FFNs ਦੇ ਕ੍ਰਮਾਂ ਨੂੰ ਫਿਊਜ਼ਨ ਲਈ ਪ੍ਰਮੁੱਖ ਉਮੀਦਵਾਰਾਂ ਵਜੋਂ ਪਛਾਣਿਆ ਗਿਆ ਸੀ, ਕਿਉਂਕਿ ਉਹਨਾਂ ਨੂੰ ਮਿਲਾਉਣ ਨਾਲ ਮਾਡਲ ਦੀਆਂ ਸਿੱਖੀਆਂ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਅਤੇ ਸਮੁੱਚੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਵਿਘਨ ਪੈਣ ਦੀ ਸੰਭਾਵਨਾ ਘੱਟ ਸੀ। ਇਹ ਡੇਟਾ-ਸੰਚਾਲਿਤ ਪਹੁੰਚ ਮਾਡਲ ਦੇ ਉਹਨਾਂ ਹਿੱਸਿਆਂ ‘ਤੇ FFN Fusion ਦੀ ਨਿਸ਼ਾਨਾ ਐਪਲੀਕੇਸ਼ਨ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ ਜਿੱਥੇ ਇਹ ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਅਤੇ ਘੱਟ ਤੋਂ ਘੱਟ ਵਿਘਨਕਾਰੀ ਹੋਵੇਗਾ।

ਵਿਸ਼ਾਲ ਤੋਂ ਦੌੜਾਕ ਤੱਕ: Ultra-253B-Base ਪਰਿਵਰਤਨ

FFN Fusion ਦੀ ਵਿਹਾਰਕ ਸ਼ਕਤੀ ਉਸ ਸਮੇਂ ਦੇ ਸਭ ਤੋਂ ਵੱਡੇ ਜਨਤਕ ਤੌਰ ‘ਤੇ ਜਾਣੇ ਜਾਂਦੇ ਮਾਡਲਾਂ ਵਿੱਚੋਂ ਇੱਕ, Llama-3.1-405B-Instruct ‘ਤੇ ਇਸਦੀ ਐਪਲੀਕੇਸ਼ਨ ਦੁਆਰਾ ਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਪ੍ਰਦਰਸ਼ਿਤ ਕੀਤੀ ਗਈ ਸੀ। ਇਹ ਮਾਡਲ, 405 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਦਾ ਮਾਣ ਕਰਦਾ ਹੈ, inference ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਗਣਨਾਤਮਕ ਉਪਕਰਮ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਖੋਜਕਰਤਾਵਾਂ ਨੇ Ultra-253B-Base ਨਾਮਕ ਇੱਕ ਨਵਾਂ, ਵਧੇਰੇ ਕੁਸ਼ਲ ਮਾਡਲ ਬਣਾਉਣ ਲਈ, ਰਣਨੀਤਕ pruning ਦੇ ਨਾਲ FFN Fusion ਨੂੰ ਜੋੜਦੇ ਹੋਏ, ਆਰਕੀਟੈਕਚਰਲ ਸੁਧਾਈ ਦੀ ਪ੍ਰਕਿਰਿਆ ਸ਼ੁਰੂ ਕੀਤੀ।

ਪਰਿਵਰਤਨ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਕਈ ਕਦਮ ਸ਼ਾਮਲ ਸਨ:

ਵਿਸ਼ਲੇਸ਼ਣ: ਆਪਣੇ ਨਿਰਭਰਤਾ ਵਿਸ਼ਲੇਸ਼ਣ ਸਾਧਨਾਂ (cosine distances ਨੂੰ ਮਾਪਣਾ) ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ Llama-405B ਆਰਕੀਟੈਕਚਰ ਦੇ ਅੰਦਰ ਲਗਾਤਾਰ FFN ਪਰਤਾਂ ਦੇ ਕ੍ਰਮ ਦੀ ਪਛਾਣ ਕੀਤੀ ਜਿਨ੍ਹਾਂ ਨੇ ਘੱਟ ਅੰਤਰ-ਪਰਤ ਨਿਰਭਰਤਾ ਪ੍ਰਦਰਸ਼ਿਤ ਕੀਤੀ।
Fusion: ਇਹਨਾਂ ਪਛਾਣੀਆਂ ਗਈਆਂ FFN ਕ੍ਰਮਾਂ ਨੂੰ ਫਿਰ ਪਹਿਲਾਂ ਦੱਸੇ ਅਨੁਸਾਰ ਸਿੰਗਲ, ਚੌੜੀਆਂ FFN ਪਰਤਾਂ ਵਿੱਚ ਫਿਊਜ਼ ਕੀਤਾ ਗਿਆ (ਵਜ਼ਨਾਂ ਨੂੰ ਜੋੜਨਾ)। ਇਸ ਨੇ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਨੈੱਟਵਰਕ ਵਿੱਚ ਕ੍ਰਮਵਾਰ ਕਦਮਾਂ ਦੀ ਗਿਣਤੀ ਘਟਾ ਦਿੱਤੀ।
Pruning: ਸਮਕਾਲੀ ਜਾਂ ਬਾਅਦ ਵਿੱਚ, ਘੱਟ ਮਹੱਤਵਪੂਰਨ ਸਮਝੇ ਜਾਣ ਵਾਲੇ ਪੈਰਾਮੀਟਰ (ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਸਟੈਂਡਰਡ pruning ਤਕਨੀਕਾਂ ਦੁਆਰਾ ਪਛਾਣੇ ਗਏ ਜਾਂ ਫਿਊਜ਼ਨ ਪ੍ਰਕਿਰਿਆ ਦੁਆਰਾ ਸੂਚਿਤ) ਨੂੰ ਮਾਡਲ ਤੋਂ ਹਟਾ ਦਿੱਤਾ ਗਿਆ ਸੀ।

ਇਸ ਸੰਯੁਕਤ ਪਹੁੰਚ ਦੇ ਨਤੀਜੇ ਵਜੋਂ Ultra-253B-Base ਬਣਿਆ, 253 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਵਾਲਾ ਇੱਕ ਮਾਡਲ। ਇਹ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਮੀ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ - ਅਸਲ 405B ਮਾਡਲ ਨਾਲੋਂ 37% ਤੋਂ ਵੱਧ ਘੱਟ ਪੈਰਾਮੀਟਰ। ਫਿਊਜ਼ਨ ਦੁਆਰਾ ਪ੍ਰਾਪਤ ਕੀਤੇ ਗਏ ਆਰਕੀਟੈਕਚਰਲ ਬਦਲਾਅ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਣ ਦਾ ਟੀਚਾ ਰੱਖਦੇ ਹੋਏ ਅਜਿਹੇ ਮਹੱਤਵਪੂਰਨ ਆਕਾਰ ਦੀ ਕਮੀ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਣ ਲਈ ਮੁੱਖ ਸਨ। ਟੀਚਾ ਸਿਰਫ਼ ਇੱਕ ਛੋਟਾ ਮਾਡਲ ਨਹੀਂ ਸੀ, ਬਲਕਿ FFN Fusion ਦੁਆਰਾ ਅਨਲੌਕ ਕੀਤੀ ਵਧੀ ਹੋਈ ਸਮਾਨਾਂਤਰਤਾ ਦੇ ਕਾਰਨ, ਇੱਕ ਬੁਨਿਆਦੀ ਤੌਰ ‘ਤੇ ਤੇਜ਼ ਅਤੇ ਵਧੇਰੇ ਗਣਨਾਤਮਕ ਤੌਰ ‘ਤੇ ਕਿਫ਼ਾਇਤੀ ਮਾਡਲ ਸੀ। ਇਸ ਕੇਸ ਸਟੱਡੀ ਨੇ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਪਰੂਫ-ਆਫ-ਕੰਸੈਪਟ ਵਜੋਂ ਕੰਮ ਕੀਤਾ, ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਵੱਡੇ ਪੈਮਾਨੇ ਦੇ ਮਾਡਲਾਂ ਨੂੰ ਕੁਸ਼ਲਤਾ ਲਈ ਕਾਫ਼ੀ ਹੱਦ ਤੱਕ ਪੁਨਰਗਠਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।

ਲਾਭਾਂ ਨੂੰ ਮਾਪਣਾ: ਪ੍ਰਦਰਸ਼ਨ, ਗਤੀ, ਅਤੇ ਸਰੋਤ ਬੱਚਤ

ਕਿਸੇ ਵੀ ਅਨੁਕੂਲਨ ਤਕਨੀਕ ਦੀ ਅਸਲ ਪ੍ਰੀਖਿਆ ਇਸਦੇ ਮਾਪਣਯੋਗ ਪ੍ਰਭਾਵ ਵਿੱਚ ਹੁੰਦੀ ਹੈ। Ultra-253B-Base ਲਈ, Llama-405B ਬੇਸ ‘ਤੇ FFN Fusion ਅਤੇ pruning ਨੂੰ ਲਾਗੂ ਕਰਨ ਤੋਂ ਪ੍ਰਾਪਤ ਨਤੀਜੇ ਮਜਬੂਰ ਕਰਨ ਵਾਲੇ ਸਨ, ਜੋ ਸਮਰੱਥਾ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸਮਝੌਤਿਆਂ ਤੋਂ ਬਿਨਾਂ ਕਈ ਮਾਪਾਂ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ।

Inference ਗਤੀ ਅਤੇ ਲਾਗਤ: ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਲਾਭ inference ਕੁਸ਼ਲਤਾ ਵਿੱਚ ਦੇਖੇ ਗਏ ਸਨ। ਅਸਲ 405B ਪੈਰਾਮੀਟਰ ਮਾਡਲ ਦੀ ਤੁਲਨਾ ਵਿੱਚ, Ultra-253B-Base ਨੇ ਪ੍ਰਾਪਤ ਕੀਤਾ:

Inference ਲੇਟੈਂਸੀ ਵਿੱਚ 1.71x ਸੁਧਾਰ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਮਾਡਲ ਜਵਾਬਾਂ ਨੂੰ ਕਾਫ਼ੀ ਤੇਜ਼ੀ ਨਾਲ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ, ਜੋ ਰੀਅਲ-ਟਾਈਮ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ।
32 ਦੇ ਬੈਚ ਆਕਾਰ ‘ਤੇ ਮਾਪਣ ਵੇਲੇ ਪ੍ਰਤੀ-ਟੋਕਨ ਗਣਨਾਤਮਕ ਲਾਗਤ ਵਿੱਚ 35x ਕਮੀ। ਪ੍ਰਤੀ ਟੋਕਨ ਗਣਨਾਤਮਕ ਓਪਰੇਸ਼ਨਾਂ (FLOPs) ਵਿੱਚ ਇਹ ਨਾਟਕੀ ਕਮੀ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਘੱਟ ਊਰਜਾ ਦੀ ਖਪਤ ਅਤੇ ਮਾਡਲ ਦੀ ਸੇਵਾ ਲਈ ਘੱਟ ਹਾਰਡਵੇਅਰ ਲੋੜਾਂ ਵਿੱਚ ਬਦਲ ਜਾਂਦੀ ਹੈ।

ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਬੈਂਚਮਾਰਕ: ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, ਇਹ ਕੁਸ਼

ਤੇ ਅੱਪਡੇਟ ਕੀਤਾ ਗਿਆ 2025-03-30

# AIGC # Llama # Nvidia