ਮਿਨੀਮੈਕਸ ਦਾ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ 'ਤੇ ਦਾਅ: ਜ਼ੋਂਗ ਯੀਰਾਨ ਨਾਲ ਗੱਲਬਾਤ

ਗੈਰ-ਮੁੱਖਧਾਰਾਈ ਤਕਨੀਕੀ ਮਾਰਗ ‘ਤੇ ਇੱਕ ਮੋਢੀ

ਕੀ ਤੁਸੀਂ ਸੰਖੇਪ ਵਿੱਚ ਆਪਣੀ ਜਾਣ-ਪਛਾਣ ਕਰਵਾ ਸਕਦੇ ਹੋ?

ਮੈਂ ਜ਼ੋਂਗ ਯੀਰਾਨ ਹਾਂ, ਮਿਨੀਮੈਕਸ ਵਿੱਚ ਸੀਨੀਅਰ ਰਿਸਰਚ ਡਾਇਰੈਕਟਰ, ਜਿੱਥੇ ਮੈਂ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਨੈੱਟਵਰਕ ਆਰਕੀਟੈਕਚਰ ਅਤੇ ਮਲਟੀਮੋਡਲ ਸਮਝ ਵਾਲੇ ਵੱਡੇ ਮਾਡਲਾਂ ਦੇ ਡਿਜ਼ਾਈਨ ਦੀ ਨਿਗਰਾਨੀ ਕਰਦਾ ਹਾਂ। ਮਿਨੀਮੈਕਸ ਵਿੱਚ, ਮੇਰੀ ਮੁੱਖ ਜ਼ਿੰਮੇਵਾਰੀ ਮਿਨੀਮੈਕਸ-01 ਨੈੱਟਵਰਕ ਢਾਂਚੇ ਦੇ ਡਿਜ਼ਾਈਨ ਦੀ ਅਗਵਾਈ ਕਰਨਾ ਹੈ।

ਪਹਿਲਾਂ, ਮੈਂ ਸ਼ੰਘਾਈ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਲੈਬਾਰਟਰੀ ਵਿਖੇ ਨਿਊ ਆਰਕੀਟੈਕਚਰ ਐਕਸਪਲੋਰੇਸ਼ਨ ਗਰੁੱਪ ਲਈ ਇੱਕ PI ਵਜੋਂ ਕੰਮ ਕੀਤਾ, ਜੋ ਗੈਰ-ਟਰਾਂਸਫਾਰਮਰ ਆਰਕੀਟੈਕਚਰਾਂ ਲਈ ਕੁਸ਼ਲ ਸਿਖਲਾਈ ਮਾਡਲਿੰਗ ਵਿਧੀਆਂ ਅਤੇ ਵਿਜ਼ੂਅਲ-ਆਡੀਓ-ਭਾਸ਼ਾਈ ਮਲਟੀਮੋਡਲ ਫਿਊਜ਼ਨ ‘ਤੇ ਖੋਜ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦਾ ਹੈ।

ਤੁਸੀਂ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ‘ਤੇ ਖੋਜ ਕਦੋਂ ਸ਼ੁਰੂ ਕੀਤੀ, ਅਤੇ ਤੁਸੀਂ ਇਹ ਤਕਨੀਕੀ ਰਸਤਾ ਕਿਉਂ ਚੁਣਿਆ?

ਮੈਂ ਲਗਭਗ ਜੁਲਾਈ 2021 ਵਿੱਚ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ‘ਤੇ ਖੋਜ ਸ਼ੁਰੂ ਕੀਤੀ। ਇਹ ਇੱਕ ਪੇਪਰ ਤੋਂ ਪੈਦਾ ਹੋਇਆ ਸੀ ਜਿਸ ‘ਤੇ ਮੈਂ 2020 ਵਿੱਚ ਆਪਣੀ ਪੀਐਚਡੀ ਲਈ ਕੰਮ ਕੀਤਾ ਸੀ, ‘ਇਨਵਰਟੀਬਲ ਅਟੈਂਸ਼ਨ’। ਉਸ ਸਮੇਂ, ਇਨਵਰਟੀਬਲ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਅਤੇ ਅਟੈਂਸ਼ਨ ਮਕੈਨਿਜ਼ਮ ਦੋਵੇਂ ਹੀ ਕਾਫ਼ੀ ਮਸ਼ਹੂਰ ਸਨ, ਇਸਲਈ ਅਸੀਂ ਉਹਨਾਂ ਨੂੰ ਆਪਣੀ ਖੋਜ ਵਿੱਚ ਜੋੜਿਆ।

ਬਾਅਦ ਵਿੱਚ, ਸਾਡੀ ਟੀਮ ਦੇ ਕੁਝ ਮੈਂਬਰਾਂ ਨੂੰ ਗਣਿਤ ਵਿੱਚ ਬਹੁਤ ਦਿਲਚਸਪੀ ਹੋ ਗਈ। ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਵਰਗੀਆਂ ਕੁਸ਼ਲ ਸੀਕੁਐਂਸ ਮਾਡਲਿੰਗ ਵਿਧੀਆਂ ਲਈ ਇੱਕ ਮਜ਼ਬੂਤ ਗਣਿਤਿਕ ਬੁਨਿਆਦ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਅਤੇ ਇਸ ਵਿੱਚ ਬਹੁਤ ਸਾਰੇ ਫਾਰਮੂਲਾ ਡੈਰੀਵੇਸ਼ਨ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ, ਜੋ ਕਿ ਟੀਮ ਦੀਆਂ ਰੁਚੀਆਂ ਦੇ ਨਾਲ ਪੂਰੀ ਤਰ੍ਹਾਂ ਇਕਸਾਰ ਹੈ, ਇਸਲਈ ਅਸੀਂ ਇਹ ਦਿਸ਼ਾ ਚੁਣੀ।

ਉਸ ਸਮੇਂ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਦੀ ਉਦਯੋਗ ਵਿੱਚ ਕੀ ਸਥਿਤੀ ਸੀ?

ਇਹ ਬਹੁਤ ਗੈਰ-ਮੁੱਖਧਾਰਾ ਸੀ, ਬਹੁਤ ਘੱਟ ਲੋਕ ਇਸ ‘ਤੇ ਕੰਮ ਕਰ ਰਹੇ ਸਨ। ਜ਼ਿਆਦਾਤਰ ਖੋਜਕਰਤਾ ਟਰਾਂਸਫਾਰਮਰਾਂ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਸਨ, ਜੋ ਕਿ ਜ਼ਰੂਰੀ ਤੌਰ ‘ਤੇ NLP ਵਿੱਚ ਪ੍ਰਮੁੱਖ ਸ਼ਕਤੀ ਬਣ ਗਏ ਸਨ।

ਅਸੀਂ ਸੋਚਿਆ ਕਿ ਟਰਾਂਸਫਾਰਮਰ ਖੋਜ ਕਰਨ ਵਾਲੀ ਭੀੜ ਵਿੱਚ ਇੱਕ ਹੋਰ ਚਿਹਰਾ ਬਣਨ ਦੀ ਬਜਾਏ, ਸਾਨੂੰ ਕੁਝ ਵੱਖਰਾ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ।

ਤੁਸੀਂ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਰੂਟ ਦੀ ਤਕਨੀਕੀ ਸੰਭਾਵਨਾ ਦਾ ਮੁਲਾਂਕਣ ਕਿਵੇਂ ਕੀਤਾ?

ਸਾਡੀ ਸ਼ੁਰੂਆਤੀ ਪ੍ਰੇਰਣਾ ਸਿੱਧੀ ਸੀ: ਟਰਾਂਸਫਾਰਮਰਾਂ ਦੀ ਕੁਆਡ੍ਰੈਟਿਕ ਕੰਪਿਊਟੇਸ਼ਨਲ ਕੰਪਲੈਕਸਿਟੀ ਨੂੰ ਹੱਲ ਕਰਨਾ। ਅਸੀਂ ਵਿਰਲੇ ਟਰਾਂਸਫਾਰਮਰਾਂ ਅਤੇ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਸਮੇਤ ਕਈ ਤਰੀਕਿਆਂ ਦੀ ਜਾਂਚ ਕੀਤੀ।

ਅਸੀਂ ਪਾਇਆ ਕਿ ਵਿਰਲੇ ਟਰਾਂਸਫਾਰਮਰਾਂ ਨੇ ਕੰਮ ਕੀਤਾ, ਟਰਾਂਸਫਾਰਮਰਾਂ ਦੇ ਮੁਕਾਬਲੇ ਤੇਜ਼ ਰਫ਼ਤਾਰ ਅਤੇ ਘੱਟ ਮੈਮੋਰੀ ਵਰਤੋਂ ਦੀ ਪੇਸ਼ਕਸ਼ ਕੀਤੀ। ਹਾਲਾਂਕਿ, ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਨੇ ਮਾੜਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਅਤੇ ਇਹ ਵੀ ਹੌਲੀ ਸੀ। ਇਸਦੇ ਬਾਵਜੂਦ, ਅਸੀਂ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਨੂੰ ਅੱਗੇ ਵਧਾਉਣ ਦੀ ਚੋਣ ਕੀਤੀ।

ਇੱਕ ਕਾਰਨ ਇਸਦੀ ਗਣਿਤਿਕ ਅਪੀਲ ਸੀ - ਅਸੀਂ ਮੰਨਦੇ ਸੀ ਕਿ ਇਸਦਾ ਪ੍ਰਦਰਸ਼ਨ ਬਿਹਤਰ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ। ਦੂਸਰਾ ਇਹ ਸੀ ਕਿ ਸਾਨੂੰ ਲੱਗਾ ਕਿ ਵਿਰਲੀ ਅਟੈਂਸ਼ਨ ਦੀ ਉਪਰਲੀ ਸੀਮਾ ਪੂਰੀ ਅਟੈਂਸ਼ਨ ਸੀ, ਜਿਸ ਨਾਲ ਇਸ ਨੂੰ ਪਾਰ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੋ ਜਾਂਦਾ ਹੈ। ਦੂਜੇ ਪਾਸੇ, ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਵਿੱਚ ਇਸ ਤੋਂ ਵੱਧ ਜਾਣ ਦੀ ਸੰਭਾਵਨਾ ਸੀ।

ਕੀ ਤੁਸੀਂ ਦੱਸ ਸਕਦੇ ਹੋ ਕਿ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਕੀ ਹੈ?

ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਜ਼ਰੂਰੀ ਤੌਰ ‘ਤੇ ਇੱਕ ਕਰਨਲ ਟ੍ਰਿਕ ਹੈ। ਟਰਾਂਸਫਾਰਮਰਾਂ ਵਿੱਚ, Q, K, ਅਤੇ V ਮੈਟ੍ਰਿਕਸ ਨੂੰ ਗੁਣਾ ਕਰਨ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਕੰਪਿਊਟੇਸ਼ਨਲ ਕੰਪਲੈਕਸਿਟੀਆਂ ਸ਼ਾਮਲ ਹੁੰਦੀਆਂ ਹਨ ਇਸ ਗੱਲ ‘ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ ਕਿ ਤੁਸੀਂ ਪਹਿਲਾਂ QK ਨੂੰ ਗੁਣਾ ਕਰਦੇ ਹੋ ਜਾਂ ਪਹਿਲਾਂ KV ਨੂੰ, ਵੱਖ-ਵੱਖ ਮਾਪਾਂ ਦੇ ਕਾਰਨ।

ਪਹਿਲਾਂ KV ਨੂੰ ਗੁਣਾ ਕਰਨ ਨਾਲ ਕੰਪਿਊਟੇਸ਼ਨਲ ਕੰਪਲੈਕਸਿਟੀ ਨੂੰ ਲੀਨੀਅਰ ਤੱਕ ਘਟਾਇਆ ਜਾ ਸਕਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਸਮੱਸਿਆ ਇਹ ਹੈ ਕਿ QK ਗੁਣਾ ਤੋਂ ਬਾਅਦ ਇੱਕ ਸੌਫਟਮੈਕਸ ਓਪਰੇਸ਼ਨ ਹੁੰਦਾ ਹੈ, ਜੋ ਕਿ ਕਮਿਊਟੇਟਿਵ ਵਿਸ਼ੇਸ਼ਤਾ ਨੂੰ ਸੰਤੁਸ਼ਟ ਨਹੀਂ ਕਰਦਾ ਹੈ ਅਤੇ ਇਸਨੂੰ ਆਸਾਨੀ ਨਾਲ KVfirst ਨੂੰ ਗੁਣਾ ਕਰਨ ਵਿੱਚ ਵੰਡਿਆ ਨਹੀਂ ਜਾ ਸਕਦਾ ਹੈ। ਇਸਲਈ, ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਵਿੱਚ ਪਹਿਲਾ ਕਦਮ ਸੌਫਟਮੈਕਸ ਨੂੰ ਹਟਾਉਣਾ ਹੈ।

ਪਰ ਸੌਫਟਮੈਕਸ ਨੂੰ ਹਟਾਉਣ ਨਾਲ ਨਤੀਜਿਆਂ ‘ਤੇ ਅਸਰ ਪੈਂਦਾ ਹੈ। ਇਸ ਤੋਂ ਬਾਅਦ ਦਾ ਕੰਮ ਸੌਫਟਮੈਕਸ ਤੋਂ ਬਿਨਾਂ ਨਤੀਜਿਆਂ ਵਿੱਚ ਇਕਸਾਰਤਾ ਬਣਾਈ ਰੱਖਣਾ ਹੈ, ਜਿਸਦਾ ਉਦੇਸ਼ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਦਾ ਹੈ।

ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ, ਵਿਰਲੀ ਅਟੈਂਸ਼ਨ, ਅਤੇ ਲੀਨੀਅਰ RNN ਆਰਕੀਟੈਕਚਰਾਂ ਵਿੱਚ ਬੁਨਿਆਦੀ ਅੰਤਰ ਕੀ ਹਨ?

ਵਿਰਲੀ ਅਟੈਂਸ਼ਨ ਅਜੇ ਵੀ ਜ਼ਰੂਰੀ ਤੌਰ ‘ਤੇ ਇੱਕ ਸੌਫਟਮੈਕਸ ਅਟੈਂਸ਼ਨ ਹੈ। ਇਹ ਸਿਰਫ਼ ਇੱਕ ਸੰਘਣੀ ਅਟੈਂਸ਼ਨ ਮੈਟ੍ਰਿਕਸ ਨਾਲੋਂ ਘੱਟ ਬਿੰਦੂਆਂ ਦੀ ਗਣਨਾ ਕਰਦਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਸਲਾਈਡਿੰਗ ਵਿੰਡੋ ਅਟੈਂਸ਼ਨ ਸਿਰਫ਼ ਇੱਕ ਵਿੰਡੋ ਦੇ ਅੰਦਰ ਅਟੈਂਸ਼ਨ ਸਕੋਰ ਦੀ ਗਣਨਾ ਕਰਦੀ ਹੈ, ਗਣਨਾ ਦੀ ਮਾਤਰਾ ਨੂੰ ਘਟਾ ਕੇ ਪ੍ਰਵੇਗ ਪ੍ਰਾਪਤ ਕਰਦੀ ਹੈ।

ਲੀਨੀਅਰ RNNs ਅਤੇ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਜ਼ਰੂਰੀ ਤੌਰ ‘ਤੇ ਇੱਕੋ ਚੀਜ਼ ਹਨ, ਜਿਸਨੂੰ ਕੁਝ ਦੁਆਰਾ RNNs ਕਿਹਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਦੂਜਿਆਂ ਦੁਆਰਾ ਅਟੈਂਸ਼ਨ।

ਹਰ ਚੀਜ਼ ਨੂੰ RNN ਰੂਪ ਵਿੱਚ ਲਿਖਿਆ ਜਾ ਸਕਦਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਲਾਈਟਨਿੰਗ ਅਟੈਂਸ਼ਨ RWKV-4 ਨਾਲ ਮੇਲ ਖਾਂਦੀ ਹੈ, ਜਦੋਂ ਕਿ RWKV-7 ਗੇਟਡ ਡੈਲਟਾ ਨੈੱਟ ਦਾ ਇੱਕ ਸੁਧਾਰਿਆ ਹੋਇਆ ਸੰਸਕਰਣ ਹੈ। ਭਾਵੇਂ ਉਹ ਤੱਤ ਵਿੱਚ ਸਮਾਨ ਹਨ, ਪਰ ਉਹਨਾਂ ਦੇ ਲਾਗੂ ਕਰਨ ਦੇ ਵੇਰਵੇ ਵੱਖਰੇ ਹਨ।

ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਮਕੈਨਿਜ਼ਮ ਦੀ ਖੋਜ ਵਿੱਚ ਮੁੱਖ ਮੀਲ ਪੱਥਰ ਕੀ ਹਨ?

ਲਗਭਗ 2018-19 ਵਿੱਚ, ਖੋਜ ਨੇ ਦਿਖਾਇਆ ਕਿ ਕਰਨਲ ਟ੍ਰਿਕਸ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਟਰਾਂਸਫਾਰਮਰ ਸੌਫਟਮੈਕਸ ਅਟੈਂਸ਼ਨ ਦੀ ਸਿਧਾਂਤਕ ਕੰਪਿਊਟੇਸ਼ਨਲ ਕੰਪਲੈਕਸਿਟੀ ਨੂੰ ਘਟਾਇਆ ਜਾ ਸਕਦਾ ਹੈ, ਪਰ ਨਤੀਜੇ ਮਾੜੇ ਸਨ, ਅਤੇ ਕੁਸ਼ਲਤਾ ਘੱਟ ਸੀ।

2019-20 ਵਿੱਚ, ਵਿਰਲੀ ਅਟੈਂਸ਼ਨ ਪ੍ਰਮੁੱਖ ਸੀ, ਗੂਗਲ ਵਰਗੀਆਂ ਕੰਪਨੀਆਂ ਨੇ ਬਹੁਤ ਸਾਰੇ ਵਿਰਲੇ ਅਟੈਂਸ਼ਨ ਰੂਪਾਂ ਦਾ ਪ੍ਰਸਤਾਵ ਕੀਤਾ। ਬਾਅਦ ਵਿੱਚ, ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਉਭਰਨੀ ਸ਼ੁਰੂ ਹੋ ਗਈ, ਪਰ ਇਸਨੂੰ ਮਾੜੇ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਹੌਲੀ ਰਫ਼ਤਾਰ ਦੀ ਚੁਣੌਤੀ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪਿਆ।

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਸੁਧਾਰ ਲਈ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਦੋ ਤਰੀਕਿਆਂ ਨੂੰ ਅਪਣਾਇਆ: ਇੱਕ ਸੌਫਟਮੈਕਸ ਫੰਕਸ਼ਨ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣਾ ਸੀ, ਜਿਸ ਨਾਲ ਵੰਡ ਸੌਫਟਮੈਕਸ ਦੇ ਅਨੁਕੂਲ ਹੋ ਜਾਂਦੀ ਹੈ; ਦੂਜਾ, ਜੋ ਅਸੀਂ ਚੁਣਿਆ, ਪੂਰੀ ਤਰ੍ਹਾਂ ਵੱਖਰੀਆਂ ਵਿਧੀਆਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮਾਡਲਿੰਗ ਕਰਨਾ ਸੀ, ਆਪਣੇ ਆਪ ਨੂੰ ਸੌਫਟਮੈਕਸ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣ ਨਾਲ ਸਬੰਧਤ ਕੀਤੇ ਬਿਨਾਂ।

ਅਸੀਂ ਅਕਤੂਬਰ 2021 ਵਿੱਚ ਆਪਣਾ ਪਹਿਲਾ ਪੇਪਰ, ‘COSFORMER: RETHINKING SOFTMAX IN ATTENTION’, ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤਾ, ਜਿਸ ਨੇ ਇੱਕ ਕੋਸਾਈਨ ਫੰਕਸ਼ਨ ਨਾਲ ਸੌਫਟਮੈਕਸ ਓਪਰੇਸ਼ਨ ਨੂੰ ਬਦਲ ਦਿੱਤਾ, ਜਿਸ ਨਾਲ ਗਣਨਾ ਨੂੰ ਵੰਡਿਆ ਜਾ ਸਕਦਾ ਹੈ।

2022 ਦੇ ਪਹਿਲੇ ਅੱਧ ਵਿੱਚ, ਅਸੀਂ ਇੱਕ ਦੂਜਾ ਪੇਪਰ ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤਾ, ‘The Devil in Linear Transformer’, ਜਿਸ ਵਿੱਚ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਗਿਰਾਵਟ ਦੇ ਕਾਰਨਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ ਗਿਆ ਅਤੇ ਹੱਲ ਪ੍ਰਦਾਨ ਕੀਤੇ ਗਏ। ਇਹ ਲਾਈਟਨਿੰਗ ਅਟੈਂਸ਼ਨ ਦਾ ਅਗਲਾ ਹਿੱਸਾ ਸੀ।

ਬਾਅਦ ਵਿੱਚ, ਅਸੀਂ ਵਿਸ਼ੇਸ਼ ਤੌਰ ‘ਤੇ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਅਤੇ ਲੰਬੇ ਕਨਵੋਲਿਊਸ਼ਨਾਂ ਲਈ ਸਥਿਤੀ ਇਨਕੋਡਿੰਗਾਂ ‘ਤੇ ਵੀ ਖੋਜ ਕੀਤੀ, TNN ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤਾ, ‘TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING’, S4 (ਮਾਂਬਾ ਦਾ ਪੂਰਵਜ) ਵਰਗੀ ਇੱਕ ਵਿਧੀ।

ਅੰਤ ਵਿੱਚ, ਅਸੀਂ ਲਾਈਟਨਿੰਗ ਅਟੈਂਸ਼ਨ ਲਾਂਚ ਕੀਤੀ, ਜੋ ਸੁਧਾਰੇ ਹੋਏ ਡਿਕੇਅ ਵਿਧੀਆਂ ਅਤੇ ਨੈੱਟਵਰਕ ਢਾਂਚਿਆਂ ਦੁਆਰਾ ਟਰਾਂਸਫਾਰਮਰਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨਾਲ ਮੇਲ ਖਾਂਦੀ ਹੈ। ਅਸੀਂ ਇਸਨੂੰ ਤੇਜ਼ ਬਣਾਉਣ ਲਈ ਇੱਕ ਟਾਈਲਿੰਗ ਤਕਨੀਕ ਦੀ ਵੀ ਵਰਤੋਂ ਕੀਤੀ।

ਗੈਰ-ਟਰਾਂਸਫਾਰਮਰ ਆਰਕੀਟੈਕਚਰ ਤਕਨੀਕੀ ਰਸਤਿਆਂ ‘ਤੇ ਤੁਹਾਡੇ ਕੀ ਵਿਚਾਰ ਹਨ?

ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਅਸਲ ਵਿੱਚ ਇੱਕ ਗੈਰ-ਟਰਾਂਸਫਾਰਮਰ ਵਿਧੀ ਹੈ। ਵਰਤਮਾਨ ਵਿੱਚ, RNN-ਵਰਗੇ ਪਹੁੰਚਾਂ ਤੋਂ ਇਲਾਵਾ, ਹੋਰ ਗੈਰ-ਟਰਾਂਸਫਾਰਮਰ ਆਰਕੀਟੈਕਚਰ ਘਟ ਰਹੇ ਹਨ।

ਉਦਾਹਰਨ ਲਈ, CNNs ਜਿਵੇਂ ਕਿ ਲੰਬੇ ਕਨਵੋਲਿਊਸ਼ਨ ਅਤੇ ਵੱਡੇ ਕਰਨਲ ਕਨਵੋਲਿਊਸ਼ਨ, ਅਜਿਹਾ ਲੱਗਦਾ ਹੈ ਜਿਵੇਂ ਉਹਨਾਂ ਨੂੰ ਮਾੜੇ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਕਾਰਨ ਹੌਲੀ-ਹੌਲੀ ਖਤਮ ਕਰ ਦਿੱਤਾ ਗਿਆ ਹੈ, ਪਰ ਉਹ ਅਸਲ ਵਿੱਚ ਕੁਝ ਪਹਿਲੂਆਂ ਵਿੱਚ ਕਾਫ਼ੀ ਮਜ਼ਬੂਤ ਹਨ, ਅਜੇ ਵੀ ਸੀਕੁਐਂਸ ਮਾਡਲਿੰਗ ਵਿੱਚ ਕੁਝ ਪ੍ਰਭਾਵ ਪਾਉਂਦੇ ਹਨ, ਜਿਵੇਂ ਕਿ ਅਸਧਾਰਨ ਖੋਜ ਕਾਰਜ।

ਅਸਲ ਵਿੱਚ ਸਿਰਫ਼ ਤਿੰਨ ਗੈਰ-ਟਰਾਂਸਫਾਰਮਰ ਆਰਕੀਟੈਕਚਰ ਹਨ: ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ, ਲੰਬੇ ਕਨਵੋਲਿਊਸ਼ਨ, ਅਤੇ ਲੀਨੀਅਰ RNNs।

ਪਰ ਅਸਲੀਅਤ ਵਿੱਚ, ਇਹਨਾਂ ਤਿੰਨਾਂ ਨੂੰ ਇੱਕ ਵਿੱਚ ਇਕਜੁੱਟ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਜਿਸਨੂੰ ਅਸੀਂ ਲੀਨੀਅਰ ਕੰਪਲੈਕਸਿਟੀ ਮਾਡਲ ਕਹਿੰਦੇ ਹਾਂ। ਅਸੀਂ ਤਿੰਨਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦੇ ਹੋਏ ਇੱਕ ਲੇਖ ਲਿਖਿਆ।

ਲਾਈਟਨਿੰਗ ਅਟੈਂਸ਼ਨ ਅਤੇ ਮਾਂਬਾ ਅਤੇ RWKV ਵਿੱਚ ਮੁੱਖ ਅੰਤਰ ਕੀ ਹਨ?

ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਅੰਤਰ ਇਹ ਹੈ ਕਿ ਲਾਈਟਨਿੰਗ ਅਟੈਂਸ਼ਨ ਸਭ ਤੋਂ ਸਰਲ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਹੈ। ਮਾਂਬਾ ਅਤੇ RWKV ਦੋਵੇਂ ਡਾਟਾ-ਨਿਰਭਰ ਡਿਕੇਅ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ, ਜਦੋਂ ਕਿ ਲਾਈਟਨਿੰਗ ਅਟੈਂਸ਼ਨ ਗਤੀ ਲਈ ਹੱਥੀਂ ਬਣਾਈ ਗਈ ਡਿਕੇਅ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ।

ਭਾਵੇਂ ਸਿੱਖਣਯੋਗ ਡਿਕੇਅ ਬਿਹਤਰ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੀ ਹੈ, ਪਰ ਇਹ ਗਤੀ ਦਾ ਬਲੀਦਾਨ ਕਰਦੀ ਹੈ। ਉਦਾਹਰਨ ਲਈ, RWKV-7 ਗੇਟਿੰਗ ਡੈਲਟਾ ਨੈੱਟ ਨਾਲੋਂ 10-15% ਹੌਲੀ ਹੈ, ਜਦੋਂ ਕਿ ਗੇਟਡ ਡੈਲਟਾ ਨੈੱਟ ਲਾਈਟਨਿੰਗ ਅਟੈਂਸ਼ਨ ਦੀ ਗਤੀ ਦਾ ਲਗਭਗ ਅੱਧਾ ਹੈ।

RWKV ਦਾ ਮਾਡਲਿੰਗ ਪ੍ਰਭਾਵ ਅਸਲ ਵਿੱਚ ਲਾਈਟਨਿੰਗ ਅਟੈਂਸ਼ਨ ਨਾਲੋਂ ਬਿਹਤਰ ਹੈ, ਪਰ ਇਹ ਹੌਲੀ ਹੈ ਅਤੇ ਇਸਨੇ ਅਜੇ ਤੱਕ ਮੁੜ ਪ੍ਰਾਪਤੀ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਨਹੀਂ ਕੀਤਾ ਹੈ।

ਕੀ ਹੁਣ ਇਹ ਉਦਯੋਗ ਸਹਿਮਤੀ ਹੈ ਕਿ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਦੀ ਇੱਕ ਉੱਚ ਅਤੇ ਸੰਭਵ ਉਪਰਲੀ ਸੀਮਾ ਹੈ?

ਨਹੀਂ, ਜੇਕਰ ਇਹ ਸਹਿਮਤੀ ਹੁੰਦੀ, ਤਾਂ ਹਰ ਕੋਈ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਮਾਡਲਾਂ ਨੂੰ ਸਕੇਲ ਕਰ ਰਿਹਾ ਹੁੰਦਾ। ਅਤੇ ਇਹ ਹੁਣ ਵੀ ਸਹਿਮਤੀ ਨਹੀਂ ਹੈ। ਜੇਕਰ ਇਹ ਹੁੰਦੀ, ਤਾਂ ਹਰ ਕੋਈ ਲੀਨੀਅਰ ਕਰ ਰਿਹਾ ਹੁੰਦਾ, ਪਰ ਜਿਵੇਂ ਕਿ ਤੁਸੀਂ ਦੇਖ ਸਕਦੇ ਹੋ, ਅਜਿਹਾ ਨਹੀਂ ਹੈ।

ਪਰ ਸਾਡੇ ਲਈ, ਅਸੀਂ ਇਹ ਪਹਿਲਾਂ ਹੀ 2023 ਦੇ ਦੂਜੇ ਅੱਧ ਵਿੱਚ ਦੇਖ ਲਿਆ ਸੀ। ਉਸ ਸਮੇਂ, ਮੈਂ ਬਹੁਤ ਸਾਰੇ ਲੋਕਾਂ ਨੂੰ ਪੁੱਛਿਆ ਅਤੇ ਬਹੁਤ ਸਾਰੇ ਲੋਕਾਂ ਨਾਲ ਗੱਲ ਕੀਤੀ, ਅਤੇ ਉਹਨਾਂ ਦੁਆਰਾ ਉਠਾਇਆ ਗਿਆ ਸਭ ਤੋਂ ਆਮ ਬਿੰਦੂ ਇਹ ਸੀ ਕਿ ਉਹ ਜਾਣਦੇ ਸਨ ਕਿ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਛੋਟੇ ਪੈਮਾਨੇ ‘ਤੇ ਕੰਮ ਕਰਦੀ ਹੈ, ਪਰ ਉਹਨਾਂ ਨੂੰ ਲੱਗਾ ਕਿ ਇਹ ਇੱਕ ਵਾਰ ਸਕੇਲ ਹੋਣ ‘ਤੇ ਅਸਫਲ ਹੋ ਜਾਵੇਗੀ।

ਉਸ ਸਮੇਂ, ਮੈਂ ਸੋਚਿਆ ਕਿ ਮੈਂ ਇਸਨੂੰ ਸਾਰਿਆਂ ਲਈ ਦੇਖਣ ਲਈ ਸਕੇਲ ਕਰਾਂਗਾ। ਹੁਣ ਜਦੋਂ ਮਿਨੀਮੈਕਸ-01 ਬਾਹਰ ਹੈ, ਤਾਂ ਕਿਸੇ ਨੂੰ ਵੀ ਵੱਡੇ ਪੈਮਾਨੇ ‘ਤੇ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਦੀ ਯੋਗਤਾ ‘ਤੇ ਕੋਈ ਸ਼ੱਕ ਨਹੀਂ ਹੈ।

ਛੋਟੇ ਪ੍ਰਯੋਗਾਂ ਤੋਂ ਲੈ ਕੇ ਵੱਡੇ ਪੈਮਾਨੇ ਦੇ ਲਾਗੂਕਰਨ ਤੱਕ

ਕੀ ਤੁਹਾਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਦੀ ਉਪਰਲੀ ਸੀਮਾ ਪੂਰੀ ਅਟੈਂਸ਼ਨ ਤੋਂ ਵੱਧ ਸਕਦੀ ਹੈ?

ਅਸੀਂ ਹੁਣ ਦੇਖ ਸਕਦੇ ਹਾਂ ਕਿ ਹਾਈਬ੍ਰਿਡ ਆਰਕੀਟੈਕਚਰ ਸ਼ੁੱਧ ਟਰਾਂਸਫਾਰਮਰਾਂ ਨਾਲੋਂ ਬਿਹਤਰ ਹਨ। ਪਰ ਸ਼ੁੱਧ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਨਾਲ ਸਭ ਤੋਂ ਵੱਡੀ ਸਮੱਸਿਆ ਮੁੜ ਪ੍ਰਾਪਤੀ ਯੋਗਤਾ ਹੈ, ਜੋ ਕਿ ਅਕਾਦਮਿਕ ਲਈ ਹੱਲ ਕਰਨ ਲਈ ਇੱਕ ਮੁਸ਼ਕਲ ਸਮੱਸਿਆ ਹੈ।

ਮੌਜੂਦਾ ਵਿਧੀਆਂ, ਭਾਵੇਂ ਗੁੰਝਲਦਾਰ ਅਤੇ ਹੌਲੀ ਹਨ, ਫਿਰ ਵੀ ਇਸਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਹੱਲ ਨਹੀਂ ਕਰ ਸਕਦੀਆਂ, ਜਿਸ ਕਰਕੇ ਹਾਈਬ੍ਰਿਡ ਆਰਕੀਟੈਕਚਰਾਂ ਵੱਲ ਵਧਣਾ ਜ਼ਰੂਰੀ ਹੈ।

ਤੁਹਾਨੂੰ ਕਿਹੜਾ ਨੋਡ ਦੇਖਿਆ ਜਿਸਨੇ ਤੁਹਾਨੂੰ ਲੈਬ ਤੋਂ ਬਾਹਰ ਆਉਣ ਦਾ ਫੈਸਲਾ ਕਰਨ ਲਈ ਮਜਬੂਰ ਕੀਤਾ?

ਮਈ-ਜੂਨ 2023 ਵਿੱਚ, ਸਾਡੇ ਕੋਲ ਪਹਿਲਾਂ ਹੀ ਅੰਦਰੂਨੀ ਤੌਰ ‘ਤੇ ਲਾਈਟਨਿੰਗ ਅਟੈਂਸ਼ਨ 2 ਸੀ, ਜੋ ਕਿ ਦੁਨੀਆ ਦਾ ਪਹਿਲਾ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਲਾਗੂਕਰਨ ਸੀ ਜੋ ਫਲੈਸ਼ ਅਟੈਂਸ਼ਨ ਨਾਲੋਂ ਤੇਜ਼ ਸੀ।

ਸਾਡਾ ਮੰਨਣਾ ਹੈ ਕਿ ਇਸਨੇ ਉਦਯੋਗਿਕ ਲਾਲ ਲਾਈਨ ਨੂੰ ਪਾਰ ਕਰ ਲਿਆ ਹੈ, ਅਤੇ ਇਸਦੀ ਤਕਨੀਕੀ ਪਰਿਪੱਕਤਾ ਬਹੁਤ ਉੱਚੀ ਹੈ ਅਤੇ ਇਸਨੂੰ ਸਕੇਲ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।

ਤੁਸੀਂ ਇਸ ਉਦਯੋਗਿਕ ਲਾਲ ਲਾਈਨ ਨੂੰ ਕਿਵੇਂ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦੇ ਹੋ?

ਪਹਿਲਾ, ਪ੍ਰਭਾਵ ਟਰਾਂਸਫਾਰਮਰ ਨਾਲੋਂ ਬਿਹਤਰ ਹੈ, ਅਤੇ ਦੂਜਾ, ਇਹ ਟਰਾਂਸਫਾਰਮਰ ਨਾਲੋਂ ਤੇਜ਼ ਹੈ। ਇਹ ਇਸਨੂੰ ਟਰਾਂਸਫਾਰਮਰ ਨੂੰ ਬਦਲਣ ਦੀ ਸਮਰੱਥਾ ਦਿੰਦਾ ਹੈ। ਅਸੀਂ ਉਸ ਸਮੇਂ 15B ਪੈਮਾਨੇ ਦੇ ਸੰਘਣੇ ਮਾਡਲ ‘ਤੇ ਇਸਦੀ ਪੁਸ਼ਟੀ ਕੀਤੀ ਸੀ।

ਜਦੋਂ ਤੁਸੀਂ ਲੈਬ ਤੋਂ ਬਾਹਰ ਆਏ ਤਾਂ ਉਸ ਨੋਡ ‘ਤੇ, ਤੁਸੀਂ ਅੰਤ ਵਿੱਚ ਮਿਨੀਮੈਕਸ ਨਾਲ ਕਿਉਂ ਇਕੱਠੇ ਹੋਏ?

ਅਸਲ ਵਿੱਚ, ਮੈਂ ਉਸ ਸਮੇਂ ਕੁਝ ਵੱਡੀਆਂ ਕੰਪਨੀਆਂ ਨਾਲ ਗੱਲ ਕੀਤੀ ਸੀ। ਪਰ ਅੰਤ ਵਿੱਚ, ਮੈਂ ਅਜੇ ਵੀ ਇਸਨੂੰ ਮਿਨੀਮੈਕਸ ਨਾਲ ਸੰਭਵ ਬਣਾਇਆ।

ਸਭ ਤੋਂ ਪਹਿਲਾਂ, ਕੋਸਫਾਰਮਰ ਇੱਕ ਲੇਖ ਹੈ ਜਿਸ ‘ਤੇ ਮੈਂ ਜੁਨਜੀ ਨਾਲ ਸਹਿਯੋਗ ਕੀਤਾ ਹੈ। ਸਾਡੇ ਕੋਲ ਸਹਿਯੋਗ ਦਾ ਇੱਕ ਬੁਨਿਆਦ ਹੈ। ਜੁਨਜੀ ਮੇਰਾ ਬੌਸ ਸੀ ਜਦੋਂ ਉਹ ਸੈਂਸਟਾਈਮ ਵਿੱਚ ਸੀ। 23 ਦੇ ਅੰਤ ਵਿੱਚ, ਜੁਨਜੀ ਨੇ ਮੈਨੂੰ ਰਾਤ ਦੇ ਖਾਣੇ ‘ਤੇ ਬੁਲਾਇਆ। ਉਸਨੂੰ ਇਹਨਾਂ ਅਤਿ-ਆਧੁਨਿਕ ਤਕਨਾਲੋਜੀਆਂ ਦੀਆਂ ਸੰਭਾਵਨਾਵਾਂ ਵਿੱਚ ਵਧੇਰੇ ਵਿਸ਼ਵਾਸ ਹੈ। ਮੇਰੀ ਸਮਝ ਇਹ ਹੈ ਕਿ ਉਹ ਉਸ ਸਮੇਂ ਇੱਕ ਤਕਨੀਕੀ ਸਫਲਤਾ ਦੀ ਵੀ ਭਾਲ ਕਰ ਰਿਹਾ ਸੀ।

ਉਸ ਸਮੇਂ, ਮਿਨੀਮੈਕਸ ਨੇ ਮੋਈ ‘ਤੇ ਖੋਜ ਪੂਰੀ ਕਰ ਲਈ ਸੀ, ਅਤੇ ਅਗਲੇ ਕਦਮ ਲਈ ਅਸਲ ਵਿੱਚ ਬਹੁਤ ਘੱਟ ਤਕਨੀਕੀ ਸਫਲਤਾ ਵਾਲੇ ਬਿੰਦੂ ਸਨ। ਉਸ ਸਮੇਂ, ਲਾਈਟਨਿੰਗ ਅਟੈਂਸ਼ਨ ਜਾਰੀ ਕੀਤੀ ਗਈ ਸੀ, ਅਤੇ ਮਾਂਬਾ ਵੀ ਪ੍ਰਸਿੱਧ ਸੀ, ਇਸ ਲਈ ਉਸਦੀਆਂ ਨਜ਼ਰਾਂ ਵਿੱਚ, ਇਹ ਇੱਕ ਸੰਭਵ ਦਿਸ਼ਾ ਸੀ।

ਕੀ ਇਹ ਮਿਨੀਮੈਕਸ ਦੇ ਇੰਟਰਐਕਟਿਵ ਸਾਥੀ ਉਤਪਾਦ ਨਾਲ ਸਬੰਧਤ ਹੈ?

ਕੋਈ ਕਨੈਕਸ਼ਨ ਨਹੀਂ ਹੈ। ਯਾਨ ਜੁਨਜੀ ਮਾਡਲ ਦੀ ਉਪਰਲੀ ਸੀਮਾ ਅਤੇ ਇਸ ਸੀਮਾ ਨੂੰ ਹੋਰ ਤੋੜਨ ਦੇ ਤਰੀਕੇ ਬਾਰੇ ਵਧੇਰੇ ਚਿੰਤਤ ਹੈ।

ਜਨਤਕ ਨਜ਼ਰ ਵਿੱਚ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਸ਼ਾਇਦ ਕੁਸ਼ਲਤਾ ਨੂੰ ਤੋੜਨ ਦੀ ਦਿਸ਼ਾ ਵਿੱਚ ਵਧੇਰੇ ਹੋ ਸਕਦੀ ਹੈ, ਨਾ ਕਿ ਸੀਮਾ ਨੂੰ ਤੋੜਨ ਨਾਲੋਂ।

ਇੱਥੇ ਗੱਲ ਇਹ ਹੈ ਕਿ, ਸਭ ਤੋਂ ਪਹਿਲਾਂ, ਹਰੇਕ ਨਿਰਮਾਤਾ ਦੀ ਕੰਪਿਊਟਿੰਗ ਪਾਵਰ ਸਥਿਰ ਹੈ। ਮਾਡਲ ਨੂੰ ਜਿੰਨਾ ਤੇਜ਼ੀ ਨਾਲ ਤੇਜ਼ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਓਨਾ ਹੀ ਜ਼ਿਆਦਾ ਡਾਟਾ ਇਹ ਖਾ ਸਕਦਾ ਹੈ, ਅਤੇ ਮਾਡਲ ਓਨਾ ਹੀ ਵਧੀਆ ਤਿਆਰ ਹੁੰਦਾ ਹੈ। ਜਦੋਂ ਕੰਪਿਊਟਿੰਗ ਪਾਵਰ ਸਥਿਰ ਹੁੰਦੀ ਹੈ, ਤਾਂ ਮਾਡਲ ਜਿੰਨਾ ਤੇਜ਼ ਹੁੰਦਾ ਹੈ, ਓਨਾ ਹੀ ਵਧੀਆ ਹੁੰਦਾ ਹੈ।

ਕੀ ਤੁਸੀਂ ਅਜਿਹੀ ਸਥਿਤੀ ਦੇਖੀ ਹੈ ਜਿੱਥੇ ਡਾਟਾ ਸਿਖਰ ‘ਤੇ ਹੈ?

ਅਜੇ ਨਹੀਂ, ਠੀਕ ਹੈ? ਡਾਟਾ ਅਜੇ ਵੀ ਨਿਰੰਤਰ ਸਕੇਲਿੰਗ ਦੇ ਪੜਾਅ ਵਿੱਚ ਹੈ, ਪਰ ਇਹ 23 ਵਾਂਗ ਹਮਲਾਵਰ ਨਹੀਂ ਹੋ ਸਕਦਾ।

ਕਿਉਂਕਿ ਡਾਟਾ ਹਮੇਸ਼ਾ ਵਧ ਰਿਹਾ ਹੈ, ਅਤੇ ਹਰ ਰੋਜ਼ ਨਵਾਂ ਡਾਟਾ ਸਾਹਮਣੇ ਆ ਰਿਹਾ ਹੈ। ਮਾਡਲ ਲਈ, ਇਸ ਕੋਲ ਹਰ ਰੋਜ਼ ਪ੍ਰਕਿਰਿਆ ਕਰਨ ਲਈ ਨਵਾਂ ਡਾਟਾ ਹੁੰਦਾ ਹੈ। ਇੰਟਰਨੈੱਟ ਦੁਆਰਾ ਹਰ ਰੋਜ਼ ਤਿਆਰ ਕੀਤਾ ਜਾਣ ਵਾਲਾ ਡਾਟਾ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੈ। ਸਫ਼ਾਈ ਦੇ ਜ਼ਰੀਏ, ਅਸੀਂ ਅਜੇ ਵੀ ਨਵਾਂ ਡਾਟਾ ਬਾਹਰ ਕੱਢ ਸਕਦੇ ਹਾਂ।

ਮਨੁੱਖੀ ਵਿਕਾਸ ਦੇ ਇੰਨੇ ਸਾਲਾਂ ਤੋਂ ਮੌਜੂਦ ਡਾਟਾ ਦੇ ਮੁਕਾਬਲੇ, ਕੀ ਡਾਟਾ ਵਿਕਾਸ ਦਰ ਹੌਲੀ ਹੋ ਗਈ ਹੈ?

ਅਸਲ ਵਿੱਚ, ਜ਼ਰੂਰੀ ਨਹੀਂ। ਚੀਨ ਦੇ ਪੰਜ ਹਜ਼ਾਰ ਸਾਲਾਂ ਦੇ ਇਤਿਹਾਸ ਨੂੰ ਦੇਖੋ, ਅਤੇ ਸਿਰਫ਼ ਉਹ ਕੁਝ ਕਿਤਾਬਾਂ ਹੀ ਇਕੱਠੀਆਂ ਹੋਈਆਂ ਹਨ। ਪਰ ਇੰਟਰਨੈੱਟ ਦੇ ਵਿਕਾਸ ਦੇ ਨਾਲ, ਡਾਟਾ ਦੀ ਮਾਤਰਾ ਵਿੱਚ ਵਾਧਾ ਇੱਕ ਬਹੁਤ ਹੀ ਖੜ੍ਹੀ ਵਕਰ ਹੈ। ਇੰਟਰਨੈੱਟ ਤੋਂ ਪਹਿਲਾਂ ਪੈਦਾ ਹੋਇਆ ਸਮੁੱਚਾ ਡਾਟਾ ਬਾਅਦ ਵਿੱਚ ਇੱਕ ਸਾਲ ਵਿੱਚ ਪੈਦਾ ਹੋਏ ਡਾਟਾ ਜਿੰਨਾ ਨਹੀਂ ਹੋ ਸਕਦਾ।

ਸਕੇਲ-ਅੱਪ ਪ੍ਰਕਿਰਿਆ ਦੌਰਾਨ, ਲਾਈਟਨਿੰਗ ਅਟੈਂਸ਼ਨ ਨੂੰ ਕਿਹੜੀਆਂ ਚੁਣੌਤੀਆਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪਿਆ?

ਇਸਦੀ ਸਕੇਲੇਬਿਲਟੀ ਨੂੰ ਤਸਦੀਕ ਕਰਨ ਲਈ, ਅਸੀਂ ਪਹਿਲਾਂ ਸਕੇਲਿੰਗ ਕਾਨੂੰਨ ਪ੍ਰਯੋਗ ਕੀਤੇ, ਹੌਲੀ-ਹੌਲੀ ਛੋਟੇ ਮਾਡਲਾਂ ਤੋਂ 7B, 9B ਤੱਕ ਵਿਸਤਾਰ ਕੀਤਾ, ਅਤੇ ਅੰਤ ਵਿੱਚ 400B ਤੋਂ ਵੱਧ ਵਾਲੇ ਮਾਡਲਾਂ ਤੱਕ ਸਕੇਲ ਕੀਤਾ।

ਅਤੇ ਅਸੀਂ ਸਿਧਾਂਤਕ ਤੌਰ ‘ਤੇ ਸਾਬਤ ਕੀਤਾ ਕਿ ਲੀਨੀਅਰ ਦੀ ਸਮਰੱਥਾ ਟਰਾਂਸਫਾਰਮਰ ਨਾਲੋਂ ਵੱਡੀ ਹੈ।

ਅਸੀਂ ਸਮਰੱਥਾ ਨੂੰ RNN ਦੀ ਮੌਜੂਦਾ ਸਥਿਤੀਆਂ ਦੇ ਆਕਾਰ ਵਜੋਂ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦੇ ਹਾਂ। ਟਰਾਂਸਫਾਰਮਰ ਲਈ, ਸਮਰੱਥਾ ਦਾ ਆਕਾਰ O(d) ਹੈ, ਜਿੱਥੇ d ਆਕਾਰ ਹੈ; ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਲਈ, ਸਮਰੱਥਾ ਦਾ ਆਕਾਰ d²/h ਹੈ। ਕਿਉਂਕਿ d h ਨਾਲੋਂ ਬਹੁਤ ਵੱਡਾ ਹੈ, ਇਸ ਲਈ ਸਮਰੱਥਾ ਵੱਡੀ ਹੈ।

ਅੰਤ ਵਿੱਚ, ਅਸੀਂ ਇਹ ਵੀ ਤਸਦੀਕ ਕੀਤਾ ਕਿ ਹਾਈਬ੍ਰਿਡ ਮਾਡਲ ਸ਼ੁੱਧ ਟਰਾਂਸਫਾਰਮਰ ਨਾਲੋਂ ਬਿਹਤਰ ਹੈ।

4M ਲੰਬਾਈ ਸੀਕੁਐਂਸ ਵਿੰਡੋ ਕਿਵੇਂ ਪ੍ਰਾਪਤ ਕੀਤੀ ਜਾਂਦੀ ਹੈ?

ਲਾਈਟਨਿੰਗ ਲਈ, ਸਿਖਲਾਈ ਦੀ ਲੰਬਾਈ ਮਨਮਾਨੀ ਹੋ ਸਕਦੀ ਹੈ। ਜਿੰਨਾ ਚਿਰ ਕੰਪਿਊਟਿੰਗ ਪਾਵਰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਵਰਤੀ ਜਾਂਦੀ ਹੈ, 8K, 32K, ਜਾਂ 128K ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਦੀ ਗਤੀ ਇੱਕੋ ਜਿਹੀ ਹੁੰਦੀ ਹੈ, ਅਤੇ TGS (ਟੋਕਨ ਪ੍ਰਤੀ GPU ਪ੍ਰਤੀ ਸਕਿੰਟ) ਇੱਕੋ ਜਿਹਾ ਹੁੰਦਾ ਹੈ।

ਕਿਉਂਕਿ ਟਰਾਂਸਫਾਰਮਰ n² ਕੰਪਿਊਟੇਸ਼ਨਲ ਕੰਪਲੈਕਸਿਟੀ ਹੈ, ਸੀਕੁਐਂਸ ਜਿੰਨਾ ਲੰਬਾ ਹੋਵੇਗਾ, ਕੰਪਿਊਟੇਸ਼ਨਲ ਕੰਪਲੈਕਸਿਟੀ ਓਨੀ ਹੀ ਤੇਜ਼ੀ ਨਾਲ ਵਧੇਗੀ, ਅਤੇ ਲੇਟੈਂਸੀ ਇੱਕ ਵਰਗਾਕਾਰ ਵਕਰ ਵਿੱਚ ਵਧੇਗੀ। 1M ਲੰਬਾਈ ‘ਤੇ, ਸੌਫਟਮੈਕਸ ਅਟੈਂਸ਼ਨ ਦੀ ਲੇਟੈਂਸੀ ਲਾਈਟਨਿੰਗ ਅਟੈਂਸ਼ਨ ਨਾਲੋਂ 2,700 ਗੁਣਾ ਜ਼ਿਆਦਾ ਹੈ।

ਭਵਿੱਖ ਵਿੱਚ ਇੱਕ ਅਨੰਤ ਸੰਦਰਭ ਵਿੰਡੋ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਕਿਹੜੀਆਂ ਤਕਨੀਕੀ ਚੁਣੌਤੀਆਂ ਨੂੰ ਅਜੇ ਵੀ ਹੱਲ ਕਰਨ ਦੀ ਲੋੜ ਹੈ?

ਸਾਡੇ ਮੌਜੂਦਾ ਹਾਈਬ੍ਰਿਡ ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ, ਅਜੇ ਵੀ 1/8 ਸੌਫਟਮੈਕਸ ਅਟੈਂਸ਼ਨ ਹੈ। ਇਹ 1M ਲੰਬਾਈ ‘ਤੇ ਇੱਕ ਰੁਕਾਵਟ ਹੈ। ਇਸ 1/8 ਦੁਆਰਾ ਲਿਆਂਦੀ ਗਈ ਲੇਟੈਂਸੀ ਬਾਕੀ 7/8 ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਨਾਲੋਂ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੈ।

ਜੇਕਰ ਅਸੀਂ ਲੰਬੇ ਟੈਕਸਟ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣਾ ਚਾਹੁੰਦੇ ਹਾਂ, ਤਾਂ ਸਾਨੂੰ ਸੌਫਟਮੈਕਸ ਅਟੈਂਸ਼ਨ ਹਿੱਸੇ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ‘ਤੇ ਵਿਚਾਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ। ਅਸੀਂ ਇਸਨੂੰ ਤੇਜ਼ ਅਤੇ ਹਲਕਾ ਬਣਾਉਣਲਈ ਵਿਰਲੀ ਅਟੈਂਸ਼ਨ ਵਿਧੀਆਂ ਤੋਂ ਸਿੱਖ ਸਕਦੇ ਹਾਂ।

ਇਸ ਤੋਂ ਇਲਾਵਾ, ਅਸੀਂ ਸੌਫਟਮੈਕਸ ਅਤੇ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਦੇ ਮਿਸ਼ਰਣ ਅਨੁਪਾਤ ਨੂੰ ਹੋਰ ਜ਼ਿਆਦਾ ਬਣਾਉਣ ‘ਤੇ ਵੀ ਵਿਚਾਰ ਕਰ ਰਹੇ ਹਾਂ, ਹੁਣ 1/8 ਨਹੀਂ, ਪਰ ਸੰਭਵ ਤੌਰ ‘ਤੇ 1/16 ਜਾਂ 1/32। ਸਭ ਤੋਂ ਵੱਧ ਕੱਟੜਪੰਥੀ ਹੱਲ ਪੂਰੇ ਮਾਡਲ ਵਿੱਚ ਸਿਰਫ਼ ਇੱਕ ਸੌਫਟਮੈਕਸ ਪਰਤ ਨੂੰ ਪਾਉਣਾ ਹੈ, ਪਰ ਬੀਮੇ ਲਈ, ਅਸੀਂ ਇਸਨੂੰ ਨਹੀਂ ਅਪਣਾਇਆ, ਮੁੱਖ ਤੌਰ ‘ਤੇ ਮੁੜ ਪ੍ਰਾਪਤੀ ਯੋਗਤਾ ‘ਤੇ ਪ੍ਰਭਾਵ ਨੂੰ ਵਿਚਾਰਦੇ ਹੋਏ।

ਮੁੜ ਪ੍ਰਾਪਤੀ ਯੋਗਤਾ ਮਾਡਲ ਲਈ ਇੰਨੀ ਮਹੱਤਵਪੂਰਨ ਕਿਉਂ ਹੈ?

ਮੁੜ ਪ੍ਰਾਪਤੀ ਸੰਦਰਭ ਵਿੱਚ ਸਿੱਖਣ ਦਾ ਆਧਾਰ ਹੈ ਅਤੇ ਇੱਕ ਜ਼ਰੂਰੀ ਸ਼ਰਤ ਹੈ।

ਤੁਹਾਨੂੰ ਸੰਦਰਭ ਵਿੱਚ ਜਾਣਕਾਰੀ ਨੂੰ ਸੰਦਰਭ ਵਿੱਚ ਸਿੱਖਣ ਲਈ ਯਾਦ ਰੱਖਣਾ ਚਾਹੀਦਾ ਹੈ, ਅਤੇ ਸੰਦਰਭ ਵਿੱਚ ਸਿੱਖਣਾ ਮੌਜੂਦਾ ਵੱਡੇ ਮਾਡਲਾਂ ਦੀਆਂ ਸਾਰੀਆਂ ਉੱਨਤ ਸਮਰੱਥਾਵਾਂ ਦਾ ਆਧਾਰ ਹੈ, ਜਿਵੇਂ ਕਿ CoT (ਚੇਨ ਆਫ ਥਾਟ), ਖਾਸ ਕਰਕੇ ਲੰਬੀ CoT, ਜੋ ਸਾਰੀਆਂ ਮੁੜ ਪ੍ਰਾਪਤੀ ਯੋਗਤਾ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੀਆਂ ਹਨ।

ਫੈਸਲਾਕੁੰਨ ਨਵਾਂ ਆਰਕੀਟੈਕਚਰ

ਕੀ ਤੁਸੀਂ ਉਦਯੋਗ ਵਿੱਚ FFN ਅਤੇ ਅਟੈਂਸ਼ਨ ਵਿੱਚ ਨਵੀਨਤਮ ਆਰਕੀਟੈਕਚਰ ਸੁਧਾਰਾਂ ‘ਤੇ ਧਿਆਨ ਦਿੱਤਾ ਹੈ?

FFN ਦਾ ਸੁਧਾਰ Moe ਹੈ। ਮੈਂ ਬਾਈਟ ਦੇ ਅਲਟਰਾ ਮੈਮ ‘ਤੇ ਵੀ ਧਿਆਨ ਦਿੱਤਾ, ਪਰ ਮੈਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ ਇਹ ਇੱਕ ਨੁਕਸਾਨਦਾਇਕ ਚੀਜ਼ ਹੈ, ਇੱਕ ਨੁਕਸਾਨਦਾਇਕ ਕੰਪ੍ਰੈਸ਼ਨ ਹੈ। ਭਵਿੱਖ ਵਿੱਚ ਇਸਨੂੰ ਸਕੇਲ ਕੀਤੇ ਜਾਣ ‘ਤੇ ਸਮੱਸਿਆਵਾਂ ਆ ਸਕਦੀਆਂ ਹਨ, ਪਰ ਅਸੀਂ ਸਕੇਲ ਨਹੀਂ ਕੀਤਾ ਹੈ, ਇਸ ਲਈ ਮੈਂ ਸਿਰਫ਼ ਇਹ ਕਹਿ ਸਕਦਾ ਹਾਂ ਕਿ ਸਮੱਸਿਆਵਾਂ ਆ ਸਕਦੀਆਂ ਹਨ।

ਕਿਉਂਕਿ FFN ਅਸਲ ਵਿੱਚ ਇਹ ਹਨ। Moe ਖੇਤਰ ਵਿੱਚ ਸਾਡੇ ਸੁਧਾਰ ਪਿਛਲੇ ਵੱਡੇ ਮਾਹਰ ਤੋਂ ਮੌਜੂਦਾ ਛੋਟੇ ਮਾਹਰ ਮੋਡ ਵਿੱਚ ਬਦਲਣ ਤੋਂ ਵੱਧ ਕੁਝ ਨਹੀਂ ਹਨ, ਇਸਨੂੰ ਹੋਰ ਵਿਰਲਾ ਬਣਾਉਂਦੇ ਹਨ, ਅਤੇ ਫਿਰ ਕੁਝ ਪ੍ਰਵੇਗ ਕਰਦੇ ਹਨ, ਜਿਸ ਲਈ ਹੋਰ ਖੋਜ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਜੇਕਰ ਤੁਸੀਂ ਇਸਨੂੰ ਹੋਰ ਅਨੁਕੂਲ ਬਣਾਉਣਾ ਚਾਹੁੰਦੇ ਹੋ, ਕਿਉਂਕਿ FFN ਮੈਟ੍ਰਿਕਸ ਗੁਣਾ ਹੈ, ਤਾਂ ਅਨੁਕੂਲਤਾ ਸਿਰਫ਼ Nvidia ਦੁਆਰਾ CUDA ਪੱਧਰ ‘ਤੇ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ, ਮੈਟ੍ਰਿਕਸ ਗੁਣਾ ਦੇ ਕੁਝ ਹੇਠਲੇ-ਪੱਧਰ ਦੇ ਅਨੁਕੂਲਤਾਵਾਂ ਕਰਦੇ ਹਨ।

ਕੀ ਤੁਸੀਂ ਉਦਯੋਗ ਵਿੱਚ ਅਟੈਂਸ਼ਨ ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ ਸੁਧਾਰਾਂ ‘ਤੇ ਧਿਆਨ ਦਿੱਤਾ ਹੈ?

ਅਟੈਂਸ਼ਨ ਵਿੱਚ ਸੁਧਾਰ ਅਸਲ ਵਿੱਚ ਲੀਨੀਅਰ ਹਨ। ਅਸੀਂ ਇਹ ਵੀ ਵਿਚਾਰ ਕਰ ਰਹੇ ਹਾਂ ਕਿ ਕੀ ਭਵਿੱਖ ਵਿੱਚ ਇੱਕ ਮਜ਼ਬੂਤ ਲੀਨੀਅਰ ਬਣਾਉਣਾ ਹੈ, ਅਤੇ ਮੌਜੂਦਾ ਆਧਾਰ ‘ਤੇ ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਨੂੰ ਹੋਰ ਤੇਜ਼ ਕਰਨਾ ਹੈ।

ਸੁਧਾਰ ਕਰਨ ਦੇ ਬਹੁਤ ਸਾਰੇ ਤਰੀਕੇ ਹਨ, ਇੱਕ ਡਿਕੇਅ ਨੂੰ ਬਦਲਣਾ ਹੈ, ਅਤੇ ਦੂਜਾ ਅੰਦਰ ਕੁਝ ਛੋਟੀਆਂ ਚਾਲਾਂ ਨੂੰ ਬਦਲਣਾ ਹੈ। ਤੁਸੀਂ ਸਾਡੇ ਨਵੇਂ ਪੇਪਰ ਦੀ ਉਡੀਕ ਕਰ ਸਕਦੇ ਹੋ।

ਕੀ ਸੰਦਰਭ ਲੰਬਾਈ ਅਤੇ ਅਨੁਮਾਨ ਲਾਗਤ ਦਾ ਸਾਡਾ ਮੌਜੂਦਾ ਅਨੁਪਾਤ ਮੁਕਾਬਲਤਨ ਉੱਨਤ ਹੈ?

ਇੱਕ ਵਾਰ ਜਦੋਂ ਇਸ ਵਿੱਚ ਸੀਕੁਐਂਸ ਦੀ ਲੰਬਾਈ ਨੂੰ ਲੰਬਾ ਕਰਨਾ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ, ਤਾਂ ਸਾਡੇ ਕੋਲ ਕੰਪਿਊਟਿੰਗ ਪਾਵਰ ਲਾਗਤ ਦਾ ਬਹੁਤ ਸਪੱਸ਼ਟ ਫਾਇਦਾ ਹੁੰਦਾ ਹੈ। ਇਹ ਜਿੰਨਾ ਲੰਬਾ ਹੋਵੇਗਾ, ਲਾਗਤ ਦਾ ਫਾਇਦਾ ਓਨਾ ਹੀ ਸਪੱਸ਼ਟ ਹੋਵੇਗਾ, ਭਾਵੇਂ ਇਹ ਅਨੁਮਾਨ ਹੋਵੇ ਜਾਂ ਸਿਖਲਾਈ।

ਉਦਾਹਰਨ ਲਈ, 1M ‘ਤੇ, ਲੀਨੀਅਰ ਅਟੈਂਸ਼ਨ ਦੁਆਰਾ ਖਪਤ ਕੀਤੀ ਜਾਣ ਵਾਲੀ ਕੰਪਿਊਟਿੰਗ ਪਾਵਰ ਪੂਰੀ