ਮੈਟਾ AI ਨੇ ਟੋਕਨ-ਸ਼ਫਲ ਪੇਸ਼ ਕੀਤਾ, ਜੋ ਕਿ ਟ੍ਰਾਂਸਫਾਰਮਰਾਂ ਦੁਆਰਾ ਪ੍ਰੋਸੈਸ ਕੀਤੇ ਜਾਣ ਵਾਲੇ ਚਿੱਤਰ ਟੋਕਨਾਂ ਦੀ ਸੰਖਿਆ ਨੂੰ ਘਟਾਉਣ ਲਈ ਇੱਕ ਨਵਾਂ ਤਰੀਕਾ ਹੈ। ਇਹ ਅਗਲੇ-ਟੋਕਨ ਦੀ ਭਵਿੱਖਬਾਣੀ ਸਮਰੱਥਾਵਾਂ ਨਾਲ ਸਮਝੌਤਾ ਕੀਤੇ ਬਿਨਾਂ ਪ੍ਰਾਪਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਟੋਕਨ-ਸ਼ਫਲ ਦੇ ਪਿੱਛੇ ਨਵੀਨਤਾਕਾਰੀ ਸੰਕਲਪ ਮਲਟੀਮੋਡਲ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (MLLMs) ਦੁਆਰਾ ਵਰਤੀਆਂ ਜਾਂਦੀਆਂ ਵਿਜ਼ੂਅਲ ਸ਼ਬਦਾਵਲੀਆਂ ਵਿੱਚ ਅਯਾਮੀ ਵਾਧੂਤਾ ਦੀ ਸਮਝਦਾਰੀ ਨਾਲ ਮਾਨਤਾ ਹੈ।
ਵਿਜ਼ੂਅਲ ਟੋਕਨ, ਆਮ ਤੌਰ ‘ਤੇ ਵੈਕਟਰ ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ (VQ) ਮਾਡਲਾਂ ਤੋਂ ਲਏ ਜਾਂਦੇ ਹਨ, ਵਿਸ਼ਾਲ, ਉੱਚ-ਅਯਾਮੀ ਥਾਂਵਾਂ ‘ਤੇ ਕਬਜ਼ਾ ਕਰਦੇ ਹਨ। ਹਾਲਾਂਕਿ, ਉਹਨਾਂ ਕੋਲ ਅਕਸਰ ਉਹਨਾਂ ਦੇ ਟੈਕਸਟ-ਅਧਾਰਤ ਹਮਰੁਤਬਾ ਦੇ ਮੁਕਾਬਲੇ ਘੱਟ ਅੰਦਰੂਨੀ ਜਾਣਕਾਰੀ ਘਣਤਾ ਹੁੰਦੀ ਹੈ। ਟੋਕਨ-ਸ਼ਫਲ ਚਲਾਕੀ ਨਾਲ ਇਸ ਅਸਮਾਨਤਾ ਦਾ ਫਾਇਦਾ ਉਠਾਉਂਦਾ ਹੈ। ਇਹ ਟ੍ਰਾਂਸਫਾਰਮਰ ਪ੍ਰੋਸੈਸਿੰਗ ਪੜਾਅ ਤੋਂ ਪਹਿਲਾਂ ਸਥਾਨਿਕ ਤੌਰ ‘ਤੇ ਸਥਾਨਕ ਵਿਜ਼ੂਅਲ ਟੋਕਨਾਂ ਨੂੰ ਚੈਨਲ ਅਯਾਮ ਦੇ ਨਾਲ ਮਿਲਾ ਕੇ ਇਸਨੂੰ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ। ਇਸ ਤੋਂ ਬਾਅਦ, ਇਹ ਅਨੁਮਾਨ ਤੋਂ ਬਾਅਦ ਅਸਲ ਸਥਾਨਿਕ ਢਾਂਚੇ ਨੂੰ ਬਹਾਲ ਕਰਦਾ ਹੈ।
ਇਹ ਨਵੀਨਤਾਕਾਰੀ ਟੋਕਨ ਫਿਊਜ਼ਨ ਵਿਧੀ ਆਟੋਰੇਗ੍ਰੈਸਿਵ (AR) ਮਾਡਲਾਂ ਨੂੰ ਵਿਜ਼ੂਅਲ ਵਫ਼ਾਦਾਰੀ ਨੂੰ ਕੁਰਬਾਨ ਕੀਤੇ ਬਿਨਾਂ, ਵੱਧ ਰੈਜ਼ੋਲਿਊਸ਼ਨਾਂ ਦਾ ਪ੍ਰਬੰਧਨ ਕਰਨ ਦੇ ਨਾਲ-ਨਾਲ ਕੰਪਿਊਟੇਸ਼ਨਲ ਲਾਗਤਾਂ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਕਮੀ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ।
ਟੋਕਨ-ਸ਼ਫਲ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ: ਇੱਕ ਡੂੰਘਾਈ ਨਾਲ ਡੁਬਕੀ
ਟੋਕਨ-ਸ਼ਫਲ ਦੋ ਪ੍ਰਾਇਮਰੀ ਪ੍ਰਕਿਰਿਆਵਾਂ ਦੁਆਰਾ ਕੰਮ ਕਰਦਾ ਹੈ: ਟੋਕਨ-ਸ਼ਫਲ ਅਤੇ ਟੋਕਨ-ਅਨਸ਼ਫਲ।
ਇਨਪੁਟ ਤਿਆਰੀ ਪੜਾਅ ਦੇ ਦੌਰਾਨ, ਸਥਾਨਿਕ ਤੌਰ ‘ਤੇ ਗੁਆਂਢੀ ਟੋਕਨਾਂ ਨੂੰ ਇੱਕ ਮਲਟੀਲੇਅਰ ਪਰਸੈਪਟਰੋਨ (MLP) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਹੁਨਰ ਨਾਲ ਮਿਲਾਇਆ ਜਾਂਦਾ ਹੈ। ਇਹ ਅਭੇਦ ਇੱਕ ਸੰਕੁਚਿਤ ਟੋਕਨ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਹੁੰਦਾ ਹੈ ਜੋ ਜ਼ਰੂਰੀ ਸਥਾਨਕ ਜਾਣਕਾਰੀ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦਾ ਹੈ। ਕੰਪਰੈਸ਼ਨ ਦੀ ਡਿਗਰੀ ਨੂੰ ਸ਼ਫਲ ਵਿੰਡੋ ਆਕਾਰ ਦੁਆਰਾ ਨਿਰਧਾਰਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਜਿਸਨੂੰ s ਵਜੋਂ ਦਰਸਾਇਆ ਗਿਆ ਹੈ। s ਆਕਾਰ ਦੀ ਇੱਕ ਸ਼ਫਲ ਵਿੰਡੋ ਲਈ, ਟੋਕਨਾਂ ਦੀ ਸੰਖਿਆ ਨੂੰ ਇੱਕ ਕਾਰਕ s2 ਦੁਆਰਾ ਘਟਾਇਆ ਜਾਂਦਾ ਹੈ। ਇਹ ਕਮੀ ਟਰਾਂਸਫਾਰਮਰ ਫਲੋਟਿੰਗ ਪੁਆਇੰਟ ਓਪਰੇਸ਼ਨ (FLOPs) ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਮੀ ਵੱਲ ਖੜਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਕੰਪਿਊਟੇਸ਼ਨਲ ਕੁਸ਼ਲਤਾ ਵਧਦੀ ਹੈ।
ਟਰਾਂਸਫਾਰਮਰ ਲੇਅਰਾਂ ਨੇ ਆਪਣੀ ਪ੍ਰੋਸੈਸਿੰਗ ਪੂਰੀ ਕਰਨ ਤੋਂ ਬਾਅਦ, ਟੋਕਨ-ਅਨਸ਼ਫਲ ਓਪਰੇਸ਼ਨ ਅਸਲ ਸਥਾਨਿਕ ਪ੍ਰਬੰਧ ਨੂੰ ਬੜੀ ਬਾਰੀਕੀ ਨਾਲ ਦੁਬਾਰਾ ਬਣਾਉਂਦਾ ਹੈ। ਇਹ ਪੁਨਰ ਨਿਰਮਾਣ ਹਲਕੇ ਭਾਰ ਵਾਲੇ MLPs ਦੁਆਰਾ ਵੀ ਸੁਵਿਧਾਜਨਕ ਹੈ, ਇਹ ਸੁਨਿਸ਼ਚਿਤ ਕਰਦਾ ਹੈ ਕਿ ਅੰਤਿਮ ਆਉਟਪੁੱਟ ਅਸਲ ਚਿੱਤਰ ਵਿੱਚ ਮੌਜੂਦ ਸਥਾਨਿਕ ਸਬੰਧਾਂ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਦਰਸਾਉਂਦੀ ਹੈ।
ਟਰਾਂਸਫਾਰਮਰ ਕੰਪਿਊਟੇਸ਼ਨ ਪੜਾਅ ਦੌਰਾਨ ਟੋਕਨ ਕ੍ਰਮਾਂ ਨੂੰ ਸੰਕੁਚਿਤ ਕਰਕੇ, ਟੋਕਨ-ਸ਼ਫਲ ਉੱਚ-ਰੈਜ਼ੋਲੂਸ਼ਨ ਚਿੱਤਰਾਂ ਦੀ ਕੁਸ਼ਲ ਪੀੜ੍ਹੀ ਦੀ ਸਹੂਲਤ ਦਿੰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ 2048x2048 ਪਿਕਸਲ ਤੱਕ ਦੇ ਰੈਜ਼ੋਲੂਸ਼ਨ ਵਾਲੇ ਚਿੱਤਰ ਵੀ ਸ਼ਾਮਲ ਹਨ। ਖਾਸ ਤੌਰ ‘ਤੇ, ਇਹ ਨਵੀਨਤਾਕਾਰੀ ਪਹੁੰਚ ਟਰਾਂਸਫਾਰਮਰ ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ ਸੋਧਾਂ ਦੀ ਜ਼ਰੂਰਤ ਨੂੰ ਦੂਰ ਕਰਦੀ ਹੈ। ਇਹ ਸਹਾਇਕ ਨੁਕਸਾਨ ਫੰਕਸ਼ਨਾਂ ਜਾਂ ਵਾਧੂ ਐਨਕੋਡਰਾਂ ਦੀ ਪ੍ਰੀਟਰੇਨਿੰਗ ਲਈ ਲੋੜ ਨੂੰ ਵੀ ਖਤਮ ਕਰਦਾ ਹੈ, ਇਸ ਨੂੰ ਇੱਕ ਸੁਚਾਰੂ ਅਤੇ ਆਸਾਨੀ ਨਾਲ ਏਕੀਕ੍ਰਿਤ ਹੱਲ ਬਣਾਉਂਦਾ ਹੈ।
ਕਲਾਸੀਫਾਇਰ-ਮੁਕਤ ਗਾਈਡੈਂਸ (CFG) ਸ਼ਡਿਊਲਰ: ਆਟੋਰੇਗ੍ਰੈਸਿਵ ਜਨਰੇਸ਼ਨ ਨੂੰ ਵਧਾਉਣਾ
ਟੋਕਨ-ਸ਼ਫਲ ਵਿੱਚ ਇੱਕ ਕਲਾਸੀਫਾਇਰ-ਮੁਕਤ ਗਾਈਡੈਂਸ (CFG) ਸ਼ਡਿਊਲਰ ਵੀ ਸ਼ਾਮਲ ਹੈ, ਜੋ ਖਾਸ ਤੌਰ ‘ਤੇ ਆਟੋਰੇਗ੍ਰੈਸਿਵ ਜਨਰੇਸ਼ਨ ਲਈ ਅਨੁਕੂਲਿਤ ਹੈ। ਰਵਾਇਤੀ ਤਰੀਕਿਆਂ ਦੇ ਉਲਟ ਜੋ ਸਾਰੇ ਟੋਕਨਾਂ ਵਿੱਚ ਇੱਕ ਨਿਰਧਾਰਤ ਗਾਈਡੈਂਸ ਸਕੇਲ ਲਾਗੂ ਕਰਦੇ ਹਨ, CFG ਸ਼ਡਿਊਲਰ ਹੌਲੀ-ਹੌਲੀ ਗਾਈਡੈਂਸ ਤਾਕਤ ਨੂੰ ਵਿਵਸਥਿਤ ਕਰਦਾ ਹੈ। ਇਹ ਗਤੀਸ਼ੀਲ ਵਿਵਸਥਾ ਸ਼ੁਰੂਆਤੀ ਟੋਕਨ ਕਲਾਕ੍ਰਿਤੀਆਂ ਨੂੰ ਘੱਟ ਕਰਦੀ ਹੈ ਅਤੇ ਟੈਕਸਟ-ਚਿੱਤਰ ਅਲਾਈਨਮੈਂਟ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਕਰਦੀ ਹੈ, ਨਤੀਜੇ ਵਜੋਂ ਵਧੇਰੇ ਦ੍ਰਿਸ਼ਟੀਗਤ ਤੌਰ ‘ਤੇ ਇਕਸਾਰ ਅਤੇ ਅਰਥਾਤ ਸਹੀ ਚਿੱਤਰ ਪੀੜ੍ਹੀ ਹੁੰਦੀ ਹੈ।
ਪ੍ਰਦਰਸ਼ਨ ਮੁਲਾਂਕਣ: ਬੈਂਚਮਾਰਕ ਅਤੇ ਮਨੁੱਖੀ ਅਧਿਐਨ
ਟੋਕਨ-ਸ਼ਫਲ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਦਾ ਦੋ ਪ੍ਰਮੁੱਖ ਬੈਂਚਮਾਰਕਾਂ ‘ਤੇ ਸਖ਼ਤੀ ਨਾਲ ਮੁਲਾਂਕਣ ਕੀਤਾ ਗਿਆ ਹੈ: GenAI-ਬੈਂਚ ਅਤੇ GenEval।
GenAI-ਬੈਂਚ ‘ਤੇ, 2.7 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ LLaMA-ਅਧਾਰਤ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਸਮੇਂ, ਟੋਕਨ-ਸ਼ਫਲ ਨੇ ‘ਹਾਰਡ’ ਪ੍ਰੋਂਪਟਾਂ ‘ਤੇ 0.77 ਦਾ ਇੱਕ VQASਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ। ਇਹ ਪ੍ਰਦਰਸ਼ਨ ਹੋਰ ਆਟੋਰੇਗ੍ਰੈਸਿਵ ਮਾਡਲਾਂ ਜਿਵੇਂ ਕਿ ਲਾਮਾਜੈਨ ਨੂੰ +0.18 ਦੇ ਮਹੱਤਵਪੂਰਨ ਹਾਸ਼ੀਏ ਅਤੇ LDM ਵਰਗੇ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲਾਂ ਨੂੰ +0.15 ਨਾਲੋਂ ਵੱਧ ਦਿੰਦਾ ਹੈ। ਇਹ ਨਤੀਜੇ ਗੁੰਝਲਦਾਰ ਅਤੇ ਚੁਣੌਤੀਪੂਰਨ ਚਿੱਤਰ ਉਤਪਾਦਨ ਕਾਰਜਾਂ ਨੂੰ ਸੰਭਾਲਣ ਵਿੱਚ ਟੋਕਨ-ਸ਼ਫਲ ਦੇ ਉੱਤਮ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ।
GenEval ਬੈਂਚਮਾਰਕ ਵਿੱਚ, ਟੋਕਨ-ਸ਼ਫਲ ਨੇ 0.62 ਦਾ ਇੱਕ ਸਮੁੱਚਾ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਇੱਕ ਨਵਾਂ ਬੈਂਚਮਾਰਕ ਸਥਾਪਤ ਕਰਦੇ ਹੋਏ AR ਮਾਡਲਾਂ ਲਈ ਡਿਸਕਰੀਟ ਟੋਕਨ ਸ਼ਾਸਨ ਵਿੱਚ ਕੰਮ ਕਰ ਰਿਹਾ ਹੈ। ਇਹ ਪ੍ਰਾਪਤੀ ਆਟੋਰੇਗ੍ਰੈਸਿਵ ਚਿੱਤਰ ਉਤਪਾਦਨ ਲਈ ਮਿਆਰਾਂ ਨੂੰ ਮੁੜ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਲਈ ਟੋਕਨ-ਸ਼ਫਲ ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਉਜਾਗਰ ਕਰਦੀ ਹੈ।
ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਮਨੁੱਖੀ ਮੁਲਾਂਕਣ ਇਹਨਾਂ ਖੋਜਾਂ ਦੀ ਹੋਰ ਪੁਸ਼ਟੀ ਕਰਦਾ ਹੈ। LlamaGen, Lumina-mGPT, ਅਤੇ ਡਿਫਿਊਜ਼ਨ ਬੇਸਲਾਈਨਾਂ ਦੇ ਮੁਕਾਬਲੇ, ਟੋਕਨ-ਸ਼ਫਲ ਨੇ ਟੈਕਸਟ ਪ੍ਰੋਂਪਟਾਂ ਨਾਲ ਸੁਧਾਰੀ ਗਈ ਅਲਾਈਨਮੈਂਟ, ਘਟੀਆਂ ਦਿੱਖ ਨੁਕਸ ਅਤੇ ਜ਼ਿਆਦਾਤਰ ਮਾਮਲਿਆਂ ਵਿੱਚ ਉੱਚ ਵਿਸ਼ੇਸ਼ ਚਿੱਤਰ ਗੁਣਵੱਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਟੋਕਨ-ਸ਼ਫਲ ਨਾ ਸਿਰਫ਼ ਮਾਤਰਾਤਮਕ ਮੈਟ੍ਰਿਕਸ ਦੇ ਅਨੁਸਾਰ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ ਬਲਕਿ ਮਨੁੱਖੀ ਨਿਗਰਾਨਾਂ ਲਈ ਵਧੇਰੇ ਸੰਤੁਸ਼ਟੀਜਨਕ ਅਤੇ ਦ੍ਰਿਸ਼ਟੀਗਤ ਤੌਰ ‘ਤੇ ਆਕਰਸ਼ਕ ਅਨੁਭਵ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।
ਹਾਲਾਂਕਿ, ਇਹ ਨੋਟ ਕਰਨਾ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ ਤਰਕਪੂਰਨ ਇਕਸਾਰਤਾ ਵਿੱਚ ਮਾਮੂਲੀ ਗਿਰਾਵਟ ਦੇਖੀ ਗਈ। ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਤਿਆਰ ਕੀਤੇ ਗਏ ਚਿੱਤਰਾਂ ਦੀ ਤਰਕਪੂਰਨ ਇਕਸਾਰਤਾ ਵਿੱਚ ਹੋਰ ਸੁਧਾਰ ਅਤੇ ਸੁਧਾਰ ਲਈ ਅਜੇ ਵੀ ਰਸਤੇ ਹਨ।
ਵਿਜ਼ੂਅਲ ਗੁਣਵੱਤਾ ਅਤੇ ਐਬਲੇਸ਼ਨ ਅਧਿਐਨ: ਬਾਰੀਕੀਆਂ ਦੀ ਪੜਚੋਲ ਕਰਨਾ
ਵਿਜ਼ੂਅਲ ਗੁਣਵੱਤਾ ਦੇ ਮਾਮਲੇ ਵਿੱਚ, ਟੋਕਨ-ਸ਼ਫਲ ਨੇ 1024x1024 ਅਤੇ 2048x2048 ਪਿਕਸਲ ਦੇ ਰੈਜ਼ੋਲਿਊਸ਼ਨ ‘ਤੇ ਵਿਸਤ੍ਰਿਤ ਅਤੇ ਇਕਸਾਰ ਚਿੱਤਰਾਂ ਨੂੰ ਪੈਦਾ ਕਰਨ ਦੀ ਕਮਾਲ ਦੀ ਸਮਰੱਥਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਹੈ। ਇਹ ਉੱਚ-ਰੈਜ਼ੋਲੂਸ਼ਨ ਚਿੱਤਰ ਦ੍ਰਿਸ਼ਟੀਗਤ ਵਫ਼ਾਦਾਰੀ ਦੀ ਉੱਚ ਡਿਗਰੀ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦੇ ਹਨ ਅਤੇ ਸੰਬੰਧਿਤ ਟੈਕਸਟ ਪ੍ਰੋਂਪਟ ਵਿੱਚ ਦੱਸੀ ਗਈ ਸਮੱਗਰੀ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਦਰਸਾਉਂਦੇ ਹਨ।
ਐਬਲੇਸ਼ਨ ਅਧਿਐਨਾਂ ਨੇ ਖੁਲਾਸਾ ਕੀਤਾ ਹੈ ਕਿ ਛੋਟੇ ਸ਼ਫਲ ਵਿੰਡੋ ਆਕਾਰ (ਉਦਾਹਰਨ ਲਈ, 2x2) ਕੰਪਿਊਟੇਸ਼ਨਲ ਕੁਸ਼ਲਤਾ ਅਤੇ ਆਉਟਪੁੱਟ ਗੁਣਵੱਤਾ ਦੇ ਵਿਚਕਾਰ ਵਧੀਆ ਵਪਾਰ-ਬੰਦ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦੇ ਹਨ। ਜਦੋਂ ਕਿ ਵੱਡੇ ਵਿੰਡੋ ਆਕਾਰ ਪ੍ਰੋਸੈਸਿੰਗ ਸਮੇਂ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਵਾਧੂ ਸਪੀਡਅੱਪ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ, ਉਹ ਬਰੀਕ-ਦਾਣੇਦਾਰ ਵੇਰਵੇ ਵਿੱਚ ਮਾਮੂਲੀ ਨੁਕਸਾਨ ਪੇਸ਼ ਕਰ ਸਕਦੇ ਹਨ। ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਵਿਜ਼ੂਅਲ ਗੁਣਵੱਤਾ ਦੇ ਵਿਚਕਾਰ ਲੋੜੀਂਦੇ ਸੰਤੁਲਨ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਸ਼ਫਲ ਵਿੰਡੋ ਆਕਾਰ ਦੀ ਸਾਵਧਾਨੀ ਨਾਲ ਚੋਣ ਕਰਨਾ ਮਹੱਤਵਪੂਰਨ ਹੈ।
ਟੋਕਨ-ਸ਼ਫਲ: ਇੱਕ ਸਧਾਰਨ ਪਰ ਸ਼ਕਤੀਸ਼ਾਲੀ ਹੱਲ
ਟੋਕਨ-ਸ਼ਫਲ ਆਟੋਰੇਗ੍ਰੈਸਿਵ ਚਿੱਤਰ ਉਤਪਾਦਨ ਦੀ ਸਕੇਲੇਬਿਲਟੀ ਸੀਮਾਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਇੱਕ ਸਿੱਧਾ ਅਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤਰੀਕਾ ਪੇਸ਼ ਕਰਦਾ ਹੈ। ਵਿਜ਼ੂਅਲ ਸ਼ਬਦਾਵਲੀਆਂ ਵਿੱਚ ਅੰਦਰੂਨੀ ਵਾਧੂਤਾ ਦਾ ਲਾਭ ਲੈ ਕੇ, ਇਹ ਉਤਪਾਦਨ ਗੁਣਵੱਤਾ ਨੂੰ ਸੁਰੱਖਿਅਤ ਰੱਖਦੇ ਹੋਏ, ਅਤੇ ਕੁਝ ਮਾਮਲਿਆਂ ਵਿੱਚ ਸੁਧਾਰ ਕਰਦੇ ਹੋਏ, ਕੰਪਿਊਟੇਸ਼ਨਲ ਲਾਗਤ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਕਮੀ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ। ਇਹ ਵਿਧੀ ਮੌਜੂਦਾ ਅਗਲੇ-ਟੋਕਨ ਭਵਿੱਖਬਾਣੀ ਫਰੇਮਵਰਕ ਦੇ ਨਾਲ ਪੂਰੀ ਤਰ੍ਹਾਂ ਅਨੁਕੂਲ ਰਹਿੰਦੀ ਹੈ, ਇਸ ਨੂੰ ਮਿਆਰੀ AR-ਅਧਾਰਤ ਮਲਟੀਮੋਡਲ ਸਿਸਟਮਾਂ ਵਿੱਚ ਏਕੀਕ੍ਰਿਤ ਕਰਨਾ ਆਸਾਨ ਬਣਾਉਂਦਾ ਹੈ।
ਇਹ ਅਨੁਕੂਲਤਾ ਇਹ ਸੁਨਿਸ਼ਚਿਤ ਕਰਦੀ ਹੈ ਕਿ ਟੋਕਨ-ਸ਼ਫਲ ਨੂੰ ਖੋਜਕਰਤਾਵਾਂ ਅਤੇ ਪ੍ਰੈਕਟੀਸ਼ਨਰਾਂ ਦੁਆਰਾ ਆਸਾਨੀ ਨਾਲ ਅਪਣਾਇਆ ਜਾ ਸਕਦਾ ਹੈ ਜੋ ਆਟੋਰੇਗ੍ਰੈਸਿਵ ਮਾਡਲਾਂ ਅਤੇ ਮਲਟੀਮੋਡਲ ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹਨ। ਏਕੀਕਰਣ ਦੀ ਇਸਦੀ ਅਸਾਨੀ ਅਤੇ ਮਹੱਤਵਪੂਰਨ ਪ੍ਰਦਰਸ਼ਨ ਸੁਧਾਰਾਂ ਨੂੰ ਪ੍ਰਦਾਨ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਇਸਨੂੰ ਚਿੱਤਰ ਉਤਪਾਦਨ ਵਿੱਚ ਕਲਾ ਦੀ ਸਥਿਤੀ ਨੂੰ ਅੱਗੇ ਵਧਾਉਣ ਲਈ ਇੱਕ ਕੀਮਤੀ ਸਾਧਨ ਬਣਾਉਂਦੀ ਹੈ।
ਆਟੋਰੇਗ੍ਰੈਸਿਵ ਚਿੱਤਰ ਉਤਪਾਦਨ ਦਾ ਭਵਿੱਖ
ਨਤੀਜੇ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ ਟੋਕਨ-ਸ਼ਫਲ AR ਮਾਡਲਾਂ ਨੂੰ ਪਿਛਲੀਆਂ ਰੈਜ਼ੋਲਿਊਸ਼ਨ ਸੀਮਾਵਾਂ ਤੋਂ ਪਰੇ ਧੱਕ ਸਕਦਾ ਹੈ, ਉੱਚ-ਵਫ਼ਾਦਾਰੀ, ਉੱਚ-ਰੈਜ਼ੋਲੂਸ਼ਨ ਉਤਪਾਦਨ ਨੂੰ ਵਧੇਰੇ ਵਿਹਾਰਕ ਅਤੇ ਪਹੁੰਚਯੋਗ ਬਣਾਉਂਦਾ ਹੈ। ਜਿਵੇਂ ਕਿ ਖੋਜ ਸਕੇਲੇਬਲ ਮਲਟੀਮੋਡਲ ਉਤਪਾਦਨ ਨੂੰ ਅੱਗੇ ਵਧਾਉਣਾ ਜਾਰੀ ਰੱਖਦੀ ਹੈ, ਟੋਕਨ-ਸ਼ਫਲ ਵੱਡੇ ਪੈਮਾਨੇ ‘ਤੇ ਟੈਕਸਟ ਅਤੇ ਚਿੱਤਰ ਮੋਡੈਲਿਟੀਆਂ ਨੂੰ ਸੰਭਾਲਣ ਦੇ ਸਮਰੱਥ ਕੁਸ਼ਲ, ਏਕੀਕ੍ਰਿਤ ਮਾਡਲਾਂ ਲਈ ਇੱਕ ਵਾਅਦਾ ਕਰਨ ਵਾਲਾ ਅਧਾਰ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।
ਇਹ ਨਵੀਨਤਾ ਸਮੱਗਰੀ ਰਚਨਾ, ਵਿਜ਼ੂਅਲ ਸੰਚਾਰ, ਅਤੇ ਨਕਲੀ ਬੁੱਧੀ ਵਰਗੇ ਖੇਤਰਾਂ ਵਿੱਚ ਨਵੀਆਂ ਸੰਭਾਵਨਾਵਾਂ ਲਈ ਰਾਹ ਪੱਧਰਾ ਕਰਦੀ ਹੈ। ਘੱਟ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਰੋਤਾਂ ਨਾਲ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਚਿੱਤਰਾਂ ਦੀ ਪੀੜ੍ਹੀ ਨੂੰ ਸਮਰੱਥ ਬਣਾ ਕੇ, ਟੋਕਨ-ਸ਼ਫਲ ਖੋਜਕਰਤਾਵਾਂ ਅਤੇ ਕਲਾਕਾਰਾਂ ਨੂੰ ਨਵੇਂ ਰਚਨਾਤਮਕ ਰਸਤਿਆਂ ਦੀ ਪੜਚੋਲ ਕਰਨ ਅਤੇ ਨਵੀਨਤਾਕਾਰੀ ਐਪਲੀਕੇਸ਼ਨਾਂ ਵਿਕਸਤ ਕਰਨ ਲਈ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਜੋ ਪਹਿਲਾਂ ਤਕਨੀਕੀ ਸੀਮਾਵਾਂ ਦੁਆਰਾ ਸੀਮਤ ਸਨ।
ਅਯਾਮੀ ਵਾਧੂਤਾ ਵਿੱਚ ਡੂੰਘੀ ਡੁਬਕੀ
ਟੋਕਨ-ਸ਼ਫਲ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਦਾ ਨੀਂਹ ਪੱਥਰ ਵਿਜ਼ੂਅਲ ਸ਼ਬਦਾਵਲੀਆਂ ਦੇ ਅੰਦਰ ਅਯਾਮੀ ਵਾਧੂਤਾ ਦੇ ਇਸਦੇ ਸ਼ੋਸ਼ਣ ਵਿੱਚ ਹੈ। ਵਿਜ਼ੂਅਲ ਟੋਕਨ, ਆਮ ਤੌਰ ‘ਤੇ ਵੈਕਟਰ ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ (VQ) ਮਾਡਲਾਂ ਤੋਂ ਲਏ ਜਾਂਦੇ ਹਨ, ਉੱਚ-ਅਯਾਮੀ ਸਥਾਨਾਂ ਵਿੱਚ ਰਹਿੰਦੇ ਹਨ, ਫਿਰ ਵੀ ਉਹਨਾਂ ਦੀ ਅੰਦਰੂਨੀ ਜਾਣਕਾਰੀ ਘਣਤਾ ਟੈਕਸਟ ਟੋਕਨਾਂ ਨਾਲੋਂ ਪਿੱਛੇ ਹੈ। ਇਹ ਅਸਮਾਨਤਾ ਵਿਜ਼ੂਅਲ ਡੇਟਾ ਦੀ ਪ੍ਰਕਿਰਤੀ ਤੋਂ ਪੈਦਾ ਹੁੰਦੀ ਹੈ, ਜਿੱਥੇ ਗੁਆਂਢੀ ਪਿਕਸਲ ਅਕਸਰ ਮਜ਼ਬੂਤ ਸੰਬੰਧ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਵਿਜ਼ੂਅਲ ਟੋਕਨ ਦੇ ਵੱਖ-ਵੱਖ ਅਯਾਮਾਂ ਵਿੱਚ ਬੇਲੋੜੀ ਜਾਣਕਾਰੀ ਹੁੰਦੀ ਹੈ।
ਟੋਕਨ-ਸ਼ਫਲ ਰਣਨੀਤਕ ਤੌਰ ‘ਤੇ ਟ੍ਰਾਂਸਫਾਰਮਰ ਪ੍ਰੋਸੈਸਿੰਗ ਤੋਂ ਪਹਿਲਾਂ ਸਥਾਨਿਕ ਤੌਰ ‘ਤੇ ਸਥਾਨਕ ਵਿਜ਼ੂਅਲ ਟੋਕਨਾਂ ਨੂੰ ਚੈਨਲ ਅਯਾਮ ਦੇ ਨਾਲ ਮਿਲਾਉਂਦਾ ਹੈ, ਜਾਣਕਾਰੀ ਨੂੰ ਵਧੇਰੇ ਸੰਖੇਪ ਪ੍ਰਤੀਨਿਧਤਾ ਵਿੱਚ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸੰਕੁਚਿਤ ਕਰਦਾ ਹੈ। ਇਹ ਸੰਕੁਚਨ ਟਰਾਂਸਫਾਰਮਰ ਲੇਅਰਾਂ ‘ਤੇ ਕੰਪਿਊਟੇਸ਼ਨਲ ਬੋਝ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ, ਉਹਨਾਂ ਨੂੰ ਪ੍ਰੋਸੈਸਿੰਗ ਸਮੇਂ ਜਾਂ ਮੈਮੋਰੀ ਦੀਆਂ ਜ਼ਰੂਰਤਾਂ ਵਿੱਚ ਸੰਬੰਧਿਤ ਵਾਧਾ ਕੀਤੇ ਬਿਨਾਂ ਉੱਚ-ਰੈਜ਼ੋਲੂਸ਼ਨ ਚਿੱਤਰਾਂ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ।
ਇਸ ਤੋਂ ਬਾਅਦ, ਅਨੁਮਾਨ ਤੋਂ ਬਾਅਦ ਅਸਲ ਸਥਾਨਿਕ ਢਾਂਚੇ ਨੂੰ ਬੜੀ ਬਾਰੀਕੀ ਨਾਲ ਬਹਾਲ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਇਹ ਸੁਨਿਸ਼ਚਿਤ ਕਰਦਾ ਹੈ ਕਿ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਚਿੱਤਰ ਆਪਣੀ ਦਿੱਖ ਵਫ਼ਾਦਾਰੀ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦਾ ਹੈ ਅਤੇਅਸਲ ਦ੍ਰਿਸ਼ ਵਿੱਚ ਮੌਜੂਦ ਸਥਾਨਿਕ ਸਬੰਧਾਂ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਦਰਸਾਉਂਦਾ ਹੈ। ਇਹ ਸਾਵਧਾਨੀ ਨਾਲ ਪੁਨਰ ਨਿਰਮਾਣ ਤਿਆਰ ਕੀਤੇ ਗਏ ਚਿੱਤਰ ਦੀ ਸਮੁੱਚੀ ਇਕਸਾਰਤਾ ਅਤੇ ਯਥਾਰਥਵਾਦ ਨੂੰ ਸੁਰੱਖਿਅਤ ਰੱਖਣ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ।
ਮੌਜੂਦਾ ਫਰੇਮਵਰਕ ਦੇ ਨਾਲ ਟੋਕਨ-ਸ਼ਫਲ ਦੀ ਅਨੁਕੂਲਤਾ
ਟੋਕਨ-ਸ਼ਫਲ ਦਾ ਇੱਕ ਮੁੱਖ ਫਾਇਦਾ ਮੌਜੂਦਾ ਅਗਲੇ-ਟੋਕਨ ਭਵਿੱਖਬਾਣੀ ਫਰੇਮਵਰਕ ਦੇ ਨਾਲ ਇਸਦੀ ਨਿਰਵਿਘਨ ਅਨੁਕੂਲਤਾ ਹੈ। ਇਸ ਵਿਧੀ ਲਈ ਅੰਡਰਲਾਈੰਗ ਟ੍ਰਾਂਸਫਾਰਮਰ ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ ਕਿਸੇ ਵੀ ਸੋਧ ਦੀ ਜਾਂ ਸਹਾਇਕ ਨੁਕਸਾਨ ਫੰਕਸ਼ਨਾਂ ਦੀ ਸ਼ੁਰੂਆਤ ਦੀ ਲੋੜ ਨਹੀਂ ਹੁੰਦੀ ਹੈ। ਇਹ ਟੋਕਨ-ਸ਼ਫਲ ਨੂੰ ਮਿਆਰੀ AR-ਅਧਾਰਤ ਮਲਟੀਮੋਡਲ ਸਿਸਟਮਾਂ ਵਿੱਚ ਏਕੀਕ੍ਰਿਤ ਕਰਨਾ ਆਸਾਨ ਬਣਾਉਂਦਾ ਹੈ ਅਤੇ ਬਿਨਾਂ ਕਿਸੇ ਵਿਆਪਕ ਰੀਟਰੇਨਿੰਗ ਜਾਂ ਆਰਕੀਟੈਕਚਰਲ ਬਦਲਾਵਾਂ ਦੀ ਲੋੜ ਦੇ।
ਏਕੀਕਰਣ ਦੀ ਅਸਾਨਤਾ ਟੋਕਨ-ਸ਼ਫਲ ਨੂੰ ਖੋਜਕਰਤਾਵਾਂ ਅਤੇ ਪ੍ਰੈਕਟੀਸ਼ਨਰਾਂ ਲਈ ਅਪਣਾਉਣ ਨੂੰ ਸਰਲ ਬਣਾਉਂਦੀ ਹੈ ਜੋ ਪਹਿਲਾਂ ਹੀ ਆਟੋਰੇਗ੍ਰੈਸਿਵ ਮਾਡਲਾਂ ਨਾਲ ਕੰਮ ਕਰ ਰਹੇ ਹਨ। ਉਹ ਆਸਾਨੀ ਨਾਲ ਟੋਕਨ-ਸ਼ਫਲ ਤਕਨੀਕ ਨੂੰ ਆਪਣੀਆਂ ਮੌਜੂਦਾ ਵਰਕਫਲੋ ਵਿੱਚ ਸ਼ਾਮਲ ਕਰ ਸਕਦੇ ਹਨ ਅਤੇ ਆਪਣੀਆਂ ਸਥਾਪਿਤ ਪਾਈਪਲਾਈਨਾਂ ਨੂੰ ਵਿਘਨ ਪਾਏ ਬਿਨਾਂ ਇਸਦੇ ਪ੍ਰਦਰਸ਼ਨ ਸੁਧਾਰਾਂ ਤੋਂ ਲਾਭ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹਨ।
ਵੇਰਵੇ ਵਿੱਚ ਕਲਾਸੀਫਾਇਰ-ਮੁਕਤ ਗਾਈਡੈਂਸ (CFG) ਸ਼ਡਿਊਲਰ
ਕਲਾਸੀਫਾਇਰ-ਮੁਕਤ ਗਾਈਡੈਂਸ (CFG) ਸ਼ਡਿਊਲਰ ਤਿਆਰ ਕੀਤੇ ਗਏ ਚਿੱਤਰਾਂ ਦੀ ਗੁਣਵੱਤਾ ਅਤੇ ਅਲਾਈਨਮੈਂਟ ਨੂੰ ਵਧਾਉਣ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਭੂਮਿਕਾ ਅਦਾ ਕਰਦਾ ਹੈ। ਪਰੰਪਰਾਗਤ ਤਰੀਕਿਆਂ ਦੇ ਉਲਟ ਜੋ ਸਾਰੇ ਟੋਕਨਾਂ ਵਿੱਚ ਇੱਕ ਨਿਰਧਾਰਤ ਗਾਈਡੈਂਸ ਸਕੇਲ ਲਾਗੂ ਕਰਦੇ ਹਨ, CFG ਸ਼ਡਿਊਲਰ ਹਰੇਕ ਟੋਕਨ ਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੇ ਅਧਾਰ ‘ਤੇ ਗਾਈਡੈਂਸ ਤਾਕਤ ਨੂੰ ਗਤੀਸ਼ੀਲ ਰੂਪ ਨਾਲ ਵਿਵਸਥਿਤ ਕਰਦਾ ਹੈ।
ਇਹ ਅਨੁਕੂਲਿਤ ਪਹੁੰਚ ਸ਼ੁਰੂਆਤੀ ਟੋਕਨ ਕਲਾਕ੍ਰਿਤੀਆਂ ਦੀ ਘਟਨਾ ਨੂੰ ਘੱਟ ਕਰਦੀ ਹੈ, ਜੋ ਅਕਸਰ ਤਿਆਰ ਕੀਤੇ ਗਏ ਚਿੱਤਰ ਵਿੱਚ ਦਿੱਖ ਵਿਗਾੜਾਂ ਜਾਂ ਅਸੰਗਤਤਾਵਾਂ ਵਜੋਂ ਪ੍ਰਗਟ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਗਾਈਡੈਂਸ ਤਾਕਤ ਨੂੰ ਹੌਲੀ-ਹੌਲੀ ਵਿਵਸਥਿਤ ਕਰਕੇ, CFG ਸ਼ਡਿਊਲਰ ਇਹ ਸੁਨਿਸ਼ਚਿਤ ਕਰਦਾ ਹੈ ਕਿ ਮਾਡਲ ਦ੍ਰਿਸ਼ਟੀਗਤ ਤੌਰ ‘ਤੇ ਇਕਸਾਰ ਅਤੇ ਅਰਥਾਤ ਸਹੀ ਸਮੱਗਰੀ ਤਿਆਰ ਕਰਨ ‘ਤੇ ਕੇਂਦ੍ਰਤ ਕਰਦਾ ਹੈ।
ਇਸ ਤੋਂ ਇਲਾਵਾ, CFG ਸ਼ਡਿਊਲਰ ਟੈਕਸਟ-ਚਿੱਤਰ ਅਲਾਈਨਮੈਂਟ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਕਰਦਾ ਹੈ, ਇਹ ਸੁਨਿਸ਼ਚਿਤ ਕਰਦਾ ਹੈ ਕਿ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਚਿੱਤਰ ਸੰਬੰਧਿਤ ਟੈਕਸਟ ਪ੍ਰੋਂਪਟ ਵਿੱਚ ਦੱਸੀ ਗਈ ਸਮੱਗਰੀ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਦਰਸਾਉਂਦਾ ਹੈ। ਇਹ ਉਤਪਾਦਨ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਟੋਕਨਾਂ ਵੱਲ ਮਾਰਗਦਰਸ਼ਨ ਕਰਕੇ ਪ੍ਰਾਪਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਜੋ ਟੈਕਸਟ ਵਰਣਨ ਦੇ ਨਾਲ ਵਧੇਰੇ ਇਕਸਾਰ ਹੁੰਦੇ ਹਨ, ਨਤੀਜੇ ਵਜੋਂ ਵਧੇਰੇ ਵਫ਼ਾਦਾਰ ਅਤੇ ਪ੍ਰਸੰਗਿਕ ਤੌਰ ‘ਤੇ ਸੰਬੰਧਿਤ ਵਿਜ਼ੂਅਲ ਪ੍ਰਤੀਨਿਧਤਾ ਹੁੰਦੀ ਹੈ।
ਬੈਂਚਮਾਰਕ ਨਤੀਜੇ: ਇੱਕ ਵਿਆਪਕ ਵਿਸ਼ਲੇਸ਼ਣ
ਟੋਕਨ-ਸ਼ਫਲ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਦੋ ਪ੍ਰਮੁੱਖ ਬੈਂਚਮਾਰਕਾਂ ‘ਤੇ ਸਖ਼ਤੀ ਨਾਲ ਮੁਲਾਂਕਣ ਕੀਤਾ ਗਿਆ: GenAI-ਬੈਂਚ ਅਤੇ GenEval।
GenAI-ਬੈਂਚ ‘ਤੇ, ਟੋਕਨ-ਸ਼ਫਲ ਨੇ 2.7 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ LLaMA-ਅਧਾਰਤ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਸਮੇਂ ‘ਹਾਰਡ’ ਪ੍ਰੋਂਪਟਾਂ ‘ਤੇ 0.77 ਦਾ VQASਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ। ਇਹ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਸਕੋਰ ਲਾਮਾਜੈਨ ਵਰਗੇ ਹੋਰ ਆਟੋਰੇਗ੍ਰੈਸਿਵ ਮਾਡਲਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ +0.18 ਦੇ ਮਹੱਤਵਪੂਰਨ ਹਾਸ਼ੀਏ ਅਤੇ LDM ਵਰਗੇ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲਾਂ ਨੂੰ +0.15 ਨਾਲੋਂ ਵੱਧ ਦਿੰਦਾ ਹੈ। ਇਹ ਨਤੀਜੇ ਗੁੰਝਲਦਾਰ ਅਤੇ ਚੁਣੌਤੀਪੂਰਨ ਚਿੱਤਰ ਉਤਪਾਦਨ ਕਾਰਜਾਂ ਨੂੰ ਸੰਭਾਲਣ ਵਿੱਚ ਟੋਕਨ-ਸ਼ਫਲ ਦੀ ਉੱਤਮ ਸਮਰੱਥਾ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ ਜਿਸ ਲਈ ਸਮਝ ਅਤੇ ਤਰਕ ਦੀ ਉੱਚ ਡਿਗਰੀ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
GenEval ਬੈਂਚਮਾਰਕ ਵਿੱਚ, ਟੋਕਨ-ਸ਼ਫਲ ਨੇ 0.62 ਦਾ ਇੱਕ ਸਮੁੱਚਾ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਡਿਸਕਰੀਟ ਟੋਕਨ ਸ਼ਾਸਨ ਵਿੱਚ ਕੰਮ ਕਰ ਰਹੇ AR ਮਾਡਲਾਂ ਲਈ ਇੱਕ ਨਵੀਂ ਬੇਸਲਾਈਨ ਸਥਾਪਤ ਕਰਦੇ ਹੋਏ। ਇਹ ਪ੍ਰਾਪਤੀ ਆਟੋਰੇਗ੍ਰੈਸਿਵ ਚਿੱਤਰ ਉਤਪਾਦਨ ਲਈ ਮਿਆਰਾਂ ਨੂੰ ਮੁੜ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਅਤੇ ਖੇਤਰ ਵਿੱਚ ਹੋਰ ਤਰੱਕੀ ਕਰਨ ਲਈ ਟੋਕਨ-ਸ਼ਫਲ ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਉਜਾਗਰ ਕਰਦੀ ਹੈ।
ਬੈਂਚਮਾਰਕ ਨਤੀਜੇ ਚਿੱਤਰ ਉਤਪਾਦਨ ਲਈ ਆਟੋਰੇਗ੍ਰੈਸਿਵ ਮਾਡਲਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਵਿੱਚ ਟੋਕਨ-ਸ਼ਫਲ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਦਾ ਯਕੀਨੀ ਸਬੂਤ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ। GenAI-ਬੈਂਚ ਅਤੇ GenEval ਦੋਵਾਂ ‘ਤੇ ਪ੍ਰਾਪਤ ਕੀਤੇ ਮਹੱਤਵਪੂਰਨ ਲਾਭ ਘੱਟ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਰੋਤਾਂ ਨਾਲ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਚਿੱਤਰ ਉਤਪਾਦਨ ਲਈ ਨਵੀਆਂ ਸੰਭਾਵਨਾਵਾਂ ਨੂੰ ਅਨਲੌਕ ਕਰਨ ਲਈ ਟੋਕਨ-ਸ਼ਫਲ ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਉਜਾਗਰ ਕਰਦੇ ਹਨ।
ਮਨੁੱਖੀ ਮੁਲਾਂਕਣ: ਚਿੱਤਰ ਗੁਣਵੱਤਾ ਦਾ ਵਿਸ਼ੇਸ਼ ਮੁਲਾਂਕਣ
ਮਾਤਰਾਤਮਕ ਬੈਂਚਮਾਰਕ ਨਤੀਜਿਆਂ ਤੋਂ ਇਲਾਵਾ, ਤਿਆਰ ਕੀਤੇ ਗਏ ਚਿੱਤਰਾਂ ਦੀ ਵਿਸ਼ੇਸ਼ਗੁਣਵੱਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਟੋਕਨ-ਸ਼ਫਲ ਨੂੰ ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਮਨੁੱਖੀ ਮੁਲਾਂਕਣ ਲਈ ਵੀ ਪੇਸ਼ ਕੀਤਾ ਗਿਆ ਸੀ।
ਮਨੁੱਖੀ ਮੁਲਾਂਕਣ ਨੇ ਖੁਲਾਸਾ ਕੀਤਾ ਕਿ ਟੋਕਨ-ਸ਼ਫਲ ਨੇ LlamaGen, Lumina-mGPT, ਅਤੇ ਡਿਫਿਊਜ਼ਨ ਬੇਸਲਾਈਨਾਂ ਨੂੰ ਕਈ ਮੁੱਖ ਪਹਿਲੂਆਂ ਵਿੱਚ ਪਛਾੜ ਦਿੱਤਾ, ਜਿਸ ਵਿੱਚ ਟੈਕਸਟ ਪ੍ਰੋਂਪਟਾਂ ਨਾਲ ਸੁਧਾਰੀ ਗਈ ਅਲਾਈਨਮੈਂਟ, ਘਟੀਆਂ ਦਿੱਖ ਨੁਕਸ ਅਤੇ ਜ਼ਿਆਦਾਤਰ ਮਾਮਲਿਆਂ ਵਿੱਚ ਉੱਚ ਵਿਸ਼ੇਸ਼ ਚਿੱਤਰ ਗੁਣਵੱਤਾ ਸ਼ਾਮਲ ਹੈ। ਇਹ ਖੋਜਾਂ ਦਰਸਾਉਂਦੀਆਂ ਹਨ ਕਿ ਟੋਕਨ-ਸ਼ਫਲ ਨਾ ਸਿਰਫ਼ ਉਦੇਸ਼ ਮੈਟ੍ਰਿਕਸ ਦੇ ਅਨੁਸਾਰ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ ਬਲਕਿ ਮਨੁੱਖੀ ਨਿਗਰਾਨਾਂ ਲਈ ਵਧੇਰੇ ਸੰਤੁਸ਼ਟੀਜਨਕ ਅਤੇ ਦ੍ਰਿਸ਼ਟੀਗਤ ਤੌਰ ‘ਤੇ ਆਕਰਸ਼ਕ ਅਨੁਭਵ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।
ਟੈਕਸਟ ਪ੍ਰੋਂਪਟਾਂ ਨਾਲ ਸੁਧਾਰੀ ਗਈ ਅਲਾਈਨਮੈਂਟ ਸੁਝਾਅ ਦਿੰਦੀ ਹੈ ਕਿ ਟੋਕਨ-ਸ਼ਫਲ ਚਿੱਤਰਾਂ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਬਿਹਤਰ ਹੈ ਜੋ ਸੰਬੰਧਿਤ ਟੈਕਸਟ ਵਰਣਨ ਵਿੱਚ ਦੱਸੀ ਗਈ ਸਮੱਗਰੀ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਦਰਸਾਉਂਦੇ ਹਨ। ਘਟੀਆਂ ਦਿੱਖ ਨੁਕਸ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ ਟੋਕਨ-ਸ਼ਫਲ ਚਿੱਤਰਾਂ ਨੂੰ ਤਿਆਰ ਕਰਨ ਦੇ ਸਮਰੱਥ ਹੈ ਜੋ ਵਧੇਰੇ ਦ੍ਰਿਸ਼ਟੀਗਤ ਤੌਰ ‘ਤੇ ਇਕਸਾਰ ਅਤੇ ਕਲਾਕ੍ਰਿਤੀਆਂ ਜਾਂ ਵਿਗਾੜਾਂ ਤੋਂ ਮੁਕਤ ਹਨ। ਉੱਚ ਵਿਸ਼ੇਸ਼ ਚਿੱਤਰ ਗੁਣਵੱਤਾ ਸੁਝਾਅ ਦਿੰਦੀ ਹੈ ਕਿ ਮਨੁੱਖੀ ਨਿਗਰਾਨ ਆਮ ਤੌਰ ‘ਤੇ ਹੋਰ ਮਾਡਲਾਂ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਚਿੱਤਰਾਂ ਨਾਲੋਂ ਟੋਕਨ-ਸ਼ਫਲ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਚਿੱਤਰਾਂ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦੇ ਹਨ।
ਹਾਲਾਂਕਿ, ਇਹ ਮੰਨਣਾ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ ਤਰਕਪੂਰਨ ਇਕਸਾਰਤਾ ਵਿੱਚ ਮਾਮੂਲੀ ਗਿਰਾਵਟ ਦੇਖੀ ਗਈ। ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਤਿਆਰ ਕੀਤੇ ਗਏ ਚਿੱਤਰਾਂ ਦੀ ਤਰਕਪੂਰਨ ਇਕਸਾਰਤਾ ਵਿੱਚ ਸੁਧਾਰ ਦੀ ਅਜੇ ਵੀ ਗੁੰਜਾਇਸ਼ ਹੈ ਅਤੇ ਇਸ ਮੁੱਦੇ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਹੋਰ ਖੋਜ ਦੀ ਲੋੜ ਹੈ।
ਐਬਲੇਸ਼ਨ ਅਧਿਐਨ: ਵਿੰਡੋ ਆਕਾਰ ਦੇ ਪ੍ਰਭਾਵ ਦੀ ਪੜਚੋਲ ਕਰਨਾ
ਟੋਕਨ-ਸ਼ਫਲ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਵਿਜ਼ੂਅਲ ਗੁਣਵੱਤਾ ‘ਤੇ ਵੱਖ-ਵੱਖ ਸ਼ਫਲ ਵਿੰਡੋ ਆਕਾਰਾਂ ਦੇ ਪ੍ਰਭਾਵ ਦੀ ਪੜਚੋਲ ਕਰਨ ਲਈ ਐਬਲੇਸ਼ਨ ਅਧਿਐਨ ਕੀਤੇ ਗਏ ਸਨ।
ਐਬਲੇਸ਼ਨ ਅਧਿਐਨਾਂ ਦੇ ਨਤੀਜਿਆਂ ਨੇ ਖੁਲਾਸਾ ਕੀਤਾ ਕਿ ਛੋਟੇ ਸ਼ਫਲ ਵਿੰਡੋ ਆਕਾਰ (ਉਦਾਹਰਨ ਲਈ, 2x2) ਕੰਪਿਊਟੇਸ਼ਨਲ ਕੁਸ਼ਲਤਾ ਅਤੇ ਆਉਟਪੁੱਟ ਗੁਣਵੱਤਾ ਦੇ ਵਿਚਕਾਰ ਵਧੀਆ ਵਪਾਰ-ਬੰਦ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦੇ ਹਨ। ਜਦੋਂ ਕਿ ਵੱਡੇ ਵਿੰਡੋ ਆਕਾਰ ਪ੍ਰੋਸੈਸਿੰਗ ਸਮੇਂ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਵਾਧੂ ਸਪੀਡਅੱਪ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ, ਉਹ ਬਰੀਕ-ਦਾਣੇਦਾਰ ਵੇਰਵੇ ਵਿੱਚ ਮਾਮੂਲੀ ਨੁਕਸਾਨ ਪੇਸ਼ ਕਰ ਸਕਦੇ ਹਨ।
ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਵਿਜ਼ੂਅਲ ਗੁਣਵੱਤਾ ਦੇ ਵਿਚਕਾਰ ਲੋੜੀਂਦੇ ਸੰਤੁਲਨ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਸ਼ਫਲ ਵਿੰਡੋ ਆਕਾਰ ਦੀ ਸਾਵਧਾਨੀ ਨਾਲ ਚੋਣ ਕਰਨਾ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਅਨੁਕੂਲ ਵਿੰਡੋ ਆਕਾਰ ਐਪਲੀਕੇਸ਼ਨ ਦੀਆਂ ਖਾਸ ਲੋੜਾਂ ਅਤੇ ਇਨਪੁਟ ਡੇਟਾ ਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ‘ਤੇ ਨਿਰਭਰ ਕਰੇਗਾ।
ਸਕੇਲੇਬਲ ਮਲਟੀਮੋਡਲ ਜਨਰੇਸ਼ਨ ਲਈ ਪ੍ਰਭਾਵ
ਟੋਕਨ-ਸ਼ਫਲ ਦਾ ਸਕੇਲੇਬਲ ਮਲਟੀਮੋਡਲ ਜਨਰੇਸ਼ਨ ਦੇ ਭਵਿੱਖ ਲਈ ਮਹੱਤਵਪੂਰਨ ਪ੍ਰਭਾਵ ਹਨ। ਘੱਟ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਰੋਤਾਂ ਨਾਲ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਚਿੱਤਰਾਂ ਦੀ ਪੀੜ੍ਹੀ ਨੂੰ ਸਮਰੱਥ ਬਣਾ ਕੇ, ਟੋਕਨ-ਸ਼ਫਲ ਸਮੱਗਰੀ ਰਚਨਾ, ਵਿਜ਼ੂਅਲ ਸੰਚਾਰ, ਅਤੇ ਨਕਲੀ ਬੁੱਧੀ ਵਰਗੇ ਖੇਤਰਾਂ ਵਿੱਚ ਨਵੀਆਂ ਸੰਭਾਵਨਾਵਾਂ ਲਈ ਰਾਹ ਪੱਧਰਾ ਕਰਦਾ ਹੈ।
ਸੀਮਤ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਰੋਤਾਂ ਨਾਲ ਉੱਚ-ਰੈਜ਼ੋਲੂਸ਼ਨ ਚਿੱਤਰਾਂ ਨੂੰ ਤਿਆਰ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਖੋਜਕਰਤਾਵਾਂ ਅਤੇ ਕਲਾਕਾਰਾਂ ਨੂੰ ਨਵੇਂ ਰਚਨਾਤਮਕ ਰਸਤਿਆਂ ਦੀ ਪੜਚੋਲ ਕਰਨ ਅਤੇ ਨਵੀਨਤਾਕਾਰੀ ਐਪਲੀਕੇਸ਼ਨਾਂ ਵਿਕਸਤ ਕਰਨ ਲਈ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰੇਗੀ ਜੋ ਪਹਿਲਾਂ ਤਕਨੀਕੀ ਸੀਮਾਵਾਂ ਦੁਆਰਾ ਸੀਮਤ ਸਨ। ਉਦਾਹਰਨ ਲਈ, ਟੋਕਨ-ਸ਼ਫਲ ਦੀ ਵਰਤੋਂ ਵਰਚੁਅਲ ਰਿਐਲਿਟੀ ਵਾਤਾਵਰਣਾਂ ਲਈ ਫੋਟੋਰੀਅਲਿਸਟਿਕ ਚਿੱਤਰ ਤਿਆਰ ਕਰਨ, ਸੋਸ਼ਲ ਮੀਡੀਆ ਪਲੇਟਫਾਰਮਾਂ ਲਈ ਵਿਅਕਤੀਗਤ ਵਿਜ਼ੂਅਲ ਸਮੱਗਰੀ ਬਣਾਉਣ, ਜਾਂ ਬੁੱਧੀਮਾਨ ਪ੍ਰਣਾਲੀਆਂ ਵਿਕਸਤ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ ਜੋ ਵਿਜ਼ੂਅਲ ਜਾਣਕਾਰੀ ਨੂੰ ਸਮਝ ਸਕਦੀਆਂ ਹਨ ਅਤੇ ਜਵਾਬ ਦੇ ਸਕਦੀਆਂ ਹਨ।
ਜਿਵੇਂ ਕਿ ਖੋਜ ਸਕੇਲੇਬਲ ਮਲਟੀਮੋਡਲ ਜਨਰੇਸ਼ਨ ਨੂੰ ਅੱਗੇ ਵਧਾਉਣਾ ਜਾਰੀ ਰੱਖਦੀ ਹੈ, ਟੋਕਨ-ਸ਼ਫਲ ਕੁਸ਼ਲ, ਏਕੀਕ੍ਰਿਤ ਮਾਡਲਾਂ ਲਈ ਇੱਕ ਵਾਅਦਾ