ਮਸ਼ੀਨਾਂ ਨੂੰ ਵਿਜ਼ੂਅਲ ਜਾਣਕਾਰੀ ਨੂੰ ਸਮਝਣ ਅਤੇ ਪੈਦਾ ਕਰਨ ਦੀ ਯੋਗਤਾ ਪ੍ਰਦਾਨ ਕਰਨ ਦੀ ਖੋਜ ਲੰਬੇ ਸਮੇਂ ਤੋਂ ਇੱਕ ਬੁਨਿਆਦੀ ਚੁਣੌਤੀ ਨਾਲ ਜੂਝ ਰਹੀ ਹੈ: ਇੱਕ ਚਿੱਤਰ ਬਣਾਉਣ ਵਾਲੇ ਪਿਕਸਲ ਦੇ ਅਮੀਰ ਤਾਣੇ-ਬਾਣੇ ਨੂੰ ਕੁਸ਼ਲਤਾ ਨਾਲ ਕਿਵੇਂ ਦਰਸਾਇਆ ਜਾਵੇ। ਸਾਲਾਂ ਤੋਂ, ਪ੍ਰਮੁੱਖ ਰਣਨੀਤੀ ਨੇ ਦੋ-ਐਕਟ ਵਾਲੇ ਨਾਟਕ ਦੀ ਨਕਲ ਕੀਤੀ ਹੈ। ਪਹਿਲਾਂ, ਫੈਲੇ ਹੋਏ ਵਿਜ਼ੂਅਲ ਡੇਟਾ ਨੂੰ ਇੱਕ ਵਧੇਰੇ ਪ੍ਰਬੰਧਨਯੋਗ, ਸੰਖੇਪ ਰੂਪ ਵਿੱਚ ਸੰਕੁਚਿਤ ਕਰੋ - ਲੇਟੈਂਟ ਪ੍ਰਤੀਨਿਧਤਾ। ਦੂਜਾ, ਇਸ ਸੰਕੁਚਿਤ ਸਪੇਸ ਦੇ ਅੰਦਰ ਪੈਟਰਨਾਂ ਨੂੰ ਸਿੱਖਣ ਅਤੇ ਦੁਹਰਾਉਣ ਲਈ ਆਧੁਨਿਕ ਮਾਡਲ ਬਣਾਓ। ਫਿਰ ਵੀ, ਇੱਕ ਨਿਰੰਤਰ ਸੀਮਾ ਨੇ ਇਹਨਾਂ ਯਤਨਾਂ ‘ਤੇ ਪਰਛਾਵਾਂ ਪਾਇਆ ਹੈ: ਰਵਾਇਤੀ ਟੋਕਨਾਈਜ਼ੇਸ਼ਨ ਤਕਨੀਕਾਂ ਦੀ ਪ੍ਰਵਿਰਤੀ ਇੱਕ ਚਿੱਤਰ ਦੇ ਸਾਰੇ ਹਿੱਸਿਆਂ ਨੂੰ ਉਹਨਾਂ ਦੀ ਜਾਣਕਾਰੀ ਦੇ ਮਹੱਤਵ ਦੀ ਪਰਵਾਹ ਕੀਤੇ ਬਿਨਾਂ, ਲੋਕਤੰਤਰੀ ਸਮਾਨਤਾ ਨਾਲ ਪੇਸ਼ ਕਰਨ ਦੀ।
ਦੇਖਣ ਵਾਲੀਆਂ ਮਸ਼ੀਨਾਂ ਵਿੱਚ ਰੁਕਾਵਟ: ਇਕਸਾਰਤਾ ਦੀਆਂ ਰੁਕਾਵਟਾਂ
ਕਿਸੇ ਕਲਾਕਾਰ ਨੂੰ ਕੰਮ ਸੌਂਪਣ ਦੀ ਕਲਪਨਾ ਕਰੋ ਪਰ ਇਸ ਗੱਲ ‘ਤੇ ਜ਼ੋਰ ਦਿਓ ਕਿ ਉਹ ਕੈਨਵਸ ਦੇ ਹਰ ਵਰਗ ਇੰਚ ਲਈ ਬਿਲਕੁਲ ਉਹੀ ਬੁਰਸ਼ਸਟ੍ਰੋਕ ਆਕਾਰ ਅਤੇ ਵੇਰਵੇ ਦੇ ਪੱਧਰ ਦੀ ਵਰਤੋਂ ਕਰਨ। ਮਨੁੱਖੀ ਚਿਹਰੇ ‘ਤੇ ਗੁੰਝਲਦਾਰ ਭਾਵਾਂ ਨੂੰ ਸਾਫ਼ ਨੀਲੇ ਅਸਮਾਨ ਜਾਂ ਬੇਰੰਗ ਕੰਧ ਦੇ ਇਕਸਾਰ ਵਿਸਤਾਰ ਨਾਲੋਂ ਵੱਧ ਧਿਆਨ ਨਹੀਂ ਮਿਲੇਗਾ। ਇਹ ਸਮਾਨਤਾ ਬਹੁਤ ਸਾਰੀਆਂ ਰਵਾਇਤੀ ਵਿਜ਼ੂਅਲ ਪ੍ਰਤੀਨਿਧਤਾ ਵਿਧੀਆਂ ਨੂੰ ਪਰੇਸ਼ਾਨ ਕਰਨ ਵਾਲੀ ਸਮੱਸਿਆ ਦੇ ਤੱਤ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ। Variational Autoencoders (VAEs) ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੀਆਂ ਤਕਨੀਕਾਂ, ਜਿਨ੍ਹਾਂ ਨੇ ਚਿੱਤਰਾਂ ਨੂੰ ਨਿਰੰਤਰ ਲੇਟੈਂਟ ਸਪੇਸ ਵਿੱਚ ਮੈਪ ਕਰਨ ਦੀ ਅਗਵਾਈ ਕੀਤੀ, ਅਤੇ ਉਹਨਾਂ ਦੇ ਉੱਤਰਾਧਿਕਾਰੀ ਜਿਵੇਂ ਕਿ VQVAE ਅਤੇ VQGAN, ਜਿਨ੍ਹਾਂ ਨੇ ਇਹਨਾਂ ਸਪੇਸਾਂ ਨੂੰ ਟੋਕਨਾਂ ਦੇ ਕ੍ਰਮ ਵਿੱਚ ਵੰਡਿਆ, ਅਕਸਰ ਇੱਕ ਸਮਾਨ ਸਥਾਨਿਕ ਸੰਕੁਚਨ ਅਨੁਪਾਤ ਲਾਗੂ ਕਰਦੇ ਹਨ।
ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਇੱਕ ਖੇਤਰ ਜੋ ਗੁੰਝਲਦਾਰ ਵਸਤੂਆਂ, ਟੈਕਸਚਰ ਅਤੇ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਨਾਲ ਭਰਪੂਰ ਹੈ - ਸ਼ਾਇਦ ਇੱਕ ਭੀੜ-ਭੜੱਕੇ ਵਾਲੀ ਗਲੀ ਦੇ ਦ੍ਰਿਸ਼ ਦਾ ਅਗਲਾ ਹਿੱਸਾ - ਨੂੰ ਇੱਕ ਸਧਾਰਨ, ਸਮਰੂਪ ਪਿਛੋਕੜ ਵਾਲੇ ਖੇਤਰ ਦੇ ਸਮਾਨ ਪ੍ਰਤੀਨਿਧਤਾਤਮਕ ‘ਬਜਟ’ ਅਲਾਟ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਇਹ ਅੰਦਰੂਨੀ ਅਕੁਸ਼ਲਤਾ ਘੱਟ ਨਾਜ਼ੁਕ ਖੇਤਰਾਂ ‘ਤੇ ਪ੍ਰਤੀਨਿਧਤਾਤਮਕ ਸਮਰੱਥਾ ਨੂੰ ਬਰਬਾਦ ਕਰਦੀ ਹੈ ਜਦੋਂ ਕਿ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਉੱਚ-ਵਫ਼ਾਦਾਰੀ ਪੁਨਰ ਨਿਰਮਾਣ ਜਾਂ ਪੀੜ੍ਹੀ ਲਈ ਲੋੜੀਂਦੇ ਵੇਰਵਿਆਂ ਦੇ ਵਧੇਰੇ ਗੁੰਝਲਦਾਰ ਖੇਤਰਾਂ ਨੂੰ ਭੁੱਖਾ ਮਾਰਦੀ ਹੈ।
ਬਾਅਦ ਦੀਆਂ ਤਰੱਕੀਆਂ ਨੇ ਇਹਨਾਂ ਮੁੱਦਿਆਂ ਨੂੰ ਘੱਟ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ, ਪਰ ਅਕਸਰ ਆਪਣੀਆਂ ਜਟਿਲਤਾਵਾਂ ਪੇਸ਼ ਕੀਤੀਆਂ:
- ਪਦਕ੍ਰਮਿਕ ਪਹੁੰਚ: VQVAE-2, RQVAE, ਅਤੇ MoVQ ਵਰਗੇ ਮਾਡਲਾਂ ਨੇ ਬਹੁ-ਪੱਧਰੀ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਪੇਸ਼ ਕੀਤੀਆਂ, ਬਕਾਇਆ ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ ਦੁਆਰਾ ਵੱਖ-ਵੱਖ ਪੈਮਾਨਿਆਂ ‘ਤੇ ਜਾਣਕਾਰੀ ਹਾਸਲ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ। ਐਬਸਟਰੈਕਸ਼ਨ ਦੀਆਂ ਪਰਤਾਂ ਜੋੜਦੇ ਹੋਏ, ਪਰਤਾਂ ਦੇ ਅੰਦਰ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਇਕਸਾਰ ਇਲਾਜ ਦਾ ਬੁਨਿਆਦੀ ਮੁੱਦਾ ਬਣਿਆ ਰਹਿ ਸਕਦਾ ਹੈ।
- ਕੋਡਬੁੱਕ ਸਕੇਲਿੰਗ ਚੁਣੌਤੀਆਂ: FSQ, SimVQ, ਅਤੇ VQGAN-LC ਵਰਗੀਆਂ ਕੋਸ਼ਿਸ਼ਾਂ ‘ਪ੍ਰਤੀਨਿਧਤਾ ਢਹਿ’ ਨੂੰ ਸੰਬੋਧਿਤ ਕਰਨ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹਨ ਜੋ ਟੋਕਨਾਂ ਦੀ ਸ਼ਬਦਾਵਲੀ ਦੇ ਆਕਾਰ (ਕੋਡਬੁੱਕ) ਨੂੰ ਵਧਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਸਮੇਂ ਹੋ ਸਕਦੀਆਂ ਹਨ, ਜੋ ਕਿ ਬਾਰੀਕ ਵੇਰਵਿਆਂ ਨੂੰ ਹਾਸਲ ਕਰਨ ਲਈ ਇੱਕ ਜ਼ਰੂਰੀ ਕਦਮ ਹੈ। ਹਾਲਾਂਕਿ, ਇਹਨਾਂ ਵੱਡੀਆਂ ਵੱਖਰੀਆਂ ਸ਼ਬਦਾਵਲੀਆਂ ਨੂੰ ਕੁਸ਼ਲਤਾ ਨਾਲ ਪ੍ਰਬੰਧਿਤ ਕਰਨਾ ਇੱਕ ਰੁਕਾਵਟ ਬਣਿਆ ਹੋਇਆ ਹੈ।
- ਪੂਲਿੰਗ ਰਣਨੀਤੀਆਂ: ਕੁਝ ਤਰੀਕੇ ਘੱਟ-ਅਯਾਮੀ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਕੱਢਣ ਲਈ ਪੂਲਿੰਗ ਓਪਰੇਸ਼ਨਾਂ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ। ਵਰਗੀਕਰਨ ਵਰਗੇ ਕੁਝ ਕਾਰਜਾਂ ਲਈ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੋਣ ਦੇ ਬਾਵਜੂਦ, ਪੂਲਿੰਗ ਅੰਦਰੂਨੀ ਤੌਰ ‘ਤੇ ਜਾਣਕਾਰੀ ਨੂੰ ਇਕੱਠਾ ਕਰਦੀ ਹੈ, ਅਕਸਰ ਬਾਰੀਕ ਵੇਰਵਿਆਂ ਨੂੰ ਗੁਆ ਦਿੰਦੀ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, ਇਹਨਾਂ ਪਹੁੰਚਾਂ ਵਿੱਚ ਆਮ ਤੌਰ ‘ਤੇ ਪੂਲ ਕੀਤੀ ਵਿਸ਼ੇਸ਼ਤਾ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਉਣ ਵਾਲੇ ਵਿਅਕਤੀਗਤ ਤੱਤਾਂ ‘ਤੇ ਸਿੱਧੇ ਨਿਗਰਾਨੀ ਸੰਕੇਤਾਂ ਦੀ ਘਾਟ ਹੁੰਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਉਤਪੰਨ ਕਾਰਜਾਂ ਲਈ ਪ੍ਰਤੀਨਿਧਤਾ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣਾ ਮੁਸ਼ਕਲ ਹੋ ਜਾਂਦਾ ਹੈ ਜਿੱਥੇ ਵੇਰਵੇ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਹੁੰਦੇ ਹਨ। ਨਤੀਜੇ ਵਜੋਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਗੁੰਝਲਦਾਰ ਵਿਜ਼ੂਅਲ ਸਮੱਗਰੀ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਪੁਨਰ ਨਿਰਮਾਣ ਜਾਂ ਪੈਦਾ ਕਰਨ ਲਈ ਉਪ-ਅਨੁਕੂਲ ਹੋ ਸਕਦੀਆਂ ਹਨ।
- ਪੱਤਰ-ਵਿਹਾਰ-ਅਧਾਰਿਤ ਮੇਲ: ਸੈੱਟ ਮਾਡਲਿੰਗ ਤੋਂ ਪ੍ਰੇਰਨਾ ਲੈਣ ਵਾਲੀਆਂ ਤਕਨੀਕਾਂ, ਸਰਲ Bag-of-Words ਸੰਕਲਪਾਂ ਤੋਂ ਵਿਕਸਤ ਹੁੰਦੀਆਂ ਹਨ, ਕਈ ਵਾਰ ਅਨੁਮਾਨਿਤ ਤੱਤਾਂ ਅਤੇ ਜ਼ਮੀਨੀ ਸੱਚਾਈ ਦੇ ਵਿਚਕਾਰ ਪੱਤਰ-ਵਿਹਾਰ ਸਥਾਪਤ ਕਰਨ ਲਈ ਦੋ-ਪੱਖੀ ਮੇਲ ਖਾਂਦੇ ਐਲਗੋਰਿਦਮ (ਜਿਵੇਂ ਕਿ DETR ਜਾਂ TSPN ਵਿੱਚ ਵਰਤਿਆ ਜਾਣ ਵਾਲਾ Hungarian ਐਲਗੋਰਿਦਮ) ਦੀ ਵਰਤੋਂ ਕਰਦੀਆਂ ਹਨ। ਹਾਲਾਂਕਿ, ਇਹ ਮੇਲ ਖਾਂਦੀ ਪ੍ਰਕਿਰਿਆ ਆਪਣੇ ਆਪ ਵਿੱਚ ਅਸਥਿਰਤਾ ਪੈਦਾ ਕਰ ਸਕਦੀ ਹੈ। ਕਿਸੇ ਖਾਸ ਅਨੁਮਾਨਿਤ ਤੱਤ ਨੂੰ ਨਿਰਧਾਰਤ ਕੀਤਾ ਗਿਆ ਨਿਗਰਾਨੀ ਸੰਕੇਤ ਮੈਚ ਦੇ ਨਤੀਜੇ ਦੇ ਆਧਾਰ ‘ਤੇ ਇੱਕ ਸਿਖਲਾਈ ਦੁਹਰਾਓ ਤੋਂ ਅਗਲੇ ਤੱਕ ਬਦਲ ਸਕਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਅਸੰਗਤ ਗਰੇਡੀਐਂਟ ਹੋ ਸਕਦੇ ਹਨ ਅਤੇ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਕੁਸ਼ਲ ਕਨਵਰਜੈਂਸ ਵਿੱਚ ਰੁਕਾਵਟ ਆ ਸਕਦੀ ਹੈ। ਮਾਡਲ ਸਥਿਰ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਨੂੰ ਸਿੱਖਣ ਲਈ ਸੰਘਰਸ਼ ਕਰ ਸਕਦਾ ਹੈ ਜਦੋਂ ਇਸਦੇ ਟੀਚੇ ਲਗਾਤਾਰ ਬਦਲ ਰਹੇ ਹੁੰਦੇ ਹਨ।
ਇਹਨਾਂ ਵੱਖੋ-ਵੱਖਰੇ ਪਹੁੰਚਾਂ ਵਿੱਚ ਅੰਤਰੀਵ ਥੀਮ ਸਖ਼ਤ, ਅਕਸਰ ਕ੍ਰਮ-ਅਧਾਰਿਤ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਦੁਆਰਾ ਲਗਾਈਆਂ ਗਈਆਂ ਰੁਕਾਵਟਾਂ ਅਤੇ ਪ੍ਰਤੀਨਿਧਤਾਤਮਕ ਸਰੋਤਾਂ ਨੂੰ ਗਤੀਸ਼ੀਲ ਤੌਰ ‘ਤੇ ਅਲਾਟ ਕਰਨ ਦੀ ਮੁਸ਼ਕਲ ਦੇ ਵਿਰੁੱਧ ਇੱਕ ਸੰਘਰਸ਼ ਹੈ ਜਿੱਥੇ ਉਹਨਾਂ ਦੀ ਸਭ ਤੋਂ ਵੱਧ ਲੋੜ ਹੁੰਦੀ ਹੈ - ਚਿੱਤਰ ਖੇਤਰਾਂ ਦੇ ਅੰਦਰ ਸ਼ਾਮਲ ਸਿਮੈਂਟਿਕ ਅਰਥ ਦੇ ਅਨੁਸਾਰ।
ਪਿਕਸਲ ‘ਤੇ ਮੁੜ ਵਿਚਾਰ ਕਰਨਾ: ਸੈੱਟ-ਅਧਾਰਿਤ ਵਿਜ਼ਨ ਦੀ ਸ਼ੁਰੂਆਤ
ਕ੍ਰਮਵਾਰ, ਇਕਸਾਰ ਤੌਰ ‘ਤੇ ਸੰਕੁਚਿਤ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਦੀਆਂ ਸੀਮਾਵਾਂ ਤੋਂ ਨਿਰਾਸ਼, University of Science and Technology of China ਅਤੇ Tencent Hunyuan Research ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਇੱਕ ਵੱਖਰਾ ਰਸਤਾ ਅਪਣਾਇਆ। ਉਹਨਾਂ ਨੇ ਇਸ ਬੁਨਿਆਦੀ ਧਾਰਨਾ ‘ਤੇ ਸਵਾਲ ਉਠਾਏ ਕਿ ਚਿੱਤਰਾਂ ਨੂੰ ਟੋਕਨਾਂ ਦੇ ਕ੍ਰਮਬੱਧ ਕ੍ਰਮ ਵਜੋਂ ਸੰਸਾਧਿਤ ਕੀਤਾ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਇੱਕ ਵਾਕ ਵਿੱਚ ਸ਼ਬਦ। ਉਹਨਾਂ ਦਾ ਨਵੀਨਤਾਕਾਰੀ ਜਵਾਬ TokenSet ਹੈ, ਇੱਕ ਢਾਂਚਾ ਜੋ ਇੱਕ ਵਧੇਰੇ ਲਚਕਦਾਰ ਅਤੇ ਅਰਥਪੂਰਨ ਤੌਰ ‘ਤੇ ਜਾਗਰੂਕ ਪਹੁੰਚ ਵੱਲ ਇੱਕ ਪੈਰਾਡਾਈਮ ਸ਼ਿਫਟ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।
ਇਸਦੇ ਮੂਲ ਵਿੱਚ, TokenSet ਇੱਕ ਚਿੱਤਰ ਨੂੰ ਟੋਕਨਾਂ ਦੇ ਇੱਕ ਬੇਤਰਤੀਬੇ ਸੈੱਟ ਵਜੋਂ ਦਰਸਾਉਣ ਦੇ ਪੱਖ ਵਿੱਚ ਟੋਕਨ ਕ੍ਰਮਾਂ ਦੀ ਸਖ਼ਤ ਬਣਤਰ ਨੂੰ ਛੱਡ ਦਿੰਦਾ ਹੈ। ਇਸ ਸਧਾਰਨ ਤਬਦੀਲੀ ਦੇ ਡੂੰਘੇ ਪ੍ਰਭਾਵ ਹਨ:
- ਗਤੀਸ਼ੀਲ ਪ੍ਰਤੀਨਿਧਤਾਤਮਕ ਸਮਰੱਥਾ: ਹਰ ਥਾਂ ਇੱਕ ਨਿਸ਼ਚਿਤ ਸੰਕੁਚਨ ਅਨੁਪਾਤ ਲਾਗੂ ਕਰਨ ਵਾਲੀਆਂ ਵਿਧੀਆਂ ਦੇ ਉਲਟ, TokenSet ਨੂੰ ਕੋਡਿੰਗ ਸਮਰੱਥਾ ਨੂੰ ਗਤੀਸ਼ੀਲ ਤੌਰ ‘ਤੇ ਅਲਾਟ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਹ ਸਹਿਜੇ ਹੀ ਸਮਝਦਾ ਹੈ ਕਿ ਇੱਕ ਚਿੱਤਰ ਦੇ ਵੱਖ-ਵੱਖ ਖੇਤਰਾਂ ਵਿੱਚ ਅਰਥਾਂ ਦਾ ਵੱਖਰਾ ਭਾਰ ਹੁੰਦਾ ਹੈ। ਗੁੰਝਲਦਾਰ ਖੇਤਰ, ਵੇਰਵੇ ਅਤੇ ਅਰਥਾਂ ਨਾਲ ਭਰਪੂਰ, ਪ੍ਰਤੀਨਿਧਤਾਤਮਕ ਸਰੋਤਾਂ ਦੇ ਇੱਕ ਵੱਡੇ ਹਿੱਸੇ ਦੀ ਮੰਗ ਕਰ ਸਕਦੇ ਹਨ, ਜਦੋਂ ਕਿ ਸਰਲ ਪਿਛੋਕੜ ਵਾਲੇ ਖੇਤਰਾਂ ਨੂੰ ਘੱਟ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਹ ਮਨੁੱਖੀ ਵਿਜ਼ੂਅਲ ਧਾਰਨਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਜਿੱਥੇ ਅਸੀਂ ਕੁਦਰਤੀ ਤੌਰ ‘ਤੇ ਪ੍ਰਮੁੱਖ ਵਸਤੂਆਂ ਅਤੇ ਵੇਰਵਿਆਂ ‘ਤੇ ਵਧੇਰੇ ਬੋਧਾਤਮਕ ਸਰੋਤਾਂ ਨੂੰ ਕੇਂਦਰਿਤ ਕਰਦੇ ਹਾਂ।
- ਵਧਿਆ ਹੋਇਆ ਗਲੋਬਲ ਸੰਦਰਭ: ਟੋਕਨਾਂ ਨੂੰ ਇੱਕ ਲੜੀ ਵਿੱਚ ਲਿੰਕਾਂ ਦੀ ਬਜਾਏ ਇੱਕ ਸੈੱਟ ਦੇ ਮੈਂਬਰਾਂ ਵਜੋਂ ਮੰਨ ਕੇ, TokenSet ਅੰਦਰੂਨੀ ਤੌਰ ‘ਤੇ ਅੰਤਰ-ਟੋਕਨ ਸਥਿਤੀ ਸੰਬੰਧਾਂ ਨੂੰ ਵੱਖ ਕਰਦਾ ਹੈ ਜੋ ਅਕਸਰ ਕ੍ਰਮਵਾਰ ਮਾਡਲਾਂ (ਜਿਵੇਂ ਕਿ ਪੈਚ ਕ੍ਰਮਾਂ ‘ਤੇ ਕੰਮ ਕਰਨ ਵਾਲੇ ਟ੍ਰਾਂਸਫਾਰਮਰ) ਦੁਆਰਾ ਲਾਗੂ ਕੀਤੇ ਜਾਂਦੇ ਹਨ। ਸੈੱਟ ਵਿੱਚ ਹਰੇਕ ਟੋਕਨ, ਸਿਧਾਂਤਕ ਤੌਰ ‘ਤੇ, ਇੱਕ ਪੂਰਵ-ਨਿਰਧਾਰਤ ਸਥਾਨਿਕ ਕ੍ਰਮ ਦੁਆਰਾ ਪੱਖਪਾਤੀ ਹੋਏ ਬਿਨਾਂ ਹੋਰ ਸਾਰੇ ਟੋਕਨਾਂ ਤੋਂ ਜਾਣਕਾਰੀ ਵੱਲ ਧਿਆਨ ਦੇ ਸਕਦਾ ਹੈ ਜਾਂ ਏਕੀਕ੍ਰਿਤ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਗਲੋਬਲ ਪ੍ਰਸੰਗਿਕ ਜਾਣਕਾਰੀ ਦੇ ਉੱਤਮ ਸਮੂਹ ਦੀ ਸਹੂਲਤ ਦਿੰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਪ੍ਰਤੀਨਿਧਤਾ ਲੰਬੀ-ਸੀਮਾ ਦੀਆਂ ਨਿਰਭਰਤਾਵਾਂ ਅਤੇ ਸਮੁੱਚੀ ਦ੍ਰਿਸ਼ ਰਚਨਾ ਨੂੰ ਵਧੇਰੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਹਾਸਲ ਕਰ ਸਕਦੀ ਹੈ। ਹਰੇਕ ਟੋਕਨ ਲਈ ਸਿਧਾਂਤਕ ਗ੍ਰਹਿਣਸ਼ੀਲ ਖੇਤਰ ਪੂਰੇ ਚਿੱਤਰ ਦੇ ਵਿਸ਼ੇਸ਼ਤਾ ਸਪੇਸ ਨੂੰ ਸ਼ਾਮਲ ਕਰ ਸਕਦਾ ਹੈ।
- ਸੁਧਰੀ ਹੋਈ ਮਜ਼ਬੂਤੀ: ਸੈੱਟ ਪ੍ਰਤੀਨਿਧਤਾ ਦੀ ਬੇਤਰਤੀਬੀ ਪ੍ਰਕਿਰਤੀ ਸਥਾਨਕ ਗੜਬੜੀਆਂ ਜਾਂ ਮਾਮੂਲੀ ਸਥਾਨਿਕ ਭਿੰਨਤਾਵਾਂ ਦੇ ਵਿਰੁੱਧ ਵਧੇਰੇ ਮਜ਼ਬੂਤੀ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ। ਕਿਉਂਕਿ ਅਰਥ ਉਹਨਾਂ ਦੇ ਸਹੀ ਕ੍ਰਮ ਦੀ ਬਜਾਏ ਟੋਕਨਾਂ ਦੇ ਸੰਗ੍ਰਹਿ ਤੋਂ ਲਿਆ ਗਿਆ ਹੈ, ਇਨਪੁਟ ਚਿੱਤਰ ਵਿੱਚ ਮਾਮੂਲੀ ਤਬਦੀਲੀਆਂ ਜਾਂ ਵਿਗਾੜ ਸਮੁੱਚੀ ਪ੍ਰਤੀਨਿਧਤਾ ਨੂੰ ਬਹੁਤ ਜ਼ਿਆਦਾ ਬਦਲਣ ਦੀ ਸੰਭਾਵਨਾ ਘੱਟ ਹੁੰਦੀ ਹੈ।
ਇੱਕ ਸਥਾਨਿਕ ਤੌਰ ‘ਤੇ ਸਖ਼ਤ ਕ੍ਰਮ ਤੋਂ ਇੱਕ ਲਚਕਦਾਰ, ਬੇਤਰਤੀਬੇ ਸੈੱਟ ਵੱਲ ਇਹ ਕਦਮ ਇੱਕ ਪ੍ਰਤੀਨਿਧਤਾ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ ਜੋ ਅੰਦਰੂਨੀ ਤੌਰ ‘ਤੇ ਚਿੱਤਰ ਦੀ ਸਮੱਗਰੀ ਦੇ ਅਨੁਕੂਲ ਹੈ, ਵਧੇਰੇ ਕੁਸ਼ਲ ਅਤੇ ਅਰਥਪੂਰਨ ਵਿਜ਼ੂਅਲ ਸਮਝ ਅਤੇ ਪੀੜ੍ਹੀ ਲਈ ਰਾਹ ਪੱਧਰਾ ਕਰਦਾ ਹੈ।
ਤੱਤ ਨੂੰ ਕੈਪਚਰ ਕਰਨਾ: TokenSet ਵਿੱਚ ਗਤੀਸ਼ੀਲ ਵੰਡ
ਸਿਮੈਂਟਿਕ ਜਟਿਲਤਾ ਦੇ ਅਧਾਰ ‘ਤੇ ਪ੍ਰਤੀਨਿਧਤਾਤਮਕ ਸ਼ਕਤੀ ਨੂੰ ਗਤੀਸ਼ੀਲ ਤੌਰ ‘ਤੇ ਵੰਡਣ ਦਾ ਵਾਅਦਾ TokenSet ਦੀ ਅਪੀਲ ਦਾ ਕੇਂਦਰ ਹੈ। ਇਹ ਇਸ ਕਾਰਨਾਮੇ ਨੂੰ ਕਿਵੇਂ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ? ਜਦੋਂ ਕਿ ਖਾਸ ਵਿਧੀਆਂ ਵਿੱਚ ਆਧੁਨਿਕ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਆਰਕੀਟੈਕਚਰ ਅਤੇ ਸਿਖਲਾਈ ਉਦੇਸ਼ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ, ਅੰਤਰੀਵ ਸਿਧਾਂਤ ਸਥਿਰ ਗਰਿੱਡਾਂ ਅਤੇ ਇਕਸਾਰ ਪ੍ਰੋਸੈਸਿੰਗ ਤੋਂ ਇੱਕ ਵਿਦਾਇਗੀ ਹੈ।
ਕਲਪਨਾ ਕਰੋ ਕਿ ਚਿੱਤਰ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਇੱਕ ਸਥਿਰ ਚੈਕਰਬੋਰਡ ਪੈਟਰਨ ਦੁਆਰਾ ਨਹੀਂ, ਬਲਕਿ ਇੱਕ ਵਧੇਰੇ ਅਨੁਕੂਲ ਪ੍ਰਕਿਰਿਆ ਦੁਆਰਾ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ। ਅਰਥਪੂਰਨ ਤੌਰ ‘ਤੇ ਅਮੀਰ ਵਜੋਂ ਪਛਾਣੇ ਗਏ ਖੇਤਰ - ਸ਼ਾਇਦ ਵੱਖਰੀਆਂ ਵਸਤੂਆਂ, ਗੁੰਝਲਦਾਰ ਟੈਕਸਚਰ, ਜਾਂ ਚਿੱਤਰ ਦੇ ਬਿਰਤਾਂਤ ਲਈ ਮਹੱਤਵਪੂਰਨ ਖੇਤਰ - ਵਧੇਰੇ ਵਰਣਨਯੋਗ ਟੋਕਨਾਂ ਜਾਂ ਉੱਚ ਜਾਣਕਾਰੀ ਸਮਰੱਥਾ ਵਾਲੇ ਟੋਕਨਾਂ ਦੀ ਵੰਡ ਨੂੰ ਚਾਲੂ ਕਰਦੇ ਹਨ। ਇਸਦੇ ਉਲਟ, ਅਰਥਪੂਰਨ ਤੌਰ ‘ਤੇ ਵਿਰਲੇ ਸਮਝੇ ਜਾਣ ਵਾਲੇ ਖੇਤਰ, ਜਿਵੇਂ ਕਿ ਇਕਸਾਰ ਪਿਛੋਕੜ ਜਾਂ ਸਧਾਰਨ ਗਰੇਡੀਐਂਟ, ਨੂੰ ਵਧੇਰੇ ਸੰਖੇਪ ਰੂਪ ਵਿੱਚ ਦਰਸਾਇਆ ਜਾਂਦਾ ਹੈ।
ਇਹ ਰਵਾਇਤੀ ਤਰੀਕਿਆਂ ਨਾਲ ਤੇਜ਼ੀ ਨਾਲ ਉਲਟ ਹੈ ਜਿੱਥੇ, ਉਦਾਹਰਨ ਲਈ, ਪੈਚਾਂ ਦਾ ਇੱਕ 16x16 ਗਰਿੱਡ ਕੱਢਿਆ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਹਰੇਕ ਪੈਚ ਨੂੰ ਇੱਕ ਟੋਕਨ ਵਿੱਚ ਬਦਲਿਆ ਜਾਂਦਾ ਹੈ, ਭਾਵੇਂ ਇਸ ਵਿੱਚ ਕੋਈ ਗੁੰਝਲਦਾਰ ਵਸਤੂ ਹੋਵੇ ਜਾਂ ਸਿਰਫ਼ ਖਾਲੀ ਥਾਂ। TokenSet, ਸੈੱਟ ਪ੍ਰਤੀਨਿਧਤਾ ਦੇ ਸਿਧਾਂਤ ‘ਤੇ ਕੰਮ ਕਰਦਾ ਹੋਇਆ, ਇਸ ਸਥਾਨਿਕ ਕਠੋਰਤਾ ਤੋਂ ਮੁਕਤ ਹੁੰਦਾ ਹੈ।
ਬੀਚ ਫੋਟੋ ਉਦਾਹਰਨ ‘ਤੇ ਗੌਰ ਕਰੋ:
- ਰਵਾਇਤੀ ਪਹੁੰਚ: ਅਸਮਾਨ, ਸਮੁੰਦਰ, ਰੇਤ, ਅਤੇ ਅਗਲੇ ਹਿੱਸੇ ਵਿੱਚ ਲੋਕਾਂ ਨੂੰ ਹਰੇਕ ਨੂੰ ਪੈਚਾਂ ਵਿੱਚ ਵੰਡਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਅਤੇ ਹਰੇਕ ਪੈਚ ਨੂੰ ਲਗਭਗ ਬਰਾਬਰ ਪ੍ਰਤੀਨਿਧਤਾਤਮਕ ਭਾਰ ਮਿਲਦਾ ਹੈ। ਸਮਰੂਪ ਨੀਲੇ ਅਸਮਾਨ ਦਾ ਵਰਣਨ ਕਰਨ ਲਈ ਬਹੁਤ ਸਾਰੀ ਸਮਰੱਥਾ ਖਰਚ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।
- TokenSet ਪਹੁੰਚ: ਸਿਸਟਮ ਆਦਰਸ਼ਕ ਤੌਰ ‘ਤੇ ਅਗਲੇ ਹਿੱਸੇ ਵਿੱਚ ਵਿਸਤ੍ਰਿਤ ਅੰਕੜਿਆਂ ਅਤੇ ਵਸਤੂਆਂ ਲਈ ਵਧੇਰੇ ਪ੍ਰਤੀਨਿਧਤਾਤਮਕ ਸਰੋਤ (ਸ਼ਾਇਦ ਵਧੇਰੇ ਟੋਕਨ, ਜਾਂ ਵਧੇਰੇ ਗੁੰਝਲਦਾਰ ਟੋਕਨ) ਅਲਾਟ ਕਰੇਗਾ, ਜਦੋਂ ਕਿ ਵਿਸ਼ਾਲ, ਮੁਕਾਬਲਤਨ ਇਕਸਾਰ ਅਸਮਾਨ ਅਤੇ ਸਮੁੰਦਰੀ ਖੇਤਰਾਂ ਦੇ ਤੱਤ ਨੂੰ ਹਾਸਲ ਕਰਨ ਲਈ ਘੱਟ ਜਾਂ ਸਰਲ ਟੋਕਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰੇਗਾ।
ਇਹ ਅਨੁਕੂਲ ਵੰਡ ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦੀ ਹੈ ਕਿ ਮਾਡਲ ਦਾ ‘ਧਿਆਨ’ ਅਤੇ ਪ੍ਰਤੀਨਿਧਤਾਤਮਕ ਵਫ਼ਾਦਾਰੀ ਉੱਥੇ ਕੇਂਦਰਿਤ ਹੈ ਜਿੱਥੇ ਉਹ ਸਭ ਤੋਂ ਵੱਧ ਮਹੱਤਵਪੂਰਨ ਹਨ, ਜਿਸ ਨਾਲ ਵਿਜ਼ੂਅਲ ਦ੍ਰਿਸ਼ ਦੀ ਵਧੇਰੇ ਕੁਸ਼ਲ ਅਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਏਨਕੋਡਿੰਗ ਹੁੰਦੀ ਹੈ। ਇਹ ਪਿਛੋਕੜ ਦੇ ਦ੍ਰਿਸ਼ਾਂ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਇੱਕ ਕਹਾਣੀ ਵਿੱਚ ਮੁੱਖ ਪਾਤਰਾਂ ਦਾ ਵਰਣਨ ਕਰਨ ਲਈ ਇੱਕ ਵੱਡਾ ਬਜਟ ਪ੍ਰਦਾਨ ਕਰਨ ਦੇ ਸਮਾਨ ਹੈ।
ਬੇਤਰਤੀਬੇ ਦਾ ਮਾਡਲਿੰਗ: ਫਿਕਸਡ-ਸਮ ਡਿਸਕ੍ਰੀਟ ਡਿਫਿਊਜ਼ਨ ਬ੍ਰੇਕਥਰੂ
ਇੱਕ ਚਿੱਤਰ ਨੂੰ ਟੋਕਨਾਂ ਦੇ ਇੱਕ ਬੇਤਰਤੀਬੇ ਸੈੱਟ ਵਜੋਂ ਦਰਸਾਉਣਾ ਸਿਰਫ ਅੱਧੀ ਲੜਾਈ ਹੈ। ਦੂਜਾ ਮਹੱਤਵਪੂਰਨ ਹਿੱਸਾ ਇਹ ਪਤਾ ਲਗਾ ਰਿਹਾ ਹੈ ਕਿ ਇਹਨਾਂ ਸੈੱਟਾਂ ਦੀ ਵੰਡ ਦਾ ਮਾਡਲ ਕਿਵੇਂ ਬਣਾਇਆ ਜਾਵੇ। ਇੱਕ ਜਨਰੇਟਿਵ ਮਾਡਲ ਟੋਕਨਾਂ ਦੇ ਵੈਧ ਸੈੱਟਾਂ ਨਾਲ ਜੁੜੇ ਗੁੰਝਲਦਾਰ ਪੈਟਰਨਾਂ ਅਤੇ ਸੰਭਾਵਨਾਵਾਂ ਨੂੰ ਕਿਵੇਂ ਸਿੱਖ ਸਕਦਾ ਹੈ ਜੋ ਯਥਾਰਥਵਾਦੀ ਚਿੱਤਰਾਂ ਨਾਲ ਮੇਲ ਖਾਂਦੇ ਹਨ, ਖਾਸ ਕਰਕੇ ਜਦੋਂ ਕ੍ਰਮ ਮਾਇਨੇ ਨਹੀਂ ਰੱਖਦਾ? ਰਵਾਇਤੀ ਕ੍ਰਮ-ਅਧਾਰਿਤ ਮਾਡਲ (ਜਿਵੇਂ ਕਿ ਆਟੋਰਿਗਰੈਸਿਵ ਟ੍ਰਾਂਸਫਾਰਮਰ ਜਾਂ ਕ੍ਰਮਾਂ ‘ਤੇ ਕੰਮ ਕਰਨ ਵਾਲੇ ਸਟੈਂਡਰਡ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲ) ਇਸ ਕੰਮ ਲਈ ਅਣਉਚਿਤ ਹਨ।
ਇਹ ਉਹ ਥਾਂ ਹੈ ਜਿੱਥੇ TokenSet ਫਰੇਮਵਰਕ ਦੀ ਦੂਜੀ ਵੱਡੀ ਨਵੀਨਤਾ ਖੇਡ ਵਿੱਚ ਆਉਂਦੀ ਹੈ: Fixed-Sum Discrete Diffusion (FSDD)। ਖੋਜਕਰਤਾਵਾਂ ਨੇ FSDD ਨੂੰ ਪਹਿਲੇ ਡਿਫਿਊਜ਼ਨ ਫਰੇਮਵਰਕ ਵਜੋਂ ਵਿਕਸਤ ਕੀਤਾ ਜੋ ਵਿਸ਼ੇਸ਼ ਤੌਰ ‘ਤੇ ਉਹਨਾਂ ਦੇ ਸੈੱਟ-ਅਧਾਰਿਤ ਪ੍ਰਤੀਨਿਧਤਾ ਦੁਆਰਾ ਲਗਾਈਆਂ ਗਈਆਂ ਵਿਲੱਖਣ ਰੁਕਾਵਟਾਂ ਨੂੰ ਇੱਕੋ ਸਮੇਂ ਸੰਭਾਲਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ:
- ਡਿਸਕ੍ਰੀਟ ਮੁੱਲ: ਟੋਕਨ ਖੁਦ ਇੱਕ ਪੂਰਵ-ਪ੍ਰਭਾਸ਼ਿਤ ਕੋਡਬੁੱਕ (ਸ਼ਬਦਾਵਲੀ) ਤੋਂ ਖਿੱਚੀਆਂ ਗਈਆਂ ਵੱਖਰੀਆਂ ਇਕਾਈਆਂ ਹਨ, ਨਿਰੰਤਰ ਮੁੱਲ ਨਹੀਂ। FSDD ਸਿੱਧੇ ਇਸ ਵੱਖਰੇ ਡੋਮੇਨ ਵਿੱਚ ਕੰਮ ਕਰਦਾ ਹੈ।
- ਸਥਿਰ ਕ੍ਰਮ ਲੰਬਾਈ (ਸੈੱਟ ਦੇ ਹੇਠਾਂ): ਜਦੋਂ ਕਿ ਸੈੱਟ ਬੇਤਰਤੀਬ ਹੁੰਦਾ ਹੈ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਚਲਾਕੀ ਨਾਲ ਇਹਨਾਂ ਬੇਤਰਤੀਬੇ ਸੈੱਟਾਂ ਅਤੇ ਇੱਕ ਸਥਿਰ ਲੰਬਾਈ ਦੇ ਢਾਂਚਾਗਤ ਪੂਰਨ ਅੰਕ ਕ੍ਰਮਾਂ ਵਿਚਕਾਰ ਇੱਕ ਬਾਇਜੈਕਟਿਵ ਮੈਪਿੰਗ (ਇੱਕ-ਤੋਂ-ਇੱਕ ਪੱਤਰ-ਵਿਹਾਰ) ਸਥਾਪਤ ਕੀਤੀ। ਇਹ ਮੈਪਿੰਗ ਉਹਨਾਂ ਨੂੰ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲਾਂ ਦੀ ਸ਼ਕਤੀ ਦਾ ਲਾਭ ਉਠਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ, ਜੋ ਆਮ ਤੌਰ ‘ਤੇ ਸਥਿਰ-ਆਕਾਰ ਦੇ ਇਨਪੁਟਸ ‘ਤੇ ਕੰਮ ਕਰਦੇ ਹਨ। FSDD ਨੂੰ ਇਹਨਾਂ ਢਾਂਚਾਗਤ ਕ੍ਰਮਾਂ ਨਾਲ ਕੰਮ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ ਜੋ ਬੇਤਰਤੀਬੇ ਸੈੱਟਾਂ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ।
- ਜੋੜ ਅਵਿਵਸਥਾ: ਇਹ ਵਿਸ਼ੇਸ਼ਤਾ, ਜਿਸ ਤਰੀਕੇ ਨਾਲ ਸੈੱਟਾਂ ਨੂੰ ਕ੍ਰਮਾਂ ਵਿੱਚ ਮੈਪ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਸੰਭਾਵਤ ਤੌਰ ‘ਤੇ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਨਾਲ ਸਬੰਧਤ ਹੈ ਕਿ ਟੋਕਨ ਸੈੱਟ ਦੀਆਂ ਕੁਝ ਸਮੁੱਚੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਜਾਂ ਰੁਕਾਵਟਾਂ ਪੂਰੀ ਡਿਫਿਊਜ਼ਨ (ਸ਼ੋਰ-ਜੋੜਨ) ਅਤੇ ਉਲਟਾ (ਪੀੜ੍ਹੀ) ਪ੍ਰਕਿਰਿਆ ਦੌਰਾਨ ਸੁਰੱਖਿਅਤ ਰੱਖੀਆਂ ਜਾਂਦੀਆਂ ਹਨ। FSDD ਵਿਲੱਖਣ ਤੌਰ ‘ਤੇ ਇਸ ਅਵਿਵਸਥਾ ਦਾ ਸਨਮਾਨ ਕਰਨ ਲਈ ਇੰਜਨੀਅਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਜੋ ਸੈੱਟ ਵੰਡ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਮਾਡਲ ਬਣਾਉਣ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ।
ਡਿਫਿਊਜ਼ਨ ਮਾਡਲ ਆਮ ਤੌਰ ‘ਤੇ ਡੇਟਾ ਵਿੱਚ ਹੌਲੀ-ਹੌਲੀ ਸ਼ੋਰ ਜੋੜ ਕੇ ਕੰਮ ਕਰਦੇ ਹਨ ਜਦੋਂ ਤੱਕ ਇਹ ਸ਼ੁੱਧ ਸ਼ੋਰ ਨਹੀਂ ਬਣ ਜਾਂਦਾ, ਅਤੇ ਫਿਰ ਇਸ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਉਲਟਾਉਣ ਲਈ ਇੱਕ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦਿੰਦੇ ਹਨ, ਸ਼ੋਰ ਤੋਂ ਸ਼ੁਰੂ ਕਰਦੇ ਹੋਏ ਅਤੇ ਡੇਟਾ ਪੈਦਾ ਕਰਨ ਲਈ ਹੌਲੀ-ਹੌਲੀ ਇਸਨੂੰ ਡੀਨੋਇਜ਼ ਕਰਦੇ ਹਨ। FSDD ਇਸ ਸ਼ਕਤੀਸ਼ਾਲੀ ਜਨਰੇਟਿਵ ਪੈਰਾਡਾਈਮ ਨੂੰ ਬੇਤਰਤੀਬੇ ਟੋਕਨ ਸੈੱਟਾਂ ਨੂੰ ਦਰਸਾਉਣ ਵਾਲੇ ਢਾਂਚਾਗਤ ਪੂਰਨ ਅੰਕ ਕ੍ਰਮਾਂ ਦੀਆਂ ਖਾਸ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੇ ਅਨੁਕੂਲ ਬਣਾਉਂਦਾ ਹੈ।
ਇਹਨਾਂ ਤਿੰਨਾਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਇੱਕੋ ਸਮੇਂ ਸਫਲਤਾਪੂਰਵਕ ਹੱਲ ਕਰਕੇ, FSDD TokenSets ਦੀ ਵੰਡ ਨੂੰ ਸਿੱਖਣ ਲਈ ਇੱਕ ਸਿਧਾਂਤਕ ਅਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਵਿਧੀ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਇਹ ਜਨਰੇਟਿਵ ਮਾਡਲ ਨੂੰ ਇਹ ਸਮਝਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ ਕਿ ਇੱਕ ਯਥਾਰਥਵਾਦੀ ਚਿੱਤਰ ਲਈ ਟੋਕਨਾਂ ਦਾ ਇੱਕ ਵੈਧ ਅਤੇ ਸੰਭਾਵਿਤ ਸੈੱਟ ਕੀ ਬਣਦਾ ਹੈ ਅਤੇ ਇਸ ਸਿੱਖੀ ਹੋਈ ਵੰਡ ਤੋਂ ਨਮੂਨਾ ਲੈ ਕੇ ਨਵੇਂ ਸੈੱਟ (ਅਤੇ ਇਸ ਤਰ੍ਹਾਂ ਨਵੇਂ ਚਿੱਤਰ) ਤਿਆਰ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਇਹ ਬੇਸਪੋਕ ਮਾਡਲਿੰਗ ਪਹੁੰਚ ਸੈੱਟ-ਅਧਾਰਿਤ ਪ੍ਰਤੀਨਿਧਤਾ ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਅਨਲੌਕ ਕਰਨ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ।
ਸਿਧਾਂਤ ਨੂੰ ਅਭਿਆਸ ਵਿੱਚ ਲਿਆਉਣਾ: ਪ੍ਰਮਾਣਿਕਤਾ ਅਤੇ ਪ੍ਰਦਰਸ਼ਨ
ਇੱਕ ਬੁਨਿਆਦੀ ਸੰਕਲਪ ਨੂੰ ਸਖ਼ਤ ਪ੍ਰਮਾਣਿਕਤਾ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। TokenSet ਅਤੇ FSDD ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਨੂੰ ਚੁਣੌਤੀਪੂਰਨ ImageNet ਡੇਟਾਸੈਟ ‘ਤੇ ਪਰਖਿਆ ਗਿਆ ਸੀ, ਜੋ ਕਿ ਚਿੱਤਰ ਸਮਝ ਅਤੇ ਪੀੜ੍ਹੀ ਦੇ ਕਾਰਜਾਂ ਲਈ ਇੱਕ ਮਿਆਰੀ ਬੈਂਚਮਾਰਕ ਹੈ, 256x256 ਰੈਜ਼ੋਲਿਊਸ਼ਨ ਤੱਕ ਸਕੇਲ ਕੀਤੇ ਚਿੱਤਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ। ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਮੁੱਖ ਤੌਰ ‘ਤੇ 50,000-ਚਿੱਤਰ ਪ੍ਰਮਾਣਿਕਤਾ ਸੈੱਟ ‘ਤੇ Frechet Inception Distance (FID) ਸਕੋਰ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮਾਪਿਆ ਗਿਆ ਸੀ। ਇੱਕ ਘੱਟ FID ਸਕੋਰ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਤਿਆਰ ਕੀਤੇ ਚਿੱਤਰ ਅੰਕੜਾਤਮਕ ਤੌਰ ‘ਤੇ ਇੱਕ ਪੂਰਵ-ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ Inception ਨੈੱਟਵਰਕ ਦੁਆਰਾ ਕੱਢੀਆਂ ਗਈਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੇ ਰੂਪ ਵਿੱਚ ਅਸਲ ਚਿੱਤਰਾਂ ਦੇ ਸਮਾਨ ਹਨ, ਜੋ ਉੱਚ ਗੁਣਵੱਤਾ ਅਤੇ ਯਥਾਰਥਵਾਦ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ।
ਸਿਖਲਾਈ ਪ੍ਰਣਾਲੀ ਨੇ ਸਥਾਪਿਤ ਵਧੀਆ ਅਭਿਆਸਾਂ ਦੀ ਪਾਲਣਾ ਕੀਤੀ, TiTok ਅਤੇ MaskGIT ਵਰਗੇ ਪਿਛਲੇ ਕੰਮਾਂ ਤੋਂ ਰਣਨੀਤੀਆਂ ਨੂੰ ਅਪਣਾਇਆ। ਮੁੱਖ ਪਹਿਲੂਆਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
- ਡੇਟਾ ਵਾਧਾ: ਮਾਡਲ ਦੀ ਮਜ਼ਬੂਤੀ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਬੇਤਰਤੀਬੇ ਕ੍ਰੌਪਿੰਗ ਅਤੇ ਹਰੀਜੱਟਲ ਫਲਿੱਪਿੰਗ ਵਰਗੀਆਂ ਮਿਆਰੀ ਤਕਨੀਕਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਗਈ ਸੀ।
- ਵਿਆਪਕ ਸਿਖਲਾਈ: ਟੋਕਨਾਈਜ਼ਰ ਕੰਪੋਨੈਂਟ ਨੂੰ ਇੱਕ ਵੱਡੇ ਬੈਚ ਆਕਾਰ ਦੇ ਨਾਲ 1 ਮਿਲੀਅਨ ਕਦਮਾਂ ਲਈ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ, ਜਿਸ ਨਾਲ ਚਿੱਤਰ-ਤੋਂ-ਟੋਕਨ ਮੈਪਿੰਗ ਦੀ ਪੂਰੀ ਸਿਖਲਾਈ ਯਕੀਨੀ ਬਣਾਈ ਗਈ ਸੀ।
- ਅਨੁਕੂਲਨ: ਸਥਿਰ ਅਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਅਨੁਕੂਲਨ ਲਈ ਇੱਕ ਧਿਆਨ ਨਾਲ ਟਿਊਨ ਕੀਤੀ ਸਿਖਲਾਈ ਦਰ ਅਨੁਸੂਚੀ (ਵਾਰਮ-ਅੱਪ ਤੋਂ ਬਾਅਦ ਕੋਸਾਈਨ ਡੀਕੇ), ਗਰੇਡੀਐਂਟ ਕਲਿੱਪਿੰਗ, ਅਤੇ Exponential Moving Average (EMA) ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਗਈ ਸੀ।
- ਵਿਤਕਰੇ ਵਾਲਾ ਮਾਰਗਦਰਸ਼ਨ: ਸਿਖਲਾਈ ਦੌਰਾਨ ਇੱਕ ਵਿਤਕਰੇ ਵਾਲਾ ਨੈੱਟਵਰਕ ਸ਼ਾਮਲ ਕੀਤਾ ਗਿਆ ਸੀ, ਜੋ ਤਿਆਰ ਕੀਤੇ ਚਿੱਤਰਾਂ ਦੀ ਵਿਜ਼ੂਅਲ ਗੁਣਵੱਤਾ ਨੂੰ ਹੋਰ ਵਧਾਉਣ ਅਤੇ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਸਥਿਰ ਕਰਨ ਲਈ ਇੱਕ ਵਿਰੋਧੀ ਸੰਕੇਤ ਪ੍ਰਦਾਨ ਕਰਦਾ ਸੀ।
ਪ੍ਰਯੋਗਾਤਮਕ ਨਤੀਜਿਆਂ ਨੇ TokenSet ਪਹੁੰਚ