ਚੀਨੀ ਜੇਨੇਰੇਟਿਵ ਵੀਡੀਓ ਮਾਡਲਾਂ ਦਾ ਉਭਾਰ
Tencent ਦੇ Hunyuan Video ਨੇ ਪਹਿਲਾਂ ਹੀ ਸ਼ੌਕੀਆ AI ਭਾਈਚਾਰੇ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਲਹਿਰਾਂ ਪੈਦਾ ਕੀਤੀਆਂ ਹਨ। ਇੱਕ ਪੂਰੀ-ਦੁਨੀਆ ਦੇ ਵੀਡੀਓ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲ ਦੀ ਇਸਦੀ ਓਪਨ-ਸੋਰਸ ਰੀਲੀਜ਼ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਤਕਨਾਲੋਜੀ ਨੂੰ ਉਹਨਾਂ ਦੀਆਂ ਖਾਸ ਜ਼ਰੂਰਤਾਂ ਅਨੁਸਾਰ ਤਿਆਰ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ।
ਇਸਦੇ ਪਿੱਛੇ ਨੇੜਿਓਂ Alibaba ਦਾ Wan 2.1 ਹੈ, ਜੋ ਹਾਲ ਹੀ ਵਿੱਚ ਜਾਰੀ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਹ ਮਾਡਲ ਵਰਤਮਾਨ ਵਿੱਚ ਉਪਲਬਧ ਸਭ ਤੋਂ ਸ਼ਕਤੀਸ਼ਾਲੀ ਇਮੇਜ-ਟੂ-ਵੀਡੀਓ Free and Open Source Software (FOSS) ਹੱਲਾਂ ਵਿੱਚੋਂ ਇੱਕ ਵਜੋਂ ਵੱਖਰਾ ਹੈ, ਅਤੇ ਇਹ ਹੁਣ Wan LoRAs ਦੁਆਰਾ ਅਨੁਕੂਲਤਾ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ।
ਇਹਨਾਂ ਵਿਕਾਸਾਂ ਤੋਂ ਇਲਾਵਾ, ਅਸੀਂ Alibaba ਦੇ ਵਿਆਪਕ VACE ਵੀਡੀਓ ਨਿਰਮਾਣ ਅਤੇ ਸੰਪਾਦਨ ਸੂਟ ਦੇ ਰੀਲੀਜ਼ ਹੋਣ ਦੀ ਵੀ ਉਮੀਦ ਕਰ ਰਹੇ ਹਾਂ, ਹਾਲ ਹੀ ਦੇ ਮਨੁੱਖੀ-ਕੇਂਦ੍ਰਿਤ ਫਾਊਂਡੇਸ਼ਨ ਮਾਡਲ, SkyReels ਦੀ ਉਪਲਬਧਤਾ ਦੇ ਨਾਲ।
ਜੇਨੇਰੇਟਿਵ ਵੀਡੀਓ AI ਖੋਜ ਦਾ ਦ੍ਰਿਸ਼ ਵੀ ਬਰਾਬਰ ਵਿਸਫੋਟਕ ਹੈ। ਇਹ ਅਜੇ ਵੀ ਮਾਰਚ ਦੀ ਸ਼ੁਰੂਆਤ ਹੈ, ਫਿਰ ਵੀ ਮੰਗਲਵਾਰ ਨੂੰ Arxiv ਦੇ ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ ਸੈਕਸ਼ਨ (ਜੇਨੇਰੇਟਿਵ AI ਪੇਪਰਾਂ ਲਈ ਇੱਕ ਮੁੱਖ ਕੇਂਦਰ) ਵਿੱਚ ਜਮ੍ਹਾਂ ਕਰਵਾਈਆਂ ਗਈਆਂ ਕੁੱਲ ਐਂਟਰੀਆਂ ਲਗਭਗ 350 ਸਨ - ਇੱਕ ਸੰਖਿਆ ਆਮ ਤੌਰ ‘ਤੇ ਕਾਨਫਰੰਸ ਸੀਜ਼ਨ ਦੇ ਸਿਖਰ ਦੌਰਾਨ ਦੇਖੀ ਜਾਂਦੀ ਹੈ।
2022 ਦੀਆਂ ਗਰਮੀਆਂ ਵਿੱਚ Stable Diffusion ਦੇ ਲਾਂਚ ਹੋਣ ਤੋਂ ਬਾਅਦ ਦੇ ਦੋ ਸਾਲ (ਅਤੇ Dreambooth ਅਤੇ LoRA ਕਸਟਮਾਈਜ਼ੇਸ਼ਨ ਵਿਧੀਆਂ ਦੇ ਬਾਅਦ ਦੇ ਵਿਕਾਸ) ਵਿੱਚ ਵੱਡੀਆਂ ਸਫਲਤਾਵਾਂ ਦੀ ਇੱਕ ਰਿਸ਼ਤੇਦਾਰ ਘਾਟ ਦੁਆਰਾ ਦਰਸਾਈ ਗਈ ਸੀ। ਹਾਲਾਂਕਿ, ਪਿਛਲੇ ਕੁਝ ਹਫ਼ਤਿਆਂ ਵਿੱਚ ਨਵੀਆਂ ਰੀਲੀਜ਼ਾਂ ਅਤੇ ਨਵੀਨਤਾਵਾਂ ਵਿੱਚ ਵਾਧਾ ਦੇਖਿਆ ਗਿਆ ਹੈ, ਇੰਨੀ ਤੇਜ਼ ਰਫ਼ਤਾਰ ਨਾਲ ਪਹੁੰਚਣਾ ਕਿ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸੂਚਿਤ ਰਹਿਣਾ ਲਗਭਗ ਅਸੰਭਵ ਹੈ, ਹਰ ਚੀਜ਼ ਨੂੰ ਵਿਆਪਕ ਰੂਪ ਵਿੱਚ ਕਵਰ ਕਰਨਾ ਛੱਡ ਦਿਓ।
ਟੈਂਪੋਰਲ ਇਕਸਾਰਤਾ ਨੂੰ ਹੱਲ ਕਰਨਾ, ਪਰ ਨਵੀਆਂ ਚੁਣੌਤੀਆਂ ਉਭਰਦੀਆਂ ਹਨ
Hunyuan ਅਤੇ Wan 2.1 ਵਰਗੇ ਵੀਡੀਓ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲਾਂ ਨੇ, ਆਖਰਕਾਰ, ਟੈਂਪੋਰਲ ਇਕਸਾਰਤਾ ਦੇ ਮੁੱਦੇ ਨੂੰ ਹੱਲ ਕੀਤਾ ਹੈ। ਸੈਂਕੜੇ ਖੋਜ ਪਹਿਲਕਦਮੀਆਂ ਦੇ ਸਾਲਾਂ ਦੇ ਅਸਫਲ ਯਤਨਾਂ ਤੋਂ ਬਾਅਦ, ਇਹਨਾਂ ਮਾਡਲਾਂ ਨੇ ਸਮੇਂ ਦੇ ਨਾਲ ਇਕਸਾਰ ਮਨੁੱਖਾਂ, ਵਾਤਾਵਰਣਾਂ ਅਤੇ ਵਸਤੂਆਂ ਨੂੰ ਬਣਾਉਣ ਨਾਲ ਸਬੰਧਤ ਚੁਣੌਤੀਆਂ ਨੂੰ ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਹੱਲ ਕੀਤਾ ਹੈ।
ਇਸ ਵਿੱਚ ਬਹੁਤ ਘੱਟ ਸ਼ੱਕ ਹੈ ਕਿ VFX ਸਟੂਡੀਓ ਇਹਨਾਂ ਨਵੇਂ ਚੀਨੀ ਵੀਡੀਓ ਮਾਡਲਾਂ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਲਈ ਸਰਗਰਮੀ ਨਾਲ ਸਟਾਫ ਅਤੇ ਸਰੋਤਾਂ ਨੂੰ ਸਮਰਪਿਤ ਕਰ ਰਹੇ ਹਨ। ਉਹਨਾਂ ਦਾ ਤਤਕਾਲ ਟੀਚਾ ਚਿਹਰੇ ਦੀ ਅਦਲਾ-ਬਦਲੀ ਵਰਗੀਆਂ ਦਬਾਉਣ ਵਾਲੀਆਂ ਚੁਣੌਤੀਆਂ ਨਾਲ ਨਜਿੱਠਣਾ ਹੈ, ਇਹਨਾਂ ਪ੍ਰਣਾਲੀਆਂ ਲਈ ControlNet-ਸ਼ੈਲੀ ਦੀਆਂ ਸਹਾਇਕ ਵਿਧੀਆਂ ਦੀ ਮੌਜੂਦਾ ਗੈਰਹਾਜ਼ਰੀ ਦੇ ਬਾਵਜੂਦ।
ਇਹ ਇੱਕ ਵੱਡੀ ਰਾਹਤ ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ ਕਿ ਅਜਿਹੀ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਰੁਕਾਵਟ ਨੂੰ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਦੂਰ ਕਰ ਲਿਆ ਗਿਆ ਹੈ, ਭਾਵੇਂ ਇਹ ਅਨੁਮਾਨਿਤ ਚੈਨਲਾਂ ਰਾਹੀਂ ਨਹੀਂ ਸੀ।
ਹਾਲਾਂਕਿ, ਬਾਕੀ ਸਮੱਸਿਆਵਾਂ ਵਿੱਚੋਂ, ਇੱਕ ਖਾਸ ਤੌਰ ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਹੈ:
ਸਾਰੀਆਂ ਵਰਤਮਾਨ ਵਿੱਚ ਉਪਲਬਧ ਟੈਕਸਟ-ਟੂ-ਵੀਡੀਓ ਅਤੇ ਇਮੇਜ-ਟੂ-ਵੀਡੀਓ ਪ੍ਰਣਾਲੀਆਂ, ਵਪਾਰਕ ਬੰਦ-ਸਰੋਤ ਮਾਡਲਾਂ ਸਮੇਤ, ਭੌਤਿਕ ਵਿਗਿਆਨ ਨੂੰ ਨਕਾਰਨ ਵਾਲੀਆਂ ਗਲਤੀਆਂ ਪੈਦਾ ਕਰਨ ਦੀ ਪ੍ਰਵਿਰਤੀ ਰੱਖਦੀਆਂ ਹਨ। ਉਪਰੋਕਤ ਉਦਾਹਰਨ ਇੱਕ ਚੱਟਾਨ ਨੂੰ ਉੱਪਰ ਵੱਲ ਰੋਲਿੰਗ ਕਰਦੇ ਹੋਏ ਦਿਖਾਉਂਦੀ ਹੈ, ਜੋ ਕਿ ਪ੍ਰੋਂਪਟ ਤੋਂ ਤਿਆਰ ਕੀਤੀ ਗਈ ਹੈ: ‘ਇੱਕ ਛੋਟੀ ਚੱਟਾਨ ਇੱਕ ਖੜ੍ਹੀ, ਚੱਟਾਨ ਵਾਲੀ ਪਹਾੜੀ ਤੋਂ ਹੇਠਾਂ ਡਿੱਗਦੀ ਹੈ, ਮਿੱਟੀ ਅਤੇ ਛੋਟੇ ਪੱਥਰਾਂ ਨੂੰ ਉਜਾੜਦੀ ਹੈ’।
AI ਵੀਡੀਓ ਭੌਤਿਕ ਵਿਗਿਆਨ ਨੂੰ ਗਲਤ ਕਿਉਂ ਸਮਝਦੇ ਹਨ?
ਇੱਕ ਸਿਧਾਂਤ, ਜੋ ਹਾਲ ਹੀ ਵਿੱਚ ਅਲੀਬਾਬਾ ਅਤੇ UAE ਵਿਚਕਾਰ ਇੱਕ ਅਕਾਦਮਿਕ ਸਹਿਯੋਗ ਵਿੱਚ ਪ੍ਰਸਤਾਵਿਤ ਕੀਤਾ ਗਿਆ ਹੈ, ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਮਾਡਲ ਅਜਿਹੇ ਤਰੀਕੇ ਨਾਲ ਸਿੱਖ ਰਹੇ ਹੋ ਸਕਦੇ ਹਨ ਜੋ ਅਸਥਾਈ ਕ੍ਰਮ ਦੀ ਉਹਨਾਂ ਦੀ ਸਮਝ ਵਿੱਚ ਰੁਕਾਵਟ ਪਾਉਂਦੇ ਹਨ। ਇੱਥੋਂ ਤੱਕ ਕਿ ਵੀਡੀਓਜ਼ ‘ਤੇ ਸਿਖਲਾਈ ਦੇਣ ਵੇਲੇ (ਜੋ ਸਿਖਲਾਈ ਲਈ ਸਿੰਗਲ-ਫ੍ਰੇਮ ਕ੍ਰਮਾਂ ਵਿੱਚ ਵੰਡੇ ਜਾਂਦੇ ਹਨ), ਮਾਡਲ ਸ਼ਾਇਦ “ਪਹਿਲਾਂ” ਅਤੇ “ਬਾਅਦ” ਚਿੱਤਰਾਂ ਦੇ ਸਹੀ ਕ੍ਰਮ ਨੂੰ ਕੁਦਰਤੀ ਤੌਰ ‘ਤੇ ਨਾ ਸਮਝ ਸਕਣ।
ਹਾਲਾਂਕਿ, ਸਭ ਤੋਂ ਵੱਧ ਪ੍ਰਵਾਨਿਤ ਵਿਆਖਿਆ ਇਹ ਹੈ ਕਿ ਸਵਾਲ ਵਿੱਚ ਮਾਡਲਾਂ ਨੇ ਡੇਟਾ ਵਾਧੇ ਦੀਆਂ ਰੁਟੀਨਾਂ ਨੂੰ ਲਗਾਇਆ ਹੈ। ਇਹਨਾਂ ਰੁਟੀਨਾਂ ਵਿੱਚ ਮਾਡਲ ਨੂੰ ਇੱਕ ਸਰੋਤ ਸਿਖਲਾਈ ਕਲਿੱਪ ਨੂੰ ਅੱਗੇ ਅਤੇ ਪਿੱਛੇ ਦੋਵਾਂ ਵੱਲੋਂ ਐਕਸਪੋਜ਼ ਕਰਨਾ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ, ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸਿਖਲਾਈ ਡੇਟਾ ਨੂੰ ਦੁੱਗਣਾ ਕਰਨਾ।
ਇਹ ਕੁਝ ਸਮੇਂ ਲਈ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ ਕਿ ਇਹ ਅੰਨ੍ਹੇਵਾਹ ਨਹੀਂ ਕੀਤਾ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਜਦੋਂ ਕਿ ਕੁਝ ਹਰਕਤਾਂ ਉਲਟ ਕੰਮ ਕਰਦੀਆਂ ਹਨ, ਬਹੁਤ ਸਾਰੀਆਂ ਨਹੀਂ ਕਰਦੀਆਂ। ਯੂਕੇ ਦੀ ਬ੍ਰਿਸਟਲ ਯੂਨੀਵਰਸਿਟੀ ਦੇ 2019 ਦੇ ਇੱਕ ਅਧਿਐਨ ਦਾ ਉਦੇਸ਼ ਇੱਕ ਸਿੰਗਲ ਡੇਟਾਸੈਟ ਦੇ ਅੰਦਰ equivariant, invariant, ਅਤੇ irreversible ਸਰੋਤ ਡੇਟਾ ਵੀਡੀਓ ਕਲਿੱਪਾਂ ਵਿੱਚ ਫਰਕ ਕਰਨ ਲਈ ਇੱਕ ਢੰਗ ਵਿਕਸਤ ਕਰਨਾ ਹੈ। ਟੀਚਾ ਡੇਟਾ ਵਾਧੇ ਦੀਆਂ ਰੁਟੀਨਾਂ ਤੋਂ ਅਣਉਚਿਤ ਕਲਿੱਪਾਂ ਨੂੰ ਫਿਲਟਰ ਕਰਨਾ ਸੀ।
ਉਸ ਕੰਮ ਦੇ ਲੇਖਕਾਂ ਨੇ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਸਮੱਸਿਆ ਨੂੰ ਬਿਆਨ ਕੀਤਾ:
*’ਸਾਨੂੰ ਉਲਟੀਆਂ ਵੀਡੀਓਜ਼ ਦੀ ਯਥਾਰਥਵਾਦ ਉਲਟ ਕਲਾਕ੍ਰਿਤੀਆਂ ਦੁਆਰਾ ਧੋਖਾ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਦ੍ਰਿਸ਼ ਦੇ ਪਹਿਲੂ ਜੋ ਕੁਦਰਤੀ ਸੰਸਾਰ ਵਿੱਚ ਸੰਭਵ ਨਹੀਂ ਹੋਣਗੇ। ਕੁਝ ਕਲਾਕ੍ਰਿਤੀਆਂ ਸੂਖਮ ਹੁੰਦੀਆਂ ਹਨ, ਜਦੋਂ ਕਿ ਦੂਜਿਆਂ ਨੂੰ ਲੱਭਣਾ ਆਸਾਨ ਹੁੰਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਇੱਕ ਉਲਟ ‘ਥ੍ਰੋ’ ਐਕਸ਼ਨ ਜਿੱਥੇ ਸੁੱਟੀ ਗਈ ਵਸਤੂ ਆਪਣੇ ਆਪ ਫਰਸ਼ ਤੋਂ ਉੱਠਦੀ ਹੈ।
*’ਅਸੀਂ ਦੋ ਕਿਸਮਾਂ ਦੀਆਂ ਉਲਟ ਕਲਾਕ੍ਰਿਤੀਆਂ ਦੇਖਦੇ ਹਾਂ, ਭੌਤਿਕ, ਉਹ ਜੋ ਕੁਦਰਤ ਦੇ ਨਿਯਮਾਂ ਦੀ ਉਲੰਘਣਾ ਕਰਦੇ ਹਨ, ਅਤੇ ਅਸੰਭਵ, ਉਹ ਜੋ ਇੱਕ ਸੰਭਵ ਪਰ ਅਸੰਭਵ ਦ੍ਰਿਸ਼ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ। ਇਹ ਵਿਸ਼ੇਸ਼ ਨਹੀਂ ਹਨ, ਅਤੇ ਬਹੁਤ ਸਾਰੀਆਂ ਉਲਟੀਆਂ ਕਾਰਵਾਈਆਂ ਦੋਵਾਂ ਕਿਸਮਾਂ ਦੀਆਂ ਕਲਾਕ੍ਰਿਤੀਆਂ ਤੋਂ ਪੀੜਤ ਹਨ, ਜਿਵੇਂ ਕਿ ਕਾਗਜ਼ ਦੇ ਇੱਕ ਟੁਕੜੇ ਨੂੰ ਅਨਕ੍ਰੰਪਲ ਕਰਨਾ।
*’ਭੌਤਿਕ ਕਲਾਕ੍ਰਿਤੀਆਂ ਦੀਆਂ ਉਦਾਹਰਨਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ: ਉਲਟ ਗੁਰੂਤਾ (ਜਿਵੇਂ ਕਿ ‘ਕਿਸੇ ਚੀਜ਼ ਨੂੰ ਸੁੱਟਣਾ’), ਵਸਤੂਆਂ ‘ਤੇ ਸਵੈ-ਚਾਲਤ ਪ੍ਰਭਾਵ (ਜਿਵੇਂ ਕਿ ‘ਇੱਕ ਪੈੱਨ ਨੂੰ ਘੁਮਾਉਣਾ’), ਅਤੇ ਅਟੱਲ ਸਥਿਤੀ ਤਬਦੀਲੀਆਂ (ਜਿਵੇਂ ਕਿ ‘ਇੱਕ ਮੋਮਬੱਤੀ ਨੂੰ ਸਾੜਨਾ’)। ਇੱਕ ਅਸੰਭਵ ਕਲਾਕਾਰੀ ਦੀ ਇੱਕ ਉਦਾਹਰਨ: ਅਲਮਾਰੀ ਵਿੱਚੋਂ ਇੱਕ ਪਲੇਟ ਲੈਣਾ, ਇਸਨੂੰ ਸੁਕਾਉਣਾ, ਅਤੇ ਇਸਨੂੰ ਸੁਕਾਉਣ ਵਾਲੇ ਰੈਕ ‘ਤੇ ਰੱਖਣਾ।
*’ਸਿਖਲਾਈ ਦੇ ਸਮੇਂ ਇਸ ਕਿਸਮ ਦੀ ਡੇਟਾ ਦੀ ਮੁੜ ਵਰਤੋਂ ਬਹੁਤ ਆਮ ਹੈ, ਅਤੇ ਲਾਭਦਾਇਕ ਹੋ ਸਕਦੀ ਹੈ - ਉਦਾਹਰਨ ਲਈ, ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਵਿੱਚ ਕਿ ਮਾਡਲ ਸਿਰਫ਼ ਇੱਕ ਚਿੱਤਰ ਜਾਂ ਵਸਤੂ ਦਾ ਇੱਕ ਦ੍ਰਿਸ਼ ਨਹੀਂ ਸਿੱਖਦਾ ਜਿਸਨੂੰ ਇਸਦੀ ਕੇਂਦਰੀ ਇਕਸਾਰਤਾ ਅਤੇ ਤਰਕ ਨੂੰ ਗੁਆਏ ਬਿਨਾਂ ਫਲਿੱਪ ਜਾਂ ਘੁੰਮਾਇਆ ਜਾ ਸਕਦਾ ਹੈ।
‘ਇਹ ਸਿਰਫ਼ ਉਹਨਾਂ ਵਸਤੂਆਂ ਲਈ ਕੰਮ ਕਰਦਾ ਹੈ ਜੋ ਸੱਚਮੁੱਚ ਸਮਰੂਪ ਹਨ, ਬੇਸ਼ਕ; ਅਤੇ ਇੱਕ ‘ਉਲਟ’ ਵੀਡੀਓ ਤੋਂ ਭੌਤਿਕ ਵਿਗਿਆਨ ਸਿੱਖਣਾ ਸਿਰਫ਼ ਤਾਂ ਹੀ ਕੰਮ ਕਰਦਾ ਹੈ ਜੇਕਰ ਉਲਟਾ ਸੰਸਕਰਣ ਅੱਗੇ ਵਾਲੇ ਸੰਸਕਰਣ ਜਿੰਨਾ ਅਰਥ ਰੱਖਦਾ ਹੈ।’
ਸਾਡੇ ਕੋਲ ਠੋਸ ਸਬੂਤ ਨਹੀਂ ਹਨ ਕਿ Hunyuan Video ਅਤੇ Wan 2.1 ਵਰਗੀਆਂ ਪ੍ਰਣਾਲੀਆਂ ਨੇ ਸਿਖਲਾਈ ਦੌਰਾਨ ਮਨਮਾਨੇ “ਉਲਟ” ਕਲਿੱਪਾਂ ਦੀ ਇਜਾਜ਼ਤ ਦਿੱਤੀ ਹੈ (ਨਾ ਤਾਂ ਖੋਜ ਸਮੂਹ ਉਹਨਾਂ ਦੀਆਂ ਡੇਟਾ ਵਾਧੇ ਦੀਆਂ ਰੁਟੀਨਾਂ ਬਾਰੇ ਖਾਸ ਰਹੇ ਹਨ)।
ਹਾਲਾਂਕਿ, ਬਹੁਤ ਸਾਰੀਆਂ ਰਿਪੋਰਟਾਂ (ਅਤੇ ਮੇਰੇ ਆਪਣੇ ਵਿਹਾਰਕ ਤਜ਼ਰਬੇ) ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਦੇ ਹੋਏ, ਸਿਰਫ ਹੋਰ ਵਾਜਬ ਵਿਆਖਿਆ ਇਹ ਹੈ ਕਿ ਇਹਨਾਂ ਮਾਡਲਾਂ ਨੂੰ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰਨ ਵਾਲੇ ਹਾਈਪਰਸਕੇਲ ਡੇਟਾਸੈਟਾਂ ਵਿੱਚ ਅਜਿਹੀਆਂ ਕਲਿੱਪਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ ਜੋ ਅਸਲ ਵਿੱਚ ਉਲਟ ਵਿੱਚ ਹੋ ਰਹੀਆਂ ਹਰਕਤਾਂ ਨੂੰ ਦਰਸਾਉਂਦੀਆਂ ਹਨ।
ਪਹਿਲਾਂ ਏਮਬੇਡ ਕੀਤੀ ਗਈ ਉਦਾਹਰਨ ਵੀਡੀਓ ਵਿੱਚ ਚੱਟਾਨ Wan 2.1 ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਤਿਆਰ ਕੀਤੀ ਗਈ ਸੀ। ਇਹ ਇੱਕ ਨਵੇਂ ਅਧਿਐਨ ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਿਤ ਕੀਤਾ ਗਿਆ ਹੈ ਜੋ ਜਾਂਚ ਕਰਦਾ ਹੈ ਕਿ ਵੀਡੀਓ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲ ਭੌਤਿਕ ਵਿਗਿਆਨ ਨੂੰ ਕਿੰਨੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸੰਭਾਲਦੇ ਹਨ।
ਇਸ ਪ੍ਰੋਜੈਕਟ ਦੇ ਟੈਸਟਾਂ ਵਿੱਚ, Wan 2.1 ਨੇ ਭੌਤਿਕ ਨਿਯਮਾਂ ਦੀ ਲਗਾਤਾਰ ਪਾਲਣਾ ਕਰਨ ਦੀ ਆਪਣੀ ਯੋਗਤਾ ਵਿੱਚ ਸਿਰਫ 22% ਦਾ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ।
ਹੈਰਾਨੀ ਦੀ ਗੱਲ ਹੈ ਕਿ, ਇਹ ਟੈਸਟ ਕੀਤੇ ਗਏ ਸਾਰੇ ਸਿਸਟਮਾਂ ਵਿੱਚੋਂ ਸਭ ਤੋਂ ਵਧੀਆ ਸਕੋਰ ਹੈ, ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਅਸੀਂ ਵੀਡੀਓ AI ਲਈ ਅਗਲੀ ਵੱਡੀ ਰੁਕਾਵਟ ਦੀ ਪਛਾਣ ਕੀਤੀ ਹੋ ਸਕਦੀ ਹੈ:
VideoPhy-2 ਪੇਸ਼ ਕਰ ਰਿਹਾ ਹਾਂ: ਭੌਤਿਕ ਕਾਮਨਸੈਂਸ ਲਈ ਇੱਕ ਨਵਾਂ ਬੈਂਚਮਾਰਕ
ਨਵੇਂ ਕੰਮ ਦੇ ਲੇਖਕਾਂ ਨੇ ਇੱਕ ਬੈਂਚਮਾਰਕਿੰਗ ਸਿਸਟਮ ਵਿਕਸਤ ਕੀਤਾ ਹੈ, ਜੋ ਹੁਣ ਇਸਦੇ ਦੂਜੇ ਦੁਹਰਾਓ ਵਿੱਚ ਹੈ, ਜਿਸਨੂੰ VideoPhy ਕਿਹਾ ਜਾਂਦਾ ਹੈ। ਕੋਡ GitHub ‘ਤੇ ਉਪਲਬਧ ਹੈ।
ਜਦੋਂ ਕਿ ਕੰਮ ਦਾ ਦਾਇਰਾ ਇੱਥੇ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਕਵਰ ਕਰਨ ਲਈ ਬਹੁਤ ਵਿਸ਼ਾਲ ਹੈ, ਆਓ ਇਸਦੀ ਕਾਰਜਪ੍ਰਣਾਲੀ ਅਤੇ ਇਸਦੀ ਸੰਭਾਵਨਾ ਦੀ ਜਾਂਚ ਕਰੀਏ ਕਿ ਇੱਕ ਮੈਟ੍ਰਿਕ ਸਥਾਪਤ ਕਰਨ ਦੀ ਸੰਭਾਵਨਾ ਹੈ ਜੋ ਭਵਿੱਖ ਦੇ ਮਾਡਲ-ਸਿਖਲਾਈ ਸੈਸ਼ਨਾਂ ਨੂੰ ਉਲਟਾਉਣ ਦੀਆਂ ਇਹਨਾਂ ਅਜੀਬ ਉਦਾਹਰਣਾਂ ਤੋਂ ਦੂਰ ਕਰ ਸਕਦੀ ਹੈ।
ਅਧਿਐਨ, UCLA ਅਤੇ Google Research ਦੇ ਛੇ ਖੋਜਕਰਤਾਵਾਂ ਦੁਆਰਾ ਕੀਤਾ ਗਿਆ ਹੈ, ਜਿਸਦਾ ਸਿਰਲੇਖ ਹੈ VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation। ਇੱਕ ਵਿਆਪਕ ਨਾਲ ਵਾਲੀ ਪ੍ਰੋਜੈਕਟ ਸਾਈਟ ਵੀ ਉਪਲਬਧ ਹੈ, GitHub ‘ਤੇ ਕੋਡ ਅਤੇ ਡੇਟਾਸੈਟਾਂ ਦੇ ਨਾਲ, ਅਤੇ Hugging Face ‘ਤੇ ਇੱਕ ਡੇਟਾਸੈਟ ਦਰਸ਼ਕ।
ਲੇਖਕ ਨਵੀਨਤਮ ਸੰਸਕਰਣ, VideoPhy-2, ਨੂੰ “ਅਸਲ-ਸੰਸਾਰ ਦੀਆਂ ਕਾਰਵਾਈਆਂ ਲਈ ਇੱਕ ਚੁਣੌਤੀਪੂਰਨ ਕਾਮਨਸੈਂਸ ਮੁਲਾਂਕਣ ਡੇਟਾਸੈਟ” ਵਜੋਂ ਵਰਣਨ ਕਰਦੇ ਹਨ। ਸੰਗ੍ਰਹਿ ਵਿੱਚ ਵਿਭਿੰਨ ਭੌਤਿਕ ਗਤੀਵਿਧੀਆਂ ਦੀ ਇੱਕ ਰੇਂਜ ਵਿੱਚ 197 ਕਾਰਵਾਈਆਂ ਸ਼ਾਮਲ ਹਨ, ਜਿਸ ਵਿੱਚ ਹੁਲਾ-ਹੂਪਿੰਗ, ਜਿਮਨਾਸਟਿਕ, ਅਤੇ ਟੈਨਿਸ, ਅਤੇ ਨਾਲ ਹੀ ਵਸਤੂਆਂ ਦੇ ਆਪਸੀ ਤਾਲਮੇਲ ਜਿਵੇਂ ਕਿ ਕਿਸੇ ਵਸਤੂ ਨੂੰ ਉਦੋਂ ਤੱਕ ਮੋੜਨਾ ਜਦੋਂ ਤੱਕ ਇਹ ਟੁੱਟ ਨਾ ਜਾਵੇ ਸ਼ਾਮਲ ਹਨ।
ਇੱਕ ਵੱਡਾ ਭਾਸ਼ਾ ਮਾਡਲ (LLM) ਇਹਨਾਂ ਬੀਜ ਕਾਰਵਾਈਆਂ ਤੋਂ 3840 ਪ੍ਰੋਂਪਟ ਤਿਆਰ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ। ਇਹਨਾਂ ਪ੍ਰੋਂਪਟਾਂ ਦੀ ਵਰਤੋਂ ਫਿਰ ਟੈਸਟ ਕੀਤੇ ਜਾ ਰਹੇ ਵੱਖ-ਵੱਖ ਫਰੇਮਵਰਕਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਵੀਡੀਓਜ਼ ਨੂੰ ਸੰਸਲੇਸ਼ਣ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।
ਪੂਰੀ ਪ੍ਰਕਿਰਿਆ ਦੌਰਾਨ, ਲੇਖਕਾਂ ਨੇ “ਉਮੀਦਵਾਰ” ਭੌਤਿਕ ਨਿਯਮਾਂ ਅਤੇ ਕਾਨੂੰਨਾਂ ਦੀ ਇੱਕ ਸੂਚੀ ਤਿਆਰ ਕੀਤੀ ਹੈ ਜਿਨ੍ਹਾਂ ਦੀ AI ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੀਆਂ ਵੀਡੀਓਜ਼ ਨੂੰ ਪਾਲਣਾ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ, ਮੁਲਾਂਕਣ ਲਈ ਵਿਜ਼ਨ-ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ।
ਲੇਖਕ ਦੱਸਦੇ ਹਨ:
‘ਉਦਾਹਰਨ ਲਈ, ਇੱਕ ਖਿਡਾਰੀ ਦੇ ਟੈਨਿਸ ਖੇਡਣ ਦੇ ਇੱਕ ਵੀਡੀਓ ਵਿੱਚ, ਇੱਕ ਭੌਤਿਕ ਨਿਯਮ ਇਹ ਹੋਵੇਗਾ ਕਿ ਇੱਕ ਟੈਨਿਸ ਗੇਂਦ ਨੂੰ ਗੁਰੂਤਾ ਦੇ ਅਧੀਨ ਇੱਕ ਪੈਰਾਬੋਲਿਕ ਟ੍ਰੈਜੈਕਟਰੀ ਦੀ ਪਾਲਣਾ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ। ਸੋਨੇ ਦੇ ਮਿਆਰੀ ਨਿਰਣੇ ਲਈ, ਅਸੀਂ ਮਨੁੱਖੀ ਐਨੋਟੇਟਰਾਂ ਨੂੰ ਹਰੇਕ ਵੀਡੀਓ ਨੂੰ ਸਮੁੱਚੀ ਅਰਥਾਤਮਕ ਪਾਲਣਾ ਅਤੇ ਭੌਤਿਕ ਕਾਮਨਸੈਂਸ ਦੇ ਅਧਾਰ ‘ਤੇ ਸਕੋਰ ਕਰਨ ਲਈ ਕਹਿੰਦੇ ਹਾਂ, ਅਤੇ ਵੱਖ-ਵੱਖ ਭੌਤਿਕ ਨਿਯਮਾਂ ਦੀ ਪਾਲਣਾ ਨੂੰ ਚਿੰਨ੍ਹਿਤ ਕਰਨ ਲਈ ਕਹਿੰਦੇ ਹਾਂ।’
ਕਾਰਵਾਈਆਂ ਨੂੰ ਕਿਊਰੇਟ ਕਰਨਾ ਅਤੇ ਪ੍ਰੋਂਪਟ ਤਿਆਰ ਕਰਨਾ
ਸ਼ੁਰੂ ਵਿੱਚ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ AI ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੀਆਂ ਵੀਡੀਓਜ਼ ਵਿੱਚ ਭੌਤਿਕ ਕਾਮਨਸੈਂਸ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਕਾਰਵਾਈਆਂ ਦਾ ਇੱਕ ਸੈੱਟ ਕਿਊਰੇਟ ਕੀਤਾ। ਉਹਨਾਂ ਨੇ Kinetics, UCF-101, ਅਤੇ SSv2 ਡੇਟਾਸੈਟਾਂ ਤੋਂ ਪ੍ਰਾਪਤ 600 ਤੋਂ ਵੱਧ ਕਾਰਵਾਈਆਂ ਨਾਲ ਸ਼ੁਰੂਆਤ ਕੀਤੀ, ਖੇਡਾਂ, ਵਸਤੂਆਂ ਦੇ ਆਪਸੀ ਤਾਲਮੇਲ, ਅਤੇ ਅਸਲ-ਸੰਸਾਰ ਭੌਤਿਕ ਵਿਗਿਆਨ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਵਾਲੀਆਂ ਗਤੀਵਿਧੀਆਂ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੇ ਹੋਏ।
STEM-ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਵਿਦਿਆਰਥੀ ਐਨੋਟੇਟਰਾਂ ਦੇ ਦੋ ਸੁਤੰਤਰ ਸਮੂਹਾਂ (ਘੱਟੋ-ਘੱਟ ਅੰਡਰਗ੍ਰੈਜੁਏਟ ਯੋਗਤਾ ਦੇ ਨਾਲ) ਨੇ ਸੂਚੀ ਦੀ ਸਮੀਖਿਆ ਕੀਤੀ ਅਤੇ ਫਿਲਟਰ ਕੀਤੀ। ਉਹਨਾਂ ਨੇ ਉਹਨਾਂ ਕਾਰਵਾਈਆਂ ਦੀ ਚੋਣ ਕੀਤੀ ਜਿਹਨਾਂ ਨੇ ਗੁਰੂਤਾ, ਮੋਮੈਂਟਮ, ਅਤੇ ਲਚਕਤਾ ਵਰਗੇ ਸਿਧਾਂਤਾਂ ਦੀ ਜਾਂਚ ਕੀਤੀ, ਜਦੋਂ ਕਿ ਘੱਟ-ਗਤੀ ਵਾਲੇ ਕੰਮਾਂ ਜਿਵੇਂ ਕਿ ਟਾਈਪਿੰਗ, ਇੱਕ ਬਿੱਲੀ ਨੂੰ ਪਾਲਣਾ, ਜਾਂ ਚਬਾਉਣਾ ਨੂੰ ਹਟਾ ਦਿੱਤਾ।
ਡੁਪਲੀਕੇਟਾਂ ਨੂੰ ਖਤਮ ਕਰਨ ਲਈ Gemini-2.0-Flash-Exp ਨਾਲ ਹੋਰ ਸੁਧਾਰ ਤੋਂ ਬਾਅਦ, ਅੰਤਮ ਡੇਟਾਸੈਟ ਵਿੱਚ 197 ਕਾਰਵਾਈਆਂ ਸ਼ਾਮਲ ਸਨ। 54 ਵਿੱਚ ਵਸਤੂਆਂ ਦੇ ਆਪਸੀ ਤਾਲਮੇਲ ਸ਼ਾਮਲ ਸਨ, ਅਤੇ 143 ਭੌਤਿਕ ਅਤੇ ਖੇਡ ਗਤੀਵਿਧੀਆਂ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਸਨ:
ਦੂਜੇ ਪੜਾਅ ਵਿੱਚ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਡੇਟਾਸੈਟ ਵਿੱਚ ਹਰੇਕ ਕਾਰਵਾਈ ਲਈ 20 ਪ੍ਰੋਂਪਟ ਤਿਆਰ ਕਰਨ ਲਈ Gemini-2.0-Flash-Exp ਦੀ ਵਰਤੋਂ ਕੀਤੀ, ਜਿਸਦੇ ਨਤੀਜੇ ਵਜੋਂ ਕੁੱਲ 3,940 ਪ੍ਰੋਂਪਟ ਹੋਏ। ਉਤਪਾਦਨ ਪ੍ਰਕਿਰਿਆ ਦਿਖਾਈ ਦੇਣ ਵਾਲੇ ਭੌਤਿਕ ਆਪਸੀ ਤਾਲਮੇਲ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੈ ਜਿਸਨੂੰ ਇੱਕ ਤਿਆਰ ਕੀਤੇ ਵੀਡੀਓ ਵਿੱਚ ਸਪੱਸ਼ਟ ਰੂਪ ਵਿੱਚ ਦਰਸਾਇਆ ਜਾ ਸਕਦਾ ਹੈ। ਇਸ ਵਿੱਚ ਗੈਰ-ਵਿਜ਼ੂਅਲ ਤੱਤ ਜਿਵੇਂ ਕਿ ਭਾਵਨਾਵਾਂ, ਸੰਵੇਦੀ ਵੇਰਵੇ, ਅਤੇ ਸਾਰ ਭਾਸ਼ਾ ਸ਼ਾਮਲ ਨਹੀਂ ਹਨ, ਪਰ ਵਿਭਿੰਨ ਪਾਤਰਾਂ ਅਤੇ ਵਸਤੂਆਂ ਨੂੰ ਸ਼ਾਮਲ ਕੀਤਾ ਗਿਆ ਹੈ।
ਉਦਾਹਰਨ ਲਈ, ਇੱਕ ਸਧਾਰਨ ਪ੍ਰੋਂਪਟ ਜਿਵੇਂ ਕਿ ‘ਇੱਕ ਤੀਰਅੰਦਾਜ਼ ਤੀਰ ਛੱਡਦਾ ਹੈ’ ਦੀ ਬਜਾਏ, ਮਾਡਲ ਨੂੰ ਇੱਕ ਹੋਰ ਵਿਸਤ੍ਰਿਤ ਸੰਸਕਰਣ ਤਿਆਰ ਕਰਨ ਲਈ ਸੇਧਿਤ ਕੀਤਾ ਗਿਆ ਸੀ ਜਿਵੇਂ ਕਿ ‘ਇੱਕ ਤੀਰਅੰਦਾਜ਼ ਧਨੁਸ਼ ਦੀ ਡੋਰੀ ਨੂੰ ਪੂਰੇ ਤਣਾਅ ਵਿੱਚ ਵਾਪਸ ਖਿੱਚਦਾ ਹੈ, ਫਿਰ ਤੀਰ ਛੱਡਦਾ ਹੈ, ਜੋ ਸਿੱਧਾ ਉੱਡਦਾ ਹੈ ਅਤੇ ਇੱਕ ਕਾਗਜ਼ ਦੇ ਨਿਸ਼ਾਨੇ ‘ਤੇ ਇੱਕ ਬੁਲਸੀ ਨੂੰ ਮਾਰਦਾ ਹੈ’।
ਕਿਉਂਕਿ ਆਧੁਨਿਕ ਵੀਡੀਓ ਮਾਡਲ ਲੰਬੇ ਵਰਣਨਾਂ ਦੀ ਵਿਆਖਿਆ ਕਰ ਸਕਦੇ ਹਨ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਮਿਸਟ੍ਰਲ-ਨੀਮੋ-12ਬੀ-ਇੰਸਟ੍ਰਕਟ ਪ੍ਰੋਂਪਟ ਅੱਪਸੈਂਪਲਰ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸੁਰਖੀਆਂ ਨੂੰ ਹੋਰ ਸੁਧਾਰਿਆ। ਇਸਨੇ ਅਸਲ ਅਰਥ ਨੂੰ ਬਦਲੇ ਬਿਨਾਂ ਵਿਜ਼ੂਅਲ ਵੇਰਵੇ ਸ਼ਾਮਲ ਕੀਤੇ।
ਭੌਤਿਕ ਨਿਯਮਾਂ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨਾ ਅਤੇ ਚੁਣੌਤੀਪੂਰਨ ਕਾਰਵਾਈਆਂ ਦੀ ਪਛਾਣ ਕਰਨਾ
ਤੀਜੇ ਪੜਾਅ ਲਈ, ਭੌਤਿਕ ਨਿਯਮ ਟੈਕਸਟ ਪ੍ਰੋਂਪਟਾਂ ਤੋਂ ਨਹੀਂ ਬਲਕਿ ਤਿਆਰ ਕੀਤੀਆਂ ਵੀਡੀਓਜ਼ ਤੋਂ ਪ੍ਰਾਪਤ ਕੀਤੇ ਗਏ ਸਨ। ਇਹ ਇਸ ਲਈ ਹੈ ਕਿਉਂਕਿ ਜੇਨੇਰੇਟਿਵ ਮਾਡਲ ਕੰਡੀਸ਼ਨਡ ਟੈਕਸਟ ਪ੍ਰੋਂਪਟਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਲਈ ਸੰਘਰਸ਼ ਕਰ ਸਕਦੇ ਹਨ।
ਵੀਡੀਓਜ਼ ਪਹਿਲਾਂ VideoPhy-2 ਪ੍ਰੋਂਪਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਬਣਾਈਆਂ ਗਈਆਂ ਸਨ, ਫਿਰ ਮੁੱਖ ਵੇਰਵਿਆਂ ਨੂੰ ਕੱਢਣ ਲਈ Gemini-2.0-Flash-Exp ਨਾਲ “ਅੱਪ-ਕੈਪਸ਼ਨ” ਕੀਤੀਆਂ ਗਈਆਂ ਸਨ। ਮਾਡਲ ਨੇ ਪ੍ਰਤੀ ਵੀਡੀਓ ਤਿੰਨ ਅਨੁਮਾਨਿਤ ਭੌਤਿਕ ਨਿਯਮਾਂ ਦਾ ਪ੍ਰਸਤਾਵ ਦਿੱਤਾ। ਮਨੁੱਖੀ ਐਨੋਟੇਟਰਾਂ ਨੇ ਵਾਧੂ ਸੰਭਾਵੀ ਉਲੰਘਣਾਵਾਂ ਦੀ ਪਛਾਣ ਕਰਕੇ ਇਹਨਾਂ ਦੀ ਸਮੀਖਿਆ ਕੀਤੀ ਅਤੇ ਵਿਸਤਾਰ ਕੀਤਾ।
ਅੱਗੇ, ਸਭ ਤੋਂ ਚੁਣੌਤੀਪੂਰਨ ਕਾਰਵਾਈਆਂ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ VideoPhy-2 ਡੇਟਾਸੈਟ ਤੋਂ ਪ੍ਰੋਂਪਟਾਂ ਦੇ ਨਾਲ CogVideoX-5B ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਵੀਡੀਓਜ਼ ਤਿਆਰ ਕੀਤੀਆਂ। ਫਿਰ ਉਹਨਾਂ ਨੇ 197 ਵਿੱਚੋਂ 60 ਕਾਰਵਾਈਆਂ ਦੀ ਚੋਣ ਕੀਤੀ ਜਿੱਥੇ ਮਾਡਲ ਲਗਾਤਾਰ ਪ੍ਰੋਂਪਟਾਂ ਅਤੇ ਬੁਨਿਆਦੀ ਭੌਤਿਕ ਕਾਮਨਸੈਂਸ ਦੋਵਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਰਿਹਾ।
ਇਹਨਾਂ ਕਾਰਵਾਈਆਂ ਵਿੱਚ ਭੌਤਿਕ ਵਿਗਿਆਨ ਨਾਲ ਭਰਪੂਰ ਆਪਸੀ ਤਾਲਮੇਲ ਸ਼ਾਮਲ ਸਨ ਜਿਵੇਂ ਕਿ ਡਿਸਕਸ ਥ੍ਰੋਇੰਗ ਵਿੱਚ ਮੋਮੈਂਟਮ ਟ੍ਰਾਂਸਫਰ, ਸਥਿਤੀ ਤਬਦੀਲੀਆਂ ਜਿਵੇਂ ਕਿ ਕਿਸੇ ਵਸਤੂ ਨੂੰ ਉਦੋਂ ਤੱਕ ਮੋੜਨਾ ਜਦੋਂ ਤੱਕ ਇਹ ਟੁੱਟ ਨਾ ਜਾਵੇ, ਸੰਤੁਲਨ ਕਾਰਜ ਜਿਵੇਂ ਕਿ ਟਾਈਟਰੋਪ ਵਾਕਿੰਗ, ਅਤੇ ਗੁੰਝਲਦਾਰ ਗਤੀਆਂ ਜਿਸ ਵਿੱਚ ਬੈਕ-ਫਲਿੱਪ, ਪੋਲ ਵਾਲਟਿੰਗ, ਅਤੇ ਪੀਜ਼ਾ ਟੌਸਿੰਗ ਸ਼ਾਮਲ ਸਨ। ਕੁੱਲ ਮਿਲਾ ਕੇ, ਉਪ-ਡੇਟਾਸੈਟ ਦੀ ਮੁਸ਼ਕਲ ਨੂੰ ਵਧਾਉਣ ਲਈ 1,200 ਪ੍ਰੋਂਪਟ ਚੁਣੇ ਗਏ ਸਨ।
VideoPhy-2 ਡੇਟਾਸੈਟ: ਇੱਕ ਵਿਆਪਕ ਮੁਲਾਂਕਣ ਸਰੋਤ
ਨਤੀਜੇ ਵਜੋਂ ਡੇਟਾਸੈਟ ਵਿੱਚ 3,940 ਸੁਰਖੀਆਂ ਸ਼ਾਮਲ ਸਨ - VideoPhy ਦੇ ਪੁਰਾਣੇ ਸੰਸਕਰਣ ਨਾਲੋਂ 5.72 ਗੁਣਾ ਵੱਧ। ਮੂਲ ਸੁਰਖੀਆਂ ਦੀ ਔਸਤ ਲੰਬਾਈ 16 ਟੋਕਨ ਹੈ, ਜਦੋਂ ਕਿ ਅੱਪਸੈਂਪਲ ਕੀਤੀਆਂ ਸੁਰਖੀਆਂ ਕ੍ਰਮਵਾਰ 138 ਟੋਕਨਾਂ ਤੱਕ ਪਹੁੰਚਦੀਆਂ ਹਨ - 1.88 ਗੁਣਾ ਅਤੇ 16.2 ਗੁਣਾ ਲੰਬੀਆਂ।
ਡੇਟਾਸੈਟ ਵਿੱਚ ਕਈ ਵੀਡੀਓ ਜਨਰੇਸ਼ਨ ਮਾਡਲਾਂ ਵਿੱਚ ਅਰਥਾਤਮਕ ਪਾਲਣਾ, ਭੌਤਿਕ ਕਾਮਨਸੈਂਸ, ਅਤੇ ਨਿਯਮਾਂ ਦੀ ਉਲੰਘਣਾ ਨੂੰ ਕਵਰ ਕਰਨ ਵਾਲੀਆਂ 102,000 ਮਨੁੱਖੀ ਐਨੋਟੇਸ਼ਨਾਂ ਵੀ ਸ਼ਾਮਲ ਹਨ।
ਮੁਲਾਂਕਣ ਮਾਪਦੰਡ ਅਤੇ ਮਨੁੱਖੀ ਐਨੋਟੇਸ਼ਨਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨਾ
ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਫਿਰ ਵੀਡੀਓਜ਼ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਸਪੱਸ਼ਟ ਮਾਪਦੰਡ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤੇ। ਮੁੱਖ ਟੀਚਾ ਇਹ ਮੁਲਾਂਕਣ ਕਰਨਾ ਸੀ ਕਿ ਹਰੇਕ ਵੀਡੀਓ ਆਪਣੇ ਇਨਪੁਟ ਪ੍ਰੋਂਪਟ ਨਾਲ ਕਿੰਨੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਮੇਲ ਖਾਂਦਾ ਹੈ ਅਤੇ ਬੁਨਿਆਦੀ ਭੌਤਿਕ ਸਿਧਾਂਤਾਂ ਦੀ ਪਾਲਣਾ ਕਰਦਾ ਹੈ।
ਸਿਰਫ਼ ਤਰਜੀਹ ਦੁਆਰਾ ਵੀਡੀਓਜ਼ ਨੂੰ ਦਰਜਾਬੰਦੀ ਕਰਨ ਦੀ ਬਜਾਏ, ਉਹਨਾਂ ਨੇ ਖਾਸ ਸਫਲਤਾਵਾਂ ਅਤੇ ਅਸਫਲਤਾਵਾਂ ਨੂੰ ਹਾਸਲ ਕਰਨ ਲਈ ਰੇਟਿੰਗ-ਅਧਾਰਤ ਫੀਡਬੈਕ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਮਨੁੱਖੀ ਐਨੋਟੇਟਰਾਂ ਨੇ ਵੀਡੀਓਜ਼ ਨੂੰ ਪੰਜ-ਪੁਆਇੰਟ ਸਕੇਲ ‘ਤੇ ਸਕੋਰ ਕੀਤਾ, ਜਿਸ ਨਾਲ ਵਧੇਰੇ ਵਿਸਤ੍ਰਿਤ ਨਿਰਣੇ ਦੀ ਇਜਾਜ਼ਤ ਦਿੱਤੀ ਗਈ। ਮੁਲਾਂਕਣ ਨੇ ਇਹ ਵੀ ਜਾਂਚ ਕੀਤੀ ਕਿ ਕੀ ਵੀਡੀਓਜ਼ ਵੱਖ-ਵੱਖ ਭੌਤਿਕ ਨਿਯਮਾਂ ਅਤੇ ਕਾਨੂੰਨਾਂ ਦੀ ਪਾਲਣਾ ਕਰਦੇ ਹਨ।
ਮਨੁੱਖੀ ਮੁਲਾਂਕਣ ਲਈ, 12 ਐਨੋਟੇਟਰਾਂ ਦੇ ਇੱਕ ਸਮੂਹ ਨੂੰ ਐਮਾਜ਼ਾਨ ਮਕੈਨੀਕਲ ਤੁਰਕ (AMT) ‘ਤੇ ਟਰਾਇਲਾਂ ਤੋਂ ਚੁਣਿਆ ਗਿਆ ਸੀ ਅਤੇ ਵਿਸਤ੍ਰਿਤ ਰਿਮੋਟ ਨਿਰਦੇਸ਼ ਪ੍ਰਾਪਤ ਕਰਨ ਤੋਂ ਬਾਅਦ ਰੇਟਿੰਗਾਂ ਪ੍ਰਦਾਨ ਕੀਤੀਆਂ ਗਈਆਂ ਸਨ। ਨਿਰਪੱਖਤਾ ਲਈ, ਅਰਥਾਤਮਕ ਪਾਲਣਾ ਅਤੇ ਭੌਤਿਕ ਕਾਮਨਸੈਂਸ ਦਾ ਵੱਖਰੇ ਤੌਰ ‘ਤੇ ਮੁਲਾਂਕਣ ਕੀਤਾ ਗਿਆ ਸੀ (ਮੂਲ VideoPhy ਅਧਿਐਨ ਵਿੱਚ, ਉਹਨਾਂ ਦਾ ਸਾਂਝੇ ਤੌਰ ‘ਤੇ ਮੁਲਾਂਕਣ ਕੀਤਾ ਗਿਆ ਸੀ)।
ਐਨੋਟੇਟਰਾਂ ਨੇ ਪਹਿਲਾਂ ਦਰਜਾ ਦਿੱਤਾ ਕਿ ਵੀਡੀਓਜ਼ ਉਹਨਾਂ ਦੇ ਇਨਪੁਟ ਪ੍ਰੋਂਪਟਾਂ ਨਾਲ ਕਿੰਨੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਮੇਲ ਖਾਂਦੇ ਹਨ, ਫਿਰ ਵੱਖਰੇ ਤੌਰ ‘ਤੇ ਭੌਤਿਕ ਪ੍ਰਵਾਨਗੀ ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ, ਨਿਯਮਾਂ ਦੀ ਉਲੰਘਣਾ ਅਤੇ ਸਮੁੱਚੀ ਯਥਾਰਥਵਾਦ ਨੂੰ ਪੰਜ-ਪੁਆਇੰਟ ਸਕੇਲ ‘ਤੇ ਸਕੋਰ ਕੀਤਾ। ਮਾਡਲਾਂ ਵਿੱਚ ਇੱਕ ਨਿਰਪੱਖ ਤੁਲਨਾ ਬਣਾਈ ਰੱਖਣ ਲਈ ਸਿਰਫ ਮੂਲ ਪ੍ਰੋਂਪਟ ਦਿਖਾਏ ਗਏ ਸਨ।
ਸਵੈਚਾਲਿਤ ਮੁਲਾਂਕਣ: ਸਕੇਲੇਬਲ ਮਾਡਲ ਮੁਲਾਂਕਣ ਵੱਲ
ਹਾਲਾਂਕਿ ਮਨੁੱਖੀ ਨਿਰਣਾ ਸੋਨੇ ਦਾ ਮਿਆਰ ਬਣਿਆ ਹੋਇਆ ਹੈ, ਇਹ ਮਹਿੰਗਾ ਹੈ ਅਤੇ ਕਈ ਚੇਤਾਵਨੀਆਂ ਦੇ ਨਾਲ ਆਉਂਦਾ ਹੈ। ਇਸ ਲਈ, ਤੇਜ਼ ਅਤੇ ਵਧੇਰੇ ਸਕੇਲੇਬਲ ਮਾਡਲ ਮੁਲਾਂਕਣਾਂ ਲਈ ਸਵੈਚਾਲਿਤ ਮੁਲਾਂਕਣ ਜ਼ਰੂਰੀ ਹੈ।
ਪੇਪਰ ਦੇ ਲੇਖਕਾਂ ਨੇ ਕਈ ਵੀਡੀਓ-ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕੀਤੀ, ਜਿਸ ਵਿੱਚ Gemini-2.0-Flash-Exp ਅਤੇ VideoScore ਸ਼ਾਮਲ ਹਨ, ਅਰਥਾਤਮਕ ਸ਼ੁੱਧਤਾ ਅਤੇ “ਭੌਤਿਕ ਕਾਮਨਸੈਂਸ” ਲਈ ਵੀਡੀਓਜ਼ ਨੂੰ ਸਕੋਰ ਕਰਨ ਦੀ ਉਹਨਾਂ ਦੀ ਯੋਗਤਾ ‘ਤੇ।
ਮਾਡਲਾਂ ਨੇ ਦੁਬਾਰਾ ਹਰੇਕ ਵੀਡੀਓ ਨੂੰ ਪੰਜ-ਪੁਆਇੰਟ ਸਕੇਲ ‘ਤੇ ਦਰਜਾ ਦਿੱਤਾ। ਇੱਕ ਵੱਖਰੇ ਵਰਗੀਕਰਨ ਕਾਰਜ ਨੇ ਇਹ ਨਿਰਧਾਰਤ ਕੀਤਾ ਕਿ ਕੀ ਭੌਤਿਕ ਨਿਯਮਾਂ ਦੀ ਪਾਲਣਾ ਕੀਤੀ ਗਈ, ਉਲੰਘਣਾ ਕੀਤੀ ਗਈ, ਜਾਂ ਅਸਪਸ਼ਟ ਸਨ।
ਪ੍ਰਯੋਗਾਂ ਨੇ ਦਿਖਾਇਆ ਕਿ ਮੌਜੂਦਾ ਵੀਡੀਓ-ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਨੇ ਮਨੁੱਖੀ ਨਿਰਣਿਆਂ ਨਾਲ ਮੇਲ ਕਰਨ ਲਈ ਸੰਘਰਸ਼ ਕੀਤਾ, ਮੁੱਖ ਤੌਰ ‘ਤੇ ਕਮਜ਼ੋਰ ਭੌਤਿਕ ਤਰਕ ਅਤੇ ਪ੍ਰੋਂਪਟਾਂ ਦੀ ਗੁੰਝਲਤਾ ਦੇ ਕਾਰਨ। ਸਵੈਚਾਲਿਤ ਮੁਲਾਂਕਣ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ VideoPhy-2-Autoeval ਵਿਕਸਤ ਕੀਤਾ, ਇੱਕ 7B-ਪੈਰਾਮੀਟਰ ਮਾਡਲ ਜੋ ਤਿੰਨ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ ਵਧੇਰੇ ਸਹੀ ਭਵਿੱਖਬਾਣੀਆਂ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ: ਅਰਥਾਤਮਕ ਪਾਲਣਾ; ਭੌਤਿਕ ਕਾਮਨਸੈਂਸ; ਅਤੇ ਨਿਯਮ ਦੀ ਪਾਲਣਾ। ਇਸਨੂੰ 50,000 ਮਨੁੱਖੀ ਐਨੋਟੇਸ਼ਨਾਂ* ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ VideoCon-Physics ਮਾਡਲ ‘ਤੇ ਫਾਈਨ-ਟਿਊਨ ਕੀਤਾ ਗਿਆ ਸੀ।
ਜੇਨੇਰੇਟਿਵ ਵੀਡੀਓ ਸਿਸਟਮਾਂ ਦੀ ਜਾਂਚ: ਇੱਕ ਤੁਲਨਾਤਮਕ ਵਿਸ਼ਲੇਸ਼ਣ
ਇਹਨਾਂ ਸਾਧਨਾਂ ਦੇ ਨਾਲ, ਲੇਖਕਾਂ ਨੇ ਕਈ ਜੇਨੇਰੇਟਿਵ ਵੀਡੀਓ ਸਿਸਟਮਾਂ ਦੀ ਜਾਂਚ ਕੀਤੀ, ਸਥਾਨਕ ਸਥਾਪਨਾਵਾਂ ਦੁਆਰਾ ਅਤੇ, ਜਿੱਥੇ ਜ਼ਰੂਰੀ ਹੋਵੇ, ਵਪਾਰਕ APIs ਦੁਆਰਾ: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; ਅਤੇ Luma Ray.
ਮਾਡਲਾਂ ਨੂੰ ਜਿੱਥੇ ਸੰਭਵ ਹੋਵੇ ਅੱਪਸੈਂਪਲ ਕੀਤੀਆਂ ਸੁਰਖੀਆਂ ਨਾਲ ਪ੍ਰੋਂਪਟ ਕੀਤਾ ਗਿਆ ਸੀ, ਸਿਵਾਏ ਕਿ Hunyuan Video ਅਤੇ VideoCrafter2 77-ਟੋਕਨ CLIP ਸੀਮਾਵਾਂ ਦੇ ਅਧੀਨ ਕੰਮ ਕਰਦੇ ਹਨ ਅਤੇ ਇੱਕ ਨਿਸ਼ਚਿਤ ਲੰਬਾਈ ਤੋਂ ਉੱਪਰ ਪ੍ਰੋਂਪਟਾਂ ਨੂੰ ਸਵੀਕਾਰ ਨਹੀਂ ਕਰ ਸਕਦੇ ਹਨ।
ਤਿਆਰ ਕੀਤੀਆਂ ਵੀਡੀਓਜ਼ ਨੂੰ 6 ਸਕਿੰਟਾਂ ਤੋਂ ਘੱਟ ਰੱਖਿਆ ਗਿਆ ਸੀ, ਕਿਉਂਕਿ ਛੋਟਾ ਆਉਟਪੁੱਟ ਮੁਲਾਂਕਣ ਕਰਨਾ ਆਸਾਨ ਹੈ।
ਡਰਾਈਵਿੰਗ ਡੇਟਾ VideoPhy-2 ਡੇਟਾਸੈਟ ਤੋਂ ਸੀ, ਜਿਸਨੂੰ ਇੱਕ ਬੈਂਚਮਾਰਕ ਅਤੇ ਸਿਖਲਾਈ ਸੈੱਟ ਵਿੱਚ ਵੰਡਿਆ ਗਿਆ ਸੀ। ਪ੍ਰਤੀ ਮਾਡਲ 590 ਵੀਡੀਓਜ਼ ਤਿਆਰ ਕੀਤੀਆਂ ਗਈਆਂ ਸਨ, ਸਿਵਾਏ Sora ਅਤੇ Ray2 ਦੇ; ਲਾਗਤ ਕਾਰਕ ਦੇ ਕਾਰਨ, ਇਹਨਾਂ ਲਈ ਵੀਡੀਓਜ਼ ਦੀਆਂ ਬਰਾਬਰ ਘੱਟ ਸੰਖਿਆਵਾਂ ਤਿਆਰ ਕੀਤੀਆਂ ਗਈਆਂ ਸਨ।
ਸ਼ੁਰੂਆਤੀ ਮੁਲਾਂਕਣ ਭੌਤਿਕ ਗਤੀਵਿਧੀਆਂ/ਖੇਡਾਂ (PA) ਅਤੇ ਵਸਤੂਆਂ ਦੇ ਆਪਸੀ ਤਾਲਮੇਲ (OI) ਨਾਲ ਸੰਬੰਧਿਤ ਹੈ ਅਤੇ ਆਮ ਡੇਟਾਸੈਟ ਅਤੇ ਪਹਿਲਾਂ ਦੱਸ