ਅਲੀਬਾਬਾ ਨੇ ਨਵੇਂ ਓਪਨ-ਸੋਰਸ AI ਵੀਡੀਓ ਮਾਡਲ ਪੇਸ਼ ਕੀਤੇ

I2VGen-XL ਵਿੱਚ ਡੂੰਘਾਈ: ਇੱਕ ਬਹੁਪੱਖੀ ਟੂਲਕਿੱਟ

ਅਲੀਬਾਬਾ ਦੀ ਸਮਰਪਿਤ Ema ਟੀਮ ਦੁਆਰਾ ਵਿਕਸਤ, I2VGen-XL ਸੂਟ ਵਿੱਚ ਕਈ ਰੂਪ ਸ਼ਾਮਲ ਹਨ, ਹਰੇਕ ਖਾਸ ਪ੍ਰਦਰਸ਼ਨ ਲੋੜਾਂ ਅਤੇ ਵਰਤੋਂ ਦੇ ਮਾਮਲਿਆਂ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਮਾਡਲ, ਸ਼ੁਰੂ ਵਿੱਚ ਜਨਵਰੀ ਵਿੱਚ ਪੇਸ਼ ਕੀਤੇ ਗਏ ਸਨ, ਕਮਾਲ ਦੀਆਂ ਯਥਾਰਥਵਾਦੀ ਵੀਡੀਓਜ਼ ਤਿਆਰ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਹਨ, ਜੋ ਕਿ AI-ਸੰਚਾਲਿਤ ਵੀਡੀਓ ਨਿਰਮਾਣ ਵਿੱਚ ਵਰਤਮਾਨ ਵਿੱਚ ਪ੍ਰਾਪਤ ਕਰਨ ਯੋਗ ਹੈ, ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਅੱਗੇ ਵਧਾਉਂਦੇ ਹਨ। ਇਹ ਅਤਿ-ਆਧੁਨਿਕ ਟੂਲ ਹੁਣ Hugging Face ‘ਤੇ ਆਸਾਨੀ ਨਾਲ ਪਹੁੰਚਯੋਗ ਹਨ, ਜੋ ਕਿ AI ਅਤੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ (ML) ਸਰੋਤਾਂ ਲਈ ਇੱਕ ਪ੍ਰਮੁੱਖ ਹੱਬ ਹੈ।

Hugging Face ਪੰਨਾ ਅਲੀਬਾਬਾ ਦੀ Ema ਟੀਮ ਨੂੰ ਸਮਰਪਿਤ I2VGen-XL ਸੂਟ ਦੇ ਅੰਦਰ ਚਾਰ ਕੋਰ ਮਾਡਲਾਂ ਨੂੰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦਾ ਹੈ:

  • T2V-1.3B: 1.3 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਵਾਲਾ ਇੱਕ ਟੈਕਸਟ-ਟੂ-ਵੀਡੀਓ ਮਾਡਲ।
  • T2V-14B: 14 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਵਾਲਾ ਇੱਕ ਵਧੇਰੇ ਮਜ਼ਬੂਤ ਟੈਕਸਟ-ਟੂ-ਵੀਡੀਓ ਮਾਡਲ।
  • I2V-14B-720P: 14 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਵਾਲਾ ਇੱਕ ਇਮੇਜ-ਟੂ-ਵੀਡੀਓ ਮਾਡਲ, 720p ਰੈਜ਼ੋਲਿਊਸ਼ਨ ਲਈ ਅਨੁਕੂਲਿਤ।
  • I2V-14B-480P: 14 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਵਾਲਾ ਇੱਕ ਇਮੇਜ-ਟੂ-ਵੀਡੀਓ ਮਾਡਲ, 480p ਰੈਜ਼ੋਲਿਊਸ਼ਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ।

ਨਾਂ-ਪ੍ਰਣਾਲੀ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਟੈਕਸਟ-ਟੂ-ਵੀਡੀਓ (T2V) ਅਤੇ ਇਮੇਜ-ਟੂ-ਵੀਡੀਓ (I2V) ਕਾਰਜਕੁਸ਼ਲਤਾਵਾਂ ਵਿੱਚ ਅੰਤਰ ਕਰਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਉਹਨਾਂ ਦੇ ਇਨਪੁਟ ਡੇਟਾ ਲਈ ਸਭ ਤੋਂ ਅਨੁਕੂਲ ਮਾਡਲ ਚੁਣਨ ਦੀ ਆਗਿਆ ਮਿਲਦੀ ਹੈ।

ਪਹੁੰਚਯੋਗਤਾ ਅਤੇ ਪ੍ਰਦਰਸ਼ਨ: ਵੀਡੀਓ ਜਨਰੇਸ਼ਨ ਦਾ ਲੋਕਤੰਤਰੀਕਰਨ

I2VGen-XL ਰੀਲੀਜ਼ ਦੇ ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਪਹਿਲੂਆਂ ਵਿੱਚੋਂ ਇੱਕ ਇਸਦੀ ਪਹੁੰਚਯੋਗਤਾ ਹੈ। ਪ੍ਰੋਜੈਕਟ ਦੇ ਪਿੱਛੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਖਪਤਕਾਰ-ਗਰੇਡ GPUs ‘ਤੇ ਸਭ ਤੋਂ ਛੋਟੇ ਰੂਪ, I2VGen-XL T2V-1.3B ਨੂੰ ਵੀ ਚਲਾਉਣ ਦੀ ਯੋਗਤਾ ‘ਤੇ ਜ਼ੋਰ ਦਿੱਤਾ ਹੈ। ਖਾਸ ਤੌਰ ‘ਤੇ, 8.19GB ਜਿੰਨੀ ਘੱਟ vRAM ਵਾਲਾ ਇੱਕ GPU ਕਾਫੀ ਹੈ। ਇਸ ਨੂੰ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਵਿੱਚ ਰੱਖਣ ਲਈ, ਟੀਮ ਰਿਪੋਰਟ ਕਰਦੀ ਹੈ ਕਿ Nvidia RTX 4090 ਦੀ ਵਰਤੋਂ ਕਰਕੇ 480p ਰੈਜ਼ੋਲਿਊਸ਼ਨ ‘ਤੇ ਪੰਜ-ਸਕਿੰਟ-ਲੰਬੀ ਵੀਡੀਓ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਲਗਭਗ ਚਾਰ ਮਿੰਟ ਲੱਗਦੇ ਹਨ। ਪਹੁੰਚਯੋਗਤਾ ਦਾ ਇਹ ਪੱਧਰ ਖੋਜਕਰਤਾਵਾਂ, ਡਿਵੈਲਪਰਾਂ, ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਸ਼ੌਕੀਨਾਂ ਲਈ AI ਵੀਡੀਓ ਜਨਰੇਸ਼ਨ ਦੀ ਤਰੱਕੀ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਉਣ ਅਤੇ ਪ੍ਰਯੋਗ ਕਰਨ ਲਈ ਦਿਲਚਸਪ ਸੰਭਾਵਨਾਵਾਂ ਖੋਲ੍ਹਦਾ ਹੈ।

ਵੀਡੀਓ ਤੋਂ ਪਰੇ: ਇੱਕ ਬਹੁਪੱਖੀ AI ਸੂਟ

ਜਦੋਂ ਕਿ I2VGen-XL ਸੂਟ ਦਾ ਮੁੱਖ ਫੋਕਸ ਵੀਡੀਓ ਜਨਰੇਸ਼ਨ ਹੈ, ਇਸਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਇਸ ਕੋਰ ਫੰਕਸ਼ਨ ਤੋਂ ਅੱਗੇ ਵਧਦੀਆਂ ਹਨ। ਅੰਡਰਲਾਈੰਗ ਆਰਕੀਟੈਕਚਰ ਨੂੰ ਵੱਖ-ਵੱਖ ਕਾਰਜਾਂ ਨੂੰ ਸੰਭਾਲਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਜਿਸ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

  • ਚਿੱਤਰ ਜਨਰੇਸ਼ਨ: ਟੈਕਸਟ ਜਾਂ ਵਿਜ਼ੂਅਲ ਪ੍ਰੋਂਪਟ ਤੋਂ ਸਥਿਰ ਚਿੱਤਰ ਬਣਾਉਣਾ।
  • ਵੀਡੀਓ-ਟੂ-ਆਡੀਓ ਜਨਰੇਸ਼ਨ: ਤਿਆਰ ਕੀਤੀ ਵੀਡੀਓ ਸਮੱਗਰੀ ਦੇ ਪੂਰਕ ਆਡੀਓ ਨੂੰ ਸਿੰਥੇਸਾਈਜ਼ ਕਰਨਾ।
  • ਵੀਡੀਓ ਸੰਪਾਦਨ: ਮੌਜੂਦਾ ਵੀਡੀਓ ਫੁਟੇਜ ਨੂੰ ਸੋਧਣਾ ਅਤੇ ਵਧਾਉਣਾ।

ਇਹ ਨੋਟ ਕਰਨਾ ਮਹੱਤਵਪੂਰਨ ਹੈ, ਹਾਲਾਂਕਿ, ਕਿ ਵਰਤਮਾਨ ਵਿੱਚ ਓਪਨ-ਸੋਰਸ ਕੀਤੇ ਮਾਡਲ ਅਜੇ ਵੀ ਇਹਨਾਂ ਉੱਨਤ ਕਾਰਜਾਂ ਨੂੰ ਕਰਨ ਲਈ ਪੂਰੀ ਤਰ੍ਹਾਂ ਲੈਸ ਨਹੀਂ ਹਨ। ਸ਼ੁਰੂਆਤੀ ਰੀਲੀਜ਼ ਕੋਰ ਵੀਡੀਓ ਜਨਰੇਸ਼ਨ ਸਮਰੱਥਾਵਾਂ ‘ਤੇ ਕੇਂਦ੍ਰਤ ਕਰਦੀ ਹੈ, ਟੈਕਸਟ ਪ੍ਰੋਂਪਟ (ਚੀਨੀ ਅਤੇ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ) ਅਤੇ ਚਿੱਤਰ ਇਨਪੁਟ ਦੋਵਾਂ ਨੂੰ ਸਵੀਕਾਰ ਕਰਦੀ ਹੈ।

ਆਰਕੀਟੈਕਚਰਲ ਇਨੋਵੇਸ਼ਨਜ਼: ਸੀਮਾਵਾਂ ਨੂੰ ਅੱਗੇ ਵਧਾਉਣਾ

I2VGen-XL ਮਾਡਲ ਇੱਕ ਡਿਫਿਊਜ਼ਨ ਟ੍ਰਾਂਸਫਾਰਮਰ ਆਰਕੀਟੈਕਚਰ ‘ਤੇ ਬਣਾਏ ਗਏ ਹਨ, ਜੋ ਕਿ ਜਨਰੇਟਿਵ AI ਲਈ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਫਰੇਮਵਰਕ ਹੈ। ਹਾਲਾਂਕਿ, ਅਲੀਬਾਬਾ ਦੀ ਟੀਮ ਨੇ ਇਸ ਬੇਸ ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ ਕਈ ਮੁੱਖ ਨਵੀਨਤਾਵਾਂ ਪੇਸ਼ ਕੀਤੀਆਂ ਹਨ, ਇਸਦੇ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਕੁਸ਼ਲਤਾ ਨੂੰ ਵਧਾਉਂਦੇ ਹੋਏ। ਇਹਨਾਂ ਤਰੱਕੀਆਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

  • ਨਾਵਲ ਵੇਰੀਏਸ਼ਨਲ ਆਟੋਏਨਕੋਡਰ (VAEs): VAEs ਡੇਟਾ ਨੂੰ ਏਨਕੋਡ ਅਤੇ ਡੀਕੋਡ ਕਰਨ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਭੂਮਿਕਾ ਨਿਭਾਉਂਦੇ ਹਨ, ਅਤੇ ਅਲੀਬਾਬਾ ਨੇ ਖਾਸ ਤੌਰ ‘ਤੇ ਵੀਡੀਓ ਜਨਰੇਸ਼ਨ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਨਵੇਂ VAEs ਵਿਕਸਤ ਕੀਤੇ ਹਨ।
  • ਅਨੁਕੂਲਿਤ ਸਿਖਲਾਈ ਰਣਨੀਤੀਆਂ: ਟੀਮ ਨੇ ਮਾਡਲਾਂ ਦੀ ਸਿੱਖਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਅਤੇ ਸਮੁੱਚੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਸ਼ੁੱਧ ਸਿਖਲਾਈ ਰਣਨੀਤੀਆਂ ਲਾਗੂ ਕੀਤੀਆਂ ਹਨ।
  • I2VGen-XL-VAE: ਇੱਕ ਗਰਾਊਂਡਬ੍ਰੇਕਿੰਗ 3D ਕਾਰਨ VAE ਆਰਕੀਟੈਕਚਰ।

I2VGen-XL-VAE ਖਾਸ ਤੌਰ ‘ਤੇ ਧਿਆਨ ਦੇਣ ਯੋਗ ਹੈ। ਇਹ ਸਪੇਟੀਓਟੈਂਪੋਰਲ ਕੰਪਰੈਸ਼ਨ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਕਰਦਾ ਹੈ, ਉੱਚ ਵਫ਼ਾਦਾਰੀ ਨੂੰ ਬਣਾਈ ਰੱਖਦੇ ਹੋਏ ਮੈਮੋਰੀ ਦੀ ਵਰਤੋਂ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ। ਇਹ ਨਵੀਨਤਾਕਾਰੀ ਆਟੋਏਨਕੋਡਰ ਮਹੱਤਵਪੂਰਨ ਅਸਥਾਈ ਜਾਣਕਾਰੀ ਨੂੰ ਗੁਆਏ ਬਿਨਾਂ ਅਸੀਮਤ-ਲੰਬਾਈ ਵਾਲੇ 1080p ਰੈਜ਼ੋਲਿਊਸ਼ਨ ਵੀਡੀਓਜ਼ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਸਮਰੱਥਾ ਇਕਸਾਰ ਅਤੇ ਤਾਲਮੇਲ ਵਾਲੇ ਵੀਡੀਓ ਕ੍ਰਮ ਤਿਆਰ ਕਰਨ ਲਈ ਜ਼ਰੂਰੀ ਹੈ।

ਬੈਂਚਮਾਰਕਿੰਗ ਪ੍ਰਦਰਸ਼ਨ: ਮੁਕਾਬਲੇ ਨੂੰ ਪਛਾੜਨਾ

ਅਲੀਬਾਬਾ ਨੇ ਮੌਜੂਦਾ ਅਤਿ-ਆਧੁਨਿਕ ਹੱਲਾਂ ਦੇ ਵਿਰੁੱਧ ਉਹਨਾਂ ਦੀ ਤੁਲਨਾ ਕਰਦੇ ਹੋਏ, I2VGen-XL ਮਾਡਲਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਅੰਦਰੂਨੀ ਜਾਂਚ ਕੀਤੀ ਹੈ। ਨਤੀਜੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹਨ, I2VGen-XL ਮਾਡਲਾਂ ਦੇ ਨਾਲ ਕਈ ਮੁੱਖ ਖੇਤਰਾਂ ਵਿੱਚ OpenAI ਦੇ Sora AI ਮਾਡਲ ਨੂੰ ਪਛਾੜਨ ਦੀ ਰਿਪੋਰਟ ਹੈ:

  • ਇਕਸਾਰਤਾ: ਤਿਆਰ ਕੀਤੇ ਵੀਡੀਓ ਦੌਰਾਨ ਤਾਲਮੇਲ ਅਤੇ ਸਥਿਰਤਾ ਬਣਾਈ ਰੱਖਣਾ।
  • ਸੀਨ ਜਨਰੇਸ਼ਨ ਗੁਣਵੱਤਾ: ਦ੍ਰਿਸ਼ਟੀਗਤ ਤੌਰ ‘ਤੇ ਆਕਰਸ਼ਕ ਅਤੇ ਯਥਾਰਥਵਾਦੀ ਦ੍ਰਿਸ਼ ਪੈਦਾ ਕਰਨਾ।
  • ਸਿੰਗਲ ਆਬਜੈਕਟ ਸ਼ੁੱਧਤਾ: ਵੀਡੀਓ ਦੇ ਅੰਦਰ ਵਿਅਕਤੀਗਤ ਵਸਤੂਆਂ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਪੇਸ਼ ਕਰਨਾ।
  • ਸਥਾਨਿਕ ਸਥਿਤੀ: ਵਸਤੂਆਂ ਵਿਚਕਾਰ ਸਹੀ ਸਥਾਨਿਕ ਸਬੰਧਾਂ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣਾ।

ਇਹ ਬੈਂਚਮਾਰਕ AI ਵੀਡੀਓ ਜਨਰੇਸ਼ਨ ਦੇ ਖੇਤਰ ਨੂੰ ਅੱਗੇ ਵਧਾਉਣ ਵਿੱਚ ਅਲੀਬਾਬਾ ਦੁਆਰਾ ਕੀਤੀ ਗਈ ਮਹੱਤਵਪੂਰਨ ਤਰੱਕੀ ਨੂੰ ਉਜਾਗਰ ਕਰਦੇ ਹਨ।

ਲਾਇਸੈਂਸਿੰਗ ਅਤੇ ਵਰਤੋਂ: ਖੁੱਲੇਪਣ ਅਤੇ ਜ਼ਿੰਮੇਵਾਰੀ ਨੂੰ ਸੰਤੁਲਿਤ ਕਰਨਾ

I2VGen-XL ਮਾਡਲ Apache 2.0 ਲਾਇਸੈਂਸ ਦੇ ਅਧੀਨ ਜਾਰੀ ਕੀਤੇ ਗਏ ਹਨ, ਇੱਕ ਅਨੁਮਤੀ ਵਾਲਾ ਓਪਨ-ਸੋਰਸ ਲਾਇਸੈਂਸ ਜੋ ਵਿਆਪਕ ਗੋਦ ਲੈਣ ਅਤੇ ਸਹਿਯੋਗ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਦਾ ਹੈ। ਇਹ ਲਾਇਸੈਂਸ ਅਕਾਦਮਿਕ ਅਤੇ ਖੋਜ ਉਦੇਸ਼ਾਂ ਲਈ ਅਪ੍ਰਬੰਧਿਤ ਵਰਤੋਂ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, AI ਭਾਈਚਾਰੇ ਦੇ ਅੰਦਰ ਨਵੀਨਤਾ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਦਾ ਹੈ।

ਹਾਲਾਂਕਿ, ਵਪਾਰਕ ਵਰਤੋਂ ਕੁਝ ਪਾਬੰਦੀਆਂ ਦੇ ਅਧੀਨ ਹੈ। ਇਹ ਉਹਨਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ ਜੋ ਇਹਨਾਂ ਮਾਡਲਾਂ ਨੂੰ ਵਪਾਰਕ ਉਦੇਸ਼ਾਂ ਲਈ ਵਰਤਣ ਦਾ ਇਰਾਦਾ ਰੱਖਦੇ ਹਨ, ਲਾਇਸੈਂਸ ਸਮਝੌਤੇ ਵਿੱਚ ਦਰਸਾਏ ਗਏ ਖਾਸ ਨਿਯਮਾਂ ਅਤੇ ਸ਼ਰਤਾਂ ਦੀ ਧਿਆਨ ਨਾਲ ਸਮੀਖਿਆ ਕਰਨ ਲਈ। ਇਹ ਪਹੁੰਚ ਓਪਨ-ਸੋਰਸ AI ਲਈ ਇੱਕ ਜ਼ਿੰਮੇਵਾਰ ਪਹੁੰਚ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ, ਸੰਭਾਵੀ ਨੈਤਿਕ ਅਤੇ ਸਮਾਜਿਕ ਪ੍ਰਭਾਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀ ਲੋੜ ਦੇ ਨਾਲ ਖੁੱਲ੍ਹੀ ਪਹੁੰਚ ਦੇ ਲਾਭਾਂ ਨੂੰ ਸੰਤੁਲਿਤ ਕਰਦੀ ਹੈ।

ਤਕਨੀਕੀ ਪਹਿਲੂਆਂ ਵਿੱਚ ਡੂੰਘਾਈ ਨਾਲ ਖੋਜ ਕਰਨਾ

I2VGen-XL ਮਾਡਲ ਆਪਣੀਆਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਵੀਡੀਓ ਜਨਰੇਸ਼ਨ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਤਕਨੀਕਾਂ ਦੇ ਇੱਕ ਵਧੀਆ ਸੁਮੇਲ ਦਾ ਲਾਭ ਉਠਾਉਂਦੇ ਹਨ। ਆਓ ਇਹਨਾਂ ਵਿੱਚੋਂ ਕੁਝ ਤਕਨੀਕੀ ਪਹਿਲੂਆਂ ਦੀ ਵਧੇਰੇ ਵਿਸਥਾਰ ਵਿੱਚ ਪੜਚੋਲ ਕਰੀਏ:

ਡਿਫਿਊਜ਼ਨ ਮਾਡਲ: I2VGen-XL ਦੇ ਕੇਂਦਰ ਵਿੱਚ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲਾਂ ਦੀ ਧਾਰਨਾ ਹੈ। ਇਹ ਮਾਡਲ ਡੇਟਾ (ਜਿਵੇਂ ਕਿ ਇੱਕ ਚਿੱਤਰ ਜਾਂ ਵੀਡੀਓ) ਵਿੱਚ ਹੌਲੀ-ਹੌਲੀ ਸ਼ੋਰ ਜੋੜ ਕੇ ਕੰਮ ਕਰਦੇ ਹਨ ਜਦੋਂ ਤੱਕ ਇਹ ਸ਼ੁੱਧ ਬੇਤਰਤੀਬ ਸ਼ੋਰ ਨਹੀਂ ਬਣ ਜਾਂਦਾ। ਫਿਰ, ਉਹ ਇਸ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਉਲਟਾਉਣਾ ਸਿੱਖਦੇ ਹਨ, ਸ਼ੋਰ ਤੋਂ ਸ਼ੁਰੂ ਕਰਕੇ ਅਤੇ ਹੌਲੀ-ਹੌਲੀ ਇਸਨੂੰ ਹਟਾ ਕੇ ਨਵਾਂ ਡੇਟਾ ਤਿਆਰ ਕਰਦੇ ਹਨ। ਇਹ ਦੁਹਰਾਓ ਵਾਲੀ ਸ਼ੁੱਧਤਾ ਪ੍ਰਕਿਰਿਆ ਮਾਡਲਾਂ ਨੂੰ ਬਹੁਤ ਹੀ ਯਥਾਰਥਵਾਦੀ ਅਤੇ ਵਿਸਤ੍ਰਿਤ ਆਉਟਪੁੱਟ ਬਣਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ।

ਟ੍ਰਾਂਸਫਾਰਮਰ ਆਰਕੀਟੈਕਚਰ: ਆਰਕੀਟੈਕਚਰ ਦਾ “ਟ੍ਰਾਂਸਫਾਰਮਰ” ਭਾਗ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਡਿਜ਼ਾਈਨ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਜੋ ਕ੍ਰਮਵਾਰ ਡੇਟਾ ਦੀ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਉੱਤਮ ਹੈ। ਟ੍ਰਾਂਸਫਾਰਮਰ ਲੰਬੀ-ਸੀਮਾ ਨਿਰਭਰਤਾਵਾਂ ਨੂੰ ਹਾਸਲ ਕਰਨ ਵਿੱਚ ਖਾਸ ਤੌਰ ‘ਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੁੰਦੇ ਹਨ, ਜੋ ਕਿ ਤਾਲਮੇਲ ਵਾਲੇ ਵੀਡੀਓ ਕ੍ਰਮ ਤਿਆਰ ਕਰਨ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ ਜਿੱਥੇ ਇੱਕ ਫਰੇਮ ਵਿੱਚ ਘਟਨਾਵਾਂ ਕਈ ਫਰੇਮਾਂ ਬਾਅਦ ਦੀਆਂ ਘਟਨਾਵਾਂ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰ ਸਕਦੀਆਂ ਹਨ।

ਵੇਰੀਏਸ਼ਨਲ ਆਟੋਏਨਕੋਡਰ (VAEs): VAEs ਇੱਕ ਕਿਸਮ ਦਾ ਜਨਰੇਟਿਵ ਮਾਡਲ ਹੈ ਜੋ ਇਨਪੁਟ ਡੇਟਾ ਦੀ ਇੱਕ ਸੰਕੁਚਿਤ, ਲੇਟੈਂਟ ਪ੍ਰਤੀਨਿਧਤਾ ਸਿੱਖਦਾ ਹੈ। ਵੀਡੀਓ ਜਨਰੇਸ਼ਨ ਦੇ ਸੰਦਰਭ ਵਿੱਚ, VAEs ਵੀਡੀਓ ਨੂੰ ਘੱਟ-ਅਯਾਮੀ ਸਪੇਸ ਵਿੱਚ ਏਨਕੋਡ ਕਰਕੇ ਪ੍ਰਕਿਰਿਆ ਦੀ ਗਣਨਾਤਮਕ ਜਟਿਲਤਾ ਨੂੰ ਘਟਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ। ਅਲੀਬਾਬਾ ਦਾ ਨਵੀਨਤਾਕਾਰੀ I2VGen-XL-VAE ਇਸ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਹੋਰ ਵਧਾਉਂਦਾ ਹੈ, ਸਪੇਟੀਓਟੈਂਪੋਰਲ ਕੰਪਰੈਸ਼ਨ ਅਤੇ ਮੈਮੋਰੀ ਕੁਸ਼ਲਤਾ ਵਿੱਚ ਸੁਧਾਰ ਕਰਦਾ ਹੈ।

3D ਕਾਰਨ VAE: I2VGen-XL-VAE ਦਾ “3D ਕਾਰਨ” ਪਹਿਲੂ ਵੀਡੀਓ ਡੇਟਾ ਦੇ ਤਿੰਨ ਮਾਪਾਂ (ਚੌੜਾਈ, ਉਚਾਈ, ਅਤੇ ਸਮਾਂ) ਨੂੰ ਸੰਭਾਲਣ ਦੀ ਯੋਗਤਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਇਸ ਤਰੀਕੇ ਨਾਲ ਜੋ ਫਰੇਮਾਂ ਵਿਚਕਾਰ ਕਾਰਨ ਸਬੰਧਾਂ ਦਾ ਸਨਮਾਨ ਕਰਦਾ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਮਾਡਲ ਸਮਝਦਾ ਹੈ ਕਿ ਪਿਛਲੀਆਂ ਫਰੇਮਾਂ ਭਵਿੱਖ ਦੀਆਂ ਫਰੇਮਾਂ ਨੂੰ ਪ੍ਰਭਾਵਤ ਕਰਦੀਆਂ ਹਨ, ਪਰ ਦੂਜੇ ਤਰੀਕੇ ਨਾਲ ਨਹੀਂ। ਇਹ ਕਾਰਨ ਸਮਝ ਅਸਥਾਈ ਤੌਰ ‘ਤੇ ਇਕਸਾਰ ਅਤੇ ਗੈਰ-ਯਥਾਰਥਵਾਦੀ ਕਲਾਤਮਕ ਚੀਜ਼ਾਂ ਤੋਂ ਬਚਣ ਵਾਲੇ ਵੀਡੀਓ ਤਿਆਰ ਕਰਨ ਲਈ ਜ਼ਰੂਰੀ ਹੈ।

ਸਿਖਲਾਈ ਰਣਨੀਤੀਆਂ: ਕਿਸੇ ਵੀ AI ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਉਸ ਡੇਟਾ ਦੀ ਗੁਣਵੱਤਾ ਅਤੇ ਮਾਤਰਾ ‘ਤੇ ਬਹੁਤ ਜ਼ਿਆਦਾ ਨਿਰਭਰ ਕਰਦੀ ਹੈ ਜਿਸ ‘ਤੇ ਇਸਨੂੰ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਨਾਲ ਹੀ ਵਰਤੀਆਂ ਜਾਂਦੀਆਂ ਖਾਸ ਸਿਖਲਾਈ ਰਣਨੀਤੀਆਂ। ਅਲੀਬਾਬਾ ਨੇ I2VGen-XL ਲਈ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਯਤਨ ਕੀਤੇ ਹਨ, ਵੱਡੇ ਡੇਟਾਸੈਟਾਂ ਅਤੇ ਸ਼ੁੱਧ ਤਕਨੀਕਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਮਾਡਲਾਂ ਦੀਆਂ ਸਿੱਖਣ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਵਧਾਉਣ ਲਈ।

ਓਪਨ ਸੋਰਸ ਦੀ ਮਹੱਤਤਾ

ਅਲੀਬਾਬਾ ਦਾ I2VGen-XL ਨੂੰ ਓਪਨ-ਸੋਰਸ ਸੌਫਟਵੇਅਰ ਵਜੋਂ ਜਾਰੀ ਕਰਨ ਦਾ ਫੈਸਲਾ AI ਭਾਈਚਾਰੇ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਯੋਗਦਾਨ ਹੈ। ਓਪਨ-ਸੋਰਸ ਮਾਡਲ ਕਈ ਫਾਇਦੇ ਪੇਸ਼ ਕਰਦੇ ਹਨ:

  • ਸਹਿਯੋਗ: ਓਪਨ ਐਕਸੈਸ ਦੁਨੀਆ ਭਰ ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਅਤੇ ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਸਹਿਯੋਗ ਕਰਨ, ਵਿਚਾਰ ਸਾਂਝੇ ਕਰਨ ਅਤੇ ਇੱਕ ਦੂਜੇ ਦੇ ਕੰਮ ‘ਤੇ ਨਿਰਮਾਣ ਕਰਨ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕਰਦਾ ਹੈ। ਇਹ ਨਵੀਨਤਾ ਦੀ ਗਤੀ ਨੂੰ ਤੇਜ਼ ਕਰਦਾ ਹੈ ਅਤੇ ਖੇਤਰ ਵਿੱਚ ਤੇਜ਼ੀ ਨਾਲ ਤਰੱਕੀ ਵੱਲ ਲੈ ਜਾਂਦਾ ਹੈ।
  • ਪਾਰਦਰਸ਼ਤਾ: ਓਪਨ-ਸੋਰਸ ਮਾਡਲ ਵਧੇਰੇ ਪਾਰਦਰਸ਼ਤਾ ਅਤੇ ਜਾਂਚ ਦੀ ਆਗਿਆ ਦਿੰਦੇ ਹਨ। ਖੋਜਕਰਤਾ ਕੋਡ ਦੀ ਜਾਂਚ ਕਰ ਸਕਦੇ ਹਨ, ਸਮਝ ਸਕਦੇ ਹਨ ਕਿ ਮਾਡਲ ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ, ਅਤੇ ਸੰਭਾਵੀ ਪੱਖਪਾਤ ਜਾਂ ਸੀਮਾਵਾਂ ਦੀ ਪਛਾਣ ਕਰ ਸਕਦੇ ਹਨ। ਇਹ ਵਿਸ਼ਵਾਸ ਅਤੇ ਜਵਾਬਦੇਹੀ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਦਾ ਹੈ।
  • ਪਹੁੰਚਯੋਗਤਾ: ਓਪਨ-ਸੋਰਸ ਮਾਡਲ ਅਤਿ-ਆਧੁਨਿਕ AI ਤਕਨਾਲੋਜੀ ਤੱਕ ਪਹੁੰਚ ਦਾ ਲੋਕਤੰਤਰੀਕਰਨ ਕਰਦੇ ਹਨ। ਛੋਟੇ ਖੋਜ ਸਮੂਹ, ਵਿਅਕਤੀਗਤ ਡਿਵੈਲਪਰ, ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਸ਼ੌਕੀਨ ਵੀ ਇਹਨਾਂ ਮਾਡਲਾਂ ਨਾਲ ਪ੍ਰਯੋਗ ਕਰ ਸਕਦੇ ਹਨ ਅਤੇ ਉਹਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹਨ, ਇੱਕ ਵਧੇਰੇ ਸੰਮਲਿਤ AI ਈਕੋਸਿਸਟਮ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਦੇ ਹਨ।
  • ਨਵੀਨਤਾ: ਓਪਨ-ਸੋਰਸ ਮਾਡਲ ਅਕਸਰ ਅਗਲੇਰੀ ਨਵੀਨਤਾ ਲਈ ਇੱਕ ਬੁਨਿਆਦ ਵਜੋਂ ਕੰਮ ਕਰਦੇ ਹਨ। ਡਿਵੈਲਪਰ ਖਾਸ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਮਾਡਲਾਂ ਨੂੰ ਅਨੁਕੂਲਿਤ ਅਤੇ ਸੋਧ ਸਕਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਨਵੇਂ ਟੂਲ ਅਤੇ ਤਕਨੀਕਾਂ ਦੀ ਸਿਰਜਣਾ ਹੁੰਦੀ ਹੈ।

ਓਪਨ ਸੋਰਸ ਨੂੰ ਅਪਣਾ ਕੇ, ਅਲੀਬਾਬਾ ਨਾ ਸਿਰਫ਼ AI ਵੀਡੀਓ ਜਨਰੇਸ਼ਨ ਦੀ ਤਰੱਕੀ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾ ਰਿਹਾ ਹੈ, ਸਗੋਂ ਇੱਕ ਵਧੇਰੇ ਸਹਿਯੋਗੀ ਅਤੇ ਸੰਮਲਿਤ AI ਲੈਂਡਸਕੇਪ ਨੂੰ ਵੀ ਉਤਸ਼ਾਹਿਤ ਕਰ ਰਿਹਾ ਹੈ। ਇਸ ਪਹੁੰਚ ਦਾ AI ਤਕਨਾਲੋਜੀ ਦੇ ਭਵਿੱਖ ਦੇ ਵਿਕਾਸ ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਪ੍ਰਭਾਵ ਪੈਣ ਦੀ ਸੰਭਾਵਨਾ ਹੈ। ਇਹਨਾਂ ਮਾਡਲਾਂ ਦੀ ਓਪਨ-ਸੋਰਸ ਪ੍ਰਕਿਰਤੀ ਉਪਭੋਗਤਾਵਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਨੂੰ AI-ਸੰਚਾਲਿਤ ਵੀਡੀਓ ਸਮੱਗਰੀ ਨਿਰਮਾਣ ਦੇ ਤੇਜ਼ੀ ਨਾਲ ਵਿਕਾਸਸ਼ੀਲ ਖੇਤਰ ਵਿੱਚ ਬਣਾਉਣ, ਨਵੀਨਤਾ ਲਿਆਉਣ ਅਤੇ ਯੋਗਦਾਨ ਪਾਉਣ ਲਈ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰੇਗੀ।