AI ਚਿੱਤਰ ਜਨਰੇਸ਼ਨ: ਕਿਹੜਾ ਮਾਡਲ ਰਾਜ ਕਰਦਾ ਹੈ?

AI-ਸੰਚਾਲਿਤ ਚਿੱਤਰ ਬਣਾਉਣ ਦੇ ਖੇਤਰ ਵਿੱਚ ਬਹੁਤ ਸਾਰੀਆਂ ਕੰਪਨੀਆਂ ਅਤੇ ਸੰਸਥਾਵਾਂ ਸਰਵਉੱਚਤਾ ਲਈ ਮੁਕਾਬਲਾ ਕਰ ਰਹੀਆਂ ਹਨ। ਹਰ ਇੱਕ ਡਿਵੈਲਪਰ ਆਪਣੇ ਵਿਲੱਖਣ AI ਮਾਡਲ ਦੀਆਂ ਅਸਧਾਰਨ ਸਮਰੱਥਾਵਾਂ ਦਾ ਮਾਣ ਨਾਲ ਪ੍ਰਚਾਰ ਕਰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਇੱਕ ਗੁੰਝਲਦਾਰ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਪੈਦਾ ਹੁੰਦਾ ਹੈ ਜਿੱਥੇ ਸੱਚੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਨਿਰਣਾ ਕਰਨਾ ਇੱਕ ਚੁਣੌਤੀ ਬਣ ਜਾਂਦਾ ਹੈ। GenAI Image Showdown ਵਿੱਚ ਦਾਖਲ ਹੋਵੋ, ਇਹ ਇੱਕ ਸਾਵਧਾਨੀ ਨਾਲ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਪਲੇਟਫਾਰਮ ਹੈ ਜੋ ਹਾਈਪ ਦੇ ਵਿਚਕਾਰ ਸਪੱਸ਼ਟਤਾ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਹ ਵੈੱਬਸਾਈਟ ਵੱਖ-ਵੱਖ ਚਿੱਤਰ ਬਣਾਉਣ ਵਾਲੇ AIs ਦੀ ਇੱਕੋ ਜਿਹੇ ਪ੍ਰੋਂਪਟ ਦਾ ਜਵਾਬ ਦਿੰਦੇ ਹੋਏ ਇੱਕ-ਨਾਲ-ਇੱਕ ਤੁਲਨਾ ਪੇਸ਼ ਕਰਦੀ ਹੈ। ਇਹ ਹਰੇਕ AI ਦੀਆਂ ਹਦਾਇਤਾਂ ਨੂੰ ਮਜਬੂਤ ਚਿੱਤਰਾਂ ਵਿੱਚ ਵਫ਼ਾਦਾਰੀ ਨਾਲ ਅਨੁਵਾਦ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਦਾ ਤੁਰੰਤ, ਵਿਜ਼ੂਅਲ ਮੁਲਾਂਕਣ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।

ਪ੍ਰੂਸ਼ੀਅਨ ਸਿਪਾਹੀ ਅਤੇ ਧਾਤ ਦੇ ਰਿੰਗ: ਸ਼ਾਬਦਿਕ ਵਿਆਖਿਆ ਦੀ ਇੱਕ ਪ੍ਰੀਖਿਆ

ਪਲੇਟਫਾਰਮ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਨੂੰ ਦਰਸਾਉਣ ਲਈ, ਪ੍ਰੋਂਪਟ ‘ਤੇ ਵਿਚਾਰ ਕਰੋ: "ਦੋ ਪ੍ਰੂਸ਼ੀਅਨ ਸਿਪਾਹੀ ਸਪਾਈਕ ਵਾਲੇ ਹੈਲਮੇਟ ਪਹਿਨੇ ਹੋਏ ਇੱਕ ਦੂਜੇ ਦਾ ਸਾਹਮਣਾ ਕਰ ਰਹੇ ਹਨ ਅਤੇ ਇੱਕ ਦੂਜੇ ਦੇ ਹੈਲਮੇਟ ਸਪਾਈਕਾਂ ‘ਤੇ ਧਾਤ ਦੇ ਰਿੰਗ ਸੁੱਟਣ ਦੀ ਖੇਡ ਖੇਡ ਰਹੇ ਹਨ।" ਇਹ ਅਜੀਬੋ-ਗਰੀਬ ਦ੍ਰਿਸ਼ ਛੇ ਪ੍ਰਮੁੱਖ ਚਿੱਤਰ ਬਣਾਉਣ ਵਾਲੇ AIs ਲਈ ਇੱਕ ਲਿਟਮਸ ਟੈਸਟ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ:

  • ਬਲੈਕ ਫੋਰੈਸਟ ਲੈਬਜ਼ ਦਾ FLUX.1 [dev]
  • ਗੂਗਲ ਦਾ Gemini 2.0 Flash
  • ਟੈਨਸੈਂਟ ਦਾ Hunyuan Image 2.0
  • ਗੂਗਲ ਦਾ Imagen 3 ਅਤੇ Imagen 4 (ਮਾਮੂਲੀ ਪ੍ਰਦਰਸ਼ਨ ਅੰਤਰਾਂ ਕਾਰਨ ਸਮੂਹ ਕੀਤਾ ਗਿਆ)
  • Midjourney ਦਾ Midjourney V7
  • OpenAI ਦਾ 4o Image Generation

ਨਤੀਜੇ ਸਾਹਮਣੇ ਆਉਣ ਵਾਲੇ ਸਨ। ਛੇ AIs ਵਿੱਚੋਂ ਸਿਰਫ਼ ਤਿੰਨ - FLUX.1 [dev], Imagen 3 ਅਤੇ Imagen 4, ਅਤੇ 4o Image Generation - ਸਫਲਤਾਪੂਰਵਕ ਅਜਿਹੀਆਂ ਤਸਵੀਰਾਂ ਤਿਆਰ ਕੀਤੀਆਂ ਜੋ ਪ੍ਰੋਂਪਟ ਦੇ ਖਾਸ ਵੇਰਵਿਆਂ ਦੀ ਪਾਲਣਾ ਕਰਦੀਆਂ ਸਨ। ਦੂਜਿਆਂ ਨੇ, ਸ਼ਾਇਦ ਦ੍ਰਿਸ਼ਟੀਗਤ ਤੌਰ ‘ਤੇ ਦਿਲਚਸਪ ਤਸਵੀਰਾਂ ਤਿਆਰ ਕਰਦੇ ਹੋਏ, ਬੇਨਤੀ ਦੇ ਤੱਤ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਹਾਸਲ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਰਹੇ। ਇਹ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਅੰਤਰ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ: ਕੱਚੀ ਚਿੱਤਰ ਗੁਣਵੱਤਾ ਇੱਕ ਸਫਲ ਚਿੱਤਰ ਬਣਾਉਣ ਵਾਲੇ AI ਦਾ ਇੱਕੋ ਇੱਕ ਨਿਰਣਾਇਕ ਨਹੀਂ ਹੈ; ਗੁੰਝਲਦਾਰ ਹਦਾਇਤਾਂ ਦੀ ਸਹੀ ਵਿਆਖਿਆ ਅਤੇ ਲਾਗੂ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਬਰਾਬਰ ਮਹੱਤਵਪੂਰਨ ਹੈ।

ਸਟਾਰੀ ਸ਼ੇਪਸ: ਜਿਓਮੈਟ੍ਰਿਕ ਸ਼ੁੱਧਤਾ ਦਾ ਮੁਲਾਂਕਣ

ਪ੍ਰਯੋਗ ਨੂੰ ਗੁੰਝਲਦਾਰ ਦ੍ਰਿਸ਼ਾਂ ਤੋਂ ਪਰੇ ਵਧਾ ਕੇ ਸਧਾਰਨ, ਵਧੇਰੇ ਜਿਓਮੈਟ੍ਰਿਕ ਤੌਰ ‘ਤੇ ਕੇਂਦਰਿਤ ਪ੍ਰੋਂਪਟਸ ਨੂੰ ਸ਼ਾਮਲ ਕੀਤਾ ਗਿਆ। ਅਜਿਹਾ ਹੀ ਇੱਕ ਪ੍ਰੋਂਪਟ ਸੀ: "ਨੌਂ ਪੁਆਇੰਟਾਂ ਵਾਲੇ ਇੱਕ ਤਾਰੇ ਦਾ ਡਿਜੀਟਲ ਚਿੱਤਰ।” ਇਹ ਮਾਮੂਲੀ ਕੰਮ ਕੁਝ AIs ਲਈ ਹੈਰਾਨੀਜਨਕ ਤੌਰ ‘ਤੇ ਚੁਣੌਤੀਪੂਰਨ ਸਾਬਤ ਹੋਇਆ। ਸਿਰਫ਼ FLUX.1 [dev], Midjourney V7, ਅਤੇ 4o Image Generation ਹੀ ਸਫਲਤਾਪੂਰਵਕ ਅਜਿਹੀਆਂ ਤਸਵੀਰਾਂ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਕਾਮਯਾਬ ਰਹੇ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਨੌਂ-ਨੁਕਾਤੀ ਤਾਰੇ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਦਰਸਾਇਆ ਗਿਆ ਸੀ। ਅਸਫਲਤਾਵਾਂ AI ਦੁਆਰਾ ਖਾਸ ਜਿਓਮੈਟ੍ਰਿਕ ਜ਼ਰੂਰਤਾਂ ਨਾਲ ਨਜਿੱਠਣ ਵੇਲੇ ਆਉਣ ਵਾਲੀ ਮੁਸ਼ਕਲ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦੀਆਂ ਹਨ, ਭਾਵੇਂ ਕਿ ਸਧਾਰਨ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਵੀ। ਕੁਝ ਅਜਿਹਾ ਤਿਆਰ ਕਰਨਾ ਆਸਾਨ ਹੈ ਜੋ ਇੱਕ ਤਾਰੇ ਵਰਗਾ ਦਿਖਾਈ ਦਿੰਦਾ ਹੈ, ਪਰ ਇੱਕ ਅਜਿਹਾ ਤਾਰਾ ਪੈਦਾ ਕਰਨਾ ਬਹੁਤ ਮੁਸ਼ਕਲ ਹੈ ਜੋ ਨੌਂ ਪੁਆਇੰਟ ਹੋਣ ਦੇ ਖਾਸ ਗੁਣ ਦੀ ਪਾਲਣਾ ਕਰਦਾ ਹੈ। ਇਹ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਸਹੀ ਤਕਨੀਕੀ ਜਾਂ ਵਿਗਿਆਨਕ ਚਿੱਤਰਾਂ ਨੂੰ ਤਿਆਰ ਕਰਨ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ।

ਰੰਗ ਅਤੇ ਪਾਰਦਰਸ਼ਤਾ ਦੇ ਕਿਊਬ: ਰੈਂਡਰਿੰਗ ਸਮਰੱਥਾ ਵਿੱਚ ਇੱਕ ਡੂੰਘੀ ਡੁਬਕੀ

ਅਗਲੀ ਚੁਣੌਤੀ ਇੱਕ ਬਹੁਤ ਹੀ ਵਿਸਤ੍ਰਿਤ ਪ੍ਰੋਂਪਟ ਦੇ ਰੂਪ ਵਿੱਚ ਆਈ ਜੋ AI ਦੀ ਰੈਂਡਰਿੰਗ ਸਮਰੱਥਾਵਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤੀ ਗਈ ਸੀ: "ਇੱਕ ਰੇ-ਟਰੇਸਡ ਚਿੱਤਰ ਜਿਸ ਵਿੱਚ ਪੰਜ ਰੰਗ ਦੇ ਕਿਊਬ ਹਨ। ਲਾਲ ਕਿਊਬ ਨੂੰ ਨੀਲੇ ਕਿਊਬ ਦੇ ਉੱਪਰ ਰੱਖਿਆ ਗਿਆ ਹੈ। ਨੀਲੇ ਕਿਊਬ ਨੂੰ ਹਰੇ ਕਿਊਬ ਦੇ ਉੱਪਰ ਰੱਖਿਆ ਗਿਆ ਹੈ। ਹਰੇ ਕਿਊਬ ਨੂੰ ਜਾਮਨੀ ਕਿਊਬ ਦੇ ਉੱਪਰ ਰੱਖਿਆ ਗਿਆ ਹੈ। ਜਾਮਨੀ ਕਿਊਬ ਨੂੰ ਪੀਲੇ ਕਿਊਬ ਦੇ ਉੱਪਰ ਰੱਖਿਆ ਗਿਆ ਹੈ। ਭਾਵ, ਉੱਪਰ ਤੋਂ ਹੇਠਾਂ ਤੱਕ, ਕ੍ਰਮ ਲਾਲ, ਨੀਲਾ, ਹਰਾ, ਜਾਮਨੀ, ਪੀਲਾ ਹੈ। ਕਿਊਬ ਅੰਸ਼ਕ ਤੌਰ ‘ਤੇ ਪਾਰਦਰਸ਼ੀ ਹਨ ਅਤੇ ਸ਼ੀਸ਼ੇ ਦੇ ਬਣੇ ਹੋਏ ਹਨ।”

ਇਸ ਪ੍ਰੋਂਪਟ ਨੇ ਨਾ ਸਿਰਫ ਸਹੀ ਰੰਗ ਪ੍ਰਤੀਨਿਧਤਾ ਅਤੇ ਸਟੈਕਿੰਗ ਕ੍ਰਮ ਦੀ ਮੰਗ ਕੀਤੀ, ਬਲਕਿ ਰੇ ਟਰੇਸਿੰਗ ਦੀ ਇੱਕ ਸੂਖਮ ਸਮਝ ਅਤੇ ਪਾਰਦਰਸ਼ੀ ਸ਼ੀਸ਼ੇ ਦੀਆਂ ਵਿਜ਼ੂਅਲ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੀ ਵੀ ਮੰਗ ਕੀਤੀ। ਨਤੀਜੇ ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਸਕਾਰਾਤਮਕ ਸਨ, Midjourney V7 ਨੂੰ ਛੱਡ ਕੇ ਸਾਰੇ AIs ਨੇ ਸਫਲਤਾਪੂਰਵਕ ਅਜਿਹੀਆਂ ਤਸਵੀਰਾਂ ਤਿਆਰ ਕੀਤੀਆਂ ਜੋ ਨਿਰਧਾਰਤ ਮਾਪਦੰਡਾਂ ਨੂੰ ਪੂਰਾ ਕਰਦੀਆਂ ਸਨ। ਇਹ ਅਸਲੀ ਅਤੇ ਦ੍ਰਿਸ਼ਟੀਗਤ ਤੌਰ ‘ਤੇ ਗੁੰਝਲਦਾਰ ਵਸਤੂਆਂ ਨੂੰ ਰੈਂਡਰ ਕਰਨ ਵਿੱਚ AI ਦੀ ਵੱਧ ਰਹੀ ਸੂਝ-ਬੂਝ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਖਾਸ ਕਰਕੇ ਰੌਸ਼ਨੀ ਅਤੇ ਸਮੱਗਰੀ ਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੇ ਪ੍ਰਭਾਵਾਂ ਨੂੰ ਦੁਹਰਾਉਣ ਵਿੱਚ। ਅਜਿਹੇ ਪ੍ਰਭਾਵਾਂ ਨੂੰ ਨਿਯੰਤਰਿਤ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਉਤਪਾਦ ਡਿਜ਼ਾਈਨ, ਆਰਕੀਟੈਕਚਰਲ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ, ਅਤੇ ਹੋਰ ਖੇਤਰਾਂ ਵਿੱਚ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ ਜਿਨ੍ਹਾਂ ਲਈ ਫੋਟੋਰੀਅਲਿਸਟਿਕ ਚਿੱਤਰਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਦੁਬਾਰਾ, ਇਸ ਪ੍ਰੋਂਪਟ ਨੂੰ ਸਫਲਤਾਪੂਰਵਕ ਰੈਂਡਰ ਕਰਨ ਵਿੱਚ Midjourney ਦੀ ਅਸਫਲਤਾ ਸਾਧਨਾਂ ਦੇ ਵਿਚਕਾਰ ਅਸਮਾਨਤਾ ਨੂੰ ਉਜਾਗਰ ਕਰਦੀ ਹੈ, ਕੁਝ ਸਾਧਨ ਕੁਝ ਖਾਸ ਕੰਮਾਂ ਲਈ ਵਧੇਰੇ ਅਨੁਕੂਲ ਹੁੰਦੇ ਹਨ।

ਮੇਜ਼ ਵਿੱਚ ਨੈਵੀਗੇਟ ਕਰਨਾ: ਲਾਜ਼ੀਕਲ ਤਰਕ ਦਾ ਮੁਲਾਂਕਣ

ਲਾਜ਼ੀਕਲ ਤੌਰ ‘ਤੇ ਤਰਕ ਕਰਨ ਦੀ ਸਮਰੱਥਾ AI ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਇੱਕ ਹੋਰ ਮਹੱਤਵਪੂਰਨ ਪਹਿਲੂ ਹੈ। ਇਸ ਸਮਰੱਥਾ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ, AIs ਨੂੰ ਮੇਜ਼ ਵਿੱਚੋਂ ਸਹੀ ਰਸਤਾ ਦਿਖਾਉਂਦੇ ਹੋਏ ਇੱਕ ਮੇਜ਼ ਤਿਆਰ ਕਰਨ ਲਈ ਨਿਰਦੇਸ਼ ਦਿੱਤੇ ਗਏ ਸਨ। ਇਸ ਕੰਮ ਲਈ AI ਨੂੰ ਨਾ ਸਿਰਫ਼ ਇੱਕ ਦ੍ਰਿਸ਼ਟੀਗਤ ਤੌਰ ‘ਤੇ ਪ੍ਰਮਾਣਿਕ ਮੇਜ਼ ਬਣਾਉਣ ਦੀ ਲੋੜ ਸੀ, ਸਗੋਂ ਹੱਲ ਮਾਰਗ ਨੂੰ ਸਮਝਣ ਅਤੇ ਦਰਸਾਉਣ ਦੀ ਵੀ ਲੋੜ ਸੀ। ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ, ਸਿਰਫ਼ 4o Image Generation ਇੱਕ ਸਹੀ ਅਤੇ ਇਕਸਾਰ ਆਉਟਪੁੱਟ ਪੈਦਾ ਕਰਨ ਵਿੱਚ ਸਫ਼ਲ ਹੋਇਆ। ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਕੁਝ AI ਮਾਡਲ ਸਥਾਨਿਕ ਤਰਕ ਦੇ ਰੂਪ ਨੂੰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰ ਰਹੇ ਹਨ, ਇੱਕ ਵਿਜ਼ੂਅਲ ਵਾਤਾਵਰਣ ਦੇ ਅੰਦਰ ਗੁੰਝਲਦਾਰ ਸਬੰਧਾਂ ਨੂੰ ਸਮਝਣ ਅਤੇ ਦਰਸਾਉਣ ਦੇ ਸਮਰੱਥ ਹਨ। ਇਸ ਸਮਰੱਥਾ ਦੀਆਂ ਸੰਭਾਵੀ ਐਪਲੀਕੇਸ਼ਨਾਂ ਬਹੁਤ ਵੱਡੀਆਂ ਹਨ, ਇੰਟਰਐਕਟਿਵ ਨਕਸ਼ੇ ਅਤੇ ਗੇਮਾਂ ਬਣਾਉਣ ਤੋਂ ਲੈ ਕੇ ਗੁੰਝਲਦਾਰ ਪ੍ਰਣਾਲੀਆਂ ਦੇ ਡਿਜ਼ਾਈਨ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰਨ ਤੱਕ।

ਪ੍ਰਾਇਮ ਨੰਬਰ ਪਹੇਲੀ: ਸੰਖਿਆਤਮਕ ਸਮਝ ਦੀਆਂ ਸੀਮਾਵਾਂ ਦਾ ਪਰਦਾਫਾਸ਼

ਜਦੋਂ ਕਿ AI ਨੇ ਕਮਾਲ ਦੀ ਤਰੱਕੀ ਕੀਤੀ ਹੈ, ਇਹ ਆਪਣੀਆਂ ਸੀਮਾਵਾਂ ਤੋਂ ਬਿਨਾਂ ਨਹੀਂ ਹੈ। ਇਹ ਪ੍ਰੋਂਪਟ ਦੁਆਰਾ ਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਪ੍ਰਦਰਸ਼ਿਤ ਕੀਤਾ ਗਿਆ ਸੀ: "ਇੱਕ 20-ਪਾਸਿਆਂ ਵਾਲਾ ਪਾਸਾ 20 ਪ੍ਰਾਇਮ ਨੰਬਰਾਂ ਤੋਂ ਬਣਿਆ ਹੈ, ਜੋ ਕਿ ਸਭ ਤੋਂ ਛੋਟੇ ਪ੍ਰਾਇਮ ਨੰਬਰ ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦਾ ਹੈ।” ਇਸ ਕੰਮ ਲਈ AI ਨੂੰ ਨਾ ਸਿਰਫ਼ ਦ੍ਰਿਸ਼ਟੀਗਤ ਤੌਰ ‘ਤੇ ਸਹੀ
20-ਪਾਸਿਆਂ ਵਾਲਾ ਪਾਸਾ ਤਿਆਰ ਕਰਨ ਦੀ ਲੋੜ ਸੀ, ਸਗੋਂ ਇਸਦੇ ਚਿਹਰਿਆਂ ‘ਤੇ ਪਹਿਲੇ 20 ਪ੍ਰਾਇਮ ਨੰਬਰਾਂ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਪਛਾਣਨ ਅਤੇ ਵਿਵਸਥਿਤ ਕਰਨ ਦੀ ਵੀ ਲੋੜ ਸੀ। ਨਿਰਾਸ਼ਾਜਨਕ ਢੰਗ ਨਾਲ, ਸਾਰੇ ਚਿੱਤਰ ਬਣਾਉਣ ਵਾਲੇ AIs ਇੱਕ ਤਸੱਲੀਬਖਸ਼ ਨਤੀਜਾ ਪੈਦਾ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਰਹੇ। ਇਹ ਅਸਫਲਤਾ ਵਿਜ਼ੂਅਲ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਵਿੱਚ ਸਹੀ ਸੰਖਿਆਤਮਕ ਜਾਣਕਾਰੀ ਨੂੰ ਜੋੜਨ ਵਿੱਚ AI ਨੂੰ ਦਰਪੇਸ਼ ਚੱਲ ਰਹੀਆਂ ਚੁਣੌਤੀਆਂ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦੀ ਹੈ। ਜਦੋਂ ਕਿ AI ਦ੍ਰਿਸ਼ਟੀਗਤ ਤੌਰ ‘ਤੇ ਸ਼ਾਨਦਾਰ ਚਿੱਤਰਾਂ ਨੂੰ ਪੈਦਾ ਕਰ ਸਕਦਾ ਹੈ, ਇਹ ਅਕਸਰ ਉਹਨਾਂ ਕੰਮਾਂ ਨਾਲ ਸੰਘਰਸ਼ ਕਰਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਲਈ ਗਣਿਤਿਕ ਸੰਕਲਪਾਂ ਦੀ ਡੂੰਘੀ ਸਮਝ ਅਤੇ ਇੱਕ ਵਿਜ਼ੂਅਲ ਸੰਦਰਭ ਵਿੱਚ ਉਹਨਾਂ ਦੇ ਸਹੀ ਅਨੁਵਾਦ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਫੈਸਲਾ: AI ਚਿੱਤਰ ਜਨਰੇਟਰਾਂ ਨੂੰ ਦਰਜਾਬੰਦੀ

GenAI Image Showdown ਨੇ ਕਈ ਕੰਮਾਂ ਵਿੱਚ ਹਰੇਕ AI ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦੀ ਇੱਕ ਵਿਆਪਕ ਸੰਖੇਪ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹੋਏ, ਕੁੱਲ 12 ਟੈਸਟਾਂ ਦੇ ਨਤੀਜਿਆਂ ਨੂੰ ਕੰਪਾਇਲ ਕੀਤਾ। ਸ਼ੁੱਧਤਾ ਦਰ ਦੇ ਆਧਾਰ ‘ਤੇ, AIs ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਦਰਜਾ ਦਿੱਤਾ ਗਿਆ:

  1. 4o Image Generation
  2. Imagen 3 ਅਤੇ Imagen 4
  3. FLUX.1 [dev]
  4. Gemini 2.0 Flash
  5. Hunyuan Image 2.0
  6. Midjourney V7

ਇਹ ਦਰਜਾਬੰਦੀ ਉਹਨਾਂ ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਕੀਮਤੀ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ ਜੋ ਆਪਣੀਆਂ ਖਾਸ ਲੋੜਾਂ ਲਈ ਸਭ ਤੋਂ ਢੁਕਵੇਂ AI ਦੀ ਚੋਣ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਨ। ਹਾਲਾਂਕਿ, ਇਹ ਨੋਟ ਕਰਨਾ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਹਰੇਕ AI ਦੀਆਂ ਆਪਣੀਆਂ ਸ਼ਕਤੀਆਂ ਅਤੇ ਕਮਜ਼ੋਰੀਆਂ ਹਨ, ਅਤੇ ਖਾਸ ਕੰਮ ਦੇ ਆਧਾਰ ‘ਤੇ ਅਨੁਕੂਲ ਵਿਕਲਪ ਵੱਖ-ਵੱਖ ਹੋ ਸਕਦਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਜੇਕਰ ਕੋਈ ਉਪਭੋਗਤਾ ਸੋਸ਼ਲ ਮੀਡੀਆ ਲਈ ਸੁਹਜਾਤਮਕ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਵਾਲੀ ਕਲਾ ਪੈਦਾ ਕਰਨ ਲਈ AI ਦੀ ਮੰਗ ਕਰ ਰਿਹਾ ਹੈ, ਤਾਂ Midjourney ਅਜੇ ਵੀ ਇੱਕ ਤਰਜੀਹੀ ਸਾਧਨ ਹੋ ਸਕਦਾ ਹੈ, ਭਾਵੇਂ ਉੱਪਰ ਦੱਸੇ ਗਏ ਕੁਝ ਕੰਮਾਂ ਨੂੰ ਸਫਲਤਾਪੂਰਵਕ ਪੂਰਾ ਕਰਨ ਵਿੱਚ ਇਸਦੀ ਅਸਫਲਤਾ ਦੇ ਬਾਵਜੂਦ।

ਇਸ ਅਧਿਐਨ ਦੇ ਪ੍ਰਭਾਵ ਸਧਾਰਨ ਚਿੱਤਰ ਉਤਪਾਦਨ ਤੋਂ ਵੀ ਪਰੇ ਹਨ। ਇਹਨਾਂ AI ਸਾਧਨਾਂ ਵਿੱਚ ਮਾਰਕੀਟਿੰਗ ਤੋਂ ਲੈ ਕੇ ਇੰਜੀਨੀਅਰਿੰਗ ਤੱਕ ਦੇ ਉਦਯੋਗਾਂ ਵਿੱਚ ਕ੍ਰਾਂਤੀ ਲਿਆਉਣ ਦੀ ਸਮਰੱਥਾ ਹੈ। ਮਾਰਕਿਟਰ ਹੁਣ ਉਹਨਾਂ ਉਤਪਾਦਾਂ ਦੇ ਫੋਟੋਰੀਅਲਿਸਟਿਕ ਚਿੱਤਰ ਬਣਾ ਸਕਦੇ ਹਨ ਜੋ ਅਜੇ ਮੌਜੂਦ ਨਹੀਂ ਹਨ, ਸੰਭਾਵੀ ਗਾਹਕਾਂ ਨਾਲ ਕੁਸ਼ਲ
A/B ਜਾਂਚ ਦੀ ਆਗਿਆ ਦਿੰਦੇ ਹਨ। ਇਸੇ ਤਰ੍ਹਾਂ, ਇੰਜੀਨੀਅਰ ਮਹਿੰਗੇ ਪ੍ਰੋਟੋਟਾਈਪਾਂ ਦੀ ਉਡੀਕ ਕੀਤੇ ਬਿਨਾਂ ਤੇਜ਼ੀ ਨਾਲ ਗੁੰਝਲਦਾਰ ਡਿਜ਼ਾਈਨ ਵਿਚਾਰਾਂ ਦੀ ਕਲਪਨਾ ਅਤੇ ਦੁਹਰਾ ਸਕਦੇ ਹਨ।

ਅੰਤ ਵਿੱਚ, GenAI Image Showdown AI ਚਿੱਤਰ ਉਤਪਾਦਨ ਦੇ ਗੁੰਝਲਦਾਰ ਅਤੇ ਤੇਜ਼ੀ ਨਾਲ ਵਿਕਸਤ ਹੋ ਰਹੇ ਲੈਂਡਸਕੇਪ ਵਿੱਚ ਨੈਵੀਗੇਟ ਕਰਨ ਲਈ ਇੱਕ ਕੀਮਤੀ ਸਰੋਤ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ। ਵੱਖ-ਵੱਖ AI ਮਾਡਲਾਂ ਦੀ ਇੱਕ ਸਪਸ਼ਟ ਅਤੇ ਉਦੇਸ਼ ਤੁਲਨਾ ਪ੍ਰਦਾਨ ਕਰਕੇ, ਇਹ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਸੂਚਿਤ ਫੈਸਲੇ ਲੈਣ ਅਤੇ ਇਸ ਪਰਿਵਰਤਨਸ਼ੀਲ ਤਕਨਾਲੋਜੀ ਦੀ ਪੂਰੀ ਸੰਭਾਵਨਾ ਦਾ ਇਸਤੇਮਾਲ ਕਰਨ ਲਈ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਜਿਵੇਂ ਕਿ AI ਦਾ ਵਿਕਾਸ ਜਾਰੀ ਹੈ, GenAI Image Showdown ਵਰਗੇ ਪਲੇਟਫਾਰਮ ਤਕਨਾਲੋਜੀ ਨੂੰ ਗੈਰ-ਗੁਪਤ ਕਰਨ ਅਤੇ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਭੂਮਿਕਾ ਨਿਭਾਉਣਾ ਜਾਰੀ ਰੱਖਣਗੇ ਕਿ ਇਸਦੇ ਲਾਭ ਸਾਰਿਆਂ ਲਈ ਪਹੁੰਚਯੋਗ ਹੋਣ। ਜਦੋਂ ਕਿ AI ਨਵੇਂ ਚਿੱਤਰ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ, ਇਹ ਉਸ ਡੇਟਾ ਦੇ ਅੰਦਰ ਮੌਜੂਦ ਸਮਾਜਿਕ ਪੱਖਪਾਤਾਂ ਨੂੰ ਵਿਰਾਸਤ ਵਿੱਚ ਲੈਣ ਲਈ ਸੰਵੇਦਨਸ਼ੀਲ ਹੈ ਜਿਸ ‘ਤੇ ਇਸਨੂੰ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਲਈ ਇਹ ਸੰਭਾਵਨਾ ਹੈ ਕਿ AI ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਚਿੱਤਰ ਸਮਾਜਿਕ ਰੂੜ੍ਹੀਵਾਦਾਂ ਨੂੰ ਸਥਾਈ ਬਣਾ ਸਕਦੇ ਹਨ।

AI ਚਿੱਤਰ ਉਤਪਾਦਨ ਦੀਆਂ ਮੌਜੂਦਾ ਸੀਮਾਵਾਂ ਦਾ ਇਹ ਵੀ ਮਤਲਬ ਹੈ ਕਿ AI ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਚਿੱਤਰਾਂ ਦੀ ਦੁਰਵਰਤੋਂ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਹੈ। ਉਹਨਾਂ ਦੀ ਵਰਤੋਂ ਗਲਤ ਜਾਣਕਾਰੀ ਫੈਲਾਉਣ ਲਈ, ਜਾਂ ਉਦਾਹਰਨ ਲਈ, ਲਿੰਗਕ ਤੌਰ ‘ਤੇ ਸਪੱਸ਼ਟ ਡੀਪਫੇਕ ਤਿਆਰ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ। ਜਿਵੇਂ ਕਿ ਤਕਨਾਲੋਜੀ ਵਿਕਸਤ ਹੁੰਦੀ ਹੈ, ਇਸ ਤਰ੍ਹਾਂ ਮਨੁੱਖੀ ਹਮਲਿਆਂ ਦੀ ਸੂਝ-ਬੂਝ ਵੀ ਵਧੇਗੀ, ਇਸ ਲਈ ਨੁਕਸਾਨ ਨੂੰ ਘੱਟ ਕਰਨ ਲਈ ਢੁਕਵੇਂ ਸੁਰੱਖਿਆ ਉਪਾਅ ਲਾਗੂ ਕਰਨਾ ਜ਼ਰੂਰੀ ਹੈ।