ਸਧਾਰਨ ਟੈਕਸਟ ਨਾਲ ਤਸਵੀਰ ਸੰਪਾਦਨ

ਚਿੱਤਰ ਹੇਰਾਫੇਰੀ ਦਾ ਇੱਕ ਨਵਾਂ ਯੁੱਗ

ਬਹੁਤ ਸਾਰੇ ਮੌਜੂਦਾ AI ਚਿੱਤਰ ਟੂਲਸ ਦੇ ਉਲਟ ਜੋ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਸਕ੍ਰੈਚ ਤੋਂ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਵੀਆਂ ਤਸਵੀਰਾਂ ਬਣਾਉਣ ‘ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਤ ਕਰਦੇ ਹਨ, Gemini 2.0 Flash ਮੌਜੂਦਾ ਫੋਟੋਆਂ ਨੂੰ ਸਮਝਣ ਅਤੇ ਸੋਧਣ ਦੀ ਸਮਰੱਥਾ ਦੁਆਰਾ ਆਪਣੇ ਆਪ ਨੂੰ ਵੱਖਰਾ ਕਰਦਾ ਹੈ। ਇਹ ਸਿਸਟਮ ਇੱਕ ਫੋਟੋ ਦੀ ਸਮੱਗਰੀ ਨੂੰ ਇੰਨੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸਮਝਦਾ ਹੈ ਕਿ ਇਹ ਗੱਲਬਾਤ ਦੀਆਂ ਹਦਾਇਤਾਂ ਦੇ ਅਧਾਰ ਤੇ ਖਾਸ ਤਬਦੀਲੀਆਂ ਕਰ ਸਕਦਾ ਹੈ, ਇਹ ਸਭ ਕੁਝ ਅਸਲ ਚਿੱਤਰ ਦੇ ਸਾਰ ਨੂੰ ਸੁਰੱਖਿਅਤ ਰੱਖਦੇ ਹੋਏ।

ਇਹ ਕਮਾਲ ਦੀ ਪ੍ਰਾਪਤੀ Gemini 2.0 ਦੇ ਮੂਲ ਰੂਪ ਵਿੱਚ ਮਲਟੀਮੋਡਲ ਸੁਭਾਅ ਦੁਆਰਾ ਪ੍ਰਾਪਤ ਕੀਤੀ ਗਈ ਹੈ। ਇਹ ਇੱਕੋ ਸਮੇਂ ਟੈਕਸਟ ਅਤੇ ਚਿੱਤਰਾਂ ਦੋਵਾਂ ‘ਤੇ ਸਹਿਜੇ ਹੀ ਪ੍ਰਕਿਰਿਆ ਕਰਦਾ ਹੈ। ਮਾਡਲ ਚਲਾਕੀ ਨਾਲ ਚਿੱਤਰਾਂ ਨੂੰ ‘ਟੋਕਨਾਂ’ ਵਿੱਚ ਬਦਲਦਾ ਹੈ - ਉਹੀ ਬੁਨਿਆਦੀ ਇਕਾਈਆਂ ਜੋ ਇਹ ਟੈਕਸਟ ਪ੍ਰੋਸੈਸਿੰਗ ਲਈ ਵਰਤਦਾ ਹੈ। ਇਹ ਇਸਨੂੰ ਭਾਸ਼ਾ ਨੂੰ ਸਮਝਣ ਲਈ ਵਰਤੇ ਜਾਂਦੇ ਨਿਊਰਲ ਮਾਰਗਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਵਿਜ਼ੂਅਲ ਸਮੱਗਰੀ ਵਿੱਚ ਹੇਰਾਫੇਰੀ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਇਹ ਏਕੀਕ੍ਰਿਤ ਪਹੁੰਚ ਵੱਖ-ਵੱਖ ਮੀਡੀਆ ਕਿਸਮਾਂ ਨੂੰ ਸੰਭਾਲਣ ਲਈ ਵੱਖਰੇ, ਵਿਸ਼ੇਸ਼ ਮਾਡਲਾਂ ਦੀ ਜ਼ਰੂਰਤ ਨੂੰ ਖਤਮ ਕਰਦੀ ਹੈ, ਪੂਰੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਸੁਚਾਰੂ ਬਣਾਉਂਦੀ ਹੈ।

ਗੂਗਲ ਨੇ ਆਪਣੇ ਅਧਿਕਾਰਤ ਐਲਾਨ ਵਿੱਚ ਕਿਹਾ, ‘Gemini 2.0 Flash ਮਲਟੀਮੋਡਲ ਇਨਪੁਟ, ਵਿਸਤ੍ਰਿਤ ਤਰਕ, ਅਤੇ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਦੀ ਸਮਝ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਚਿੱਤਰ ਬਣਾਉਂਦਾ ਹੈ।’ ‘ਕਲਪਨਾ ਕਰੋ ਕਿ Gemini 2.0 Flash ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇੱਕ ਕਹਾਣੀ ਸੁਣਾਓ, ਅਤੇ ਇਹ ਤਸਵੀਰਾਂ ਨਾਲ ਇਸਦਾ ਵਰਣਨ ਕਰਦਾ ਹੈ, ਪਾਤਰਾਂ ਅਤੇ ਸੈਟਿੰਗਾਂ ਵਿੱਚ ਇਕਸਾਰਤਾ ਬਣਾਈ ਰੱਖਦਾ ਹੈ। ਫੀਡਬੈਕ ਪ੍ਰਦਾਨ ਕਰੋ, ਅਤੇ ਮਾਡਲ ਕਹਾਣੀ ਨੂੰ ਅਨੁਕੂਲ ਕਰੇਗਾ ਜਾਂ ਇਸਦੇ ਡਰਾਇੰਗਾਂ ਦੀ ਸ਼ੈਲੀ ਨੂੰ ਸੋਧੇਗਾ।’

ਇਹ ਪਹੁੰਚ ਗੂਗਲ ਨੂੰ OpenAI ਵਰਗੇ ਪ੍ਰਤੀਯੋਗੀਆਂ ਤੋਂ ਵੱਖ ਕਰਦੀ ਹੈ। ਜਦੋਂ ਕਿ ChatGPT Dall-E 3 ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਚਿੱਤਰ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਨੂੰ ਸਮਝਦੇ ਹੋਏ ਆਪਣੀਆਂ ਰਚਨਾਵਾਂ ‘ਤੇ ਦੁਹਰਾ ਸਕਦਾ ਹੈ, ਇਹ ਇਸ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਇੱਕ ਵੱਖਰੇ AI ਮਾਡਲ ‘ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ। ਸੰਖੇਪ ਵਿੱਚ, ChatGPT ਦ੍ਰਿਸ਼ਟੀ ਲਈ GPT-V, ਭਾਸ਼ਾ ਲਈ GPT-4o, ਅਤੇ ਚਿੱਤਰ ਬਣਾਉਣ ਲਈ Dall-E 3 ਦੇ ਵਿਚਕਾਰ ਇੱਕ ਗੁੰਝਲਦਾਰ ਆਪਸੀ ਤਾਲਮੇਲ ਦਾ ਪ੍ਰਬੰਧ ਕਰਦਾ ਹੈ। OpenAI, ਹਾਲਾਂਕਿ, ਭਵਿੱਖ ਦੇ GPT-5 ਦੇ ਨਾਲ ਇੱਕ ਸਿੰਗਲ, ਸਭ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਵਾਲੇ ਮਾਡਲ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਉਮੀਦ ਕਰਦਾ ਹੈ।

ਬੀਜਿੰਗ ਅਕੈਡਮੀ ਆਫ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਦੁਆਰਾ ਵਿਕਸਤ OmniGen ਦੇ ਨਾਲ ਓਪਨ-ਸੋਰਸ ਖੇਤਰ ਵਿੱਚ ਇੱਕ ਸਮਾਨਾਂਤਰ ਸੰਕਲਪ ਮੌਜੂਦ ਹੈ। ਇਸਦੇ ਸਿਰਜਣਹਾਰ ‘ਭਾਸ਼ਾ ਉਤਪਾਦਨ ਵਿੱਚ GPT ਦੇ ਕੰਮ ਕਰਨ ਦੇ ਸਮਾਨ, ਬਿਨਾਂ ਕਿਸੇ ਵਾਧੂ ਪਲੱਗਇਨ ਜਾਂ ਓਪਰੇਸ਼ਨਾਂ ਦੀ ਲੋੜ ਦੇ, ਮਨਮਾਨੇ ਢੰਗ ਨਾਲ ਮਲਟੀਮੋਡਲ ਨਿਰਦੇਸ਼ਾਂ ਦੁਆਰਾ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਕਈ ਤਰ੍ਹਾਂ ਦੀਆਂ ਤਸਵੀਰਾਂ ਤਿਆਰ ਕਰਨ’ ਦੀ ਕਲਪਨਾ ਕਰਦੇ ਹਨ।

OmniGen ਆਬਜੈਕਟ ਬਦਲਾਵ, ਸੀਨ ਮਰਜਿੰਗ, ਅਤੇ ਸੁਹਜ ਸੰਬੰਧੀ ਵਿਵਸਥਾਵਾਂ ਵਰਗੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਮਾਣ ਕਰਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਇਹ ਨਵੇਂ Gemini ਨਾਲੋਂ ਕਾਫ਼ੀ ਘੱਟ ਉਪਭੋਗਤਾ-ਅਨੁਕੂਲ ਹੈ, ਘੱਟ ਰੈਜ਼ੋਲਿਊਸ਼ਨ ਨਾਲ ਕੰਮ ਕਰਦਾ ਹੈ, ਵਧੇਰੇ ਗੁੰਝਲਦਾਰ ਕਮਾਂਡਾਂ ਦੀ ਮੰਗ ਕਰਦਾ ਹੈ, ਅਤੇ ਅੰਤ ਵਿੱਚ ਗੂਗਲ ਦੀ ਪੇਸ਼ਕਸ਼ ਦੀ ਪੂਰੀ ਸ਼ਕਤੀ ਦੀ ਘਾਟ ਹੈ। ਫਿਰ ਵੀ, ਇਹ ਕੁਝ ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਇੱਕ ਮਜਬੂਰ ਕਰਨ ਵਾਲਾ ਓਪਨ-ਸੋਰਸ ਵਿਕਲਪ ਪੇਸ਼ ਕਰਦਾ ਹੈ।

Gemini 2.0 Flash ਨੂੰ ਟੈਸਟ ਵਿੱਚ ਪਾਉਣਾ

Gemini 2.0 Flash ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਸੀਮਾਵਾਂ ਨੂੰ ਸੱਚਮੁੱਚ ਸਮਝਣ ਲਈ, ਵੱਖ-ਵੱਖ ਸੰਪਾਦਨ ਦ੍ਰਿਸ਼ਾਂ ਦੀ ਪੜਚੋਲ ਕਰਦੇ ਹੋਏ, ਵਿਹਾਰਕ ਟੈਸਟਾਂ ਦੀ ਇੱਕ ਲੜੀ ਕਰਵਾਈ ਗਈ। ਨਤੀਜੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਸ਼ਕਤੀਆਂ ਅਤੇ ਸੰਭਾਵੀ ਸੁਧਾਰ ਲਈ ਕੁਝ ਖੇਤਰਾਂ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ।

ਯਥਾਰਥਵਾਦੀ ਵਿਸ਼ਿਆਂ ਨੂੰ ਸ਼ੁੱਧਤਾ ਨਾਲ ਸੋਧਣਾ

ਮਾਡਲ ਕਮਾਲ ਦੀ ਇਕਸਾਰਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ ਜਦੋਂ ਯਥਾਰਥਵਾਦੀ ਵਿਸ਼ਿਆਂ ਨੂੰ ਸੋਧਣ ਦਾ ਕੰਮ ਸੌਂਪਿਆ ਜਾਂਦਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਇੱਕ ਸਵੈ-ਪੋਰਟਰੇਟ ਟੈਸਟ ਵਿੱਚ, ਮਾਸਪੇਸ਼ੀ ਦੀ ਪਰਿਭਾਸ਼ਾ ਜੋੜਨ ਦੀ ਬੇਨਤੀ ਨੇ ਲੋੜੀਂਦਾ ਨਤੀਜਾ ਦਿੱਤਾ। ਜਦੋਂ ਕਿ ਚਿਹਰੇ ਦੀਆਂ ਮਾਮੂਲੀ ਤਬਦੀਲੀਆਂ ਹੋਈਆਂ, ਸਮੁੱਚੀ ਪਛਾਣਯੋਗਤਾ ਬਣੀ ਰਹੀ।

ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, ਫੋਟੋ ਦੇ ਅੰਦਰਲੇ ਹੋਰ ਤੱਤ ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਅਛੂਤੇ ਰਹੇ, ਜੋ ਕਿ AI ਦੀ ਸਿਰਫ਼ ਨਿਰਧਾਰਤ ਸੋਧ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਨ ਦੀ ਯੋਗਤਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਇਹ ਨਿਸ਼ਾਨਾ ਸੰਪਾਦਨ ਸਮਰੱਥਾ ਆਮ ਉਤਪਾਦਕ ਪਹੁੰਚਾਂ ਦੇ ਬਿਲਕੁਲ ਉਲਟ ਹੈ ਜੋ ਅਕਸਰ ਪੂਰੇ ਚਿੱਤਰਾਂ ਦਾ ਪੁਨਰ ਨਿਰਮਾਣ ਕਰਦੇ ਹਨ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਅਣਚਾਹੇ ਬਦਲਾਅ ਪੇਸ਼ ਕਰਦੇ ਹਨ।

ਮਾਡਲ ਦੇ ਬਿਲਟ-ਇਨ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਨੂੰ ਨੋਟ ਕਰਨਾ ਵੀ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਇਹ ਲਗਾਤਾਰ ਬੱਚਿਆਂ ਦੀਆਂ ਫੋਟੋਆਂ ਨੂੰ ਸੰਪਾਦਿਤ ਕਰਨ ਤੋਂ ਇਨਕਾਰ ਕਰਦਾ ਹੈ ਅਤੇ ਨਗਨਤਾ ਨਾਲ ਸਬੰਧਤ ਕਿਸੇ ਵੀ ਸਮੱਗਰੀ ਨੂੰ ਸੰਭਾਲਣ ਤੋਂ ਪਰਹੇਜ਼ ਕਰਦਾ ਹੈ, ਜੋ ਜ਼ਿੰਮੇਵਾਰ AI ਵਿਕਾਸ ਲਈ ਗੂਗਲ ਦੀ ਵਚਨਬੱਧਤਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਵਧੇਰੇ ਜੋਖਮ ਭਰੇ ਚਿੱਤਰ ਹੇਰਾਫੇਰੀ ਦੀ ਪੜਚੋਲ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਨ ਵਾਲੇ ਉਪਭੋਗਤਾਵਾਂ ਲਈ, OmniGen ਇੱਕ ਵਧੇਰੇ ਢੁਕਵਾਂ ਵਿਕਲਪ ਹੋ ਸਕਦਾ ਹੈ।

ਮਾਸਟਰਿੰਗ ਸਟਾਈਲ ਟ੍ਰਾਂਸਫਾਰਮੇਸ਼ਨ

Gemini 2.0 Flash ਸ਼ੈਲੀ ਪਰਿਵਰਤਨ ਲਈ ਇੱਕ ਕਮਾਲ ਦੀ ਯੋਗਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। ਡੋਨਾਲਡ ਟਰੰਪ ਦੀ ਇੱਕ ਫੋਟੋ ਨੂੰ ਜਾਪਾਨੀ ਮੰਗਾ ਦੀ ਸ਼ੈਲੀ ਵਿੱਚ ਬਦਲਣ ਦੀ ਬੇਨਤੀ ਨੇ ਕੁਝ ਕੋਸ਼ਿਸ਼ਾਂ ਤੋਂ ਬਾਅਦ ਇੱਕ ਸਫਲ ਪੁਨਰ-ਕਲਪਨਾ ਕੀਤੀ।

ਮਾਡਲ ਸ਼ੈਲੀ ਟ੍ਰਾਂਸਫਰ ਦੇ ਇੱਕ ਵਿਸ਼ਾਲ ਸਪੈਕਟ੍ਰਮ ਨੂੰ ਕੁਸ਼ਲਤਾ ਨਾਲ ਸੰਭਾਲਦਾ ਹੈ, ਫੋਟੋਆਂ ਨੂੰ ਡਰਾਇੰਗ, ਤੇਲ ਪੇਂਟਿੰਗਾਂ, ਜਾਂ ਅਸਲ ਵਿੱਚ ਕਿਸੇ ਵੀ ਕਲਾਤਮਕ ਸ਼ੈਲੀ ਵਿੱਚ ਬਦਲਦਾ ਹੈ। ਉਪਭੋਗਤਾ ਤਾਪਮਾਨ ਸੈਟਿੰਗਾਂ ਨੂੰ ਵਿਵਸਥਿਤ ਕਰਕੇ ਅਤੇ ਵੱਖ-ਵੱਖ ਫਿਲਟਰਾਂ ਨੂੰ ਟੌਗਲ ਕਰਕੇ ਨਤੀਜਿਆਂ ਨੂੰ ਵਧੀਆ ਬਣਾ ਸਕਦੇ ਹਨ। ਹਾਲਾਂਕਿ, ਇਹ ਧਿਆਨ ਦੇਣ ਯੋਗ ਹੈ ਕਿ ਉੱਚ ਤਾਪਮਾਨ ਸੈਟਿੰਗਾਂ ਅਜਿਹੇ ਪਰਿਵਰਤਨ ਪੈਦਾ ਕਰਦੀਆਂ ਹਨ ਜੋ ਅਸਲ ਚਿੱਤਰ ਦੇ ਪ੍ਰਤੀ ਘੱਟ ਵਫ਼ਾਦਾਰ ਹੁੰਦੇ ਹਨ।

ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਸੀਮਾ ਉਦੋਂ ਉੱਭਰਦੀ ਹੈ ਜਦੋਂ ਖਾਸ ਕਲਾਕਾਰਾਂ ਨਾਲ ਜੁੜੀਆਂ ਸ਼ੈਲੀਆਂ ਦੀ ਬੇਨਤੀ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਲਿਓਨਾਰਡੋ ਦਾ ਵਿੰਚੀ, ਮਾਈਕਲਐਂਜਲੋ, ਬੋਟੀਸੇਲੀ, ਜਾਂ ਵੈਨ ਗੌਗ ਦੀਆਂ ਸ਼ੈਲੀਆਂ ਵਾਲੇ ਟੈਸਟਾਂ ਦੇ ਨਤੀਜੇ ਵਜੋਂ AI ਨੇ ਇਹਨਾਂ ਮਾਸਟਰਾਂ ਦੁਆਰਾ ਅਸਲ ਪੇਂਟਿੰਗਾਂ ਨੂੰ ਦੁਬਾਰਾ ਤਿਆਰ ਕੀਤਾ, ਨਾ ਕਿ ਉਹਨਾਂ ਦੀਆਂ ਵੱਖਰੀਆਂ ਤਕਨੀਕਾਂ ਨੂੰ ਸਰੋਤ ਚਿੱਤਰ ‘ਤੇ ਲਾਗੂ ਕਰਨ ਦੀ ਬਜਾਏ।

ਕੁਝ ਪ੍ਰੋਂਪਟ ਰਿਫਾਈਨਮੈਂਟ ਅਤੇ ਕੁਝ ਦੁਹਰਾਓ ਦੇ ਨਾਲ, ਇੱਕ ਵਰਤੋਂ ਯੋਗ, ਭਾਵੇਂ ਕਿ ਮਾਮੂਲੀ, ਨਤੀਜਾ ਪ੍ਰਾਪਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਆਮ ਤੌਰ ‘ਤੇ, ਖਾਸ ਕਲਾਕਾਰ ਦੀ ਬਜਾਏ ਲੋੜੀਂਦੀ ਕਲਾ ਸ਼ੈਲੀ ਨੂੰ ਪ੍ਰੋਂਪਟ ਕਰਨਾ ਵਧੇਰੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੁੰਦਾ ਹੈ।

ਐਲੀਮੈਂਟ ਮੈਨੀਪੁਲੇਸ਼ਨ ਦੀ ਕਲਾ

ਵਿਹਾਰਕ ਸੰਪਾਦਨ ਕਾਰਜਾਂ ਲਈ, Gemini 2.0 Flash ਸੱਚਮੁੱਚ ਉੱਤਮ ਹੈ। ਇਹ ਇਨਪੇਂਟਿੰਗ ਅਤੇ ਆਬਜੈਕਟ ਹੇਰਾਫੇਰੀ ਨੂੰ ਕੁਸ਼ਲਤਾ ਨਾਲ ਸੰਭਾਲਦਾ ਹੈ, ਬੇਨਤੀ ਕਰਨ ‘ਤੇ ਖਾਸ ਵਸਤੂਆਂ ਨੂੰ ਸਹਿਜੇ ਹੀ ਹਟਾਉਂਦਾ ਹੈ ਜਾਂ ਇੱਕ ਰਚਨਾ ਵਿੱਚ ਨਵੇਂ ਤੱਤ ਜੋੜਦਾ ਹੈ। ਇੱਕ ਟੈਸਟ ਵਿੱਚ, AI ਨੂੰ ਇੱਕ ਬਾਸਕਟਬਾਲ ਨੂੰ ਇੱਕ ਵਿਸ਼ਾਲ ਰਬੜ ਦੇ ਚਿਕਨ ਨਾਲ ਬਦਲਣ ਲਈ ਕਿਹਾ ਗਿਆ ਸੀ, ਜਿਸ ਨਾਲ ਇੱਕ ਹਾਸੋਹੀਣਾ ਪਰ ਪ੍ਰਸੰਗਿਕ ਤੌਰ ‘ਤੇ ਢੁਕਵਾਂ ਨਤੀਜਾ ਮਿਲਿਆ।

ਜਦੋਂ ਕਿ ਵਿਸ਼ਿਆਂ ਵਿੱਚ ਕਦੇ-ਕਦਾਈਂ ਮਾਮੂਲੀ ਤਬਦੀਲੀਆਂ ਹੋ ਸਕਦੀਆਂ ਹਨ, ਇਹ ਆਮ ਤੌਰ ‘ਤੇ ਸਕਿੰਟਾਂ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਮਿਆਰੀ ਡਿਜੀਟਲ ਸੰਪਾਦਨ ਟੂਲਸ ਨਾਲ ਆਸਾਨੀ ਨਾਲ ਠੀਕ ਹੋ ਜਾਂਦੀਆਂ ਹਨ।

ਸ਼ਾਇਦ ਸਭ ਤੋਂ ਵਿਵਾਦਪੂਰਨ ਤੌਰ ‘ਤੇ, ਮਾਡਲ ਕਾਪੀਰਾਈਟ ਸੁਰੱਖਿਆ ਨੂੰ ਹਟਾਉਣ ਵਿੱਚ ਮੁਹਾਰਤ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ - ਇੱਕ ਵਿਸ਼ੇਸ਼ਤਾ ਜਿਸਨੇ X ਵਰਗੇ ਪਲੇਟਫਾਰਮਾਂ ‘ਤੇ ਕਾਫ਼ੀ ਚਰਚਾ ਛੇੜ ਦਿੱਤੀ ਹੈ। ਜਦੋਂ ਵਾਟਰਮਾਰਕਸ ਵਾਲੀ ਇੱਕ ਤਸਵੀਰ ਪੇਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ ਅਤੇ ਸਾਰੇ ਅੱਖਰਾਂ, ਲੋਗੋ ਅਤੇ ਵਾਟਰਮਾਰਕਸ ਨੂੰ ਖਤਮ ਕਰਨ ਦੀ ਹਦਾਇਤ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਤਾਂ Gemini ਨੇ ਇੱਕ ਸਾਫ਼ ਤਸਵੀਰ ਤਿਆਰ ਕੀਤੀ ਜੋ ਅਸਲ ਵਿੱਚ ਅਨ-ਵਾਟਰਮਾਰਕਡ ਮੂਲ ਤੋਂ ਵੱਖਰੀ ਨਹੀਂ ਹੈ।

ਨੈਵੀਗੇਟਿੰਗ ਪਰਸਪੈਕਟਿਵ ਚੇਂਜਿਸ

Gemini ਦੇ ਸਭ ਤੋਂ ਵੱਧ ਤਕਨੀਕੀ ਤੌਰ ‘ਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਪਹਿਲੂਆਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ ਪਰਿਪੇਖ ਨੂੰ ਬਦਲਣ ਦੀ ਯੋਗਤਾ - ਇੱਕ ਅਜਿਹਾ ਕਾਰਨਾਮਾ ਜਿਸ ਨਾਲ ਮੁੱਖ ਧਾਰਾ ਦੇ ਪ੍ਰਸਾਰ ਮਾਡਲ ਆਮ ਤੌਰ ‘ਤੇ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ। AI ਵੱਖ-ਵੱਖ ਕੋਣਾਂ ਤੋਂ ਇੱਕ ਦ੍ਰਿਸ਼ ਦੀ ਮੁੜ ਕਲਪਨਾ ਕਰ ਸਕਦਾ ਹੈ, ਹਾਲਾਂਕਿ ਨਤੀਜੇ ਅਸਲ ਵਿੱਚ ਅਸਲ ਦੇ ਸਟੀਕ ਪਰਿਵਰਤਨ ਦੀ ਬਜਾਏ ਨਵੀਆਂ ਰਚਨਾਵਾਂ ਹਨ।

ਜਦੋਂ ਕਿ ਪਰਿਪੇਖ ਤਬਦੀਲੀਆਂ ਨਿਰਦੋਸ਼ ਨਤੀਜੇ ਨਹੀਂ ਦਿੰਦੀਆਂ ਹਨ - ਮਾਡਲ, ਆਖ਼ਰਕਾਰ, ਪੂਰੇ ਚਿੱਤਰ ਨੂੰ ਇੱਕ ਨਵੇਂ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਤੋਂ ਸੰਕਲਪਿਤ ਕਰ ਰਿਹਾ ਹੈ - ਉਹ ਦੋ-ਅਯਾਮੀ ਇਨਪੁਟਸ ਦੇ ਅਧਾਰ ਤੇ ਤਿੰਨ-ਅਯਾਮੀ ਸਪੇਸ ਦੀ AI ਦੀ ਸਮਝ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਤਰੱਕੀ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ।

ਬੈਕਗ੍ਰਾਉਂਡ ਵਿੱਚ ਹੇਰਾਫੇਰੀ ਕਰਨ ਲਈ ਮਾਡਲ ਨੂੰ ਹਦਾਇਤ ਦਿੰਦੇ ਸਮੇਂ ਸਹੀ ਸ਼ਬਦਾਵਲੀ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਇਹ ਅਕਸਰ ਪੂਰੀ ਤਸਵੀਰ ਨੂੰ ਸੋਧਣ ਵੱਲ ਝੁਕਦਾ ਹੈ, ਜਿਸਦੇ ਨਤੀਜੇ ਵਜੋਂ ਇੱਕ ਬਹੁਤ ਹੀ ਵੱਖਰੀ ਰਚਨਾ ਹੁੰਦੀ ਹੈ।

ਉਦਾਹਰਨ ਲਈ, ਇੱਕ ਟੈਸਟ ਵਿੱਚ, Gemini ਨੂੰ ਇੱਕ ਫੋਟੋ ਦੀ ਬੈਕਗ੍ਰਾਉਂਡ ਬਦਲਣ ਲਈ ਕਿਹਾ ਗਿਆ ਸੀ, ਇੱਕ ਬੈਠੇ ਹੋਏ ਰੋਬੋਟ ਨੂੰ ਉਸਦੇ ਮੂਲ ਸਥਾਨ ਦੀ ਬਜਾਏ ਮਿਸਰ ਵਿੱਚ ਰੱਖਿਆ ਗਿਆ ਸੀ। ਹਦਾਇਤ ਵਿੱਚ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਕਿਹਾ ਗਿਆ ਸੀ ਕਿ ਵਿਸ਼ੇ ਨੂੰ ਨਾ ਬਦਲਿਆ ਜਾਵੇ। ਹਾਲਾਂਕਿ, ਮਾਡਲ ਨੇ ਇਸ ਖਾਸ ਕੰਮ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਸੰਭਾਲਣ ਲਈ ਸੰਘਰਸ਼ ਕੀਤਾ, ਇਸ ਦੀ ਬਜਾਏ ਪਿਰਾਮਿਡਾਂ ਦੀ ਵਿਸ਼ੇਸ਼ਤਾ ਵਾਲੀ ਇੱਕ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਵੀਂ ਰਚਨਾ ਪ੍ਰਦਾਨ ਕੀਤੀ, ਜਿਸ ਵਿੱਚ ਇੱਕ ਰੋਬੋਟ ਖੜ੍ਹਾ ਸੀ, ਪਰ ਪ੍ਰਾਇਮਰੀ ਫੋਕਸ ਵਜੋਂ ਨਹੀਂ।

ਇੱਕ ਹੋਰ ਦੇਖੀ ਗਈ ਸੀਮਾ ਇਹ ਹੈ ਕਿ ਜਦੋਂ ਕਿ ਮਾਡਲ ਇੱਕ ਸਿੰਗਲ ਚਿੱਤਰ ‘ਤੇ ਕਈ ਵਾਰ ਦੁਹਰਾ ਸਕਦਾ ਹੈ, ਵੇਰਵਿਆਂ ਦੀ ਗੁਣਵੱਤਾ ਹਰੇਕ ਲਗਾਤਾਰ ਦੁਹਰਾਓ ਦੇ ਨਾਲ ਘਟਦੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਲਈ, ਵਿਆਪਕ ਸੰਪਾਦਨ ਕਰਦੇ ਸਮੇਂ ਸੰਭਾਵੀ ਗੁਣਵੱਤਾ ਦੇ ਨਿਘਾਰ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਣਾ ਜ਼ਰੂਰੀ ਹੈ।

ਇਹ ਪ੍ਰਯੋਗਾਤਮਕ ਮਾਡਲ ਵਰਤਮਾਨ ਵਿੱਚ ਸਾਰੇ ਸਮਰਥਿਤ ਖੇਤਰਾਂ ਵਿੱਚ Google AI ਸਟੂਡੀਓ ਅਤੇ Gemini API ਰਾਹੀਂ ਡਿਵੈਲਪਰਾਂ ਲਈ ਪਹੁੰਚਯੋਗ ਹੈ। ਇਹ ਉਹਨਾਂ ਉਪਭੋਗਤਾਵਾਂ ਲਈ Hugging Face ‘ਤੇ ਵੀ ਉਪਲਬਧ ਹੈ ਜੋ ਗੂਗਲ ਨਾਲ ਆਪਣੀ ਜਾਣਕਾਰੀ ਸਾਂਝੀ ਨਹੀਂ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਨ।

ਅੰਤ ਵਿੱਚ, ਗੂਗਲ ਦੀ ਇਹ ਨਵੀਂ ਪੇਸ਼ਕਸ਼ ਇੱਕ ਲੁਕਵੇਂ ਰਤਨ ਵਾਂਗ ਜਾਪਦੀ ਹੈ, ਜਿਵੇਂ ਕਿ NotebookLM। ਇਹ ਉਹ ਚੀਜ਼ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ ਜੋ ਦੂਜੇ ਮਾਡਲ ਨਹੀਂ ਕਰ ਸਕਦੇ, ਅਤੇ ਇਹ ਇਸਨੂੰ ਚੰਗੇ ਪੱਧਰ ਦੀ ਮੁਹਾਰਤ ਨਾਲ ਕਰਦਾ ਹੈ, ਫਿਰ ਵੀ ਇਹ ਮੁਕਾਬਲਤਨ ਰਾਡਾਰ ਦੇ ਹੇਠਾਂ ਰਹਿੰਦਾ ਹੈ। ਇਹ ਬਿਨਾਂ ਸ਼ੱਕ ਉਹਨਾਂ ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਖੋਜਣ ਯੋਗ ਹੈ ਜੋ ਚਿੱਤਰ ਸੰਪਾਦਨ ਵਿੱਚ ਉਤਪਾਦਕ AI ਦੀ ਸੰਭਾਵਨਾ ਨਾਲ ਪ੍ਰਯੋਗ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਨ ਅਤੇ ਰਸਤੇ ਵਿੱਚ ਕੁਝ ਰਚਨਾਤਮਕ ਮਜ਼ੇਦਾਰ ਹੋਣਾ ਚਾਹੁੰਦੇ ਹਨ। ਸਧਾਰਨ ਭਾਸ਼ਾ ਵਿੱਚ ਲੋੜੀਂਦੀਆਂ ਤਬਦੀਲੀਆਂ ਦਾ ਵਰਣਨ ਕਰਨ ਦੀ ਯੋਗਤਾ ਆਮ ਉਪਭੋਗਤਾਵਾਂ ਅਤੇ ਪੇਸ਼ੇਵਰਾਂ ਦੋਵਾਂ ਲਈ ਸੰਭਾਵਨਾਵਾਂ ਦੀ ਇੱਕ ਦੁਨੀਆ ਖੋਲ੍ਹਦੀ ਹੈ, ਜੋ ਚਿੱਤਰ ਹੇਰਾਫੇਰੀ ਦੇ ਜਮਹੂਰੀਕਰਨ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ। ਇਸ ਤਕਨਾਲੋਜੀ ਵਿੱਚ ਇਹ ਬਦਲਣ ਦੀ ਸਮਰੱਥਾ ਹੈ ਕਿ ਅਸੀਂ ਵਿਜ਼ੂਅਲ ਸਮੱਗਰੀ ਨਾਲ ਕਿਵੇਂ ਗੱਲਬਾਤ ਕਰਦੇ ਹਾਂ, ਉੱਨਤ ਸੰਪਾਦਨ ਤਕਨੀਕਾਂ ਨੂੰ ਹਰ ਕਿਸੇ ਲਈ ਪਹੁੰਚਯੋਗ ਬਣਾਉਂਦੇ ਹਾਂ, ਭਾਵੇਂ ਉਹਨਾਂ ਦੇ ਤਕਨੀਕੀ ਹੁਨਰ ਦੀ ਪਰਵਾਹ ਕੀਤੇ ਬਿਨਾਂ। ਇਸਦੇ ਪ੍ਰਭਾਵ ਬਹੁਤ ਵਿਸ਼ਾਲ ਹਨ, ਨਿੱਜੀ ਫੋਟੋ ਸੁਧਾਰਾਂ ਤੋਂ ਲੈ ਕੇ ਪੇਸ਼ੇਵਰ ਡਿਜ਼ਾਈਨ ਵਰਕਫਲੋਜ਼ ਤੱਕ, ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਵਿਜ਼ੂਅਲ ਕਲਾ ਦੇ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਵੇਂ ਰੂਪਾਂ ਦੀ ਸਿਰਜਣਾ ਤੱਕ। ਜਿਵੇਂ ਕਿ ਤਕਨਾਲੋਜੀ ਦਾ ਵਿਕਾਸ ਜਾਰੀ ਹੈ, ਰਚਨਾਤਮਕ ਲੈਂਡਸਕੇਪ ‘ਤੇ ਇਸਦੇ ਪ੍ਰਭਾਵ ਨੂੰ ਦੇਖਣਾ ਦਿਲਚਸਪ ਹੋਵੇਗਾ।