ਬਨਾਵਟੀ ਬੁੱਧੀ (artificial intelligence) ਦੇ ਖੇਤਰ ਵਿੱਚ ਲਗਾਤਾਰ ਹਲਚਲ ਰਹਿੰਦੀ ਹੈ, ਜਿੱਥੇ ਮਾਰਕੀਟ ਸਥਿਤੀ ਅਤੇ ਸਮਰੱਥਾ ਪ੍ਰਦਰਸ਼ਨ ਲਗਭਗ ਰੋਜ਼ਾਨਾ ਬਦਲਦੇ ਹਨ। Google, ਇੱਕ ਵੱਡੀ ਕੰਪਨੀ ਜਿਸਨੂੰ ਅਕਸਰ OpenAI ਦੇ ਚਰਚਿਤ ਰਿਲੀਜ਼ਾਂ ਦੁਆਰਾ ਸ਼ੁਰੂ ਕੀਤੀ ਗਈ ਜਨਰੇਟਿਵ AI ਦੌੜ ਵਿੱਚ ਪਿੱਛੇ ਰਹਿਣ ਵਾਲਾ ਸਮਝਿਆ ਜਾਂਦਾ ਹੈ, ਨੇ ਹਾਲ ਹੀ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਰਣਨੀਤਕ ਕਦਮ ਚੁੱਕਿਆ ਹੈ। ਕੰਪਨੀ ਨੇ ਅਚਾਨਕ ਆਪਣੇ Gemini 2.5 Pro ਭਾਸ਼ਾ ਮਾਡਲ, ਖਾਸ ਤੌਰ ‘ਤੇ ਇਸਦੇ ਪ੍ਰਯੋਗਾਤਮਕ ਸੰਸਕਰਣ ਤੱਕ, ਸਾਰੇ ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਪਹੁੰਚ ਖੋਲ੍ਹ ਦਿੱਤੀ ਹੈ, ਉਹ ਵੀ ਬਿਲਕੁਲ ਮੁਫ਼ਤ। ਇਹ ਫੈਸਲਾ Google ਦੇ ਸ਼ੁਰੂਆਤੀ ਸੰਚਾਰ ਤੋਂ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਮੋੜ ਸੀ, ਜਿਸ ਵਿੱਚ ਇਸ ਉੱਨਤ ਮਾਡਲ ਨੂੰ ਵਿਸ਼ੇਸ਼ ਤੌਰ ‘ਤੇ ਇਸਦੇ Gemini Advanced ਟੀਅਰ ਦੇ ਭੁਗਤਾਨ ਕਰਨ ਵਾਲੇ ਗਾਹਕਾਂ ਲਈ ਰੱਖਿਆ ਗਿਆ ਸੀ। Gemini 2.5 Pro ਦਾ ਅਚਾਨਕ ਲੋਕਤੰਤਰੀਕਰਨ ਸਿਰਫ਼ ਉਤਪਾਦ ਰਣਨੀਤੀ ਵਿੱਚ ਇੱਕ ਤਬਦੀਲੀ ਦਾ ਸੰਕੇਤ ਨਹੀਂ ਦਿੰਦਾ, ਸਗੋਂ OpenAI ਅਤੇ Anthropic ਵਰਗੇ ਵਿਰੋਧੀਆਂ ਤੋਂ ਆ ਰਹੀ ਤੀਬਰ ਮੁਕਾਬਲੇਬਾਜ਼ੀ ਦੀ ਗਰਮੀ ਨੂੰ ਵੀ ਦਰਸਾਉਂਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਵੱਡੇ ਖਿਡਾਰੀਆਂ ਨੂੰ ਉਪਭੋਗਤਾਵਾਂ ਦਾ ਧਿਆਨ ਖਿੱਚਣ ਅਤੇ ਬਰਾਬਰੀ, ਜੇ ਉੱਤਮਤਾ ਨਹੀਂ, ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਲਈ ਆਪਣੀਆਂ ਨਵੀਨਤਮ ਖੋਜਾਂ ਨੂੰ ਵਧੇਰੇ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਤੈਨਾਤ ਕਰਨ ਲਈ ਮਜਬੂਰ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ।
ਇਹ ਰਿਲੀਜ਼ ਸੋਸ਼ਲ ਮੀਡੀਆ ‘ਤੇ ਘੁੰਮ ਰਹੀ ਇੱਕ ਅਜੀਬ, ਪਰ ਸ਼ਕਤੀਸ਼ਾਲੀ, ਸੱਭਿਆਚਾਰਕ ਲਹਿਰ ਦੇ ਵਿਚਕਾਰ ਆਈ: Studio Ghibli, ਸਤਿਕਾਰਤ ਜਾਪਾਨੀ ਐਨੀਮੇਸ਼ਨ ਹਾਊਸ, ਦੀ ਵਿਲੱਖਣ, ਕਲਪਨਾਤਮਕ ਸੁਹਜ ਨਾਲ ਭਰਪੂਰ ਚਿੱਤਰ ਬਣਾਉਣ ਵਿੱਚ ਇੱਕ ਵਿਆਪਕ ਖਿੱਚ। ਇਹ ਰੁਝਾਨ, ਮੁੱਖ ਤੌਰ ‘ਤੇ OpenAI ਦੇ ChatGPT, ਖਾਸ ਕਰਕੇ GPT-4o ਮਾਡਲ ਵਿੱਚ ਸ਼ਾਮਲ ਵਧਦੀਆਂ ਆਧੁਨਿਕ ਨੇਟਿਵ ਚਿੱਤਰ ਉਤਪਾਦਨ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੁਆਰਾ ਸ਼ੁਰੂ ਅਤੇ ਕਾਇਮ ਰੱਖਿਆ ਗਿਆ, ਨੇ ਇੱਕ ਤੁਰੰਤ, ਭਾਵੇਂ ਕਿ ਖਾਸ, ਬੈਂਚਮਾਰਕ ਪੇਸ਼ ਕੀਤਾ। ਜਦੋਂ ਕਿ Google ਨੇ Gemini 2.5 Pro ਦੀਆਂ ਮੁੱਖ ਤਰਕਸ਼ੀਲ ਸਮਰੱਥਾਵਾਂ ਵਿੱਚ ਤਰੱਕੀ ਦਾ ਦਾਅਵਾ ਕੀਤਾ, ਉਪਭੋਗਤਾ ਫੋਰਮਾਂ ਅਤੇ ਤਕਨੀਕੀ ਬਲੌਗਾਂ ਵਿੱਚ ਗੂੰਜ ਰਿਹਾ ਸਵਾਲ ਵਧੇਰੇ ਕਲਾਤਮਕ ਸੀ: ਕੀ Google ਦਾ ਨਵਾਂ ਪਹੁੰਚਯੋਗ ਸ਼ਕਤੀਸ਼ਾਲੀ ਮਾਡਲ Spirited Away ਜਾਂ My Neighbor Totoro ਵਰਗੀਆਂ ਫਿਲਮਾਂ ਨਾਲ ਜੁੜੇ ਮਨਮੋਹਕ ਦ੍ਰਿਸ਼ਾਂ ਨੂੰ ਦੁਬਾਰਾ ਬਣਾ ਸਕਦਾ ਹੈ?
ਮੁਫ਼ਤ ਪਹੁੰਚ ਦੇ ਰਣਨੀਤਕ ਆਧਾਰ
Sundar Pichai ਦੇ Google ਦੁਆਰਾ ਬਿਨਾਂ ਕਿਸੇ ਗਾਹਕੀ ਫੀਸ ਦੇ ਪ੍ਰਯੋਗਾਤਮਕ Gemini 2.5 Pro ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਨ ਦਾ ਫੈਸਲਾ ਸਿਰਫ਼ ਇੱਕ ਪਰਉਪਕਾਰੀ ਇਸ਼ਾਰਾ ਨਹੀਂ ਸੀ; ਇਹ ਇੱਕ ਉੱਚ-ਦਾਅ ਵਾਲੀ ਤਕਨੀਕੀ ਸ਼ਤਰੰਜ ਦੀ ਖੇਡ ਵਿੱਚ ਇੱਕ ਸੋਚਿਆ-ਸਮਝਿਆ ਕਦਮ ਸੀ। ਸ਼ੁਰੂ ਵਿੱਚ, ਇਸ ਮਾਡਲ ਨੂੰ Gemini Advanced ਗਾਹਕੀ ਤੱਕ ਸੀਮਤ ਕਰਨਾ ਤਰਕਸੰਗਤ ਜਾਪਦਾ ਸੀ - ਅਤਿ-ਆਧੁਨਿਕ AI ਦਾ ਮੁਦਰੀਕਰਨ ਕਰਨ ਅਤੇ ਭੁਗਤਾਨ ਕੀਤੀ ਪੇਸ਼ਕਸ਼ ਨੂੰ ਵੱਖਰਾ ਕਰਨ ਦਾ ਇੱਕ ਤਰੀਕਾ। ਹਾਲਾਂਕਿ, ਪ੍ਰਤੀਯੋਗੀਆਂ ਦੁਆਰਾ ਵਿਕਾਸ ਅਤੇ ਤੈਨਾਤੀ ਦੀ ਗਤੀ, ਖਾਸ ਤੌਰ ‘ਤੇ OpenAI ਦੇ ChatGPT ਵਿੱਚ ਲਗਾਤਾਰ ਅੱਪਗਰੇਡ ਅਤੇ Anthropic ਦੇ Claude ਵਿੱਚ ਸੁਧਾਰਾਂ ਨੇ, ਸ਼ਾਇਦ Google ਨੂੰ ਮਜਬੂਰ ਕੀਤਾ। ਆਪਣੇ ਸਭ ਤੋਂ ਸਮਰੱਥ ਜਨਤਕ ਤੌਰ ‘ਤੇ ਉਪਲਬਧ ਮਾਡਲ ਨੂੰ ਇੱਕ ਪੇਵਾਲ ਦੇ ਪਿੱਛੇ ਛੱਡਣ ਨਾਲ ਉਪਭੋਗਤਾ ਅਪਣਾਉਣ, ਡਿਵੈਲਪਰ ਪ੍ਰਯੋਗ, ਅਤੇ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, ਜਨਤਕ ਧਾਰਨਾ ਵਿੱਚ ਜ਼ਮੀਨ ਗੁਆਉਣ ਦਾ ਖ਼ਤਰਾ ਸੀ।
AI ਲੈਂਡਸਕੇਪ ਵੱਧ ਤੋਂ ਵੱਧ ਪਹੁੰਚਯੋਗਤਾ ਦੁਆਰਾ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ। ਜਿਨ੍ਹਾਂ ਮਾਡਲਾਂ ਨਾਲ ਉਪਭੋਗਤਾ ਆਸਾਨੀ ਨਾਲ ਗੱਲਬਾਤ ਕਰ ਸਕਦੇ ਹਨ, ਟੈਸਟ ਕਰ ਸਕਦੇ ਹਨ, ਅਤੇ ਆਪਣੇ ਵਰਕਫਲੋ ਵਿੱਚ ਏਕੀਕ੍ਰਿਤ ਕਰ ਸਕਦੇ ਹਨ, ਉਹ ਤੇਜ਼ੀ ਨਾਲ ਖਿੱਚ ਪ੍ਰਾਪਤ ਕਰਦੇ ਹਨ। Gemini 2.5 Pro ਨੂੰ ਜਨਤਾ ਲਈ ਉਪਲਬਧ ਕਰਵਾ ਕੇ, Google ਦਾ ਉਦੇਸ਼ ਹੈ:
- ਵਿਆਪਕ ਉਪਭੋਗਤਾ ਫੀਡਬੈਕ: ਇੱਕ ਬਹੁਤ ਵੱਡੇ ਅਤੇ ਵਿਭਿੰਨ ਉਪਭੋਗਤਾ ਅਧਾਰ ਤੋਂ ਪ੍ਰਦਰਸ਼ਨ, ਉਪਯੋਗਤਾ, ਅਤੇ ਅਣਕਿਆਸੇ ਐਪਲੀਕੇਸ਼ਨਾਂ ‘ਤੇ ਡੇਟਾ ਇਕੱਠਾ ਕਰਨਾ।
- ਸਮਰੱਥਾਵਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ: ਇਸ ਬਿਰਤਾਂਤ ਨੂੰ ਸਿੱਧਾ ਚੁਣੌਤੀ ਦੇਣਾ ਕਿ ਪ੍ਰਤੀਯੋਗੀਆਂ ਕੋਲ ਇੱਕ ਅਸਾਧਾਰਨ ਬੜ੍ਹਤ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਉਹਨਾਂ ਖੇਤਰਾਂ ਵਿੱਚ ਜਿਨ੍ਹਾਂ ‘ਤੇ Google ਇਸ ਮਾਡਲ ਲਈ ਜ਼ੋਰ ਦਿੰਦਾ ਹੈ।
- ਡਿਵੈਲਪਰ ਦੀ ਦਿਲਚਸਪੀ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਨਾ: ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਤੀਜੀ-ਧਿਰ ਐਪਲੀਕੇਸ਼ਨਾਂ ਅਤੇ ਸੇਵਾਵਾਂ ਵਿੱਚ ਏਕੀਕਰਨ ਲਈ ਮਾਡਲ ਦੀ ਸੰਭਾਵਨਾ ਦੀ ਪੜਚੋਲ ਕਰਨ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕਰਨਾ।
- ਪ੍ਰਤੀਯੋਗੀ ਗਤੀ ਦਾ ਮੁਕਾਬਲਾ ਕਰਨਾ: OpenAI ਅਤੇ ਹੋਰਾਂ ਦੁਆਰਾ ਪੇਸ਼ ਕੀਤੀ ਗਈ ਪਹੁੰਚਯੋਗਤਾ ਅਤੇ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੀ ਤਰੱਕੀ ਦਾ ਸਿੱਧਾ ਜਵਾਬ ਦੇਣਾ।
Google ਦੀ ਅਧਿਕਾਰਤ ਸਥਿਤੀ Gemini 2.5 Pro ਨੂੰ ਇੱਕ ਤਰਕ ਮਾਡਲ (reasoning model) ਵਜੋਂ ਉਜਾਗਰ ਕਰਦੀ ਹੈ, ਜੋ OpenAI ਦੇ o3 Mini ਅਤੇ DeepSeek R1 ਵਰਗੇ ਪ੍ਰਤੀਯੋਗੀਆਂ ਨਾਲ ਸਮਾਨਤਾਵਾਂ ਖਿੱਚਦੀ ਹੈ। ਕੰਪਨੀ ਗੁੰਝਲਦਾਰ ਖੇਤਰਾਂ ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਿਤ ਤਰੱਕੀ ‘ਤੇ ਜ਼ੋਰ ਦਿੰਦੀ ਹੈ: ਉੱਨਤ ਗਣਿਤ, ਵਿਗਿਆਨਕ ਸਮਝ, ਤਰਕਸ਼ੀਲ ਤਰਕ, ਅਤੇ ਆਧੁਨਿਕ ਕੋਡਿੰਗ ਕਾਰਜ। ਪ੍ਰਦਰਸ਼ਨ ਸੁਧਾਰਾਂ ਦਾ ਹਵਾਲਾ ਵੱਖ-ਵੱਖ ਉਦਯੋਗ-ਮਿਆਰੀ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ ਦਿੱਤਾ ਗਿਆ ਹੈ, ਜਿਸ ਵਿੱਚ ਬਦਨਾਮ ਤੌਰ ‘ਤੇ ਮੁਸ਼ਕਲ MMLU (Massive Multitask Language Understanding) ਅਤੇ ਨਵੇਂ ਮੁਲਾਂਕਣ ਪਲੇਟਫਾਰਮ ਜਿਵੇਂ ਕਿ LMArena ਲੀਡਰਬੋਰਡ, ਜਿਸਦਾ ਪ੍ਰਬੰਧਨ UC Berkeley-ਸਬੰਧਤ ਖੋਜਕਰਤਾਵਾਂ ਦੁਆਰਾ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਸ਼ਾਮਲ ਹਨ। ਇਹ ਫੋਕਸ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ChatGPT ਅਤੇ Claude ਦੀਆਂ ਸਮਝੀਆਂ ਗਈਆਂ ਸ਼ਕਤੀਆਂ ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾਉਂਦਾ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਪ੍ਰੋਗਰਾਮਿੰਗ ਸਹਾਇਤਾ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣਾਤਮਕ ਸਮੱਸਿਆ-ਹੱਲ ਕਰਨ ਵਿੱਚ, ਜੋ ਕਿ ਐਂਟਰਪ੍ਰਾਈਜ਼ ਅਪਣਾਉਣ ਅਤੇ ਪੇਸ਼ੇਵਰ ਵਰਤੋਂ ਦੇ ਮਾਮਲਿਆਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਖੇਤਰ ਹਨ। ਮਾਡਲ ਦੀ ਯੋਗਤਾ, ਜਿਵੇਂ ਕਿ Google ਦਾਅਵਾ ਕਰਦਾ ਹੈ, “ਵਿਸ਼ਾਲ ਡੇਟਾਸੈਟਾਂ ਨੂੰ ਸਮਝਣ ਅਤੇ ਵੱਖ-ਵੱਖ ਜਾਣਕਾਰੀ ਸਰੋਤਾਂ ਤੋਂ ਗੁੰਝਲਦਾਰ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਸੰਭਾਲਣ, ਜਿਸ ਵਿੱਚ ਟੈਕਸਟ, ਆਡੀਓ, ਚਿੱਤਰ, ਵੀਡੀਓ ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਪੂਰੇ ਕੋਡ ਰਿਪੋਜ਼ਟਰੀਆਂ ਸ਼ਾਮਲ ਹਨ,” ਇੱਕ ਬਹੁਮੁਖੀ, ਮਲਟੀਮੋਡਲ ਖੁਫੀਆ ਇੰਜਣ ਦੀ ਤਸਵੀਰ ਪੇਂਟ ਕਰਦੀ ਹੈ ਜੋ ਭਾਰੀ ਕੰਮਾਂ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ।
Ghibli-ਫਿਕੇਸ਼ਨ ਦਾ ਵਾਇਰਲ ਆਕਰਸ਼ਣ
ਇਹਨਾਂ ਰਣਨੀਤਕ ਕਾਰਪੋਰੇਟ ਚਾਲਾਂ ਦੇ ਸਮਾਨਾਂਤਰ, ਇੱਕ ਵੱਖਰਾ ਉਪਭੋਗਤਾ-ਸੰਚਾਲਿਤ ਰੁਝਾਨ ਆਨਲਾਈਨ ਦੁਨੀਆ ਨੂੰ ਮੋਹ ਰਿਹਾ ਸੀ। “Ghibli-fy” ਸ਼ਬਦ ਸ਼ਬਦਕੋਸ਼ ਵਿੱਚ ਦਾਖਲ ਹੋਇਆ ਜਦੋਂ ਉਪਭੋਗਤਾਵਾਂ ਨੇ ਜਨਰੇਟਿਵ AI ਦੀ ਸ਼ਕਤੀ ਦੀ ਖੋਜ ਕੀਤੀ, ਮੁੱਖ ਤੌਰ ‘ਤੇ ChatGPT ਦੇ ਏਕੀਕ੍ਰਿਤ ਸਾਧਨਾਂ ਦੁਆਰਾ, ਫੋਟੋਆਂ ਨੂੰ ਬਦਲਣ ਜਾਂ Studio Ghibli ਦੀ ਪ੍ਰਤੀਕ ਸ਼ੈਲੀ ਵਿੱਚ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਵੇਂ ਦ੍ਰਿਸ਼ ਬਣਾਉਣ ਲਈ। ਇਹ ਸਿਰਫ਼ ਇੱਕ ਸਧਾਰਨ ਫਿਲਟਰ ਲਾਗੂ ਕਰਨ ਬਾਰੇ ਨਹੀਂ ਸੀ; ਇਸ ਵਿੱਚ Ghibli ਦੇ ਤੱਤ ਨੂੰ ਹਾਸਲ ਕਰਨਾ ਸ਼ਾਮਲ ਸੀ - ਨਰਮ, ਪੇਂਟਰਲੀ ਟੈਕਸਚਰ, ਭਾਵਪੂਰਤ ਚਰਿੱਤਰ ਡਿਜ਼ਾਈਨ, ਪੁਰਾਣੀ ਯਾਦਾਂ ਵਾਲਾ ਮਾਹੌਲ, ਅਤੇ ਕੁਦਰਤ ਅਤੇ ਕਲਪਨਾ ਦਾ ਇਕਸੁਰ ਏਕੀਕਰਨ।
Studio Ghibli ਕਿਉਂ? AI ਚਿੱਤਰ ਉਤਪਾਦਨ ਦੇ ਸੰਦਰਭ ਵਿੱਚ ਇਸਦੀ ਚੁੰਬਕੀ ਅਪੀਲ ਵਿੱਚ ਕਈ ਕਾਰਕ ਯੋਗਦਾਨ ਪਾਉਂਦੇ ਹਨ:
- ਵਿਲੱਖਣ ਅਤੇ ਪਿਆਰੀ ਸੁਹਜ: Ghibli ਦੀ ਹੱਥ-ਨਾਲ ਖਿੱਚੀ ਸ਼ੈਲੀ ਤੁਰੰਤ ਪਛਾਣਨ ਯੋਗ, ਦ੍ਰਿਸ਼ਟੀਗਤ ਤੌਰ ‘ਤੇ ਆਕਰਸ਼ਕ ਹੈ, ਅਤੇ ਦੁਨੀਆ ਭਰ ਦੇ ਲੱਖਾਂ ਲੋਕਾਂ ਲਈ ਪੁਰਾਣੀਆਂ ਯਾਦਾਂ, ਹੈਰਾਨੀ ਅਤੇ ਆਰਾਮ ਦੀਆਂ ਮਜ਼ਬੂਤ ਭਾਵਨਾਵਾਂ ਪੈਦਾ ਕਰਦੀ ਹੈ।
- ਭਾਵਨਾਤਮਕ ਗੂੰਜ: ਸਟੂਡੀਓ ਦੀਆਂ ਫਿਲਮਾਂ ਅਕਸਰ ਭਾਵਨਾਤਮਕ ਡੂੰਘਾਈ ਨਾਲ ਡੂੰਘੇ ਵਿਸ਼ਿਆਂ ਦੀ ਪੜਚੋਲ ਕਰਦੀਆਂ ਹਨ, ਅਤੇ ਉਪਭੋਗਤਾ ਆਪਣੀਆਂ ਤਸਵੀਰਾਂ ਜਾਂ ਵਿਚਾਰਾਂ ਨੂੰ ਸਮਾਨ ਭਾਵਨਾ ਨਾਲ ਭਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਨ।
- ਤਕਨੀਕੀ ਪ੍ਰਦਰਸ਼ਨ: ਅਜਿਹੀ ਖਾਸ ਅਤੇ ਸੂਖਮ ਕਲਾ ਸ਼ੈਲੀ ਨੂੰ ਸਫਲਤਾਪੂਰਵਕ ਦੁਹਰਾਉਣਾ ਇੱਕ AI ਦੀ ਚਿੱਤਰ ਉਤਪਾਦਨ ਸ਼ਕਤੀ ਦੇ ਇੱਕ ਮਜਬੂਰ ਕਰਨ ਵਾਲੇ ਪ੍ਰਦਰਸ਼ਨ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ, ਆਮ ਆਉਟਪੁੱਟ ਤੋਂ ਪਰੇ ਧੱਕਦਾ ਹੈ।
- ਸੋਸ਼ਲ ਮੀਡੀਆ ਸ਼ੇਅਰਯੋਗਤਾ: ਨਤੀਜੇ ਵਜੋਂ ਚਿੱਤਰ ਬਹੁਤ ਜ਼ਿਆਦਾ ਸ਼ੇਅਰ ਕਰਨ ਯੋਗ ਹੁੰਦੇ ਹਨ, ਜੋ Instagram, X (ਪਹਿਲਾਂ Twitter), ਅਤੇ TikTok ਵਰਗੇ ਪਲੇਟਫਾਰਮਾਂ ‘ਤੇ ਰੁਝਾਨ ਦੀ ਵਾਇਰਲਤਾ ਨੂੰ ਵਧਾਉਂਦੇ ਹਨ।
ChatGPT, ਖਾਸ ਤੌਰ ‘ਤੇ GPT-4o ਦੇ ਰੋਲਆਊਟ ਨਾਲ, Ghibli ਸੁਹਜ ਦੀ ਬੇਨਤੀ ਕਰਨ ਵਾਲੇ ਪ੍ਰੋਂਪਟਾਂ ਦੀ ਵਿਆਖਿਆ ਕਰਨ ਵਿੱਚ ਮਾਹਰ ਸਾਬਤ ਹੋਇਆ। ਉਪਭੋਗਤਾਵਾਂ ਨੇ ਆਪਣੇ ਪਾਲਤੂ ਜਾਨਵਰਾਂ, ਘਰਾਂ, ਲੈਂਡਸਕੇਪਾਂ, ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਸੈਲਫੀਜ਼ ਦੇ ਅਣਗਿਣਤ ਉਦਾਹਰਣ ਸਾਂਝੇ ਕੀਤੇ ਜੋ ਇਸ ਮਨਮੋਹਕ ਐਨੀਮੇਟਡ ਲੈਂਸ ਦੁਆਰਾ ਮੁੜ ਕਲਪਨਾ ਕੀਤੇ ਗਏ ਸਨ। ਇਹ ਸਮਰੱਥਾ ਰਚਨਾਤਮਕ AI ਲਈ ਇੱਕ ਗੈਰ-ਰਸਮੀ, ਪਰ ਬਹੁਤ ਜ਼ਿਆਦਾ ਦਿਖਾਈ ਦੇਣ ਵਾਲਾ, ਬੈਂਚਮਾਰਕ ਬਣ ਗਈ। ਇਸਨੇ ਉਸ ਚੀਜ਼ ਨੂੰ ਟੈਪ ਕੀਤਾ ਜਿਸਨੂੰ ਮੂਲ ਲੇਖ ਨੇ “ਬਾਈਬਲੀ ਮੰਗ” ਕਿਹਾ ਸੀ, ਇਸ ਖਾਸ ਕਲਾਤਮਕ ਪਰਿਵਰਤਨ ਦੇ ਆਲੇ ਦੁਆਲੇ ਦੇ ਸ਼ੁੱਧ ਮਾਤਰਾ ਅਤੇ ਉਤਸ਼ਾਹ ਨੂੰ ਉਜਾਗਰ ਕਰਦੇ ਹੋਏ। ਜਦੋਂ ਕਿ Lego, The Simpsons, Southpark, ਜਾਂ Pixar ਵਰਗੀਆਂ ਹੋਰ ਸ਼ੈਲੀਆਂ ਵੀ ਪ੍ਰਸਿੱਧ ਪ੍ਰਯੋਗ ਸਨ, Ghibli ਦਿੱਖ ਇੱਕ ਵਿਲੱਖਣ ਤੀਬਰਤਾ ਨਾਲ ਗੂੰਜਦੀ ਸੀ, ਸ਼ਾਇਦ ਇਸਦੀ ਕਲਾਤਮਕਤਾ, ਪੁਰਾਣੀਆਂ ਯਾਦਾਂ ਅਤੇ ਭਾਵਨਾਤਮਕ ਨਿੱਘ ਦੇ ਮਿਸ਼ਰਣ ਕਾਰਨ।
Gemini 2.5 Pro Ghibli ਚੁਣੌਤੀ ਦਾ ਸਾਹਮਣਾ ਕਰਦਾ ਹੈ: ਇੱਕ ਔਖੀ ਲੜਾਈ
ਇਸ ਸੰਦਰਭ ਨੂੰ ਦੇਖਦੇ ਹੋਏ, ਕੁਦਰਤੀ ਸਵਾਲ ਉੱਠਿਆ: ਕੀ Google ਦਾ Gemini 2.5 Pro, ਜੋ ਹੁਣ ਮੁਫ਼ਤ ਵਿੱਚ ਉਪਲਬਧ ਹੈ, Ghibli-ਫਿਕੇਸ਼ਨ ਪਾਰਟੀ ਵਿੱਚ ਸ਼ਾਮਲ ਹੋ ਸਕਦਾ ਹੈ? ਮਾਡਲ ਦੀ ਰਿਲੀਜ਼ ਦੀ ਘੋਸ਼ਣਾ ਕਰਨ ਵਾਲੀ ਅਧਿਕਾਰਤ Google ਬਲੌਗ ਪੋਸਟ ਇਸਦੇ ਖਾਸ ਚਿੱਤਰ ਉਤਪਾਦਨ ਵਿਧੀਆਂ ‘ਤੇ ਖਾਸ ਤੌਰ ‘ਤੇ ਚੁੱਪ ਸੀ। ਜਦੋਂ ਕਿ ਇਸਦੀ ਮਲਟੀਮੋਡਲ ਸਮਝ ਦੇ ਹੁਨਰ - ਟੈਕਸਟ, ਆਡੀਓ, ਚਿੱਤਰ, ਵੀਡੀਓ ਅਤੇ ਕੋਡ ਤੋਂ ਇਨਪੁਟ ਨੂੰ ਸਮਝਣਾ - ਦਾ ਦਾਅਵਾ ਕਰਦੇ ਹੋਏ, ਇਸਨੇ ਵਿਜ਼ੂਅਲ ਡੋਮੇਨ ਵਿੱਚ ਇਸਦੀਆਂ ਰਚਨਾ ਸਮਰੱਥਾਵਾਂ ਦਾ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਵੇਰਵਾ ਨਹੀਂ ਦਿੱਤਾ ਜਾਂ ਇਸ ਖਾਸ ਉਪਭੋਗਤਾ-ਸਾਹਮਣਾ ਲਾਗੂ ਕਰਨ ਲਈ ਅੰਤਰੀਵ ਚਿੱਤਰ ਉਤਪਾਦਨ ਇੰਜਣ ਦਾ ਨਾਮ ਨਹੀਂ ਲਿਆ।
ਹੱਥੀਂ ਟੈਸਟਿੰਗ ਨੇ ਜਲਦੀ ਹੀ ਅਸਲੀਅਤ ਦਾ ਖੁਲਾਸਾ ਕੀਤਾ। Gemini 2.5 Pro (ਪ੍ਰਯੋਗਾਤਮਕ) ਤੋਂ Ghibli-ਵਰਗੀਆਂ ਤਸਵੀਰਾਂ ਕੱਢਣ ਦੀਆਂ ਕੋਸ਼ਿਸ਼ਾਂ ਲਗਾਤਾਰ ਨਿਰਾਸ਼ਾਜਨਕ ਸਾਬਤ ਹੋਈਆਂ, ਜੋ ChatGPT ਨਾਲ ਆਸਾਨੀ ਨਾਲ ਪ੍ਰਾਪਤ ਹੋਣ ਵਾਲੇ ਨਤੀਜਿਆਂ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਪਾੜੇ ਨੂੰ ਉਜਾਗਰ ਕਰਦੀਆਂ ਹਨ।
ਸ਼ੁਰੂਆਤੀ ਕੋਸ਼ਿਸ਼ਾਂ ਅਤੇ ਰੁਕਾਵਟਾਂ:
- ਸਧਾਰਨ ਪ੍ਰੋਂਪਟ ਅਸਫਲ: “ਇਸ ਚਿੱਤਰ ਨੂੰ Ghiblify ਕਰੋ” ਜਾਂ “ਇਸ ਫੋਟੋ ਨੂੰ Studio Ghibli ਸ਼ੈਲੀ ਵਿੱਚ ਬਦਲੋ” ਵਰਗੀਆਂ ਸਿੱਧੀਆਂ ਬੇਨਤੀਆਂ ਦਾ ਜਵਾਬ ਕਲਾਤਮਕ ਵਿਆਖਿਆ ਨਾਲ ਨਹੀਂ, ਸਗੋਂ ਡੱਬਾਬੰਦ ਗਲਤੀ ਸੁਨੇਹਿਆਂ ਨਾਲ ਮਿਲਿਆ। ਇੱਕ ਆਮ ਜਵਾਬ, ਜਿਵੇਂ ਕਿ ਮੂਲ ਲੇਖ ਵਿੱਚ ਨੋਟ ਕੀਤਾ ਗਿਆ ਹੈ, ਸੀ: “ਮੈਨੂੰ ਮਾਫ਼ ਕਰਨਾ, ਮੈਂ ਇਸ ਬੇਨਤੀ ਨੂੰ ਪੂਰਾ ਨਹੀਂ ਕਰ ਸਕਦਾ। ਤੁਹਾਡੀ ਤਸਵੀਰ ‘ਤੇ ‘Ghibli’ ਸ਼ੈਲੀ ਲਾਗੂ ਕਰਨ ਲਈ ਲੋੜੀਂਦਾ ਟੂਲ ਇਸ ਵੇਲੇ ਉਪਲਬਧ ਨਹੀਂ ਹੈ।” ਇਹ ਜਾਂ ਤਾਂ ਖਾਸ ਸ਼ੈਲੀ ਟ੍ਰਾਂਸਫਰ ਸਮਰੱਥਾ ਦੀ ਘਾਟ ਦਾ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਜਾਂ ਸ਼ਾਇਦ ਕਾਪੀਰਾਈਟ ਕੀਤੀਆਂ ਕਲਾਤਮਕ ਸ਼ੈਲੀਆਂ ਦੀ ਨਕਲ ਨੂੰ ਰੋਕਣ ਵਾਲੇ ਸੁਰੱਖਿਆ ਗਾਰਡਰੇਲ, ਹਾਲਾਂਕਿ ਬਾਅਦ ਵਾਲਾ ਦੂਜੇ ਮਾਡਲਾਂ ਦੀਆਂ ਵਿਆਪਕ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਦੇਖਦੇ ਹੋਏ ਘੱਟ ਸੰਭਾਵਨਾ ਹੈ।
- Imagen 3 ‘ਤੇ ਨਿਰਭਰਤਾ: ਹੋਰ ਜਾਂਚ ਅਤੇ ਵਰਤੋਂ ਦੇ ਪੈਟਰਨਾਂ ਨੇ ਜ਼ੋਰਦਾਰ ਸੰਕੇਤ ਦਿੱਤਾ ਕਿ Gemini 2.5 Pro, ਇਸਦੇ ਚੈਟਬੋਟ ਲਾਗੂਕਰਨ ਵਿੱਚ, ਸੰਭਾਵਤ ਤੌਰ ‘ਤੇ ਚਿੱਤਰ ਬਣਾਉਣ ਲਈ Google ਦੇ Imagen 3 ਮਾਡਲ ‘ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ। ਇਹ GPT-4o ਵਿੱਚ ਦਰਸਾਏ ਗਏ ਆਰਕੀਟੈਕਚਰ ਤੋਂ ਬੁਨਿਆਦੀ ਤੌਰ ‘ਤੇ ਵੱਖਰਾ ਹੈ, ਜਿੱਥੇ ਚਿੱਤਰ ਉਤਪਾਦਨ ਵਧੇਰੇ ਡੂੰਘਾਈ ਨਾਲ ਏਕੀਕ੍ਰਿਤ ਜਾਪਦਾ ਹੈ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਭਾਸ਼ਾ ਮਾਡਲ ਦੀ ਸਮਝ ਨਾਲ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਜੁੜੇ ਵਧੇਰੇ ਸੂਖਮ ਸਮਝ ਅਤੇ ਹੇਰਾਫੇਰੀ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। Imagen 3 ਆਪਣੇ ਆਪ ਵਿੱਚ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਮਾਡਲ ਹੈ, ਪਰ Gemini ਚੈਟ ਇੰਟਰਫੇਸ ਦੇ ਅੰਦਰ ਇਸਦਾ ਏਕੀਕਰਨ ਘੱਟ ਸਹਿਜ ਹੋ ਸਕਦਾ ਹੈ ਜਾਂ ਮੰਗ ‘ਤੇ ਵੱਖਰੀਆਂ ਕਲਾਤਮਕ ਸ਼ੈਲੀਆਂ ਦੀ ਨਕਲ ਕਰਨ ਲਈ ਲੋੜੀਂਦੀ ਖਾਸ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਦੀ ਘਾਟ ਹੋ ਸਕਦੀ ਹੈ।
ਉੱਨਤ ਪ੍ਰੋਂਪਟਿੰਗ ਦੇ ਮਾੜੇ ਨਤੀਜੇ:
ਇਹ ਪਛਾਣਦੇ ਹੋਏ ਕਿ ਸਧਾਰਨ ਪ੍ਰੋਂਪਟ ਬੇਅਸਰ ਸਨ, ਉਪਭੋਗਤਾਵਾਂ ਨੇ ਵਧੇਰੇ ਆਧੁਨਿਕ ਪਹੁੰਚ ਅਪਣਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ, ਇੱਥੋਂ ਤੱਕ ਕਿ ChatGPT ਜਾਂ Grok ਵਰਗੇ ਹੋਰ AI ਸਾਧਨਾਂ ਦਾ ਲਾਭ ਉਠਾ ਕੇ Gemini ਨੂੰ ਵਧੇਰੇ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਮਾਰਗਦਰਸ਼ਨ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਬਹੁਤ ਵਿਸਤ੍ਰਿਤ ਪ੍ਰੋਂਪਟ ਤਿਆਰ ਕੀਤੇ। ਉਦੇਸ਼ Ghibli ਸੁਹਜ ਨੂੰ ਪਾਠ ਦੇ ਵੇਰਵੇ ਵਿੱਚ ਵਰਣਨ ਕਰਨਾ ਸੀ - ਰੰਗ ਪੈਲਅਟ, ਲਾਈਨਵਰਕ, ਚਰਿੱਤਰ ਦੇ ਪ੍ਰਗਟਾਵੇ, ਪਿਛੋਕੜ ਦੇ ਤੱਤ, ਅਤੇ ਸਮੁੱਚੇ ਮੂਡ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਨਾ - ਇਸ ਉਮੀਦ ਵਿੱਚ ਕਿ ਮਾਡਲ ਇਹਨਾਂ ਵਰਣਨਾਂ ਨੂੰ ਟੀਚਾ ਸ਼ੈਲੀ ਵਰਗਾ ਇੱਕ ਵਿਜ਼ੂਅਲ ਆਉਟਪੁੱਟ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰ ਸਕਦਾ ਹੈ, ਭਾਵੇਂ ਇਹ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਇੱਕ ਅੱਪਲੋਡ ਕੀਤੀ ਤਸਵੀਰ ਨੂੰ “Ghiblify” ਨਾ ਕਰ ਸਕੇ।
ਇਹ ਕੋਸ਼ਿਸ਼ਾਂ ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਵਿਅਰਥ ਸਨ:
- ਅਪ੍ਰਸੰਗਿਕ ਆਉਟਪੁੱਟ: ਕੁਝ ਮਾਮਲਿਆਂ ਵਿੱਚ, Gemini ਇੱਕ ਚਿੱਤਰ ਤਿਆਰ ਕਰੇਗਾ, ਪਰ ਇਹ ਅਕਸਰ ਅੱਪਲੋਡ ਕੀਤੇ ਸਰੋਤ ਚਿੱਤਰ ਜਾਂ ਬੇਨਤੀ ਕੀਤੀ Ghibli ਸ਼ੈਲੀ ਨਾਲ ਬਹੁਤ ਘੱਟ ਜਾਂ ਕੋਈ ਸਮਾਨਤਾ ਨਹੀਂ ਰੱਖਦਾ ਸੀ। ਆਉਟਪੁੱਟ ਇੱਕ ਆਮ ਐਨੀਮੇ ਸ਼ੈਲੀ ਹੋ ਸਕਦੀ ਹੈ, ਜਾਂ ਕੁਝ ਪੂਰੀ ਤਰ੍ਹਾਂ ਅਸੰਬੰਧਿਤ, ਗੁੰਝਲਦਾਰ ਪ੍ਰੋਂਪਟ ਦੀ ਵਿਆਖਿਆ ਕਰਨ ਜਾਂ ਸ਼ੈਲੀ ਦੀਆਂ ਰੁਕਾਵਟਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨ ਵਿੱਚ ਇੱਕ ਟੁੱਟਣ ਦਾ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ।
- ਪ੍ਰੋਸੈਸਿੰਗ ਮੁੱਦੇ: ਅਕਸਰ, ਕੋਸ਼ਿਸ਼ਾਂ ਬਸ ਰੁਕ ਜਾਂਦੀਆਂ ਸਨ। ਚੈਟਬੋਟ ਸੰਕੇਤ ਦੇਵੇਗਾ ਕਿ ਇਹ ਬੇਨਤੀ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਰ ਰਿਹਾ ਸੀ, ਪਰ ਚਿੱਤਰ ਉਤਪਾਦਨ ਅਣਮਿੱਥੇ ਸਮੇਂ ਲਈ ਲਟਕ ਜਾਵੇਗਾ, ਕਦੇ ਵੀ ਨਤੀਜਾ ਨਹੀਂ ਦੇਵੇਗਾ ਜਾਂ ਅੰਤ ਵਿੱਚ ਸਮਾਂ ਸਮਾਪਤ ਹੋ ਜਾਵੇਗਾ। ਇਹ ਮੌਜੂਦਾ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਦੇ ਅੰਦਰ ਗੁੰਝਲਦਾਰ ਚਿੱਤਰ ਉਤਪਾਦਨ ਬੇਨਤੀਆਂ ਜਾਂ ਸ਼ੈਲੀ ਟ੍ਰਾਂਸਫਰ ਕਾਰਜਾਂ ਨੂੰ ਸੰਭਾਲਣ ਵਿੱਚ ਸੰਭਾਵੀ ਮੁਸ਼ਕਲਾਂ ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਦਾ ਹੈ।
- ਅਸੰਗਤ ਗਲਤੀਆਂ: ਖਾਸ “Ghibli ਸ਼ੈਲੀ ਉਪਲਬਧ ਨਹੀਂ” ਸੰਦੇਸ਼ ਤੋਂ ਇਲਾਵਾ, ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਕਈ ਹੋਰ, ਘੱਟ ਖਾਸ ਗਲਤੀ ਸੁਨੇਹਿਆਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪਿਆ, ਜਿਸ ਨਾਲ ਇਸ ਖਾਸ ਰਚਨਾਤਮਕ ਕਾਰਜ ਲਈ ਭਰੋਸੇਯੋਗਤਾ ਦੀ ਭਾਵਨਾ ਵਿੱਚ ਹੋਰ ਵਾਧਾ ਹੋਇਆ।
ਇਹਨਾਂ ਸੰਘਰਸ਼ਾਂ ਅਤੇ ਉਸ ਅਨੁਸਾਰੀ ਆਸਾਨੀ ਦੇ ਵਿਚਕਾਰ ਸਪੱਸ਼ਟ ਅੰਤਰ ਜਿਸ ਨਾਲ ChatGPT ਉਪਭੋਗਤਾ Ghibli-ਪ੍ਰੇਰਿਤ ਚਿੱਤਰ ਤਿਆਰ ਕਰ ਰਹੇ ਸਨ, ਨੇ ਇੱਕ ਸਮਰੱਥਾ ਦੇ ਪਾੜੇ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕੀਤਾ। ਜਦੋਂ ਕਿ Gemini 2.5 Pro ਤਰਕਸ਼ੀਲ ਤਰਕ ਜਾਂ ਕੋਡ ਉਤਪਾਦਨ ਵਿੱਚ ਉੱਤਮ ਹੋ ਸਕਦਾ ਹੈ, ਸੂਖਮ, ਸ਼ੈਲੀ-ਵਿਸ਼ੇਸ਼ ਰਚਨਾਤਮਕ ਵਿਜ਼ੂਅਲ ਕਾਰਜਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹੋਣ ਦੀ ਇਸਦੀ ਯੋਗਤਾ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਘੱਟ ਵਿਕਸਤ ਦਿਖਾਈ ਦਿੱਤੀ, ਘੱਟੋ ਘੱਟ ਇਸਦੇ ਜਨਤਕ ਤੌਰ ‘ਤੇ ਪਹੁੰਚਯੋਗ ਰੂਪ ਵਿੱਚ।
ਡੂੰਘਾਈ ਵਿੱਚ ਗੋਤਾਖੋਰੀ: ਚਿੱਤਰ ਉਤਪਾਦਨ ਆਰਕੀਟੈਕਚਰ ਅਤੇ ਸ਼ੈਲੀ ਪ੍ਰਤੀਕ੍ਰਿਤੀ
ਕਾਰਗੁਜ਼ਾਰੀ ਵਿੱਚ ਅੰਤਰ ਸੰਭਾਵਤ ਤੌਰ ‘ਤੇ ਬੁਨਿਆਦੀ ਅੰਤਰਾਂ ਤੋਂ ਪੈਦਾ ਹੁੰਦਾ ਹੈ ਕਿ ਇਹ AI ਸਿਸਟਮ ਚਿੱਤਰ ਉਤਪਾਦਨ ਅਤੇ ਸ਼ੈਲੀ ਦੀ ਨਕਲ ਤੱਕ ਕਿਵੇਂ ਪਹੁੰਚਦੇ ਹਨ।
- ਏਕੀਕ੍ਰਿਤ ਬਨਾਮ ਆਰਕੈਸਟਰੇਟਡ ਜਨਰੇਸ਼ਨ: GPT-4o ਵਰਗੇ ਮਾਡਲ ਇੱਕ ਵਧੇਰੇ ਮਜ਼ਬੂਤੀ ਨਾਲ ਏਕੀਕ੍ਰਿਤ ਮਲਟੀਮੋਡਲ ਆਰਕੀਟੈਕਚਰ ਰੱਖਦੇ ਜਾਪਦੇ ਹਨ। ਭਾਸ਼ਾ ਦੀ ਸਮਝ ਅਤੇ ਚਿੱਤਰ ਉਤਪਾਦਨ ਦੇ ਹਿੱਸੇ ਵਧੇਰੇ ਇਕਸੁਰਤਾ ਨਾਲ ਕੰਮ ਕਰ ਸਕਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਮਾਡਲ “Ghibli” ਵਰਗੀ ਸ਼ੈਲੀ ਦੇ ਅਰਥਾਂ