ਕੋਡਿੰਗ ਕਾਰਜਾਂ ਲਈ ਵਿਸ਼ੇਸ਼ ਤੌਰ ‘ਤੇ ਤਿਆਰ ਕੀਤੀ ਗਈ ਆਰਟੀਫਿਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ (AI) ਦੇ ਖੇਤਰ ਵਿੱਚ ਇੱਕ ਸੰਭਾਵੀ ਉਥਲ-ਪੁਥਲ ਹੋ ਰਹੀ ਹੈ। ਲੰਬੇ ਸਮੇਂ ਤੋਂ, Anthropic ਦੁਆਰਾ ਵਿਕਸਤ ਕੀਤੇ ਮਾਡਲ, ਖਾਸ ਤੌਰ ‘ਤੇ ਇਸਦੀ Claude ਸੀਰੀਜ਼, ਨੂੰ ਅਕਸਰ ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਕੋਡ ਲਿਖਣ, ਡੀਬੱਗ ਕਰਨ ਅਤੇ ਸਮਝਣ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰਨ ਲਈ ਮੋਹਰੀ ਮੰਨਿਆ ਜਾਂਦਾ ਰਿਹਾ ਹੈ। ਹਾਲਾਂਕਿ, ਹਾਲੀਆ ਘਟਨਾਕ੍ਰਮ ਦੱਸਦੇ ਹਨ ਕਿ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਨਵਾਂ ਚੁਣੌਤੀ ਦੇਣ ਵਾਲਾ ਮੈਦਾਨ ਵਿੱਚ ਦਾਖਲ ਹੋਇਆ ਹੈ: Google ਦਾ Gemini 2.5। ਸ਼ੁਰੂਆਤੀ ਸੰਕੇਤਕ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਬੈਂਚਮਾਰਕ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਸ਼ੁਰੂਆਤੀ ਡਿਵੈਲਪਰ ਫੀਡਬੈਕ ਸ਼ਾਮਲ ਹਨ, ਇਸ ਨਵੀਨਤਮ ਸੰਸਕਰਣ ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਦੇ ਹਨ ਜੋ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ AI-ਸੰਚਾਲਿਤ ਕੋਡਿੰਗ ਸਹਾਇਤਾ ਲਈ ਮਿਆਰਾਂ ਨੂੰ ਮੁੜ ਪਰਿਭਾਸ਼ਿਤ ਕਰ ਸਕਦਾ ਹੈ, ਇਸ ਬਾਰੇ ਸਵਾਲ ਉਠਾਉਂਦਾ ਹੈ ਕਿ ਕੀ ਸਥਾਪਤ ਲੜੀ ਨੂੰ ਮੁੜ ਵਿਵਸਥਿਤ ਕੀਤਾ ਜਾਣ ਵਾਲਾ ਹੈ। ਖਾਸ ਤੌਰ ‘ਤੇ, Gemini 2.5 Pro Experimental ਦਾ ਉਭਾਰ, ਡਿਵੈਲਪਰ ਭਾਈਚਾਰੇ ਵਿੱਚ ਤਿੱਖੀ ਚਰਚਾ ਅਤੇ ਤੁਲਨਾ ਨੂੰ ਜਨਮ ਦੇ ਰਿਹਾ ਹੈ।
ਬੈਂਚਮਾਰਕਿੰਗ ਦੀ ਮੁਹਾਰਤ: ਇੱਕ ਮਾਤਰਾਤਮਕ ਲਾਭ?
ਉਦੇਸ਼ਪੂਰਨ ਮੈਟ੍ਰਿਕਸ ਅਕਸਰ ਇੱਕ ਨਵੇਂ ਮਾਡਲ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦੀ ਪਹਿਲੀ ਝਲਕ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ, ਅਤੇ ਇਸ ਸਬੰਧ ਵਿੱਚ, Gemini 2.5 ਨੇ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਪ੍ਰਵੇਸ਼ ਕੀਤਾ ਹੈ। ਇੱਕ ਖਾਸ ਤੌਰ ‘ਤੇ ਢੁਕਵਾਂ ਮੁਲਾਂਕਣ Aider Polyglot ਲੀਡਰਬੋਰਡ ਹੈ, ਇੱਕ ਬੈਂਚਮਾਰਕ ਜੋ ਕਈ ਪ੍ਰੋਗਰਾਮਿੰਗ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਨਵਾਂ ਕੋਡ ਤਿਆਰ ਕਰਨ ਅਤੇ ਮੌਜੂਦਾ ਕੋਡਬੇਸ ਨੂੰ ਸੋਧਣ ਦੇ ਵਿਹਾਰਕ ਕਾਰਜਾਂ ਵਿੱਚ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ (LLMs) ਦੀ ਮੁਹਾਰਤ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਸਾਵਧਾਨੀ ਨਾਲ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਸ ਮੰਗ ਵਾਲੇ ਮੁਲਾਂਕਣ ਦੇ ਅੰਦਰ, Gemini 2.5 Pro ਦੇ ਪ੍ਰਯੋਗਾਤਮਕ ਸੰਸਕਰਣ ਨੇ 72.9% ਦਾ ਸ਼ਾਨਦਾਰ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ। ਇਹ ਅੰਕੜਾ ਇਸਨੂੰ ਮਜ਼ਬੂਤ ਪ੍ਰਤੀਯੋਗੀਆਂ ਤੋਂ ਕਾਫ਼ੀ ਅੱਗੇ ਰੱਖਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ Anthropic ਦਾ Claude 3.7 Sonnet ਸ਼ਾਮਲ ਹੈ, ਜਿਸ ਨੇ 64.9% ਦਰਜ ਕੀਤਾ। ਇਸਨੇ OpenAI ਦੀਆਂ ਪੇਸ਼ਕਸ਼ਾਂ ਨੂੰ ਵੀ ਪਛਾੜ ਦਿੱਤਾ, ਜਿਵੇਂ ਕਿ o1 ਮਾਡਲ (61.7%) ਅਤੇ o3-mini ਉੱਚ ਵੇਰੀਐਂਟ (60.4%)। ਇੱਕ ਕੋਡਿੰਗ-ਵਿਸ਼ੇਸ਼ ਬੈਂਚਮਾਰਕ ਵਿੱਚ ਅਜਿਹੀ ਲੀਡ ਇਸ ਖੇਤਰ ਵਿੱਚ Gemini 2.5 ਦੀ ਯੋਗਤਾ ਲਈ ਇੱਕ ਮਜ਼ਬੂਤ ਮਾਤਰਾਤਮਕ ਦਲੀਲ ਹੈ।
ਕੋਡਿੰਗ-ਕੇਂਦਰਿਤ ਮੁਲਾਂਕਣਾਂ ਤੋਂ ਪਰੇ, Gemini 2.5 ਨੇ ਤਰਕ ਅਤੇ ਗਿਆਨ ਦੀ ਵਰਤੋਂ ਦੇ ਵਿਆਪਕ ਟੈਸਟਾਂ ਵਿੱਚ ਬੇਮਿਸਾਲ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਇਆ ਹੈ। ਇਸਨੇ GPQA (Graduate-Level Google-Proof Q&A) ਬੈਂਚਮਾਰਕ ਵਿੱਚ ਚੋਟੀ ਦਾ ਦਰਜਾ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਇੱਕ ਸਖ਼ਤ ਟੈਸਟ ਜੋ AI ਮਾਡਲਾਂ ਨੂੰ ਗ੍ਰੈਜੂਏਟ ਪੱਧਰ ‘ਤੇ ਆਮ ਤੌਰ ‘ਤੇ ਸਾਹਮਣੇ ਆਉਣ ਵਾਲੇ ਵੱਖ-ਵੱਖ ਵਿਗਿਆਨਕ ਵਿਸ਼ਿਆਂ ਦੇ ਗੁੰਝਲਦਾਰ ਸਵਾਲਾਂ ਨਾਲ ਚੁਣੌਤੀ ਦਿੰਦਾ ਹੈ। Gemini 2.5 ਨੇ ਇਸ ਬੈਂਚਮਾਰਕ ‘ਤੇ 83% ਦਾ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ। ਇਸ ਪ੍ਰਦਰਸ਼ਨ ਨੇ OpenAI ਦੇ o1-Pro ਮਾਡਲ ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ, ਜਿਸ ਨੇ 79% ਸਕੋਰ ਕੀਤਾ, ਅਤੇ Anthropic ਦੇ Claude 3.7 Sonnet, ਜਿਸ ਨੇ ਵਿਸਤ੍ਰਿਤ ਸੋਚਣ ਦੇ ਸਮੇਂ ਦੀਆਂ ਤਕਨੀਕਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਵੀ 77% ਪ੍ਰਾਪਤ ਕੀਤਾ। ਵਿਭਿੰਨ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ ਲਗਾਤਾਰ ਉੱਚ ਦਰਜਾਬੰਦੀ, ਜਿਸ ਵਿੱਚ ਕੋਡਿੰਗ ਵਰਗੇ ਵਿਸ਼ੇਸ਼ ਹੁਨਰਾਂ ਦੇ ਨਾਲ-ਨਾਲ ਆਮ ਤਰਕ ਦੀ ਜਾਂਚ ਕਰਨ ਵਾਲੇ ਵੀ ਸ਼ਾਮਲ ਹਨ, ਇੱਕ ਮਜ਼ਬੂਤ ਅਤੇ ਬਹੁਮੁਖੀ ਅੰਡਰਲਾਈੰਗ ਆਰਕੀਟੈਕਚਰ ਦਾ ਸੁਝਾਅ ਦਿੰਦੇ ਹਨ। ਵਿਸ਼ੇਸ਼ ਕੋਡਿੰਗ ਯੋਗਤਾ ਅਤੇ ਵਿਆਪਕ ਬੌਧਿਕ ਸਮਰੱਥਾ ਦਾ ਇਹ ਸੁਮੇਲ ਇੱਕ ਵਿਆਪਕ AI ਸਹਾਇਕ ਦੀ ਭਾਲ ਕਰਨ ਵਾਲੇ ਡਿਵੈਲਪਰਾਂ ਲਈ ਇੱਕ ਮੁੱਖ ਅੰਤਰ ਹੋ ਸਕਦਾ ਹੈ।
ਡਿਵੈਲਪਰ ਦੀ ਪ੍ਰਸ਼ੰਸਾ ਅਤੇ ਅਸਲ-ਸੰਸਾਰ ਪ੍ਰਮਾਣਿਕਤਾ
ਜਦੋਂ ਕਿ ਬੈਂਚਮਾਰਕ ਕੀਮਤੀ ਮਾਤਰਾਤਮਕ ਸੂਝ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ, ਇੱਕ AI ਕੋਡਿੰਗ ਸਹਾਇਕ ਦੀ ਅਸਲ ਪ੍ਰੀਖਿਆ ਅਸਲ-ਸੰਸਾਰ ਪ੍ਰੋਜੈਕਟਾਂ ਨਾਲ ਨਜਿੱਠਣ ਵਾਲੇ ਡਿਵੈਲਪਰਾਂ ਦੁਆਰਾ ਇਸਦੀ ਵਿਹਾਰਕ ਵਰਤੋਂ ਵਿੱਚ ਹੁੰਦੀ ਹੈ। ਸ਼ੁਰੂਆਤੀ ਰਿਪੋਰਟਾਂ ਅਤੇ ਪ੍ਰਸੰਸਾ ਪੱਤਰ ਸੁਝਾਅ ਦਿੰਦੇ ਹਨ ਕਿ Gemini 2.5 ਨਾ ਸਿਰਫ਼ ਨਿਯੰਤਰਿਤ ਟੈਸਟਾਂ ਵਿੱਚ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰ ਰਿਹਾ ਹੈ, ਬਲਕਿ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਉਹਨਾਂ ਦੇ ਰੋਜ਼ਾਨਾ ਦੇ ਕੰਮ ਦੇ ਪ੍ਰਵਾਹ ਵਿੱਚ ਵੀ ਪ੍ਰਭਾਵਿਤ ਕਰ ਰਿਹਾ ਹੈ। Mckay Wrigley, ਇੱਕ ਡਿਵੈਲਪਰ ਜੋ ਨਵੇਂ ਮਾਡਲ ਨਾਲ ਸਰਗਰਮੀ ਨਾਲ ਪ੍ਰਯੋਗ ਕਰ ਰਿਹਾ ਹੈ, ਨੇ ਇੱਕ ਮਜ਼ਬੂਤ ਸਮਰਥਨ ਦੀ ਪੇਸ਼ਕਸ਼ ਕੀਤੀ, ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਕਿਹਾ, ‘Gemini 2.5 Pro ਹੁਣ ਆਸਾਨੀ ਨਾਲ ਕੋਡ ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ ਮਾਡਲ ਹੈ।’ ਉਸਦੇ ਨਿਰੀਖਣ ਸਿਰਫ਼ ਕੋਡ ਉਤਪਤੀ ਤੋਂ ਪਰੇ ਸਨ; ਉਸਨੇ ਉਹਨਾਂ ਉਦਾਹਰਣਾਂ ਨੂੰ ਉਜਾਗਰ ਕੀਤਾ ਜਿੱਥੇ ਮਾਡਲ ਨੇ ਉਹ ਪ੍ਰਦਰਸ਼ਿਤ ਕੀਤਾ ਜਿਸਨੂੰ ਉਸਨੇ ‘ਸੱਚੀ ਪ੍ਰਤਿਭਾ ਦੀਆਂ ਝਲਕੀਆਂ‘ ਕਿਹਾ। ਇਸ ਤੋਂ ਇਲਾਵਾ, Wrigley ਨੇ ਇੱਕ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਵਿਸ਼ੇਸ਼ਤਾ ਵੱਲ ਇਸ਼ਾਰਾ ਕੀਤਾ: ਮਾਡਲ ਸਿਰਫ਼ ਉਪਭੋਗਤਾ ਪ੍ਰੋਂਪਟਾਂ ਨਾਲ ਸਹਿਮਤ ਹੋਣ ਲਈ ਡਿਫੌਲਟ ਨਹੀਂ ਹੁੰਦਾ ਬਲਕਿ ਵਧੇਰੇ ਆਲੋਚਨਾਤਮਕ ਤੌਰ ‘ਤੇ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ, ਸਮਝ ਜਾਂ ਸਿਮੂਲੇਟਡ ਤਰਕ ਦੇ ਡੂੰਘੇ ਪੱਧਰ ਦਾ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ। ਉਸਦਾ ਸਿੱਟਾ ਜ਼ੋਰਦਾਰ ਸੀ: ‘Google ਨੇ ਇੱਥੇ ਇੱਕ ਅਸਲੀ ਜੇਤੂ ਪ੍ਰਦਾਨ ਕੀਤਾ ਹੈ।’
ਇਹ ਸਕਾਰਾਤਮਕ ਭਾਵਨਾ ਦੂਜਿਆਂ ਦੁਆਰਾ ਸਾਂਝੀ ਕੀਤੀ ਜਾਪਦੀ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਜਦੋਂ Anthropic ਦੇ ਉੱਚ-ਸਨਮਾਨਿਤ Claude 3.7 Sonnet ਨਾਲ ਸਿੱਧੀ ਤੁਲਨਾ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਬਹੁਤ ਸਾਰੇ ਡਿਵੈਲਪਰ ਪਾ ਰਹੇ ਹਨ ਕਿ ਉਹਨਾਂ ਦੇ ਵਿਹਾਰਕ ਤਜ਼ਰਬੇ Gemini 2.5 ਦੇ ਪੱਖ ਵਿੱਚ ਬੈਂਚਮਾਰਕ ਨਤੀਜਿਆਂ ਨਾਲ ਮੇਲ ਖਾਂਦੇ ਹਨ। ਇੱਕ ਉਦਾਹਰਨਤਮਕ ਬਿਰਤਾਂਤ Reddit ‘ਤੇ ਇੱਕ ਉਪਭੋਗਤਾ ਤੋਂ ਸਾਹਮਣੇ ਆਇਆ ਜਿਸ ਨੇ Claude 3.7 Sonnet ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕਈ ਘੰਟਿਆਂ ਵਿੱਚ ਇੱਕ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣ ਲਈ ਆਪਣੇ ਸੰਘਰਸ਼ ਦਾ ਵੇਰਵਾ ਦਿੱਤਾ। ਉਪਭੋਗਤਾ ਦੇ ਅਨੁਸਾਰ, ਨਤੀਜਾ ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਗੈਰ-ਕਾਰਜਸ਼ੀਲ ਕੋਡ ਸੀ ਜੋ ਮਾੜੀ ਸੁਰੱਖਿਆ ਅਭਿਆਸਾਂ ਨਾਲ ਭਰਿਆ ਹੋਇਆ ਸੀ, ਜਿਵੇਂ ਕਿ API ਕੁੰਜੀਆਂ ਨੂੰ ਸਿੱਧੇ ਕੋਡ (ਹਾਰਡਕੋਡਿੰਗ) ਵਿੱਚ ਸ਼ਾਮਲ ਕਰਨਾ। ਨਿਰਾਸ਼ ਹੋ ਕੇ, ਡਿਵੈਲਪਰ Gemini 2.5 ‘ਤੇ ਸਵਿਚ ਕਰ ਗਿਆ। ਉਹਨਾਂ ਨੇ Claude ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਪੂਰੇ ਨੁਕਸਦਾਰ ਕੋਡਬੇਸ ਨੂੰ ਇਨਪੁਟ ਵਜੋਂ ਪ੍ਰਦਾਨ ਕੀਤਾ। Gemini 2.5 ਨੇ ਕਥਿਤ ਤੌਰ ‘ਤੇ ਨਾ ਸਿਰਫ਼ ਨਾਜ਼ੁਕ ਖਾਮੀਆਂ ਦੀ ਪਛਾਣ ਕੀਤੀ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਸਮਝਾਇਆ, ਬਲਕਿ ਪੂਰੀ ਐਪਲੀਕੇਸ਼ਨ ਨੂੰ ਦੁਬਾਰਾ ਲਿਖਣ ਲਈ ਅੱਗੇ ਵਧਿਆ, ਨਤੀਜੇ ਵਜੋਂ ਇੱਕ ਕਾਰਜਸ਼ੀਲ ਅਤੇ ਵਧੇਰੇ ਸੁਰੱਖਿਅਤ ਸੰਸਕਰਣ ਬਣਿਆ। ਇਹ ਕਿੱਸਾ ਗੁੰਝਲਦਾਰ ਡੀਬੱਗਿੰਗ ਅਤੇ ਰੀਫੈਕਟਰਿੰਗ ਕਾਰਜਾਂ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸੰਭਾਲਣ ਲਈ Gemini 2.5 ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦਾ ਹੈ।
ਹੋਰ ਤੁਲਨਾਤਮਕ ਟੈਸਟਾਂ ਨੇ ਵਿਕਾਸ ਦੇ ਵੱਖ-ਵੱਖ ਪਹਿਲੂਆਂ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ ਹੈ। ਸੋਸ਼ਲ ਪਲੇਟਫਾਰਮ X ‘ਤੇ ਦਸਤਾਵੇਜ਼ੀ ਇੱਕ ਉਦਾਹਰਨ ਵਿੱਚ, ਇੱਕ ਉਪਭੋਗਤਾ ਨੇ Gemini 2.5 ਨੂੰ Claude 3.7 Sonnet ਦੇ ਵਿਰੁੱਧ ਇੱਕ ਵਿਜ਼ੂਅਲ ਕਾਰਜ ਵਿੱਚ ਖੜ੍ਹਾ ਕੀਤਾ: ChatGPT ਦੇ ਯੂਜ਼ਰ ਇੰਟਰਫੇਸ (UI) ਨੂੰ ਦੁਬਾਰਾ ਬਣਾਉਣਾ। ਉਪਭੋਗਤਾ ਦੇ ਮੁਲਾਂਕਣ ਦੇ ਅਨੁਸਾਰ, Gemini 2.5 ਨੇ ਇਸਦੇ Anthropic ਹਮਰੁਤਬਾ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਟੀਚਾ UI ਦਾ ਵਧੇਰੇ ਸਹੀ ਵਿਜ਼ੂਅਲ ਪ੍ਰਤੀਨਿਧਤਾ ਪੈਦਾ ਕੀਤੀ। ਜਦੋਂ ਕਿ UI ਪ੍ਰਤੀਕ੍ਰਿਤੀ ਵਿਕਾਸ ਦਾ ਸਿਰਫ਼ ਇੱਕ ਪਹਿਲੂ ਹੈ, ਅਜਿਹੇ ਕਾਰਜਾਂ ਵਿੱਚ ਸ਼ੁੱਧਤਾ ਇੱਕ ਮਾਡਲ ਦੇ ਵੇਰਵੇ ਵੱਲ ਬਾਰੀਕ ਧਿਆਨ ਅਤੇ ਗੁੰਝਲਦਾਰ ਵਰਣਨ ਜਾਂ ਉਦਾਹਰਣਾਂ ਨੂੰ ਠੋਸ ਆਉਟਪੁੱਟ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰਨ ਦੀ ਇਸਦੀ ਯੋਗਤਾ ਨੂੰ ਦਰਸਾ ਸਕਦੀ ਹੈ।
ਸੁਧਾਰ ਸਿਰਫ਼ ਪ੍ਰਤੀਯੋਗੀਆਂ ਦੇ ਮੁਕਾਬਲੇ ਹੀ ਨਹੀਂ ਹਨ ਬਲਕਿ Google ਦੇ ਆਪਣੇ ਪਿਛਲੇ ਮਾਡਲਾਂ ਨਾਲੋਂ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਤਰੱਕੀ ਨੂੰ ਵੀ ਦਰਸਾਉਂਦੇ ਹਨ। ਡਿਵੈਲਪਰ Alex Mizrahi ਨੇ ਇਸ ਅੰਦਰੂਨੀ ਤਰੱਕੀ ਨੂੰ ਉਜਾਗਰ ਕਰਨ ਵਾਲਾ ਇੱਕ ਤਜਰਬਾ ਸਾਂਝਾ ਕੀਤਾ। ਉਸਨੇ Gemini 2.5 ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਅਤੇ ਪਾਇਆ ਕਿ ਇਹ Rell (ਇੱਕ ਖਾਸ ਪ੍ਰੋਗਰਾਮਿੰਗ ਭਾਸ਼ਾ) ਲਈ ਲਗਭਗ 80-90% ਸਿੰਟੈਕਸ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਇਸਦੇ ਅੰਦਰੂਨੀ ਗਿਆਨ ਅਧਾਰ ਤੋਂ ਯਾਦ ਕਰ ਸਕਦਾ ਹੈ। ਇਸਨੇ ਪਹਿਲਾਂ ਦੇ Gemini ਸੰਸਕਰਣਾਂ ਤੋਂ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਛਾਲ ਮਾਰੀ, ਜੋ, Mizrahi ਦੇ ਅਨੁਸਾਰ, Rell ਸਿੰਟੈਕਸ ਨਾਲ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਸੰਘਰਸ਼ ਕਰਦੇ ਸਨ ਭਾਵੇਂ ਪ੍ਰੋਂਪਟ ਦੇ ਅੰਦਰ ਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਉਦਾਹਰਣਾਂ ਪ੍ਰਦਾਨ ਕੀਤੀਆਂ ਗਈਆਂ ਹੋਣ। ਇਹ ਮਾਡਲ ਦੇ ਅੰਡਰਲਾਈੰਗ ਸਿਖਲਾਈ ਡੇਟਾ ਅਤੇ ਘੱਟ ਆਮ ਭਾਸ਼ਾਵਾਂ ਜਾਂ ਸਿੰਟੈਕਸ ਲਈ ਯਾਦ ਕਰਨ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਵਿੱਚ ਸੁਧਾਰ ਦਾ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ।
ਸਹਿਯੋਗੀ ਕੋਡਿੰਗ ਅਤੇ ਪ੍ਰਸੰਗਿਕ ਲਾਭ
ਕੱਚੇ ਕੋਡ ਉਤਪਤੀ ਅਤੇ ਸ਼ੁੱਧਤਾ ਤੋਂ ਪਰੇ, ਇੱਕ AI ਮਾਡਲ ਦੀ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਸ਼ੈਲੀ ਅਤੇ ਪ੍ਰਸੰਗਿਕ ਸਮਰੱਥਾ ਇੱਕ ਕੋਡਿੰਗ ਸਾਥੀ ਵਜੋਂ ਇਸਦੀ ਉਪਯੋਗਤਾ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਪ੍ਰਭਾਵਤ ਕਰਦੀ ਹੈ। ਉਪਭੋਗਤਾ Gemini 2.5 ਨਾਲ ਕੰਮ ਕਰਦੇ ਸਮੇਂ ਵਧੇਰੇ ਸਹਿਯੋਗੀ ਮਹਿਸੂਸ ਕਰਨ ਦੀ ਰਿਪੋਰਟ ਕਰ ਰਹੇ ਹਨ। ਡਿਵੈਲਪਰ Matthew Berman ਨੇ X ‘ਤੇ ਇੱਕ ਵੱਖਰਾ ਵਿਵਹਾਰ ਨੋਟ ਕੀਤਾ: ‘ਇਹ (Gemini 2.5 Pro) ਰਸਤੇ ਵਿੱਚ ਮੈਨੂੰ ਸਪਸ਼ਟੀਕਰਨ ਵਾਲੇ ਸਵਾਲ ਪੁੱਛਦਾ ਹੈ, ਜੋ ਕਿਸੇ ਹੋਰ ਮਾਡਲ ਨੇ ਨਹੀਂ ਕੀਤਾ ਹੈ।‘ ਉਸਨੇ ਇਸਦੀ ਵਿਆਖਿਆ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਨੂੰ ‘ਬਹੁਤ ਜ਼ਿਆਦਾ‘ ਸਹਿਯੋਗੀ ਬਣਾਉਣ ਵਜੋਂ ਕੀਤੀ। ਇਹ ਕਿਰਿਆਸ਼ੀਲ ਸ਼ਮੂਲੀਅਤ—ਧਾਰਨਾਵਾਂ ਬਣਾਉਣ ਦੀ ਬਜਾਏ ਸਪਸ਼ਟੀਕਰਨ ਦੀ ਮੰਗ ਕਰਨਾ—ਵਧੇਰੇ ਸਟੀਕ ਨਤੀਜਿਆਂ ਵੱਲ ਲੈ ਜਾ ਸਕਦੀ ਹੈ, ਦੁਹਰਾਓ ਨੂੰ ਘਟਾ ਸਕਦੀ ਹੈ, ਅਤੇ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਗਲਤਫਹਿਮੀਆਂ ਨੂੰ ਰੋਕ ਸਕਦੀ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਗੁੰਝਲਦਾਰ ਜਾਂ ਅਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਪਰਿਭਾਸ਼ਿਤ ਕਾਰਜਾਂ ਵਿੱਚ ਜੋ ਅਕਸਰ ‘vibe coding’ ਵਿੱਚ ਸਾਹਮਣੇ ਆਉਂਦੇ ਹਨ ਜਿੱਥੇ ਡਿਵੈਲਪਰ ਕੋਲ ਇੱਕ ਆਮ ਵਿਚਾਰ ਹੁੰਦਾ ਹੈ ਪਰ ਇੱਕ ਸਟੀਕ ਨਿਰਧਾਰਨ ਨਹੀਂ ਹੁੰਦਾ।
ਗੁੰਝਲਦਾਰ ਕੋਡਿੰਗ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ Gemini 2.5 ਦੀ ਸੰਭਾਵੀ ਉੱਤਮਤਾ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਉਣ ਵਾਲਾ ਇੱਕ ਮੁੱਖ ਤਕਨੀਕੀ ਕਾਰਕ ਇਸਦੀ ਵਿਸ਼ਾਲ ਪ੍ਰਸੰਗ ਵਿੰਡੋ ਹੈ। ਮਾਡਲ 1 ਮਿਲੀਅਨ ਇਨਪੁਟ ਟੋਕਨਾਂ ਤੱਕ ਸਮਰਥਨ ਦਾ ਦਾਅਵਾ ਕਰਦਾ ਹੈ। ਇਹ ਮੌਜੂਦਾ ਪ੍ਰਤੀਯੋਗੀਆਂ ਨਾਲੋਂ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਲਾਭ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। OpenAI ਦੇ ਪ੍ਰਮੁੱਖ ਮਾਡਲ, o1 ਅਤੇ o3-mini, ਵਰਤਮਾਨ ਵਿੱਚ 250,000 ਟੋਕਨਾਂ ਦੀ ਇੱਕ ਪ੍ਰਸੰਗ ਵਿੰਡੋ ਦਾ ਸਮਰਥਨ ਕਰਦੇ ਹਨ। ਜਦੋਂ ਕਿ Anthropic ਕਥਿਤ ਤੌਰ ‘ਤੇ ਆਪਣੀ ਪ੍ਰਸੰਗ ਵਿੰਡੋ ਨੂੰ ਵਧਾਉਣ ਲਈ ਕੰਮ ਕਰ ਰਿਹਾ ਹੈ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ 500,000 ਟੋਕਨਾਂ ਤੱਕ, Gemini 2.5 ਦੀ ਮੌਜੂਦਾ ਸਮਰੱਥਾ ਇਹਨਾਂ ਅੰਕੜਿਆਂ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਪਾਰ ਕਰਦੀ ਹੈ।
ਕੋਡਿੰਗ ਲਈ ਇੱਕ ਵੱਡੀ ਪ੍ਰਸੰਗ ਵਿੰਡੋ ਇੰਨੀ ਮਹੱਤਵਪੂਰਨ ਕਿਉਂ ਹੈ? ਆਧੁਨਿਕ ਸਾਫਟਵੇਅਰ ਵਿਕਾਸ ਵਿੱਚ ਅਕਸਰ ਵਿਆਪਕ ਕੋਡਬੇਸ, ਕਈ ਫਾਈਲਾਂ, ਗੁੰਝਲਦਾਰ ਨਿਰਭਰਤਾਵਾਂ, ਅਤੇ ਤਬਦੀਲੀਆਂ ਦੇ ਲੰਬੇ ਇਤਿਹਾਸ ਨਾਲ ਕੰਮ ਕਰਨਾ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ। ਇੱਕ ਵੱਡੀ ਪ੍ਰਸੰਗ ਵਿੰਡੋ ਵਾਲਾ ਇੱਕ ਮਾਡਲ ਇਸ ਆਲੇ ਦੁਆਲੇ ਦੀ ਵਧੇਰੇ ਜਾਣਕਾਰੀ ਨੂੰ ਇੱਕੋ ਸਮੇਂ ਗ੍ਰਹਿਣ ਅਤੇ ਪ੍ਰਕਿਰਿਆ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਇਸਨੂੰ ਵੱਡੇ ਪ੍ਰੋਜੈਕਟਾਂ ਵਿੱਚ ਬਿਹਤਰ ਇਕਸਾਰਤਾ ਬਣਾਈ ਰੱਖਣ, ਵੱਖ-ਵੱਖ ਕੋਡ ਮੋਡੀਊਲਾਂ ਵਿਚਕਾਰ ਗੁੰਝਲਦਾਰ ਅੰਤਰ-ਸਬੰਧਾਂ ਨੂੰ ਸਮਝਣ, ਫਾਈਲਾਂ ਵਿੱਚ ਵੇਰੀਏਬਲ ਵਰਤੋਂ ਅਤੇ ਫੰਕਸ਼ਨ ਪਰਿਭਾਸ਼ਾਵਾਂ ਨੂੰ ਟਰੈਕ ਕਰਨ, ਅਤੇ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਅਜਿਹਾ ਕੋਡ ਤਿਆਰ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ ਜੋ ਮੌਜੂਦਾ ਢਾਂਚੇ ਵਿੱਚ ਵਧੇਰੇ ਸਹਿਜੇ ਹੀ ਏਕੀਕ੍ਰਿਤ ਹੁੰਦਾ ਹੈ ਬਿਨਾਂ ਡਿਵੈਲਪਰ ਨੂੰ ਲਗਾਤਾਰ ਸੰਬੰਧਿਤ ਪ੍ਰਸੰਗ ਦੇ ਸਨਿੱਪਟ ਹੱਥੀਂ ਫੀਡ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਵੱਡੇ ਪੈਮਾਨੇ ‘ਤੇ ਰੀਫੈਕਟਰਿੰਗ, ਪੁਰਾਤਨ ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਸਮਝਣ, ਜਾਂ ਐਪਲੀਕੇਸ਼ਨ ਦੇ ਕਈ ਹਿੱਸਿਆਂ ਨੂੰ ਛੂਹਣ ਵਾਲੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ਵਰਗੇ ਕਾਰਜਾਂ ਲਈ, ਇੱਕ ਮਿਲੀਅਨ-ਟੋਕਨ ਪ੍ਰਸੰਗ ਵਿੰਡੋ ਇੱਕ ਗੇਮ-ਚੇਂਜਰ ਹੋ ਸਕਦੀ ਹੈ, ਗਲਤੀਆਂ ਨੂੰ ਘਟਾ ਸਕਦੀ ਹੈ ਅਤੇ AI ਦੇ ਯੋਗਦਾਨਾਂ ਦੀ ਗੁਣਵੱਤਾ ਅਤੇ ਪ੍ਰਸੰਗਿਕਤਾ ਵਿੱਚ ਸੁਧਾਰ ਕਰ ਸਕਦੀ ਹੈ।
ਲੰਬੇ ਸਮੇਂ ਤੋਂ ਚੱਲ ਰਹੀਆਂ ਕਮੀਆਂ ਅਤੇ ਨਿਗਰਾਨੀ ਦੀ ਲੋੜ
ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤਰੱਕੀ ਅਤੇ ਸਕਾਰਾਤਮਕ ਫੀਡਬੈਕ ਦੇ ਬਾਵਜੂਦ, ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਬਣਾਈ ਰੱਖਣਾ ਮਹੱਤਵਪੂਰਨ ਹੈ: Gemini 2.5, ਖਾਸ ਤੌਰ ‘ਤੇ ਇਸਦੇ ਮੌਜੂਦਾ ‘Pro Experimental’ ਅਹੁਦੇ ਵਿੱਚ, ਇੱਕ ਨਿਰਦੋਸ਼ ਕੋਡਿੰਗ ਓਰੇਕਲ ਨਹੀਂ ਹੈ। ਇਹ ਅਜੇ ਵੀ ਸਾਫਟਵੇਅਰ ਵਿਕਾਸ ਲਈ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਨਾਲ ਜੁੜੀਆਂ ਕੁਝ ਕਲਾਸਿਕ ਚੁਣੌਤੀਆਂ ਅਤੇ ਸੰਭਾਵੀ ਖਤਰਿਆਂ ਨੂੰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦਾ ਹੈ। ਮਨੁੱਖੀ ਨਿਰਣੇ ਅਤੇ ਮਿਹਨਤੀ ਨਿਗਰਾਨੀ ਦੀ ਬੁਨਿਆਦੀ ਲੋੜ ਪੂਰੀ ਤਰ੍ਹਾਂ ਬਣੀ ਹੋਈ ਹੈ।
ਚਿੰਤਾ ਦਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਖੇਤਰ ਸੁਰੱਖਿਆ ਬਣਿਆ ਹੋਇਆ ਹੈ। ਡਿਵੈਲਪਰ Kaden Bilyeu ਨੇ X ‘ਤੇ ਇੱਕ ਉਦਾਹਰਨ ਸਾਂਝੀ ਕੀਤੀ ਜਿੱਥੇ Gemini 2.5 ਨੇ ਕੋਡ ਤਿਆਰ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਜੋ ਚੈਟ ਜਵਾਬਾਂ ਨੂੰ ਸੰਭਾਲਣ ਲਈ ਇੱਕ ਕਲਾਇੰਟ-ਸਾਈਡ API ਬਣਾਏਗਾ। ਇਹ ਪਹੁੰਚ ਅੰਦਰੂਨੀ ਤੌਰ ‘ਤੇ ਅਸੁਰੱਖਿਅਤ ਹੈ ਕਿਉਂਕਿ ਇਹ ਲਾਜ਼ਮੀ ਤੌਰ ‘ਤੇ ਕਲਾਇੰਟ-ਸਾਈਡ ਕੋਡ ਦੇ ਅੰਦਰ API ਕੁੰਜੀ ਦੇ ਖੁਲਾਸੇ ਜਾਂ ਲੀਕ ਵੱਲ ਲੈ ਜਾਵੇਗਾ, ਇਸ ਨੂੰ ਅੰਤਮ-ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਪਹੁੰਚਯੋਗ ਬਣਾ ਦੇਵੇਗਾ। ਇਹ ਉਜਾਗਰ ਕਰਦਾ ਹੈ ਕਿ ਉੱਨਤ ਮਾਡਲਾਂ ਵਿੱਚ ਵੀ ਸੁਰੱਖਿਆ ਦੇ ਸਭ ਤੋਂ ਵਧੀਆ ਅਭਿਆਸਾਂ ਦੀ ਬੁਨਿਆਦੀ ਸਮਝ ਦੀ ਘਾਟ ਹੋ ਸਕਦੀ ਹੈ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਨਾਜ਼ੁਕ ਕਮਜ਼ੋਰੀਆਂ ਪੇਸ਼ ਕਰ ਸਕਦੀਆਂ ਹਨ ਜੇਕਰ ਉਹਨਾਂ ਦੇ ਆਉਟਪੁੱਟ ‘ਤੇ ਅੰਨ੍ਹੇਵਾਹ ਭਰੋਸਾ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਡਿਵੈਲਪਰਾਂ ਨੂੰ AI-ਤਿਆਰ ਕੋਡ ਦੀ ਸਖਤੀ ਨਾਲ ਸਮੀਖਿਆ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਪ੍ਰਮਾਣਿਕਤਾ, ਅਧਿਕਾਰ, ਅਤੇ ਡੇਟਾ ਹੈਂਡਲਿੰਗ ਦੇ ਸਬੰਧ ਵਿੱਚ।
ਇਸ ਤੋਂ ਇਲਾਵਾ, ਬਹੁਤ ਵੱਡੇ ਕੋਡਬੇਸਾਂ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਪ੍ਰਬੰਧਿਤ ਕਰਨ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ ਨੂੰ ਮਿਸ਼ਰਤ ਸਮੀਖਿਆਵਾਂ ਪ੍ਰਾਪਤ ਹੋਈਆਂ ਹਨ, ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਇਸਦੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਪ੍ਰਸੰਗ ਵਿੰਡੋ ਹਮੇਸ਼ਾ ਭਾਰੀ ਲੋਡ ਦੇ ਅਧੀਨ ਵਿਹਾਰਕ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਪੂਰੀ ਤਰ੍ਹਾਂ ਅਨੁਵਾਦ ਨਹੀਂ ਹੋ ਸਕਦੀ। ਡਿਵੈਲਪਰ Louie Bacaj ਨੇ ਲਗਭਗ 3,500 ਲਾਈਨਾਂ ਦੇ ਕੋਡ ਵਾਲੇ ਕੋਡਬੇਸ ‘ਤੇ ਕਾਰਵਾਈਆਂ ਲਈ Gemini 2.5 ਨੂੰ ਕੰਮ ਸੌਂਪਣ ਵੇਲੇ ਮਹੱਤਵਪੂਰਨ ਸੰਘਰਸ਼ਾਂ ਦੀ ਰਿਪੋਰਟ ਕੀਤੀ। Bacaj ਨੇ ਨੋਟ ਕੀਤਾ ਕਿ ਪ੍ਰਸੰਗ ਹੈਂਡਲਿੰਗ ਵਿੱਚ ਮਾਡਲ ਦੇ ਕਥਿਤ ਸੁਧਾਰਾਂ ਅਤੇ ਸਫਲ API ਕਾਲਾਂ ਦੇ ਬਾਵਜੂਦ ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਪ੍ਰਸੰਗ ਪ੍ਰਾਪਤ ਹੋਇਆ ਸੀ, ਇਹ ਅਕਸਰ ਇਸ ਵੱਡੇ ਪ੍ਰੋਜੈਕਟ ਦੇ ਦਾਇਰੇ ਵਿੱਚ ਬੇਨਤੀ ਕੀਤੇ ਕਾਰਜਾਂ ਨੂੰ ਸਹੀ ਜਾਂ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਰਿਹਾ। ਇਹ ਮਹੱਤਵਪੂਰਨ ਮੌਜੂਦਾ ਕੋਡ ਦੇ ਅੰਦਰ ਗੁੰਝਲਦਾਰ ਤਰਕ ਜਾਂ ਹੇਰਾਫੇਰੀ ਕਾਰਜਾਂ ਲਈ ਪੂਰੀ ਪ੍ਰਸੰਗ ਵਿੰਡੋ ਦੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਵਰਤੋਂ ਕਰਨ ਵਿੱਚ ਸੰਭਾਵੀ ਸੀਮਾਵਾਂ ਦਾ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ, ਜਾਂ ਸ਼ਾਇਦ ਕੋਡ ਦੀ ਖਾਸ ਪ੍ਰਕਿਰਤੀ ਅਤੇ ਕਾਰਜ ਦੇ ਅਧਾਰ ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਅਸੰਗਤਤਾਵਾਂ।
ਵਰਤਮਾਨ ਵਿੱਚ ਉਪਲਬਧ Gemini 2.5 Pro ਸੰਸਕਰਣ ਨਾਲ ਜੁੜਿਆ ‘Experimental’ ਲੇਬਲ ਵੀ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਇਹ ਸੰਕੇਤ ਦਿੰਦਾ ਹੈ ਕਿ Google ਅਜੇ ਵੀ ਮਾਡਲ ਨੂੰ ਸਰਗਰਮੀ ਨਾਲ ਸੁਧਾਰ ਰਿਹਾ ਹੈ। ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਸੰਭਾਵੀ ਅਸਥਿਰਤਾ, ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਭਿੰਨਤਾਵਾਂ, ਅਤੇ ਚੱਲ ਰਹੇ ਬਦਲਾਅ ਦੀ ਉਮੀਦ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ ਕਿਉਂਕਿ Google ਫੀਡਬੈਕ ਇਕੱਠਾ ਕਰਦਾ ਹੈ ਅਤੇ ਤਕਨਾਲੋਜੀ ‘ਤੇ ਦੁਹਰਾਉਂਦਾ ਹੈ। ਜਦੋਂ ਕਿ ਇਹ ਪੜਾਅ ਅਤਿ-ਆਧੁਨਿਕ ਸਮਰੱਥਾਵਾਂ ਤੱਕ ਸ਼ੁਰੂਆਤੀ ਪਹੁੰਚ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, ਇਸਦਾ ਮਤਲਬ ਇਹ ਵੀ ਹੈ ਕਿ ਮਾਡਲ ਕੋਲ ਅਜੇ ਤੱਕ ਅੰਤਿਮ ਉਤਪਾਦਨ ਰੀਲੀਜ਼ ਤੋਂ ਉਮੀਦ ਕੀਤੀ ਪੂਰੀ ਭਰੋਸੇਯੋਗਤਾ ਜਾਂ ਪੋਲਿਸ਼ ਨਹੀਂ ਹੋ ਸਕਦੀ। ਨਿਰੰਤਰ ਸੁਧਾਰ ਦੀ ਸੰਭਾਵਨਾ ਹੈ, ਪਰ ਮੌਜੂਦਾ ਉਪਭੋਗਤਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਇੱਕ ਵੱਡੇ ਪੈਮਾਨੇ ਦੇ ਬੀਟਾ ਟੈਸਟ ਵਿੱਚ ਹਿੱਸਾ ਲੈ ਰਹੇ ਹਨ। ਇਹ ਕਮੀਆਂ ਲੂਪ ਵਿੱਚ ਮਨੁੱਖੀ ਡਿਵੈਲਪਰ ਦੀ ਬਦਲੀ ਨਾ ਹੋਣ ਵਾਲੀ ਭੂਮਿਕਾ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦੀਆਂ ਹਨ - ਨਾ ਸਿਰਫ਼ ਗਲਤੀਆਂ ਫੜਨ ਲਈ, ਬਲਕਿ ਆਰਕੀਟੈਕਚਰਲ ਫੈਸਲਿਆਂ, ਰਣਨੀਤਕ ਯੋਜਨਾਬੰਦੀ, ਅਤੇ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਕਿ ਅੰਤਿਮ ਉਤਪਾਦ ਲੋੜਾਂ ਅਤੇ ਗੁਣਵੱਤਾ ਦੇ ਮਿਆਰਾਂ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ।
ਵਿਆਪਕ ਚੁਣੌਤੀ: ਸ਼ਕਤੀ ਨੂੰ ਅਨੁਭਵ ਵਿੱਚ ਪੈਕ ਕਰਨਾ
ਜਦੋਂ ਕਿ Google DeepMind Gemini 2.5 ਵਰਗੇ ਮਾਡਲਾਂ ਨਾਲ ਕਮਾਲ ਦੇ ਤਕਨੀਕੀ ਮੀਲ ਪੱਥਰ ਪ੍ਰਾਪਤ ਕਰਦਾ ਜਾਪਦਾ ਹੈ, ਇੱਕ ਆਵਰਤੀ ਥੀਮ ਸਾਹਮਣੇ ਆਉਂਦਾ ਹੈ: ਕੱਚੀ ਤਕਨੀਕੀ ਸ਼ਕਤੀ ਨੂੰ ਮਜਬੂਰ ਕਰਨ ਵਾਲੇ, ਪਹੁੰਚਯੋਗ, ਅਤੇ ਦਿਲਚਸਪ ਉਪਭੋਗਤਾ ਅਨੁਭਵਾਂ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰਨ ਦੀ ਚੁਣੌਤੀ ਜੋ ਮਾਰਕੀਟ ਦਾ ਧਿਆਨ ਖਿੱਚਦੇ ਹਨ। ਇੱਕ ਧਾਰਨਾ ਹੈ ਕਿ ਭਾਵੇਂ Google ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਵਿਸ਼ਵ-ਪ੍ਰਮੁੱਖ AI ਸਮਰੱਥਾਵਾਂ ਵਿਕਸਤ ਕਰਦਾ ਹੈ, ਇਹ ਕਈ ਵਾਰ ਇਹਨਾਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਇਸ ਤਰੀਕੇ ਨਾਲ ਪੈਕੇਜ ਕਰਨ ਅਤੇ ਪੇਸ਼ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦਾ ਹੈ ਜੋ ਉਪਭੋਗਤਾਵਾਂ ਨਾਲ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਗੂੰਜਦਾ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ OpenAI ਵਰਗੇ ਪ੍ਰਤੀਯੋਗੀਆਂ ਦੀ ਤੁਲਨਾ ਵਿੱਚ।
ਇਸ ਮੁੱਦੇ ਨੂੰ ਏਂਜਲ ਨਿਵੇਸ਼ਕ Nikunj Kothari ਦੁਆਰਾ ਉਜਾਗਰ ਕੀਤਾ ਗਿਆ ਸੀ, ਜਿਸ ਨੇ Google DeepMind ਟੀਮ ਲਈ ਕੁਝ ਹਮਦਰਦੀ ਪ੍ਰਗਟਾਈ। ‘ਮੈਂ Google DeepMind ਟੀਮ ਲਈ ਥੋੜਾ ਜਿਹਾ ਮਹਿਸੂਸ ਕਰਦਾ ਹਾਂ,’ ਉਸਨੇ ਟਿੱਪਣੀ ਕੀਤੀ, ਸ਼ਕਤੀਸ਼ਾਲੀ ਮਾਡਲਾਂ ਦੀ ਸ਼ੁਰੂਆਤ ਅਤੇ ਪ੍ਰਤੀਯੋਗੀਆਂ ਦੁਆਰਾ ਅਕਸਰ ਪੈਦਾ ਹੋਣ ਵਾਲੀਆਂ ਵਾਇਰਲ ਘਟਨਾਵਾਂ ਦੇ ਵਿਚਕਾਰ ਅੰਤਰ ਨੂੰ ਦੇਖਦੇ ਹੋਏ। ‘ਤੁਸੀਂ ਇੱਕ ਵਿਸ਼ਵ-ਬਦਲਣ ਵਾਲਾ ਮਾਡਲ ਬਣਾਉਂਦੇ ਹੋ ਅਤੇ ਹਰ ਕੋਈ ਇਸ ਦੀ ਬਜਾਏ Ghibli-fied ਤਸਵੀਰਾਂ ਪੋਸਟ ਕਰ ਰਿਹਾ ਹੈ,’ ਉਸਨੇ OpenAI ਦੀ GPT-4o ਚਿੱਤਰ ਉਤਪਤੀ ਸਮਰੱਥਾਵਾਂ ਦੇ ਆਲੇ ਦੁਆਲੇ ਦੀ ਗੂੰਜ ਦਾ ਹਵਾਲਾ ਦਿੰਦੇ ਹੋਏ ਕਿਹਾ, ਜਿਸ ਨੇ ਜਲਦੀ ਹੀ ਜਨਤਕ ਕਲਪਨਾ ਨੂੰ ਆਪਣੇ ਕਬਜ਼ੇ ਵਿੱਚ ਲੈ ਲਿਆ। Kothari ਨੇ ਇਸਨੂੰ Google ਲਈ ਇੱਕ ਨਿਰੰਤਰ ਚੁਣੌਤੀ ਵਜੋਂ ਪਛਾਣਿਆ: ਸ਼੍ਰੇਣੀ ਵਿੱਚ ਸਰਵੋਤਮ AI ਬਣਾਉਣ ਦੇ ਸਮਰੱਥ ਬੇਅੰਤ ਤਕਨੀਕੀ ਪ੍ਰਤਿਭਾ ਦਾ ਮਾਲਕ ਹੋਣਾ, ਪਰ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਉਪਭੋਗਤਾ-ਸਾਹਮਣਾ ਕਰਨ ਵਾਲੇ ਉਤਪਾਦ ਡਿਜ਼ਾਈਨ ਅਤੇ ਅਨੁਭਵ ਦੀ ਮਹੱਤਵਪੂਰਨ ਪਰਤ ਵਿੱਚ ਘੱਟ ਨਿਵੇਸ਼ ਕਰਨਾ। ‘ਮੈਂ ਉਹਨਾਂ ਨੂੰ ਬੇਨਤੀ ਕਰਦਾ ਹਾਂ ਕਿ ਉਹ ਆਪਣੇ ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਤਿਭਾਸ਼ਾਲੀ ਲੋਕਾਂ ਵਿੱਚੋਂ 20% ਲੈਣ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਵਿਸ਼ਵ ਪੱਧਰੀ ਉਪਭੋਗਤਾ ਅਨੁਭਵ ਬਣਾਉਣ ਲਈ ਮੁਫਤ ਲਗਾਮ ਦੇਣ,’ ਉਸਨੇ ਅਪੀਲ ਕੀਤੀ।
ਇਹ ਭਾਵਨਾ ਮਾਡਲਾਂ ਦੀ ਸਮਝੀ ਗਈ ‘ਸ਼ਖਸੀਅਤ’ ਤੱਕ ਫੈਲੀ ਹੋਈ ਹੈ। Kothari ਨੇ ਨੋਟ ਕੀਤਾ ਕਿ Gemini 2.5 ਦੀ ਇੰਟਰਐਕਟਿਵ ਸ਼ੈਲੀ ਹੋਰ ਪ੍ਰਮੁੱਖ ਮਾਡਲਾਂ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ‘ਕਾਫ਼ੀ ਬੁਨਿਆਦੀ‘ ਮਹਿਸੂਸ ਹੋਈ। ਇਹ ਵਿਅਕਤੀਗਤ ਤੱਤ, ਜਦੋਂ ਕਿ ਮਾਤਰਾ ਨਿਰਧਾਰਤ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੈ, ਉਪਭੋਗਤਾ ਦੀ ਸ਼ਮੂਲੀਅਤ ਅਤੇ AI ਨਾਲ ਸਹਿਯੋਗ ਕਰਨ ਦੀ ਭਾਵਨਾ ਨੂੰ ਪ੍ਰਭਾਵਤ ਕਰਦਾ ਹੈ। ਕਈ ਹੋਰ ਉਪਭੋਗਤਾਵਾਂ ਨੇ ਇਸ ਨਿਰੀਖਣ ਨੂੰ ਦੁਹਰਾਇਆ, ਇਹ ਸੁਝਾਅ ਦਿੱਤਾ ਕਿ ਤਕਨੀਕੀ ਤੌਰ ‘ਤੇ ਨਿਪੁੰਨ ਹੋਣ ਦੇ ਬਾਵਜੂਦ, ਮਾਡਲ ਵਿੱਚ ਪ੍ਰਤੀਯੋਗੀਆਂ ਦੁਆਰਾ ਪੈਦਾ ਕੀਤੀ ਵਧੇਰੇ ਦਿਲਚਸਪ ਜਾਂ ਸੂਖਮ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਸ਼ੈਲੀ ਦੀ ਘਾਟ ਹੋ ਸਕਦੀ ਹੈ।
ਵਿਹਾਰਕ ਉਪਯੋਗਤਾ ਦੇ ਮੁੱਦੇ ਵੀ ਸਾਹਮਣੇ ਆਏ ਹਨ। ਉਦਾਹਰਨ ਲਈ, Gemini 2.0 Flash ਮਾਡਲ ਦੇ ਅੰਦਰ ਨੇਟਿਵ ਚਿੱਤਰ ਉਤਪਤੀ ਦੀ ਰਿਲੀਜ਼ ਦੀ ਤਕਨੀਕੀ ਤੌਰ ‘ਤੇ ਇਸਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਲਈ ਪ੍ਰਸ਼ੰਸਾ ਕੀਤੀ ਗਈ ਸੀ। ਹਾਲਾਂਕਿ, ਬਹੁਤ ਸਾਰੇ ਉਪਭੋਗਤਾਵਾਂ ਨੇ ਵਿਸ਼ੇਸ਼ਤਾ ਨੂੰ ਲੱਭਣ ਅਤੇ ਵਰਤਣ ਵਿੱਚ ਮੁਸ਼ਕਲ ਦੀ ਰਿਪੋਰਟ ਕੀਤੀ। ਯੂਜ਼ਰ ਇੰਟਰਫੇਸ ਨੂੰ ਗੈਰ-ਅਨੁਭਵੀ ਦੱਸਿਆ ਗਿਆ ਸੀ, ਮੀਨੂ ਦੇ ਅੰਦਰ ਬੇਲੋੜੇ ਤੌਰ ‘ਤੇ ਨੇਸਟ ਕੀ