ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ (AI) ਦਾ ਖੇਤਰ ਲਗਾਤਾਰ ਬਦਲ ਰਿਹਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਅਜਿਹੀਆਂ ਪ੍ਰਾਪਤੀਆਂ ਹੋ ਰਹੀਆਂ ਹਨ ਜੋ ਕਦੇ ਵਿਗਿਆਨਕ ਕਲਪਨਾ ਦਾ ਹਿੱਸਾ ਸਨ। ਸਭ ਤੋਂ ਸਥਾਈ ਮਾਪਦੰਡਾਂ ਵਿੱਚੋਂ ਇੱਕ ਟਿਊਰਿੰਗ ਟੈਸਟ ਰਿਹਾ ਹੈ, ਜਿਸਦੀ ਕਲਪਨਾ ਸੱਤਰ ਸਾਲ ਪਹਿਲਾਂ ਇੱਕ ਮਸ਼ੀਨ ਦੀ ਮਨੁੱਖੀ ਗੱਲਬਾਤ ਦੀ ਯਕੀਨਨ ਨਕਲ ਕਰਨ ਦੀ ਯੋਗਤਾ ਨੂੰ ਮਾਪਣ ਲਈ ਕੀਤੀ ਗਈ ਸੀ। ਦਹਾਕਿਆਂ ਤੱਕ, ਇਹ ਇੱਕ ਮੁਸ਼ਕਲ, ਸ਼ਾਇਦ ਪ੍ਰਤੀਕਾਤਮਕ, ਚੁਣੌਤੀ ਬਣੀ ਰਹੀ। ਹਾਲਾਂਕਿ, ਹਾਲੀਆ ਘਟਨਾਕ੍ਰਮ ਦੱਸਦੇ ਹਨ ਕਿ ਇਹ ਸੀਮਾ ਸ਼ਾਇਦ ਨਿਰਣਾਇਕ ਤੌਰ ‘ਤੇ ਪਾਰ ਹੋ ਗਈ ਹੈ। ਯੂਨੀਵਰਸਿਟੀ ਆਫ਼ ਕੈਲੀਫੋਰਨੀਆ ਐਟ ਸੈਨ ਡਿਏਗੋ (UC San Diego) ਤੋਂ ਉੱਭਰਿਆ ਇੱਕ ਅਧਿਐਨ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ OpenAI ਦਾ ਉੱਨਤ ਭਾਸ਼ਾ ਮਾਡਲ, GPT-4.5, ਨਾ ਸਿਰਫ਼ ਟੈਸਟ ਵਿੱਚੋਂ ਲੰਘਿਆ, ਸਗੋਂ ਹੈਰਾਨੀਜਨਕ ਸਫਲਤਾ ਨਾਲ ਅਜਿਹਾ ਕੀਤਾ, ਅਕਸਰ ਅਸਲ ਮਨੁੱਖਾਂ ਨਾਲੋਂ ਆਪਣੀ ਮਨੁੱਖੀ ਨਕਲ ਵਿੱਚ ਵਧੇਰੇ ਯਕੀਨਨ ਸਾਬਤ ਹੋਇਆ। ਇਹ ਨਤੀਜਾ AI ਸਮਰੱਥਾਵਾਂ ਬਾਰੇ ਗੱਲਬਾਤ ਨੂੰ ਨਵੇਂ ਖੇਤਰ ਵਿੱਚ ਲੈ ਜਾਂਦਾ ਹੈ, ਟੈਸਟ ਦੀ ਪ੍ਰਕਿਰਤੀ, ਮਸ਼ੀਨੀ ਬੁੱਧੀ ਦੀ ਪ੍ਰਕਿਰਤੀ, ਅਤੇ ਅਜਿਹੀਆਂ ਇਕਾਈਆਂ ਬਣਾਉਣ ਦੇ ਪ੍ਰਭਾਵਾਂ ‘ਤੇ ਡੂੰਘੀ ਨਜ਼ਰ ਮਾਰਨ ਦੀ ਮੰਗ ਕਰਦਾ ਹੈ ਜੋ ਸਾਡੇ ਆਪਣੇ ਭਾਸ਼ਾਈ ਵਿਵਹਾਰ ਨੂੰ ਇੰਨੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਦਰਸਾ ਸਕਦੀਆਂ ਹਨ।
ਡਿਜੀਟਲ ਧੋਖੇ ਨੂੰ ਸਮਝਣਾ: ਪ੍ਰਯੋਗ ਦੇ ਅੰਦਰ
ਖੋਜ ਯਤਨ, ਜਿਸਦਾ ਸਿਰਲੇਖ ‘Large Language Models Pass the Turing Test’ ਹੈ ਅਤੇ ਵਰਤਮਾਨ ਵਿੱਚ ਪੀਅਰ ਰਿਵਿਊ ਅਧੀਨ ਹੈ, ਨੇ AI ਦੀ ਗੱਲਬਾਤ ਸਮਰੱਥਾ ਨੂੰ ਮਨੁੱਖਾਂ ਨਾਲ ਸਿੱਧੀ ਤੁਲਨਾ ਵਿੱਚ ਪਰਖਣ ਲਈ ਤਿਆਰ ਕੀਤੀ ਇੱਕ ਵਿਧੀ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਸੈਟਿੰਗ ਇੱਕ ਔਨਲਾਈਨ ਪਲੇਟਫਾਰਮ ਸੀ ਜਿੱਥੇ ਗੱਲਬਾਤ ਪੂਰੀ ਤਰ੍ਹਾਂ ਟੈਕਸਟ ਦੁਆਰਾ ਹੁੰਦੀ ਸੀ, ਜਿਸ ਨਾਲ ਵਿਜ਼ੂਅਲ ਅਤੇ ਆਡੀਟਰੀ ਸੰਕੇਤਾਂ ਨੂੰ ਹਟਾ ਦਿੱਤਾ ਗਿਆ ਸੀ ਜੋ ਇੱਕ ਗੈਰ-ਮਨੁੱਖੀ ਭਾਗੀਦਾਰ ਨੂੰ ਪ੍ਰਗਟ ਕਰ ਸਕਦੇ ਸਨ। ਇਸ ਡਿਜੀਟਲ ਨਕਾਬਪੋਸ਼ੀ ਲਈ ਲਗਭਗ ਤਿੰਨ ਸੌ ਯੂਨੀਵਰਸਿਟੀ ਵਿਦਿਆਰਥੀਆਂ ਦੀ ਭਰਤੀ ਕੀਤੀ ਗਈ ਸੀ। ਹਰੇਕ ਭਾਗੀਦਾਰ ਨੂੰ ਬੇਤਰਤੀਬੇ ਤੌਰ ‘ਤੇ ਤਿੰਨ ਭੂਮਿਕਾਵਾਂ ਵਿੱਚੋਂ ਇੱਕ ਸੌਂਪੀ ਗਈ ਸੀ: ਸਮਝਦਾਰ ਜੱਜ, ਇੱਕ ਮਨੁੱਖੀ ‘ਗਵਾਹ’, ਜਾਂ, ਸ਼ੁਰੂ ਵਿੱਚ ਜੱਜ ਨੂੰ ਅਣਜਾਣ, ਇੱਕ AI ‘ਗਵਾਹ’।
ਮੁੱਖ ਕੰਮ ਯਕੀਨ ਦਿਵਾਉਣ ਦੀ ਖੇਡ ਸੀ। ਮਨੁੱਖੀ ਗਵਾਹ ਅਤੇ AI ਗਵਾਹ ਦੋਵੇਂ, ਵੱਖ-ਵੱਖ ਡਿਜੀਟਲ ਕਮਰਿਆਂ ਤੋਂ ਕੰਮ ਕਰਦੇ ਹੋਏ, ਜੱਜ ਨਾਲ ਟੈਕਸਟ-ਅਧਾਰਤ ਗੱਲਬਾਤ ਵਿੱਚ ਸ਼ਾਮਲ ਹੋਏ। ਉਨ੍ਹਾਂ ਦਾ ਉਦੇਸ਼ ਇਕੋ ਸੀ: ਜੱਜ ਨੂੰ ਆਪਣੀ ਮਨੁੱਖੀ ਪਛਾਣ ਦਾ ਯਕੀਨ ਦਿਵਾਉਣਾ। ਜੱਜ, ਗੱਲਬਾਤ ਦੀ ਇੱਕ ਮਿਆਦ ਤੋਂ ਬਾਅਦ, ਨਾਜ਼ੁਕ ਫੈਸਲੇ ਦਾ ਸਾਹਮਣਾ ਕਰਦਾ ਸੀ - ਪਛਾਣੋ ਕਿ ਕਿਹੜਾ ਵਾਰਤਾਲਾਪ ਕਰਨ ਵਾਲਾ ਮਨੁੱਖ ਸੀ ਅਤੇ ਕਿਹੜਾ ਮਸ਼ੀਨ ਸੀ।
ਇਹ ਸਿਰਫ਼ ਇੱਕ AI ਦਾ ਮਨੁੱਖੀ ਬੇਸਲਾਈਨ ਦੇ ਵਿਰੁੱਧ ਟੈਸਟ ਨਹੀਂ ਸੀ। ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਇਸ ਚੁਣੌਤੀ ਦੇ ਵਿਰੁੱਧ ਕਈ ਵੱਖ-ਵੱਖ AI ਪ੍ਰੋਗਰਾਮਾਂ ਨੂੰ ਖੜ੍ਹਾ ਕੀਤਾ, ਗੱਲਬਾਤ ਵਾਲੇ AI ਦੀ ਸਥਿਤੀ ‘ਤੇ ਇੱਕ ਤੁਲਨਾਤਮਕ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਪ੍ਰਦਾਨ ਕੀਤਾ:
- GPT-4.5 (ਪਰਸੋਨਾ ਪ੍ਰੋਂਪਟ ਨਾਲ): ਇਸ ਮਾਡਲ ਨੇ, ਜਦੋਂ ਖਾਸ ਤੌਰ ‘ਤੇ ਮਨੁੱਖ-ਵਰਗੇ ਪਰਸੋਨਾ ਨੂੰ ਅਪਣਾਉਣ ਲਈ ਨਿਰਦੇਸ਼ ਦਿੱਤਾ ਗਿਆ, ਇੱਕ ਕਮਾਲ ਦਾ ਕਾਰਨਾਮਾ ਹਾਸਲ ਕੀਤਾ। 73% ਗੱਲਬਾਤ ਵਿੱਚ ਜਿੱਥੇ ਇਹ ਇਸ ਸ਼ਰਤ ਅਧੀਨ ਕੰਮ ਕਰਦਾ ਸੀ, ਜੱਜਾਂ ਨੇ ਗਲਤੀ ਨਾਲ ਇਸਨੂੰ ਮਨੁੱਖੀ ਭਾਗੀਦਾਰ ਵਜੋਂ ਪਛਾਣ ਲਿਆ। ਇਹ ਅੰਕੜਾ ਸਿਰਫ਼ ਪੂਰਨ ਰੂਪ ਵਿੱਚ ਉੱਚਾ ਨਹੀਂ ਹੈ; ਇਸਨੇ ਉਸੇ ਪ੍ਰਯੋਗਾਤਮਕ ਸੈੱਟਅੱਪ ਦੇ ਅੰਦਰ ਆਪਣੀ ਮਨੁੱਖਤਾ ਨੂੰ ਸਾਬਤ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੇ ਅਸਲ ਮਨੁੱਖੀ ਗਵਾਹਾਂ ਦੀ ਸਫਲਤਾ ਦਰ ਨੂੰ ਪਾਰ ਕਰ ਦਿੱਤਾ।
- Meta’s LLaMa 3.1 405b (ਪਰਸੋਨਾ ਪ੍ਰੋਂਪਟ ਨਾਲ): ਇੱਕ ਹੋਰ ਸ਼ਕਤੀਸ਼ਾਲੀ ਸਮਕਾਲੀ ਵੱਡਾ ਭਾਸ਼ਾ ਮਾਡਲ, LLaMa 3.1, ਨੇ ਵੀ ਇਸੇ ਤਰ੍ਹਾਂ ਪ੍ਰੋਂਪਟ ਕੀਤੇ ਜਾਣ ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਯਕੀਨ ਦਿਵਾਉਣ ਦੀ ਯੋਗਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਜੱਜਾਂ ਨੂੰ 56% ਵਾਰ ਧੋਖਾ ਦਿੱਤਾ। ਹਾਲਾਂਕਿ ਇਸ ਖਾਸ ਟ੍ਰਾਇਲ ਵਿੱਚ GPT-4.5 ਦੀਆਂ ਉਚਾਈਆਂ ਤੱਕ ਨਹੀਂ ਪਹੁੰਚਿਆ, ਇਸਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੇ ਅਜੇ ਵੀ ਮਨੁੱਖੀ ਅਤੇ ਮਸ਼ੀਨ ਸੰਚਾਰ ਵਿਚਕਾਰ ਰੇਖਾਵਾਂ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਧੁੰਦਲਾ ਕਰ ਦਿੱਤਾ।
- GPT-4o (OpenAI ਦਾ ਪਿਛਲਾ ਮਾਡਲ): ਦਿਲਚਸਪ ਗੱਲ ਇਹ ਹੈ ਕਿ OpenAI ਦਾ ਥੋੜ੍ਹਾ ਪਹਿਲਾਂ ਵਾਲਾ ਮਾਡਲ, GPT-4o, ਜਦੋਂ ਖਾਸ ਪਰਸੋਨਾ ਪ੍ਰੋਂਪਟ ਤੋਂ ਬਿਨਾਂ ਟੈਸਟ ਕੀਤਾ ਗਿਆ ਤਾਂ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਵੱਖਰਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਇਸਨੂੰ ਸਿਰਫ਼ 21% ਵਾਰ ਮਨੁੱਖ ਵਜੋਂ ਪਛਾਣਿਆ ਗਿਆ, ਜੋ ਕਿ ਖਾਸ ਤੌਰ ‘ਤੇ ਮਾਰਗਦਰਸ਼ਨ ਨਾ ਕੀਤੇ ਜਾਣ ‘ਤੇ ਮਾਡਲਾਂ ਦੀਆਂ ਗੱਲਬਾਤ ਸ਼ੈਲੀਆਂ ਵਿੱਚ ਅਨੁਕੂਲਿਤ ਨਿਰਦੇਸ਼ਾਂ ਜਾਂ ਸ਼ਾਇਦ ਅੰਦਰੂਨੀ ਅੰਤਰਾਂ ਦੀ ਮਹੱਤਵਪੂਰਨ ਭੂਮਿਕਾ ਦਾ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ।
- ELIZA: ਇੱਕ ਇਤਿਹਾਸਕ ਬੈਂਚਮਾਰਕ ਵਜੋਂ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ELIZA ਨੂੰ ਸ਼ਾਮਲ ਕੀਤਾ, ਜੋ 1960 ਦੇ ਦਹਾਕੇ ਵਿੱਚ ਵਿਕਸਤ ਕੀਤਾ ਗਿਆ ਇੱਕ ਮੋਢੀ ਚੈਟਬੋਟ ਸੀ ਜੋ ਇੱਕ ਰੋਜੇਰੀਅਨ ਮਨੋ-ਚਿਕਿਤਸਕ ਦੀ ਨਕਲ ਕਰਨ ਵਾਲੀਆਂ ਆਪਣੀਆਂ ਸਧਾਰਨ ਪੈਟਰਨ-ਮੈਚਿੰਗ ਤਕਨੀਕਾਂ ਲਈ ਜਾਣਿਆ ਜਾਂਦਾ ਸੀ। ਹੈਰਾਨੀ ਦੀ ਗੱਲ ਨਹੀਂ, ELIZA ਦੀਆਂ ਮਨੁੱਖੀ ਨਕਲ ਦੀਆਂ ਕੋਸ਼ਿਸ਼ਾਂ ਆਧੁਨਿਕ ਭਾਗੀਦਾਰਾਂ ਲਈ ਬਹੁਤ ਘੱਟ ਯਕੀਨਨ ਸਨ, ਸਿਰਫ਼ 23% ਵਾਰ ਮਨੁੱਖ ਵਜੋਂ ਨਿਰਣਾ ਕੀਤਾ ਗਿਆ। ਇਹ ਦਰਮਿਆਨੀ ਦਹਾਕਿਆਂ ਦੌਰਾਨ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਵਿੱਚ ਹੋਈ ਭਾਰੀ ਤਰੱਕੀ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ।
Cameron Jones, UC San Diego ਦੀ ਭਾਸ਼ਾ ਅਤੇ ਬੋਧ ਲੈਬ ਤੋਂ ਅਧਿਐਨ ਵਿੱਚ ਸ਼ਾਮਲ ਇੱਕ ਖੋਜਕਰਤਾ, ਨੇ ਹੈਰਾਨੀਜਨਕ ਖੋਜ ਦਾ ਸੰਖੇਪ ਵਿੱਚ ਸਾਰ ਦਿੱਤਾ। ਉਸਨੇ ਨੋਟ ਕੀਤਾ ਕਿ ਮਨੁੱਖੀ ਜੱਜਾਂ ਨੇ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਸੰਘਰਸ਼ ਕੀਤਾ, ਜਦੋਂ GPT-4.5 ਜਾਂ LLaMa ਦੇ ਪ੍ਰੋਂਪਟ ਕੀਤੇ ਸੰਸਕਰਣਾਂ ਅਤੇ ਮਨੁੱਖਾਂ ਵਿਚਕਾਰ ਫਰਕ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਗਈ ਤਾਂ ਬੇਤਰਤੀਬੇ ਮੌਕੇ ਤੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਨਹੀਂ ਕੀਤਾ। ਵਧੇਰੇ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ, ਉਸਨੇ ਉਲਟ ਨਤੀਜੇ ‘ਤੇ ਜ਼ੋਰ ਦਿੱਤਾ: “ਅਤੇ 4.5 ਨੂੰ ਅਸਲ ਮਨੁੱਖਾਂ ਨਾਲੋਂ ਵੀ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਜ਼ਿਆਦਾ ਵਾਰ ਮਨੁੱਖ ਮੰਨਿਆ ਗਿਆ!” ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ AI, ਖਾਸ ਹਾਲਤਾਂ ਵਿੱਚ, ਟੈਕਸਟ ਵਿੱਚ ਮਨੁੱਖਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਿੱਚ ਖੁਦ ਮਨੁੱਖਾਂ ਨਾਲੋਂ ਬਿਹਤਰ ਹੋ ਸਕਦਾ ਹੈ, ਸ਼ਾਇਦ ਗੱਲਬਾਤ ਦੇ ਨਿਯਮਾਂ ਦੀ ਵਧੇਰੇ ਨੇੜਿਓਂ ਪਾਲਣਾ ਕਰਕੇ ਜਾਂ ਅਸਲ ਲੋਕਾਂ ਦੁਆਰਾ ਪ੍ਰਦਰਸ਼ਿਤ ਕੀਤੇ ਗਏ ਵਿਲੱਖਣ ਸੰਕੇਤਾਂ ਤੋਂ ਬਚ ਕੇ। ਇਸਦਾ ਪ੍ਰਭਾਵ ਡੂੰਘਾ ਹੈ - AI ਸਿਰਫ਼ ਪਾਸ ਨਹੀਂ ਹੋ ਰਿਹਾ ਸੀ; ਇਹ ਇਸ ਖਾਸ ਸੰਦਰਭ ਵਿੱਚ ਸਮਝੀ ਗਈ ਮਨੁੱਖਤਾ ਲਈ ਇੱਕ ਨਵਾਂ ਮਿਆਰ ਸਥਾਪਤ ਕਰ ਰਿਹਾ ਸੀ।
ਬੈਂਚਮਾਰਕ ‘ਤੇ ਮੁੜ ਵਿਚਾਰ ਕਰਨਾ: ਕੀ ਟਿਊਰਿੰਗ ਟੈਸਟ ਅਜੇ ਵੀ ਗੋਲਡ ਸਟੈਂਡਰਡ ਹੈ?
ਇਹ ਖ਼ਬਰ ਕਿ ਇੱਕ ਮਸ਼ੀਨ ਨੇ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਟਿਊਰਿੰਗ ਟੈਸਟ ‘ਪਾਸ’ ਕਰ ਲਿਆ ਹੈ, ਖਾਸ ਕਰਕੇ ਮਨੁੱਖਾਂ ਨੂੰ ਪਛਾੜ ਕੇ, ਲਾਜ਼ਮੀ ਤੌਰ ‘ਤੇ ਬਹਿਸ ਛੇੜਦੀ ਹੈ। ਕੀ ਇਹ ਸੱਚੀ ਮਸ਼ੀਨੀ ਬੁੱਧੀ ਦੇ ਉਭਾਰ ਦਾ ਸੰਕੇਤ ਦਿੰਦਾ ਹੈ, ਜਿਸ ਬਾਰੇ Alan Turing ਨੇ ਖੁਦ ਅੰਦਾਜ਼ਾ ਲਗਾਇਆ ਸੀ? ਜਾਂ ਕੀ ਇਹ ਸਿਰਫ਼ ਉਸ ਦੁਆਰਾ ਸਾਡੇ ਆਪਣੇ ਤੋਂ ਬਹੁਤ ਵੱਖਰੇ ਯੁੱਗ ਵਿੱਚ ਪ੍ਰਸਤਾਵਿਤ ਟੈਸਟ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਪ੍ਰਗਟ ਕਰਦਾ ਹੈ? AI ਕਮਿਊਨਿਟੀ ਵਿੱਚ ਕਈ ਪ੍ਰਮੁੱਖ ਆਵਾਜ਼ਾਂ ਸਾਵਧਾਨੀ ਵਰਤਣ ਦੀ ਅਪੀਲ ਕਰਦੀਆਂ ਹਨ, ਇਹ ਸੁਝਾਅ ਦਿੰਦੀਆਂ ਹਨ ਕਿ ਇਸ ਖਾਸ ਪ੍ਰੀਖਿਆ ਵਿੱਚ ਸਫਲਤਾ ਪ੍ਰਾਪਤ ਕਰਨਾ ਆਰਟੀਫੀਸ਼ੀਅਲ ਜਨਰਲ ਇੰਟੈਲੀਜੈਂਸ (AGI) - ਇੱਕ AI ਦੀ ਵਿਆਪਕ ਕਾਰਜਾਂ ਵਿੱਚ ਮਨੁੱਖੀ ਪੱਧਰ ‘ਤੇ ਗਿਆਨ ਨੂੰ ਸਮਝਣ, ਸਿੱਖਣ ਅਤੇ ਲਾਗੂ ਕਰਨ ਦੀ ਕਾਲਪਨਿਕ ਯੋਗਤਾ - ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਦੇ ਬਰਾਬਰ ਨਹੀਂ ਹੈ।
Melanie Mitchell, Santa Fe Institute ਦੀ ਇੱਕ AI ਵਿਦਵਾਨ, ਨੇ Science ਜਰਨਲ ਵਿੱਚ ਇਸ ਸੰਦੇਹਵਾਦ ਨੂੰ ਸ਼ਕਤੀਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਬਿਆਨ ਕੀਤਾ। ਉਹ ਦਲੀਲ ਦਿੰਦੀ ਹੈ ਕਿ ਟਿਊਰਿੰਗ ਟੈਸਟ, ਖਾਸ ਕਰਕੇ ਇਸਦੇ ਕਲਾਸਿਕ ਗੱਲਬਾਤ ਰੂਪ ਵਿੱਚ, ਸ਼ਾਇਦ ਅਸਲ ਬੋਧਾਤਮਕ ਯੋਗਤਾ ਦਾ ਮਾਪ ਘੱਟ ਅਤੇ ਸਾਡੀਆਂ ਆਪਣੀਆਂ ਮਨੁੱਖੀ ਪ੍ਰਵਿਰਤੀਆਂ ਅਤੇ ਧਾਰਨਾਵਾਂ ਦਾ ਪ੍ਰਤੀਬਿੰਬ ਵੱਧ ਹੋਵੇ। ਅਸੀਂ ਸਮਾਜਿਕ ਜੀਵ ਹਾਂ, ਜੋ ਰਵਾਨਗੀ ਭਰੀ ਭਾਸ਼ਾ ਨੂੰ ਅੰਤਰੀਵ ਸੋਚ ਅਤੇ ਇਰਾਦੇ ਦੇ ਸੰਕੇਤ ਵਜੋਂ ਵਿਆਖਿਆ ਕਰਨ ਲਈ ਪੂਰਵ-ਨਿਰਧਾਰਤ ਹਾਂ। GPT-4.5 ਵਰਗੇ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਨੂੰ ਮਨੁੱਖੀ ਟੈਕਸਟ ਦੇ ਵਿਸ਼ਾਲ ਡੇਟਾਸੈਟਾਂ ‘ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਉਹ ਪੈਟਰਨਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਅਤੇ ਅੰਕੜਾਤਮਕ ਤੌਰ ‘ਤੇ ਸੰਭਾਵਿਤ ਭਾਸ਼ਾਈ ਜਵਾਬ ਪੈਦਾ ਕਰਨ ਵਿੱਚ ਅਸਾਧਾਰਨ ਤੌਰ ‘ਤੇ ਨਿਪੁੰਨ ਬਣ ਜਾਂਦੇ ਹਨ। ਉਹ ਸਿੰਟੈਕਸ ਵਿੱਚ ਉੱਤਮ ਹਨ, ਗੱਲਬਾਤ ਦੇ ਪ੍ਰਵਾਹ ਦੀ ਨਕਲ ਕਰਦੇ ਹਨ, ਅਤੇ ਸ਼ੈਲੀਗਤ ਸੂਖਮਤਾਵਾਂ ਨੂੰ ਵੀ ਦੁਹਰਾ ਸਕਦੇ ਹਨ। ਹਾਲਾਂਕਿ, Mitchell ਦਾਅਵਾ ਕਰਦੀ ਹੈ, “ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਵਿੱਚ ਰਵਾਨਗੀ ਨਾਲ ਬੋਲਣ ਦੀ ਯੋਗਤਾ, ਜਿਵੇਂ ਕਿ ਸ਼ਤਰੰਜ ਖੇਡਣਾ, ਆਮ ਬੁੱਧੀ ਦਾ ਨਿਰਣਾਇਕ ਸਬੂਤ ਨਹੀਂ ਹੈ।” ਕਿਸੇ ਖਾਸ ਹੁਨਰ ਵਿੱਚ ਮੁਹਾਰਤ, ਭਾਵੇਂ ਉਹ ਭਾਸ਼ਾ ਜਿੰਨਾ ਗੁੰਝਲਦਾਰ ਹੋਵੇ, ਜ਼ਰੂਰੀ ਤੌਰ ‘ਤੇ ਵਿਆਪਕ ਸਮਝ, ਚੇਤਨਾ, ਜਾਂ ਸਿਖਲਾਈ ਦੌਰਾਨ ਸਿੱਖੇ ਗਏ ਪੈਟਰਨਾਂ ਤੋਂ ਪਰੇ ਨਵੇਂ ਤਰਕ ਦੀ ਸਮਰੱਥਾ ਦਾ ਮਤਲਬ ਨਹੀਂ ਹੈ।
Mitchell ਅੱਗੇ ਟਿਊਰਿੰਗ ਟੈਸਟ ਸੰਕਲਪ ਦੀ ਵਿਕਸਤ ਹੋ ਰਹੀ ਵਿਆਖਿਆ, ਅਤੇ ਸ਼ਾਇਦ ਕਮਜ਼ੋਰੀ, ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਦੀ ਹੈ। ਉਹ ਪਹਿਲਾਂ ਦੇ GPT-4 ਮਾਡਲ ‘ਤੇ ਖੋਜ ਸੰਬੰਧੀ Stanford University ਤੋਂ 2024 ਦੀ ਘੋਸ਼ਣਾ ਦਾ ਹਵਾਲਾ ਦਿੰਦੀ ਹੈ। Stanford ਟੀਮ ਨੇ ਆਪਣੇ ਨਤੀਜਿਆਂ ਨੂੰ “ਪਹਿਲੀ ਵਾਰਾਂ ਵਿੱਚੋਂ ਇੱਕ ਜਦੋਂ ਕਿਸੇ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਸਰੋਤ ਨੇ ਇੱਕ ਸਖ਼ਤ ਟਿਊਰਿੰਗ ਟੈਸਟ ਪਾਸ ਕੀਤਾ ਹੈ” ਵਜੋਂ ਸਲਾਹਿਆ। ਫਿਰ ਵੀ, ਜਿਵੇਂ ਕਿ Mitchell ਦੇਖਦੀ ਹੈ, ਉਨ੍ਹਾਂ ਦੀ ਵਿਧੀ ਵਿੱਚ ਮਨੋਵਿਗਿਆਨਕ ਸਰਵੇਖਣਾਂ ਅਤੇ ਇੰਟਰਐਕਟਿਵ ਗੇਮਾਂ ‘ਤੇ GPT-4 ਦੇ ਜਵਾਬਾਂ ਵਿੱਚ ਅੰਕੜਾਤਮਕ ਪੈਟਰਨਾਂ ਦੀ ਮਨੁੱਖੀ ਡੇਟਾ ਨਾਲ ਤੁਲਨਾ ਕਰਨਾ ਸ਼ਾਮਲ ਸੀ। ਹਾਲਾਂਕਿ ਤੁਲਨਾਤਮਕ ਵਿਸ਼ਲੇਸ਼ਣ ਦਾ ਇੱਕ ਵੈਧ ਰੂਪ ਹੈ, ਉਹ ਸੁੱਕੇ ਤੌਰ ‘ਤੇ ਨੋਟ ਕਰਦੀ ਹੈ ਕਿ ਇਹ ਫਾਰਮੂਲੇਸ਼ਨ “ਸ਼ਾਇਦ ਟਿਊਰਿੰਗ ਲਈ ਪਛਾਣਨਯੋਗ ਨਾ ਹੋਵੇ,” ਜਿਸਦਾ ਮੂਲ ਪ੍ਰਸਤਾਵ ਅਭੇਦ ਗੱਲਬਾਤ ‘ਤੇ ਕੇਂਦਰਿਤ ਸੀ।
ਇਹ ਇੱਕ ਨਾਜ਼ੁਕ ਨੁਕਤੇ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ: ਟਿਊਰਿੰਗ ਟੈਸਟ ਇੱਕ ਇਕਸਾਰ ਇਕਾਈ ਨਹੀਂ ਹੈ। ਇਸਦੀ ਵਿਆਖਿਆ ਅਤੇ ਉਪਯੋਗ ਵੱਖੋ-ਵੱਖਰੇ ਰਹੇ ਹਨ। UC San Diego ਪ੍ਰਯੋਗ ਟਿਊਰਿੰਗ ਦੇ ਮੂਲ ਗੱਲਬਾਤ ਫੋਕਸ ਦੇ ਨੇੜੇ ਜਾਪਦਾ ਹੈ, ਫਿਰ ਵੀ ਇੱਥੇ ਵੀ, ਸਵਾਲ ਉੱਠਦੇ ਹਨ। ਕੀ ਟੈਸਟ ਸੱਚਮੁੱਚ ਬੁੱਧੀ ਨੂੰ ਮਾਪ ਰਿਹਾ ਸੀ, ਜਾਂ ਕੀ ਇਹ AI ਦੀ ਇੱਕ ਖਾਸ ਕੰਮ - ਪਰਸੋਨਾ ਅਪਣਾਉਣ ਅਤੇ ਗੱਲਬਾਤ ਦੀ ਨਕਲ - ਨੂੰ ਬੇਮਿਸਾਲ ਢੰਗ ਨਾਲ ਕਰਨ ਦੀ ਯੋਗਤਾ ਨੂੰ ਮਾਪ ਰਿਹਾ ਸੀ? ਇਹ ਤੱਥ ਕਿ GPT-4.5 ਨੇ “ਪਰਸੋਨਾ ਪ੍ਰੋਂਪਟ” ਦਿੱਤੇ ਜਾਣ ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਇਸਦੀ ਸਫਲਤਾ ਸ਼ਾਇਦ ਇੱਕ ਅੰਦਰੂਨੀ, ਆਮ ਮਨੁੱਖ-ਵਰਗੀ ਗੁਣਵੱਤਾ ਦੀ ਬਜਾਏ ਨਿਰਦੇਸ਼ਾਂ ‘ਤੇ ਅਧਾਰਤ ਕੁਸ਼ਲ ਅਦਾਕਾਰੀ ਬਾਰੇ ਵਧੇਰੇ ਹੋ ਸਕਦੀ ਹੈ।
ਆਲੋਚਕ ਦਲੀਲ ਦਿੰਦੇ ਹਨ ਕਿ LLMs ਮਨੁੱਖੀ ਦਿਮਾਗਾਂ ਤੋਂ ਬੁਨਿਆਦੀ ਤੌਰ ‘ਤੇ ਵੱਖਰੇ ਢੰਗ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹਨ। ਉਹ ਸੰਕਲਪਾਂ ਨੂੰ ਉਸ ਤਰ੍ਹਾਂ “ਸਮਝਦੇ” ਨਹੀਂ ਜਿਵੇਂ ਮਨੁੱਖ ਸਮਝਦੇ ਹਨ; ਉਹ ਸਿੱਖੇ ਗਏ ਅੰਕੜਾਤਮਕ ਸਬੰਧਾਂ ਦੇ ਅਧਾਰ ‘ਤੇ ਚਿੰਨ੍ਹਾਂ ਵਿੱਚ ਹੇਰਾਫੇਰੀ ਕਰਦੇ ਹਨ। ਉਨ੍ਹਾਂ ਕੋਲ ਜੀਵਤ ਅਨੁਭਵ, ਸਰੀਰਕਤਾ, ਚੇਤਨਾ ਅਤੇ ਅਸਲ ਇਰਾਦੇ ਦੀ ਘਾਟ ਹੈ। ਜਦੋਂ ਕਿ ਉਹ ਭਾਵਨਾਵਾਂ ਜਾਂ ਅਨੁਭਵਾਂ ਬਾਰੇ ਟੈਕਸਟ ਤਿਆਰ ਕਰ ਸਕਦੇ ਹਨ, ਉਹ ਉਨ੍ਹਾਂ ਨੂੰ ਮਹਿਸੂਸ ਨਹੀਂ ਕਰਦੇ। ਇਸ ਲਈ, ਸਿਰਫ਼ ਭਾਸ਼ਾਈ ਆਉਟਪੁੱਟ ‘ਤੇ ਅਧਾਰਤ ਇੱਕ ਟੈਸਟ ਪਾਸ ਕਰਨਾ ਇੰਜੀਨੀਅਰਿੰਗ ਅਤੇ ਡੇਟਾ ਵਿਗਿਆਨ ਦਾ ਇੱਕ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਕਾਰਨਾਮਾ ਹੋ ਸਕਦਾ ਹੈ, ਪਰ ਇਹ ਜ਼ਰੂਰੀ ਤੌਰ ‘ਤੇ ਅਸਲ ਸੰਵੇਦਨਸ਼ੀਲ ਬੁੱਧੀ ਦੇ ਪਾੜੇ ਨੂੰ ਨਹੀਂ ਭਰਦਾ। ਟੈਸਟ ਸ਼ਾਇਦ ਮਸ਼ੀਨਾਂ ਦੀਆਂ ਅੰਦਰੂਨੀ ਸਥਿਤੀਆਂ ਬਾਰੇ ਦੱਸਣ ਦੀ ਬਜਾਏ ਸਤਹੀ-ਪੱਧਰ ਦੇ ਮਨੁੱਖੀ ਵਿਵਹਾਰ ਨੂੰ ਦੁਹਰਾਉਣ ਲਈ ਵਿਸ਼ਾਲ ਡੇਟਾਸੈਟਾਂ ਅਤੇ ਆਧੁਨਿਕ ਐਲਗੋਰਿਦਮ ਦੀ ਸ਼ਕਤੀ ਬਾਰੇ ਵਧੇਰੇ ਪ੍ਰਗਟ ਕਰ ਰਿਹਾ ਹੋਵੇ। ਇਹ ਸਾਨੂੰ ਇਸ ਗੱਲ ਦਾ ਸਾਹਮਣਾ ਕਰਨ ਲਈ ਮਜਬੂਰ ਕਰਦਾ ਹੈ ਕਿ ਕੀ ਭਾਸ਼ਾਈ ਰਵਾਨਗੀ ਮਨੁੱਖੀ ਬੁੱਧੀ ਦੀ ਡੂੰਘੀ, ਬਹੁਪੱਖੀ ਪ੍ਰਕਿਰਤੀ ਲਈ ਇੱਕ ਕਾਫ਼ੀ ਪ੍ਰੌਕਸੀ ਹੈ।
ਇੱਕ ਅਜਿਹੀ ਦੁਨੀਆਂ ਵਿੱਚ ਨੈਵੀਗੇਟ ਕਰਨਾ ਜਿੱਥੇ ਰੇਖਾਵਾਂ ਧੁੰਦਲੀਆਂ ਹੁੰਦੀਆਂ ਹਨ
ਭਾਵੇਂ GPT-4.5 ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਸੱਚੀ ਬੁੱਧੀ ਦਾ ਗਠਨ ਕਰਦਾ ਹੈ ਜਾਂ ਸਿਰਫ਼ ਆਧੁਨਿਕ ਨਕਲ, ਵਿਹਾਰਕ ਪ੍ਰਭਾਵ ਅਸਵੀਕਾਰਨਯੋਗ ਅਤੇ ਦੂਰਗਾਮੀ ਹਨ। ਅਸੀਂ ਇੱਕ ਅਜਿਹੇ ਯੁੱਗ ਵਿੱਚ ਦਾਖਲ ਹੋ ਰਹੇ ਹਾਂ ਜਿੱਥੇ ਔਨਲਾਈਨ ਮਨੁੱਖੀ ਅਤੇ ਮਸ਼ੀਨ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਟੈਕਸਟ ਵਿੱਚ ਫਰਕ ਕਰਨਾ ਲਗਾਤਾਰ ਮੁਸ਼ਕਲ ਹੁੰਦਾ ਜਾ ਰਿਹਾ ਹੈ, ਜੇ ਕੁਝ ਸੰਦਰਭਾਂ ਵਿੱਚ ਅਸੰਭਵ ਨਹੀਂ। ਇਸਦੇ ਭਰੋਸੇ, ਸੰਚਾਰ ਅਤੇ ਸਾਡੇ ਡਿਜੀਟਲ ਸਮਾਜ ਦੇ ਬਹੁਤ ਹੀ ਤਾਣੇ-ਬਾਣੇ ਲਈ ਡੂੰਘੇ ਨਤੀਜੇ ਹਨ।
AI ਦੀ ਮਨੁੱਖਾਂ ਦੀ ਯਕੀਨਨ ਨਕਲ ਕਰਨ ਦੀ ਯੋਗਤਾ ਗਲਤ ਜਾਣਕਾਰੀ ਅਤੇ ਹੇਰਾਫੇਰੀ ਬਾਰੇ ਤੁਰੰਤ ਚਿੰਤਾਵਾਂ ਪੈਦਾ ਕਰਦੀ ਹੈ। ਖਤਰਨਾਕ ਅਦਾਕਾਰ ਅਜਿਹੀ ਤਕਨਾਲੋਜੀ ਨੂੰ ਆਧੁਨਿਕ ਫਿਸ਼ਿੰਗ ਘੁਟਾਲਿਆਂ, ਵਿਅਕਤੀਆਂ ਲਈ ਤਿਆਰ ਕੀਤੇ ਪ੍ਰਚਾਰ ਫੈਲਾਉਣ, ਜਾਂ ਜਨਤਕ ਰਾਏ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰਨ ਜਾਂ ਔਨਲਾਈਨ ਭਾਈਚਾਰਿਆਂ ਨੂੰ ਭੰਗ ਕਰਨ ਲਈ ਜਾਅਲੀ ਸੋਸ਼ਲ ਮੀਡੀਆ ਪ੍ਰੋਫਾਈਲਾਂ ਦੀਆਂ ਫੌਜਾਂ ਬਣਾਉਣ ਲਈ ਤੈਨਾਤ ਕਰ ਸਕਦੇ ਹਨ। ਜੇ ਇੱਕ ਨਿਯੰਤਰਿਤ ਪ੍ਰਯੋਗ ਵਿੱਚ ਸਮਝਦਾਰ ਉਪਭੋਗਤਾ ਵੀ ਫਰਕ ਦੱਸਣ ਲਈ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ, ਤਾਂ ਖੁੱਲ੍ਹੇ ਇੰਟਰਨੈਟ ‘ਤੇ ਧੋਖੇ ਦੀ ਸੰਭਾਵਨਾ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੈ। AI-ਸੰਚਾਲਿਤ ਨਕਲ ਅਤੇ AI-ਖੋਜ ਸਾਧਨਾਂ ਵਿਚਕਾਰ ਹਥਿਆਰਾਂ ਦੀ ਦੌੜ ਤੇਜ਼ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਹੈ, ਪਰ ਫਾਇਦਾ ਅਕਸਰ ਨਕਲ ਕਰਨ ਵਾਲਿਆਂ ਕੋਲ ਹੋ ਸਕਦਾ ਹੈ, ਖਾਸ ਕਰਕੇ ਜਿਵੇਂ ਮਾਡਲ ਵਧੇਰੇ ਸੁਧਾਰੇ ਜਾਂਦੇ ਹਨ।
ਖਤਰਨਾਕ ਵਰਤੋਂ ਤੋਂ ਪਰੇ, ਧੁੰਦਲੀਆਂ ਰੇਖਾਵਾਂ ਰੋਜ਼ਾਨਾ ਦੀਆਂ ਗੱਲਬਾਤਾਂ ਨੂੰ ਪ੍ਰਭਾਵਤ ਕਰਦੀਆਂ ਹਨ। ਗਾਹਕ ਸੇਵਾ ਕਿਵੇਂ ਬਦਲੇਗੀ ਜਦੋਂ ਚੈਟਬੋਟ ਮਨੁੱਖੀ ਏਜੰਟਾਂ ਤੋਂ ਅਭੇਦ ਹੋ ਜਾਣਗੇ? ਕੀ ਔਨਲਾਈਨ ਡੇਟਿੰਗ ਪ੍ਰੋਫਾਈਲਾਂ ਜਾਂ ਸਮਾਜਿਕ ਗੱਲਬਾਤ ਲਈ ਤਸਦੀਕ ਦੇ ਨਵੇਂ ਰੂਪਾਂ ਦੀ ਲੋੜ ਹੋਵੇਗੀ? ਮਨੁੱਖਾਂ ‘ਤੇ ਮਨੋਵਿਗਿਆਨਕ ਪ੍ਰਭਾਵ ਵੀ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਇਹ ਜਾਣਨਾ ਕਿ ਜਿਸ ਇਕਾਈ ਨਾਲ ਤੁਸੀਂ ਔਨਲਾਈਨ ਗੱਲਬਾਤ ਕਰ ਰਹੇ ਹੋ ਉਹ ਇੱਕ AI ਹੋ ਸਕਦੀ ਹੈ, ਅਵਿਸ਼ਵਾਸ ਅਤੇ ਅਲੱਗ-ਥਲੱਗਤਾ ਨੂੰ ਵਧਾ ਸਕਦੀ ਹੈ। ਇਸਦੇ ਉਲਟ, ਬਹੁਤ ਯਕੀਨਨ AI ਸਾਥੀਆਂ ਨਾਲ ਭਾਵਨਾਤਮਕ ਲਗਾਵ ਬਣਾਉਣਾ, ਭਾਵੇਂ ਉਨ੍ਹਾਂ ਦੀ ਪ੍ਰਕਿਰਤੀ ਨੂੰ ਜਾਣਦੇ ਹੋਏ, ਨੈਤਿਕ ਅਤੇ ਸਮਾਜਿਕ ਸਵਾਲਾਂ ਦਾ ਆਪਣਾ ਸੈੱਟ ਪੇਸ਼ ਕਰਦਾ ਹੈ।
GPT-4.5 ਵਰਗੇ ਮਾਡਲਾਂ ਦੀ ਸਫਲਤਾ ਸਾਡੀਆਂ ਵਿਦਿਅਕ ਪ੍ਰਣਾਲੀਆਂ ਅਤੇ ਰਚਨਾਤਮਕ ਉਦਯੋਗਾਂ ਨੂੰ ਵੀ ਚੁਣੌਤੀ ਦਿੰਦੀ ਹੈ। ਅਸੀਂ ਵਿਦਿਆਰਥੀ ਦੇ ਕੰਮ ਦਾ ਮੁਲਾਂਕਣ ਕਿਵੇਂ ਕਰਦੇ ਹਾਂ ਜਦੋਂ AI ਭਰੋਸੇਯੋਗ ਲੇਖ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ? ਮਨੁੱਖੀ ਲੇਖਕਤਾ ਦਾ ਮੁੱਲ ਕੀ ਹੈ ਜਦੋਂ AI ਖ਼ਬਰਾਂ ਦੇ ਲੇਖ, ਸਕ੍ਰਿਪਟਾਂ, ਜਾਂ ਇੱਥੋਂ ਤੱਕ ਕਿ ਕਵਿਤਾ ਵੀ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ ਜੋ ਪਾਠਕਾਂ ਨਾਲ ਗੂੰਜਦੀ ਹੈ? ਜਦੋਂ ਕਿ AI ਵਾਧੇ ਅਤੇ ਸਹਾਇਤਾ ਲਈ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਸਾਧਨ ਹੋ ਸਕਦਾ ਹੈ, ਮਨੁੱਖੀ ਆਉਟਪੁੱਟ ਨੂੰ ਦੁਹਰਾਉਣ ਦੀ ਇਸਦੀ ਯੋਗਤਾ ਮੌਲਿਕਤਾ, ਰਚਨਾਤਮਕਤਾ ਅਤੇ ਬੌਧਿਕ ਸੰਪਤੀ ਦੇ ਮੁੜ-ਮੁਲਾਂਕਣ ਦੀ ਲੋੜ ਪੈਦਾ ਕਰਦੀ ਹੈ।
ਇਸ ਤੋਂ ਇਲਾਵਾ, UC San Diego ਅਧਿਐਨ AI ਦੀ ਪ੍ਰਗਤੀ ਨੂੰ ਮਾਪਣ ਲਈ ਸਿਰਫ਼ ਗੱਲਬਾਤ ਦੇ ਟੈਸਟਾਂ ‘ਤੇ ਭਰੋਸਾ ਕਰਨ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦਾ ਹੈ। ਜੇਕਰ ਟੀਚਾ ਸੱਚਮੁੱਚ ਬੁੱਧੀਮਾਨ ਪ੍ਰਣਾਲੀਆਂ (AGI) ਬਣਾਉਣਾ ਹੈ, ਨਾ ਕਿ ਸਿਰਫ਼ ਮਾਹਰ ਨਕਲ ਕਰਨ ਵਾਲੇ, ਤਾਂ ਸ਼ਾਇਦ ਧਿਆਨ ਉਨ੍ਹਾਂ ਬੈਂਚਮਾਰਕਾਂ ਵੱਲ ਤਬਦੀਲ ਕਰਨ ਦੀ ਲੋੜ ਹੈ ਜੋ ਤਰਕ, ਵਿਭਿੰਨ ਡੋਮੇਨਾਂ ਵਿੱਚ ਸਮੱਸਿਆ-ਹੱਲ ਕਰਨ, ਨਵੀਆਂ ਸਥਿਤੀਆਂ ਦੇ ਅਨੁਕੂਲ ਹੋਣ, ਅਤੇ ਸ਼ਾਇਦ ਚੇਤਨਾ ਜਾਂ ਸਵੈ-ਜਾਗਰੂਕਤਾ ਦੇ ਪਹਿਲੂਆਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਨ - ਬਦਨਾਮ ਤੌਰ ‘ਤੇ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਲਈ ਮੁਸ਼ਕਲ ਸੰਕਲਪ, ਮਾਪਣਾ ਤਾਂ ਦੂਰ ਦੀ ਗੱਲ ਹੈ। ਟਿਊਰਿੰਗ ਟੈਸਟ, ਇੱਕ ਵੱਖਰੇ ਤਕਨੀਕੀ ਯੁੱਗ ਵਿੱਚ ਕਲਪਨਾ ਕੀਤਾ ਗਿਆ, ਸ਼ਾਇਦ ਇੱਕ ਪ੍ਰੇਰਣਾਦਾਇਕ ਟੀਚੇ ਵਜੋਂ ਆਪਣਾ ਉਦੇਸ਼ ਪੂਰਾ ਕਰ ਚੁੱਕਾ ਹੈ, ਪਰ ਆਧੁਨਿਕ AI ਦੀਆਂ ਜਟਿਲਤਾਵਾਂ ਵਧੇਰੇ ਸੂਖਮ ਅਤੇ ਬਹੁਪੱਖੀ ਮੁਲਾਂਕਣ ਢਾਂਚੇ ਦੀ ਮੰਗ ਕਰ ਸਕਦੀਆਂ ਹਨ।
GPT-4.5 ਦੀ ਪ੍ਰਾਪਤੀ ਇੱਕ ਅੰਤਮ ਬਿੰਦੂ ਘੱਟ ਅਤੇ ਆਲੋਚਨਾਤਮਕ ਪ੍ਰਤੀਬਿੰਬ ਲਈ ਇੱਕ ਉਤਪ੍ਰੇਰਕ ਵੱਧ ਹੈ। ਇਹ ਮਨੁੱਖੀ ਭਾਸ਼ਾ ਵਿੱਚ ਮੁਹਾਰਤ ਹਾਸਲ ਕਰਨ ਵਿੱਚ ਮੌਜੂਦਾ AI ਤਕਨੀਕਾਂ ਦੀ ਅਸਾਧਾਰਨ ਸ਼ਕਤੀ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਇੱਕ ਅਜਿਹਾ ਕਾਰਨਾਮਾ ਜਿਸ ਵਿੱਚ ਲਾਭ ਅਤੇ ਨੁਕਸਾਨ ਦੋਵਾਂ ਦੀ ਅਥਾਹ ਸੰਭਾਵਨਾ ਹੈ। ਇਹ ਸਾਨੂੰ ਬੁੱਧੀ, ਪਛਾਣ, ਅਤੇ ਇੱਕ ਅਜਿਹੀ ਦੁਨੀਆਂ ਵਿੱਚ ਮਨੁੱਖੀ-ਮਸ਼ੀਨ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਦੇ ਭਵਿੱਖ ਬਾਰੇ ਬੁਨਿਆਦੀ ਸਵਾਲਾਂ ਨਾਲ ਜੂਝਣ ਲਈ ਮਜਬੂਰ ਕਰਦਾ ਹੈ ਜਿੱਥੇ ਯਕੀਨਨ ਤੌਰ ‘ਤੇ ‘ਗੱਲ ਕਰਨ’ ਦੀ ਯੋਗਤਾ ਹੁਣ ਸਿਰਫ਼ ਮਨੁੱਖੀ ਖੇਤਰ ਨਹੀਂ ਰਹੀ। ਨਕਲ ਦੀ ਖੇਡ ਇੱਕ ਨਵੇਂ ਪੱਧਰ ‘ਤੇ ਪਹੁੰਚ ਗਈ ਹੈ, ਅਤੇ ਨਿਯਮਾਂ, ਖਿਡਾਰੀਆਂ ਅਤੇ ਦਾਅ ‘ਤੇ ਲੱਗੇ ਹਿੱਤਾਂ ਨੂੰ ਸਮਝਣਾ ਪਹਿਲਾਂ ਨਾਲੋਂ ਕਿਤੇ ਵੱਧ ਮਹੱਤਵਪੂਰਨ ਹੋ ਗਿਆ ਹੈ।