ਟਿਊਰਿੰਗ ਟੈਸਟ ਦਾ ਸੰਕਟ: ਕੀ AI ਨੇ ਮਾਪਦੰਡ ਨੂੰ ਮਾਤ ਦਿੱਤੀ?

ਬੁੱਧੀ ਦੇ ਭਰਮ ਦਾ ਪਰਦਾਫਾਸ਼

ਦਹਾਕਿਆਂ ਤੋਂ, Turing Test ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਨੂੰ ਮਾਪਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਵਿੱਚ ਇੱਕ ਮੀਲ ਪੱਥਰ ਵਜੋਂ ਖੜ੍ਹਾ ਹੈ, ਭਾਵੇਂ ਕਿ ਇਸਨੂੰ ਅਕਸਰ ਗਲਤ ਸਮਝਿਆ ਜਾਂਦਾ ਹੈ। ਸ਼ਾਨਦਾਰ Alan Turing ਦੁਆਰਾ ਕਲਪਿਤ, ਇਸਨੇ ਇੱਕ ਸਧਾਰਨ ਪਰ ਡੂੰਘੀ ਚੁਣੌਤੀ ਪੇਸ਼ ਕੀਤੀ: ਕੀ ਇੱਕ ਮਸ਼ੀਨ ਸਿਰਫ਼ ਟੈਕਸਟ-ਅਧਾਰਤ ਗੱਲਬਾਤ ਰਾਹੀਂ, ਇੱਕ ਮਨੁੱਖ ਨੂੰ ਯਕੀਨ ਦਿਵਾ ਸਕਦੀ ਹੈ ਕਿ ਉਹ ਵੀ ਮਨੁੱਖ ਹੈ? ਬਹੁਤ ਸਾਰੇ ਲੋਕਾਂ ਨੇ ਇਸ ਟੈਸਟ ਵਿੱਚ ਸਫਲਤਾ ਨੂੰ ਸੱਚੀ ਮਸ਼ੀਨ ਸੋਚ ਦੀ ਸ਼ੁਰੂਆਤ ਵਜੋਂ ਸਮਝਿਆ ਹੈ, ਇੱਕ ਸੰਕੇਤ ਕਿ ਸਿਲੀਕਾਨ ਦਿਮਾਗ ਆਖਰਕਾਰ ਸਾਡੀਆਂ ਆਪਣੀਆਂ ਬੋਧਾਤਮਕ ਯੋਗਤਾਵਾਂ ਦਾ ਪ੍ਰਤੀਬਿੰਬ ਬਣ ਰਹੇ ਸਨ। ਹਾਲਾਂਕਿ, ਇਹ ਵਿਆਖਿਆ ਹਮੇਸ਼ਾ ਬਹਿਸ ਨਾਲ ਭਰੀ ਰਹੀ ਹੈ, ਅਤੇ OpenAI ਦੇ GPT-4.5 ਵਰਗੇ ਆਧੁਨਿਕ AI ਮਾਡਲਾਂ ਨਾਲ ਜੁੜੇ ਹਾਲੀਆ ਵਿਕਾਸ ਇੱਕ ਨਾਜ਼ੁਕ ਮੁੜ-ਮੁਲਾਂਕਣ ਲਈ ਮਜਬੂਰ ਕਰ ਰਹੇ ਹਨ।

University of California at San Diego ਤੋਂ ਉੱਭਰ ਰਹੀ ਜ਼ਮੀਨੀ ਖੋਜ ਇਸ ਬਹਿਸ ਨੂੰ ਤਿੱਖੀ ਰਾਹਤ ਵਿੱਚ ਸੁੱਟਦੀ ਹੈ। ਉੱਥੋਂ ਦੇ ਵਿਦਵਾਨਾਂ ਨੇ ਕਲਾਸਿਕ Turing Test ਫਾਰਮੈਟ ਵਿੱਚ ਮਨੁੱਖਾਂ ਨੂੰ ਉੱਨਤ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ (LLMs) ਦੇ ਵਿਰੁੱਧ ਖੜ੍ਹਾ ਕਰਕੇ ਪ੍ਰਯੋਗ ਕੀਤੇ। ਨਤੀਜੇ ਹੈਰਾਨ ਕਰਨ ਵਾਲੇ ਸਨ: OpenAI ਦੀ ਨਵੀਨਤਮ ਦੁਹਰਾਓ, ਕਥਿਤ ਤੌਰ ‘ਤੇ GPT-4.5, ਸਿਰਫ਼ ਪਾਸ ਹੀ ਨਹੀਂ ਹੋਇਆ; ਇਹ ਉੱਤਮ ਸਾਬਤ ਹੋਇਆ, ਅਸਲ ਮਨੁੱਖੀ ਭਾਗੀਦਾਰਾਂ ਦੁਆਰਾ ਆਪਣੀ ਮਨੁੱਖਤਾ ਨੂੰ ਸਾਬਤ ਕਰਨ ਨਾਲੋਂ ਆਪਣੀ ਮਨੁੱਖੀ ਨਕਲ ਵਿੱਚ ਵਧੇਰੇ ਯਕੀਨਨ ਸਾਬਤ ਹੋਇਆ। ਇਹ ਜਨਰੇਟਿਵ AI ਦੀ ਸਮਰੱਥਾ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਛਾਲ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਤਾਂ ਜੋ ਅਜਿਹੇ ਜਵਾਬ ਤਿਆਰ ਕੀਤੇ ਜਾ ਸਕਣ ਜੋ ਪ੍ਰਮਾਣਿਕ ਤੌਰ ‘ਤੇ ਮਨੁੱਖੀ ਮਹਿਸੂਸ ਹੋਣ। ਫਿਰ ਵੀ, ਇਸ ਅਧਿਐਨ ਦੇ ਪਿੱਛੇ ਖੋਜਕਰਤਾ ਵੀ ਇਸ ਗੱਲਬਾਤ ਦੀ ਯੋਗਤਾ ਨੂੰ ਆਰਟੀਫੀਸ਼ੀਅਲ ਜਨਰਲ ਇੰਟੈਲੀਜੈਂਸ (AGI) ਦੀ ਪ੍ਰਾਪਤੀ ਨਾਲ ਬਰਾਬਰ ਕਰਨ ਦੇ ਵਿਰੁੱਧ ਚੇਤਾਵਨੀ ਦਿੰਦੇ ਹਨ - ਮਨੁੱਖੀ-ਪੱਧਰ ਦੀਆਂ ਬੋਧਾਤਮਕ ਯੋਗਤਾਵਾਂ ਵਾਲੀਆਂ ਮਸ਼ੀਨਾਂ ਬਣਾਉਣ ਦਾ ਅਸਪਸ਼ਟ ਟੀਚਾ। ਅਜਿਹਾ ਲਗਦਾ ਹੈ ਕਿ ਟੈਸਟ, ਮਸ਼ੀਨ ਦੀ ਬੁੱਧੀ ਦੀ ਅਸਲ ਪ੍ਰਕਿਰਤੀ ਬਾਰੇ ਦੱਸਣ ਦੀ ਬਜਾਏ, ਖੁਦ ਟੈਸਟ ਦੀਆਂ ਸੀਮਾਵਾਂ ਅਤੇ ਸਾਡੀਆਂ ਆਪਣੀਆਂ ਮਨੁੱਖੀ ਧਾਰਨਾਵਾਂ ਬਾਰੇ ਵਧੇਰੇ ਖੁਲਾਸਾ ਕਰ ਰਿਹਾ ਹੈ।

ਇੱਕ ਕਲਾਸਿਕ ਪ੍ਰਯੋਗ 'ਤੇ ਇੱਕ ਆਧੁਨਿਕ ਮੋੜ

Turing Test ਦੀ ਸਥਾਈ ਅਪੀਲ ਇਸਦੀ ਸ਼ਾਨਦਾਰ ਸਾਦਗੀ ਵਿੱਚ ਹੈ। Turing ਨੇ ਇੱਕ ‘ਨਕਲ ਖੇਡ’ ਦੀ ਕਲਪਨਾ ਕੀਤੀ ਜਿਸ ਵਿੱਚ ਤਿੰਨ ਖਿਡਾਰੀ ਸ਼ਾਮਲ ਸਨ: ਇੱਕ ਮਨੁੱਖੀ ਪੁੱਛਗਿੱਛ ਕਰਨ ਵਾਲਾ (ਜੱਜ), ਇੱਕ ਮਨੁੱਖੀ ਗਵਾਹ, ਅਤੇ ਇੱਕ ਕੰਪਿਊਟਰ ਗਵਾਹ। ਇੱਕ ਦੂਜੇ ਤੋਂ ਵੱਖ ਕੀਤੇ ਹੋਏ, ਸਿਰਫ਼ ਟੈਕਸਟ ਸੁਨੇਹਿਆਂ ਰਾਹੀਂ ਸੰਚਾਰ ਕਰਦੇ ਹੋਏ, ਗਵਾਹ ਜੱਜ ਨੂੰ ਆਪਣੀ ਮਨੁੱਖੀ ਪਛਾਣ ਦਾ ਯਕੀਨ ਦਿਵਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਨਗੇ। ਜੱਜ, ਇਹ ਜਾਣਦੇ ਹੋਏ ਕਿ ਇੱਕ ਭਾਗੀਦਾਰ ਇੱਕ ਮਸ਼ੀਨ ਹੈ, ਨੂੰ ਇਹ ਨਿਰਧਾਰਤ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਕੌਣ ਕੌਣ ਹੈ। ਇਸ ਸੈੱਟਅੱਪ ਦੀ ਪ੍ਰਤਿਭਾ ਇਸਦੀ ਅੰਦਰੂਨੀ ਤੁਲਨਾਤਮਕ ਪ੍ਰਕਿਰਤੀ ਹੈ। ਜੇਕਰ ਜੱਜ ਗਲਤੀ ਨਾਲ ਕੰਪਿਊਟਰ ਨੂੰ ਮਨੁੱਖ ਵਜੋਂ ਪਛਾਣਦਾ ਹੈ, ਤਾਂ ਇਹ ਨਾ ਸਿਰਫ਼ ਮਸ਼ੀਨ ਦੇ ਯਕੀਨਨ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਸੰਕੇਤ ਦਿੰਦਾ ਹੈ, ਸਗੋਂ ਮਨੁੱਖੀ ਗਵਾਹ ਦੁਆਰਾ ਆਪਣੀ ਮਨੁੱਖਤਾ ਦਾ ਢੁਕਵਾਂ ਸੰਕੇਤ ਦੇਣ ਵਿੱਚ ਸੰਭਾਵੀ ਅਸਫਲਤਾ, ਜਾਂ ਸ਼ਾਇਦ ਜੱਜ ਦੀ ਉਹਨਾਂ ਸੰਕੇਤਾਂ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਸਮਝਣ ਵਿੱਚ ਅਸਮਰੱਥਾ ਦਾ ਵੀ ਸੰਕੇਤ ਦਿੰਦਾ ਹੈ। ਇਹ ਮਨੁੱਖੀ ਧਾਰਨਾ, ਵਿਸ਼ਵਾਸ, ਅਤੇ ਉਹਨਾਂ ਸੂਖਮ ਸੰਕੇਤਾਂ ਦੀ ਇੱਕ ਦਿਲਚਸਪ ਜਾਂਚ ਬਣ ਜਾਂਦੀ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਅਸੀਂ ਮਨੁੱਖ ਹੋਣ ਨਾਲ ਜੋੜਦੇ ਹਾਂ, ਜਿੰਨਾ ਕਿ ਇਹ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਮਰੱਥਾ ਦਾ ਮਾਪ ਹੈ।

ਇਸ ਨੀਂਹ ‘ਤੇ ਨਿਰਮਾਣ ਕਰਦੇ ਹੋਏ, UC San Diego ਦੇ ਖੋਜਕਰਤਾਵਾਂ, Cameron Jones ਅਤੇ Benjamin Bergen ਨੇ, ਆਧੁਨਿਕ LLMs ਦੀ ਸ਼ਕਤੀ ਦਾ ਲਾਭ ਉਠਾਉਂਦੇ ਹੋਏ ਅਤੇ ਅੰਡਰਗਰੈਜੂਏਟ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦੇ ਹੋਏ, ਟੈਸਟ ਦਾ ਇੱਕ ਸਮਕਾਲੀ ਸੰਸਕਰਣ ਲਾਗੂ ਕੀਤਾ। ਉਹਨਾਂ ਦਾ ਪ੍ਰਯੋਗਾਤਮਕ ਡਿਜ਼ਾਈਨ Turing ਦੇ ਤਿੰਨ-ਪੱਖੀ ਢਾਂਚੇ ਦੀ ਨੇੜਿਓਂ ਪਾਲਣਾ ਕਰਦਾ ਸੀ। ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਬੇਤਰਤੀਬੇ ਤੌਰ ‘ਤੇ ਭੂਮਿਕਾਵਾਂ ਸੌਂਪੀਆਂ ਗਈਆਂ ਸਨ: ਕੁਝ ਨੇ ਜੱਜ ਵਜੋਂ ਕੰਮ ਕੀਤਾ, ਦੂਜਿਆਂ ਨੇ ਮਨੁੱਖੀ ਗਵਾਹ ਵਜੋਂ। ਹਰੇਕ ਜੱਜ ਨੇ ਇੱਕ ਮਨੁੱਖੀ ਗਵਾਹ ਅਤੇ ਇੱਕ AI ਗਵਾਹ ਦੋਵਾਂ ਨਾਲ ਇੱਕੋ ਸਮੇਂ, ਸੁਤੰਤਰ ਪੰਜ-ਮਿੰਟ ਦੀ ਟੈਕਸਟ ਚੈਟ ਕੀਤੀ। ਜੱਜ ਲਈ ਚੁਣੌਤੀ ਉਹੀ ਰਹੀ: ਮਸ਼ੀਨ ਦੀ ਪਛਾਣ ਕਰੋ।

ਮੌਜੂਦਾ AI ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦੀ ਪੜਚੋਲ ਕਰਨ ਲਈ, ਕਈ ਮਾਡਲਾਂ ਨੂੰ ਕੰਪਿਊਟਰ ਗਵਾਹ ਵਜੋਂ ਤਾਇਨਾਤ ਕੀਤਾ ਗਿਆ ਸੀ:

  • GPT-4.5 (Minimal Prompt): ਇਸ ਸੰਸਕਰਣ ਨੂੰ ਸਿਰਫ਼ ਬੁਨਿਆਦੀ ਹਦਾਇਤਾਂ ਪ੍ਰਾਪਤ ਹੋਈਆਂ।
  • GPT-4.5 (PERSONA Prompt): ਇਸ ਵੇਰੀਐਂਟ ਨੂੰ ਕਾਫ਼ੀ ਜ਼ਿਆਦਾ ਵਿਸਤ੍ਰਿਤ ਮਾਰਗਦਰਸ਼ਨ ਦਿੱਤਾ ਗਿਆ ਸੀ। ਪ੍ਰੋਂਪਟ ਨੇ AI ਨੂੰ ਇੱਕ ਖਾਸ ਸ਼ਖਸੀਅਤ ਅਪਣਾਉਣ ਦੀ ਹਦਾਇਤ ਦਿੱਤੀ - ਇੱਕ ‘ਨੌਜਵਾਨ ਵਿਅਕਤੀ ਜੋ ਅੰਤਰਮੁਖੀ ਹੈ, ਇੰਟਰਨੈਟ ਸੱਭਿਆਚਾਰ ਬਾਰੇ ਜਾਣਕਾਰ ਹੈ, ਅਤੇ ਸਲੈਂਗ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।’ ਇਸਦਾ ਉਦੇਸ਼ AI ਦੀ ਅਨੁਕੂਲਤਾ ਅਤੇ ਖਾਸ ਮਨੁੱਖੀ ਪੁਰਾਤੱਤਵ ਦੀ ਨਕਲ ਕਰਨ ਦੀ ਯੋਗਤਾ ਦੀ ਜਾਂਚ ਕਰਨਾ ਸੀ।
  • GPT-4o: OpenAI ਦਾ ਦੂਜਾ ਪ੍ਰਮੁੱਖ ਮਾਡਲ ਇੱਕ ਤੁਲਨਾ ਬਿੰਦੂ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਸੀ।
  • Llama 3.1 405b: Meta Platforms ਦਾ ਸ਼ਕਤੀਸ਼ਾਲੀ LLM ਦਾਇਰੇ ਨੂੰ ਵਧਾਉਣ ਲਈ ਸ਼ਾਮਲ ਕੀਤਾ ਗਿਆ ਸੀ।
  • ELIZA: 1960 ਦੇ ਦਹਾਕੇ ਦਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਚੈਟਬੋਟ ਪ੍ਰੋਗਰਾਮ ਇੱਕ ਨਿਯੰਤਰਣ ਵਜੋਂ ਸ਼ਾਮਲ ਕੀਤਾ ਗਿਆ ਸੀ। ਇਸਦੀ ਸਾਪੇਖਿਕ ਸਾਦਗੀ ਇਹ ਨਿਰਧਾਰਤ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਨ ਲਈ ਸੀ ਕਿ ਕੀ LLMs ਦੁਆਰਾ ਕੋਈ ਸਫਲਤਾ ਆਧੁਨਿਕ ਪ੍ਰੋਗਰਾਮਿੰਗ ਕਾਰਨ ਸੀ ਜਾਂ ਸਿਰਫ਼ ਬੇਤਰਤੀਬ ਮੌਕਾ ਅਤੇ ਆਸਾਨੀ ਨਾਲ ਮੂਰਖ ਬਣਾਏ ਗਏ ਜੱਜਾਂ ਕਾਰਨ।

ਇਹ ਬਹੁ-ਮਾਡਲ ਪਹੁੰਚ, ਢਾਂਚਾਗਤ, ਸਮਾਂਬੱਧ ਪਰਸਪਰ ਕ੍ਰਿਆਵਾਂ ਅਤੇ ਘੱਟੋ-ਘੱਟ ਪ੍ਰੋਂਪਟ ਕੀਤੇ ਅਤੇ ਸ਼ਖਸੀਅਤ-ਸੰਚਾਲਿਤ AI ਵਿਚਕਾਰ ਤੁਲਨਾ ਦੇ ਨਾਲ ਮਿਲਾ ਕੇ, ਇਹ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਲਈ ਇੱਕ ਅਮੀਰ ਡੇਟਾਸੈਟ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਕਿ ਮਸ਼ੀਨਾਂ ਹੁਣ ਕਿੰਨੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਮਨੁੱਖੀ ਗੱਲਬਾਤ ਦੀ ਨਕਲ ਕਰ ਸਕਦੀਆਂ ਹਨ ਅਤੇ ਮਨੁੱਖ ਇਹਨਾਂ ਕੋਸ਼ਿਸ਼ਾਂ ਨੂੰ ਕਿਵੇਂ ਸਮਝਦੇ ਹਨ।

ਜਦੋਂ ਨਕਲ ਅਸਲੀਅਤ ਨੂੰ ਪਛਾੜ ਦਿੰਦੀ ਹੈ

UC San Diego ਅਧਿਐਨ ਦੇ ਨਤੀਜੇ ਕਮਾਲ ਦੇ ਸਨ, ਖਾਸ ਤੌਰ ‘ਤੇ GPT-4.5 ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਸਬੰਧ ਵਿੱਚ ਜਦੋਂ ਵਿਸਤ੍ਰਿਤ PERSONA ਪ੍ਰੋਂਪਟ ਦੁਆਰਾ ਮਾਰਗਦਰਸ਼ਨ ਕੀਤਾ ਗਿਆ ਸੀ। ਇਸ ਖਾਸ ਸੰਰਚਨਾ ਨੇ ਇੱਕ ਹੈਰਾਨੀਜਨਕ 73% ‘ਜਿੱਤ ਦਰ’ ਪ੍ਰਾਪਤ ਕੀਤੀ। ਸੰਖੇਪ ਵਿੱਚ, ਲਗਭਗ ਤਿੰਨ-ਚੌਥਾਈ ਵਾਰ, ਇਸ AI ਨਾਲ ਗੱਲਬਾਤ ਕਰਨ ਵਾਲੇ ਮਨੁੱਖੀ ਜੱਜਾਂ ਨੇ ਸਿੱਟਾ ਕੱਢਿਆ ਕਿ ਉਹ ਕਿਸੇ ਹੋਰ ਮਨੁੱਖ ਨਾਲ ਗੱਲਬਾਤ ਕਰ ਰਹੇ ਸਨ। ਇਹ ਅੰਕੜਾ ਨਾ ਸਿਰਫ਼ ਇਸਦੇ ਸੰਪੂਰਨ ਮੁੱਲ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਹੈ, ਸਗੋਂ ਦੂਜੇ ਭਾਗੀਦਾਰਾਂ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਵੀ ਮਹੱਤਵਪੂਰਨ ਹੈ।

ਮਾਪਦੰਡਾਂ ‘ਤੇ ਗੌਰ ਕਰੋ:

  • ਮਨੁੱਖੀ ਗਵਾਹ: ਵਿਅੰਗਾਤਮਕ ਤੌਰ ‘ਤੇ, ਗਵਾਹ ਵਜੋਂ ਭਾਗ ਲੈਣ ਵਾਲੇ ਅਸਲ ਮਨੁੱਖ ਸ਼ਖਸੀਅਤ-ਸੰਚਾਲਿਤ GPT-4.5 ਨਾਲੋਂ ਜੱਜਾਂ ਨੂੰ ਆਪਣੀ ਮਨੁੱਖਤਾ ਦਾ ਯਕੀਨ ਦਿਵਾਉਣ ਵਿੱਚ ਘੱਟ ਸਫਲ ਸਨ।
  • ਹੋਰ AI ਮਾਡਲ: ਘੱਟੋ-ਘੱਟ ਪ੍ਰੋਂਪਟ ਵਾਲਾ GPT-4.5, GPT-4o ਅਤੇ Llama 3.1 (ਭਾਵੇਂ ਸਮਾਨ ਸ਼ਖਸੀਅਤ ਪ੍ਰੋਂਪਟ ਦਿੱਤੇ ਗਏ ਹੋਣ) ਦੇ ਨਾਲ, ਕਾਫ਼ੀ ਘੱਟ ਸਕੋਰ ਕੀਤੇ, ਜਿੱਤ ਦਰਾਂ 21% ਅਤੇ 56% ਦੇ ਵਿਚਕਾਰ ਸਨ। ਇਹ ਟੈਸਟ ਕੀਤੇ ਗਏ ਖਾਸ GPT-4.5 ਮਾਡਲ ਦੀਆਂ ਉੱਨਤ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਅਨੁਕੂਲਿਤ ਪ੍ਰੋਂਪਟਿੰਗ ਦੇ ਮਹੱਤਵਪੂਰਨ ਪ੍ਰਭਾਵ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ।
  • ਪਿਛਲਾ GPT-4 ਪ੍ਰਦਰਸ਼ਨ: ਸਿਰਫ਼ ਇੱਕ ਸਾਲ ਪਹਿਲਾਂ ਉਸੇ ਖੋਜਕਰਤਾਵਾਂ ਦੁਆਰਾ ਕੀਤੇ ਗਏ ਪ੍ਰਯੋਗ ਦੇ ਪਿਛਲੇ ਦੁਹਰਾਓ ਵਿੱਚ, GPT-4 ਨੇ ਸਿਰਫ਼ 54% ਦੀ ਜਿੱਤ ਦਰ ਪ੍ਰਾਪਤ ਕੀਤੀ ਸੀ, ਜੋ ਕਿ ਬੇਤਰਤੀਬ ਮੌਕੇ (50%) ਦੀ ਸੀਮਾ ਤੋਂ ਥੋੜ੍ਹਾ ਵੱਧ ਸੀ। GPT-4.5 ਨਾਲ 73% ਤੱਕ ਦੀ ਛਾਲ ਮਾਡਲ ਦੀ ਮਨੁੱਖੀ-ਵਰਗੇ ਟੈਕਸਟ ਪੈਦਾ ਕਰਨ ਦੀ ਯੋਗਤਾ ਵਿੱਚ ਤੇਜ਼ੀ ਨਾਲ ਤਰੱਕੀ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ।
  • ELIZA: ਵਿੰਟੇਜ ਚੈਟਬੋਟ ਨੇ, ਉਮੀਦ ਅਨੁਸਾਰ, ਮਾੜਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਇੱਕ ਬੇਸਲਾਈਨ ਵਜੋਂ ਆਪਣਾ ਉਦੇਸ਼ ਪੂਰਾ ਕੀਤਾ ਅਤੇ ਪੁਸ਼ਟੀ ਕੀਤੀ ਕਿ LLMs ਦੀ ਸਫਲਤਾ ਸਿਰਫ਼ ਇਸ ਲਈ ਨਹੀਂ ਸੀ ਕਿ ਜੱਜ ਕਿਸੇ ਵੀ ਪ੍ਰੋਗਰਾਮ ਦੁਆਰਾ ਆਸਾਨੀ ਨਾਲ ਧੋਖਾ ਖਾ ਗਏ ਸਨ।

Jones ਅਤੇ Bergen ਦਾ ਸਿੱਟਾ ਸਪੱਸ਼ਟ ਸੀ: ਜੱਜ ਸਿਰਫ਼ ਮਨੁੱਖ ਨੂੰ ਮਸ਼ੀਨ ਤੋਂ ਵੱਖ ਕਰਨ ਲਈ ਸੰਘਰਸ਼ ਨਹੀਂ ਕਰ ਰਹੇ ਸਨ; ਉਹ ਸਰਗਰਮੀ ਨਾਲ ਸ਼ਖਸੀਅਤ-ਸੰਚਾਲਿਤ GPT-4.5 ਨੂੰ ਮਨੁੱਖ ਮੰਨਣ ਲਈ ਵਧੇਰੇ ਝੁਕਾਅ ਰੱਖਦੇ ਸਨ ਜਿੰਨਾ ਉਹ ਅਸਲ ਮਨੁੱਖੀ ਭਾਗੀਦਾਰਾਂ ਨੂੰ ਮਨੁੱਖ ਮੰਨਦੇ ਸਨ। ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ AI, ਜਦੋਂ ਸਹੀ ਢੰਗ ਨਾਲ ਨਿਰਦੇਸ਼ਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਮਨੁੱਖੀ ਪਰਸਪਰ ਕ੍ਰਿਆ ਦੀਆਂ ਸਮਝੀਆਂ ਗਈਆਂ ਬਾਰੀਕੀਆਂ ਦੀ ਨਕਲ ਕਰ ਸਕਦਾ ਹੈ - ਸ਼ਾਇਦ ਅਸਲ ਮਨੁੱਖੀ ਚੈਟ ਵਿੱਚ ਮੌਜੂਦ ਅਜੀਬਤਾ ਜਾਂ ਅਸੰਗਤਤਾਵਾਂ ਨੂੰ ਵੀ ਫਿਲਟਰ ਕਰ ਸਕਦਾ ਹੈ - ਇਸ ਖਾਸ, ਸੀਮਤ ਵਾਤਾਵਰਣ ਵਿੱਚ ਖੁਦ ਮਨੁੱਖਾਂ ਨਾਲੋਂ ਵਧੇਰੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ। ਸਫਲਤਾ ਸਿਰਫ਼ ਪਾਸ ਹੋਣ ਬਾਰੇ ਨਹੀਂ ਸੀ; ਇਹ ਟੈਸਟ ਦੀਆਂ ਸੀਮਾਵਾਂ ਦੇ ਅੰਦਰ ਸਮਝੀ ਗਈ ‘ਮਨੁੱਖਤਾ’ ਵਿੱਚ ਮਨੁੱਖੀ ਬੇਸਲਾਈਨ ਨੂੰ ਪਾਰ ਕਰਨ ਬਾਰੇ ਸੀ।

ਮਨੁੱਖੀ-ਵਰਗੀ ਰੁਕਾਵਟ: ਬੁੱਧੀ ਜਾਂ ਅਨੁਕੂਲਨ?

ਕੀ Turing Test ਦੇ ਇਸ ਆਧੁਨਿਕ ਦੁਹਰਾਓ ਵਿੱਚ GPT-4.5 ਦੀ ਜਿੱਤ AGI ਦੇ ਆਗਮਨ ਦਾ ਸੰਕੇਤ ਦਿੰਦੀ ਹੈ? ਖੋਜਕਰਤਾ, ਖੇਤਰ ਦੇ ਬਹੁਤ ਸਾਰੇ ਮਾਹਰਾਂ ਦੇ ਨਾਲ, ਸਾਵਧਾਨੀ ਵਰਤਣ ਦੀ ਅਪੀਲ ਕਰਦੇ ਹਨ। ਟੈਸਟ ਦੇ ਆਲੇ ਦੁਆਲੇ ‘ਸਭ ਤੋਂ ਵਿਵਾਦਪੂਰਨ ਸਵਾਲ’, ਜਿਵੇਂ ਕਿ Jones ਅਤੇ Bergen ਸਵੀਕਾਰ ਕਰਦੇ ਹਨ, ਹਮੇਸ਼ਾ ਇਹ ਰਿਹਾ ਹੈ ਕਿ ਕੀ ਇਹ ਸੱਚਮੁੱਚ ਬੁੱਧੀ ਨੂੰ ਮਾਪਦਾ ਹੈ ਜਾਂ ਕੁਝ ਹੋਰ। ਜਦੋਂ ਕਿ GPT-4.5 ਦੀ ਮਨੁੱਖਾਂ ਨੂੰ ਇੰਨੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਮੂਰਖ ਬਣਾਉਣ ਦੀ ਯੋਗਤਾ ਨਿਰਸੰਦੇਹ ਇੱਕ ਤਕਨੀਕੀ ਕਾਰਨਾਮਾ ਹੈ, ਇਹ ਅਸਲ ਸਮਝ ਜਾਂ ਚੇਤਨਾ ਦੀ ਬਜਾਏ ਮਾਡਲ ਦੀ ਆਧੁਨਿਕ ਨਕਲ ਅਤੇ ਅਨੁਕੂਲਤਾ ਬਾਰੇ ਵਧੇਰੇ ਬੋਲ ਸਕਦਾ ਹੈ।

ਇੱਕ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਇਹ ਹੈ ਕਿ ਇਹ ਉੱਨਤ LLMs ਪੈਟਰਨ ਮੈਚਿੰਗ ਅਤੇ ਭਵਿੱਖਬਾਣੀ ਵਿੱਚ ਬੇਮਿਸਾਲ ਤੌਰ ‘ਤੇ ਮਾਹਰ ਹੋ ਗਏ ਹਨ। ਮਨੁੱਖੀ ਟੈਕਸਟ ਡੇਟਾ ਦੀ ਵੱਡੀ ਮਾਤਰਾ ਨਾਲ ਭਰੇ ਹੋਏ, ਉਹ ਵੱਖ-ਵੱਖ ਕਿਸਮਾਂ ਦੀਆਂ ਮਨੁੱਖੀ ਪਰਸਪਰ ਕ੍ਰਿਆਵਾਂ ਨਾਲ ਜੁੜੇ ਸ਼ਬਦ ਕ੍ਰਮਾਂ, ਗੱਲਬਾਤ ਦੇ ਮੋੜਾਂ, ਅਤੇ ਸ਼ੈਲੀਗਤ ਤੱਤਾਂ ਦੀ ਅੰਕੜਾਤਮਕ ਸੰਭਾਵਨਾ ਸਿੱਖਦੇ ਹਨ। PERSONA ਪ੍ਰੋਂਪਟ ਨੇ GPT-4.5 ਨੂੰ ਇੱਕ ਖਾਸ ਨਿਸ਼ਾਨਾ ਪੈਟਰਨ ਪ੍ਰਦਾਨ ਕੀਤਾ - ਇੱਕ ਅੰਤਰਮੁਖੀ, ਇੰਟਰਨੈਟ-ਸਮਝਦਾਰ ਨੌਜਵਾਨ ਵਿਅਕਤੀ। ਇਸ ਲਈ, AI ਦੀ ਸਫਲਤਾ ਨੂੰ ਬੇਨਤੀ ਕੀਤੀ ਸ਼ਖਸੀਅਤ ਨਾਲ ਮੇਲ ਕਰਨ ਲਈ ‘ਆਪਣੇ ਵਿਵਹਾਰ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ’ ਦੀ ਇਸਦੀ ਯੋਗਤਾ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਵਜੋਂ ਦੇਖਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਉਸ ਪ੍ਰੋਫਾਈਲ ਦੇ ਅਨੁਕੂਲ ਜਵਾਬ ਪੈਦਾ ਕਰਨ ਲਈ ਇਸਦੇ ਸਿਖਲਾਈ ਡੇਟਾ ‘ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ। ਇਹ ਲਚਕਤਾ ਅਤੇ ਜਨਰੇਟਿਵ ਸ਼ਕਤੀ ਦਾ ਇੱਕ ਕਮਾਲ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਹੈ, ਜੋ ਮਸ਼ੀਨ ਨੂੰ ਪ੍ਰੋਂਪਟ ਦੁਆਰਾ ਪਰਿਭਾਸ਼ਿਤ ਸੰਦਰਭ ਦੇ ਅੰਦਰ ਯਕੀਨਨ ਤੌਰ ‘ਤੇ ਮਨੁੱਖੀ ਦਿਖਾਈ ਦੇਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।

ਹਾਲਾਂਕਿ, ਇਹ ਅਨੁਕੂਲਤਾ ਮਨੁੱਖਾਂ ਦੁਆਰਾ ਰੱਖੀ ਗਈ ਆਮ ਬੁੱਧੀ ਤੋਂ ਵੱਖਰੀ ਹੈ, ਜਿਸ ਵਿੱਚ ਤਰਕ ਕਰਨਾ, ਸੰਦਰਭ ਨੂੰ ਡੂੰਘਾਈ ਨਾਲ ਸਮਝਣਾ, ਨਵੇਂ ਤਜ਼ਰਬਿਆਂ ਤੋਂ ਸਿੱਖਣਾ, ਅਤੇ ਚੇਤਨਾ ਰੱਖਣਾ ਸ਼ਾਮਲ ਹੈ - ਉਹ ਗੁਣ ਜੋ ਮੌਜੂਦਾ LLMs ਪ੍ਰਦਰਸ਼ਿਤ ਤੌਰ ‘ਤੇ ਪ੍ਰਦਰਸ਼ਿਤ ਨਹੀਂ ਕਰਦੇ ਹਨ। ਜਿਵੇਂ ਕਿ AI ਵਿਦਵਾਨ Melanie Mitchell ਨੇ ਦਲੀਲ ਦਿੱਤੀ ਹੈ, ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਵਿੱਚ ਰਵਾਨਗੀ, ਸ਼ਤਰੰਜ ਵਿੱਚ ਮੁਹਾਰਤ ਹਾਸਲ ਕਰਨ ਵਾਂਗ, ਆਮ ਬੁੱਧੀ ਦਾ ਨਿਸ਼ਚਿਤ ਸਬੂਤ ਨਹੀਂ ਹੈ। ਇਹ ਇੱਕ ਖਾਸ, ਭਾਵੇਂ ਗੁੰਝਲਦਾਰ, ਹੁਨਰ ਡੋਮੇਨ ਦੀ ਮੁਹਾਰਤ ਨੂੰ ਸਾਬਤ ਕਰਦਾ ਹੈ। ਇਸ ਲਈ, ਜਦੋਂ ਕਿ GPT-4.5 ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਉਤਪਤੀ ਵਿੱਚ ਇੱਕ ਮੀਲ ਪੱਥਰ ਹੈ, ਇਸਨੂੰ ਸਿਰਫ਼ AGI ਵੱਲ ਇੱਕ ਕਦਮ ਵਜੋਂ ਤਿਆਰ ਕਰਨਾ ਗੁੰਮਰਾਹਕੁੰਨ ਹੋ ਸਕਦਾ ਹੈ। ਇਸਨੂੰ ਟੈਕਸਟ-ਅਧਾਰਤ ਗੱਲਬਾਤ ਵਿੱਚ ‘ਮਨੁੱਖੀ-ਵਰਗੇਪਣ’ ਦੀ ਉੱਚ ਡਿਗਰੀ ਪ੍ਰਾਪਤ ਕਰਨ ਦੇ ਰੂਪ ਵਿੱਚ ਵਰਣਨ ਕਰਨਾ ਵਧੇਰੇ ਸਹੀ ਜਾਪਦਾ ਹੈ, ਮਨੁੱਖੀ-ਪੱਧਰ ਦੀ ਬੁੱਧੀ ਤੋਂ ਇੱਕ ਸੂਖਮ ਪਰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵੱਖਰੀ ਧਾਰਨਾ।

ਪਰਸਪਰ ਕ੍ਰਿਆ ਦਾ ਸ਼ੀਸ਼ਾ: ਟੈਸਟ ਸਾਡੇ ਬਾਰੇ ਕੀ ਦੱਸਦਾ ਹੈ

ਸ਼ਾਇਦ UC San Diego ਅਧਿਐਨ ਦਾ ਸਭ ਤੋਂ ਦਿਲਚਸਪ ਪਹਿਲੂ ਇਸ ਵਿੱਚ ਨਹੀਂ ਹੈ ਕਿ ਇਹ AI ਬਾਰੇ ਕੀ ਦੱਸਦਾ ਹੈ, ਸਗੋਂ ਇਸ ਵਿੱਚ ਹੈ ਕਿ ਇਹ ਮਨੁੱਖੀ ਨਿਰਣੇ ਅਤੇ ਉਹਨਾਂ ਧਾਰਨਾਵਾਂ ਬਾਰੇ ਕੀ ਉਜਾਗਰ ਕਰਦਾ ਹੈ ਜੋ ਅਸੀਂ ਪਰਸਪਰ ਕ੍ਰਿਆਵਾਂ, ਖਾਸ ਕਰਕੇ ਔਨਲਾਈਨ, ਵਿੱਚ ਲਿਆਉਂਦੇ ਹਾਂ। ਇਹ ਤੱਥ ਕਿ ਮਨੁੱਖੀ ਜੱਜਾਂ ਨੂੰ ਅਕਸਰ ਮੂਰਖ ਬਣਾਇਆ ਜਾਂਦਾ ਸੀ, ਅਤੇ ਕਈ ਵਾਰ AI ਦੀ ਪਰਸਪਰ ਕ੍ਰਿਆ ਸ਼ੈਲੀ ਨੂੰ ਵੀ ਤਰਜੀਹ ਦਿੱਤੀ ਜਾਂਦੀ ਸੀ, ਇਸ ਫਾਰਮੈਟ ਵਿੱਚ ਮਸ਼ੀਨ ਬੁੱਧੀ ਦੇ ਅੰਤਮ ਨਿਰਣਾਇਕ ਵਜੋਂ ਮਨੁੱਖੀ ਧਾਰਨਾ ਦੀ ਵਰਤੋਂ ਕਰਨ ਵਿੱਚ ਅੰਦਰੂਨੀ ਵਿਅਕਤੀਗਤਤਾ ਅਤੇ ਸੰਭਾਵੀ ਖਾਮੀਆਂ ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਦਾ ਹੈ।

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਜੱਜਾਂ ਦੇ ਤਰਕ ਵਿੱਚ ਦਿਲਚਸਪ ਪੈਟਰਨ ਨੋਟ ਕੀਤੇ:

  • ਅਚਾਨਕ ਵਿਵਹਾਰ: ਇੱਥੋਂ ਤੱਕ ਕਿ ਆਦਿਮ ELIZA ਪ੍ਰੋਗਰਾਮ ਵੀ 23% ਵਾਰ ਜੱਜਾਂ ਨੂੰ ਮੂਰਖ ਬਣਾਉਣ ਵਿੱਚ ਕਾਮਯਾਬ ਰਿਹਾ। ਇਹ ਇਸ ਲਈ ਨਹੀਂ ਸੀ ਕਿ ELIZA ਨੇ ਪ੍ਰਤਿਭਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਸਗੋਂ ਅਕਸਰ ਇਸ ਲਈ ਕਿ ਇਹ ਜੱਜਾਂ ਦੀਆਂ ਪੂਰਵ-ਧਾਰਨਾਵਾਂ ਨੂੰ ਪੂਰਾ ਨਹੀਂ ਕਰਦਾ ਸੀ ਕਿ ਇੱਕ AI ਨੂੰ ਕਿਵੇਂ ਵਿਵਹਾਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ। ਜੱਜਾਂ ਨੇ ਕਾਰਨਾਂ ਦਾ ਹਵਾਲਾ ਦਿੱਤਾ ਜਿਵੇਂ ਕਿ ਗਵਾਹ ‘ਵਿਅੰਗਮਈ’ ਜਾਂ ‘ਰੁੱਖਾ’ ਸੀ, ਉਹ ਗੁਣ ਜਿਨ੍ਹਾਂ ਦੀ ਉਹਨਾਂ ਨੇ ਇੱਕ ਮਸ਼ੀਨ ਤੋਂ ਉਮੀਦ ਨਹੀਂ ਕੀਤੀ ਸੀ, ਇਸ ਤਰ੍ਹਾਂ ਇਹ ਸਿੱਟਾ ਕੱਢਿਆ ਕਿ ਇਹ ਮਨੁੱਖ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ।
  • ਬੁੱਧੀ ਨਾਲੋਂ ਸਮਾਜਿਕਤਾ ‘ਤੇ ਧਿਆਨ: Alan Turing ਦੀ ਉਮੀਦ ਦੇ ਉਲਟ ਕਿ ਜੱਜ ਗਿਆਨ ਅਤੇ ਬੌਧਿਕ ਸਮਰੱਥਾ ਦੀ ਜਾਂਚ ਕਰਨਗੇ, ਇਸ ਅਧਿਐਨ ਵਿੱਚ ਭਾਗੀਦਾਰ ਅਕਸਰ ਗੱਲਬਾਤ ਦੀ ਸ਼ੈਲੀ, ਭਾਵਨਾਤਮਕ ਲਹਿਜ਼ੇ ਅਤੇ ਸਮਾਜਿਕ ਸੰਕੇਤਾਂ ‘ਤੇ ਵਧੇਰੇ ਕੇਂਦ੍ਰਿਤ ਜਾਪਦੇ ਸਨ।
  • ਅਪੂਰਣਤਾ ਦਾ ਵਿਰੋਧਾਭਾਸ: ਇੱਕ ਹੈਰਾਨੀਜਨਕ ਮੋੜ ਵਿੱਚ, ਉਹਨਾਂ ਕਾਰਕਾਂ ਵਿੱਚੋਂ ਇੱਕ ਜਿਨ੍ਹਾਂ ਦੀ ਵਰਤੋਂ ਜੱਜਾਂ ਨੇ ਇੱਕ ਗਵਾਹ ਨੂੰ ਮਨੁੱਖ ਵਜੋਂ ਸਹੀ ਢੰਗ ਨਾਲ ਪਛਾਣਨ ਲਈ ਕੀਤੀ ਸੀ, ਉਹ ਗਿਆਨ ਦੀ ਸਮਝੀ ਗਈ ਕਮੀ ਸੀ। ਇਹ ਇੱਕ ਅੰਤਰੀਵ ਧਾਰਨਾ ਦਾ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਮਨੁੱਖ ਗਲਤੀਯੋਗ ਅਤੇ ਅਪੂਰਣ ਹਨ, ਜਦੋਂ ਕਿ AI ਤੋਂ ਵਿਸ਼ਵਕੋਸ਼ੀ ਜਾਂ ਬਹੁਤ ਜ਼ਿਆਦਾ ਸਟੀਕ ਹੋਣ ਦੀ ਉਮੀਦ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ।

ਇਹ ਨਿਰੀਖਣ Jones ਅਤੇ Bergen ਨੂੰ ਇਹ ਦਾਅਵਾ ਕਰਨ ਲਈ ਪ੍ਰੇਰਿਤ ਕਰਦੇ ਹਨ ਕਿ ਜੱਜਾਂ ਦੇ ਫੈਸਲਿਆਂ ਵਿੱਚ ‘ਇਸ ਬਾਰੇ ਗੁੰਝਲਦਾਰ ਧਾਰਨਾਵਾਂ ਸ਼ਾਮਲ ਹੁੰਦੀਆਂ ਹਨ ਕਿ ਮਨੁੱਖ ਅਤੇ AI ਸਿਸਟਮ ਕਿਵੇਂ ਵਿਵਹਾਰ ਕਰਨ ਦੀ ਸੰਭਾਵਨਾ ਰੱਖਦੇ ਹਨ,’ ਬੁੱਧੀ ਦੇ ਸਧਾਰਨ ਮੁਲਾਂਕਣ ਤੋਂ ਪਰੇ ਜਾਂਦੇ ਹੋਏ। ਮਾਪਦੰਡ ਸਮਾਜਿਕ ਉਮੀਦਾਂ, ਸ਼ਖਸੀਅਤ ਦੇ ਨਿਰਣੇ, ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਤਕਨੀਕੀ ਸਮਰੱਥਾਵਾਂ ਬਾਰੇ ਪੱਖਪਾਤ ਨਾਲ ਜੁੜ ਜਾਂਦੇ ਹਨ। ਇੱਕ ਅਜਿਹੇ ਯੁੱਗ ਵਿੱਚ ਜਿੱਥੇ ਟੈਕਸਟ-ਅਧਾਰਤ ਸੰਚਾਰ ਸਰਵ ਵਿਆਪਕ ਹੈ, ਅਸੀਂ ਔਨਲਾਈਨ ਪਰਸਪਰ ਕ੍ਰਿਆਵਾਂ ਲਈ ਡੂੰਘੀਆਂ ਆਦਤਾਂ ਅਤੇ ਉਮੀਦਾਂ ਵਿਕਸਿਤ ਕੀਤੀਆਂ ਹਨ। Turing Test, ਅਸਲ ਵਿੱਚ ਮਨੁੱਖੀ-ਕੰਪਿਊਟਰ ਪਰਸਪਰ ਕ੍ਰਿਆ ਵਿੱਚ ਇੱਕ ਨਵੀਂ ਜਾਂਚ ਵਜੋਂ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਸੀ, ਹੁਣ ਇਹਨਾਂ ਔਨਲਾਈਨ ਮਨੁੱਖੀ ਆਦਤਾਂ ਅਤੇ ਪੱਖਪਾਤਾਂ ਦੇ ਟੈਸਟ ਵਜੋਂ ਵਧੇਰੇ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਡਿਜੀਟਲ ਸ਼ਖਸੀਅਤਾਂ ਨੂੰ ਪਾਰਸ ਕਰਨ ਦੀ ਸਾਡੀ ਯੋਗਤਾ ਨੂੰ ਮਾਪਦਾ ਹੈ, ਜੋ ਔਨਲਾਈਨ ਮਨੁੱਖਾਂ ਅਤੇ ਬੋਟਸ ਦੋਵਾਂ ਨਾਲ ਸਾਡੇ ਰੋਜ਼ਾਨਾ ਦੇ ਤਜ਼ਰਬਿਆਂ ਤੋਂ ਪ੍ਰਭਾਵਿਤ ਹੁੰਦਾ ਹੈ। ਬੁਨਿਆਦੀ ਤੌਰ ‘ਤੇ, ਆਧੁਨਿਕ Turing Test, ਜਿਵੇਂ ਕਿ ਇਸ ਖੋਜ ਦੁਆਰਾ ਪ੍ਰਦਰਸ਼ਿਤ ਕੀਤਾ ਗਿਆ ਹੈ, ਮਸ਼ੀਨ ਬੁੱਧੀ ਦੇ ਸਿੱਧੇ ਮੁਲਾਂਕਣ ਤੋਂ ਘੱਟ ਅਤੇ ਮਨੁੱਖੀ ਉਮੀਦ ਦੇ ਲੈਂਸ ਦੁਆਰਾ ਫਿਲਟਰ ਕੀਤੇ ਗਏ, ਸਮਝੇ ਗਏ ਮਨੁੱਖੀ-ਵਰਗੇਪਣ ਦਾ ਇੱਕ ਗੇਜ ਜਾਪਦਾ ਹੈ।

ਨਕਲ ਖੇਡ ਤੋਂ ਪਰੇ: AI ਮੁਲਾਂਕਣ ਲਈ ਇੱਕ ਨਵਾਂ ਕੋਰਸ ਤਿਆਰ ਕਰਨਾ

GPT-4.5 ਵਰਗੇ ਮਾਡਲਾਂ ਦੇ ਮਜਬੂਰ ਕਰਨ ਵਾਲੇ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਰਵਾਇਤੀ Turing Test ਫਾਰਮੈਟ ਵਿੱਚ ਮੌਜੂਦ ਉਜਾਗਰ ਕੀਤੀਆਂ ਸੀਮਾਵਾਂ ਅਤੇ ਪੱਖਪਾਤਾਂ ਨੂੰ ਦੇਖਦੇ ਹੋਏ, ਸਵਾਲ ਉੱਠਦਾ ਹੈ: ਕੀ ਇਹ ਦਹਾਕਿਆਂ ਪੁਰਾਣਾ ਮਾਪਦੰਡ ਅਜੇ ਵੀ AGI ਵੱਲ ਤਰੱਕੀ ਨੂੰ ਮਾਪਣ ਲਈ ਸਹੀ ਸਾਧਨ ਹੈ? UC San Diego ਦੇ ਖੋਜਕਰਤਾ, AI ਭਾਈਚਾਰੇ ਵਿੱਚ ਵਧ ਰਹੀ ਆਵਾਜ਼ ਦੇ ਨਾਲ, ਸੁਝਾਅ ਦਿੰਦੇ ਹਨ ਕਿ ਸ਼ਾਇਦ ਨਹੀਂ - ਘੱਟੋ ਘੱਟ, ਇੱਕੋ ਇੱਕ ਜਾਂ ਨਿਸ਼ਚਿਤ ਮਾਪ ਵਜੋਂ ਨਹੀਂ।

GPT-4.5 ਦੀ ਬਹੁਤ ਸਫਲਤਾ, ਖਾਸ ਤੌਰ ‘ਤੇ PERSONA ਪ੍ਰੋਂਪਟ ‘ਤੇ ਇਸਦੀ ਨਿਰਭਰਤਾ, ਇੱਕ ਮੁੱਖ ਸੀਮਾ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦੀ ਹੈ: ਟੈਸਟ ਇੱਕ ਖਾਸ, ਅਕਸਰ ਤੰਗ, ਗੱਲਬਾਤ ਦੇ ਸੰਦਰਭ ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ। ਇਹ ਜ਼ਰੂਰੀ ਤੌਰ ‘ਤੇ ਡੂੰਘੀਆਂ ਬੋਧਾਤਮਕ ਯੋਗਤਾਵਾਂ ਜਿਵੇਂ ਕਿ ਤਰਕ, ਯੋਜਨਾਬੰਦੀ, ਰਚਨਾਤਮਕਤਾ, ਜਾਂ ਵਿਭਿੰਨ ਸਥਿਤੀਆਂ ਵਿੱਚ ਆਮ ਸਮਝ ਦੀ ਜਾਂਚ ਨਹੀਂ ਕਰਦਾ ਹੈ। ਜਿਵੇਂ ਕਿ Jones ਅਤੇ Bergen ਕਹਿੰਦੇ ਹਨ, ‘ਬੁੱਧੀ ਗੁੰਝਲਦਾਰ ਅਤੇ ਬਹੁਪੱਖੀ ਹੈ,’ ਭਾਵ ਕਿ ‘ਬੁੱਧੀ ਦਾ ਕੋਈ ਇੱਕ ਟੈਸਟ ਨਿਰਣਾਇਕ ਨਹੀਂ ਹੋ ਸਕਦਾ।’

ਇਹ ਮੁਲਾਂਕਣ ਵਿਧੀਆਂ ਦੇ ਵਧੇਰੇ ਵਿਆਪਕ ਸੂਟ ਦੀ ਲੋੜ ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਦਾ ਹੈ। ਕਈ ਸੰਭਾਵੀ ਰਸਤੇ ਉੱਭਰਦੇ ਹਨ:

  1. ਸੋਧੇ ਹੋਏ ਟੈਸਟ ਡਿਜ਼ਾਈਨ: ਖੋਜਕਰਤਾ ਖੁਦ ਭਿੰਨਤਾਵਾਂ ਦਾ ਸੁਝਾਅ ਦਿੰਦੇ ਹਨ। ਕੀ ਜੇ ਜੱਜ AI ਮਾਹਰ ਹੁੰਦੇ, ਵੱਖਰੀਆਂ ਉਮੀਦਾਂ ਰੱਖਦੇ ਅਤੇ ਸ਼ਾਇਦ ਇੱਕ ਮਸ਼ੀਨ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਵਧੇਰੇ ਆਧੁਨਿਕ ਤਰੀਕਿਆਂ ਨਾਲ? ਕੀ ਜੇ ਮਹੱਤਵਪੂਰਨ ਵਿੱਤੀ ਪ੍ਰੋਤਸਾਹਨ ਪੇਸ਼ ਕੀਤੇ ਜਾਂਦੇ, ਜੱਜਾਂ ਨੂੰ ਜਵਾਬਾਂ ਦੀ ਵਧੇਰੇ ਧਿਆਨ ਨਾਲ ਅਤੇ ਸੋਚ ਸਮਝ ਕੇ ਜਾਂਚ ਕਰਨ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕਰਦੇ? ਇਹ ਤਬਦੀਲੀਆਂ ਗਤੀਸ਼ੀਲਤਾ ਨੂੰ ਬਦਲ ਸਕਦੀਆਂ ਹਨ ਅਤੇ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਵੱਖੋ-ਵੱਖਰੇ ਨਤੀਜੇ ਦੇ ਸਕਦੀਆਂ ਹਨ, ਟੈਸਟ ਦੇ ਨਤੀਜੇ ‘ਤੇ ਸੰਦਰਭ ਅਤੇ ਪ੍ਰੇਰਣਾ ਦੇ ਪ੍ਰਭਾਵ ਨੂੰ ਹੋਰ ਉਜਾਗਰ ਕਰ ਸਕਦੀਆਂ ਹਨ।
  2. ਵਿਆਪਕ ਸਮਰੱਥਾ ਟੈਸਟਿੰਗ: ਗੱਲਬਾਤ ਦੀ ਰਵਾਨਗੀ ਤੋਂ ਪਰੇ ਜਾਂਦੇ ਹੋਏ, ਮੁਲਾਂਕਣ ਬੁੱਧੀ ਦੇ ਵੱਖ-ਵੱਖ ਪਹਿਲੂਆਂ ਦੀ ਲੋੜ ਵਾਲੇ ਕਾਰਜਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰ ਸਕਦੇ ਹਨ - ਨਵੇਂ ਡੋਮੇਨਾਂ ਵਿੱਚ ਸਮੱਸਿਆ-ਹੱਲ ਕਰਨਾ, ਲੰਬੇ ਸਮੇਂ ਦੀ ਯੋਜਨਾਬੰਦੀ, ਗੁੰਝਲਦਾਰ ਕਾਰਨ-ਕਾਰਜ ਸਬੰਧਾਂ ਨੂੰ ਸਮਝਣਾ, ਜਾਂ ਸਿਖਲਾਈ ਡੇਟਾ ਦੇ ਆਧੁਨਿਕ ਰੀਮਿਕਸਿੰਗ ਦੀ ਬਜਾਏ ਅਸਲ ਰਚਨਾਤਮਕਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨਾ।
  3. Human-in-the-Loop (HITL) ਮੁਲਾਂਕਣ: AI ਮੁਲਾਂਕਣ ਵਿੱਚ ਮਨੁੱਖੀ ਨਿਰਣੇ ਨੂੰ ਵਧੇਰੇ ਯੋਜਨਾਬੱਧ ਢੰਗ ਨਾਲ ਏਕੀਕ੍ਰਿਤ ਕਰਨ ਵੱਲ ਇੱਕ ਵਧ ਰਿਹਾ ਰੁਝਾਨ ਹੈ, ਪਰ ਸ਼ਾਇਦ ਕਲਾਸਿਕ Turing Test ਨਾਲੋਂ ਵਧੇਰੇ ਢਾਂਚਾਗਤ ਤਰੀਕਿਆਂ ਨਾਲ। ਇਸ ਵਿੱਚ ਮਨੁੱਖਾਂ ਨੂੰ ਸਿਰਫ਼ ਇੱਕ ਬਾਈਨਰੀ ਮਨੁੱਖੀ/ਮਸ਼ੀਨ ਨਿਰਣਾ ਕਰਨ ਦੀ ਬਜਾਏ ਖਾਸ ਮਾਪਦੰਡਾਂ (ਉਦਾਹਰਨ ਲਈ, ਤੱਥਾਂ ਦੀ ਸ਼ੁੱਧਤਾ, ਤਰਕਪੂਰਨ ਤਾਲਮੇਲ, ਨੈਤਿਕ ਵਿਚਾਰ, ਉ