ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ (AI) ਦਾ ਖੇਤਰ ਲਗਾਤਾਰ ਬਦਲ ਰਿਹਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਅਜਿਹੇ ਮੀਲਪੱਥਰ ਸਥਾਪਤ ਹੋ ਰਹੇ ਹਨ ਜੋ ਕਦੇ ਵਿਗਿਆਨਕ ਕਲਪਨਾ ਤੱਕ ਹੀ ਸੀਮਤ ਸਨ। ਇੱਕ ਤਾਜ਼ਾ ਘਟਨਾਕ੍ਰਮ ਨੇ ਤਕਨੀਕੀ ਭਾਈਚਾਰੇ ਅਤੇ ਇਸ ਤੋਂ ਬਾਹਰ ਹਲਚਲ ਮਚਾ ਦਿੱਤੀ ਹੈ: ਦੋ ਉੱਨਤ AI ਮਾਡਲਾਂ ਨੇ ਕਥਿਤ ਤੌਰ ‘ਤੇ Turing Test ਦੀਆਂ ਜਟਿਲਤਾਵਾਂ ਨੂੰ ਸਫਲਤਾਪੂਰਵਕ ਪਾਰ ਕਰ ਲਿਆ ਹੈ। ਇਹ ਪ੍ਰਤੀਕਾਤਮਕ ਬੈਂਚਮਾਰਕ, ਜੋ 20ਵੀਂ ਸਦੀ ਦੇ ਮੱਧ ਵਿੱਚ ਬ੍ਰਿਟਿਸ਼ ਗਣਿਤ ਸ਼ਾਸਤਰੀ Alan Turing ਦੁਆਰਾ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਸੀ, ਲੰਬੇ ਸਮੇਂ ਤੋਂ ਮਸ਼ੀਨੀ ਬੁੱਧੀ ਲਈ ਇੱਕ ਸੰਕਲਪਿਕ ਮਾਊਂਟ ਐਵਰੈਸਟ ਵਜੋਂ ਖੜ੍ਹਾ ਹੈ – ਇਸ ਗੱਲ ਦਾ ਮਾਪ ਕਿ ਕੀ ਕੋਈ ਮਸ਼ੀਨ ਇੰਨੀ ਯਕੀਨੀ ਤੌਰ ‘ਤੇ ਗੱਲਬਾਤ ਕਰ ਸਕਦੀ ਹੈ ਕਿ ਉਹ ਮਨੁੱਖ ਤੋਂ ਵੱਖਰੀ ਨਾ ਲੱਗੇ। ਇਹ ਖ਼ਬਰ ਕਿ OpenAI ਦੇ GPT-4.5 ਅਤੇ Meta ਦੇ Llama-3.1 ਮਾਡਲਾਂ ਨੇ ਤਰਕਪੂਰਨ ਤੌਰ ‘ਤੇ ਇਸ ਸਿਖਰ ਨੂੰ ਛੂਹ ਲਿਆ ਹੈ, AI ਦੇ ਵਿਕਾਸ ਵਿੱਚ ਇੱਕ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਪਲ ਦਾ ਸੰਕੇਤ ਦਿੰਦੀ ਹੈ, ਜੋ ਮਨੁੱਖੀ ਬੋਧ ਅਤੇ ਨਕਲੀ ਸਮਰੱਥਾ ਵਿਚਕਾਰ ਵਧਦੀਆਂ ਧੁੰਦਲੀਆਂ ਹੱਦਾਂ ਦੀ ਨਵੀਂ ਜਾਂਚ ਲਈ ਮਜਬੂਰ ਕਰਦੀ ਹੈ।
ਮੀਲਪੱਥਰ ਪ੍ਰਯੋਗ: ਡਿਜ਼ਾਈਨ ਅਤੇ ਹੈਰਾਨੀਜਨਕ ਨਤੀਜੇ
ਇਹ ਦਾਅਵਾ ਕਿ ਇਹਨਾਂ AI ਸਿਸਟਮਾਂ ਨੇ Turing Test ਪਾਸ ਕੀਤਾ ਹੈ, University of California San Diego ਵਿਖੇ Cameron R. Jones ਅਤੇ Benjamin K. Bergen ਦੁਆਰਾ ਕੀਤੇ ਗਏ ਖੋਜ ਤੋਂ ਪੈਦਾ ਹੁੰਦਾ ਹੈ। ਉਹਨਾਂ ਦਾ ਅਧਿਐਨ, ਜੋ ਵਰਤਮਾਨ ਵਿੱਚ ਪੀਅਰ ਰਿਵਿਊ ਦੀ ਪੜਤਾਲ ਦੀ ਉਡੀਕ ਕਰ ਰਿਹਾ ਹੈ, ਨੇ ਇੱਕ ਅਜਿਹੀ ਵਿਧੀ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜੋ Turing ਦੇ ਮੂਲ ਪ੍ਰਸਤਾਵ ਦੀ ਭਾਵਨਾ ਦੀ ਨੇੜਿਓਂ ਪਾਲਣਾ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤੀ ਗਈ ਸੀ ਜਦੋਂ ਕਿ ਆਧੁਨਿਕ ਕਠੋਰਤਾ ਨੂੰ ਸ਼ਾਮਲ ਕੀਤਾ ਗਿਆ ਸੀ। ਸਰਲ, ਦੋ-ਪਾਰਟੀ ਟੈਸਟਾਂ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਪਛਾਣਦੇ ਹੋਏ, Jones ਅਤੇ Bergen ਨੇ ਇੱਕ ਵਧੇਰੇ ਚੁਣੌਤੀਪੂਰਨ ਤਿੰਨ-ਪਾਰਟੀ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਮਾਡਲ ਲਾਗੂ ਕੀਤਾ।
ਇਸ ਸੈੱਟਅੱਪ ਵਿੱਚ, ਇੱਕ ਮਨੁੱਖੀ ਭਾਗੀਦਾਰ (ਪੁੱਛਗਿੱਛ ਕਰਨ ਵਾਲਾ) ਨੇ ਪੰਜ ਮਿੰਟ ਦੀ ਮਿਆਦ ਲਈ ਵੱਖ-ਵੱਖ, ਟੈਕਸਟ-ਅਧਾਰਿਤ ਗੱਲਬਾਤ ਵਿੱਚ ਇੱਕੋ ਸਮੇਂ ਹਿੱਸਾ ਲਿਆ। ਇੱਕ ਗੱਲਬਾਤ ਸਾਥੀ ਦੂਜਾ ਮਨੁੱਖ ਸੀ, ਜਦੋਂ ਕਿ ਦੂਜਾ ਇੱਕ AI ਸਿਸਟਮ ਸੀ। ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਹੈ ਕਿ ਪੁੱਛਗਿੱਛ ਕਰਨ ਵਾਲਾ ਇਸ ਗੱਲ ਤੋਂ ਅਣਜਾਣ ਸੀ ਕਿ ਕਿਹੜਾ ਕਿਹੜਾ ਸੀ। ਪੰਜ ਮਿੰਟ ਦੇ ਆਦਾਨ-ਪ੍ਰਦਾਨ ਤੋਂ ਬਾਅਦ, ਪੁੱਛਗਿੱਛ ਕਰਨ ਵਾਲੇ ਦਾ ਕੰਮ ਸਪੱਸ਼ਟ ਸੀ: ਮਸ਼ੀਨ ਦੀ ਪਛਾਣ ਕਰਨਾ। ਇਹ ਢਾਂਚਾ ਸਿੱਧੀ ਤੁਲਨਾ ਲਈ ਮਜਬੂਰ ਕਰਦਾ ਹੈ ਅਤੇ ਇਸਨੂੰ ਸਿਰਫ਼ ਇਹ ਪੁੱਛਣ ਨਾਲੋਂ ਵਧੇਰੇ ਮਜ਼ਬੂਤ ਮੁਲਾਂਕਣ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ ਕਿ ਕੀ ਕੋਈ AI ਇਕੱਲਤਾ ਵਿੱਚ ਮਨੁੱਖੀ ਲੱਗਦਾ ਹੈ।
ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਕਿ ਖੋਜਾਂ ਕਿਸੇ ਖਾਸ ਜਨਸੰਖਿਆ ਦੁਆਰਾ ਤਿਰਛੀਆਂ ਨਾ ਹੋਣ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਆਪਣੇ ਸੈੱਟਅੱਪ ਦੀ ਦੋ ਵੱਖ-ਵੱਖ ਆਬਾਦੀਆਂ ਵਿੱਚ ਜਾਂਚ ਕੀਤੀ:
- ਅੰਡਰਗਰੈਜੂਏਟ ਵਿਦਿਆਰਥੀ, ਇੱਕ ਨੌਜਵਾਨ ਜਨਸੰਖਿਆ ਦੀ ਨੁਮਾਇੰਦਗੀ ਕਰਦੇ ਹਨ ਜੋ ਆਮ ਤੌਰ ‘ਤੇ ਡਿਜੀਟਲ ਸੰਚਾਰ ਤੋਂ ਜਾਣੂ ਹੁੰਦੇ ਹਨ।
- ਪ੍ਰੋਲਿਫਿਕ ਵਰਕਰ (ਆਨਲਾਈਨ ਪਲੇਟਫਾਰਮਾਂ ਤੋਂ ਭਰਤੀ ਕੀਤੇ ਗਏ), ਆਬਾਦੀ ਦੇ ਇੱਕ ਵਿਸ਼ਾਲ ਕਰਾਸ-ਸੈਕਸ਼ਨ ਦੀ ਨੁਮਾਇੰਦਗੀ ਕਰਦੇ ਹਨ ਜੋ ਵੱਖ-ਵੱਖ ਆਨਲਾਈਨ ਪਰਸਪਰ ਕ੍ਰਿਆਵਾਂ ਦੇ ਆਦੀ ਹਨ।
ਇਸ ਸਾਵਧਾਨੀਪੂਰਵਕ ਪਹੁੰਚ ਦੁਆਰਾ ਪ੍ਰਾਪਤ ਨਤੀਜੇ ਹੈਰਾਨਕੁਨ ਸਨ।
- OpenAI ਦਾ GPT-4.5 ਕਮਾਲ ਦਾ ਪ੍ਰੇਰਕ ਬਣ ਕੇ ਉੱਭਰਿਆ। ਜਦੋਂ ਖਾਸ ਤੌਰ ‘ਤੇ ਇੱਕ ਖਾਸ ਸ਼ਖਸੀਅਤ (ਇਸ ਬਾਰੇ ਬਾਅਦ ਵਿੱਚ ਹੋਰ) ਅਪਣਾਉਣ ਲਈ ਨਿਰਦੇਸ਼ ਦਿੱਤਾ ਗਿਆ, ਤਾਂ ਇਹ ਸਿਰਫ਼ ਯਕੀਨਨ ਨਹੀਂ ਸੀ; ਇਹ ਸ਼ਾਮਲ ਅਸਲ ਮਨੁੱਖਾਂ ਨਾਲੋਂ ਵਧੇਰੇ ਯਕੀਨਨ ਸੀ। ਪੁੱਛਗਿੱਛ ਕਰਨ ਵਾਲਿਆਂ ਨੇ GPT-4.5 ਨੂੰ ਮਨੁੱਖੀ ਭਾਗੀਦਾਰ ਵਜੋਂ ਇੱਕ ਹੈਰਾਨਕੁਨ 73% ਵਾਰ ਪਛਾਣਿਆ। ਇਹ ਅੰਕੜਾ ਨਾ ਸਿਰਫ਼ ਰਵਾਇਤੀ 50% ਪਾਸ ਥ੍ਰੈਸ਼ਹੋਲਡ ਨੂੰ ਪਾਰ ਕਰਦਾ ਹੈ, ਸਗੋਂ ਉਸ ਦਰ ਨੂੰ ਵੀ ਪਾਰ ਕਰਦਾ ਹੈ ਜਿਸ ‘ਤੇ ਪੁੱਛਗਿੱਛ ਕਰਨ ਵਾਲਿਆਂ ਨੇ ਅਸਲ ਮਨੁੱਖੀ ਭਾਈਵਾਲਾਂ ਦੀ ਸਹੀ ਪਛਾਣ ਕੀਤੀ ਸੀ।
- Meta ਦਾ Llama-3.1-405B, ਇੱਕ ਹੋਰ ਅਤਿ-ਆਧੁਨਿਕ ਵੱਡਾ ਭਾਸ਼ਾਈ ਮਾਡਲ, ਨੇ ਵੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਇਸਨੇ ਮਨੁੱਖ ਵਜੋਂ ਪਛਾਣੇ ਜਾਣ ਵਿੱਚ 56% ਸਫਲਤਾ ਦਰ ਪ੍ਰਾਪਤ ਕੀਤੀ, ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਬੇਸਲਾਈਨ ਪ੍ਰਦਰਸ਼ਨ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ ਜੇਕਰ ਚੋਣਾਂ ਬੇਤਰਤੀਬ ਹੁੰਦੀਆਂ (ਲਗਭਗ 50%) ਅਤੇ ਮਨੁੱਖੀ ਗੱਲਬਾਤ ਦੇ ਪੈਟਰਨਾਂ ਦੀ ਨਕਲ ਕਰਨ ਦੀ ਮਜ਼ਬੂਤ ਯੋਗਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ।
ਇਹ ਉੱਚ ਸਫਲਤਾ ਦਰਾਂ ਪ੍ਰਯੋਗ ਵਿੱਚ ਸ਼ਾਮਲ ਬੇਸਲਾਈਨ ਅਤੇ ਕੰਟਰੋਲ ਮਾਡਲਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਬਿਲਕੁਲ ਉਲਟ ਹਨ:
- GPT-4o, ਇੱਕ ਸਮਰੱਥ ਪਰ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਘੱਟ ਉੱਨਤ OpenAI ਮਾਡਲ, ਦੀ ਜਿੱਤ ਦਰ ਸਿਰਫ 21% ਸੀ।
- ELIZA, 1960 ਦੇ ਦਹਾਕੇ ਵਿੱਚ ਵਿਕਸਤ ਕੀਤਾ ਗਿਆ ਇੱਕ ਮੁੱਢਲਾ ਚੈਟਬੋਟ, ਇੱਕ ਨਿਯੰਤਰਣ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਸੀ। ਇਸਦੀ ਸ਼ਮੂਲੀਅਤ ਇਹ ਪੁਸ਼ਟੀ ਕਰਨ ਲਈ ਮਹੱਤਵਪੂਰਨ ਸੀ ਕਿ ਪੁੱਛਗਿੱਛ ਕਰਨ ਵਾਲੇ ਅਸਲ ਵਿੱਚ ਗੈਰ-ਮਨੁੱਖੀ ਜਵਾਬਾਂ ਨੂੰ ਵੱਖਰਾ ਕਰ ਸਕਦੇ ਹਨ ਜਦੋਂ ਇੱਕ ਘੱਟ ਆਧੁਨਿਕ ਪ੍ਰਣਾਲੀ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪੈਂਦਾ ਹੈ। ਜਿਵੇਂ ਕਿ ਉਮੀਦ ਕੀਤੀ ਗਈ ਸੀ, ELIZA ਨੇ ਮਾੜਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਜ਼ਿਆਦਾਤਰ ਸਮਾਂ ਗੈਰ-ਮਨੁੱਖੀ ਵਜੋਂ ਸਹੀ ਢੰਗ ਨਾਲ ਪਛਾਣਿਆ ਗਿਆ (ਸਿਰਫ 23% ਜਿੱਤ ਦਰ, ਜ਼ਰੂਰੀ ਤੌਰ ‘ਤੇ ਸ਼ੋਰ ਫਲੋਰ ਜਾਂ ਭਾਗੀਦਾਰ ਦੀ ਗਲਤੀ ਨੂੰ ਮਾਪਣਾ)।
GPT-4.5 ਅਤੇ Llama-3.1 ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ GPT-4o ਅਤੇ ELIZA ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਅੰਤਰ ਹਾਲ ਹੀ ਦੇ AI ਵਿਕਾਸ ਵਿੱਚ ਕੀਤੀਆਂ ਗਈਆਂ ਤਰੱਕੀਆਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਖੋਜਕਰਤਾ ਦਾਅਵਾ ਕਰਦੇ ਹਨ ਕਿ ਉਹਨਾਂ ਦਾ ਅਧਿਐਨ ‘ਪਹਿਲਾ ਮਜ਼ਬੂਤ ਸਬੂਤ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਕਿ ਕੋਈ ਵੀ ਸਿਸਟਮ ਅਸਲ ਤਿੰਨ-ਪਾਰਟੀ Turing Test ਪਾਸ ਕਰਦਾ ਹੈ,’ ਇੱਕ ਦਾਅਵਾ ਜੋ, ਪੀਅਰ ਸਮੀਖਿਆ ਦੀ ਉਡੀਕ ਵਿੱਚ, AI ਇਤਿਹਾਸ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਪਲ ਦੀ ਨਿਸ਼ਾਨਦੇਹੀ ਕਰਦਾ ਹੈ।
ਸ਼ਖਸੀਅਤ ਅਤੇ ਪ੍ਰੋਂਪਟਿੰਗ ਦੀ ਮਹੱਤਵਪੂਰਨ ਭੂਮਿਕਾ
ਹਾਲਾਂਕਿ, AI ਦੀ ਜਿੱਤ ਦੀ ਕਹਾਣੀ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਤਾਰੇ (*) ਨਾਲ ਆਉਂਦੀ ਹੈ, ਜੋ ਸੁਰਖੀਆਂ ਦੇ ਅੰਕੜਿਆਂ ਪਿੱਛੇ ਦੀ ਸੂਖਮ ਹਕੀਕਤ ਨੂੰ ਉਜਾਗਰ ਕਰਦੀ ਹੈ। GPT-4.5 ਅਤੇ Llama-3.1 ਦੀਆਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਸਫਲਤਾ ਦਰਾਂ ਉਹਨਾਂ ਦੀਆਂ ਅੰਦਰੂਨੀ, ਆਊਟ-ਆਫ-ਦ-ਬਾਕਸ ਸਮਰੱਥਾਵਾਂ ਦੁਆਰਾ ਨਹੀਂ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ ਗਈਆਂ ਸਨ। ਇਸ ਦੀ ਬਜਾਏ, ਮਨੁੱਖੀ ਪੁੱਛਗਿੱਛ ਕਰਨ ਵਾਲਿਆਂ ਨੂੰ ਮੂਰਖ ਬਣਾਉਣ ਦੀ ਉਹਨਾਂ ਦੀ ਯੋਗਤਾ ਖਾਸ ਨਿਰਦੇਸ਼ਾਂ - ਪ੍ਰੋਂਪਟਸ - ‘ਤੇ ਬਹੁਤ ਜ਼ਿਆਦਾ ਨਿਰਭਰ ਸੀ ਜੋ ਉਹਨਾਂ ਨੂੰ ਪਰਸਪਰ ਕ੍ਰਿਆਵਾਂ ਸ਼ੁਰੂ ਹੋਣ ਤੋਂ ਪਹਿਲਾਂ ਦਿੱਤੇ ਗਏ ਸਨ।
ਖੋਜਕਰਤਾਵਾਂ ਨੇ AI ਮਾਡਲਾਂ ਨੂੰ ਇੱਕ ਧਿਆਨ ਨਾਲ ਪਰਿਭਾਸ਼ਿਤ ਸ਼ਖਸੀਅਤ ਅਪਣਾਉਣ ਦਾ ਨਿਰਦੇਸ਼ ਦਿੱਤਾ: ਇੱਕ ਨੌਜਵਾਨ, ਕੁਝ ਹੱਦ ਤੱਕ ਅੰਤਰਮੁਖੀ ਵਿਅਕਤੀ ਜੋ ਇੰਟਰਨੈਟ ਸੱਭਿਆਚਾਰ ਬਾਰੇ ਜਾਣਕਾਰ ਹੈ। ਇਹ ਖਾਸ ਚਰਿੱਤਰ-ਚਿਤਰਣ ਉਹਨਾਂ ਦੀ ਸਫਲਤਾ ਦੀ ਕੁੰਜੀ ਜਾਪਦਾ ਹੈ। ਜਦੋਂ ਉਹੀ ਉੱਨਤ AI ਮਾਡਲਾਂ (GPT-4.5 ਅਤੇ Llama-3.1) ਨੂੰ ਬਿਨਾਂ ਇਸ ਸ਼ਖਸੀਅਤ ਪ੍ਰੋਂਪਟ ਦੇ ਟੈਸਟ ਵਿੱਚ ਚਲਾਇਆ ਗਿਆ, ਤਾਂ ਉਹਨਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਾਫ਼ੀ ਘੱਟ ਗਿਆ। ਮਨੁੱਖੀ ਪੁੱਛਗਿੱਛ ਕਰਨ ਵਾਲਿਆਂ ਦੁਆਰਾ ਉਹਨਾਂ ਨੂੰ ਮਸ਼ੀਨਾਂ ਵਜੋਂ ਬਹੁਤ ਆਸਾਨੀ ਨਾਲ ਪਛਾਣਿਆ ਗਿਆ।
ਇਹ ਖੋਜ ਕਈ ਕਾਰਨਾਂ ਕਰਕੇ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਹੈ:
- ਇਹ ਪ੍ਰੋਂਪਟ ਇੰਜੀਨੀਅਰਿੰਗ ਦੀ ਸ਼ਕਤੀ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ: ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਪ੍ਰੋਂਪਟ ਤਿਆਰ ਕਰਨ ਦੀ ਯੋਗਤਾ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਲਾਭ ਉਠਾਉਣ ਲਈ ਤੇਜ਼ੀ ਨਾਲ ਕੇਂਦਰੀ ਬਣ ਰਹੀ ਹੈ। ਇਹ ਅਧਿਐਨ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਪ੍ਰੋਂਪਟਿੰਗ ਸਿਰਫ਼ AI ਤੋਂ ਸਹੀ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰਨ ਬਾਰੇ ਨਹੀਂ ਹੈ; ਇਹ ਇਸਦੇ ਵਿਵਹਾਰ, ਲਹਿਜ਼ੇ ਅਤੇ ਸਪੱਸ਼ਟ ਸ਼ਖਸੀਅਤ ਨੂੰ ਇੱਕ ਖਾਸ ਸੰਦਰਭ ਵਿੱਚ ਫਿੱਟ ਕਰਨ ਲਈ ਆਕਾਰ ਦੇਣ ਬਾਰੇ ਵੀ ਹੈ। ਇੱਥੇ ਸਫਲਤਾ ਨੂੰ ਅੰਤਰੀਵ AI ਆਰਕੀਟੈਕਚਰ ਦੇ ਨਾਲ-ਨਾਲ ਕੁਸ਼ਲ ਪ੍ਰੋਂਪਟਿੰਗ ਦੇ ਪ੍ਰਮਾਣ ਵਜੋਂ ਦੇਖਿਆ ਜਾ ਸਕਦਾ ਹੈ।
- ਇਹ ਸਵਾਲ ਉਠਾਉਂਦਾ ਹੈ ਕਿ ‘ਪਾਸ ਕਰਨ’ ਦਾ ਕੀ ਮਤਲਬ ਹੈ: ਜੇਕਰ ਕੋਈ AI ਸਿਰਫ਼ Turing Test ਪਾਸ ਕਰ ਸਕਦਾ ਹੈ ਜਦੋਂ ਖਾਸ ਤੌਰ ‘ਤੇ ਕਿਸੇ ਖਾਸ ਕਿਸਮ ਦੇ ਮਨੁੱਖ ਵਾਂਗ ਕੰਮ ਕਰਨ ਲਈ ਕੋਚ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਕੀ ਇਹ ਸੱਚਮੁੱਚ Turing ਦੀ ਮੂਲ ਚੁਣੌਤੀ ਦੀ ਭਾਵਨਾ ਨੂੰ ਪੂਰਾ ਕਰਦਾ ਹੈ? ਜਾਂ ਕੀ ਇਹ ਸਿਰਫ਼ ਮਾਡਲ ਦੀ ਲਚਕਤਾ ਅਤੇ ਸਪੱਸ਼ਟ ਸਟੇਜ ਨਿਰਦੇਸ਼ ਦਿੱਤੇ ਜਾਣ ‘ਤੇ ਆਧੁਨਿਕ ਨਕਲ ਲਈ ਇਸਦੀ ਸਮਰੱਥਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ?
- ਇਹ ਅਨੁਕੂਲਤਾ ਨੂੰ ਇੱਕ ਮੁੱਖ ਗੁਣ ਵਜੋਂ ਉਜਾਗਰ ਕਰਦਾ ਹੈ: ਜਿਵੇਂ ਕਿ Jones ਅਤੇ Bergen ਆਪਣੇ ਪੇਪਰ ਵਿੱਚ ਨੋਟ ਕਰਦੇ ਹਨ, ‘ਇਹ ਤਰਕਪੂਰਨ ਤੌਰ ‘ਤੇ ਉਹ ਸੌਖ ਹੈ ਜਿਸ ਨਾਲ LLMs ਨੂੰ ਵੱਖ-ਵੱਖ ਸਥਿਤੀਆਂ ਵਿੱਚ ਆਪਣੇ ਵਿਵਹਾਰ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਲਈ ਪ੍ਰੇਰਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ ਜੋ ਉਹਨਾਂ ਨੂੰ ਇੰਨਾ ਲਚਕਦਾਰ ਬਣਾਉਂਦਾ ਹੈ: ਅਤੇ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਮਨੁੱਖ ਵਜੋਂ ਪਾਸ ਹੋਣ ਦੇ ਸਮਰੱਥ।’ ਇਹ ਅਨੁਕੂਲਤਾ ਬਿਨਾਂ ਸ਼ੱਕ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਵਿਸ਼ੇਸ਼ਤਾ ਹੈ, ਪਰ ਇਹ ਫੋਕਸ ਨੂੰ ਜਨਮਤ ‘ਬੁੱਧੀ’ ਤੋਂ ਪ੍ਰੋਗਰਾਮੇਬਲ ਪ੍ਰਦਰਸ਼ਨ ਵੱਲ ਬਦਲ ਦਿੰਦੀ ਹੈ।
ਸ਼ਖਸੀਅਤ ‘ਤੇ ਨਿਰਭਰਤਾ ਸੁਝਾਅ ਦਿੰਦੀ ਹੈ ਕਿ ਮੌਜੂਦਾ AI, ਇੱਥੋਂ ਤੱਕ ਕਿ ਇਸਦੇ ਸਭ ਤੋਂ ਉੱਨਤ ਰੂਪ ਵਿੱਚ ਵੀ, ਇੱਕ ਆਮ, ਅੰਦਰੂਨੀ ‘ਮਨੁੱਖ-ਵਰਗੀ’ ਗੁਣਵੱਤਾ ਨਹੀਂ ਰੱਖ ਸਕਦਾ, ਸਗੋਂ ਖਾਸ ਮਨੁੱਖ-ਵਰਗੇ ਨਕਾਬ ਅਪਣਾਉਣ ਵਿੱਚ ਉੱਤਮ ਹੁੰਦਾ ਹੈ ਜਦੋਂ ਅਜਿਹਾ ਕਰਨ ਲਈ ਨਿਰਦੇਸ਼ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ।
ਨਕਲ ਤੋਂ ਪਰੇ: ਸੱਚੀ ਬੁੱਧੀ ‘ਤੇ ਸਵਾਲ
ਖੋਜਕਰਤਾ ਖੁਦ ਆਪਣੇ ਖੋਜਾਂ ਦੀ ਵਿਆਖਿਆ ਨੂੰ ਸੰਜਮਿਤ ਕਰਨ ਲਈ ਸਾਵਧਾਨ ਹਨ। ਇਸ ਖਾਸ ਗੱਲਬਾਤ ਦੇ ਟੈਸਟ ਨੂੰ ਪਾਸ ਕਰਨਾ, ਭਾਵੇਂ ਸਖ਼ਤ ਹਾਲਤਾਂ ਵਿੱਚ ਵੀ, ਸਵੈਚਲਿਤ ਤੌਰ ‘ਤੇ ਸੱਚੀ ਮਸ਼ੀਨੀ ਬੁੱਧੀ, ਚੇਤਨਾ, ਜਾਂ ਸਮਝ ਦੇ ਆਗਮਨ ਦੇ ਬਰਾਬਰ ਨਹੀਂ ਹੋਣਾ ਚਾਹੀਦਾ। Turing Test, ਇਤਿਹਾਸਕ ਤੌਰ ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਹੋਣ ਦੇ ਬਾਵਜੂਦ, ਮੁੱਖ ਤੌਰ ‘ਤੇ ਇੱਕ ਸੀਮਤ ਸੰਦਰਭ (ਇੱਕ ਛੋਟੀ ਟੈਕਸਟ ਗੱਲਬਾਤ) ਵਿੱਚ ਵਿਵਹਾਰਕ ਅਵਿਭਿੰਨਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ। ਇਹ ਜ਼ਰੂਰੀ ਤੌਰ ‘ਤੇ ਡੂੰਘੀਆਂ ਬੋਧਾਤਮਕ ਯੋਗਤਾਵਾਂ ਜਿਵੇਂ ਕਿ ਤਰਕ, ਆਮ ਸਮਝ, ਨੈਤਿਕ ਨਿਰਣਾ, ਜਾਂ ਅਸਲ ਸਵੈ-ਜਾਗਰੂਕਤਾ ਦੀ ਜਾਂਚ ਨਹੀਂ ਕਰਦਾ ਹੈ।
ਆਧੁਨਿਕ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲ (LLMs) ਜਿਵੇਂ ਕਿ GPT-4.5 ਅਤੇ Llama-3.1 ਨੂੰ ਇੰਟਰਨੈਟ ਤੋਂ ਸਕ੍ਰੈਪ ਕੀਤੇ ਟੈਕਸਟ ਅਤੇ ਕੋਡ ਵਾਲੇ ਅਕਲਪਿਤ ਤੌਰ ‘ਤੇ ਵਿਸ਼ਾਲ ਡੇਟਾਸੈਟਾਂ ‘ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ। ਉਹ ਪੈਟਰਨਾਂ ਦੀ ਪਛਾਣ ਕਰਨ, ਇੱਕ ਕ੍ਰਮ ਵਿੱਚ ਅਗਲੇ ਸ਼ਬਦ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ, ਅਤੇ ਟੈਕਸਟ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਉੱਤਮ ਹੁੰਦੇ ਹਨ ਜੋ ਅੰਕੜਾਤਮਕ ਤੌਰ ‘ਤੇ ਮਨੁੱਖੀ ਸੰਚਾਰ ਵਰਗਾ ਹੁੰਦਾ ਹੈ। ਜਿਵੇਂ ਕਿ ਤਕਨੀਕੀ ਸਿੱਖਿਆ ਕੰਪਨੀ Waye ਦੀ ਸੰਸਥਾਪਕ Sinead Bovell ਨੇ ਉਚਿਤ ਤੌਰ ‘ਤੇ ਸਵਾਲ ਕੀਤਾ, ‘ਕੀ ਇਹ ਪੂਰੀ ਤਰ੍ਹਾਂ ਹੈਰਾਨੀਜਨਕ ਹੈ ਕਿ… AI ਆਖਰਕਾਰ ਸਾਨੂੰ ‘ਮਨੁੱਖੀ ਆਵਾਜ਼’ ਵਿੱਚ ਹਰਾ ਦੇਵੇਗਾ ਜਦੋਂ ਇਸਨੂੰ ਕਿਸੇ ਵੀ ਇੱਕ ਵਿਅਕਤੀ ਦੁਆਰਾ ਪੜ੍ਹੇ ਜਾਂ ਦੇਖੇ ਜਾ ਸਕਣ ਵਾਲੇ ਮਨੁੱਖੀ ਡੇਟਾ ਨਾਲੋਂ ਵੱਧ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਹੈ?’
ਇਹ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ AI ਜ਼ਰੂਰੀ ਤੌਰ ‘ਤੇ ਮਨੁੱਖ ਵਾਂਗ ‘ਸੋਚ’ ਨਹੀਂ ਰਿਹਾ ਹੈ, ਸਗੋਂ ਪੈਟਰਨ-ਮੈਚਿੰਗ ਅਤੇ ਨਕਲ ਦੇ ਇੱਕ ਅਵਿਸ਼ਵਾਸ਼ਯੋਗ ਤੌਰ ‘ਤੇ ਆਧੁਨਿਕ ਰੂਪ ਨੂੰ ਤੈਨਾਤ ਕਰ ਰਿਹਾ ਹੈ, ਜੋ ਅਰਬਾਂ ਸ਼ਬਦਾਂ ਦੇ ਸੰਪਰਕ ਦੁਆਰਾ ਸੰਪੂਰਨ ਕੀਤਾ ਗਿਆ ਹੈ ਜੋ ਅਣਗਿਣਤ ਮਨੁੱਖੀ ਗੱਲਬਾਤ, ਲੇਖਾਂ ਅਤੇ ਪਰਸਪਰ ਕ੍ਰਿਆਵਾਂ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ। ਇਸ ਲਈ ਟੈਸਟ ਵਿੱਚ ਸਫਲਤਾ ਮਨੁੱਖ-ਵਰਗੇ ਬੋਧ ਵੱਲ ਇੱਕ ਬੁਨਿਆਦੀ ਛਾਲ ਦੀ ਬਜਾਏ ਇਸਦੇ ਸਿਖਲਾਈ ਡੇਟਾ ਦੀ ਪੂਰੀ ਮਾਤਰਾ ਅਤੇ ਚੌੜਾਈ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੋ ਸਕਦੀ ਹੈ।
ਸਿੱਟੇ ਵਜੋਂ, ਅਧਿਐਨ ਦੇ ਲੇਖਕਾਂ ਸਮੇਤ ਬਹੁਤ ਸਾਰੇ ਮਾਹਰ, ਦਲੀਲ ਦਿੰਦੇ ਹਨ ਕਿ Turing Test, ਇੱਕ ਕੀਮਤੀ ਇਤਿਹਾਸਕ ਮਾਰਕਰ ਹੋਣ ਦੇ ਬਾਵਜੂਦ, AI ਵਿੱਚ ਸਾਰਥਕ ਤਰੱਕੀ ਨੂੰ ਮਾਪਣ ਲਈ ਸਭ ਤੋਂ ਢੁਕਵਾਂ ਬੈਂਚਮਾਰਕ ਨਹੀਂ ਹੋ ਸਕਦਾ ਹੈ। ਇੱਕ ਵਧ ਰਹੀ ਸਹਿਮਤੀ ਹੈ ਕਿ ਭਵਿੱਖ ਦੇ ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਵਧੇਰੇ ਮੰਗ ਵਾਲੇ ਮਾਪਦੰਡਾਂ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ:
- ਮਜ਼ਬੂਤ ਤਰਕ: ਗੁੰਝਲਦਾਰ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ, ਤਰਕਪੂਰਨ ਅਨੁਮਾਨ ਕੱਢਣ, ਅਤੇ ਕਾਰਨ ਅਤੇ ਪ੍ਰਭਾਵ ਨੂੰ ਸਮਝਣ ਦੀ AI ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ।
- ਨੈਤਿਕ ਅਨੁਕੂਲਤਾ: ਇਹ ਮੁਲਾਂਕਣ ਕਰਨਾ ਕਿ ਕੀ AI ਦੀ ਫੈਸਲਾ ਲੈਣ ਦੀਆਂ ਪ੍ਰਕਿਰਿਆਵਾਂ ਮਨੁੱਖੀ ਕਦਰਾਂ-ਕੀਮਤਾਂ ਅਤੇ ਨੈਤਿਕ ਸਿਧਾਂਤਾਂ ਨਾਲ ਮੇਲ ਖਾਂਦੀਆਂ ਹਨ।
- ਆਮ ਸਮਝ: ਭੌਤਿਕ ਅਤੇ ਸਮਾਜਿਕ ਸੰਸਾਰ ਬਾਰੇ ਅਪ੍ਰਤੱਖ ਗਿਆਨ ਦੀ AI ਦੀ ਪਕੜ ਦੀ ਜਾਂਚ ਕਰਨਾ ਜਿਸਨੂੰ ਮਨੁੱਖ ਮੰਨ ਲੈਂਦੇ ਹਨ।
- ਨਵੀਆਂ ਸਥਿਤੀਆਂ ਲਈ ਅਨੁਕੂਲਤਾ: ਇਹ ਮਾਪਣਾ ਕਿ AI ਕਿੰਨੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ ਜਦੋਂ ਇਸਦੇ ਸਿਖਲਾਈ ਡੇਟਾ ਤੋਂ ਕਾਫ਼ੀ ਵੱਖਰੀਆਂ ਸਥਿਤੀਆਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪੈਂਦਾ ਹੈ।
ਬਹਿਸ ‘ਕੀ ਇਹ ਸਾਡੇ ਵਾਂਗ ਗੱਲ ਕਰ ਸਕਦਾ ਹੈ?’ ਤੋਂ ‘ਕੀ ਇਹ ਸਾਡੇ ਵਾਂਗ ਤਰਕ, ਸਮਝ ਅਤੇ ਜ਼ਿੰਮੇਵਾਰੀ ਨਾਲ ਵਿਵਹਾਰ ਕਰ ਸਕਦਾ ਹੈ?’ ਵੱਲ ਬਦਲ ਜਾਂਦੀ ਹੈ।
ਇਤਿਹਾਸਕ ਸੰਦਰਭ ਅਤੇ ਪਿਛਲੀਆਂ ਕੋਸ਼ਿਸ਼ਾਂ
ਇੱਕ ਅਜਿਹੀ ਮਸ਼ੀਨ ਬਣਾਉਣ ਦੀ ਖੋਜ ਜੋ Turing Test ਪਾਸ ਕਰ ਸਕੇ, ਨੇ ਦਹਾਕਿਆਂ ਤੋਂ ਕੰਪਿਊਟਰ ਵਿਗਿਆਨੀਆਂ ਅਤੇ ਜਨਤਾ ਨੂੰ ਮੋਹਿਤ ਕੀਤਾ ਹੈ। ਇਹ ਤਾਜ਼ਾ ਅਧਿਐਨ ਪਹਿਲੀ ਵਾਰ ਨਹੀਂ ਹੈ ਜਦੋਂ ਸਫਲਤਾ ਦੇ ਦਾਅਵੇ ਸਾਹਮਣੇ ਆਏ ਹਨ, ਹਾਲਾਂਕਿ ਪਿਛਲੀਆਂ ਉਦਾਹਰਣਾਂ ਨੂੰ ਅਕਸਰ ਸੰਦੇਹ ਜਾਂ ਯੋਗਤਾ ਨਾਲ ਮਿਲਿਆ ਹੈ।
ਸ਼ਾਇਦ ਸਭ ਤੋਂ ਮਸ਼ਹੂਰ ਪਿਛਲਾ ਦਾਅਵਾ Eugene Goostman ਚੈਟਬੋਟ 2014 ਵਿੱਚ ਸ਼ਾਮਲ ਸੀ। ਇਸ ਪ੍ਰੋਗਰਾਮ ਦਾ ਉਦੇਸ਼ ਇੱਕ 13 ਸਾਲਾ ਯੂਕਰੇਨੀ ਲੜਕੇ ਦੀ ਨਕਲ ਕਰਨਾ ਸੀ। Alan Turing ਦੀ ਮੌਤ ਦੀ 60ਵੀਂ ਵਰ੍ਹੇਗੰਢ ਮੌਕੇ ਇੱਕ ਮੁਕਾਬਲੇ ਵਿੱਚ, Goostman ਪੰਜ ਮਿੰਟ ਦੀ ਗੱਲਬਾਤ ਦੌਰਾਨ 33% ਜੱਜਾਂ ਨੂੰ ਇਹ ਯਕੀਨ ਦਿਵਾਉਣ ਵਿੱਚ ਕਾਮਯਾਬ ਰਿਹਾ ਕਿ ਇਹ ਮਨੁੱਖੀ ਸੀ। ਜਦੋਂ ਕਿ Turing Test ‘ਪਾਸ’ ਕਰਨ ਵਜੋਂ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਰਿਪੋਰਟ ਕੀਤਾ ਗਿਆ ਸੀ, ਇਹ ਦਾਅਵਾ ਵਿਵਾਦਪੂਰਨ ਸੀ। ਬਹੁਤਿਆਂ ਨੇ ਦਲੀਲ ਦਿੱਤੀ ਕਿ 33% ਸਫਲਤਾ ਦਰ ਅਕਸਰ ਜ਼ਰੂਰੀ ਮੰਨੀ ਜਾਂਦੀ 50% ਥ੍ਰੈਸ਼ਹੋਲਡ ਤੋਂ ਘੱਟ ਗਈ (ਹਾਲਾਂਕਿ Turing ਨੇ ਖੁਦ ਕਦੇ ਵੀ ਸਹੀ ਪ੍ਰਤੀਸ਼ਤ ਨਿਰਧਾਰਤ ਨਹੀਂ ਕੀਤਾ ਸੀ)। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਆਲੋਚਕਾਂ ਨੇ ਇਸ਼ਾਰਾ ਕੀਤਾ ਕਿ ਇੱਕ ਗੈਰ-ਮੂਲ ਅੰਗਰੇਜ਼ੀ ਬੋਲਣ ਵਾਲੇ ਕਿਸ਼ੋਰ ਦੀ ਨਕਲ ਕਰਨ ਨਾਲ ਵਿਆਕਰਨ ਦੀਆਂ ਗਲਤੀਆਂ ਅਤੇ ਗਿਆਨ ਦੀਆਂ ਕਮੀਆਂ ਵਧੇਰੇ ਮੁਆਫ਼ੀਯੋਗ ਲੱਗ ਸਕਦੀਆਂ ਹਨ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਧੋਖੇ ਲਈ ਬਾਰ ਨੂੰ ਘੱਟ ਕਰ ਸਕਦਾ ਹੈ।
Jones ਅਤੇ Bergen ਅਧਿਐਨ ਵਿੱਚ ELIZA ਨੂੰ ਸ਼ਾਮਲ ਕਰਨਾ ਕੀਮਤੀ ਇਤਿਹਾਸਕ ਆਧਾਰ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। 1960 ਦੇ ਦਹਾਕੇ ਵਿੱਚ MIT ਵਿਖੇ Joseph Weizenbaum ਦੁਆਰਾ ਵਿਕਸਤ, ELIZA ਸਧਾਰਨ ਪੈਟਰਨ ਮੈਚਿੰਗ ਅਤੇ ਕੀਵਰਡ ਬਦਲੀ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੰਮ ਕਰਦਾ ਸੀ, ਅਕਸਰ ਉਪਭੋਗਤਾ ਦੇ ਬਿਆਨਾਂ ਨੂੰ ਸਵਾਲਾਂ ਵਜੋਂ ਦਰਸਾਉਂਦਾ ਸੀ (ਉਦਾਹਰਨ ਲਈ, ਉਪਭੋਗਤਾ: ‘ਮੈਂ ਉਦਾਸ ਮਹਿਸੂਸ ਕਰ ਰਿਹਾ ਹਾਂ।’ ELIZA: ‘ਤੁਸੀਂ ਉਦਾਸ ਕਿਉਂ ਮਹਿਸੂਸ ਕਰ ਰਹੇ ਹੋ?’)। ਇਸਦੀ ਸਾਦਗੀ ਦੇ ਬਾਵਜੂਦ, ਕੁਝ ਉਪਭੋਗਤਾਵਾਂ ਨੇ ਮਸ਼ਹੂਰ ਤੌਰ ‘ਤੇ ਇਸਨੂੰ ਮਨੁੱਖ-ਵਰਗੀ ਸਮਝ ਦਾ ਕਾਰਨ ਦੱਸਿਆ। ਹਾਲ ਹੀ ਦੇ, ਵਧੇਰੇ ਸਖ਼ਤ ਤਿੰਨ-ਪਾਰਟੀ ਟੈਸਟ ਵਿੱਚ ਇਸਦਾ ਮਾੜਾ ਪ੍ਰਦਰਸ਼ਨ (23% ਜਿੱਤ ਦਰ) ਪੁਸ਼ਟੀ ਕਰਦਾ ਹੈ ਕਿ ਪ੍ਰਯੋਗਾਤਮਕ ਡਿਜ਼ਾਈਨ ਮੁੱਢਲੀ ਨਕਲ ਅਤੇ ਆਧੁਨਿਕ LLMs ਦੀਆਂ ਆਧੁਨਿਕ ਗੱਲਬਾਤ ਯੋਗਤਾਵਾਂ ਵਿਚਕਾਰ ਫਰਕ ਕਰਨ ਲਈ ਕਾਫ਼ੀ ਸੰਵੇਦਨਸ਼ੀਲ ਸੀ। ELIZA ਤੋਂ GPT-4.5 ਤੱਕ ਦਾ ਸਫ਼ਰ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸ਼ਕਤੀ, ਐਲਗੋਰਿਦਮਿਕ ਸੂਝ, ਅਤੇ ਡੇਟਾ ਉਪਲਬਧਤਾ ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਛਾਲ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।
ਮਨੁੱਖੀ ਤੱਤ: ਪੁੱਛਗਿੱਛ ਦੀਆਂ ਰਣਨੀਤੀਆਂ ਅਤੇ ਧਾਰਨਾਵਾਂ
UC San Diego ਅਧਿਐਨ ਗੱਲਬਾਤ ਵਿੱਚ ਨਕਲੀਤਾ ਨੂੰ ਸਮਝਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਨ ਦੇ ਤਰੀਕੇ ਬਾਰੇ ਵੀ ਦਿਲਚਸਪ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਪੁੱਛਗਿੱਛ ਕਰਨ ਵਾਲਿਆਂ ਦੀਆਂ ਰਣਨੀਤੀਆਂ ਦੇ ਵਿਸ਼ਲੇਸ਼ਣ ਨੇ ਆਮ ਪਹੁੰਚਾਂ ਦਾ ਖੁਲਾਸਾ ਕੀਤਾ:
- ਛੋਟੀ ਗੱਲਬਾਤ ਵਿੱਚ ਸ਼ਾਮਲ ਹੋਣਾ (61% ਖੇਡਾਂ): ਰੋਜ਼ਾਨਾ ਦੀਆਂ ਗਤੀਵਿਧੀਆਂ, ਸ਼ੌਕ, ਜਾਂ ਦੁਨਿਆਵੀ ਨਿੱਜੀ ਵੇਰਵਿਆਂ ਬਾਰੇ ਚਰਚਾ ਕਰਨਾ ਇੱਕ ਅਕਸਰ ਵਰਤੀ ਜਾਣ ਵਾਲੀ ਰਣਨੀਤੀ ਹੈ, ਸ਼ਾਇਦ ਇਸ ਧਾਰਨਾ ‘ਤੇ ਅਧਾਰਤ ਹੈ ਕਿ AI ਰੋਜ਼ਾਨਾ ਮਨੁੱਖੀ ਅਨੁਭਵ ਦੀਆਂ ਸੂਖਮਤਾਵਾਂ ਨਾਲ ਸੰਘਰਸ਼ ਕਰ ਸਕਦਾ ਹੈ ਜਾਂ ਇੱਕ ਯਕੀਨਨ ਨਿੱਜੀ ਇਤਿਹਾਸ ਦੀ ਘਾਟ ਹੋ ਸਕਦੀ ਹੈ।
- ਸਮਾਜਿਕ ਅਤੇ ਭਾਵਨਾਤਮਕ ਗੁਣਾਂ ਦੀ ਜਾਂਚ (50%): ਪੁੱਛਗਿੱਛ ਕਰਨ ਵਾਲਿਆਂ ਨੇ ਅਕਸਰ ਭਾਵਨਾਵਾਂ, ਵਿਚਾਰਾਂ, ਹਮਦਰਦੀ, ਜਾਂ ਸਮਾਜਿਕ ਸਮਝ ਨਾਲ ਸਬੰਧਤ ਜਵਾਬ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ, ਜਿਨ੍ਹਾਂ ਖੇਤਰਾਂ ਨੂੰ ਰਵਾਇਤੀ ਤੌਰ ‘ਤੇ ਵਿਲੱਖਣ ਤੌਰ ‘ਤੇ ਮਨੁੱਖੀ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ।
- ਅਜੀਬਤਾ ਨਾਲ ਪਰਖਣਾ: ਕੁਝ ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਰਣਨੀਤੀਆਂ ਵਿੱਚ ਆਮ ਗੱਲਬਾਤ ਤੋਂ ਭਟਕਣਾ ਸ਼ਾਮਲ ਸੀ। ਇਸ ਵਿੱਚ ਪ੍ਰਤੀਕ੍ਰਿਆ ਨੂੰ ਮਾਪਣ ਲਈ ਕੁਝ ਅਜੀਬ ਜਾਂ ਅਚਾਨਕ ਕਹਿਣਾ ਸ਼ਾਮਲ ਸੀ, ਨਵੀਨਤਾ ਜਾਂ ਬੇਤੁਕੀਤਾ ਨੂੰ ਸਲੀਕੇ ਨਾਲ ਸੰਭਾਲਣ ਦੀ AI ਦੀ ਯੋਗਤਾ ਦੀ ਜਾਂਚ ਕਰਨਾ।
- ‘ਜੇਲਬ੍ਰੇਕਿੰਗ’ ਦੀ ਕੋਸ਼ਿਸ਼: ਵਧੇਰੇ ਤਕਨੀਕੀ ਤੌਰ ‘ਤੇ ਸਮਝਦਾਰ ਪੁੱਛਗਿੱਛ ਕਰਨ ਵਾਲਿਆਂ ਨੇ AI ਦੇ ਸੁਰੱਖਿਆ ਪ੍ਰੋਟੋਕੋਲ ਨੂੰ ਬਾਈਪਾਸ ਕਰਨ ਜਾਂ ਇਸਨੂੰ ਇੱਕ ਮਸ਼ੀਨ ਵਜੋਂ ਇਸਦੇ ਅੰਤਰੀਵ ਸੁਭਾਅ ਨੂੰ ਪ੍ਰਗਟ ਕਰਨ ਲਈ ਮਜਬੂਰ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤੇ ਖਾਸ ਪ੍ਰੋਂਪਟ ਜਾਂ ਸਵਾਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ।
ਇਹ ਰਣਨੀਤੀਆਂ ਸੁਝਾਅ ਦਿੰਦੀਆਂ ਹਨ ਕਿ ਮਨੁੱਖ ਅਕਸਰ ਮਨੁੱਖਤਾ ਦੇ ਮਾਰਕਰ ਵਜੋਂ ਸਮਝੀ ਗਈ ਭਾਵਨਾਤਮਕ ਡੂੰਘਾਈ, ਨਿੱਜੀ ਬਿਰਤਾਂਤ ਵਿੱਚ ਇਕਸਾਰਤਾ, ਅਤੇ ਗੱਲਬਾਤ ਦੀਆਂ ਕਰਵਬਾਲਾਂ ਨੂੰ ਸੰਭਾਲਣ ਦੀ ਯੋਗਤਾ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ।
ਦਿਲਚਸਪ ਗੱਲ ਇਹ ਹੈ ਕਿ GPT-4.5 ਦੀ ਸਫਲਤਾ, ਖਾਸ ਤੌਰ ‘ਤੇ ਅਸਲ ਮਨੁੱਖਾਂ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਵੀ ਇਸਦੀ ਉੱਚ ਰੇਟਿੰਗ, ਨੇ ਨਵੀਨਤਾ ਚਿੰਤਕ John Nosta ਨੂੰ ਇਹ ਟਿੱਪਣੀ ਕਰਨ ਲਈ ਪ੍ਰੇਰਿਤ ਕੀਤਾ, ‘ਅਸੀਂ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਤੋਂ ਹਾਰ ਨਹੀਂ ਰਹੇ ਹਾਂ। ਅਸੀਂ ਨਕਲੀ ਹਮਦਰਦੀ ਤੋਂ ਹਾਰ ਰਹੇ ਹਾਂ।’ ਇਹ ਟਿੱਪਣੀ AI ਦੀ ਵਧਦੀ ਮੁਹਾਰਤ ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਦੀ ਹੈ ਨਾ ਸਿਰਫ਼ ਭਾਸ਼ਾ ਦੇ ਪੈਟਰਨਾਂ ਦੀ ਨਕਲ ਕਰਨ ਵਿੱਚ, ਸਗੋਂ ਮਨੁੱਖੀ ਪਰਸਪਰ ਕ੍ਰਿਆ ਦੇ ਪ੍ਰਭਾਵੀ ਗੁਣਾਂ ਦੀ ਨਕਲ ਕਰਨ ਵਿੱਚ ਵੀ - ਸਪੱਸ਼ਟ ਸਮਝ, ਚਿੰਤਾ, ਜਾਂ ਸਾਂਝੀ ਭਾਵਨਾ ਨੂੰ ਪ੍ਰਗਟ ਕਰਨਾ, ਭਾਵੇਂ ਇਹ ਅਸਲ ਵਿੱਚ ਮਹਿਸੂਸ ਕੀਤੇ ਜਾਣ ਦੀ ਬਜਾਏ ਐਲਗੋਰਿਦਮਿਕ ਤੌਰ ‘ਤੇ ਤਿਆਰ ਕੀਤੇ ਗਏ ਹੋਣ। ਹਮਦਰਦੀ ਭਰੀ ਆਵਾਜ਼ ਵਾਲੇ ਜਵਾਬ ਤਿਆਰ ਕਰਨ ਦੀ ਯੋਗਤਾ ਮਨੁੱਖਾਂ ਨੂੰ AI ਦੀ ਪ੍ਰਮਾਣਿਕਤਾ ਬਾਰੇ ਯਕੀਨ ਦਿਵਾਉਣ ਵਿੱਚ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਸਾਧਨ ਜਾਪਦੀ ਹੈ।
ਵਿਆਪਕ ਪ੍ਰਭਾਵ: ਆਰਥਿਕਤਾ, ਸਮਾਜ ਅਤੇ ਭਵਿੱਖ
GPT-4.5 ਅਤੇ Llama-3.1 ਵਰਗੇ ਮਾਡਲਾਂ ਦੁਆਰਾ Turing Test ਬੈਂਚਮਾਰਕ ਦੀ ਸਫਲਤਾਪੂਰਵਕ