ਕੀ ChatGPT ਟਿਊਰਿੰਗ ਟੈਸਟ ਨੂੰ ਮਾਤ ਦੇ ਸਕਦਾ ਹੈ?

ChatGPT ਦੇ ਟਿਊਰਿੰਗ ਟੈਸਟ ਨੂੰ ਪਾਸ ਕਰਨ ਬਾਰੇ ਨਵੀਨਤਮ ਖੋਜ

ChatGPT ਦੁਆਰਾ ਟਿਊਰਿੰਗ ਟੈਸਟ ਨੂੰ ਸਫਲਤਾਪੂਰਵਕ ਪਾਰ ਕਰਨਾ ਹੁਣ ਆਮ ਗੱਲ ਮੰਨੀ ਜਾ ਰਹੀ ਹੈ। ਕੁਝ ਖੋਜਕਾਰ ਤਾਂ ਪਹਿਲਾਂ ਹੀ ਇਸ ਗੱਲ ਨਾਲ ਸਹਿਮਤ ਹਨ ਕਿ ਇਸ ਨੇ ਇਹ ਕਾਰਨਾਮਾ ਕਰ ਦਿਖਾਇਆ ਹੈ।

ChatGPT ਵਰਗੇ ਚੈਟਬੋਟਾਂ ਦਾ ਵਿਕਾਸ ਬੁੱਧੀ, ਕੁਦਰਤੀ ਦਿੱਖ ਅਤੇ ਮਨੁੱਖੀ ਗੁਣਾਂ ਵਿੱਚ ਵਾਧਾ ਦਰਸਾਉਂਦਾ ਹੈ। ਇਹ ਵਾਧਾ ਤਰਕਪੂਰਨ ਹੈ, ਕਿਉਂਕਿ ਮਨੁੱਖ ਹੀ ਲਾਰਜ ਲੈਂਗੂਏਜ ਮਾਡਲਜ਼ (LLMs) ਦੇ ਆਰਕੀਟੈਕਟ ਹਨ, ਜੋ ਇਨ੍ਹਾਂ ਏਆਈ ਚੈਟਬੋਟਾਂ ਦੀ ਬੁਨਿਆਦ ਹਨ। ਜਿਵੇਂ-ਜਿਵੇਂ ਇਹ ਸਾਧਨ ਆਪਣੀ “ਤਰਕ ਕਰਨ” ਦੀ ਯੋਗਤਾ ਨੂੰ ਸੁਧਾਰਦੇ ਹਨ ਅਤੇ ਮਨੁੱਖੀ ਬੋਲੀ ਦੀ ਵੱਧ ਸ਼ੁੱਧਤਾ ਨਾਲ ਨਕਲ ਕਰਦੇ ਹਨ, ਇੱਕ ਅਹਿਮ ਸਵਾਲ ਪੈਦਾ ਹੁੰਦਾ ਹੈ: ਕੀ ਇਹ ਟਿਊਰਿੰਗ ਟੈਸਟ ਪਾਸ ਕਰਨ ਲਈ ਕਾਫ਼ੀ ਉੱਨਤ ਹਨ?

ਦਹਾਕਿਆਂ ਤੋਂ, ਟਿਊਰਿੰਗ ਟੈਸਟ ਮਸ਼ੀਨੀ ਬੁੱਧੀ ਦੇ ਮੁਲਾਂਕਣ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਮਾਪਦੰਡ ਰਿਹਾ ਹੈ। ਵਰਤਮਾਨ ਵਿੱਚ, ਖੋਜਕਰਤਾ ChatGPT ਵਰਗੇ LLMs ਨੂੰ ਇਸ ਸਖ਼ਤ ਮੁਲਾਂਕਣ ਦੇ ਅਧੀਨ ਕਰ ਰਹੇ ਹਨ। ਸਫਲ ਨਤੀਜਾ ਏਆਈ ਵਿਕਾਸ ਦੇ ਖੇਤਰ ਵਿੱਚ ਇੱਕ ਮੀਲ ਪੱਥਰ ਸਾਬਤ ਹੋਵੇਗਾ।

ਤਾਂ ਕੀ ChatGPT ਟਿਊਰਿੰਗ ਟੈਸਟ ਪਾਸ ਕਰਨ ਦੇ ਸਮਰੱਥ ਹੈ? ਕੁਝ ਖੋਜਕਰਤਾ ਮੰਨਦੇ ਹਨ ਕਿ ਇਹ ਸਮਰੱਥ ਹੈ। ਹਾਲਾਂਕਿ, ਨਤੀਜੇ ਅਜੇ ਵੀ ਵਿਆਖਿਆ ਲਈ ਖੁੱਲ੍ਹੇ ਹਨ। ਟਿਊਰਿੰਗ ਟੈਸਟ ਸਿੱਧਾ ਬਾਇਨਰੀ ਨਤੀਜਾ ਨਹੀਂ ਦਿੰਦਾ, ਜਿਸ ਨਾਲ ਖੋਜਾਂ ਕੁਝ ਹੱਦ ਤੱਕ ਅਸਪਸ਼ਟ ਹੋ ਜਾਂਦੀਆਂ ਹਨ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਭਾਵੇਂ ChatGPT ਟਿਊਰਿੰਗ ਟੈਸਟ ਪਾਸ ਕਰ ਵੀ ਲੈਂਦਾ ਹੈ, ਤਾਂ ਵੀ ਇਹ ਕਿਸੇ LLM ਵਿੱਚ ਮੌਜੂਦ “ਮਨੁੱਖੀ” ਗੁਣਾਂ ਦਾ ਪੱਕਾ ਸਬੂਤ ਨਹੀਂ ਦੇ ਸਕਦਾ।

ਆਓ ਡੂੰਘਾਈ ਨਾਲ ਜਾਂਚ ਕਰੀਏ।

ਟਿਊਰਿੰਗ ਟੈਸਟ ਨੂੰ ਸਮਝਣਾ

ਟਿਊਰਿੰਗ ਟੈਸਟ ਦਾ ਸਾਰ ਬਹੁਤ ਹੀ ਸਧਾਰਨ ਹੈ।

ਬ੍ਰਿਟਿਸ਼ ਗਣਿਤ ਵਿਗਿਆਨੀ ਐਲਨ ਟਿਊਰਿੰਗ, ਜੋ ਕਿ ਕੰਪਿਊਟਰ ਵਿਗਿਆਨ ਵਿੱਚ ਇੱਕ ਮੋਹਰੀ ਸ਼ਖਸੀਅਤ ਹਨ, ਦੁਆਰਾ ਕਲਪਿਤ, “ਇਮੀਟੇਸ਼ਨ ਗੇਮ”, ਜਿਵੇਂ ਕਿ ਇਸਨੂੰ ਸ਼ੁਰੂ ਵਿੱਚ ਜਾਣਿਆ ਜਾਂਦਾ ਸੀ, ਮਸ਼ੀਨੀ ਬੁੱਧੀ ਲਈ ਇੱਕ ਲਿਟਮਸ ਟੈਸਟ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ। ਟਿਊਰਿੰਗ ਟੈਸਟ ਵਿੱਚ ਇੱਕ ਮਨੁੱਖੀ ਮੁਲਾਂਕਣਕਾਰ ਦੋਨੋਂ, ਇੱਕ ਮਨੁੱਖ ਅਤੇ ਇੱਕ ਮਸ਼ੀਨ ਨਾਲ ਗੱਲਬਾਤ ਕਰਦਾ ਹੈ, ਬਿਨਾਂ ਇਹ ਜਾਣੇ ਕਿ ਕੌਣ ਕੀ ਹੈ। ਜੇ ਮੁਲਾਂਕਣਕਾਰ ਮਸ਼ੀਨ ਨੂੰ ਮਨੁੱਖ ਤੋਂ ਵੱਖਰਾ ਕਰਨ ਵਿੱਚ ਅਸਮਰੱਥ ਹੁੰਦਾ ਹੈ, ਤਾਂ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ ਕਿ ਮਸ਼ੀਨ ਨੇ ਟਿਊਰਿੰਗ ਟੈਸਟ ਪਾਸ ਕਰ ਲਿਆ ਹੈ। ਇੱਕ ਖੋਜ ਸੈਟਿੰਗ ਵਿੱਚ, ਇਹ ਟੈਸਟ ਕਈ ਵਾਰ ਵੱਖ-ਵੱਖ ਮੁਲਾਂਕਣਕਾਰਾਂ ਨਾਲ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।

ਇਹ ਸਮਝਣਾ ਬਹੁਤ ਜ਼ਰੂਰੀ ਹੈ ਕਿ ਇਹ ਟੈਸਟ ਇਹ ਨਿਸ਼ਚਿਤ ਤੌਰ ‘ਤੇ ਨਹੀਂ ਦੱਸਦਾ ਕਿ ਕੀ ਕਿਸੇ LLM ਵਿੱਚ ਮਨੁੱਖ ਦੇ ਬਰਾਬਰ ਬੁੱਧੀ ਹੈ। ਇਸ ਦੀ ਬਜਾਏ, ਇਹ ਕਿਸੇ LLM ਦੀ ਮਨੁੱਖ ਵਾਂਗ ਦਿਖਾਈ ਦੇਣ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ।

LLMs ਦੀ ਸੋਚਣ ਦੀ ਪ੍ਰਕਿਰਿਆ

LLMs ਵਿੱਚ, ਆਪਣੇ ਸੁਭਾਅ ਕਰਕੇ, ਕੋਈ ਸਰੀਰਕ ਦਿਮਾਗ, ਚੇਤਨਾ, ਜਾਂ ਦੁਨੀਆ ਦੀ ਵਿਆਪਕ ਸਮਝ ਨਹੀਂ ਹੁੰਦੀ ਹੈ। ਉਨ੍ਹਾਂ ਵਿੱਚ ਸਵੈ-ਜਾਗਰੂਕਤਾ ਦੀ ਘਾਟ ਹੁੰਦੀ ਹੈ ਅਤੇ ਉਹਨਾਂ ਦੀਆਂ ਕੋਈ ਅਸਲੀ ਰਾਏ ਜਾਂ ਵਿਸ਼ਵਾਸ ਨਹੀਂ ਹੁੰਦੇ ਹਨ।

ਇਹਨਾਂ ਮਾਡਲਾਂ ਨੂੰ ਕਿਤਾਬਾਂ, ਔਨਲਾਈਨ ਲੇਖਾਂ, ਦਸਤਾਵੇਜ਼ਾਂ ਅਤੇ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟਾਂ ਸਮੇਤ ਜਾਣਕਾਰੀ ਦੇ ਵਿਸ਼ਾਲ ਸਰੋਤਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਵਾਲੇ ਵਿਸ਼ਾਲ ਡੇਟਾਸੈੱਟਾਂ ‘ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ। ਜਦੋਂ ਕੋਈ ਉਪਭੋਗਤਾ ਟੈਕਸਟ ਇਨਪੁਟ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ, ਤਾਂ ਏਆਈ ਮਾਡਲ ਇਨਪੁਟ ਦੇ ਪਿੱਛੇ ਸਭ ਤੋਂ ਵੱਧ ਸੰਭਾਵਿਤ ਅਰਥ ਅਤੇ ਇਰਾਦੇ ਨੂੰ ਸਮਝਣ ਲਈ ਆਪਣੀ “ਤਰਕ ਕਰਨ” ਦੀਆਂ ਯੋਗਤਾਵਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਸ ਤੋਂ ਬਾਅਦ, ਮਾਡਲ ਇਸ ਵਿਆਖਿਆ ਦੇ ਆਧਾਰ ‘ਤੇ ਜਵਾਬ ਤਿਆਰ ਕਰਦਾ ਹੈ।

ਆਪਣੇ ਮੂਲ ਵਿੱਚ, LLMs ਆਧੁਨਿਕ ਸ਼ਬਦ ਅਨੁਮਾਨ ਇੰਜਣਾਂ ਵਜੋਂ ਕੰਮ ਕਰਦੇ ਹਨ। ਆਪਣੇ ਵਿਆਪਕ ਸਿਖਲਾਈ ਡੇਟਾ ਦਾ ਲਾਭ ਉਠਾਉਂਦੇ ਹੋਏ, ਉਹ ਆਪਣੀ ਸ਼ਬਦਾਵਲੀ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਜਵਾਬ ਦੇ ਸ਼ੁਰੂਆਤੀ “ਟੋਕਨ” (ਆਮ ਤੌਰ ‘ਤੇ ਇੱਕ ਸ਼ਬਦ) ਲਈ ਸੰਭਾਵਨਾਵਾਂ ਦੀ ਗਣਨਾ ਕਰਦੇ ਹਨ। ਇਹ ਦੁਹਰਾਉਣ ਵਾਲੀ ਪ੍ਰਕਿਰਿਆ ਉਦੋਂ ਤੱਕ ਜਾਰੀ ਰਹਿੰਦੀ ਹੈ ਜਦੋਂ ਤੱਕ ਇੱਕ ਪੂਰਾ ਜਵਾਬ ਤਿਆਰ ਨਹੀਂ ਹੋ ਜਾਂਦਾ। ਹਾਲਾਂਕਿ ਇਹ ਵਿਆਖਿਆ ਸਰਲ ਹੈ, ਪਰ ਇਹ ਇਸ ਗੱਲ ਦਾ ਸਾਰ ਦੱਸਦੀ ਹੈ ਕਿ ਕਿਵੇਂ LLMs ਦੁਨੀਆ ਦੀ ਅਸਲ ਸਮਝ ਦੀ ਬਜਾਏ ਅੰਕੜਾ ਸੰਭਾਵਨਾਵਾਂ ਦੇ ਆਧਾਰ ‘ਤੇ ਜਵਾਬ ਪੈਦਾ ਕਰਦੇ ਹਨ।

ਇਸ ਲਈ, ਇਹ ਸੁਝਾਅ ਦੇਣਾ ਗਲਤ ਹੈ ਕਿ LLMs ਰਵਾਇਤੀ ਅਰਥਾਂ ਵਿੱਚ “ਸੋਚਦੇ” ਹਨ।

ਅਨੁਭਵੀ ਸਬੂਤ: ChatGPT ਅਤੇ ਟਿਊਰਿੰਗ ਟੈਸਟ

ਕਈ ਅਧਿਐਨਾਂ ਨੇ ਟਿਊਰਿੰਗ ਟੈਸਟ ‘ਤੇ ChatGPT ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੀ ਖੋਜ ਕੀਤੀ ਹੈ, ਜਿਸ ਵਿੱਚੋਂ ਬਹੁਤ ਸਾਰੇ ਨੇ ਸਕਾਰਾਤਮਕ ਨਤੀਜੇ ਦਿੱਤੇ ਹਨ। ਇਸ ਨਾਲ ਕੁਝ ਕੰਪਿਊਟਰ ਵਿਗਿਆਨੀਆਂ ਨੇ ਇਹ ਦਾਅਵਾ ਕੀਤਾ ਹੈ ਕਿ GPT-4 ਅਤੇ GPT-4.5 ਵਰਗੇ LLMs ਨੇ ਹੁਣ ਟਿਊਰਿੰਗ ਟੈਸਟ ਦੀ ਸੀਮਾ ਨੂੰ ਪਾਰ ਕਰ ਲਿਆ ਹੈ।

ਇਹਨਾਂ ਵਿੱਚੋਂ ਜ਼ਿਆਦਾਤਰ ਮੁਲਾਂਕਣ OpenAI ਦੇ GPT-4 ਮਾਡਲ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਤ ਕਰਦੇ ਹਨ, ਜੋ ChatGPT ਨਾਲ ਹੋਣ ਵਾਲੀਆਂ ਜ਼ਿਆਦਾਤਰ ਗੱਲਬਾਤਾਂ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦਾ ਹੈ। UC San Diego ਦੁਆਰਾ ਕੀਤੇ ਗਏ ਇੱਕ ਅਧਿਐਨ ਵਿੱਚ ਪਤਾ ਲੱਗਾ ਹੈ ਕਿ ਮਨੁੱਖੀ ਮੁਲਾਂਕਣਕਾਰ ਅਕਸਰ GPT-4 ਨੂੰ ਇੱਕ ਮਨੁੱਖ ਤੋਂ ਵੱਖ ਕਰਨ ਵਿੱਚ ਅਸਮਰੱਥ ਸਨ। ਇਸ ਅਧਿਐਨ ਵਿੱਚ, 54% ਮਾਮਲਿਆਂ ਵਿੱਚ GPT-4 ਨੂੰ ਗਲਤੀ ਨਾਲ ਇੱਕ ਮਨੁੱਖ ਮੰਨ ਲਿਆ ਗਿਆ ਸੀ। ਹਾਲਾਂਕਿ, ਇਹ ਪ੍ਰਦਰਸ਼ਨ ਅਜੇ ਵੀ ਅਸਲ ਮਨੁੱਖਾਂ ਨਾਲੋਂ ਪਿੱਛੇ ਸੀ, ਜਿਨ੍ਹਾਂ ਨੂੰ 67% ਸਮੇਂ ਸਹੀ ਤਰ੍ਹਾਂ ਮਨੁੱਖ ਵਜੋਂ ਪਛਾਣਿਆ ਗਿਆ ਸੀ।

GPT-4.5 ਦੇ ਜਾਰੀ ਹੋਣ ਤੋਂ ਬਾਅਦ, UC San Diego ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਇਸ ਅਧਿਐਨ ਨੂੰ ਦੁਬਾਰਾ ਕੀਤਾ। ਇਸ ਵਾਰ, LLM ਨੂੰ 73% ਮਾਮਲਿਆਂ ਵਿੱਚ ਮਨੁੱਖ ਵਜੋਂ ਪਛਾਣਿਆ ਗਿਆ, ਜੋ ਅਸਲ ਮਨੁੱਖਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਤੋਂ ਵੱਧ ਹੈ। ਅਧਿਐਨ ਨੇ ਇਹ ਵੀ ਸੰਕੇਤ ਦਿੱਤਾ ਕਿ Meta ਦਾ LLaMa-3.1-405B ਟੈਸਟ ਪਾਸ ਕਰਨ ਦੇ ਸਮਰੱਥ ਸੀ।

UC San Diego ਤੋਂ ਸੁਤੰਤਰ ਤੌਰ ‘ਤੇ ਕੀਤੇ ਗਏ ਇਸੇ ਤਰ੍ਹਾਂ ਦੇ ਅਧਿਐਨਾਂ ਨੇ ਵੀ GPT ਨੂੰ ਪਾਸਿੰਗ ਗ੍ਰੇਡ ਦਿੱਤੇ ਹਨ। ਰੀਡਿੰਗ ਯੂਨੀਵਰਸਿਟੀ ਦੁਆਰਾ 2024 ਵਿੱਚ ਕੀਤੇ ਗਏ ਇੱਕ ਅਧਿਐਨ ਵਿੱਚ GPT-4 ਨੂੰ ਅੰਡਰਗ੍ਰੈਜੂਏਟ ਕੋਰਸਾਂ ਲਈ ਘਰ ਵਿੱਚ ਕੀਤੇ ਜਾਣ ਵਾਲੇ ਮੁਲਾਂਕਣਾਂ ਦੇ ਜਵਾਬ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਸ਼ਾਮਲ ਕੀਤਾ ਗਿਆ ਸੀ। ਗ੍ਰੇਡ ਦੇਣ ਵਾਲੇ ਪ੍ਰਯੋਗ ਤੋਂ ਅਣਜਾਣ ਸਨ ਅਤੇ ਉਨ੍ਹਾਂ ਨੇ 33 ਵਿੱਚੋਂ ਸਿਰਫ ਇੱਕ ਜਮ੍ਹਾਂ ਕਰਵਾਈ ਗਈ ਐਂਟਰੀ ਨੂੰ ਫਲੈਗ ਕੀਤਾ। ChatGPT ਨੇ ਬਾਕੀ 32 ਐਂਟਰੀਆਂ ਲਈ ਔਸਤ ਤੋਂ ਵੱਧ ਗ੍ਰੇਡ ਪ੍ਰਾਪਤ ਕੀਤੇ।

ਕੀ ਇਹ ਅਧਿਐਨ ਨਿਰਣਾਇਕ ਹਨ? ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਹੀਂ। ਕੁਝ ਆਲੋਚਕਾਂ ਦਾ ਕਹਿਣਾ ਹੈ ਕਿ ਇਹ ਖੋਜ ਨਤੀਜੇ ਜਿੰਨੇ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ, ਉਸ ਤੋਂ ਘੱਟ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹਨ। ਇਹ ਸੰਦੇਹ ਸਾਨੂੰ ਇਹ ਐਲਾਨ ਕਰਨ ਤੋਂ ਰੋਕਦਾ ਹੈ ਕਿ ChatGPT ਨੇ ਟਿਊਰਿੰਗ ਟੈਸਟ ਪਾਸ ਕਰ ਲਿਆ ਹੈ।

ਫਿਰ ਵੀ, ਇਹ ਸਪੱਸ਼ਟ ਹੈ ਕਿ ਜਦੋਂ ਕਿ ਪਿਛਲੀਆਂ ਪੀੜ੍ਹੀਆਂ ਦੇ LLMs, ਜਿਵੇਂ ਕਿ GPT-4, ਕਦੇ-ਕਦਾਈਂ ਟਿਊਰਿੰਗ ਟੈਸਟ ਪਾਸ ਕਰਦੇ ਸਨ, LLMs ਦੇ ਅੱਗੇ ਵਧਣ ਨਾਲ ਸਫਲ ਨਤੀਜੇ ਵੱਧਦੇ ਜਾ ਰਹੇ ਹਨ। GPT-4.5 ਵਰਗੇ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਦੇ ਉਭਾਰ ਨਾਲ, ਅਸੀਂ ਤੇਜ਼ੀ ਨਾਲ ਇੱਕ ਅਜਿਹੇ ਬਿੰਦੂ ‘ਤੇ ਪਹੁੰਚ ਰਹੇ ਹਾਂ ਜਿੱਥੇ ਮਾਡਲ ਲਗਾਤਾਰ ਟਿਊਰਿੰਗ ਟੈਸਟ ਪਾਸ ਕਰ ਸਕਦੇ ਹਨ।

OpenAI ਇੱਕ ਅਜਿਹੇ ਭਵਿੱਖ ਦੀ ਕਲਪਨਾ ਕਰਦਾ ਹੈ ਜਿੱਥੇ ਮਨੁੱਖ ਅਤੇ ਏਆਈ ਵਿੱਚ ਫਰਕ ਕਰਨਾ ਅਸੰਭਵ ਹੋ ਜਾਵੇਗਾ। ਇਹ ਦ੍ਰਿਸ਼ਟੀਕੋਣ OpenAI ਦੇ ਸੀਈਓ ਸੈਮ ਆਲਟਮੈਨ ਦੇ ਮਨੁੱਖੀ ਤਸਦੀਕ ਪ੍ਰੋਜੈਕਟ ਵਿੱਚ ਨਿਵੇਸ਼ ਵਿੱਚ ਝਲਕਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ The Orb ਵਜੋਂ ਜਾਣੇ ਜਾਂਦੇ ਇੱਕ ਅੱਖ ਦੀ ਪੁਤਲੀ ਨੂੰ ਸਕੈਨ ਕਰਨ ਵਾਲੇ ਉਪਕਰਣ ਸ਼ਾਮਲ ਹਨ।

ChatGPT ਦਾ ਸਵੈ-ਮੁਲਾਂਕਣ

ਜਦੋਂ ChatGPT ਨੂੰ ਪੁੱਛਿਆ ਗਿਆ ਕਿ ਕੀ ਇਹ ਟਿਊਰਿੰਗ ਟੈਸਟ ਪਾਸ ਕਰ ਸਕਦਾ ਹੈ, ਤਾਂ ਇਸਨੇ ਹਾਂ ਵਿੱਚ ਜਵਾਬ ਦਿੱਤਾ, ਪਰ ਉਨ੍ਹਾਂ ਚੇਤਾਵਨੀਆਂ ਦੇ ਨਾਲ ਜਿਨ੍ਹਾਂ ਬਾਰੇ ਪਹਿਲਾਂ ਹੀ ਚਰਚਾ ਕੀਤੀ ਜਾ ਚੁੱਕੀ ਹੈ। ਜਦੋਂ ਇਹ ਸਵਾਲ ਪੁੱਛਿਆ ਗਿਆ, “ਕੀ ChatGPT ਟਿਊਰਿੰਗ ਟੈਸਟ ਪਾਸ ਕਰ ਸਕਦਾ ਹੈ?” ਤਾਂ ਏਆਈ ਚੈਟਬੋਟ (4o ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ) ਨੇ ਕਿਹਾ ਕਿ "ChatGPT ਕੁਝ ਹਾਲਾਤਾਂ ਵਿੱਚ ਟਿਊਰਿੰਗ ਟੈਸਟ ਪਾਸ ਕਰ ਸਕਦਾ ਹੈ, ਪਰ ਭਰੋਸੇਯੋਗ ਜਾਂ ਸਰਵ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਨਹੀਂ।” ਚੈਟਬੋਟ ਨੇ ਸਿੱਟਾ ਕੱਢਿਆ ਕਿ "ਇਹ ਆਮ ਹਾਲਾਤਾਂ ਵਿੱਚ ਇੱਕ ਔਸਤ ਉਪਭੋਗਤਾ ਨਾਲ ਟਿਊਰਿੰਗ ਟੈਸਟ ਪਾਸ ਕਰ ਸਕਦਾ ਹੈ, ਪਰ ਇੱਕ ਦ੍ਰਿੜ ਅਤੇ ਸੋਚਵਾਨ ਜਾਂਚਕਰਤਾ ਲਗਭਗ ਹਮੇਸ਼ਾ ਇਸਦਾ ਪਰਦਾਫਾਸ਼ ਕਰ ਸਕਦਾ ਹੈ।”

ਟਿਊਰਿੰਗ ਟੈਸਟ ਦੀਆਂ ਸੀਮਾਵਾਂ

ਕੁਝ ਕੰਪਿਊਟਰ ਵਿਗਿਆਨੀ ਹੁਣ ਟਿਊਰਿੰਗ ਟੈਸਟ ਨੂੰ ਪੁਰਾਣਾ ਅਤੇ LLMs ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਵਿੱਚ ਸੀਮਤ ਮੁੱਲ ਵਾਲਾ ਮੰਨਦੇ ਹਨ। ਗੈਰੀ ਮਾਰਕਸ, ਇੱਕ ਅਮਰੀਕੀ ਮਨੋਵਿਗਿਆਨੀ, ਬੋਧਾਤਮਕ ਵਿਗਿਆਨੀ, ਲੇਖਕ ਅਤੇ ਏਆਈ ਟਿੱਪਣੀਕਾਰ, ਨੇ ਹਾਲ ਹੀ ਵਿੱਚ ਇੱਕ ਬਲੌਗ ਪੋਸਟ ਵਿੱਚ ਇਸ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਦਾ ਸੰਖੇਪ ਵਿੱਚ ਸਾਰ ਦਿੱਤਾ, ਇਹ ਕਹਿੰਦੇ ਹੋਏ ਕਿ "ਜਿਵੇਂ ਕਿ ਮੈਂ (ਅਤੇ ਬਹੁਤ ਸਾਰੇ ਹੋਰਾਂ) ਨੇ ਕਈ ਸਾਲਾਂ ਤੋਂ ਕਿਹਾ ਹੈ, ਟਿਊਰਿੰਗ ਟੈਸਟ ਮਨੁੱਖੀ ਭੋਲੇਪਨ ਦਾ ਟੈਸਟ ਹੈ, ਨਾ ਕਿ ਬੁੱਧੀ ਦਾ ਟੈਸਟ।”

ਇਹ ਯਾਦ ਰੱਖਣਾ ਵੀ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਟਿਊਰਿੰਗ ਟੈਸਟ ਅਸਲ ਬੁੱਧੀ ਦੀ ਬਜਾਏ ਬੁੱਧੀ ਦੀ ਧਾਰਨਾ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਤ ਕਰਦਾ ਹੈ। ਇਹ ਅੰਤਰ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਹੈ। ChatGPT 4o ਵਰਗਾ ਮਾਡਲ ਮਨੁੱਖੀ ਬੋਲੀ ਦੀ ਨਕਲ ਕਰਕੇ ਹੀ ਟੈਸਟ ਪਾਸ ਕਰ ਸਕਦਾ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਟੈਸਟ ‘ਤੇ ਕਿਸੇ LLM ਦੀ ਸਫਲਤਾ ਗੱਲਬਾਤ ਦੇ ਵਿਸ਼ੇ ਅਤੇ ਮੁਲਾਂਕਣਕਾਰ ‘ਤੇ ਨਿਰਭਰ ਕਰੇਗੀ। ChatGPT ਆਮ ਗੱਲਬਾਤ ਵਿੱਚ ਵਧੀਆ ਹੋ ਸਕਦਾ ਹੈ ਪਰ ਉਹਨਾਂ ਗੱਲਬਾਤਾਂ ਵਿੱਚ ਸੰਘਰਸ਼ ਕਰ ਸਕਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਲਈ ਅਸਲ ਭਾਵਨਾਤਮਕ ਬੁੱਧੀ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਆਧੁਨਿਕ ਏਆਈ ਸਿਸਟਮਾਂ ਦੀ ਵਰਤੋਂ ਸਧਾਰਨ ਗੱਲਬਾਤ ਤੋਂ ਇਲਾਵਾ ਹੋਰ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਵੱਧ ਰਹੀ ਹੈ, ਖਾਸ ਕਰਕੇ ਜਿਵੇਂ ਕਿ ਅਸੀਂ ਏਜੈਂਟਿਕ ਏਆਈ ਦੀ ਦੁਨੀਆ ਵੱਲ ਵਧ ਰਹੇ ਹਾਂ।

ਇਸਦਾ ਇਹ ਮਤਲਬ ਨਹੀਂ ਹੈ ਕਿ ਟਿਊਰਿੰਗ ਟੈਸਟ ਪੂਰੀ ਤਰ੍ਹਾਂ ਬੇਕਾਰ ਹੈ। ਇਹ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਇਤਿਹਾਸਕ ਮਾਪਦੰਡ ਬਣਿਆ ਹੋਇਆ ਹੈ, ਅਤੇ ਇਹ ਧਿਆਨ ਦੇਣ ਯੋਗ ਹੈ ਕਿ LLMs ਇਸਨੂੰ ਪਾਸ ਕਰਨ ਦੇ ਸਮਰੱਥ ਹਨ। ਹਾਲਾਂਕਿ, ਟਿਊਰਿੰਗ ਟੈਸਟ ਮਸ਼ੀਨੀ ਬੁੱਧੀ ਦਾ ਅੰਤਮ ਮਾਪ ਨਹੀਂ ਹੈ।

ਟਿਊਰਿੰਗ ਟੈਸਟ ਤੋਂ ਪਰੇ: ਇੱਕ ਬਿਹਤਰ ਮਾਪਦੰਡ ਦੀ ਭਾਲ

ਟਿਊਰਿੰਗ ਟੈਸਟ, ਭਾਵੇਂ ਇਤਿਹਾਸਕ ਤੌਰ ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਹੈ, ਨੂੰ ਅਸਲ ਨਕਲੀ ਬੁੱਧੀ ਦਾ ਇੱਕ ਨਾਕਾਫ਼ੀ ਮਾਪ ਮੰਨਿਆ ਜਾ ਰਿਹਾ ਹੈ। ਮਨੁੱਖੀ ਗੱਲਬਾਤ ਦੀ ਨਕਲ ਕਰਨ ‘ਤੇ ਇਸਦਾ ਧਿਆਨ ਬੁੱਧੀ ਦੇ ਮਹੱਤਵਪੂਰਨ ਪਹਿਲੂਆਂ, ਜਿਵੇਂ ਕਿ ਸਮੱਸਿਆ ਹੱਲ ਕਰਨ, ਰਚਨਾਤਮਕਤਾ ਅਤੇ ਅਨੁਕੂਲਤਾ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰਦਾ ਹੈ। ਟੈਸਟ ਦੀ ਧੋਖਾਧੜੀ ‘ਤੇ ਨਿਰਭਰਤਾ ਨੈਤਿਕ ਚਿੰਤਾਵਾਂ ਵੀ ਪੈਦਾ ਕਰਦੀ ਹੈ, ਕਿਉਂਕਿ ਇਹ ਏਆਈ ਸਿਸਟਮਾਂ ਨੂੰ ਅਸਲ ਬੁੱਧੀ ਵਿਕਸਤ ਕਰਨ ਦੀ ਬਜਾਏ ਮਨੁੱਖੀ ਗੁਣਾਂ ਨੂੰ ਝੂਠੇ ਤੌਰ ‘ਤੇਦਿਖਾਉਣ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕਰਦਾ ਹੈ।

ਨਵੇਂ ਮਾਪਦੰਡਾਂ ਦੀ ਲੋੜ

ਜਿਵੇਂ ਕਿ ਏਆਈ ਤਕਨਾਲੋਜੀ ਅੱਗੇ ਵਧਦੀ ਹੈ, ਵਧੇਰੇ ਵਿਆਪਕ ਅਤੇ ਸੰਬੰਧਿਤ ਮਾਪਦੰਡਾਂ ਦੀ ਲੋੜ ਵੱਧ ਰਹੀ ਹੈ। ਇਹ ਨਵੇਂ ਮਾਪਦੰਡ ਟਿਊਰਿੰਗ ਟੈਸਟ ਦੀਆਂ ਕਮੀਆਂ ਨੂੰ ਦੂਰ ਕਰਨ ਅਤੇ ਏਆਈ ਸਮਰੱਥਾਵਾਂ ਦਾ ਵਧੇਰੇ ਸਹੀ ਮੁਲਾਂਕਣ ਪ੍ਰਦਾਨ ਕਰਨੇ ਚਾਹੀਦੇ ਹਨ। ਭਵਿੱਖ ਦੇ ਮਾਪਦੰਡਾਂ ਲਈ ਕੁਝ ਸੰਭਾਵਿਤ ਦਿਸ਼ਾਵਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

  • ਅਸਲ-ਸੰਸਾਰ ਸਮੱਸਿਆ ਹੱਲ ਕਰਨ: ਅਜਿਹੇ ਟੈਸਟ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਏਆਈ ਸਿਸਟਮਾਂ ਨੂੰ ਗੁੰਝਲਦਾਰ ਅਸਲ-ਸੰਸਾਰ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਜਿਵੇਂ ਕਿ ਇੱਕ ਟਿਕਾਊ ਊਰਜਾ ਗਰਿੱਡ ਡਿਜ਼ਾਈਨ ਕਰਨਾ ਜਾਂ ਕਿਸੇ ਬਿਮਾਰੀ ਦਾ ਇਲਾਜ ਵਿਕਸਤ ਕਰਨਾ।
  • ਰਚਨਾਤਮਕ ਕਾਰਜ: ਮੁਲਾਂਕਣ ਜੋ ਏਆਈ ਦੀ ਮੌਲਿਕ ਅਤੇ ਕਲਪਨਾਤਮਕ ਸਮੱਗਰੀ ਤਿਆਰ ਕਰਨ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਨ, ਜਿਵੇਂ ਕਿ ਇੱਕ ਨਾਵਲ ਲਿਖਣਾ, ਸੰਗੀਤ ਤਿਆਰ ਕਰਨਾ, ਜਾਂ ਕਲਾਕਾਰੀ ਬਣਾਉਣਾ।
  • ਅਨੁਕੂਲਤਾ ਅਤੇ ਸਿੱਖਣਾ: ਅਜਿਹੇ ਮਾਪਦੰਡ ਜੋ ਨਵੇਂ ਤਜ਼ਰਬਿਆਂ ਤੋਂ ਸਿੱਖਣ ਅਤੇ ਬਦਲਦੇ ਵਾਤਾਵਰਣ ਦੇ ਅਨੁਕੂਲ ਹੋਣ ਲਈ ਏਆਈ ਦੀ ਸਮਰੱਥਾ ਨੂੰ ਮਾਪਦੇ ਹਨ।
  • ਨੈਤਿਕ ਵਿਚਾਰ: ਮੁਲਾਂਕਣ ਜੋ ਏਆਈ ਦੀ ਨੈਤਿਕ ਫੈਸਲੇ ਲੈਣ ਅਤੇ ਪੱਖਪਾਤ ਤੋਂ ਬਚਣ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਨ।

ਉੱਭਰ ਰਹੇ ਮਾਪਦੰਡਾਂ ਦੀਆਂ ਉਦਾਹਰਣਾਂ

ਟਿਊਰਿੰਗ ਟੈਸਟ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਦੂਰ ਕਰਨ ਲਈ ਕਈ ਨਵੇਂ ਮਾਪਦੰਡ ਉੱਭਰ ਰਹੇ ਹਨ। ਇਨ੍ਹਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

  • ਵਿਨੋਗ੍ਰਾਡ ਸਕੀਮਾ ਚੈਲੇਂਜ: ਇਹ ਟੈਸਟ ਵਾਕਾਂ ਵਿੱਚ ਅਸਪਸ਼ਟ ਸਰਵਨਾਂ ਨੂੰ ਸਮਝਣ ਲਈ ਏਆਈ ਦੀ ਯੋਗਤਾ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਤ ਕਰਦਾ ਹੈ।
  • AI2 ਤਰਕ ਚੈਲੇਂਜ: ਇਹ ਮਾਪਦੰਡ ਗੁੰਝਲਦਾਰ ਟੈਕਸਟਾਂ ਦੇ ਆਧਾਰ ‘ਤੇ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਅਤੇ ਤਰਕ ਕਰਨ ਲਈ ਏਆਈ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ।
  • ਕਾਮਨਸੈਂਸ ਤਰਕ ਚੈਲੇਂਜ: ਇਹ ਟੈਸਟ ਆਮ ਸਮਝ ਗਿਆਨ ਦੀ ਏਆਈ ਦੀ ਸਮਝ ਅਤੇ ਅਨੁਮਾਨ ਲਗਾਉਣ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ।

ਏਆਈ ਮੁਲਾਂਕਣ ਦਾ ਭਵਿੱਖ

ਏਆਈ ਮੁਲਾਂਕਣ ਦੇ ਭਵਿੱਖ ਵਿੱਚ ਸੰਭਾਵਤ ਤੌਰ ‘ਤੇ ਵੱਖ-ਵੱਖ ਮਾਪਦੰਡਾਂ ਦਾ ਸੁਮੇਲ ਸ਼ਾਮਲ ਹੋਵੇਗਾ, ਹਰੇਕ ਨੂੰ ਬੁੱਧੀ ਦੇ ਖਾਸ ਪਹਿਲੂਆਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਗਿਆ ਹੈ। ਏਆਈ ਤਕਨਾਲੋਜੀ ਵਿੱਚ ਤੇਜ਼ੀ ਨਾਲ ਹੋ ਰਹੇ ਵਿਕਾਸ ਨਾਲ ਜੁੜੇ ਰਹਿਣ ਲਈ ਇਹ ਮਾਪਦੰਡ ਲਗਾਤਾਰ ਵਿਕਸਤ ਹੋਣੇ ਚਾਹੀਦੇ ਹਨ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਏਆਈ ਮਾਪਦੰਡਾਂ ਦੇ ਵਿਕਾਸ ਅਤੇ ਮੁਲਾਂਕਣ ਵਿੱਚ ਖੋਜਕਰਤਾਵਾਂ, ਨੀਤੀ ਨਿਰਮਾਤਾਵਾਂ ਅਤੇ ਜਨਤਾ ਸਮੇਤ ਵੱਖ-ਵੱਖ ਹਿੱਸੇਦਾਰਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨਾ ਬਹੁਤ ਜ਼ਰੂਰੀ ਹੈ।

ਨਕਲ ਤੋਂ ਪਰੇ ਜਾਣਾ

ਆਖਰਕਾਰ, ਏਆਈ ਖੋਜ ਦਾ ਟੀਚਾ ਅਜਿਹੇ ਸਿਸਟਮ ਵਿਕਸਤ ਕਰਨਾ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਜੋ ਨਾ ਸਿਰਫ ਬੁੱਧੀਮਾਨ ਹੋਣ ਬਲਕਿ ਮਨੁੱਖਤਾ ਲਈ ਲਾਭਦਾਇਕ ਵੀ ਹੋਣ। ਇਸਦੇ ਲਈ ਮਨੁੱਖੀ-ਵਰਗੀ ਨਕਲ ਦੀ ਭਾਲ ਤੋਂ ਪਰੇ ਜਾਣਾ ਅਤੇ ਏਆਈ ਸਿਸਟਮਾਂ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਤ ਕਰਨਾ ਜ਼ਰੂਰੀ ਹੈ ਜੋ ਅਸਲ-ਸੰਸਾਰ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰ ਸਕਦੇ ਹਨ, ਰਚਨਾਤਮਕਤਾ ਨੂੰ ਵਧਾ ਸਕਦੇ ਹਨ ਅਤੇ ਨੈਤਿਕ ਫੈਸਲੇ ਲੈਣ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰ ਸਕਦੇ ਹਨ। ਨਵੇਂ ਮਾਪਦੰਡਾਂ ਨੂੰ ਅਪਣਾ ਕੇ ਅਤੇ ਇਹਨਾਂ ਵਿਆਪਕ ਟੀਚਿਆਂ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਤ ਕਰਕੇ, ਅਸੀਂ ਏਆਈ ਦੀ ਪੂਰੀ ਸਮਰੱਥਾ ਨੂੰ ਖੋਲ੍ਹ ਸਕਦੇ ਹਾਂ ਅਤੇ ਇੱਕ ਅਜਿਹਾ ਭਵਿੱਖ ਬਣਾ ਸਕਦੇ ਹਾਂ ਜਿੱਥੇ ਏਆਈ ਅਤੇ ਮਨੁੱਖ ਮਿਲ ਕੇ ਇੱਕ ਬਿਹਤਰ ਸੰਸਾਰ ਬਣਾਉਣ ਲਈ ਕੰਮ ਕਰਦੇ ਹਨ।