ਨਕਲ ਦੀ ਖੇਡ ਮੁੜ: ਕੀ AI ਨੇ ਮਨੁੱਖੀ ਗੱਲਬਾਤ 'ਚ ਮੁਹਾਰਤ ਹਾਸਲ ਕੀਤੀ?

ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਦੇ ਖੇਤਰ ਵਿੱਚ ਮਨੁੱਖਾਂ ਵਾਂਗ ਸੋਚਣ, ਜਾਂ ਘੱਟੋ-ਘੱਟ ਗੱਲਬਾਤ ਕਰਨ ਦੇ ਸਮਰੱਥ ਮਸ਼ੀਨਾਂ ਬਣਾਉਣ ਦੀ ਖੋਜ ਇੱਕ ਲੰਬੇ ਸਮੇਂ ਤੋਂ ਚੱਲੀ ਆ ਰਹੀ ਇੱਛਾ ਹੈ। ਦਹਾਕਿਆਂ ਤੋਂ, ਇਸਦਾ ਮਾਪਦੰਡ, ਭਾਵੇਂ ਕਿ ਬਹਿਸਯੋਗ ਰਿਹਾ ਹੈ, ਅਕਸਰ Turing Test ਰਿਹਾ ਹੈ, ਜਿਸਦੀ ਕਲਪਨਾ 20ਵੀਂ ਸਦੀ ਦੇ ਮੱਧ ਵਿੱਚ ਪ੍ਰਤਿਭਾਸ਼ਾਲੀ ਗਣਿਤ ਸ਼ਾਸਤਰੀ Alan Turing ਦੁਆਰਾ ਕੀਤੀ ਗਈ ਸੀ। ਇਸਦਾ ਆਧਾਰ ਸਧਾਰਨ ਪਰ ਗਹਿਰਾ ਹੈ: ਕੀ ਕੋਈ ਮਸ਼ੀਨ ਕਿਸੇ ਮਨੁੱਖੀ ਪੁੱਛਗਿੱਛ ਕਰਨ ਵਾਲੇ ਨਾਲ ਇੰਨੀ ਯਕੀਨੀ ਤੌਰ ‘ਤੇ ਗੱਲਬਾਤ ਕਰ ਸਕਦੀ ਹੈ ਕਿ ਜੱਜ ਭਰੋਸੇਯੋਗ ਤਰੀਕੇ ਨਾਲ ਇਸਨੂੰ ਦੂਜੇ ਮਨੁੱਖ ਤੋਂ ਵੱਖਰਾ ਨਾ ਕਰ ਸਕੇ? ਹਾਲੀਆ ਵਿਕਾਸ ਦੱਸਦੇ ਹਨ ਕਿ ਕੁਝ ਸਭ ਤੋਂ ਉੱਨਤ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲ (LLMs) ਸ਼ਾਇਦ ਇਸ ਦਿਲਚਸਪ ਪੜਾਅ ‘ਤੇ ਪਹੁੰਚ ਗਏ ਹਨ, ਜਾਂ ਸ਼ਾਇਦ ਇਸ ਨੂੰ ਪਾਰ ਵੀ ਕਰ ਗਏ ਹਨ, ਜਿਸ ਨਾਲ ਬੁੱਧੀ, ਨਕਲ ਅਤੇ AI ਦੇ ਭਵਿੱਖੀ ਮਾਰਗ ਬਾਰੇ ਨਵੀਂ ਚਰਚਾ ਛਿੜ ਗਈ ਹੈ।

ਸਟੇਜ ਤਿਆਰ ਕਰਨਾ: ਗੱਲਬਾਤ ਦੀਆਂ ਚੁਣੌਤੀਆਂ ਦਾ ਇੱਕ ਨਵਾਂ ਦੌਰ

University of California San Diego ਤੋਂ ਉੱਭਰ ਰਹੇ ਇੱਕ ਅਧਿਐਨ ਨੇ ਇਸ ਸਵਾਲ ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਮੁੜ ਫੋਕਸ ਵਿੱਚ ਲਿਆਂਦਾ ਹੈ। ਖੋਜਕਰਤਾਵਾਂ Cameron R. Jones ਅਤੇ Benjamin K. Bergen ਨੇ ਅਤਿ-ਆਧੁਨਿਕ AI ਸਿਸਟਮਾਂ ਦੀ ਗੱਲਬਾਤ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ Turing Test ਦਾ ਇੱਕ ਸਮਕਾਲੀ ਰੂਪ ਤਿਆਰ ਕੀਤਾ। ਉਨ੍ਹਾਂ ਦੇ ਪ੍ਰਯੋਗ ਵਿੱਚ ਮਨੁੱਖੀ ਭਾਗੀਦਾਰਾਂ ਨੂੰ ਕਈ AI ਮਾਡਲਾਂ ਦੇ ਵਿਰੁੱਧ ਖੜ੍ਹਾ ਕੀਤਾ ਗਿਆ, ਜਿਸ ਵਿੱਚ OpenAI ਦਾ ਬਹੁਤ ਸਤਿਕਾਰਤ GPT-4.5 ਅਤੇ Meta ਦਾ ਸ਼ਕਤੀਸ਼ਾਲੀ LLaMa-3.1-405B ਸ਼ਾਮਲ ਸਨ। ਸੈੱਟਅੱਪ ਵਿੱਚ ਇੱਕ ਮਨੁੱਖੀ ਜੱਜ ਸ਼ਾਮਲ ਸੀ ਜੋ ਇੱਕੋ ਸਮੇਂ ਪੰਜ-ਮਿੰਟ ਦੀ ਟੈਕਸਟ-ਅਧਾਰਤ ਗੱਲਬਾਤ ਵਿੱਚ ਸ਼ਾਮਲ ਸੀ - ਇੱਕ ਲੁਕੇ ਹੋਏ ਮਨੁੱਖੀ ਭਾਗੀਦਾਰ ਨਾਲ ਅਤੇ ਇੱਕ ਲੁਕੇ ਹੋਏ AI ਮਾਡਲ ਨਾਲ। ਇਹਨਾਂ ਸੰਖੇਪ ਗੱਲਬਾਤਾਂ ਤੋਂ ਬਾਅਦ, ਜੱਜ ਦਾ ਕੰਮ ਸਿੱਧਾ ਸੀ: ਪਛਾਣੋ ਕਿ ਕਿਹੜਾ ਗੱਲਬਾਤ ਕਰਨ ਵਾਲਾ ਸਾਥੀ ਮਸ਼ੀਨ ਸੀ ਅਤੇ ਕਿਹੜਾ ਮਨੁੱਖ ਸੀ।

ਨਤੀਜੇ, ਖਾਸ ਤੌਰ ‘ਤੇ ਉਹਨਾਂ ਮਾਡਲਾਂ ਲਈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਇੱਕ ਖਾਸ ‘persona’ ਅਪਣਾਉਣ ਲਈ ਕਿਹਾ ਗਿਆ ਸੀ, ਹੈਰਾਨੀਜਨਕ ਸਨ।

  • GPT-4.5 ਦਾ ਪ੍ਰਦਰਸ਼ਨ: ਜਦੋਂ ਇੱਕ ਮਨੁੱਖ ਵਾਂਗ ਵਿਵਹਾਰ ਕਰਨ ਦਾ ਨਿਰਦੇਸ਼ ਦਿੱਤਾ ਗਿਆ, ਤਾਂ GPT-4.5 ਨੇ ਕਥਿਤ ਤੌਰ ‘ਤੇ ਜੱਜਾਂ ਨੂੰ 73% ਵਾਰ ਧੋਖਾ ਦਿੱਤਾ। ਇਹ ਅੰਕੜਾ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿਉਂਕਿ ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਜੱਜਾਂ ਦੁਆਰਾ AI ਨੂੰ ਮਨੁੱਖ ਵਜੋਂ ਪਛਾਣਨ ਦੀ ਸੰਭਾਵਨਾ ਗੱਲਬਾਤ ਵਿੱਚ ਸ਼ਾਮਲ ਅਸਲ ਮਨੁੱਖੀ ਭਾਗੀਦਾਰ ਨਾਲੋਂ ਵੱਧ ਸੀ।
  • LLaMa-3.1-405B ਦਾ ਪ੍ਰਦਰਸ਼ਨ: Meta ਦਾ ਵੱਡਾ ਮਾਡਲ, LLaMa-3.1-405B (ਜਿੱਥੇ 405B ਇਸਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਆਕਾਰ ਦੇਣ ਵਾਲੇ ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਵੱਡੀ ਗਿਣਤੀ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ), ਨੇ ਵੀ ਉਸੇ ‘persona’ ਸਥਿਤੀ ਦੇ ਤਹਿਤ ਭਰੋਸੇਯੋਗ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਇਸਨੂੰ 56% ਵਾਰ ਮਨੁੱਖ ਵਜੋਂ ਪਛਾਣਿਆ ਗਿਆ। ਹਾਲਾਂਕਿ GPT-4.5 ਦੇ ਸਕੋਰ ਤੋਂ ਘੱਟ, ਇਹ ਨਤੀਜਾ ਅਜੇ ਵੀ ਇਸਨੂੰ ਮਹੱਤਵਪੂਰਨ 50% ਥ੍ਰੈਸ਼ਹੋਲਡ ਤੋਂ ਉੱਪਰ ਰੱਖਦਾ ਹੈ ਜਿਸਨੂੰ ਅਕਸਰ ਟੈਸਟ ਪਾਸ ਕਰਨ ਦਾ ਸੂਚਕ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ, ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਇਸਦੇ ਜਵਾਬ ਅੰਕੜਾਤਮਕ ਤੌਰ ‘ਤੇ ਮਨੁੱਖੀ ਭਾਗੀਦਾਰਾਂ ਦੇ ਜਵਾਬਾਂ ਤੋਂ ਵੱਖਰੇ ਕਰਨੇ ਮੁਸ਼ਕਲ ਸਨ।
  • ਬੇਸਲਾਈਨ ਤੁਲਨਾਵਾਂ: ਸੰਦਰਭ ਪ੍ਰਦਾਨ ਕਰਨ ਅਤੇ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਕਿ ਜੱਜ ਸਿਰਫ਼ ਬੇਤਰਤੀਬੇ ਅੰਦਾਜ਼ਾ ਨਹੀਂ ਲਗਾ ਰਹੇ ਸਨ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਬੇਸਲਾਈਨ ਮਾਡਲਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕੀਤਾ। ELIZA, 1960 ਦੇ ਦਹਾਕੇ ਦਾ ਇੱਕ ਮਸ਼ਹੂਰ ਸ਼ੁਰੂਆਤੀ ਚੈਟਬੋਟ, ਜਿਸਨੂੰ MIT ਵਿਖੇ Joseph Weizenbaum ਦੁਆਰਾ ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਗਿਆ ਸੀ, ਨੂੰ ਇੱਕ ਕੰਟਰੋਲ ਵਜੋਂ ਸ਼ਾਮਲ ਕੀਤਾ ਗਿਆ ਸੀ। ਹੈਰਾਨੀ ਦੀ ਗੱਲ ਨਹੀਂ, ਇਸਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੇ ਇਸਦੀ ਸਿਰਜਣਾ ਤੋਂ ਬਾਅਦ AI ਵਿੱਚ ਹੋਈਆਂ ਵੱਡੀਆਂ ਤਰੱਕੀਆਂ ਨੂੰ ਦਰਸਾਇਆ, ਸਿਰਫ 23% ‘ਮਨੁੱਖੀ’ ਰੇਟਿੰਗ ਪ੍ਰਾਪਤ ਕੀਤੀ। ਦਿਲਚਸਪ ਗੱਲ ਇਹ ਹੈ ਕਿ, GPT-4o, 2024 ਵਿੱਚ ਜਾਰੀ ਕੀਤਾ ਗਿਆ ਇੱਕ ਹੋਰ ਹਾਲੀਆ OpenAI ਮਾਡਲ, ਨੇ ਵੀ ਇਸ ਖਾਸ ਟੈਸਟ ਸੈੱਟਅੱਪ ਵਿੱਚ ਸਮਾਨ ਬੇਸਲਾਈਨ ਪੱਧਰ ‘ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਜਿਸਨੂੰ ਸਿਰਫ 21% ਵਾਰ ਮਨੁੱਖ ਮੰਨਿਆ ਗਿਆ। ਇਹ ਉਜਾਗਰ ਕਰਦਾ ਹੈ ਕਿ ਖਾਸ ਸੰਰਚਨਾਵਾਂ, ਸਿਖਲਾਈ, ਜਾਂ ਸ਼ਾਇਦ ਪ੍ਰੋਂਪਟਿੰਗ ਰਣਨੀਤੀ ਖੁਦ, ਮਨੁੱਖ-ਵਰਗੀ ਗੱਲਬਾਤ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਭੂਮਿਕਾਵਾਂ ਨਿਭਾਉਂਦੀਆਂ ਹਨ।

ਅਧਿਐਨ ਦੀ ਕਾਰਜਪ੍ਰਣਾਲੀ, ਇਸ ਤਿੰਨ-ਧਿਰੀ ਸੈੱਟਅੱਪ (ਜੱਜ, ਲੁਕਿਆ ਹੋਇਆ ਮਨੁੱਖ, ਲੁਕਿਆ ਹੋਇਆ AI) ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, Turing ਬੈਂਚਮਾਰਕ ਦੇ ਵਿਰੁੱਧ AI ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਦੀਆਂ ਕੁਝ ਪੁਰਾਣੀਆਂ ਕੋਸ਼ਿਸ਼ਾਂ ਦੇ ਮੁਕਾਬਲੇ ਇਸਦੀ ਸਖਤੀ ਲਈ ਜਾਣੀ ਜਾਂਦੀ ਹੈ। ਇਸਦਾ ਉਦੇਸ਼ ਗੱਲਬਾਤ ਦੀ ਅਭੇਦਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇੱਕ ਵਧੇਰੇ ਚੁਣੌਤੀਪੂਰਨ ਅਤੇ ਯਥਾਰਥਵਾਦੀ ਦ੍ਰਿਸ਼ ਬਣਾਉਣਾ ਹੈ।

ਪਰਸੋਨਾ ਦੀ ਸ਼ਕਤੀ: AI ਇੱਕ ਮੈਥਡ ਐਕਟਰ ਵਜੋਂ

ਇਸ ਖਾਸ ਅਧਿਐਨ ਵਿੱਚ GPT-4.5 ਅਤੇ LLaMa-3.1-405B ਦੀ ਸਫਲਤਾ ਦਰਾਂ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰਨ ਵਾਲਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਾਰਕ ਖਾਸ ‘persona’ ਪ੍ਰੋਂਪਟਾਂ ਦੀ ਵਰਤੋਂ ਸੀ। ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਮਨੁੱਖ-ਵਰਗੇ ਕਿਰਦਾਰ ਜਾਂ ਲਹਿਜ਼ੇ ਨੂੰ ਅਪਣਾਉਣ ਦੇ ਨਿਰਦੇਸ਼ਾਂ ਦੇ ਨਾਲ ਅਤੇ ਬਿਨਾਂ ਕੀਤੀ। ਜਦੋਂ persona ਪ੍ਰੋਂਪਟ ਲਾਗੂ ਕੀਤਾ ਗਿਆ ਸੀ ਤਾਂ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਵਾਧਾ ਆਧੁਨਿਕ LLMs ਦੇ ਇੱਕ ਮੁੱਖ ਪਹਿਲੂ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦਾ ਹੈ: ਨਿਰਦੇਸ਼ਾਂ ਦੇ ਅਧਾਰ ਤੇ ਆਪਣੇ ਆਉਟਪੁੱਟ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਦੀ ਉਹਨਾਂ ਦੀ ਕਮਾਲ ਦੀ ਯੋਗਤਾ।

ਇੱਕ AI ਲਈ ‘ਇੱਕ persona ਅਪਣਾਉਣ’ ਦਾ ਕੀ ਮਤਲਬ ਹੈ? ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਮਾਡਲ ਆਪਣਾ ਸਮਾਯੋਜਨ ਕਰਦਾ ਹੈ:

  1. ਲਹਿਜ਼ਾ ਅਤੇ ਸ਼ੈਲੀ: ਆਮ ਭਾਸ਼ਾ ਦੀ ਨਕਲ ਕਰਨਾ, ਬੋਲਚਾਲ ਦੇ ਸ਼ਬਦਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨਾ, ਜਾਂ ਇੱਥੋਂ ਤੱਕ ਕਿ ਝਿਜਕ ਜਾਂ ਪ੍ਰਤੀਬਿੰਬ ਦਾ ਨਾਟਕ ਕਰਨਾ।
  2. ਸਮੱਗਰੀ ਫੋਕਸ: ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਨਿੱਜੀ ਤਜ਼ਰਬਿਆਂ ਦਾ ਹਵਾਲਾ ਦੇਣਾ (ਭਾਵੇਂ ਮਨਘੜਤ), ਵਿਚਾਰ ਪ੍ਰਗਟ ਕਰਨਾ, ਜਾਂ ਅਪਣਾਏ ਗਏ ਕਿਰਦਾਰ ਨਾਲ ਸੰਬੰਧਿਤ ਛੋਟੀਆਂ ਗੱਲਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹੋਣਾ।
  3. ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਪੈਟਰਨ: ਉਹਨਾਂ ਤਰੀਕਿਆਂ ਨਾਲ ਜਵਾਬ ਦੇਣਾ ਜੋ ਵਧੇਰੇ ਪਰਸਪਰ ਪ੍ਰਭਾਵੀ ਮਹਿਸੂਸ ਕਰਦੇ ਹਨ ਅਤੇ ਇੱਕ ਪੂਰੀ ਤਰ੍ਹਾਂ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤੀ ਪ੍ਰਣਾਲੀ ਵਾਂਗ ਘੱਟ।

ਇਹ ਯੋਗਤਾ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਉਸ ਤਰੀਕੇ ਤੋਂ ਪੈਦਾ ਹੁੰਦੀ ਹੈ ਜਿਸ ਨਾਲ ਇਹਨਾਂ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ। LLMs ਉਹਨਾਂ ਵਿਸ਼ਾਲ ਡੇਟਾਸੈਟਾਂ ਤੋਂ ਪੈਟਰਨ, ਸ਼ੈਲੀਆਂ ਅਤੇ ਜਾਣਕਾਰੀ ਸਿੱਖਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ‘ਤੇ ਉਹਨਾਂ ਨੂੰ ਫੀਡ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਇੰਟਰਨੈਟ ਅਤੇ ਡਿਜੀਟਾਈਜ਼ਡ ਸਾਹਿਤ ਵਿੱਚ ਮਨੁੱਖਾਂ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਟੈਕਸਟ ਅਤੇ ਕੋਡ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ। ਜਦੋਂ ਕਿਸੇ ਖਾਸ ਕਿਸਮ ਦੇ ਵਿਅਕਤੀ ਵਾਂਗ ਕੰਮ ਕਰਨ ਲਈ ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਮਾਡਲ ਆਪਣੇ ਸਿਖਲਾਈ ਡੇਟਾ ਦੇ ਅੰਦਰ ਮਨੁੱਖੀ ਗੱਲਬਾਤ ਦੀਆਂ ਵਿਸ਼ਾਲ ਉਦਾਹਰਣਾਂ ‘ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ ਜੋ ਉਸ persona ਨਾਲ ਮੇਲ ਖਾਂਦੀਆਂ ਹਨ। ਇਹ ਅਸਲ ਸ਼ਖਸੀਅਤ ਬਾਰੇ ਘੱਟ ਅਤੇ ਵਧੀਆ ਪੈਟਰਨ ਮੈਚਿੰਗ ਅਤੇ ਪੀੜ੍ਹੀ ਬਾਰੇ ਵੱਧ ਹੈ।

ਇਹ ਇਸ ਵਿਚਾਰ ਵੱਲ ਲੈ ਜਾਂਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਨਵੀਨਤਾ ਥਿੰਕ-ਟੈਂਕ NostaLab ਦੇ ਸੰਸਥਾਪਕ John Nosta ਵਰਗੇ ਨਿਰੀਖਕਾਂ ਦੁਆਰਾ ਸਪੱਸ਼ਟ ਕੀਤਾ ਗਿਆ ਹੈ, ਕਿ ਸ਼ਾਇਦ ਅਸੀਂ ਜੋ ਦੇਖ ਰਹੇ ਹਾਂ ਉਹ ਜ਼ਰੂਰੀ ਤੌਰ ‘ਤੇ ਮਨੁੱਖੀ ਅਰਥਾਂ ਵਿੱਚ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਨਹੀਂ ਹੈ, ਬਲਕਿ ਬਹੁਤ ਉੱਨਤ ਆਰਟੀਫੀਸ਼ੀਅਲ ਹਮਦਰਦੀ ਹੈ - ਜਾਂ ਘੱਟੋ ਘੱਟ, ਇਸਦਾ ਭਰੋਸੇਯੋਗ ਸਿਮੂਲੇਸ਼ਨ। AI ਹਮਦਰਦੀ ਮਹਿਸੂਸ ਨਹੀਂ ਕਰ ਰਿਹਾ ਹੈ, ਪਰ ਇਸਨੇ ਇਸਨੂੰ ਪ੍ਰਗਟ ਕਰਨ ਨਾਲ ਜੁੜੇ ਭਾਸ਼ਾਈ ਪੈਟਰਨ ਸਿੱਖ ਲਏ ਹਨ। ਸਫਲਤਾ ਵਿਵਹਾਰਕ ਨਕਲ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ, ਜਵਾਬਾਂ ਨੂੰ ਇੱਕ ਅਜਿਹੇ ਅੰਦਾਜ਼ ਨਾਲ ਤਿਆਰ ਕਰਨਾ ਜੋ ਮਨੁੱਖ-ਵਰਗਾ ਗੂੰਜਦਾ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਟੈਸਟ ਵਿੱਚ ਵਰਤੀਆਂ ਗਈਆਂ ਪੰਜ-ਮਿੰਟ ਦੀਆਂ ਗੱਲਬਾਤਾਂ ਵਰਗੀਆਂ ਛੋਟੀਆਂ ਪਰਸਪਰ ਕ੍ਰਿਆਵਾਂ ਦੌਰਾਨ।

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਖੁਦ ਇਸ ਅਨੁਕੂਲਤਾ ਨੂੰ ਉਜਾਗਰ ਕੀਤਾ: ‘ਇਹ ਦਲੀਲਯੋਗ ਤੌਰ ‘ਤੇ ਉਹ ਸੌਖ ਹੈ ਜਿਸ ਨਾਲ LLMs ਨੂੰ ਵੱਖ-ਵੱਖ ਦ੍ਰਿਸ਼ਾਂ ਲਈ ਆਪਣੇ ਵਿਵਹਾਰ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਲਈ ਪ੍ਰੇਰਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ ਜੋ ਉਹਨਾਂ ਨੂੰ ਇੰਨਾ ਲਚਕਦਾਰ ਬਣਾਉਂਦਾ ਹੈ: ਅਤੇ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਮਨੁੱਖ ਵਜੋਂ ਪਾਸ ਹੋਣ ਦੇ ਇੰਨੇ ਸਮਰੱਥ।’ ਇਹ ਲਚਕਤਾ ਇੱਕ ਦੋ-ਧਾਰੀ ਤਲਵਾਰ ਹੈ, ਜੋ ਕਮਾਲ ਦੀ ਗੱਲਬਾਤ ਦੀ ਰਵਾਨਗੀ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦੀ ਹੈ ਜਦੋਂ ਕਿ ਪ੍ਰਮਾਣਿਕਤਾ ਅਤੇ ਹੇਰਾਫੇਰੀ ਦੀ ਸੰਭਾਵਨਾ ਬਾਰੇ ਸਵਾਲ ਵੀ ਉਠਾਉਂਦੀ ਹੈ।

ਇੱਕ ਇਤਿਹਾਸਕ ਪ੍ਰਾਪਤੀ ਜਾਂ ਇੱਕ ਨੁਕਸਦਾਰ ਮਾਪਦੰਡ? Turing Test ਦਾ ਮੁੜ ਮੁਲਾਂਕਣ

ਹਾਲਾਂਕਿ ਸੁਰਖੀਆਂ AI ਦੇ Turing Test ‘ਪਾਸ’ ਕਰਨ ਦਾ ਐਲਾਨ ਕਰ ਸਕਦੀਆਂ ਹਨ, ਇਸ ਪ੍ਰਾਪਤੀ ਦੀ ਮਹੱਤਤਾ ‘ਤੇ ਧਿਆਨ ਨਾਲ ਵਿਚਾਰ ਕਰਨ ਦੀ ਲੋੜ ਹੈ। ਕੀ ਇੱਕ ਸੰਖੇਪ ਟੈਕਸਟ ਚੈਟ ਵਿੱਚ ਬਹੁਗਿਣਤੀ ਜੱਜਾਂ ਨੂੰ ਯਕੀਨ ਦਿਵਾਉਣਾ ਸੱਚਮੁੱਚ ਮਨੁੱਖੀ-ਪੱਧਰ ਦੀ ਬੁੱਧੀ ਦੇ ਬਰਾਬਰ ਹੈ? ਜ਼ਿਆਦਾਤਰ ਮਾਹਰ, ਅਧਿਐਨ ਲੇਖਕਾਂ ਸਮੇਤ, ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਨਹੀਂ ਕਹਿਣਗੇ।

Turing Test, ਇੰਟਰਨੈਟ-ਪੈਮਾਨੇ ਦੇ ਡੇਟਾ ‘ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ LLMs ਦੇ ਆਗਮਨ ਤੋਂ ਬਹੁਤ ਪਹਿਲਾਂ ਕਲਪਨਾ ਕੀਤਾ ਗਿਆ ਸੀ, ਮੁੱਖ ਤੌਰ ‘ਤੇ ਗੱਲਬਾਤ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਮਾਪਦਾ ਹੈ, ਨਾ ਕਿ ਡੂੰਘੀਆਂ ਬੋਧਾਤਮਕ ਯੋਗਤਾਵਾਂ ਜਿਵੇਂ ਕਿ:

  • ਸਮਝ: ਕੀ AI ਸੱਚਮੁੱਚ ਗੱਲਬਾਤ ਦੀਆਂ ਬਾਰੀਕੀਆਂ ਅਤੇ ਪ੍ਰਭਾਵਾਂ ਨੂੰ ਸਮਝਦਾ ਹੈ, ਜਾਂ ਕੀ ਇਹ ਸਿਰਫ਼ ਅੰਕੜਾਤਮਕ ਤੌਰ ‘ਤੇ ਸਭ ਤੋਂ ਵੱਧ ਸੰਭਾਵਿਤ ਅਗਲੇ ਸ਼ਬਦਾਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰ ਰਿਹਾ ਹੈ?
  • ਚੇਤਨਾ: ਜਾਗਰੂਕਤਾ ਅਤੇ ਵਿਚਾਰ ਦਾ ਵਿਅਕਤੀਗਤ ਅਨੁਭਵ ਮਨੁੱਖਾਂ (ਅਤੇ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਹੋਰ ਜੀਵ-ਵਿਗਿਆਨਕ ਜੀਵਨ) ਦੇ ਖੇਤਰ ਵਿੱਚ ਪੱਕਾ ਹੈ। ਮੌਜੂਦਾ AI ਮਾਡਲ ਇਸਦੇ ਹੋਣ ਦਾ ਕੋਈ ਸਬੂਤ ਨਹੀਂ ਦਿਖਾਉਂਦੇ ਹਨ।
  • ਤਰਕ: ਜਦੋਂ ਕਿ AI ਖਾਸ ਡੋਮੇਨਾਂ ਵਿੱਚ ਤਰਕਪੂਰਨ ਕਦਮ ਚੁੱਕ ਸਕਦਾ ਹੈ, ਆਮ-ਉਦੇਸ਼ ਤਰਕ, ਆਮ ਸਮਝ, ਅਤੇ ਨਾਵਲ ਸਥਿਤੀਆਂ ਵਿੱਚ ਕਾਰਨ-ਅਤੇ-ਪ੍ਰਭਾਵ ਨੂੰ ਸਮਝਣ ਦੀ ਇਸਦੀ ਯੋਗਤਾ ਅਜੇ ਵੀ ਮਨੁੱਖਾਂ ਦੇ ਮੁਕਾਬਲੇ ਸੀਮਤ ਹੈ।
  • ਇਰਾਦਾ: AI ਜਵਾਬ ਐਲਗੋਰਿਦਮ ਅਤੇ ਡੇਟਾ ਦੇ ਅਧਾਰ ਤੇ ਤਿਆਰ ਕੀਤੇ ਜਾਂਦੇ ਹਨ; ਉਹਨਾਂ ਵਿੱਚ ਉਹਨਾਂ ਦੇ ਸੰਚਾਰ ਨੂੰ ਚਲਾਉਣ ਵਾਲੇ ਅਸਲ ਵਿਸ਼ਵਾਸਾਂ, ਇੱਛਾਵਾਂ ਜਾਂ ਇਰਾਦਿਆਂ ਦੀ ਘਾਟ ਹੁੰਦੀ ਹੈ।

ਇਸ ਲਈ, Turing Test ‘ਤੇ ਇੱਕ ਉੱਚ ਸਕੋਰ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਇੱਕ AI ਨਕਲ ਦੀ ਖੇਡ ਨੂੰ ਬਹੁਤ ਵਧੀਆ ਢੰਗ ਨਾਲ ਖੇਡ ਸਕਦਾ ਹੈ, ਖਾਸ ਕਰਕੇ ਜਦੋਂ ਖਾਸ ਪ੍ਰੋਂਪਟਾਂ ਦੁਆਰਾ ਨਿਰਦੇਸ਼ਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਇਸਨੇ ਅਜਿਹਾ ਟੈਕਸਟ ਤਿਆਰ ਕਰਨਾ ਸਿੱਖ ਲਿਆ ਹੈ ਜੋ ਮਨੁੱਖੀ ਗੱਲਬਾਤ ਦੇ ਪੈਟਰਨਾਂ ਨਾਲ ਨੇੜਿਓਂ ਮੇਲ ਖਾਂਦਾ ਹੈ। ਤਕਨੀਕੀ ਸਿੱਖਿਆ ਕੰਪਨੀ Waye ਦੀ ਸੰਸਥਾਪਕ Sinead Bovell ਨੇ ਇਸ ‘ਤੇ ਪ੍ਰਤੀਬਿੰਬਤ ਕੀਤਾ, ਸਵਾਲ ਕੀਤਾ ਕਿ ਕੀ ਇਹ ਸੱਚਮੁੱਚ ਹੈਰਾਨੀਜਨਕ ਹੈ ਕਿ ‘ਕਿਸੇ ਵੀ ਇੱਕ ਵਿਅਕਤੀ ਦੁਆਰਾ ਕਦੇ ਵੀ ਪੜ੍ਹੇ ਜਾਂ ਦੇਖੇ ਜਾ ਸਕਣ ਵਾਲੇ ਮਨੁੱਖੀ ਡੇਟਾ ਨਾਲੋਂ ਵੱਧ’ ‘ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ AI ਆਖਰਕਾਰ ‘ਮਨੁੱਖੀ ਆਵਾਜ਼’ ਵਿੱਚ ਉੱਤਮ ਹੋਵੇਗਾ।

ਇਹ ਇੱਕ ਬੁਨਿਆਦੀ ਸਵਾਲ ਉਠਾਉਂਦਾ ਹੈ: ਕੀ Turing Test ਅਜੇ ਵੀ 21ਵੀਂ ਸਦੀ ਵਿੱਚ AI ਦੀ ਤਰੱਕੀ ਲਈ ਇੱਕ ਢੁਕਵਾਂ ਜਾਂ ਕਾਫ਼ੀ ਮਾਪਦੰਡ ਹੈ? ਕੁਝ ਦਲੀਲ ਦਿੰਦੇ ਹਨ ਕਿ ਗੱਲਬਾਤ ਰਾਹੀਂ ਧੋਖੇ ‘ਤੇ ਇਸਦਾ ਧਿਆਨ ਬਹੁਤ ਤੰਗ ਅਤੇ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਗੁੰਮਰਾਹਕੁੰਨ ਹੈ। ਇਹ ਉਹਨਾਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਢੁਕਵਾਂ ਮੁਲਾਂਕਣ ਨਹੀਂ ਕਰਦਾ ਜਿਨ੍ਹਾਂ ਨੂੰ ਅਸੀਂ ਅਕਸਰ ਸੱਚੀ ਬੁੱਧੀ ਨਾਲ ਜੋੜਦੇ ਹਾਂ, ਜਿਵੇਂ ਕਿ ਸਮੱਸਿਆ-ਹੱਲ ਕਰਨਾ, ਰਚਨਾਤਮਕਤਾ, ਨੈਤਿਕ ਨਿਰਣਾ, ਜਾਂ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਵੇਂ ਭੌਤਿਕ ਜਾਂ ਸੰਕਲਪਿਕ ਵਾਤਾਵਰਣਾਂ ਲਈ ਅਨੁਕੂਲਤਾ।

ਇਤਿਹਾਸਕ ਸੰਦਰਭ ਵੀ ਢੁਕਵਾਂ ਹੈ। AI ਦੇ Turing Test ਪਾਸ ਕਰਨ ਦੇ ਦਾਅਵੇ ਪਹਿਲਾਂ ਵੀ ਸਾਹਮਣੇ ਆ ਚੁੱਕੇ ਹਨ। 2014 ਵਿੱਚ, ‘Eugene Goostman’ ਨਾਮਕ ਇੱਕ ਚੈਟਬੋਟ, ਜਿਸਨੂੰ ਇੱਕ 13-ਸਾਲਾ ਯੂਕਰੇਨੀ ਲੜਕੇ ਦੀ ਨਕਲ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਸੀ, ਨੇ ਕਥਿਤ ਤੌਰ ‘ਤੇ ਇੱਕ ਸਮਾਨ ਟੈਸਟ ਈਵੈਂਟ ਦੌਰਾਨ 33% ਜੱਜਾਂ ਨੂੰ ਯਕੀਨ ਦਿਵਾਇਆ ਸੀ। ਹਾਲਾਂਕਿ ਉਸ ਸਮੇਂ ਕੁਝ ਲੋਕਾਂ ਦੁਆਰਾ ਇਸਦੀ ਸ਼ਲਾਘਾ ਕੀਤੀ ਗਈ ਸੀ, 33% ਸਫਲਤਾ ਦਰ ਆਮ ਤੌਰ ‘ਤੇ ਦੱਸੀ ਗਈ 50% ਥ੍ਰੈਸ਼ਹੋਲਡ ਤੋਂ ਘੱਟ ਸੀ ਅਤੇ ਇੱਕ persona (ਇੱਕ ਗੈਰ-ਮੂਲ ਅੰਗਰੇਜ਼ੀ ਬੋਲਣ ਵਾਲਾ ਕਿਸ਼ੋਰ) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਪ੍ਰਾਪਤ ਕੀਤੀ ਗਈ ਸੀ ਜੋ ਵਿਆਕਰਨ ਦੀਆਂ ਗਲਤੀਆਂ ਜਾਂ ਗਿਆਨ ਦੀਆਂ ਕਮੀਆਂ ਨੂੰ ਮਾਫ਼ ਕਰ ਸਕਦਾ ਸੀ। ਹਾਲ ਹੀ ਦੇ ਨਤੀਜਿਆਂ ਦੇ ਮੁਕਾਬਲੇ ਜੋ 50% ਤੋਂ ਵੱਧ ਹਨ ਅਤੇ ਵਧੇਰੇ ਉੱਨਤ ਮਾਡਲਾਂ ਨਾਲ 73% ਤੱਕ ਪਹੁੰਚਦੇ ਹਨ, ਗੱਲਬਾਤ AI ਵਿੱਚ ਤਰੱਕੀ ਨਿਰਵਿਵਾਦ ਹੈ, ਪਰ ਟੈਸਟ ਦੀਆਂ ਆਪਣੀਆਂ ਸੀਮਾਵਾਂ ਢੁਕਵੀਆਂ ਰਹਿੰਦੀਆਂ ਹਨ।

ਇੰਜਣ ਦੇ ਅੰਦਰ ਝਾਤ ਮਾਰਨਾ: ਗੱਲਬਾਤ ਦੀ ਯੋਗਤਾ ਦੇ ਚਾਲਕ

GPT-4.5 ਵਰਗੇ ਮਾਡਲਾਂ ਦਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਪ੍ਰਦਰਸ਼ਨ ਦੁਰਘਟਨਾਤਮਕ ਨਹੀਂ ਹੈ; ਇਹ AI ਵਿਕਾਸ ਵਿੱਚ ਨਿਰੰਤਰ ਨਵੀਨਤਾ ਅਤੇ ਸੁਧਾਰ ਦਾ ਨਤੀਜਾ ਹੈ, ਖਾਸ ਕਰਕੇ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ ਦੇ ਖੇਤਰ ਵਿੱਚ। ਕਈ ਕਾਰਕ ਉਹਨਾਂ ਦੀ ਅਜਿਹੀ ਮਨੁੱਖ-ਵਰਗੀ ਟੈਕਸਟ ਤਿਆਰ ਕਰਨ ਦੀ ਯੋਗਤਾ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਉਂਦੇ ਹਨ:

  1. ਵਿਸ਼ਾਲ ਡੇਟਾਸੈਟ: ਆਧੁਨਿਕ LLMs ਨੂੰ ਸੱਚਮੁੱਚ ਹੈਰਾਨ ਕਰਨ ਵਾਲੀ ਮਾਤਰਾ ਵਿੱਚ ਟੈਕਸਟ ਅਤੇ ਕੋਡ ‘ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ। ਇਹ ਵਿਸ਼ਾਲ ਐਕਸਪੋਜ਼ਰ ਉਹਨਾਂ ਨੂੰ ਗੁੰਝਲਦਾਰ ਵਿਆਕਰਨਿਕ ਢਾਂਚੇ, ਵਿਭਿੰਨ ਸ਼ਬਦਾਵਲੀ, ਸ਼ੈਲੀਗਤ ਬਾਰੀਕੀਆਂ, ਤੱਥਾਂ ਦੀ ਜਾਣਕਾਰੀ (ਹਾਲਾਂਕਿ ਹਮੇਸ਼ਾ ਸਹੀ ਨਹੀਂ), ਅਤੇ ਆਮ ਗੱਲਬਾਤ ਦੇ ਕ੍ਰਮ ਸਿੱਖਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।
  2. ਉੱਨਤ ਆਰਕੀਟੈਕਚਰ: ਅੰਤਰੀਵ ਤਕਨਾਲੋਜੀ, ਅਕਸਰ Transformer ਆਰਕੀਟੈਕਚਰ ‘ਤੇ ਅਧਾਰਤ, ‘attention’ ਵਰਗੇ ਮਕੈਨਿਜ਼ਮਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ ਜੋ ਮਾਡਲ ਨੂੰ ਆਉਟਪੁੱਟ ਤਿਆਰ ਕਰਦੇ ਸਮੇਂ ਇਨਪੁਟ ਪ੍ਰੋਂਪਟ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਸ਼ਬਦਾਂ ਦੀ ਮਹੱਤਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ। ਇਹ ਟੈਕਸਟ ਦੇ ਲੰਬੇ ਹਿੱਸਿਆਂ ਵਿੱਚ ਸੰਦਰਭ ਅਤੇ ਇਕਸਾਰਤਾ ਬਣਾਈ ਰੱਖਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ।
  3. ਉੱਨਤ ਸਿਖਲਾਈ ਤਕਨੀਕਾਂ: Reinforcement Learning from Human Feedback (RLHF) ਵਰਗੀਆਂ ਤਕਨੀਕਾਂ ਦੀ ਵਰਤੋਂ ਮਾਡਲਾਂ ਨੂੰ ਫਾਈਨ-ਟਿਊਨ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਮਨੁੱਖ ਵੱਖ-ਵੱਖ AI ਜਵਾਬਾਂ ਨੂੰ ਦਰਜਾ ਦਿੰਦੇ ਹਨ, ਮਾਡਲ ਨੂੰ ਉਹਨਾਂ ਆਉਟਪੁੱਟਾਂ ਨੂੰ ਤਿਆਰ ਕਰਨ ਵੱਲ ਸੇਧ ਦਿੰਦੇ ਹਨ ਜੋ ਵਧੇਰੇ ਮਦਦਗਾਰ, ਨੁਕਸਾਨ ਰਹਿਤ, ਅਤੇ ਸੱਚੇ ਹੁੰਦੇ ਹਨ - ਅਤੇ ਅਕਸਰ, ਵਧੇਰੇ ਮਨੁੱਖੀ-ਆਵਾਜ਼ ਵਾਲੇ ਹੁੰਦੇ ਹਨ।
  4. ਪੈਰਾਮੀਟਰ ਸਕੇਲ: LLaMa-3.1-405B ਵਰਗੇ ਮਾਡਲ, ਸੈਂਕੜੇ ਅਰਬਾਂ ਪੈਰਾਮੀਟਰਾਂ ਦੇ ਨਾਲ, ਸਿਖਲਾਈ ਦੌਰਾਨ ਸਿੱਖੀ ਗਈ ਜਾਣਕਾਰੀ ਨੂੰ ਸਟੋਰ ਕਰਨ ਅਤੇ ਪ੍ਰੋਸੈਸ ਕਰਨ ਦੀ ਵਧੇਰੇ ਸਮਰੱਥਾ ਰੱਖਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਵਧੇਰੇ ਗੁੰਝਲਦਾਰ ਅਤੇ ਸੂਖਮ ਟੈਕਸਟ ਪੀੜ੍ਹੀ ਨੂੰ ਸਮਰੱਥ ਬਣਾਇਆ ਜਾਂਦਾ ਹੈ।
  5. ਸੰਦਰਭ ਧਾਰਨ: ਨਵੇਂ ਮਾਡਲ ਗੱਲਬਾਤ ਦੇ ਪੁਰਾਣੇ ਹਿੱਸਿਆਂ ਨੂੰ ‘ਯਾਦ’ ਰੱਖਣ ਦੀਆਂ ਬਿਹਤਰ ਯੋਗਤਾਵਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਵਧੇਰੇ ਇਕਸਾਰ ਅਤੇ ਢੁਕਵੀਂ ਪਰਸਪਰ ਕ੍ਰਿਆਵਾਂ ਹੁੰਦੀਆਂ ਹਨ, ਜੋ ਮਨੁੱਖੀ ਸੰਵਾਦ ਦਾ ਇੱਕ ਮੁੱਖ ਪਹਿਲੂ ਹੈ।
  6. ਮਲਟੀਮੋਡਲ ਬੁਨਿਆਦ: GPT-4 ਵਰਗੇ ਪੂਰਵਜਾਂ ‘ਤੇ ਨਿਰਮਾਣ ਕਰਨਾ, ਜਿਸ ਵਿੱਚ ਟੈਕਸਟ ਤੋਂ ਪਰੇ ਸਮਰੱਥਾਵਾਂ ਸ਼ਾਮਲ ਸਨ (ਜਿਵੇਂ ਕਿ ਚਿੱਤਰ ਸਮਝ), ਨਵੇਂ ਮਾਡਲਾਂ ਨੂੰ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਇੱਕ ਅਮੀਰ ਅੰਦਰੂਨੀ ਪ੍ਰਤੀਨਿਧਤਾ ਦਿੰਦਾ ਹੈ, ਭਾਵੇਂ ਟੈਸਟ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਪੂਰੀ ਤਰ੍ਹਾਂ ਟੈਕਸਟ-ਅਧਾਰਤ ਹੋਵੇ।

ਜਦੋਂ OpenAI ਨੇ GPT-4.5 ਦਾ ਪੂਰਵਦਰਸ਼ਨ ਕੀਤਾ, ਤਾਂ CEO Sam Altman ਨੇ ਟਿੱਪਣੀ ਕੀਤੀ, ‘ਇਹ ਪਹਿਲਾ ਮਾਡਲ ਹੈ ਜੋ ਮੈਨੂੰ ਇੱਕ ਵਿਚਾਰਸ਼ੀਲ ਵਿਅਕਤੀ ਨਾਲ ਗੱਲ ਕਰਨ ਵਰਗਾ ਮਹਿਸੂਸ ਹੁੰਦਾ ਹੈ।’ ਹਾਲਾਂਕਿ ਵਿਅਕਤੀਗਤ, ਇਹ ਭਾਵਨਾ ਗੁਣਾਤਮਕ ਛਾਲ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ ਜੋ ਇਹਨਾਂ ਤਕਨੀਕੀ ਤਰੱਕੀਆਂ ਨੇ ਗੱਲਬਾਤ ਦੀ ਯੋਗਤਾ ਵਿੱਚ ਸਮਰੱਥ ਬਣਾਈ ਹੈ। persona ਪ੍ਰੋਂਪਟ ਫਿਰ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਲੀਵਰ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ, ਇਹਨਾਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਸਿੱਖੇ ਹੋਏ ਡੇਟਾ ਤੋਂ ਖਿੱਚੀ ਗਈ ਇੱਕ ਖਾਸ ਮਨੁੱਖੀ ਗੱਲਬਾਤ ਸ਼ੈਲੀ ਦੀ ਨਕਲ ਕਰਨ ਵੱਲ ਨਿਰਦੇਸ਼ਿਤ ਕਰਦਾ ਹੈ।

ਹਕੀਕਤ ਰਾਹੀਂ ਲਹਿਰਾਂ: ਸਮਾਜਿਕ ਅਤੇ ਆਰਥਿਕ ਵਿਚਾਰ

ਇਹ ਪ੍ਰਦਰਸ਼ਨ ਕਿ AI ਭਰੋਸੇਯੋਗ ਤਰੀਕੇ ਨਾਲ ਮਨੁੱਖੀ ਗੱਲਬਾਤ ਦੀ ਨਕਲ ਕਰ ਸਕਦਾ ਹੈ, ਭਾਵੇਂ ਇਹ ਸੱਚੀ ਬੁੱਧੀ ਦੇ ਬਰਾਬਰ ਨਾ ਹੋਵੇ, ਮਹੱਤਵਪੂਰਨ ਅਸਲ-ਸੰਸਾਰ ਪ੍ਰਭਾਵ ਰੱਖਦਾ ਹੈ ਜੋ ਅਕਾਦਮਿਕ ਟੈਸਟਾਂ ਤੋਂ ਬਹੁਤ ਪਰੇ ਹਨ। ਜਿਵੇਂ ਕਿ Sinead Bovell ਨੇ ਨੋਟ ਕੀਤਾ, ਇਹਨਾਂ ਤਰੱਕੀਆਂ ਦੇ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ‘ਵੱਡੇ ਆਰਥਿਕ ਅਤੇ ਸਮਾਜਿਕ ਪ੍ਰਭਾਵ’ ਹਨ।

  • ਨੌਕਰੀ ਬਾਜ਼ਾਰ ਵਿੱਚ ਵਿਘਨ: ਸੰਚਾਰ ‘ਤੇ ਬਹੁਤ ਜ਼ਿਆਦਾ ਨਿਰਭਰ ਖੇਤਰ AI ਏਕੀਕਰਣ ਅਤੇ ਸੰਭਾਵੀ ਵਿਸਥਾਪਨ ਲਈ ਮੁੱਖ ਉਮੀਦਵਾਰ ਹਨ। ਗਾਹਕ ਸੇਵਾ ਦੀਆਂ ਭੂਮਿਕਾਵਾਂ, ਸਮੱਗਰੀ ਉਤਪਾਦਨ (ਲੇਖ ਲਿਖਣਾ, ਮਾਰਕੀਟਿੰਗ ਕਾਪੀ), ਅਨੁਵਾਦ ਸੇਵਾਵਾਂ, ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਟਿਊਸ਼ਨ ਜਾਂ ਨਿੱਜੀ ਸਹਾਇਤਾ ਦੇ ਕੁਝ ਪਹਿਲੂ ਵੀ ਵਧਦੀ ਹੋਈ ਉੱਨਤ ਚੈਟਬੋਟਸ ਅਤੇ AI ਏਜੰਟਾਂ ਦੁਆਰਾ ਸੰਭਾਲੇ ਜਾ ਸਕਦੇ ਹਨ। ‘Agentic AI’ ਵੱਲ ਹਾਲੀਆ ਧੱਕਾ - ਡੇਟਾ ਵਿਸ਼ਲੇਸ਼ਣ, ਵਿਕਰੀ ਸਹਾਇਤਾ, ਜਾਂ ਸਿਹਤ ਸੰਭਾਲ ਪ੍ਰਬੰਧਨ ਵਰਗੇ ਖੇਤਰਾਂ ਵਿੱਚ ਖੁਦਮੁਖਤਿਆਰੀ ਨਾਲ ਵਰਕਫਲੋ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਸਿਸਟਮ - ਨੂੰ ਹੋਰ ਹੁਲਾਰਾ ਮਿਲਦਾ ਹੈ ਜੇਕਰ ਇਹ ਏਜੰਟ ਮਨੁੱਖ-ਵਰਗੀ ਰਵਾਨਗੀ ਨਾਲ ਸੰਚਾਰ ਵੀ ਕਰ ਸਕਦੇ ਹਨ।
  • ਮਨੁੱਖੀ ਰਿਸ਼ਤੇ ਅਤੇ ਵਿਸ਼ਵਾਸ: ਜਿਵੇਂ ਕਿ AI ਹਮਦਰਦੀ ਅਤੇ ਸ਼ਖਸੀਅਤ ਦੀ ਨਕਲ ਕਰਨ ਵਿੱਚ ਵਧੇਰੇ ਮਾਹਰ ਹੋ ਜਾਂਦਾ ਹੈ, ਇਹ ਮਨੁੱਖੀ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਦੀ ਗਤੀਸ਼ੀਲਤਾ ਨੂੰ ਬਦਲ ਸਕਦਾ ਹੈ। ਕੀ ਲੋਕ AI ਸਾਥੀਆਂ ਨਾਲ ਭਾਵਨਾਤਮਕ ਬੰਧਨ ਬਣਾਉਣਗੇ? ਅਸੀਂ ਔਨਲਾਈਨ ਪਰਸਪਰ ਕ੍ਰਿਆਵਾਂ ਵਿੱਚ ਪ੍ਰਮਾਣਿਕਤਾ ਨੂੰ ਕਿਵੇਂ ਯਕੀਨੀ ਬਣਾਵਾਂਗੇ ਜਦੋਂ ਮਨੁੱਖ ਅਤੇ AI ਵਿਚਕਾਰ ਫਰਕ ਕਰਨਾ ਔਖਾ ਹੋ ਜਾਂਦਾ ਹੈ? ਧੋਖੇ ਦੀ ਸੰਭਾਵਨਾ, ਭਾਵੇਂ ਘੁਟਾਲਿਆਂ ਲਈ, ਗਲਤ ਜਾਣਕਾਰੀ ਫੈਲਾਉਣ ਲਈ, ਜਾਂ ਵਿਚਾਰਾਂ ਨੂੰ ਤੋੜ-ਮਰੋੜ ਕੇ ਪੇਸ਼ ਕਰਨ ਲਈ, ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵਧਦੀ ਹੈ।
  • ‘Deeper Fakes’ ਦਾ ਉਭਾਰ: FAU ਵਿਖੇ Center for the Future Mind ਦੀ ਸੰਸਥਾਪਕ ਨਿਰਦੇਸ਼ਕ Susan Schneider ਨੇ ਇਸ ਮਾਰਗ ਬਾਰੇ ਚਿੰਤਾਵਾਂ ਜ਼ਾਹਰ ਕੀਤੀਆਂ, ‘deeper fakes’ ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ‘chatbot cyberwars’ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਵਾਲੇ ਇੱਕ ਸੰਭਾਵੀ ‘ਡਰਾਉਣੇ ਸੁਪਨੇ’ ਦੇ ਦ੍ਰਿਸ਼ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕੀਤੀ। ਜੇਕਰ AI ਟੈਕਸਟ ਵਿੱਚ ਵਿਅਕਤੀਆਂ ਦੀ ਭਰੋਸੇਯੋਗ ਤਰੀਕੇ ਨਾਲ ਨਕਲ ਕਰ ਸਕਦਾ ਹੈ, ਤਾਂ ਖਤਰਨਾਕ ਨਕਲ ਦੀ ਸੰਭਾਵਨਾ ਨਾਟਕੀ ਢੰਗ ਨਾਲ ਵਧ ਜਾਂਦੀ ਹੈ।
  • ਨੈਤਿਕ ਅਨੁਕੂਲਤਾ: Schneider ਨੇ ਅਨੁਕੂਲਤਾ ਦੇ ਨਾਜ਼ੁਕ ਮੁੱਦੇ ਨੂੰ ਵੀ ਉਜਾਗਰ ਕੀਤਾ: ਇਹ ਯਕੀਨੀ ਬਣਾਉਣਾ ਕਿ AI ਸਿਸਟਮ ਮਨੁੱਖੀ