ਡੀਪਸੀਕ: ਗੂਗਲ ਦੇ ਜੈਮਿਨੀ 'ਤੇ ਟ੍ਰੇਨਿੰਗ? ਵਿਵਾਦ!

ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਦੀ ਦੁਨੀਆ ਲਈ ਵਿਵਾਦ ਕੋਈ ਨਵੀਂ ਗੱਲ ਨਹੀਂ ਹੈ, ਅਤੇ ਤਾਜ਼ਾ ਘਟਨਾ ਵਿੱਚ ਚੀਨੀ ਏਆਈ ਲੈਬ ਡੀਪਸੀਕ ਸ਼ਾਮਲ ਹੈ। ਹਾਲ ਹੀ ਵਿੱਚ, ਡੀਪਸੀਕ ਨੇ ਆਪਣੇ R1 ਤਰਕ ਮਾਡਲ ਦਾ ਅਪਡੇਟ ਕੀਤਾ ਸੰਸਕਰਣ ਜਾਰੀ ਕੀਤਾ, ਜਿਸ ਵਿੱਚ ਗਣਿਤ ਅਤੇ ਕੋਡਿੰਗ ਵਿੱਚ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਸਮਰੱਥਾ ਦਿਖਾਈ ਗਈ। ਹਾਲਾਂਕਿ, ਇਸ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਵਰਤੇ ਗਏ ਡੇਟਾ ਦੇ ਸਰੋਤ ਨੇ ਏਆਈ ਖੋਜਕਰਤਾਵਾਂ ਵਿੱਚ ਕਾਫ਼ੀ ਬਹਿਸ ਛੇੜ ਦਿੱਤੀ ਹੈ, ਜਿਸ ਵਿੱਚ ਕੁਝ ਲੋਕਾਂ ਦਾ ਅੰਦਾਜ਼ਾ ਹੈ ਕਿ ਇਹ ਡੇਟਾ ਗੂਗਲ ਦੇ ਜੈਮਿਨੀ ਪਰਿਵਾਰ ਦੇ ਏਆਈ ਮਾਡਲਾਂ ਤੋਂ ਆਇਆ ਹੈ, ਘੱਟੋ ਘੱਟ ਅੰਸ਼ਕ ਤੌਰ ‘ਤੇ। ਇਸ ਸ਼ੱਕ ਨੇ ਏਆਈ ਉਦਯੋਗ ਵਿੱਚ ਨੈਤਿਕ ਅਭਿਆਸਾਂ, ਡੇਟਾ ਸੋਰਸਿੰਗ ਅਤੇ ਮੁਕਾਬਲੇਬਾਜ਼ੀ ਦੇ ਲੈਂਡਸਕੇਪ ਬਾਰੇ ਮਹੱਤਵਪੂਰਨ ਸਵਾਲ ਖੜ੍ਹੇ ਕੀਤੇ ਹਨ।

ਪੇਸ਼ ਕੀਤੇ ਗਏ ਸਬੂਤ

ਇਹ ਵਿਵਾਦ ਉਦੋਂ ਸ਼ੁਰੂ ਹੋਇਆ ਜਦੋਂ ਮੈਲਬੌਰਨ ਵਿੱਚ ਰਹਿਣ ਵਾਲੇ ਇੱਕ ਡਿਵੈਲਪਰ ਸੈਮ ਪੇਚ, ਜੋ ਏਆਈ ਸਿਸਟਮ ਲਈ “ਭਾਵਨਾਤਮਕ ਬੁੱਧੀ” ਮੁਲਾਂਕਣ ਬਣਾਉਣ ਵਿੱਚ ਮਾਹਰ ਹਨ, ਨੇ ਉਹ ਸਬੂਤ ਪੇਸ਼ ਕੀਤੇ ਜੋ ਉਨ੍ਹਾਂ ਦਾ ਦਾਅਵਾ ਹੈ ਕਿ ਡੀਪਸੀਕ ਦੇ ਨਵੀਨਤਮ ਮਾਡਲ ਨੂੰ ਜੈਮਿਨੀ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਆਉਟਪੁੱਟ ‘ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ। ਪੇਚ ਦੇ ਅਨੁਸਾਰ, ਡੀਪਸੀਕ ਦਾ ਮਾਡਲ, ਜਿਸਦੀ ਪਛਾਣ R1-0528 ਵਜੋਂ ਕੀਤੀ ਗਈ ਹੈ, ਕੁਝ ਖਾਸ ਸ਼ਬਦਾਂ ਅਤੇ ਸਮੀਕਰਨਾਂ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦਾ ਹੈ ਜੋ ਗੂਗਲ ਦੇ ਜੈਮਿਨੀ 2.5 ਪ੍ਰੋ ਦੁਆਰਾ ਪਸੰਦ ਕੀਤੇ ਜਾਂਦੇ ਸ਼ਬਦਾਂ ਨਾਲ ਮਿਲਦੇ ਜੁਲਦੇ ਹਨ। ਹਾਲਾਂਕਿ ਇਹ ਨਿਰੀਖਣ ਆਪਣੇ ਆਪ ਵਿੱਚ ਨਿਰਣਾਇਕ ਨਹੀਂ ਹੋ ਸਕਦਾ, ਪਰ ਇਹ ਇੱਕ ਲਾਲ ਝੰਡਾ ਖੜ੍ਹਾ ਕਰਦਾ ਹੈ ਅਤੇ ਅਗਲੇਰੀ ਜਾਂਚ ਦੀ ਮੰਗ ਕਰਦਾ ਹੈ।

ਇਸ ਵਿੱਚ ਹੋਰ ਦਿਲਚਸਪੀ ਵਧਾਉਂਦੇ ਹੋਏ, ਇੱਕ ਹੋਰ ਡਿਵੈਲਪਰ, ਜੋ ਕਿ ਉਪਨਾਮ ਸਪੀਚਮੈਪ ਦੇ ਤਹਿਤ ਕੰਮ ਕਰਦਾ ਹੈ ਅਤੇ ਏਆਈ ਲਈ ਇੱਕ “ਮੁਫਤ ਭਾਸ਼ਣ ਮੁਲਾਂਕਣ” ਬਣਾਉਣ ਲਈ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ, ਨੇ ਦੱਸਿਆ ਕਿ ਡੀਪਸੀਕ ਮਾਡਲ ਦੇ ਟਰੇਸ – “ਵਿਚਾਰ” ਜੋ ਇਹ ਸਿੱਟੇ ਵੱਲ ਕੰਮ ਕਰਦੇ ਹੋਏ ਪੈਦਾ ਕਰਦਾ ਹੈ – “ਜੈਮਿਨੀ ਟਰੇਸ ਵਰਗੇ ਪੜ੍ਹਦੇ ਹਨ।” ਭਾਸ਼ਾਈ ਪੈਟਰਨਾਂ ਅਤੇ ਵਿਚਾਰ ਪ੍ਰਕਿਰਿਆਵਾਂ ਦਾ ਇਹ ਮੇਲ ਹੋਰ ਸ਼ੱਕ ਪੈਦਾ ਕਰਦਾ ਹੈ ਕਿ ਡੀਪਸੀਕ ਨੇ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਦੌਰਾਨ ਜੈਮਿਨੀ ਦੇ ਆਉਟਪੁੱਟ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਹੋ ਸਕਦੀ ਹੈ।

ਡੀਪਸੀਕ ‘ਤੇ ਪਹਿਲਾਂ ਲੱਗੇ ਦੋਸ਼

ਇਹ ਪਹਿਲੀ ਵਾਰ ਨਹੀਂ ਹੈ ਜਦੋਂ ਡੀਪਸੀਕ ਨੂੰ ਵਿਰੋਧੀ ਏਆਈ ਸਿਸਟਮ ਤੋਂ ਡੇਟਾ ‘ਤੇ ਆਪਣੇ ਏਆਈ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਦੇ ਦੋਸ਼ਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪਿਆ ਹੈ। ਦਸੰਬਰ ਵਿੱਚ, ਡਿਵੈਲਪਰਾਂ ਨੇ ਦੇਖਿਆ ਕਿ ਡੀਪਸੀਕ ਦਾ V3 ਮਾਡਲ ਅਕਸਰ ਆਪਣੇ ਆਪ ਨੂੰ ChatGPT, OpenAI ਦੇ AI-ਪਾਵਰਡ ਚੈਟਬੋਟ ਪਲੇਟਫਾਰਮ ਵਜੋਂ ਪਛਾਣਦਾ ਹੈ। ਇਸ ਅਜੀਬ ਵਿਵਹਾਰ ਨੇ ਸੁਝਾਅ ਦਿੱਤਾ ਕਿ ਮਾਡਲ ਨੂੰ ChatGPT ਚੈਟ ਲੌਗਸ ‘ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਹੋ ਸਕਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਅਜਿਹੇ ਅਭਿਆਸ ਦੇ ਨੈਤਿਕ ਪ੍ਰਭਾਵਾਂ ਬਾਰੇ ਚਿੰਤਾਵਾਂ ਪੈਦਾ ਹੋਈਆਂ ਹਨ।

ਇਸ ਸਾਲ ਦੇ ਸ਼ੁਰੂ ਵਿੱਚ, OpenAI ਨੇ ਫਾਈਨੈਂਸ਼ੀਅਲ ਟਾਈਮਜ਼ ਨੂੰ ਦੱਸਿਆ ਕਿ ਉਸਨੇ ਡੀਪਸੀਕ ਨੂੰ ਡਿਸਟਿਲੇਸ਼ਨ ਦੀ ਵਰਤੋਂ ਨਾਲ ਜੋੜਨ ਵਾਲੇ ਸਬੂਤ ਲੱਭੇ ਹਨ, ਇੱਕ ਤਕਨੀਕ ਜਿਸ ਵਿੱਚ ਵੱਡੇ, ਵਧੇਰੇ ਸਮਰੱਥ ਮਾਡਲਾਂ ਤੋਂ ਡੇਟਾ ਕੱਢ ਕੇ ਏਆਈ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣਾ ਸ਼ਾਮਲ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਮਾਈਕ੍ਰੋਸਾਫਟ, OpenAI ਵਿੱਚ ਇੱਕ ਮੁੱਖ ਸਹਿਯੋਗੀ ਅਤੇ ਨਿਵੇਸ਼ਕ, ਨੇ 2024 ਦੇ ਅਖੀਰ ਵਿੱਚ OpenAI ਡਿਵੈਲਪਰ ਖਾਤਿਆਂ ਰਾਹੀਂ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਡੇਟਾ ਨੂੰ ਬਾਹਰ ਕੱਢਦੇ ਹੋਏ ਪਾਇਆ। OpenAI ਦਾ ਮੰਨਣਾ ਹੈ ਕਿ ਇਹ ਖਾਤੇ ਡੀਪਸੀਕ ਨਾਲ ਜੁੜੇ ਹੋਏ ਹਨ, ਜਿਸ ਨਾਲ ਅਣਅਧਿਕਾਰਤ ਡੇਟਾ ਕੱਢਣ ਦੇ ਸ਼ੱਕ ਨੂੰ ਹੋਰ ਮਜ਼ਬੂਤੀ ਮਿਲਦੀ ਹੈ।

ਹਾਲਾਂਕਿ ਡਿਸਟਿਲੇਸ਼ਨ ਆਪਣੇ ਆਪ ਵਿੱਚ ਗੈਰ-ਨੈਤਿਕ ਨਹੀਂ ਹੈ, ਪਰ OpenAI ਦੀਆਂ ਸੇਵਾ ਦੀਆਂ ਸ਼ਰਤਾਂ ਗਾਹਕਾਂ ਨੂੰ ਮੁਕਾਬਲੇ ਵਾਲੇ ਏਆਈ ਸਿਸਟਮ ਬਣਾਉਣ ਲਈ ਕੰਪਨੀ ਦੇ ਮਾਡਲ ਆਉਟਪੁੱਟ ਦੀ ਵਰਤੋਂ ਕਰਨ ਤੋਂ ਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਮਨ੍ਹਾ ਕਰਦੀਆਂ ਹਨ। ਇਸ ਪਾਬੰਦੀ ਦਾ ਉਦੇਸ਼ OpenAI ਦੀ ਬੌਧਿਕ ਜਾਇਦਾਦ ਦੀ ਰੱਖਿਆ ਕਰਨਾ ਅਤੇ ਏਆਈ ਉਦਯੋਗ ਵਿੱਚ ਇੱਕ ਨਿਰਪੱਖ ਪ੍ਰਤੀਯੋਗੀ ਵਾਤਾਵਰਣ ਨੂੰ ਕਾਇਮ ਰੱਖਣਾ ਹੈ। ਜੇ ਡੀਪਸੀਕ ਨੇ ਵਾਸਤਵ ਵਿੱਚ ਜੈਮਿਨੀ ਆਉਟਪੁੱਟ ‘ਤੇ ਆਪਣੇ R1 ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਡਿਸਟਿਲੇਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕੀਤੀ, ਤਾਂ ਇਹ OpenAI ਦੀਆਂ ਸੇਵਾ ਦੀਆਂ ਸ਼ਰਤਾਂ ਦੀ ਉਲੰਘਣਾ ਹੋਵੇਗੀ ਅਤੇ ਗੰਭੀਰ ਨੈਤਿਕ ਚਿੰਤਾਵਾਂ ਪੈਦਾ ਕਰੇਗੀ।

ਡੇਟਾ ਗੰਦਗੀ ਦੀਆਂ ਚੁਣੌਤੀਆਂ

ਇਹ ਮੰਨਣਾ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਬਹੁਤ ਸਾਰੇ ਏਆਈ ਮਾਡਲ ਆਪਣੇ ਆਪ ਨੂੰ ਗਲਤ ਢੰਗ ਨਾਲ ਪਛਾਣਨ ਅਤੇ ਸਮਾਨ ਸ਼ਬਦਾਂ ਅਤੇ ਵਾਕਾਂਸ਼ਾਂ ‘ਤੇ ਇਕੱਠੇ ਹੋਣ ਦੀ ਪ੍ਰਵਿਰਤੀ ਦਿਖਾਉਂਦੇ ਹਨ। ਇਸ ਵਰਤਾਰੇ ਨੂੰ ਓਪਨ ਵੈੱਬ ‘ਤੇ ਏਆਈ-ਤਿਆਰ ਸਮੱਗਰੀ ਦੀ ਵੱਧ ਰਹੀ ਮੌਜੂਦਗੀ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਠਹਿਰਾਇਆ ਜਾ ਸਕਦਾ ਹੈ, ਜੋ ਏਆਈ ਕੰਪਨੀਆਂ ਲਈ ਸਿਖਲਾਈ ਡੇਟਾ ਦਾ ਮੁੱਖ ਸਰੋਤ ਹੈ। ਸਮੱਗਰੀ ਫਾਰਮ ਕਲਿੱਕਬੇਟ ਲੇਖ ਬਣਾਉਣ ਲਈ ਏਆਈ ਦੀ ਵਰਤੋਂ ਕਰ ਰਹੇ ਹਨ, ਅਤੇ ਬੋਟ Reddit ਅਤੇ X ਵਰਗੇ ਪਲੇਟਫਾਰਮਾਂ ‘ਤੇ