ਇੱਕ ਉੱਠਦਾ ਤੂਫ਼ਾਨ: AI ਦੇ ਯੁੱਗ ਵਿੱਚ ਕਾਪੀਰਾਈਟ
ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਦੀ ਦੁਨੀਆ, ਖਾਸ ਤੌਰ ‘ਤੇ OpenAI ਵਰਗੀਆਂ ਉਦਯੋਗਿਕ ਦਿੱਗਜਾਂ ਦੁਆਰਾ ਵਿਕਸਤ ਕੀਤੇ ਗਏ ਉੱਨਤ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲ (LLMs), ਇੱਕ ਵਧ ਰਹੇ ਕਾਨੂੰਨੀ ਅਤੇ ਨੈਤਿਕ ਤੂਫ਼ਾਨ ਦਾ ਸਾਹਮਣਾ ਕਰ ਰਹੀ ਹੈ। ਇਸ ਤੂਫ਼ਾਨ ਦੇ ਕੇਂਦਰ ਵਿੱਚ ਇੱਕ ਬੁਨਿਆਦੀ ਸਵਾਲ ਹੈ: ਇਹ ਸ਼ਕਤੀਸ਼ਾਲੀ ਮਸ਼ੀਨਾਂ ਕਿਸ ਡਾਟਾ ਨਾਲ ਚੱਲਦੀਆਂ ਹਨ, ਅਤੇ ਕੀ ਇਸ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਸਿਰਜਣਹਾਰਾਂ ਦੇ ਅਧਿਕਾਰਾਂ ਦਾ ਸਨਮਾਨ ਕੀਤਾ ਗਿਆ ਸੀ? ਦੋਸ਼ ਵਧ ਰਹੇ ਹਨ, ਜੋ ਸੁਝਾਅ ਦਿੰਦੇ ਹਨ ਕਿ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਕਾਪੀਰਾਈਟ ਸਮੱਗਰੀ - ਨਾਵਲ, ਲੇਖ, ਕੋਡ, ਅਤੇ ਹੋਰ - ਸ਼ਾਇਦ ਇਹਨਾਂ ਮਾਡਲਾਂ ਦੁਆਰਾ ਉਹਨਾਂ ਦੇ ਸਿਖਲਾਈ ਪੜਾਅ ਦੌਰਾਨ, ਲੋੜੀਂਦੀ ਇਜਾਜ਼ਤ ਜਾਂ ਮੁਆਵਜ਼ੇ ਤੋਂ ਬਿਨਾਂ ਗ੍ਰਹਿਣ ਕੀਤੀ ਗਈ ਹੋ ਸਕਦੀ ਹੈ। ਇਹ ਸਿਰਫ਼ ਇੱਕ ਅਕਾਦਮਿਕ ਬਹਿਸ ਨਹੀਂ ਹੈ; ਇਹ ਤੇਜ਼ੀ ਨਾਲ ਉੱਚ-ਦਾਅ ਵਾਲੇ ਮੁਕੱਦਮੇਬਾਜ਼ੀ ਵਿੱਚ ਬਦਲ ਰਹੀ ਹੈ।
OpenAI ਲੇਖਕਾਂ, ਪ੍ਰੋਗਰਾਮਰਾਂ, ਅਤੇ ਵੱਖ-ਵੱਖ ਅਧਿਕਾਰ-ਧਾਰਕਾਂ ਦੁਆਰਾ ਸ਼ੁਰੂ ਕੀਤੀਆਂ ਕਾਨੂੰਨੀ ਲੜਾਈਆਂ ਵਿੱਚ ਵੱਧ ਤੋਂ ਵੱਧ ਉਲਝਦੀ ਜਾ ਰਹੀ ਹੈ। ਇਹ ਮੁਦਈ ਦਾਅਵਾ ਕਰਦੇ ਹਨ ਕਿ ਉਹਨਾਂ ਦੀ ਬੌਧਿਕ ਸੰਪੱਤੀ ਦੀ ਗਲਤ ਵਰਤੋਂ ਉਹਨਾਂ AI ਮਾਡਲਾਂ ਨੂੰ ਬਣਾਉਣ ਲਈ ਕੀਤੀ ਗਈ ਸੀ ਜੋ ਸੁਰਖੀਆਂ ਬਟੋਰ ਰਹੇ ਹਨ ਅਤੇ ਉਦਯੋਗਾਂ ਨੂੰ ਬਦਲ ਰਹੇ ਹਨ। ਉਹਨਾਂ ਦੀ ਦਲੀਲ ਇਸ ਦਾਅਵੇ ‘ਤੇ ਟਿਕੀ ਹੋਈ ਹੈ ਕਿ ਮੌਜੂਦਾ ਕਾਪੀਰਾਈਟ ਕਾਨੂੰਨ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਵਪਾਰਕ AI ਪ੍ਰਣਾਲੀਆਂ ਲਈ ਸਿਖਲਾਈ ਸਮੱਗਰੀ ਵਜੋਂ ਸੁਰੱਖਿਅਤ ਕੰਮਾਂ ਦੀ ਥੋਕ ਵਰਤੋਂ ਦੀ ਇਜਾਜ਼ਤ ਨਹੀਂ ਦਿੰਦਾ ਹੈ। OpenAI, ਜਵਾਬ ਵਿੱਚ, ਲਗਾਤਾਰ ‘fair use’ ਸਿਧਾਂਤ ਦਾ ਹਵਾਲਾ ਦਿੰਦਾ ਰਿਹਾ ਹੈ, ਇੱਕ ਗੁੰਝਲਦਾਰ ਕਾਨੂੰਨੀ ਸਿਧਾਂਤ ਜੋ ਖਾਸ ਹਾਲਾਤਾਂ ਵਿੱਚ ਬਿਨਾਂ ਇਜਾਜ਼ਤ ਦੇ ਕਾਪੀਰਾਈਟ ਸਮੱਗਰੀ ਦੀ ਸੀਮਤ ਵਰਤੋਂ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਹਾਲਾਂਕਿ, AI ਸਿਖਲਾਈ ਦੇ ਬੇਮਿਸਾਲ ਪੈਮਾਨੇ ਅਤੇ ਪ੍ਰਕਿਰਤੀ ‘ਤੇ ‘fair use’ ਦੀ ਲਾਗੂਤਾ ਇੱਕ ਜ਼ੋਰਦਾਰ ਵਿਵਾਦਿਤ ਸਲੇਟੀ ਖੇਤਰ ਬਣੀ ਹੋਈ ਹੈ, ਜੋ ਇਤਿਹਾਸਕ ਕਾਨੂੰਨੀ ਮਿਸਾਲਾਂ ਲਈ ਪੜਾਅ ਤੈਅ ਕਰ ਰਹੀ ਹੈ। ਮੁੱਖ ਤਣਾਅ ਇਸ ਗੱਲ ਦੇ ਦੁਆਲੇ ਘੁੰਮਦਾ ਹੈ ਕਿ ਕੀ ਕਾਪੀਰਾਈਟ ਕੰਮਾਂ ਨੂੰ ਇੱਕ ਮਾਡਲ ਦੇ ਅੰਦਰ ਅੰਕੜਾਤਮਕ ਪੈਟਰਨਾਂ ਵਿੱਚ ਬਦਲਣਾ ਇੱਕ ‘transformative use’ ਦਾ ਗਠਨ ਕਰਦਾ ਹੈ - ‘fair use’ ਦਾ ਇੱਕ ਮੁੱਖ ਤੱਤ - ਜਾਂ ਸਿਰਫ਼ ਵੱਡੇ ਪੈਮਾਨੇ ‘ਤੇ ਅਣਅਧਿਕਾਰਤ ਪ੍ਰਜਨਨ। ਇਹਨਾਂ ਮੁਕੱਦਮਿਆਂ ਦਾ ਨਤੀਜਾ AI ਵਿਕਾਸ ਦੇ ਭਵਿੱਖ ਦੇ ਮਾਰਗ ਨੂੰ ਡੂੰਘਾ ਰੂਪ ਦੇ ਸਕਦਾ ਹੈ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਮਾਡਲ ਸਿਰਜਣਹਾਰਾਂ ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਰੁਕਾਵਟਾਂ ਜਾਂ ਲਾਗਤਾਂ ਲਗਾ ਸਕਦਾ ਹੈ।
ਬਲੈਕ ਬਾਕਸ ਦੇ ਅੰਦਰ ਝਾਤ ਮਾਰਨਾ: ਯਾਦਦਾਸ਼ਤ ਦਾ ਪਤਾ ਲਗਾਉਣ ਲਈ ਇੱਕ ਨਵੀਂ ਵਿਧੀ
ਇਸ ਭਖਦੀ ਬਹਿਸ ਨੂੰ ਹੋਰ ਹਵਾ ਦਿੰਦਾ ਇੱਕ ਹਾਲੀਆ ਅਧਿਐਨ ਹੈ ਜੋ University of Washington, University of Copenhagen, ਅਤੇ Stanford University ਸਮੇਤ ਪ੍ਰਮੁੱਖ ਸੰਸਥਾਵਾਂ ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਦੀ ਇੱਕ ਸਹਿਯੋਗੀ ਟੀਮ ਦੁਆਰਾ ਕੀਤਾ ਗਿਆ ਹੈ। ਉਹਨਾਂ ਦਾ ਕੰਮ ਇੱਕ ਨਵੀਨਤਾਕਾਰੀ ਤਕਨੀਕ ਪੇਸ਼ ਕਰਦਾ ਹੈ ਜੋ ਖਾਸ ਤੌਰ ‘ਤੇ ਉਹਨਾਂ ਮਾਮਲਿਆਂ ਦਾ ਪਤਾ ਲਗਾਉਣ ਲਈ ਤਿਆਰ ਕੀਤੀ ਗਈ ਹੈ ਜਿੱਥੇ AI ਮਾਡਲ, ਇੱਥੋਂ ਤੱਕ ਕਿ ਉਹ ਵੀ ਜਿਨ੍ਹਾਂ ਤੱਕ ਸਿਰਫ਼ OpenAI ਦੇ ਵਰਗੇ ਪ੍ਰਤਿਬੰਧਿਤ ਐਪਲੀਕੇਸ਼ਨ ਪ੍ਰੋਗਰਾਮਿੰਗ ਇੰਟਰਫੇਸ (APIs) ਰਾਹੀਂ ਪਹੁੰਚ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, ਆਪਣੇ ਸਿਖਲਾਈ ਡਾਟਾ ਦੇ ਖਾਸ ਹਿੱਸਿਆਂ ਨੂੰ ‘ਯਾਦ’ ਕਰਦੇ ਪ੍ਰਤੀਤ ਹੁੰਦੇ ਹਨ। ਇਹ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਸਫਲਤਾ ਹੈ ਕਿਉਂਕਿ GPT-4 ਵਰਗੇ ਵਪਾਰਕ ਮਾਡਲਾਂ ਦੇ ਅੰਦਰੂਨੀ ਕੰਮਕਾਜ ਜਾਂ ਸਹੀ ਸਿਖਲਾਈ ਡਾਟਾਸੈਟਾਂ ਤੱਕ ਪਹੁੰਚ ਕਰਨਾ ਆਮ ਤੌਰ ‘ਤੇ ਬਾਹਰੀ ਜਾਂਚਕਰਤਾਵਾਂ ਲਈ ਅਸੰਭਵ ਹੁੰਦਾ ਹੈ।
ਇਹ ਸਮਝਣਾ ਕਿ ਇਹ ਮਾਡਲ ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ, ਅਧਿਐਨ ਦੀ ਮਹੱਤਤਾ ਨੂੰ ਸਮਝਣ ਦੀ ਕੁੰਜੀ ਹੈ। ਆਪਣੇ ਮੂਲ ਰੂਪ ਵਿੱਚ, LLMs ਅਵਿਸ਼ਵਾਸ਼ਯੋਗ ਤੌਰ ‘ਤੇ ਉੱਨਤ ਭਵਿੱਖਬਾਣੀ ਇੰਜਣ ਹਨ। ਉਹਨਾਂ ਨੂੰ ਟੈਕਸਟ ਅਤੇ ਕੋਡ ਦੀ ਸੱਚਮੁੱਚ ਵਿਸ਼ਾਲ ਮਾਤਰਾ ‘ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਸ਼ਬਦਾਂ, ਵਾਕਾਂਸ਼ਾਂ ਅਤੇ ਸੰਕਲਪਾਂ ਵਿਚਕਾਰ ਗੁੰਝਲਦਾਰ ਅੰਕੜਾਤਮਕ ਸਬੰਧਾਂ ਨੂੰ ਸਿੱਖਦੇ ਹੋਏ। ਇਹ ਸਿੱਖਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਉਹਨਾਂ ਨੂੰ ਇਕਸਾਰ ਟੈਕਸਟ ਤਿਆਰ ਕਰਨ, ਭਾਸ਼ਾਵਾਂ ਦਾ ਅਨੁਵਾਦ ਕਰਨ, ਵੱਖ-ਵੱਖ ਕਿਸਮਾਂ ਦੀ ਰਚਨਾਤਮਕ ਸਮੱਗਰੀ ਲਿਖਣ, ਅਤੇ ਜਾਣਕਾਰੀ ਭਰਪੂਰ ਤਰੀਕੇ ਨਾਲ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦੀ ਹੈ। ਜਦੋਂ ਕਿ ਟੀਚਾ ਮਾਡਲ ਲਈ ਪੈਟਰਨਾਂ ਨੂੰ ਆਮ ਬਣਾਉਣਾ ਹੈ ਨਾ ਕਿ ਸਿਰਫ਼ ਜਾਣਕਾਰੀ ਨੂੰ ਸ਼ਬਦ-ਦਰ-ਸ਼ਬਦ ਸਟੋਰ ਕਰਨਾ, ਸਿਖਲਾਈ ਡਾਟਾ ਦਾ ਵਿਸ਼ਾਲ ਪੈਮਾਨਾ ਕੁਝ ਹੱਦ ਤੱਕ ਯਾਦਦਾਸ਼ਤ ਨੂੰ ਲਗਭਗ ਲਾਜ਼ਮੀ ਬਣਾ ਦਿੰਦਾ ਹੈ। ਇਸਨੂੰ ਇੱਕ ਵਿਦਿਆਰਥੀ ਵਾਂਗ ਸੋਚੋ ਜੋ ਅਣਗਿਣਤ ਪਾਠ ਪੁਸਤਕਾਂ ਦਾ ਅਧਿਐਨ ਕਰ ਰਿਹਾ ਹੈ; ਜਦੋਂ ਕਿ ਉਹ ਸੰਕਲਪਾਂ ਨੂੰ ਸਮਝਣ ਦਾ ਟੀਚਾ ਰੱਖਦੇ ਹਨ, ਉਹ ਅਣਜਾਣੇ ਵਿੱਚ ਖਾਸ ਵਾਕਾਂ ਜਾਂ ਪਰਿਭਾਸ਼ਾਵਾਂ ਨੂੰ ਯਾਦ ਕਰ ਸਕਦੇ ਹਨ, ਖਾਸ ਕਰਕੇ ਵਿਲੱਖਣ ਵਾਲੀਆਂ। ਪਿਛਲੀਆਂ ਨਿਰੀਖਣਾਂ ਨੇ ਪਹਿਲਾਂ ਹੀ ਦਿਖਾਇਆ ਹੈ ਕਿ ਚਿੱਤਰ ਬਣਾਉਣ ਵਾਲੇ ਮਾਡਲ ਉਹਨਾਂ ਫਿਲਮਾਂ ਦੇ ਪਛਾਣਨ ਯੋਗ ਤੱਤਾਂ ਨੂੰ ਦੁਬਾਰਾ ਤਿਆਰ ਕਰਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ‘ਤੇ ਉਹਨਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ, ਅਤੇ ਭਾਸ਼ਾ ਮਾਡਲ ਟੈਕਸਟ ਤਿਆਰ ਕਰਦੇ ਹਨ ਜੋ ਖਬਰਾਂ ਦੇ ਲੇਖਾਂ ਵਰਗੇ ਸਰੋਤਾਂ ਤੋਂ ਬਹੁਤ ਮਿਲਦੇ-ਜੁਲਦੇ ਹਨ, ਜਾਂ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਕਾਪੀ ਕੀਤੇ ਗਏ ਹਨ। ਇਹ ਵਰਤਾਰਾ ਸਾਹਿਤਕ ਚੋਰੀ ਅਤੇ AI-ਤਿਆਰ ਸਮੱਗਰੀ ਦੀ ਅਸਲ ਮੌਲਿਕਤਾ ਬਾਰੇ ਗੰਭੀਰ ਚਿੰਤਾਵਾਂ ਪੈਦਾ ਕਰਦਾ ਹੈ।
ਖੋਜਕਰਤਾਵਾਂ ਦੁਆਰਾ ਪ੍ਰਸਤਾਵਿਤ ਕਾਰਜਪ੍ਰਣਾਲੀ ਚਲਾਕ ਅਤੇ ਪ੍ਰਗਟਾਵੇ ਵਾਲੀ ਦੋਵੇਂ ਹੈ। ਇਹ ਉਹਨਾਂ ਸ਼ਬਦਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਅਤੇ ਉਹਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨ ‘ਤੇ ਕੇਂਦਰਿਤ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਉਹ ‘high-surprisal’ ਸ਼ਬਦ ਕਹਿੰਦੇ ਹਨ। ਇਹ ਉਹ ਸ਼ਬਦ ਹਨ ਜੋ ਕਿਸੇ ਵਾਕ ਜਾਂ ਅੰਸ਼ ਦੇ ਖਾਸ ਸੰਦਰਭ ਵਿੱਚ ਅੰਕੜਾਤਮਕ ਤੌਰ ‘ਤੇ ਅਸਾਧਾਰਨ ਜਾਂ ਅਚਾਨਕ ਜਾਪਦੇ ਹਨ। ਇਸ ਵਾਕੰਸ਼ ‘ਤੇ ਗੌਰ ਕਰੋ: ‘ਪ੍ਰਾਚੀਨ ਮਲਾਹ ਸੈਕਸਟੈਂਟ ਦੀ ਮੱਧਮ ਰੋਸ਼ਨੀ ਦੁਆਰਾ ਨੈਵੀਗੇਟ ਕਰਦਾ ਸੀ।’ ‘ਸੈਕਸਟੈਂਟ’ ਸ਼ਬਦ ਨੂੰ ਉੱਚ-ਹੈਰਾਨੀ ਵਾਲਾ ਮੰਨਿਆ ਜਾ ਸਕਦਾ ਹੈ ਕਿਉਂਕਿ, ਟੈਕਸਟ ਦੇ ਇੱਕ ਆਮ ਕੋਸ਼ ਵਿੱਚ, ‘ਤਾਰੇ,’ ‘ਚੰਦ,’ ਜਾਂ ‘ਕੰਪਾਸ’ ਵਰਗੇ ਸ਼ਬਦ ਉਸ ਸੰਦਰਭ ਵਿੱਚ ਅੰਕੜਾਤਮਕ ਤੌਰ ‘ਤੇ ਵਧੇਰੇ ਸੰਭਾਵਿਤ ਹੋ ਸਕਦੇ ਹਨ। ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਅਨੁਮਾਨ ਲਗਾਇਆ ਕਿ ਜੇਕਰ ਕਿਸੇ ਮਾਡਲ ਨੇ ਸਿਖਲਾਈ ਦੌਰਾਨ ਕਿਸੇ ਖਾਸ ਟੈਕਸਟ ਅੰਸ਼ ਨੂੰ ਸੱਚਮੁੱਚ ਯਾਦ ਕੀਤਾ ਹੈ, ਤਾਂ ਇਹ ਇਹਨਾਂ ਵਿਲੱਖਣ, ਉੱਚ-ਹੈਰਾਨੀ ਵਾਲੇ ਸ਼ਬਦਾਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਵਿੱਚ ਬੇਮਿਸਾਲ ਤੌਰ ‘ਤੇ ਵਧੀਆ ਹੋਵੇਗਾ ਜੇਕਰ ਉਹਨਾਂ ਨੂੰ ਅੰਸ਼ ਵਿੱਚੋਂ ਹਟਾ ਦਿੱਤਾ ਗਿਆ ਹੋਵੇ।
ਇਸ ਪਰਿਕਲਪਨਾ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ, ਖੋਜ ਟੀਮ ਨੇ OpenAI ਦੇ ਕਈ ਪ੍ਰਮੁੱਖ ਮਾਡਲਾਂ ਦੀ ਯੋਜਨਾਬੱਧ ਢੰਗ ਨਾਲ ਜਾਂਚ ਕੀਤੀ, ਜਿਸ ਵਿੱਚ ਸ਼ਕਤੀਸ਼ਾਲੀ GPT-4 ਅਤੇ ਇਸਦੇ ਪੂਰਵਜ, GPT-3.5 ਸ਼ਾਮਲ ਹਨ। ਉਹਨਾਂ ਨੇ ਜਾਣੇ-ਪਛਾਣੇ ਸਰੋਤਾਂ, ਜਿਵੇਂ ਕਿ ਪ੍ਰਸਿੱਧ ਗਲਪ ਨਾਵਲਾਂ ਅਤੇ The New York Times ਦੇ ਲੇਖਾਂ ਤੋਂ ਟੈਕਸਟ ਦੇ ਅੰਸ਼ ਲਏ। ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, ਉਹਨਾਂ ਨੇ ਇਹਨਾਂ ਅੰਸ਼ਾਂ ਤੋਂ ਪਛਾਣੇ ਗਏ ਉੱਚ-ਹੈਰਾਨੀ ਵਾਲੇ ਸ਼ਬਦਾਂ ਨੂੰ ਢੱਕ ਦਿੱਤਾ ਜਾਂ ਹਟਾ ਦਿੱਤਾ। ਫਿਰ ਮਾਡਲਾਂ ਨੂੰ ਖਾਲੀ ਥਾਂਵਾਂ ਭਰਨ ਲਈ ਕਿਹਾ ਗਿਆ - ਜ਼ਰੂਰੀ ਤੌਰ ‘ਤੇ, ਗੁੰਮ ਹੋਏ, ਅੰਕੜਾਤਮਕ ਤੌਰ ‘ਤੇ ਅਸੰਭਵ ਸ਼ਬਦਾਂ ਦਾ ‘ਅੰਦਾਜ਼ਾ’ ਲਗਾਉਣ ਲਈ। ਅਧਿਐਨ ਦਾ ਮੁੱਖ ਤਰਕ ਮਜਬੂਰ ਕਰਨ ਵਾਲਾ ਹੈ: ਜੇਕਰ ਕੋਈ ਮਾਡਲ ਲਗਾਤਾਰ ਅਤੇ ਸਹੀ ਢੰਗ ਨਾਲ ਇਹਨਾਂ ਉੱਚ-ਹੈਰਾਨੀ ਵਾਲੇ ਸ਼ਬਦਾਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦਾ ਹੈ, ਤਾਂ ਇਹ ਜ਼ੋਰਦਾਰ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਮਾਡਲ ਨੇ ਸਿਰਫ਼ ਆਮ ਭਾਸ਼ਾ ਦੇ ਪੈਟਰਨ ਹੀ ਨਹੀਂ ਸਿੱਖੇ ਬਲਕਿ ਅਸਲ ਵਿੱਚ ਆਪਣੇ ਸਿਖਲਾਈ ਡਾਟਾ ਤੋਂ ਉਸ ਸਹੀ ਟੈਕਸਟ ਕ੍ਰਮ ਦੀ ਇੱਕ ਖਾਸ ਯਾਦਦਾਸ਼ਤ ਬਰਕਰਾਰ ਰੱਖੀ ਹੈ। ਬੇਤਰਤੀਬ ਮੌਕਾ ਜਾਂ ਆਮ ਭਾਸ਼ਾ ਦੀ ਸਮਝ ਇਕੱਲੇ ਖਾਸ ਸੰਦਰਭਾਂ ਵਿੱਚ ਅਸਧਾਰਨ ਸ਼ਬਦਾਂ ਲਈ ਅਜਿਹੇ ਸਹੀ ਅਨੁਮਾਨ ਪੈਦਾ ਕਰਨ ਦੀ ਸੰਭਾਵਨਾ ਨਹੀਂ ਰੱਖਦੀ।
ਖੋਜਾਂ: AI ਆਉਟਪੁੱਟ ਵਿੱਚ ਕਾਪੀਰਾਈਟ ਟੈਕਸਟ ਦੀਆਂ ਗੂੰਜਾਂ
ਇਹਨਾਂ ਸਾਵਧਾਨੀਪੂਰਵਕ ਟੈਸਟਾਂ ਤੋਂ ਪ੍ਰਾਪਤ ਨਤੀਜੇ ਕਾਪੀਰਾਈਟ ਉਲੰਘਣਾ ਦੇ ਦਾਅਵਿਆਂ ਦਾ ਸਮਰਥਨ ਕਰਨ ਵਾਲੇ ਮਜਬੂਰ ਕਰਨ ਵਾਲੇ, ਭਾਵੇਂ ਸ਼ੁਰੂਆਤੀ, ਸਬੂਤ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ। ਅਧਿਐਨ ਦੇ ਪ੍ਰਕਾਸ਼ਿਤ ਖੋਜਾਂ ਦੇ ਅਨੁਸਾਰ, GPT-4, ਖੋਜ ਦੇ ਸਮੇਂ OpenAI ਦਾ ਸਭ ਤੋਂ ਉੱਨਤ ਜਨਤਕ ਤੌਰ ‘ਤੇ ਉਪਲਬਧ ਮਾਡਲ, ਨੇ ਪ੍ਰਸਿੱਧ ਗਲਪ ਕਿਤਾਬਾਂ ਦੇ ਸ਼ਬਦ-ਦਰ-ਸ਼ਬਦ ਹਿੱਸਿਆਂ ਨੂੰ ਯਾਦ ਕਰਨ ਦੇ ਮਹੱਤਵਪੂਰਨ ਸੰਕੇਤ ਦਿਖਾਏ। ਇਸ ਵਿੱਚ BookMIA ਵਜੋਂ ਜਾਣੇ ਜਾਂਦੇ ਇੱਕ ਖਾਸ ਡਾਟਾਸੈਟ ਦੇ ਅੰਦਰ ਪਾਏ ਗਏ ਟੈਕਸਟ ਸ਼ਾਮਲ ਸਨ, ਜਿਸ ਵਿੱਚ ਕਾਪੀਰਾਈਟ ਇਲੈਕਟ੍ਰਾਨਿਕ ਕਿਤਾਬਾਂ ਤੋਂ ਕੱਢੇ ਗਏ ਨਮੂਨੇ ਸ਼ਾਮਲ ਹਨ - ਇੱਕ ਡਾਟਾਸੈਟ ਜੋ ਅਕਸਰ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਉਲੰਘਣਾ ਕਰਨ ਵਾਲੇ ਸਿਖਲਾਈ ਸਰੋਤਾਂ ਬਾਰੇ ਚਰਚਾਵਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ। ਮਾਡਲ ਸਿਰਫ਼ ਆਮ ਥੀਮਾਂ ਜਾਂ ਸ਼ੈਲੀਆਂ ਨੂੰ ਯਾਦ ਨਹੀਂ ਕਰ ਰਿਹਾ ਸੀ; ਇਹ ਉਹਨਾਂ ਵਿਲੱਖਣ, ਉੱਚ-ਹੈਰਾਨੀ ਵਾਲੇ ਸ਼ਬਦਾਂ ਵਾਲੇ ਟੈਕਸਟ ਕ੍ਰਮਾਂ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਮੁੜ-ਨਿਰਮਾਣ ਕਰ ਰਿਹਾ ਸੀ, ਜੋ ਸਧਾਰਨ ਪੈਟਰਨ ਆਮਕਰਨ ਨਾਲੋਂ ਡੂੰਘੇ ਪੱਧਰ ਦੀ ਧਾਰਨਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।
ਇਸ ਤੋਂ ਇਲਾਵਾ, ਜਾਂਚ ਨੇ ਖੁਲਾਸਾ ਕੀਤਾ ਕਿ GPT-4 ਨੇ New York Times ਦੇ ਲੇਖਾਂ ਦੇ ਹਿੱਸਿਆਂ ਨੂੰ ਯਾਦ ਕਰਨ ਦੇ ਸਬੂਤ ਵੀ ਦਿਖਾਏ। ਹਾਲਾਂਕਿ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਨੋਟ ਕੀਤਾ ਕਿ ਖਬਰਾਂ ਦੇ ਲੇਖਾਂ ਲਈ ਸਪੱਸ਼ਟ ਯਾਦਦਾਸ਼ਤ ਦੀ ਦਰ ਗਲਪ ਕਿਤਾਬਾਂ ਲਈ ਦੇਖੀ ਗਈ ਦਰ ਦੇ ਮੁਕਾਬਲੇ ਘੱਟ ਸੀ। ਇਹ ਅੰਤਰ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਵੱਖ-ਵੱਖ ਕਾਰਕਾਂ ਕਰਕੇ ਹੋ ਸਕਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਮੂਲ ਸਿਖਲਾਈ ਡਾਟਾਸੈਟ ਦੇ ਅੰਦਰ ਇਹਨਾਂ ਵੱਖ-ਵੱਖ ਟੈਕਸਟ ਕਿਸਮਾਂ ਦੀ ਬਾਰੰਬਾਰਤਾ ਜਾਂ ਪੇਸ਼ਕਾਰੀ, ਜਾਂ ਸ਼ਾਇਦ ਮਾਡਲ ਨੇ ਪੱਤਰਕਾਰੀ ਬਨਾਮ ਬਿਰਤਾਂਤਕ ਵਾਰਤਕ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਿਵੇਂ ਕੀਤੀ, ਇਸ ਵਿੱਚ ਭਿੰਨਤਾਵਾਂ। ਸਹੀ ਦਰ ਦੇ ਬਾਵਜੂਦ, ਇਹ ਤੱਥ ਕਿ ਯਾਦਦਾਸ਼ਤ ਵੱਖ-ਵੱਖ ਕਿਸਮਾਂ ਦੀ ਕਾਪੀਰਾਈਟ ਸਮੱਗਰੀ - ਸਾਹਿਤਕ ਰਚਨਾਵਾਂ ਅਤੇ ਪੱਤਰਕਾਰੀ ਦੇ ਟੁਕੜੇ ਦੋਵਾਂ ਵਿੱਚ ਹੋਈ - ਇਸ ਦਲੀਲ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਦੀ ਹੈ ਕਿ ਇਹ ਵਰਤਾਰਾ ਕਿਸੇ ਇੱਕ ਸ਼ੈਲੀ ਜਾਂ ਸਰੋਤ ਤੱਕ ਸੀਮਤ ਨਹੀਂ ਹੈ।
ਇਹ ਖੋਜਾਂ ਚੱਲ ਰਹੀਆਂ ਕਾਨੂੰਨੀ ਅਤੇ ਨੈਤਿਕ ਚਰਚਾਵਾਂ ਵਿੱਚ ਕਾਫ਼ੀ ਭਾਰ ਰੱਖਦੀਆਂ ਹਨ। ਜੇਕਰ GPT-4 ਵਰਗੇ ਮਾਡਲ ਸੱਚਮੁੱਚ ਖਾਸ, ਕਾਪੀਰਾਈਟ ਅੰਸ਼ਾਂ ਨੂੰ ਦੁਹਰਾਉਣ ਦੇ ਸਮਰੱਥ ਹਨ ਜਿਨ੍ਹਾਂ ‘ਤੇ ਉਹਨਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ, ਤਾਂ ਇਹ OpenAI ਦੇ ‘fair use’ ਬਚਾਅ ਨੂੰ ਗੁੰਝਲਦਾਰ ਬਣਾਉਂਦਾ ਹੈ। ‘Fair use’ ਅਕਸਰ ਉਹਨਾਂ ਵਰਤੋਂ ਦਾ ਪੱਖ ਪੂਰਦਾ ਹੈ ਜੋ ਮੂਲ ਕੰਮ ਨੂੰ ਬਦਲਦੇ ਹਨ; ਸ਼ਬਦ-ਦਰ-ਸ਼ਬਦ ਪ੍ਰਜਨਨ, ਭਾਵੇਂ ਅਣਜਾਣੇ ਵਿੱਚ ਜਾਂ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ, ਪਰਿਵਰਤਨ ਤੋਂ ਦੂਰ ਅਤੇ ਸਧਾਰਨ ਨਕਲ ਵੱਲ ਝੁਕਦਾ ਹੈ। ਇਹ ਸਬੂਤ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਕਾਪੀਰਾਈਟ ਮੁਕੱਦਮਿਆਂ ਵਿੱਚ ਮੁਦਈਆਂ ਦੁਆਰਾ ਇਹ ਦਲੀਲ ਦੇਣ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ ਕਿ OpenAI ਦੀਆਂ ਸਿਖਲਾਈ ਪ੍ਰਥਾਵਾਂ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਉਲੰਘਣਾ ਕਰਨ ਵਾਲੇ ਡੈਰੀਵੇਟਿਵ ਕੰਮਾਂ ਦੀ ਸਿਰਜਣਾ ਹੋਈ ਜਾਂ ਮਾਡਲ ਦੇ ਆਉਟਪੁੱਟ ਦੁਆਰਾ ਸਿੱਧੀ ਉਲੰਘਣਾ ਦੀ ਸਹੂਲਤ ਦਿੱਤੀ ਗਈ। ਇਹ ਸਿਖਲਾਈ ਲਈ ਵਰਤੇ ਗਏ ਡਾਟਾ ਅਤੇ AI ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਖਾਸ ਆਉਟਪੁੱਟ ਵਿਚਕਾਰ ਠੋਸ ਸਬੰਧ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ‘ਪੈਟਰਨ ਸਿੱਖਣ’ ਦੀ ਅਮੂਰਤ ਧਾਰਨਾ ਠੋਸ ਪ੍ਰਜਨਨ ਦੇ ਬਹੁਤ ਨੇੜੇ ਮਹਿਸੂਸ ਹੁੰਦੀ ਹੈ।
AI ਵਿਕਾਸ ਵਿੱਚ ਵਿਸ਼ਵਾਸ ਅਤੇ ਪਾਰਦਰਸ਼ਤਾ ਦੀ ਲੋੜ
Abhilasha Ravichander, University of Washington ਵਿੱਚ ਇੱਕ ਡਾਕਟਰਲ ਵਿਦਿਆਰਥੀ ਅਤੇ ਅਧਿਐਨ ਦੇ ਸਹਿ-ਲੇਖਕਾਂ ਵਿੱਚੋਂ ਇੱਕ, ਨੇ ਉਹਨਾਂ ਦੀ ਖੋਜ ਦੇ ਵਿਆਪਕ ਪ੍ਰਭਾਵਾਂ ‘ਤੇ ਜ਼ੋਰ ਦਿੱਤਾ। ਉਸਨੇ ਉਜਾਗਰ ਕੀਤਾ ਕਿ ਇਹ ਖੋਜਾਂ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ‘ਵਿਵਾਦਪੂਰਨ ਡਾਟਾ’ ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਰੌਸ਼ਨੀ ਪਾਉਂਦੀਆਂ ਹਨ ਜੋ ਬਹੁਤ ਸਾਰੇ ਸਮਕਾਲੀ AI ਮਾਡਲਾਂ ਦਾ ਆਧਾਰ ਬਣ ਸਕਦਾ ਹੈ। ਯਾਦ ਕੀਤੀ ਸਮੱਗਰੀ ਦੀ ਪਛਾਣ ਕਰਨ ਦੀ ਯੋਗਤਾ OpenAI ਵਰਗੀਆਂ ਕੰਪਨੀਆਂ ਦੁਆਰਾ ਵਰਤੇ ਜਾਂਦੇ ਹੋਰ ਅਪਾਰਦਰਸ਼ੀ ਸਿਖਲਾਈ ਡਾਟਾਸੈਟਾਂ ਵਿੱਚ ਇੱਕ ਖਿੜਕੀ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ, ਭਾਵੇਂ ਕਿੰਨੀ ਵੀ ਛੋਟੀ ਹੋਵੇ।
Ravichander ਨੇ AI ਖੋਜ ਭਾਈਚਾਰੇ ਅਤੇ ਜਨਤਾ ਵਿੱਚ ਇੱਕ ਵਧ ਰਹੀ ਭਾਵਨਾ ਨੂੰ ਸਪੱਸ਼ਟ ਕੀਤਾ: ‘ਭਰੋਸੇਯੋਗ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲ ਰੱਖਣ ਲਈ, ਸਾਨੂੰ ਅਜਿਹੇ ਮਾਡਲਾਂ ਦੀ ਲੋੜ ਹੈ ਜਿਨ੍ਹਾਂ ਦੀ ਅਸੀਂ ਜਾਂਚ ਕਰ ਸਕੀਏ, ਆਡਿਟ ਕਰ ਸਕੀਏ ਅਤੇ ਵਿਗਿਆਨਕ ਤੌਰ ‘ਤੇ ਜਾਂਚ ਕਰ ਸਕੀਏ।’ ਇਹ ਬਿਆਨ AI ਉਦਯੋਗ ਦੇ ਸਾਹਮਣੇ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਚੁਣੌਤੀ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦਾ ਹੈ। ਜਿਵੇਂ ਕਿ ਇਹ ਮਾਡਲ ਸਮਾਜ ਦੇ ਵੱਖ-ਵੱਖ ਪਹਿਲੂਆਂ ਵਿੱਚ ਵਧੇਰੇ ਏਕੀਕ੍ਰਿਤ ਹੁੰਦੇ ਜਾ ਰਹੇ ਹਨ - ਖਬਰਾਂ ਦੇ ਲੇਖ ਤਿਆਰ ਕਰਨ ਅਤੇ ਕੋਡ ਲਿਖਣ ਤੋਂ ਲੈ ਕੇ ਡਾਕਟਰੀ ਨਿਦਾਨ ਅਤੇ ਵਿੱਤੀ ਵਿਸ਼ਲੇਸ਼ਣ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰਨ ਤੱਕ - ਵਿਸ਼ਵਾਸ ਅਤੇ ਜਵਾਬਦੇਹੀ ਦੀ ਲੋੜ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਬਣ ਜਾਂਦੀ ਹੈ। ਉਪਭੋਗਤਾਵਾਂ, ਰੈਗੂਲੇਟਰਾਂ, ਅਤੇ ਜਨਤਾ ਨੂੰ ਭਰੋਸਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਇਹ ਸਿਸਟਮ ਨਿਰਪੱਖ, ਭਰੋਸੇਯੋਗ ਅਤੇ ਨੈਤਿਕ ਤੌਰ ‘ਤੇ ਕੰਮ ਕਰਦੇ ਹਨ। ਬਹੁਤ ਸਾਰੇ ਮੌਜੂਦਾ LLMs ਦੀ ‘ਬਲੈਕ ਬਾਕਸ’ ਪ੍ਰਕਿਰਤੀ, ਜਿੱਥੇ ਉਹਨਾਂ ਦੇ ਸਿਰਜਣਹਾਰ ਵੀ ਉਹਨਾਂ ਦੇ ਅੰਦਰੂਨੀ ਕੰਮਕਾਜ ਦੀ ਹਰ ਬਾਰੀਕੀ ਜਾਂ ਖਾਸ ਆਉਟਪੁੱਟ ਦੇ ਸਹੀ ਮੂਲ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਹੀਂ ਸਮਝ ਸਕਦੇ, ਇਸ ਵਿਸ਼ਵਾਸ ਦੀ ਸਥਾਪਨਾ ਵਿੱਚ ਰੁਕਾਵਟ ਪਾਉਂਦੀ ਹੈ।
ਅਧਿਐਨ ਦੀ ਪ੍ਰਸਤਾਵਿਤ ਕਾਰਜਪ੍ਰਣਾਲੀ ਸਿਰਫ਼ ਕਾਪੀਰਾਈਟ ਯਾਦਦਾਸ਼ਤ ਦਾ ਪਤਾ ਲਗਾਉਣ ਦੀ ਤਕਨੀਕ ਤੋਂ ਵੱਧ ਦਰਸਾਉਂਦੀ ਹੈ; ਇਹ ਵਿਆਪਕ AI ਆਡਿਟਿੰਗ ਲਈ ਇੱਕ ਸੰਭਾਵੀ ਸਾਧਨ ਵਜੋਂ ਕੰਮ ਕਰਦੀ ਹੈ। ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਦੀ ਯੋਗਤਾ, ਇੱਥੋਂ ਤੱਕ ਕਿ ਉਹਨਾਂ ਤੱਕ ਸਿਰਫ਼ APIs ਰਾਹੀਂ ਪਹੁੰਚ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, ਸੁਤੰਤਰ ਤਸਦੀਕ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ। Ravichander ਨੇ ਅੱਗੇ ‘ਪੂਰੇ ਈਕੋਸਿਸਟਮ ਵਿੱਚ ਵਧੇਰੇ ਡਾਟਾ ਪਾਰਦਰਸ਼ਤਾ ਦੀ ਲੋੜ’ ‘ਤੇ ਜ਼ੋਰ ਦਿੱਤਾ। ਇਹ ਜਾਣੇ ਬਿਨਾਂ ਕਿ ਇਹ ਮਾਡਲ ਕਿਸ ਡਾਟਾ ‘ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਕਰਦੇ ਹਨ, ਸੰਭਾਵੀ ਪੱਖਪਾਤ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ, ਸੁਰੱਖਿਆ ਕਮਜ਼ੋਰੀਆਂ ਦੀ ਪਛਾਣ ਕਰਨਾ, ਨੁਕਸਾਨਦੇਹ ਜਾਂ ਗਲਤ ਆਉਟਪੁੱਟ ਦੇ ਸਰੋਤ ਨੂੰ ਸਮਝਣਾ, ਜਾਂ, ਜਿਵੇਂ ਕਿ ਇਹ ਅਧਿਐਨ ਉਜਾਗਰ ਕਰਦਾ ਹੈ, ਸੰਭਾਵੀ ਕਾਪੀਰਾਈਟ ਉਲੰਘਣਾ ਦੀ ਹੱਦ ਨਿਰਧਾਰਤ ਕਰਨਾ ਬਹੁਤ ਮੁਸ਼ਕਲ ਹੋ ਜਾਂਦਾ ਹੈ। ਪਾਰਦਰਸ਼ਤਾ ਦੀ ਮੰਗ ਸਿਰਫ਼ ਅਕਾਦਮਿਕ ਨਹੀਂ ਹੈ; ਇਹ ਇੱਕ ਜ਼ਿੰਮੇਵਾਰ ਅਤੇ ਟਿਕਾਊ AI ਭਵਿੱਖ ਬਣਾਉਣ ਲਈ ਇੱਕ ਬੁਨਿਆਦੀ ਲੋੜ ਹੈ। ਇਸ ਵਿੱਚ ਮਲਕੀਅਤੀ ਜਾਣਕਾਰੀ ਅਤੇ ਬੌਧਿਕ ਸੰਪੱਤੀ (ਮਾਡਲਾਂ ਸਮੇਤ) ਦੀ ਸੁਰੱਖਿਆ ਅਤੇ ਜਨਤਕ ਜਵਾਬਦੇਹੀ ਅਤੇ ਸੁਰੱਖਿਆ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਵਿਚਕਾਰ ਗੁੰਝਲਦਾਰ ਵਪਾਰ-ਬੰਦ ਸ਼ਾਮਲ ਹਨ। ਮਜ਼ਬੂਤ ਆਡਿਟਿੰਗ ਸਾਧਨਾਂ ਅਤੇ ਢਾਂਚਿਆਂ ਦਾ ਵਿਕਾਸ, ਡਾਟਾ ਖੁਲਾਸੇ ਲਈ ਸਪੱਸ਼ਟ ਮਾਪਦੰਡਾਂ ਦੇ ਨਾਲ, ਵੱਧ ਤੋਂ ਵੱਧ ਮਹੱਤਵਪੂਰਨ ਹੁੰਦਾ ਜਾ ਰਿਹਾ ਹੈ ਕਿਉਂਕਿ AI ਆਪਣੀ ਤੇਜ਼ੀ ਨਾਲ ਤਰੱਕੀ ਜਾਰੀ ਰੱਖਦਾ ਹੈ।
OpenAI ਦਾ ਰੁਖ ਅਤੇ ਅਣਪਛਾਤਾ ਰਾਹ
ਸਿਰਜਣਹਾਰਾਂ ਅਤੇ ਕਾਨੂੰਨ ਘਾੜਿਆਂ ਦੇ ਵਧਦੇ ਦਬਾਅ ਦਾ ਸਾਹਮਣਾ ਕਰਦੇ ਹੋਏ, OpenAI ਨੇ ਲਗਾਤਾਰ ਇੱਕ ਕਾਨੂੰਨੀ ਅਤੇ ਰੈਗੂਲੇਟਰੀ ਮਾਹੌਲ ਦੀ ਵਕਾਲਤ ਕੀਤੀ ਹੈ ਜੋ AI ਮਾਡਲਾਂ ਦੀ ਸਿਖਲਾਈ ਲਈ ਕਾਪੀਰਾਈਟ ਸਮੱਗਰੀ ਦੀ ਵਿਆਪਕ ਵਰਤੋਂ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਕੰਪਨੀ ਦਾ ਤਰਕ ਹੈ ਕਿ ਅਜਿਹੀ ਲਚਕਤਾ ਨਵੀਨਤਾ ਲਈ ਅਤੇ ਅਮਰੀਕਾ ਲਈ ਗਲੋਬਲ AI ਦੌੜ ਵਿੱਚ ਪ੍ਰਤੀਯੋਗੀ ਬੜ੍ਹਤ ਬਣਾਈ ਰੱਖਣ ਲਈ ਜ਼ਰੂਰੀ ਹੈ। ਉਹਨਾਂ ਦੀਆਂ ਲਾਬਿੰਗ ਕੋਸ਼ਿਸ਼ਾਂ ਦੁਨੀਆ ਭਰ ਦੀਆਂ ਸਰਕਾਰਾਂ ਨੂੰ ਮੌਜੂਦਾ ਕਾਪੀਰਾਈਟ ਕਾਨੂੰਨਾਂ, ਖਾਸ ਤੌਰ ‘ਤੇ ਸੰਯੁਕਤ ਰਾਜ ਵਿੱਚ ‘fair use’ ਦੀ ਧਾਰਨਾ, ਦੀ ਵਿਆਖਿਆ ਕਰਨ ਜਾਂ ਕੋਡੀਫਾਈ ਕਰਨ ਲਈ ਮਨਾਉਣ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹਨ, ਜੋ AI ਡਿਵੈਲਪਰਾਂ ਲਈ ਅਨੁਕੂਲ ਹੋਵੇ। ਉਹ ਦਾਅਵਾ ਕਰਦੇ ਹਨ ਕਿ ਵਿਭਿੰਨ ਡਾਟਾਸੈਟਾਂ ‘ਤੇ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣਾ, ਜਿਸ ਵਿੱਚ ਕਾਪੀਰਾਈਟ ਕੰਮ ਸ਼ਾਮਲ ਹਨ, ਸ਼ਕਤੀਸ਼ਾਲੀ ਅਤੇ ਲਾਭਦਾਇਕ AI ਪ੍ਰਣਾਲੀਆਂ ਬਣਾਉਣ ਲਈ ਜ਼ਰੂਰੀ ਇੱਕ ਪਰਿਵਰਤਨਸ਼ੀਲ ਵਰਤੋਂ ਹੈ।
ਹਾਲਾਂਕਿ, ਵਧਦੀਆਂ ਚਿੰਤਾਵਾਂ ਨੂੰ ਪਛਾਣਦੇ ਹੋਏ, OpenAI ਨੇ ਇਸ ਮੁੱਦੇ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਕੁਝ ਕਦਮ ਵੀ ਚੁੱਕੇ ਹਨ, ਭਾਵੇਂ ਕਿ ਆਲੋਚਕ ਅਕਸਰ ਉਹਨਾਂ ਉਪਾਵਾਂ ਨੂੰ ਨਾਕਾਫੀ ਸਮਝਦੇ ਹਨ। ਕੰਪਨੀ ਨੇ ਕੁਝ ਪ੍ਰਕਾਸ਼ਕਾਂ ਅਤੇ ਸਮੱਗਰੀ ਸਿਰਜਣਹਾਰਾਂ ਨਾਲ ਸਮੱਗਰੀ ਲਾਇਸੈਂਸਿੰਗ ਸਮਝੌਤੇ ਕੀਤੇ ਹਨ, ਉਹਨਾਂ ਦੀ ਸਮੱਗਰੀ ਦੀ ਵਰਤੋਂ ਕਰਨ ਲਈ ਸਪੱਸ਼ਟ ਇਜਾਜ਼ਤ ਸੁਰੱਖਿਅਤ ਕੀਤੀ ਹੈ। ਇਹ ਸੌਦੇ, ਭਾਵੇਂ ਮਹੱਤਵਪੂਰਨ ਹਨ, GPT-4 ਵਰਗੇ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਸੰਭਾਵਤ ਤੌਰ ‘ਤੇ ਵਰਤੇ ਗਏ ਡਾਟਾ ਦਾ ਸਿਰਫ਼ ਇੱਕ ਹਿੱਸਾ ਦਰਸਾਉਂਦੇ ਹਨ। ਇਸ ਤੋਂ ਇਲਾਵਾ, OpenAI ਨੇ ਆਪਟ-ਆਊਟ ਮਕੈਨਿਜ਼ਮ ਲਾਗੂ ਕੀਤੇ ਹਨ। ਇਹ ਕਾਪੀਰਾਈਟ ਧਾਰਕਾਂ ਨੂੰਰਸਮੀ ਤੌਰ ‘ਤੇ ਬੇਨਤੀ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੇ ਹਨ ਕਿ ਉਹਨਾਂ ਦੀ ਸਮੱਗਰੀ ਨੂੰ ਭਵਿੱਖ ਦੇ AI ਸਿਖਲਾਈ ਉਦੇਸ਼ਾਂ ਲਈ ਨਾ ਵਰਤਿਆ ਜਾਵੇ। ਜਦੋਂ ਕਿ ਇਹ ਸਿਰਜਣਹਾਰ ਦੇ ਅਧਿਕਾਰਾਂ ਦਾ ਸਨਮਾਨ ਕਰਨ ਵੱਲ ਇੱਕ ਕਦਮ ਜਾਪਦਾ ਹੈ, ਇਹਨਾਂ ਆਪਟ-ਆਊਟ ਪ੍ਰਣਾਲੀਆਂ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਅਤੇ ਵਿਵਹਾਰਕਤਾ ਬਹਿਸਯੋਗ ਹੈ। ਉਹ ਵਿਅਕਤੀਗਤ ਸਿਰਜਣਹਾਰਾਂ ‘ਤੇ ਇਹ ਪਤਾ ਲਗਾਉਣ ਦਾ ਭਾਰ ਪਾਉਂਦੇ ਹਨ ਕਿ ਉਹਨਾਂ ਦਾ ਕੰਮ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ ਅਤੇ ਫਿਰ ਆਪਟ ਆਊਟ ਕਰਨ ਲਈ OpenAI ਦੀਆਂ ਖਾਸ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨੂੰ ਨੈਵੀਗੇਟ ਕਰਨਾ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਹ ਮਕੈਨਿਜ਼ਮ ਆਮ ਤੌਰ ‘ਤੇ ਉਹਨਾਂ ਮਾਡਲਾਂ ਵਿੱਚ ਸਮੱਗਰੀ ਦੀ ਵਰਤੋਂ ਨੂੰ ਸੰਬੋਧਿਤ ਨਹੀਂ ਕਰਦੇ ਹਨ ਜੋ ਪਹਿਲਾਂ ਹੀ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਕਰ ਚੁੱਕੇ ਹਨ।
ਮੌਜੂਦਾ ਸਥਿਤੀ ਇੱਕ ਬੁਨਿਆਦੀ ਤਣਾਅ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ: AI ਕੰਪਨੀਆਂ ਦੀ ਨਵੀਨਤਾ ਲਈ ਜਾਣਕਾਰੀ ਦੇ ਵਿਸ਼ਾਲ ਡਿਜੀਟਲ ਬ੍ਰਹਿਮੰਡ ਦਾ ਲਾਭ ਉਠਾਉਣ ਦੀ ਇੱਛਾ ਬਨਾਮ ਸਿਰਜਣਹਾਰਾਂ ਦਾ ਆਪਣੇ ਮੂਲ ਕੰਮਾਂ ਨੂੰ ਨਿਯੰਤਰਿਤ ਕਰਨ ਅਤੇ ਉਹਨਾਂ ਤੋਂ ਲਾਭ ਲੈਣ ਦਾ ਅਧਿਕਾਰ। ਯਾਦਦਾਸ਼ਤ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲਾ ਅਧਿਐਨ ਗੁੰਝਲਤਾ ਦੀ ਇੱਕ ਹੋਰ ਪਰਤ ਜੋੜਦਾ ਹੈ, ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਡਾਟਾ ਨੂੰ ‘ਸਿੱਖਣ’ ਅਤੇ ‘ਕਾਪੀ ਕਰਨ’ ਵਿਚਕਾਰਲੀ ਰੇਖਾ ਧੁੰਦਲੀ ਹੈ ਅਤੇ ਸ਼ਾਇਦ ਮਾਡਲ ਡਿਵੈਲਪਰਾਂ ਦੁਆਰਾ ਪਹਿਲਾਂ ਸਵੀਕਾਰ ਕੀਤੇ ਜਾਣ ਨਾਲੋਂ ਜ਼ਿਆਦਾ ਵਾਰ ਪਾਰ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਅੱਗੇ ਦਾ ਰਾਹ ਅਨਿਸ਼ਚਿਤ ਬਣਿਆ ਹੋਇਆ ਹੈ। ਇਸ ਵਿੱਚ AI ਸਿਖਲਾਈ ਡਾਟਾ ਨੂੰ ਵਿਸ਼ੇਸ਼ ਤੌਰ ‘ਤੇ ਸੰਬੋਧਿਤ ਕਰਨ ਵਾਲਾ ਨਵਾਂ ਕਾਨੂੰਨ, ਇਸ ਨਵੇਂ ਸੰਦਰਭ ਵਿੱਚ ਮੌਜੂਦਾ ਕਾਪੀਰਾਈਟ ਕਾਨੂੰਨ ਦੀ ਵਿਆਖਿਆ ਕਰਨ ਵਾਲੇ ਇਤਿਹਾਸਕ ਅਦਾਲਤੀ ਫੈਸਲੇ, ਉਦਯੋਗ-ਵਿਆਪੀ ਵਧੀਆ ਅਭਿਆਸਾਂ ਅਤੇ ਲਾਇਸੈਂਸਿੰਗ ਢਾਂਚਿਆਂ ਦਾ ਵਿਕਾਸ, ਜਾਂ ਬਿਹਤਰ ਡਾਟਾ ਪ੍ਰੋਵੈਨੈਂਸ ਟਰੈਕਿੰਗ ਜਾਂ ਮਾਡਲ ਯਾਦਦਾਸ਼ਤ ਨੂੰ ਘਟਾਉਣ ਦੀਆਂ ਤਕਨੀਕਾਂ ਵਰਗੇ ਤਕਨੀਕੀ ਹੱਲ ਸ਼ਾਮਲ ਹੋ ਸਕਦੇ ਹਨ। ਜੋ ਸਪੱਸ਼ਟ ਜਾਪਦਾ ਹੈ ਉਹ ਇਹ ਹੈ ਕਿ AI ਅਤੇ ਕਾਪੀਰਾਈਟ ‘ਤੇ ਬਹਿਸ ਖਤਮ ਹੋਣ ਤੋਂ ਬਹੁਤ ਦੂਰ ਹੈ; ਦਰਅਸਲ, ਇਹ ਸ਼ਾਇਦ ਹੁਣੇ ਸ਼ੁਰੂ ਹੋ ਰਹੀ ਹੈ, ਜਿਸ ਦੇ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਦੇ ਭਵਿੱਖ ਅਤੇ ਰਚਨਾਤਮਕ ਆਰਥਿਕਤਾ ਦੋਵਾਂ ਲਈ ਡੂੰਘੇ ਪ੍ਰਭਾਵ ਹਨ। ਯਾਦਦਾਸ਼ਤ ਸੰਬੰਧੀ ਖੋਜਾਂ