OpenAI ਦੇ GPT-4o 'ਤੇ ਪੇਵਾਲ ਡਾਟਾ ਵਰਤੋਂ ਦੇ ਦੋਸ਼ਾਂ ਦੀ ਜਾਂਚ

ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ (AI) ਦੇ ਵਿਕਾਸ ਦੀ ਨਿਰੰਤਰ ਦੌੜ, ਜਿਸਦੀ ਅਗਵਾਈ OpenAI ਵਰਗੀਆਂ ਵੱਡੀਆਂ ਕੰਪਨੀਆਂ ਕਰ ਰਹੀਆਂ ਹਨ, ਅਕਸਰ ਬੌਧਿਕ ਸੰਪੱਤੀ ਅਤੇ ਡਾਟਾ ਮਾਲਕੀ ਦੇ ਲੰਬੇ ਸਮੇਂ ਤੋਂ ਸਥਾਪਤ ਸਿਧਾਂਤਾਂ ਨਾਲ ਟਕਰਾਉਂਦੀ ਹੈ। ਇਸ ਟਕਰਾਅ ਨੇ ਇੱਕ ਵਾਰ ਫਿਰ ਵਿਵਾਦ ਖੜ੍ਹਾ ਕਰ ਦਿੱਤਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਤਾਜ਼ਾ ਦੋਸ਼ ਸਾਹਮਣੇ ਆਏ ਹਨ ਕਿ OpenAI ਦਾ ਨਵੀਨਤਮ ਫਲੈਗਸ਼ਿਪ ਮਾਡਲ, GPT-4o, ਸ਼ਾਇਦ ਪੇਵਾਲਾਂ ਪਿੱਛੇ ਲੁਕੀ ਕਾਪੀਰਾਈਟ ਸਮੱਗਰੀ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਕੀਤਾ ਗਿਆ ਹੋ ਸਕਦਾ ਹੈ, ਸੰਭਾਵਤ ਤੌਰ ‘ਤੇ ਲੋੜੀਂਦੀਆਂ ਇਜਾਜ਼ਤਾਂ ਪ੍ਰਾਪਤ ਕੀਤੇ ਬਿਨਾਂ। ਇਹ ਦਾਅਵੇ ਇੱਕ ਨਵੇਂ ਸਥਾਪਿਤ ਨਿਗਰਾਨ ਸਮੂਹ, AI Disclosures Project ਤੋਂ ਉਤਪੰਨ ਹੋਏ ਹਨ, ਜੋ ਕਿ ਆਧੁਨਿਕ AI ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਡਾਟਾ ਦੀ ਨੈਤਿਕ ਸੋਰਸਿੰਗ ਦੇ ਆਲੇ ਦੁਆਲੇ ਪਹਿਲਾਂ ਤੋਂ ਹੀ ਗੁੰਝਲਦਾਰ ਬਹਿਸ ਵਿੱਚ ਇੱਕ ਹੋਰ ਪਰਤ ਜੋੜਦੇ ਹਨ।

ਨਿਗਰਾਨ ਦੀ ਆਵਾਜ਼: AI Disclosures Project ਦੇ ਦੋਸ਼

2024 ਵਿੱਚ ਲਾਂਚ ਕੀਤਾ ਗਿਆ, AI Disclosures Project ਆਪਣੇ ਆਪ ਨੂੰ ਇੱਕ ਗੈਰ-ਮੁਨਾਫ਼ਾ ਸੰਸਥਾ ਵਜੋਂ ਸਥਾਪਤ ਕਰਦਾ ਹੈ ਜੋ AI ਉਦਯੋਗ ਦੇ ਅੰਦਰ ਅਕਸਰ ਅਪਾਰਦਰਸ਼ੀ ਅਭਿਆਸਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਸਮਰਪਿਤ ਹੈ। ਇਸਦੇ ਸੰਸਥਾਪਕਾਂ ਵਿੱਚ ਮੀਡੀਆ ਉੱਦਮੀ Tim O’Reilly, O’Reilly Media ਦੇ ਸੰਸਥਾਪਕ, ਜੋ ਤਕਨੀਕੀ ਕਿਤਾਬਾਂ ਦੇ ਇੱਕ ਪ੍ਰਮੁੱਖ ਪ੍ਰਕਾਸ਼ਕ ਹਨ, ਅਤੇ ਅਰਥ ਸ਼ਾਸਤਰੀ Ilan Strauss ਵਰਗੀਆਂ ਪ੍ਰਮੁੱਖ ਸ਼ਖਸੀਅਤਾਂ ਸ਼ਾਮਲ ਹਨ। O’Reilly Media ਨਾਲ ਇਹ ਸਬੰਧ ਖਾਸ ਤੌਰ ‘ਤੇ ਪ੍ਰਸੰਗਿਕ ਹੈ, ਕਿਉਂਕਿ ਪ੍ਰੋਜੈਕਟ ਦੀ ਸ਼ੁਰੂਆਤੀ ਬੰਬ ਸ਼ੈੱਲ ਰਿਪੋਰਟ ਖਾਸ ਤੌਰ ‘ਤੇ GPT-4o ਦੇ ਸਿਖਲਾਈ ਡਾਟਾਸੈਟ ਦੇ ਅੰਦਰ O’Reilly ਦੀ ਪੇਵਾਲ ਵਾਲੀ ਕਿਤਾਬ ਸਮੱਗਰੀ ਦੀ ਕਥਿਤ ਮੌਜੂਦਗੀ ‘ਤੇ ਕੇਂਦ੍ਰਤ ਕਰਦੀ ਹੈ।

ਉਨ੍ਹਾਂ ਦੇ ਅਧਿਐਨ ਦਾ ਕੇਂਦਰੀ ਦਾਅਵਾ ਭੜਕਾਊ ਹੈ: OpenAI ਅਤੇ O’Reilly Media ਵਿਚਕਾਰ ਕਿਸੇ ਵੀ ਜਾਣੇ-ਪਛਾਣੇ ਲਾਇਸੈਂਸ ਸਮਝੌਤੇ ਦੀ ਅਣਹੋਂਦ ਦੇ ਬਾਵਜੂਦ, GPT-4o ਮਾਡਲ O’Reilly ਦੀਆਂ ਕਾਪੀਰਾਈਟ ਕਿਤਾਬਾਂ ਤੋਂ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਪ੍ਰਾਪਤ ਸਮੱਗਰੀ ਨਾਲ ਕਾਫ਼ੀ ਉੱਚ ਪੱਧਰ ਦੀ ਜਾਣ-ਪਛਾਣ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦਾ ਹੈ। ਰਿਪੋਰਟ ਦਾ ਤਰਕ ਹੈ ਕਿ ਇਹ ਜਾਣ-ਪਛਾਣ ਜ਼ੋਰਦਾਰ ਢੰਗ ਨਾਲ ਸੁਝਾਅ ਦਿੰਦੀ ਹੈ ਕਿ ਇਹ ਪੇਵਾਲ ਸਮੱਗਰੀ ਮਾਡਲ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਬਣਾਉਣ ਲਈ ਵਰਤੇ ਗਏ ਡਾਟਾ ਦੇ ਵਿਸ਼ਾਲ ਭੰਡਾਰ ਵਿੱਚ ਸ਼ਾਮਲ ਕੀਤੀ ਗਈ ਸੀ। ਅਧਿਐਨ ਪੁਰਾਣੇ OpenAI ਮਾਡਲਾਂ, ਖਾਸ ਤੌਰ ‘ਤੇ GPT-3.5 Turbo ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਅੰਤਰ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ, ਜੋ GPT-4o ਦੇ ਵਿਕਾਸ ਤੱਕ ਡਾਟਾ ਪ੍ਰਾਪਤੀ ਅਭਿਆਸਾਂ ਵਿੱਚ ਸੰਭਾਵੀ ਤਬਦੀਲੀ ਜਾਂ ਵਿਸਤਾਰ ਦਾ ਸੰਕੇਤ ਦਿੰਦਾ ਹੈ।

ਇਸਦੇ ਪ੍ਰਭਾਵ ਕਾਫ਼ੀ ਹਨ। ਜੇਕਰ ਮਲਕੀਅਤੀ, ਭੁਗਤਾਨ-ਲਈ ਸਮੱਗਰੀ ਨੂੰ ਬਿਨਾਂ ਅਧਿਕਾਰ ਜਾਂ ਮੁਆਵਜ਼ੇ ਦੇ AI ਮਾਡਲਾਂ ਦੁਆਰਾ ਗ੍ਰਹਿਣ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ, ਤਾਂ ਇਹ ਜਨਰੇਟਿਵ AI ਦੇ ਯੁੱਗ ਵਿੱਚ ਕਾਪੀਰਾਈਟ ਕਾਨੂੰਨ ਬਾਰੇ ਬੁਨਿਆਦੀ ਸਵਾਲ ਖੜ੍ਹੇ ਕਰਦਾ ਹੈ। ਪ੍ਰਕਾਸ਼ਕ ਅਤੇ ਲੇਖਕ ਸਬਸਕ੍ਰਿਪਸ਼ਨ ਜਾਂ ਖਰੀਦ ਮਾਡਲਾਂ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ, ਜੋ ਉਨ੍ਹਾਂ ਦੀ ਸਮੱਗਰੀ ਦੀ ਵਿਸ਼ੇਸ਼ਤਾ ‘ਤੇ ਅਧਾਰਤ ਹਨ। ਸਿਖਲਾਈ ਲਈ ਇਸ ਸਮੱਗਰੀ ਦੀ ਕਥਿਤ ਵਰਤੋਂ ਨੂੰ ਇਹਨਾਂ ਕਾਰੋਬਾਰੀ ਮਾਡਲਾਂ ਨੂੰ ਕਮਜ਼ੋਰ ਕਰਨ ਦੇ ਰੂਪ ਵਿੱਚ ਦੇਖਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਉਸ ਸਮੱਗਰੀ ਦਾ ਮੁੱਲ ਘਟਾਉਂਦਾ ਹੈ ਜਿਸ ਨੂੰ ਬਣਾਉਣ ਲਈ ਮਹੱਤਵਪੂਰਨ ਨਿਵੇਸ਼ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਹ ਖਾਸ ਦੋਸ਼ ਜਨਤਕ ਤੌਰ ‘ਤੇ ਉਪਲਬਧ ਵੈੱਬਸਾਈਟਾਂ ਦੀ ਸਕ੍ਰੈਪਿੰਗ ਤੋਂ ਪਰੇ ਹੈ, ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਭੁਗਤਾਨ ਕਰਨ ਵਾਲੇ ਗਾਹਕਾਂ ਲਈ ਬਣਾਈ ਗਈ ਸਮੱਗਰੀ ਤੱਕ ਪਹੁੰਚ ਦੇ ਖੇਤਰ ਵਿੱਚ ਦਾਖਲ ਹੁੰਦਾ ਹੈ।

ਬਲੈਕ ਬਾਕਸ ਦੇ ਅੰਦਰ ਝਾਤ: ਮੈਂਬਰਸ਼ਿਪ ਇਨਫਰੈਂਸ ਅਟੈਕ

ਆਪਣੇ ਦਾਅਵਿਆਂ ਨੂੰ ਸਾਬਤ ਕਰਨ ਲਈ, AI Disclosures Project ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਇੱਕ ਆਧੁਨਿਕ ਤਕਨੀਕ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਿਸਨੂੰ ‘ਮੈਂਬਰਸ਼ਿਪ ਇਨਫਰੈਂਸ ਅਟੈਕ’ ਵਜੋਂ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਇੱਕ ਵਿਧੀ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਜਿਸਨੂੰ ਉਹ DE-COP ਕਹਿੰਦੇ ਹਨ। ਇਸ ਪਹੁੰਚ ਦੇ ਪਿੱਛੇ ਮੁੱਖ ਵਿਚਾਰ ਇਹ ਜਾਂਚਣਾ ਹੈ ਕਿ ਕੀ ਇੱਕ AI ਮਾਡਲ ਨੇ ਟੈਕਸਟ ਦੇ ਖਾਸ ਟੁਕੜਿਆਂ ਨੂੰ ‘ਯਾਦ’ ਕੀਤਾ ਹੈ ਜਾਂ ਘੱਟੋ ਘੱਟ ਉਹਨਾਂ ਨਾਲ ਇੱਕ ਮਜ਼ਬੂਤ ਜਾਣ-ਪਛਾਣ ਵਿਕਸਿਤ ਕੀਤੀ ਹੈ। ਸੰਖੇਪ ਵਿੱਚ, ਹਮਲਾ ਮਾਡਲ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ ਕਿ ਕੀ ਇਹ ਭਰੋਸੇਯੋਗ ਤੌਰ ‘ਤੇ ਮੂਲ ਟੈਕਸਟ ਪੈਸੇਜਾਂ (ਇਸ ਕੇਸ ਵਿੱਚ, O’Reilly ਕਿਤਾਬਾਂ ਤੋਂ) ਅਤੇ ਉਹਨਾਂ ਹੀ ਪੈਸੇਜਾਂ ਦੇ ਧਿਆਨ ਨਾਲ ਬਣਾਏ ਗਏ ਪੈਰਾਫ੍ਰੇਜ਼ਡ ਸੰਸਕਰਣਾਂ, ਜੋ ਕਿਸੇ ਹੋਰ AI ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਹਨ, ਵਿੱਚ ਫਰਕ ਕਰ ਸਕਦਾ ਹੈ।

ਇਸਦੇ ਪਿੱਛੇ ਦਾ ਤਰਕ ਇਹ ਹੈ ਕਿ ਜੇਕਰ ਕੋਈ ਮਾਡਲ ਲਗਾਤਾਰ ਇੱਕ ਨਜ਼ਦੀਕੀ ਪੈਰਾਫ੍ਰੇਜ਼ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਮੂਲ ਮਨੁੱਖੀ-ਲਿਖਤ ਟੈਕਸਟ ਦੀ ਪਛਾਣ ਕਰਨ ਦੀ ਬੇਤਰਤੀਬੀ ਤੋਂ ਵੱਧ ਯੋਗਤਾ ਦਿਖਾਉਂਦਾ ਹੈ, ਤਾਂ ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਮਾਡਲ ਨੇ ਉਸ ਮੂਲ ਟੈਕਸਟ ਦਾ ਪਹਿਲਾਂ ਸਾਹਮਣਾ ਕੀਤਾ ਹੈ - ਸੰਭਾਵਤ ਤੌਰ ‘ਤੇ ਇਸਦੇ ਸਿਖਲਾਈ ਪੜਾਅ ਦੌਰਾਨ। ਇਹ ਇਸ ਤਰ੍ਹਾਂ ਹੈ ਜਿਵੇਂ ਕਿਸੇ ਨੂੰ ਇੱਕ ਖਾਸ, ਘੱਟ ਜਾਣੀ-ਪਛਾਣੀ ਤਸਵੀਰ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ ਟੈਸਟ ਕਰਨਾ ਜਿਸਨੂੰ ਉਹ ਕਦੇ ਨਾ ਦੇਖਣ ਦਾ ਦਾਅਵਾ ਕਰਦੇ ਹਨ; ਲਗਾਤਾਰ ਪਛਾਣ ਪਿਛਲੀ ਐਕਸਪੋਜ਼ਰ ਦਾ ਸੁਝਾਅ ਦਿੰਦੀ ਹੈ।

AI Disclosures Project ਦੇ ਟੈਸਟ ਦਾ ਪੈਮਾਨਾ ਕਾਫ਼ੀ ਵੱਡਾ ਸੀ। ਉਹਨਾਂ ਨੇ 34 ਵੱਖ-ਵੱਖ O’Reilly Media ਕਿਤਾਬਾਂ ਤੋਂ ਲਏ ਗਏ 13,962 ਵੱਖਰੇ ਪੈਰਾਗ੍ਰਾਫ ਅੰਸ਼ਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਇਹ ਅੰਸ਼ ਉਸ ਕਿਸਮ ਦੀ ਵਿਸ਼ੇਸ਼, ਉੱਚ-ਮੁੱਲ ਵਾਲੀ ਸਮੱਗਰੀ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ ਜੋ ਆਮ ਤੌਰ ‘ਤੇ ਪ੍ਰਕਾਸ਼ਕ ਦੇ ਪੇਵਾਲ ਪਿੱਛੇ ਪਾਈ ਜਾਂਦੀ ਹੈ। ਅਧਿਐਨ ਨੇ ਫਿਰ GPT-4o ਅਤੇ ਇਸਦੇ ਪੂਰਵਜ, GPT-3.5 Turbo, ਦੋਵਾਂ ਦੇ ਇਸ ਵਿਭਿੰਨਤਾ ਕਾਰਜ ‘ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਮਾਪਿਆ।

ਰਿਪੋਰਟ ਵਿੱਚ ਪੇਸ਼ ਕੀਤੇ ਗਏ ਨਤੀਜੇ ਹੈਰਾਨੀਜਨਕ ਸਨ। GPT-4o ਨੇ ਪੇਵਾਲ ਵਾਲੀ O’Reilly ਸਮੱਗਰੀ ਨੂੰ ਪਛਾਣਨ ਦੀ ਕਾਫ਼ੀ ਵਧੀ ਹੋਈ ਯੋਗਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਇਸਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ AUROC (Area Under the Receiver Operating Characteristic curve) ਸਕੋਰ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮਾਪਿਆ ਗਿਆ ਸੀ, ਜੋ ਬਾਈਨਰੀ ਕਲਾਸੀਫਾਇਰਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇੱਕ ਆਮ ਮੈਟ੍ਰਿਕ ਹੈ। GPT-4o ਨੇ 82% ਦਾ AUROC ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ। ਇਸਦੇ ਉਲਟ, GPT-3.5 Turbo ਨੇ ਸਿਰਫ 50% ਤੋਂ ਥੋੜ੍ਹਾ ਉੱਪਰ ਸਕੋਰ ਕੀਤਾ, ਜੋ ਕਿ ਜ਼ਰੂਰੀ ਤੌਰ ‘ਤੇ ਬੇਤਰਤੀਬੇ ਅਨੁਮਾਨ ਦੇ ਬਰਾਬਰ ਹੈ - ਟੈਸਟ ਕੀਤੀ ਸਮੱਗਰੀ ਦੀ ਕੋਈ ਖਾਸ ਪਛਾਣ ਨਾ ਹੋਣ ਦਾ ਸੰਕੇਤ ਦਿੰਦਾ ਹੈ। ਰਿਪੋਰਟ ਦਾ ਤਰਕ ਹੈ ਕਿ ਇਹ ਸਪੱਸ਼ਟ ਅੰਤਰ, ਭਾਵੇਂ ਅਸਿੱਧੇ ਤੌਰ ‘ਤੇ, ਮਜਬੂਰ ਕਰਨ ਵਾਲੇ ਸਬੂਤ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਕਿ ਪੇਵਾਲ ਸਮੱਗਰੀ ਅਸਲ ਵਿੱਚ GPT-4o ਦੀ ਸਿਖਲਾਈ ਖੁਰਾਕ ਦਾ ਹਿੱਸਾ ਸੀ। 82% ਦਾ ਸਕੋਰ ਇੱਕ ਮਜ਼ਬੂਤ ਸੰਕੇਤ ਦਾ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ, ਜੋ ਮੌਕਾ ਜਾਂ ਆਮ ਗਿਆਨ ਦੁਆਰਾ ਉਮੀਦ ਕੀਤੇ ਜਾਣ ਵਾਲੇ ਤੋਂ ਕਿਤੇ ਵੱਧ ਹੈ।

ਲੋੜੀਂਦੀਆਂ ਚੇਤਾਵਨੀਆਂ ਅਤੇ ਅਣਸੁਲਝੇ ਸਵਾਲ

ਹਾਲਾਂਕਿ ਖੋਜਾਂ ਇੱਕ ਮਜਬੂਰ ਕਰਨ ਵਾਲੀ ਕਹਾਣੀ ਪੇਸ਼ ਕਰਦੀਆਂ ਹਨ, ਅਧਿਐਨ ਦੇ ਸਹਿ-ਲੇਖਕ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ AI ਖੋਜਕਰਤਾ Sruly Rosenblat ਸ਼ਾਮਲ ਹਨ, ਸ਼ਲਾਘਾਯੋਗ ਤੌਰ ‘ਤੇ ਉਨ੍ਹਾਂ ਦੀ ਕਾਰਜਪ੍ਰਣਾਲੀ ਅਤੇ AI ਸਿਖਲਾਈ ਦੀ ਗੁੰਝਲਦਾਰ ਪ੍ਰਕਿਰਤੀ ਵਿੱਚ ਮੌਜੂਦ ਸੰਭਾਵੀ ਸੀਮਾਵਾਂ ਨੂੰ ਸਵੀਕਾਰ ਕਰਦੇ ਹਨ। ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਚੇਤਾਵਨੀ ਜੋ ਉਹ ਉਠਾਉਂਦੇ ਹਨ ਉਹ ਹੈ ਅਸਿੱਧੇ ਡਾਟਾ ਗ੍ਰਹਿਣ ਦੀ ਸੰਭਾਵਨਾ। ਉਹ ਨੋਟ ਕਰਦੇ ਹਨ ਕਿ ਇਹ ਸੰਭਵ ਹੈ ਕਿ ChatGPT (OpenAI ਦਾ ਪ੍ਰਸਿੱਧ ਇੰਟਰਫੇਸ) ਦੇ ਉਪਭੋਗਤਾਵਾਂ ਨੇ ਵੱਖ-ਵੱਖ ਉਦੇਸ਼ਾਂ ਲਈ, ਜਿਵੇਂ ਕਿ ਟੈਕਸਟ ਬਾਰੇ ਸਵਾਲ ਪੁੱਛਣ ਜਾਂ ਸੰਖੇਪਾਂ ਦੀ ਬੇਨਤੀ ਕਰਨ ਲਈ, ਪੇਵਾਲ ਵਾਲੀਆਂ O’Reilly ਕਿਤਾਬਾਂ ਦੇ ਅੰਸ਼ਾਂ ਨੂੰ ਸਿੱਧੇ ਚੈਟ ਇੰਟਰਫੇਸ ਵਿੱਚ ਕਾਪੀ ਅਤੇ ਪੇਸਟ ਕੀਤਾ ਹੋਵੇ। ਜੇਕਰ ਅਜਿਹਾ ਕਾਫ਼ੀ ਵਾਰ ਹੋਇਆ ਹੈ, ਤਾਂ ਮਾਡਲ ਸ਼ੁਰੂਆਤੀ ਸਿਖਲਾਈ ਡਾਟਾਸੈਟ ਵਿੱਚ ਸਿੱਧੀ ਸ਼ਮੂਲੀਅਤ ਦੀ ਬਜਾਏ ਉਪਭੋਗਤਾ ਪਰਸਪਰ ਕ੍ਰਿਆਵਾਂ ਦੁਆਰਾ ਅਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਸਮੱਗਰੀ ਸਿੱਖ ਸਕਦਾ ਸੀ। ਉਪਭੋਗਤਾ ਪ੍ਰੋਂਪਟਾਂ ਰਾਹੀਂ ਅਸਿੱਧੇ ਸਿੱਖਣ ਤੋਂ ਸਿੱਧੀ ਸਿਖਲਾਈ ਐਕਸਪੋਜ਼ਰ ਨੂੰ ਵੱਖ ਕਰਨਾ AI ਫੋਰੈਂਸਿਕਸ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਚੁਣੌਤੀ ਬਣੀ ਹੋਈ ਹੈ।

ਇਸ ਤੋਂ ਇਲਾਵਾ, ਅਧਿਐਨ ਦਾ ਦਾਇਰਾ OpenAI ਦੇ ਬਿਲਕੁਲ ਨਵੀਨਤਮ ਜਾਂ ਵਿਸ਼ੇਸ਼ ਮਾਡਲ ਦੁਹਰਾਓ ਤੱਕ ਨਹੀਂ ਵਧਿਆ ਜੋ GPT-4o ਦੇ ਮੁੱਖ ਸਿਖਲਾਈ ਚੱਕਰ ਦੇ ਨਾਲ ਜਾਂ ਬਾਅਦ ਵਿੱਚ ਵਿਕਸਤ ਜਾਂ ਜਾਰੀ ਕੀਤੇ ਗਏ ਹੋ ਸਕਦੇ ਹਨ। ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ GPT-4.5 (ਜੇ ਇਹ ਉਸ ਖਾਸ ਨਾਮਕਰਨ ਜਾਂ ਸਮਰੱਥਾ ਪੱਧਰ ਦੇ ਅਧੀਨ ਮੌਜੂਦ ਹੈ) ਅਤੇ ਤਰਕ-ਕੇਂਦ੍ਰਿਤ ਮਾਡਲਾਂ ਜਿਵੇਂ ਕਿ o3-mini ਅਤੇ o1 ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਵਾਲੇ ਮਾਡਲਾਂ ਨੂੰ ਉਸੇ ਮੈਂਬਰਸ਼ਿਪ ਇਨਫਰੈਂਸ ਹਮਲਿਆਂ ਦੇ ਅਧੀਨ ਨਹੀਂ ਕੀਤਾ ਗਿਆ ਸੀ। ਇਹ ਸਵਾਲ ਖੁੱਲ੍ਹਾ ਛੱਡਦਾ ਹੈ ਕਿ ਕੀ ਡਾਟਾ ਸੋਰਸਿੰਗ ਅਭਿਆਸ ਹੋਰ ਵਿਕਸਤ ਹੋ ਸਕਦੇ ਹਨ, ਜਾਂ ਕੀ ਇਹ ਨਵੇਂ ਮਾਡਲ ਪੇਵਾਲ ਸਮੱਗਰੀ ਨਾਲ ਜਾਣ-ਪਛਾਣ ਦੇ ਸਮਾਨ ਪੈਟਰਨ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦੇ ਹਨ। AI ਵਿਕਾਸ ਵਿੱਚ ਤੇਜ਼ੀ ਨਾਲ ਦੁਹਰਾਓ ਚੱਕਰ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਕੋਈ ਵੀ ਸਨੈਪਸ਼ਾਟ ਵਿਸ਼ਲੇਸ਼ਣ ਲਗਭਗ ਤੁਰੰਤ ਥੋੜ੍ਹਾ ਪੁਰਾਣਾ ਹੋਣ ਦਾ ਖਤਰਾ ਰੱਖਦਾ ਹੈ।

ਇਹ ਸੀਮਾਵਾਂ ਜ਼ਰੂਰੀ ਤੌਰ ‘ਤੇ ਅਧਿਐਨ ਦੇ ਮੁੱਖ ਖੋਜਾਂ ਨੂੰ ਅਯੋਗ ਨਹੀਂ ਕਰਦੀਆਂ, ਪਰ ਉਹ ਸੂਖਮਤਾ ਦੀਆਂ ਮਹੱਤਵਪੂਰਨ ਪਰਤਾਂ ਜੋੜਦੀਆਂ ਹਨ। ਇੱਕ ਬੁਨਿਆਦੀ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਵਰਤੇ ਗਏ ਟੈਰਾਬਾਈਟ ਡਾਟਾ ਦੇ ਅੰਦਰ ਕੀ ਹੈ, ਇਹ ਨਿਸ਼ਚਤ ਤੌਰ ‘ਤੇ ਸਾਬਤ ਕਰਨਾ ਬਦਨਾਮ ਤੌਰ ‘ਤੇ ਮੁਸ਼ਕਲ ਹੈ। ਮੈਂਬਰਸ਼ਿਪ ਇਨਫਰੈਂਸ ਹਮਲੇ ਸੰਭਾਵੀ ਸਬੂਤ ਪੇਸ਼ ਕਰਦੇ ਹਨ, ਪੂਰੀ ਨਿਸ਼ਚਤਤਾ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਨ ਦੀ ਬਜਾਏ ਸੰਭਾਵਨਾ ਦਾ ਸੁਝਾਅ ਦਿੰਦੇ ਹਨ। OpenAI, ਹੋਰ AI ਲੈਬਾਂ ਵਾਂਗ, ਮਲਕੀਅਤੀ ਚਿੰਤਾਵਾਂ ਅਤੇ ਪ੍ਰਤੀਯੋਗੀ ਸੰਵੇਦਨਸ਼ੀਲਤਾਵਾਂ ਦਾ ਹਵਾਲਾ ਦਿੰਦੇ ਹੋਏ, ਆਪਣੀ ਸਿਖਲਾਈ ਡਾਟਾ ਰਚਨਾ ਨੂੰ ਨੇੜਿਓਂ ਸੁਰੱਖਿਅਤ ਰੱਖਦੀ ਹੈ।

ਇੱਕ ਵਿਆਪਕ ਸੰਘਰਸ਼: AI ਖੇਤਰ ਵਿੱਚ ਕਾਪੀਰਾਈਟ ਲੜਾਈਆਂ

AI Disclosures Project ਦੁਆਰਾ ਲਗਾਏ ਗਏ ਦੋਸ਼ ਇੱਕ ਖਲਾਅ ਵਿੱਚ ਮੌਜੂਦ ਨਹੀਂ ਹਨ। ਉਹ ਸਿਖਲਾਈ ਦੇ ਉਦੇਸ਼ਾਂ ਲਈ ਕਾਪੀਰਾਈਟ ਸਮੱਗਰੀ ਦੀ ਵਰਤੋਂ ਨੂੰ ਲੈ ਕੇ AI ਡਿਵੈਲਪਰਾਂ ਅਤੇ ਸਿਰਜਣਹਾਰਾਂ ਵਿਚਕਾਰ ਇੱਕ ਬਹੁਤ ਵਿਆਪਕ, ਚੱਲ ਰਹੇ ਸੰਘਰਸ਼ ਵਿੱਚ ਨਵੀਨਤਮ ਝੜਪ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ। OpenAI, Google, Meta, ਅਤੇ Microsoft ਵਰਗੇ ਹੋਰ ਪ੍ਰਮੁੱਖ ਖਿਡਾਰੀਆਂ ਦੇ ਨਾਲ, ਆਪਣੇ ਆਪ ਨੂੰ ਕਈ ਉੱਚ-ਪ੍ਰੋਫਾਈਲ ਮੁਕੱਦਮਿਆਂ ਵਿੱਚ ਉਲਝਿਆ ਹੋਇਆ ਪਾਉਂਦਾ ਹੈ। ਇਹ ਕਾਨੂੰਨੀ ਚੁਣੌਤੀਆਂ, ਲੇਖਕਾਂ, ਕਲਾਕਾਰਾਂ, ਖ਼ਬਰ ਸੰਗਠਨਾਂ, ਅਤੇ ਹੋਰ ਅਧਿਕਾਰ ਧਾਰਕਾਂ ਦੁਆਰਾ ਲਿਆਂਦੀਆਂ ਗਈਆਂ ਹਨ, ਆਮ ਤੌਰ ‘ਤੇ ਜਨਰੇਟਿਵ AI ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਇੰਟਰਨੈਟ ਤੋਂ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਟੈਕਸਟ ਅਤੇ ਚਿੱਤਰਾਂ ਦੀ ਅਣਅਧਿਕਾਰਤ ਸਕ੍ਰੈਪਿੰਗ ਅਤੇ ਗ੍ਰਹਿਣ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਵਿਆਪਕ ਕਾਪੀਰਾਈਟ ਉਲੰਘਣਾ ਦਾ ਦੋਸ਼ ਲਗਾਉਂਦੀਆਂ ਹਨ।

AI ਕੰਪਨੀਆਂ ਦੁਆਰਾ ਅਕਸਰ ਮਾਊਂਟ ਕੀਤਾ ਜਾਣ ਵਾਲਾ ਮੁੱਖ ਬਚਾਅ ਉਚਿਤ ਵਰਤੋਂ ਦੇ ਸਿਧਾਂਤ (ਸੰਯੁਕਤ ਰਾਜ ਵਿੱਚ) ਜਾਂ ਹੋਰ ਅਧਿਕਾਰ ਖੇਤਰਾਂ ਵਿੱਚ ਸਮਾਨ ਅਪਵਾਦਾਂ ‘ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ। ਉਹ ਦਲੀਲ ਦਿੰਦੇ ਹਨ ਕਿ ਸਿਖਲਾਈ ਲਈ ਕਾਪੀਰਾਈਟ ਕੰਮਾਂ ਦੀ ਵਰਤੋਂ ਇੱਕ ‘ਪਰਿਵਰਤਨਸ਼ੀਲ’ ਵਰਤੋਂ ਦਾ ਗਠਨ ਕਰਦੀ ਹੈ - AI ਮਾਡਲ ਸਿਰਫ਼ ਮੂਲ ਕੰਮਾਂ ਨੂੰ ਦੁਬਾਰਾ ਪੇਸ਼ ਨਹੀਂ ਕਰ ਰਹੇ ਹਨ ਬਲਕਿ ਪੈਟਰਨ, ਸ਼ੈਲੀਆਂ ਅਤੇ ਜਾਣਕਾਰੀ ਸਿੱਖਣ ਲਈ ਡਾਟਾ ਦੀ ਵਰਤੋਂ ਕਰ ਰਹੇ ਹਨ ਤਾਂ ਜੋ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਵੇਂ ਆਉਟਪੁੱਟ ਤਿਆਰ ਕੀਤੇ ਜਾ ਸਕਣ। ਇਸ ਵਿਆਖਿਆ ਦੇ ਤਹਿਤ, ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਆਪਣੇ ਆਪ ਵਿੱਚ, ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਨਵਾਂ ਸਾਧਨ ਬਣਾਉਣ ਦੇ ਉਦੇਸ਼ ਨਾਲ, ਹਰ ਗ੍ਰਹਿਣ ਕੀਤੇ ਡਾਟਾ ਦੇ ਟੁਕੜੇ ਲਈ ਲਾਇਸੈਂਸ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਆਗਿਆਯੋਗ ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ।

ਹਾਲਾਂਕਿ, ਅਧਿਕਾਰ ਧਾਰਕ ਇਸ ਵਿਚਾਰ ਦਾ ਜ਼ੋਰਦਾਰ ਵਿਰੋਧ ਕਰਦੇ ਹਨ। ਉਹ ਦਲੀਲ ਦਿੰਦੇ ਹਨ ਕਿ ਸ਼ਾਮਲ ਕਾਪੀ ਕਰਨ ਦਾ ਪੂਰਾ ਪੈਮਾਨਾ, ਬਣਾਏ ਜਾ ਰਹੇ AI ਉਤਪਾਦਾਂ ਦੀ ਵਪਾਰਕ ਪ੍ਰਕਿਰਤੀ, ਅਤੇ AI ਆਉਟਪੁੱਟ ਦੀ ਮੂਲ ਕੰਮਾਂ ਨਾਲ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਮੁਕਾਬਲਾ ਕਰਨ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਬਦਲਣ ਦੀ ਸੰਭਾਵਨਾ ਉਚਿਤ ਵਰਤੋਂ ਦੀ ਖੋਜ ਦੇ ਵਿਰੁੱਧ ਭਾਰੀ ਤੋਲਦੀ ਹੈ। ਦਲੀਲ ਇਹ ਹੈ ਕਿ AI ਕੰਪਨੀਆਂ ਸਿਰਜਣਹਾਰਾਂ ਨੂੰ ਮੁਆਵਜ਼ਾ ਦਿੱਤੇ ਬਿਨਾਂ ਰਚਨਾਤਮਕ ਕੰਮ ਦੇ ਪਿੱਛੇ ਅਰਬਾਂ ਡਾਲਰ ਦੇ ਉੱਦਮ ਬਣਾ ਰਹੀਆਂ ਹਨ।

ਇਸ ਮੁਕੱਦਮੇਬਾਜ਼ੀ ਦੇ ਪਿਛੋਕੜ ਦੇ ਵਿਰੁੱਧ, OpenAI ਨੇ ਵੱਖ-ਵੱਖ ਸਮੱਗਰੀ ਪ੍ਰਦਾਤਾਵਾਂ ਨਾਲ ਲਾਇਸੈਂਸ ਸੌਦੇ ਕਰਕੇ ਕੁਝ ਜੋਖਮਾਂ ਨੂੰ ਘੱਟ ਕਰਨ ਲਈ ਸਰਗਰਮੀ ਨਾਲ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਹੈ। ਪ੍ਰਮੁੱਖ ਖ਼ਬਰ ਪ੍ਰਕਾਸ਼ਕਾਂ (ਜਿਵੇਂ ਕਿ Associated Press ਅਤੇ Axel Springer), ਸੋਸ਼ਲ ਮੀਡੀਆ ਪਲੇਟਫਾਰਮਾਂ (ਜਿਵੇਂ ਕਿ Reddit), ਅਤੇ ਸਟਾਕ ਮੀਡੀਆ ਲਾਇਬ੍ਰੇਰੀਆਂ (ਜਿਵੇਂ ਕਿ Shutterstock) ਨਾਲ ਸਮਝੌਤਿਆਂ ਦੀ ਘੋਸ਼ਣਾ ਕੀਤੀ ਗਈ ਹੈ। ਇਹ ਸੌਦੇ OpenAI ਨੂੰ ਭੁਗਤਾਨ ਦੇ ਬਦਲੇ ਖਾਸ ਡਾਟਾਸੈਟਾਂ ਤੱਕ ਜਾਇਜ਼ ਪਹੁੰਚ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਉਲੰਘਣਾ ਕਰਨ ਵਾਲੇ ਵੈੱਬ-ਸਕ੍ਰੈਪਡ ਡਾਟਾ ‘ਤੇ ਇਸਦੀ ਨਿਰਭਰਤਾ ਨੂੰ ਘਟਾਉਂਦੇ ਹਨ। ਕੰਪਨੀ ਨੇ ਕਥਿਤ ਤੌਰ ‘ਤੇ ਪੱਤਰਕਾਰਾਂ ਨੂੰ ਵੀ ਨਿਯੁਕਤ ਕੀਤਾ ਹੈ, ਉਹਨਾਂ ਨੂੰ ਇਸਦੇ ਮਾਡਲਾਂ ਦੇ ਆਉਟਪੁੱਟ ਦੀ ਗੁਣਵੱਤਾ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਨੂੰ ਸੁਧਾਰਨ ਅਤੇ ਬਿਹਤਰ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਨ ਦਾ ਕੰਮ ਸੌਂਪਿਆ ਹੈ, ਜੋ ਉੱਚ-ਗੁਣਵੱਤਾ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਤਿਆਰ ਕੀਤੇ, ਇਨਪੁਟ ਦੀ ਲੋੜ ਬਾਰੇ ਜਾਗਰੂਕਤਾ ਦਾ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ।

ਲਹਿਰ ਪ੍ਰਭਾਵ: ਸਮੱਗਰੀ ਈਕੋਸਿਸਟਮ ਚਿੰਤਾਵਾਂ

AI Disclosures Project ਦੀ ਰਿਪੋਰਟ OpenAI ਲਈ ਤੁਰੰਤ ਕਾਨੂੰਨੀ ਪ੍ਰਭਾਵਾਂ ਤੋਂ ਪਰੇ ਆਪਣੀਆਂ ਚਿੰਤਾਵਾਂ ਨੂੰ ਵਧਾਉਂਦੀ ਹੈ। ਇਹ ਮੁੱਦੇ ਨੂੰ ਇੱਕ ਪ੍ਰਣਾਲੀਗਤ ਖਤਰੇ ਵਜੋਂ ਫਰੇਮ ਕਰਦਾ ਹੈ ਜੋ ਪੂਰੇ ਡਿਜੀਟਲ ਸਮੱਗਰੀ ਈਕੋਸਿਸਟਮ ਦੀ ਸਿਹਤ ਅਤੇ ਵਿਭਿੰਨਤਾ ਨੂੰ ਨਕਾਰਾਤਮਕ ਤੌਰ ‘ਤੇ ਪ੍ਰਭਾਵਤ ਕਰ ਸਕਦਾ ਹੈ। ਅਧਿਐਨ ਇੱਕ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਨੁਕਸਾਨਦੇਹ ਫੀਡਬੈਕ ਲੂਪ ਪੇਸ਼ ਕਰਦਾ ਹੈ: ਜੇਕਰ AI ਕੰਪਨੀਆਂ ਸਿਰਜਣਹਾਰਾਂ ਨੂੰ ਮੁਆਵਜ਼ਾ ਦਿੱਤੇ ਬਿਨਾਂ ਉੱਚ-ਗੁਣਵੱਤਾ, ਪੇਸ਼ੇਵਰ ਤੌਰ ‘ਤੇ ਬਣਾਈ ਗਈ ਸਮੱਗਰੀ (ਪੇਵਾਲ ਸਮੱਗਰੀ ਸਮੇਤ) ਦੀ ਸੁਤੰਤਰ ਤੌਰ ‘ਤੇ ਵਰਤੋਂ ਕਰ ਸਕਦੀਆਂ ਹਨ, ਤਾਂ ਇਹ ਪਹਿਲੀ ਥਾਂ ‘ਤੇ ਅਜਿਹੀ ਸਮੱਗਰੀ ਪੈਦਾ ਕਰਨ ਦੀ ਵਿੱਤੀ ਵਿਵਹਾਰਕਤਾ ਨੂੰ ਖਤਮ ਕਰ ਦਿੰਦਾ ਹੈ।

ਪੇਸ਼ੇਵਰ ਸਮੱਗਰੀ ਸਿਰਜਣਾ - ਭਾਵੇਂ ਇਹ ਖੋਜੀ ਪੱਤਰਕਾਰੀ ਹੋਵੇ, ਡੂੰਘਾਈ ਨਾਲ ਤਕਨੀਕੀ ਮੈਨੂਅਲ, ਗਲਪ ਲਿਖਣਾ, ਜਾਂ ਅਕਾਦਮਿਕ ਖੋਜ - ਅਕਸਰ ਮਹੱਤਵਪੂਰਨ ਸਮਾਂ, ਮੁਹਾਰਤ ਅਤੇ ਵਿੱਤੀ ਨਿਵੇਸ਼ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਪੇਵਾਲ ਅਤੇ ਸਬਸਕ੍ਰਿਪਸ਼ਨ ਮਾਡਲ ਅਕਸਰ ਇਸ ਕੰਮ ਨੂੰ ਫੰਡ ਦੇਣ ਲਈ ਜ਼ਰੂਰੀ ਵਿਧੀਆਂ ਹੁੰਦੀਆਂ ਹਨ। ਜੇਕਰ ਇਹਨਾਂ ਯਤਨਾਂ ਦਾ ਸਮਰਥਨ ਕਰਨ ਵਾਲੀਆਂ ਆਮਦਨੀ ਧਾਰਾਵਾਂ ਘੱਟ ਜਾਂਦੀਆਂ ਹਨ ਕਿਉਂਕਿ ਸਮੱਗਰੀ ਨੂੰ ਬਿਨਾਂ ਮੁਆਵਜ਼ੇ ਦੇ ਮੁਕਾਬਲੇ ਵਾਲੇ AI ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਵਰਤਿਆ ਜਾ ਰਿਹਾ ਹੈ, ਤਾਂ ਉੱਚ-ਗੁਣਵੱਤਾ, ਵਿਭਿੰਨ ਸਮੱਗਰੀ ਬਣਾਉਣ ਦਾ ਪ੍ਰੋਤਸਾਹਨ ਘੱਟ ਸਕਦਾ ਹੈ। ਇਸ ਨਾਲ ਇੱਕ ਘੱਟ ਸੂਚਿਤ ਜਨਤਾ, ਵਿਸ਼ੇਸ਼ ਗਿਆਨ ਸਰੋਤਾਂ ਵਿੱਚ ਕਮੀ, ਅਤੇ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਘੱਟ-ਗੁਣਵੱਤਾ ਜਾਂ AI-ਉਤਪੰਨ ਸਮੱਗਰੀ ਦੁਆਰਾ ਪ੍ਰਭਾਵਿਤ ਇੱਕ ਇੰਟਰਨੈਟ ਹੋ ਸਕਦਾ ਹੈ ਜਿਸ ਵਿੱਚ ਮਨੁੱਖੀ ਮੁਹਾਰਤ ਅਤੇ ਤਸਦੀਕ ਦੀ ਘਾਟ ਹੈ।

ਸਿੱਟੇ ਵਜੋਂ, AI Disclosures Project AI ਕੰਪਨੀਆਂ ਤੋਂ ਉਨ੍ਹਾਂ ਦੇ ਸਿਖਲਾਈ ਡਾਟਾ ਅਭਿਆਸਾਂ ਦੇ ਸਬੰਧ ਵਿੱਚ ਵਧੇਰੇ ਪਾਰਦਰਸ਼ਤਾ ਅਤੇ ਜਵਾਬਦੇਹੀ ਦੀ ਜ਼ੋਰਦਾਰ ਵਕਾਲਤ ਕਰਦਾ ਹੈ। ਉਹ ਮਜ਼ਬੂਤ ਨੀਤੀਆਂ ਅਤੇ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਰੈਗੂਲੇਟਰੀ ਢਾਂਚੇ ਨੂੰ ਲਾਗੂ ਕਰਨ ਦੀ ਮੰਗ ਕਰਦੇ ਹਨ ਜੋ ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦੇ ਹਨ ਕਿ ਸਮੱਗਰੀ ਸਿਰਜਣਹਾਰਾਂ ਨੂੰ ਉਚਿਤ ਮੁਆਵਜ਼ਾ ਦਿੱਤਾ ਜਾਵੇ ਜਦੋਂ ਉਨ੍ਹਾਂ ਦਾ ਕੰਮ ਵਪਾਰਕ AI ਮਾਡਲਾਂ ਦੇ ਵਿਕਾਸ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਉਂਦਾ ਹੈ। ਇਹ ਦੁਨੀਆ ਭਰ ਦੇ ਸਿਰਜਣਹਾਰ ਸਮੂਹਾਂ ਦੀਆਂ ਵਿਆਪਕ ਕਾਲਾਂ ਨੂੰ ਗੂੰਜਦਾ ਹੈ ਜੋ ਵਿਧੀਆਂ ਦੀ ਭਾਲ ਕਰਦੇ ਹਨ - ਭਾਵੇਂ ਲਾਇਸੈਂਸ ਸਮਝੌਤਿਆਂ, ਰਾਇਲਟੀ ਪ੍ਰਣਾਲੀਆਂ, ਜਾਂ ਸਮੂਹਿਕ ਸੌਦੇਬਾਜ਼ੀ ਦੁਆਰਾ - ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਕਿ ਉਹਨਾਂ ਨੂੰ ਉਹਨਾਂ ਦੀ ਬੌਧਿਕ ਸੰਪੱਤੀ ‘ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ AI ਪ੍ਰਣਾਲੀਆਂ ਦੁਆਰਾ ਪੈਦਾ ਕੀਤੇ ਮੁੱਲ ਦਾ ਹਿੱਸਾ ਪ੍ਰਾਪਤ ਹੋਵੇ। ਬਹਿਸ ਇੱਕ ਟਿਕਾਊ ਸੰਤੁਲਨ ਲੱਭਣ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੈ ਜਿੱਥੇ AI ਨਵੀਨਤਾ ਮਨੁੱਖੀ ਰਚਨਾਤਮਕਤਾ ਅਤੇ ਗਿਆਨ ਉਤਪਾਦਨ ਲਈ ਇੱਕ ਸੰਪੰਨ ਈਕੋਸਿਸਟਮ ਦੇ ਨਾਲ-ਨਾਲ ਵਧ ਸਕਦੀ ਹੈ। ਚੱਲ ਰਹੀਆਂ ਕਾਨੂੰਨੀ ਲੜਾਈਆਂ ਦਾ ਹੱਲ ਅਤੇ ਨਵੇਂ ਕਾਨੂੰਨ ਜਾਂ ਉਦਯੋਗ ਦੇ ਮਿਆਰਾਂ ਦੀ ਸੰਭਾਵਨਾ ਇਸ ਭਵਿੱਖ ਦੇ ਸੰਤੁਲਨ ਨੂੰ ਆਕਾਰ ਦੇਣ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਹੋਵੇਗੀ। ਵਿਸ਼ਾਲ, ਗੁੰਝਲਦਾਰ AI ਮਾਡਲਾਂ ਵਿੱਚ ਡਾਟਾ ਉਤਪਤੀ ਨੂੰ ਟਰੈਕ ਕਰਨ ਅਤੇ ਮੁੱਲ ਦਾ ਗੁਣ ਕਿਵੇਂ ਦੇਣਾ ਹੈ, ਇਹ ਸਵਾਲ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਤਕਨੀਕੀ ਅਤੇ ਨੈਤਿਕ ਰੁਕਾਵਟ ਬਣਿਆ ਹੋਇਆ ਹੈ।