GPAI आचार संहिता - तीसरा मसौदा

पृष्ठभूमि

यूरोपीय AI अधिनियम (विनियमन (EU) 2024/1689, या ‘AI अधिनियम’) सामान्य-उद्देश्य AI (‘GPAI’) मॉडल के प्रदाताओं पर विशिष्ट दायित्व लगाता है। GPT परिवार, Llama और Gemini सहित इन मॉडलों को व्यापक दस्तावेज़ीकरण और EU कॉपीराइट कानून के अनुपालन को सुनिश्चित करने वाली नीति की स्थापना जैसी आवश्यकताओं का पालन करना चाहिए।

इन शर्तों के पालन को सुविधाजनक बनाने के लिए, AI अधिनियम GPAI मॉडल के लिए तैयार किए गए अभ्यास कोड के विकास की आशा करता है। AI कार्यालय के निमंत्रण के बाद, विभिन्न विशेषज्ञों और हितधारकों ने अभ्यास का प्रारंभिक कोड तैयार करने के लिए समर्पित चार कार्य समूहों का गठन किया। EU आयोग द्वारा इस कोड की स्वीकृति इसे पूरे EU में ‘सामान्य वैधता’ प्रदान करेगी। स्वीकृत GPAI अभ्यास संहिता को अपनाने से कंपनियों को सक्रिय अनुपालन प्रदर्शित करने का एक साधन मिलता है, संभावित रूप से नियामक जांच और संबंधित दंड को कम किया जा सकता है।

AI कार्यालय ने हाल ही में इन कार्य समूहों द्वारा निर्मित अभ्यास संहिता का तीसरा मसौदा (‘तीसरा मसौदा’) जारी किया। इस मसौदे में कई प्रमुख क्षेत्र शामिल हैं:

  • प्रतिबद्धताएं
  • पारदर्शिता
  • कॉपीराइट
  • सुरक्षा

इस अभ्यास संहिता का अंतिम संस्करण 2 मई, 2025 को जारी होने वाला है।

यह दस्तावेज़ तीसरे मसौदे के कॉपीराइट अनुभाग के भीतर महत्वपूर्ण विवरणों पर प्रकाश डालेगा। दूसरे मसौदे (‘दूसरा मसौदा’) से एक उल्लेखनीय बदलाव तीसरे मसौदे का सुव्यवस्थित और संक्षिप्त दृष्टिकोण है। एक मुख्य परिवर्तन यह है कि तीसरा मसौदा आम तौर पर यह अनिवार्य करता है कि अनुपालन प्रयास प्रदाता के आकार और क्षमताओं के अनुरूप होने चाहिए, दूसरे मसौदे के विपरीत।

यह किसके लिए प्रासंगिक है?

अभ्यास संहिता मुख्य रूप से GPAI मॉडल के प्रदाताओं को लक्षित करती है। इन मॉडलों को उनकी महत्वपूर्ण व्यापकता और विशिष्ट कार्यों के व्यापक स्पेक्ट्रम को कुशलतापूर्वक निष्पादित करने की उनकी क्षमता की विशेषता है। इसमें GPT (OpenAI), Llama (Meta), Gemini (Google), और Mistral (Mistral AI) जैसे प्रसिद्ध बड़े भाषा मॉडल के प्रदाता शामिल हैं। हालांकि, छोटे मॉडल प्रदाता भी इसके दायरे में आ सकते हैं, बशर्ते उनके मॉडल का उपयोग विभिन्न प्रकार के कार्यों के लिए किया जा सके। इसके अलावा, जो व्यवसाय अपने विशिष्ट अनुप्रयोगों के लिए मॉडल को ठीक करते हैं, उन्हें GPAI मॉडल प्रदाताओं के रूप में भी वर्गीकृत किया जा सकता है।

‘डाउनस्ट्रीम प्रदाता,’ या वे व्यवसाय जो GPAI मॉडल को अपने AI सिस्टम में एकीकृत करते हैं, उन्हें भी अभ्यास संहिता से खुद को परिचित करना चाहिए। यह कोड GPAI मॉडल के लिए एक अर्ध-मानक बनने के लिए तैयार है, जो GPAI मॉडल क्षमताओं के संबंध में AI सिस्टम डेवलपर्स के लिए अपेक्षाओं को परिभाषित करता है। GPAI मॉडल प्रदाताओं के साथ अनुबंध वार्ता के दौरान यह समझ महत्वपूर्ण हो सकती है।

कॉपीराइट कानून पर अभ्यास संहिता की मुख्य अवधारणाएँ

GPAI मॉडल के प्रदाताओं को एक नीति स्थापित करने के लिए बाध्य किया जाता है जो EU कॉपीराइट कानून (कला. 53 (1) (सी) AI अधिनियम) का अनुपालन सुनिश्चित करती है। इस आवश्यकता की नवीनता को देखते हुए, ऐसी नीति की संरचना और सामग्री पर व्यावहारिक मार्गदर्शन का अभाव रहा है। अभ्यास संहिता का उद्देश्य इस अंतर को दूर करना है।

अभ्यास संहिता अनिवार्य करती है कि प्रदाता निम्नलिखित उपायों को लागू करें:

कॉपीराइट नीति

जो प्रदाता अभ्यास संहिता (‘हस्ताक्षरकर्ता’) पर हस्ताक्षर करते हैं, उन्हें EU कॉपीराइट कानून के अनुरूप एक कॉपीराइट नीति तैयार करने, बनाए रखने और लागू करने की आवश्यकता होती है। यह आवश्यकता सीधे AI अधिनियम से ली गई है। हस्ताक्षरकर्ताओं को यह भी सुनिश्चित करना चाहिए कि उनके संगठन इस कॉपीराइट नीति का पालन करें।

दूसरे मसौदे से एक महत्वपूर्ण प्रस्थान यह है कि तीसरा मसौदा अब कॉपीराइट नीति के प्रकाशन को अनिवार्य नहीं करता है। हस्ताक्षरकर्ताओं को केवल ऐसा करने के लिए प्रोत्साहित किया जाता है। यह कम आवश्यकता तार्किक है, क्योंकि AI अधिनियम स्वयं मॉडल प्रदाताओं को अपनी कॉपीराइट नीतियों को प्रकाशित करने के लिए बाध्य नहीं करता है।

कॉपीराइट सामग्री की वेब क्रॉलिंग

हस्ताक्षरकर्ताओं को आम तौर पर अपने GPAI मॉडल के लिए प्रशिक्षण डेटा एकत्र करने के लिए टेक्स्ट और डेटा माइनिंग (‘TDM’) उद्देश्यों के लिए वेब क्रॉलर का उपयोग करने की अनुमति है। हालांकि, उन्हें यह सुनिश्चित करना चाहिए कि ये क्रॉलर कॉपीराइट सामग्री तक पहुंच को प्रतिबंधित करने के लिए डिज़ाइन की गई तकनीकों का सम्मान करें, जैसे कि पेवॉल।

इसके अलावा, हस्ताक्षरकर्ताओं को ‘पायरेसी डोमेन’ को बाहर करने के लिए बाध्य किया जाता है, जो ऑनलाइन स्रोत हैं जो मुख्य रूप से कॉपीराइट-उल्लंघनकारी सामग्री के वितरण में संलग्न हैं।

वेब क्रॉलिंग और TDM ऑप्ट-आउट की पहचान करना और उनका अनुपालन करना

हस्ताक्षरकर्ताओं को यह सुनिश्चित करना चाहिए कि वेब क्रॉलर अधिकारधारकों द्वारा घोषित TDM ऑप्ट-आउट की पहचान करें और उनका सम्मान करें। जबकि EU कॉपीराइट कानून आम तौर पर TDM की अनुमति देता है, अधिकारधारक ऑप्ट-आउट करने का अधिकार बनाए रखते हैं। वेब सामग्री के लिए, यह ऑप्ट-आउट मशीन-पठनीय होना चाहिए। तीसरा मसौदा वेब क्रॉलर के लिए आवश्यकताओं पर विस्तार से बताता है, यह निर्दिष्ट करते हुए कि उन्हें व्यापक रूप से अपनाए गए robots.txt प्रोटोकॉल की पहचान करनी चाहिए और उसका अनुपालन करना चाहिए। इसके अतिरिक्त, वेब क्रॉलर को अन्य प्रासंगिक मशीन-पठनीय TDM ऑप्ट-आउट का पालन करना चाहिए, जैसे कि उद्योग मानक के रूप में स्थापित मेटाडेटा या अधिकारधारकों द्वारा आमतौर पर उपयोग किए जाने वाले समाधान।

हस्ताक्षरकर्ताओं को अधिकारधारकों को उपयोग में आने वाले वेब क्रॉलर और ये क्रॉलर robots.txt निर्देशों को कैसे संभालते हैं, इसके बारे में सूचित करने के लिए उचित कदम उठाने की आवश्यकता है। यह जानकारी विभिन्न चैनलों, जैसे वेब फ़ीड के माध्यम से प्रसारित की जा सकती है। विशेष रूप से, तीसरे मसौदे में अब इस जानकारी को प्रकाशित करने की बाध्यता शामिल नहीं है।

गैर-वेब-क्रॉल की गई सामग्री के लिए TDM ऑप्ट-आउट की पहचान करना और उसका अनुपालन करना

GPAI मॉडल प्रदाता स्वयं वेब क्रॉलिंग करने के बजाय तीसरे पक्ष से डेटासेट भी प्राप्त कर सकते हैं। जबकि दूसरे मसौदे ने तीसरे पक्ष के डेटासेट की कॉपीराइट उचित परिश्रम को अनिवार्य किया था, तीसरे मसौदे में यह जानकारी प्राप्त करने के लिए उचित प्रयास करने की आवश्यकता है कि क्या जानकारी एकत्र करने के लिए उपयोग किए गए वेब क्रॉलर ने robots.txt प्रोटोकॉल का अनुपालन किया था।

कॉपीराइट-उल्लंघनकारी आउटपुट के उत्पादन को रोकने के लिए जोखिम कम करें

AI उपयोग से जुड़ा एक महत्वपूर्ण जोखिम AI द्वारा आउटपुट उत्पन्न करने की क्षमता है जो कॉपीराइट का उल्लंघन करता है। इसमें कोड या छवियों को डुप्लिकेट करना शामिल हो सकता है जो ऑनलाइन पाए जाते हैं और कॉपीराइट द्वारा संरक्षित हैं।

हस्ताक्षरकर्ताओं को इस जोखिम को कम करने के लिए उचित प्रयास करने की आवश्यकता है। यह दूसरे मसौदे की तुलना में अधिक उदार दृष्टिकोण का प्रतिनिधित्व करता है, जिसने ‘ओवरफिटिंग’ से बचने के उपाय निर्धारित किए थे। तीसरा मसौदा अधिक प्रौद्योगिकी-तटस्थ रुख अपनाता है, उचित प्रयासों पर जोर देता है।

इसके अलावा, हस्ताक्षरकर्ताओं को डाउनस्ट्रीम AI सिस्टम के प्रदाताओं के लिए अपने नियमों और शर्तों (या समान दस्तावेजों) में एक खंड शामिल करना चाहिए, जो उनके GPAI मॉडल का उपयोग इस तरह से करने से रोकता है जो कॉपीराइट का उल्लंघन करता है।

संपर्क का एक बिंदु नामित करना

हस्ताक्षरकर्ताओं को अधिकारधारकों के लिए संपर्क का एक बिंदु प्रदान करने की आवश्यकता होती है। उन्हें एक तंत्र भी स्थापित करना चाहिए जो अधिकारधारकों को कॉपीराइट उल्लंघनों के संबंध में शिकायतें प्रस्तुत करने की अनुमति देता है।

तीसरे मसौदे के तहत, हस्ताक्षरकर्ताओं के पास उन शिकायतों को संसाधित करने से इनकार करने का विकल्प होता है जिन्हें निराधार या अत्यधिक माना जाता है।

गहराई में जाना: कॉपीराइट प्रावधानों की अधिक विस्तृत जांच

तीसरा मसौदा, सुव्यवस्थित प्रतीत होने के बावजूद, बारीकियों और जोर में बदलाव का परिचय देता है जो एक करीबी नज़र के लायक हैं। आइए प्रत्येक अनुभाग को आगे विच्छेदित करें:

कॉपीराइट नीति: प्रकाशन से प्रोत्साहन में बदलाव

कॉपीराइट नीति को प्रकाशित करने का प्रारंभिक जनादेश, जो दूसरे मसौदे में मौजूद था, ने संभावित प्रतिस्पर्धात्मक नुकसान और संवेदनशील जानकारी के प्रकटीकरण के बारे में चिंता जताई। तीसरे मसौदे का प्रकाशन की आवश्यकता के बजाय उसे प्रोत्साहित करने का कदम, इन चिंताओं को स्वीकार करता है। यह परिवर्तन प्रदाताओं को पारदर्शिता को बढ़ावा देते हुए अपनी आंतरिक अनुपालन रणनीतियों के संबंध में गोपनीयता की एक डिग्री बनाए रखने की अनुमति देता है। हालांकि, ‘प्रोत्साहन’ पहलू अभी भी प्रदाताओं पर अपनी नीतियों के बारे में खुले रहने के लिए एक सूक्ष्म दबाव डालता है, संभावित रूप से समय के साथ प्रकाशन के एक वास्तविक मानक की ओर अग्रसर होता है।

वेब क्रॉलिंग: कॉपीराइट सम्मान के साथ डेटा अधिग्रहण को संतुलित करना

वेब क्रॉलिंग की स्पष्ट अनुमति, पेवॉल जैसी पहुंच प्रतिबंधों का सम्मान करने की आवश्यकता के साथ, एक नाजुक संतुलन अधिनियम को दर्शाती है। AI अधिनियम AI मॉडल को प्रशिक्षित करने के लिए डेटा के महत्व को पहचानता है, लेकिन यह सामग्री निर्माताओं के अधिकारों का सम्मान करने की आवश्यकता को भी रेखांकित करता है। ‘पायरेसी डोमेन’ का बहिष्करण एक महत्वपूर्ण जोड़ है, जो उन स्रोतों को स्पष्ट रूप से लक्षित करता है जो सक्रिय रूप से कॉपीराइट उल्लंघन में संलग्न हैं। यह प्रावधान इस सिद्धांत को पुष्ट करता है कि AI विकास अवैध गतिविधियों की नींव पर नहीं बनाया जाना चाहिए।

TDM ऑप्ट-आउट: अनुपालन की तकनीकी विशिष्टता

तीसरे मसौदे का robots.txt प्रोटोकॉल और अन्य मशीन-पठनीय ऑप्ट-आउट तंत्र पर जोर अनुपालन के तकनीकी पहलुओं पर प्रकाश डालता है। यह विशिष्टता GPAI प्रदाताओं और अधिकारधारकों दोनों के लिए स्पष्टता प्रदान करती है। प्रदाताओं के लिए, यह ठोस कदमों की रूपरेखा तैयार करता है जो उन्हें यह सुनिश्चित करने के लिए उठाने चाहिए कि उनके क्रॉलर ऑप्ट-आउट अनुरोधों का सम्मान करें। अधिकारधारकों के लिए, यह स्पष्ट करता है कि वे TDM के संबंध में अपनी प्राथमिकताओं को प्रभावी ढंग से कैसे संकेत दे सकते हैं। ‘उद्योग मानक’ मेटाडेटा और ‘व्यापक रूप से अपनाए गए’ समाधानों को शामिल करना स्वीकार करता है कि ऑप्ट-आउट तंत्र का परिदृश्य विकसित हो रहा है और लचीलापन आवश्यक है।

गैर-वेब-क्रॉल की गई सामग्री: जिम्मेदारी और उचित परिश्रम को स्थानांतरित करना

तीसरे पक्ष के डेटासेट के संबंध में ‘कॉपीराइट उचित परिश्रम’ से ‘जानकारी प्राप्त करने के लिए उचित प्रयास’ में परिवर्तन जिम्मेदारी में एक सूक्ष्म लेकिन महत्वपूर्ण बदलाव का प्रतिनिधित्व करता है। जबकि दूसरे मसौदे ने GPAI प्रदाताओं पर डेटासेट की कॉपीराइट स्थिति की सक्रिय रूप से जांच करने के लिए एक भारी बोझ डाला, तीसरा मसौदा यह सत्यापित करने पर केंद्रित है कि क्या डेटा संग्रह प्रक्रिया (तीसरे पक्ष द्वारा) ने robots.txt का सम्मान किया। यह स्पष्ट रूप से स्वीकार करता है कि GPAI प्रदाताओं के पास हमेशा तीसरे पक्ष की डेटा अधिग्रहण प्रथाओं पर सीधा नियंत्रण नहीं हो सकता है, लेकिन उनके पास अभी भी अनुपालन के बारे में पूछताछ करने की जिम्मेदारी है।

उल्लंघनकारी आउटपुट को कम करना: ‘ओवरफिटिंग’ से ‘उचित प्रयास’ तक

‘ओवरफिटिंग’ शब्द से दूर जाना एक स्वागत योग्य बदलाव है। ‘ओवरफिटिंग’, मशीन लर्निंग में एक तकनीकी शब्द, एक ऐसे मॉडल को संदर्भित करता है जो प्रशिक्षण डेटा पर अच्छा प्रदर्शन करता है लेकिन नए डेटा पर खराब प्रदर्शन करता है। जबकि ओवरफिटिंग कॉपीराइट उल्लंघन में योगदान कर सकती है (उदाहरण के लिए, कॉपीराइट सामग्री को याद करके और पुन: पेश करके), यह एकमात्र कारण नहीं है। तीसरे मसौदे का ‘जोखिम को कम करने के लिए उचित प्रयास’ पर व्यापक ध्यान संभावित उल्लंघन परिदृश्यों की एक विस्तृत श्रृंखला को शामिल करता है और कार्यान्वयन में अधिक लचीलेपन की अनुमति देता है। यह परिवर्तन यह भी स्वीकार करता है कि कॉपीराइट उल्लंघन की पूर्ण रोकथाम अप्राप्य हो सकती है, और एक जोखिम-आधारित दृष्टिकोण अधिक व्यावहारिक है।

संपर्क का बिंदु और शिकायत तंत्र: प्रक्रिया को सुव्यवस्थित करना

संपर्क के एक निर्दिष्ट बिंदु और एक शिकायत तंत्र की आवश्यकता अधिकारधारकों को संभावित कॉपीराइट उल्लंघनों को संबोधित करने के लिए एक स्पष्ट रास्ता प्रदान करती है। हस्ताक्षरकर्ताओं के लिए ‘निराधार या अत्यधिक’ शिकायतों को अस्वीकार करने की क्षमता एक व्यावहारिक जोड़ है, जो सिस्टम को तुच्छ दावों से अभिभूत होने से रोकता है। यह प्रावधान यह सुनिश्चित करने में मदद करता है कि शिकायत तंत्र वैध कॉपीराइट चिंताओं को संबोधित करने के लिए एक व्यवहार्य और कुशल उपकरण बना रहे।

व्यापक निहितार्थ और भविष्य के विचार

GPAI अभ्यास संहिता का तीसरा मसौदा AI अधिनियम के कॉपीराइट प्रावधानों को संचालित करने की दिशा में एक महत्वपूर्ण कदम का प्रतिनिधित्व करता है। यह GPAI प्रदाताओं के लिए बहुत आवश्यक स्पष्टता और मार्गदर्शन प्रदान करता है, जबकि सामग्री निर्माताओं के अधिकारों की रक्षा करने की भी कोशिश करता है। हालांकि, कई व्यापक निहितार्थ और भविष्य के विचार बने हुए हैं:

  • ‘उचित प्रयास’ मानक: ‘उचित प्रयास’ वाक्यांश का बार-बार उपयोग व्यक्तिपरकता की एक डिग्री का परिचय देता है। ‘उचित’ क्या बनता है, इसकी व्याख्या की संभावना होगी और कानूनी चुनौतियों और उद्योग की सर्वोत्तम प्रथाओं के माध्यम से समय के साथ विकसित हो सकता है। यह अस्पष्टता प्रदाताओं के लिए अनिश्चितता पैदा कर सकती है, लेकिन यह विभिन्न संदर्भों में लचीलेपन और अनुकूलन की भी अनुमति देती है।

  • डाउनस्ट्रीम प्रदाताओं की भूमिका: जबकि कोड मुख्य रूप से GPAI प्रदाताओं को लक्षित करता है, डाउनस्ट्रीम प्रदाताओं का इसके प्रावधानों को समझने में निहित स्वार्थ है। कोड GPAI मॉडल की गुणवत्ता और अनुपालन के लिए अपेक्षाएं निर्धारित करता है, जो अनुबंध वार्ता और जोखिम आकलन को सूचित कर सकता है। डाउनस्ट्रीम प्रदाताओं को यह सुनिश्चित करने के लिए अप्रत्यक्ष दबाव का भी सामना करना पड़ सकता है कि GPAI मॉडल का उनका उपयोग कोड के सिद्धांतों के अनुरूप हो।

  • प्रौद्योगिकी का विकास: AI विकास की तीव्र गति का मतलब है कि अभ्यास संहिता को एक जीवित दस्तावेज होने की आवश्यकता होगी। डेटा अधिग्रहण, मॉडल प्रशिक्षण और आउटपुट पीढ़ी के लिए नई तकनीकें उभर सकती हैं, जिसके लिए कोड के प्रावधानों में अपडेट की आवश्यकता होती है। ‘उद्योग मानक’ मेटाडेटा और ‘व्यापक रूप से अपनाए गए’ समाधानों का संदर्भ निरंतर अनुकूलन की इस आवश्यकता को स्वीकार करता है।

  • अंतर्राष्ट्रीय सामंजस्य: EU AI अधिनियम कानून का एक अग्रणी टुकड़ा है, लेकिन यह एक निर्वात में काम नहीं कर रहा है। अन्य क्षेत्राधिकार भी AI को विनियमित करने की चुनौतियों से जूझ रहे हैं। AI नियमों का अंतर्राष्ट्रीय सामंजस्य, जिसमें कॉपीराइट प्रावधान शामिल हैं, विखंडन से बचने और AI डेवलपर्स के लिए एक समान खेल का मैदान सुनिश्चित करने के लिए महत्वपूर्ण होगा।

  • नवाचार पर प्रभाव: अभ्यास संहिता का उद्देश्य AI नवाचार को बढ़ावा देने और कॉपीराइट की रक्षा के बीच संतुलन बनाना है। हालांकि, AI विकास की गति और दिशा पर इन विनियमों का प्रभाव देखा जाना बाकी है। कुछ का तर्क है कि अत्यधिक सख्त नियम नवाचार को रोक सकते हैं, जबकि अन्य का तर्क है कि जिम्मेदार AI विकास को बढ़ावा देने के लिए स्पष्ट नियम आवश्यक हैं।

  • प्रवर्तन और निगरानी पालन की जाँच कैसे की जाएगी? कोड की प्रभावशीलता काफी हद तक प्रवर्तन और निगरानी के लिए स्थापित तंत्र पर निर्भर करेगी।

GPAI अभ्यास संहिता का तीसरा मसौदा एक जटिल और विकसित हो रहा दस्तावेज है जिसके दूरगामी प्रभाव हैं। यह AI के युग में कॉपीराइट अनुपालन की चुनौतियों का समाधान करने के लिए एक महत्वपूर्ण प्रयास का प्रतिनिधित्व करता है, लेकिन यह प्रगति पर भी एक काम है। GPAI प्रदाताओं, अधिकारधारकों, नीति निर्माताओं और व्यापक AI समुदाय सहित हितधारकों के बीच चल रही बातचीत यह सुनिश्चित करने के लिए आवश्यक होगी कि कोड अपने इच्छित लक्ष्यों को प्राप्त करे और तेजी से तकनीकी परिवर्तन के सामने प्रासंगिक बना रहे।