एआयला प्रशिक्षित करावे की नाही; हाच प्रश्न आहे

AI प्रशिक्षणासाठी कॉपीराइट अपवादांचा उदय

अलिकडच्या वर्षांत, अनेक देशांनी त्यांच्या कॉपीराइट कायद्यांमध्ये विशेषत: AI कंपन्यांद्वारे टेक्स्ट आणि डेटा मायनिंग (text and data mining) सुलभ करण्यासाठी अपवाद तयार केले आहेत. या अपवादांचा उद्देश आर्टिफिशिअल इंटेलिजन्स (artificial intelligence) क्षेत्रातील नवकल्पनांना चालना देणे आहे, ज्यामुळे LLM ला प्रत्येक कॉपीराइट धारकाकडून स्पष्ट परवानगी न घेता मोठ्या डेटासेटवर प्रशिक्षित केले जाऊ शकते.

उदाहरणार्थ, सिंगापूरने 2021 मध्ये त्यांच्या कॉपीराइट कायद्यात सुधारणा करून असा अपवाद तयार केला. या निर्णयामुळे देशातील AI डेव्हलपर्सना त्यांच्या मॉडेल्सना प्रशिक्षित करण्याच्या उद्देशाने कॉपीराइट केलेल्या कामांमध्ये प्रवेश करण्याची आणि त्यावर प्रक्रिया करण्याची परवानगी मिळाली. आता, हाँगकाँग आणि इंडोनेशियासह आशियातील इतर अधिकारक्षेत्रे अशाच प्रकारच्या சட்டപരമായ बदलांचा विचार करत आहेत.

चिनी दृष्टिकोन: एक महत्त्वपूर्ण उल्लंघनाचे प्रकरण

जागतिक AI क्षेत्रात एक प्रमुख भूमिका बजावणारा चीन, LLM च्या युगात कॉपीराइटच्या (copyright) जटिलतेशी झुंज देत आहे. iQiyi वि. MiniMax या महत्त्वपूर्ण खटल्याने हा मुद्दा प्रकर्षाने समोर आणला आहे.

या प्रकरणात, iQiyi, एक प्रमुख व्हिडिओ स्ट्रीमिंग प्लॅटफॉर्मने, MiniMax या AI कंपनीवर त्यांच्या कॉपीराइट केलेल्या व्हिडिओ सामग्रीचा (video materials) वापर AI मॉडेल्सना प्रशिक्षित करण्यासाठी अनधिकृतपणे केल्याचा आरोप करत खटला दाखल केला. चीनमधील AI व्हिडिओ LLM उल्लंघनाचा हा पहिला खटला आहे, जो AI तंत्रज्ञानाच्या विकासामध्ये कॉपीराइट केलेल्या सामग्रीच्या अनधिकृत वापराबद्दल वाढत्या चिंता दर्शवतो.

भारताचा प्रकाशन उद्योग LLM प्रशिक्षण पद्धतींना आव्हान देतो

वाद केवळ आशियापुरता मर्यादित नाही. भारतात, अनेक प्रकाशन संस्थांनी LLM डेव्हलपर्सविरुद्ध कायदेशीर कारवाई सुरू केली आहे, आणि आरोप केला आहे की ही मॉडेल्स स्क्रॅप केलेल्या डेटावर (scraped data) प्रशिक्षित केली जात आहेत, ज्यामध्ये त्यांच्या कॉपीराइट केलेल्या कामांचा समावेश आहे. ही प्रकरणे AI क्षमता वाढवण्याची इच्छा आणि निर्मात्यांच्या बौद्धिक संपदा अधिकारांचे (intellectual property rights) संरक्षण करण्याची गरज यामधील तणाव अधोरेखित करतात.

साध्या ग्रहणापलीकडे: LLM प्रशिक्षणातील बारकावे

LLM प्रशिक्षणाने (LLM training) निर्माण केलेली आव्हाने केवळ डेटा घेणे आणि त्यावर प्रक्रिया करणे यापेक्षा अधिक क्लिष्ट आहेत. भारतीय प्रकरणे आणि सिंगापूरच्या कायद्यातील मर्यादित तरतुदी या समस्येचे बहुआयामी स्वरूप दर्शवतात.

अनेक बौद्धिक संपदा मालक त्यांच्या कॉपीराइट केलेल्या कामांमध्ये प्रवेश आणि वापर प्रतिबंधित करतात, तर काही अशा प्रवेश आणि पुनरुत्पादनास (reproduction) संमती देत नाहीत. अनेक निर्माते त्यांच्या व्यवसायाचा मुख्य भाग म्हणून परवाना मॉडेलवर (licensing models) अवलंबून असतात, आणि AI प्रशिक्षणासाठी त्यांच्या कामांचा अनधिकृत वापर या मॉडेलला थेट कमकुवत करतो.

शिवाय, क्लाउडमध्ये (cloud) बरेचसे प्रशिक्षण होऊ शकते, ही वस्तुस्थिती अधिकारक्षेत्रासंबंधी (jurisdictional) क्लिष्ट प्रश्न निर्माण करते. जेव्हा डेटावर आंतरराष्ट्रीय सीमा ओलांडून प्रक्रिया केली जाते, तेव्हा कोणते कायदे लागू होतात हे निर्धारित करणे आधीच क्लिष्ट असलेल्या कायदेशीर परिदृश्यात आणखी एक जटिलता वाढवते.

शेवटी, मुख्य मुद्दा LLM त्यांचे प्रशिक्षण डेटा कसे सुरक्षित करतात आणि त्यांनी कॉपीराइट धारकांना त्याच्या वापरासाठी भरपाई द्यावी की नाही आणि कशी द्यावी, याभोवती फिरतो.

US कॉपीराइट संस्था वैधानिक अपवादांना विरोध करतात

वाद केवळ वैयक्तिक देशांपुरता मर्यादित नाही; तो आंतरराष्ट्रीय स्तरावरही पसरला आहे. युनायटेड स्टेट्समधील (United States) जवळपास 50 व्यापारी संघटना आणि उद्योग गटांच्या युतीने, ‘डिजिटल क्रिएटर्स कोलिशन’ (Digital Creators Coalition) नावाने ओळखल्या जाणाऱ्या, कॉपीराइट कायद्यांमध्ये LLM प्रशिक्षणासाठी अधिकृतता किंवा भरपाईसाठी तरतुदींशिवाय वैधानिक अपवाद (statutory exceptions) तयार करण्यावर तीव्र आक्षेप व्यक्त केला आहे.

या संस्थांनी युनायटेड स्टेट्स ट्रेड रिप्रेझेंटेटिव्हला (USTR) टिप्पण्या सादर केल्या आहेत, आणि विनंती केली आहे की त्यांनी त्यांच्या वार्षिक ‘स्पेशल 301’ (Special 301) पुनरावलोकनात या समस्येचे निराकरण करावे, जे जगभरातील बौद्धिक संपदा संरक्षण आणि अंमलबजावणी पद्धतींचे परीक्षण करते. युतीने अशा अपवादांची अंमलबजावणी केलेल्या किंवा प्रस्तावित केलेल्या देशांची यादी दिली आहे, ज्यामुळे या चिंतेचे जागतिक स्वरूप अधोरेखित होते.

US मधील वाद: OpenAI ची भूमिका आणि अंतर्गत विरोधाभास

अमेरिकेमध्येसुद्धा हा वाद अजूनही सुरू आहे. ChatGPT सारख्या लोकप्रिय कंपनी OpenAI ने व्हाईट हाऊस ऑफिस ऑफ सायन्स अँड टेक्नॉलॉजीला (White House Office of Science and Technology) एक खुले पत्र सादर करून या चर्चेत आपला सहभाग नोंदवला आहे.

या पत्रात, OpenAI ‘फेअर यूज’ (fair use) च्या तत्त्वाखाली इंटरनेटवरून डेटा स्क्रॅप (scrape) करण्याच्या अधिकाराचे समर्थन करते, म्हणजेच प्रशिक्षणासाठी कॉपीराइट केलेल्या साहित्यात व्यापक प्रवेशासाठी युक्तिवाद करते. तथापि, विरोधाभास असा आहे की OpenAI असेही सुचवते की परदेशी LLM डेव्हलपर्सना असे करण्यापासून प्रतिबंधित केले पाहिजे, शक्यतो US निर्यात धोरणांचा (US export policies) वापर करून. ही भूमिका एक अंतर्गत विरोधाभास दर्शवते, स्वतःसाठी खुल्या प्रवेशाचे समर्थन करते आणि इतरांच्या प्रवेशास मर्यादित करण्याचा प्रयत्न करते.

पुढील मार्ग: एक निरंतर वाद

2025 जवळ येत असताना, कॉपीराइट आणि AI प्रशिक्षणावरील वाद अधिक तीव्र होण्याची शक्यता आहे. जगभरात नवीन LLM च्या सततच्या उदयासह, एक स्पष्ट आणि संतुलित कायदेशीर आराखड्याची (legal framework) गरज अधिकाधिक तीव्र होत आहे.

सध्याचे कायदेशीर परिदृश्य राष्ट्रीय कायद्यांचे एक मिश्रण आहे, काहींमध्ये AI प्रशिक्षणासाठी स्पष्ट अपवाद आहेत आणि इतरांमध्ये अशा तरतुदी नाहीत. ही विसंगती AI डेव्हलपर्स आणि कॉपीराइट धारक दोघांसाठी अनिश्चितता निर्माण करते, ज्यामुळे नवकल्पना (innovation) बाधित होते आणि संभाव्यतः निर्मात्यांच्या अधिकारांचे उल्लंघन होते.

संतुलित आराखड्यासाठी मुख्य विचार:

  • पारदर्शकता आणि जबाबदारी: LLM डेव्हलपर्सनी त्यांच्या मॉडेल्सना प्रशिक्षित करण्यासाठी वापरलेल्या डेटा स्रोतांबद्दल पारदर्शक असले पाहिजे आणि कॉपीराइट केलेल्या साहित्याच्या कोणत्याही अनधिकृत वापरासाठी जबाबदार असले पाहिजे.
  • वाजवी भरपाई: AI प्रशिक्षणात त्यांच्या कामांच्या वापरासाठी कॉपीराइट धारकांना भरपाई देण्यासाठी यंत्रणा शोधली पाहिजे. यामध्ये परवाना करार (licensing agreements), सामूहिक अधिकार व्यवस्थापन (collective rights management) किंवा इतर नाविन्यपूर्ण उपायांचा समावेश असू शकतो.
  • आंतरराष्ट्रीय सुसंवाद: विविध अधिकारक्षेत्रांमध्ये AI प्रशिक्षणाशी संबंधित कॉपीराइट कायद्यांमध्ये सुसंवाद साधण्याचे प्रयत्न कायदेशीर अनिश्चितता कमी करतील आणि सीमापार सहकार्याला (cross-border collaboration) चालना देतील.
  • नवकल्पना आणि निर्मात्यांच्या अधिकारांमध्ये संतुलन: कायदेशीर आराखड्याने AI मधील नवकल्पना आणि निर्मात्यांच्या अधिकारांचे संरक्षण यामध्ये संतुलन राखले पाहिजे. यासाठी विविध हितसंबंधांचा काळजीपूर्वक विचार करणे आवश्यक आहे.
  • ‘फेअर यूज’ची भूमिका: AI प्रशिक्षणासाठी’फेअर यूज’ तत्त्वांची (fair use principles) लागूता स्पष्ट करणे आवश्यक आहे. यामध्ये प्रशिक्षणाच्या उद्देशाने कॉपीराइट केलेल्या साहित्याचा वापर ‘फेअर यूज’ म्हणून पात्र ठरतो की नाही हे निर्धारित करण्यासाठी विशिष्ट निकष परिभाषित करणे समाविष्ट असू शकते.

कॉपीराइट आणि AI प्रशिक्षणाभोवती सुरू असलेली चर्चा वेगाने विकसित होणाऱ्या तंत्रज्ञानाशी जुळवून घेण्यासाठी विद्यमान कायदेशीर आराखड्यांची आव्हाने अधोरेखित करते. सर्व हितधारकांच्या हितांमध्ये संतुलन राखणारा उपाय शोधण्यासाठी सतत संवाद, सहयोग आणि डिजिटल युगाच्या बदलत्या परिदृश्याशी जुळवून घेण्याची तयारी आवश्यक आहे. AI विकासाचे भविष्य आणि सर्जनशील कामांचे संरक्षण, या महत्त्वपूर्ण वादाच्या निकालावर अवलंबून असू शकते. प्रशिक्षणाचा प्रश्न आपल्यासोबत दीर्घकाळ राहील.