बढ़ता तूफान: AI के युग में कॉपीराइट
आर्टिफिशियल इंटेलिजेंस की दुनिया, विशेष रूप से OpenAI जैसी उद्योग की दिग्गज कंपनियों द्वारा विकसित परिष्कृत बड़े भाषा मॉडल (LLMs), एक बढ़ते कानूनी और नैतिक तूफान का सामना कर रही है। इस तूफान के केंद्र में एक मौलिक प्रश्न निहित है: इन शक्तिशाली मशीनों को कौन सा डेटा ईंधन देता है, और क्या इस प्रक्रिया में रचनाकारों के अधिकारों का सम्मान किया गया था? आरोप बढ़ रहे हैं, यह सुझाव देते हुए कि कॉपीराइट सामग्री की विशाल मात्रा - उपन्यास, लेख, कोड, और बहुत कुछ - आवश्यक अनुमति या मुआवजे के बिना, उनके प्रशिक्षण चरण के दौरान इन मॉडलों द्वारा ग्रहण किया गया हो सकता है। यह केवल एक अकादमिक बहस नहीं है; यह तेजी से उच्च-दांव वाले मुकदमेबाजी में बदल रहा है।
OpenAI लेखकों, प्रोग्रामरों और विभिन्न अधिकार-धारकों द्वारा शुरू की गई कानूनी लड़ाइयों में तेजी से उलझता जा रहा है। ये वादी तर्क देते हैं कि उनकी बौद्धिक संपदा का अनुचित रूप से उपयोग उन AI मॉडलों को बनाने के लिए किया गया था जो सुर्खियां बटोर रहे हैं और उद्योगों को बदल रहे हैं। उनका तर्क इस दावे पर टिका है कि मौजूदा कॉपीराइट कानून स्पष्ट रूप से वाणिज्यिक AI सिस्टम के लिए प्रशिक्षण चारे के रूप में संरक्षित कार्यों के थोक उपयोग की अनुमति नहीं देता है। OpenAI, जवाब में, लगातार ‘उचित उपयोग’ (‘fair use’) सिद्धांत का आह्वान करता है, एक जटिल कानूनी सिद्धांत जो विशिष्ट परिस्थितियों में अनुमति के बिना कॉपीराइट सामग्री के सीमित उपयोग की अनुमति देता है। हालांकि, AI प्रशिक्षण के अभूतपूर्व पैमाने और प्रकृति के लिए उचित उपयोग की प्रयोज्यता एक जमकर लड़ा जाने वाला ग्रे क्षेत्र बना हुआ है, जो ऐतिहासिक कानूनी मिसालों के लिए मंच तैयार कर रहा है। मुख्य तनाव इस बात के इर्द-गिर्द घूमता है कि क्या कॉपीराइट किए गए कार्यों को एक मॉडल के भीतर सांख्यिकीय पैटर्न में बदलना एक ‘परिवर्तनकारी उपयोग’ (‘transformative use’) का गठन करता है - उचित उपयोग का एक प्रमुख तत्व - या बड़े पैमाने पर केवल अनधिकृत पुनरुत्पादन। इन मुकदमों का परिणाम AI विकास के भविष्य के प्रक्षेपवक्र को गहराई से आकार दे सकता है, संभावित रूप से मॉडल रचनाकारों पर महत्वपूर्ण बाधाएं या लागत लगा सकता है।
ब्लैक बॉक्स के अंदर झांकना: याद रखने का पता लगाने की एक नई विधि
इस उग्र बहस में ईंधन डालने वाला एक हालिया अध्ययन है जो University of Washington, University of Copenhagen, और Stanford University सहित प्रमुख संस्थानों के शोधकर्ताओं की एक सहयोगी टीम द्वारा किया गया है। उनका काम एक नवीन तकनीक पेश करता है जिसे विशेष रूप से उन उदाहरणों का पता लगाने के लिए डिज़ाइन किया गया है जहां AI मॉडल, यहां तक कि वे भी जो केवल OpenAI जैसे प्रतिबंधात्मक एप्लिकेशन प्रोग्रामिंग इंटरफेस (APIs) के माध्यम से एक्सेस किए जाते हैं, अपने प्रशिक्षण डेटा के विशिष्ट भागों को ‘याद’ (‘memorized’) करते प्रतीत होते हैं। यह एक महत्वपूर्ण सफलता है क्योंकि GPT-4 जैसे वाणिज्यिक मॉडलों की आंतरिक कार्यप्रणाली या सटीक प्रशिक्षण डेटासेट तक पहुंच बाहरी जांचकर्ताओं के लिए आमतौर पर असंभव है।
ये मॉडल कैसे काम करते हैं, यह समझना अध्ययन के महत्व को समझने की कुंजी है। अपने मूल में, LLMs अविश्वसनीय रूप से परिष्कृत भविष्यवाणी इंजन हैं। उन्हें वास्तव में टेक्स्ट और कोड की विशाल मात्रा पर प्रशिक्षित किया जाता है, शब्दों, वाक्यांशों और अवधारणाओं के बीच जटिल सांख्यिकीय संबंधों को सीखते हुए। यह सीखने की प्रक्रिया उन्हें सुसंगत टेक्स्ट उत्पन्न करने, भाषाओं का अनुवाद करने, विभिन्न प्रकार की रचनात्मक सामग्री लिखने और सूचनात्मक तरीके से सवालों के जवाब देने में सक्षम बनाती है। जबकि लक्ष्य मॉडल के लिए जानकारी को शब्दशः संग्रहीत करने के बजाय पैटर्न को सामान्य बनाना है, प्रशिक्षण डेटा का विशाल पैमाना कुछ हद तक याद रखने को लगभग अनिवार्य बना देता है। इसे अनगिनत पाठ्यपुस्तकों का अध्ययन करने वाले छात्र की तरह सोचें; जबकि उनका उद्देश्य अवधारणाओं को समझना है, वे अनजाने में विशिष्ट वाक्यों या परिभाषाओं को याद कर सकते हैं, खासकर विशिष्ट वाले। पिछले अवलोकनों ने पहले ही दिखाया है कि छवि निर्माण मॉडल उन फिल्मों से पहचानने योग्य तत्वों को पुन: पेश करते हैं जिन पर उन्हें प्रशिक्षित किया गया था, और भाषा मॉडल समाचार लेखों जैसे स्रोतों से आश्चर्यजनक रूप से समान, या सीधे कॉपी किए गए टेक्स्ट उत्पन्न करते हैं। यह घटना साहित्यिक चोरी और AI-जनित सामग्री की वास्तविक मौलिकता के बारे में गंभीर चिंताएं पैदा करती है।
शोधकर्ताओं द्वारा प्रस्तावित कार्यप्रणाली चतुर और खुलासा करने वाली दोनों है। यह उन शब्दों की पहचान करने और उनका उपयोग करने पर केंद्रित है जिन्हें वे ‘उच्च-आश्चर्य’ (‘high-surprisal’) शब्द कहते हैं। ये ऐसे शब्द हैं जो किसी वाक्य या अनुच्छेद के विशिष्ट संदर्भ में सांख्यिकीय रूप से असामान्य या अप्रत्याशित लगते हैं। वाक्यांश पर विचार करें: ‘प्राचीन नाविक सेक्सटैंट (‘sextant’) की मंद चमक से नेविगेट करता था।’ ‘सेक्सटैंट’ (‘sextant’) शब्द को उच्च-आश्चर्य माना जा सकता है क्योंकि, टेक्स्ट के सामान्य कॉर्पस में, ‘तारे,’ ‘चांद,’ या ‘कम्पास’ जैसे शब्द उस संदर्भ में सांख्यिकीय रूप से अधिक संभावित हो सकते हैं। शोधकर्ताओं ने परिकल्पना की कि यदि किसी मॉडल ने प्रशिक्षण के दौरान वास्तव में एक विशिष्ट टेक्स्ट पैसेज को याद किया है, तो यह इन अद्वितीय, उच्च-आश्चर्य वाले शब्दों की भविष्यवाणी करने में असाधारण रूप से अच्छा होगा यदि उन्हें पैसेज से हटा दिया गया हो।
इस परिकल्पना का परीक्षण करने के लिए, शोध दल ने व्यवस्थित रूप से OpenAI के कई प्रमुख मॉडलों की जांच की, जिसमें शक्तिशाली GPT-4 और इसके पूर्ववर्ती, GPT-3.5 शामिल हैं। उन्होंने ज्ञात स्रोतों से टेक्स्ट के स्निपेट लिए, जैसे कि लोकप्रिय फिक्शन उपन्यास और The New York Times के लेख। महत्वपूर्ण रूप से, उन्होंने इन स्निपेट्स से पहचाने गए उच्च-आश्चर्य वाले शब्दों को मास्क या हटा दिया। फिर मॉडलों को रिक्त स्थान भरने के लिए प्रेरित किया गया - अनिवार्य रूप से, लापता, सांख्यिकीय रूप से असंभावित शब्दों का ‘अनुमान’ (‘guess’) लगाने के लिए। अध्ययन का मूल तर्क सम्मोहक है: यदि कोई मॉडल लगातार और सटीक रूप से इन उच्च-आश्चर्य वाले शब्दों की भविष्यवाणी करता है, तो यह दृढ़ता से सुझाव देता है कि मॉडल ने न केवल सामान्य भाषा पैटर्न सीखे बल्कि वास्तव में अपने प्रशिक्षण डेटा से उस सटीक टेक्स्ट अनुक्रम की एक विशिष्ट स्मृति बनाए रखी। अकेले यादृच्छिक मौका या सामान्य भाषा की समझ विशिष्ट संदर्भों में असामान्य शब्दों के लिए इस तरह के सटीक अनुमान उत्पन्न करने की संभावना नहीं होगी।
निष्कर्ष: AI आउटपुट में कॉपीराइट टेक्स्ट की गूँज
इन सावधानीपूर्वक परीक्षणों से प्राप्त परिणाम कॉपीराइट उल्लंघन के दावों का समर्थन करने वाले सम्मोहक, यद्यपि प्रारंभिक, साक्ष्य प्रदान करते हैं। अध्ययन के प्रकाशित निष्कर्षों के अनुसार, GPT-4, शोध के समय OpenAI का सबसे उन्नत सार्वजनिक रूप से उपलब्ध मॉडल, लोकप्रिय फिक्शन पुस्तकों के शब्दशः भागों को याद करने के महत्वपूर्ण संकेत प्रदर्शित करता है। इसमें BookMIA नामक एक विशिष्ट डेटासेट के भीतर पाए गए टेक्स्ट शामिल थे, जिसमें कॉपीराइट इलेक्ट्रॉनिक पुस्तकों से निकाले गए नमूने शामिल हैं - एक डेटासेट जो अक्सर संभावित रूप से उल्लंघनकारी प्रशिक्षण स्रोतों के बारे में चर्चाओं में फंसा होता है। मॉडल केवल सामान्य विषयों या शैलियों को याद नहीं कर रहा था; यह उन अद्वितीय, उच्च-आश्चर्य वाले शब्दों वाले टेक्स्ट अनुक्रमों का सटीक रूप से पुनर्निर्माण कर रहा था, जो सरल पैटर्न सामान्यीकरण की तुलना में प्रतिधारण के गहरे स्तर का संकेत देता है।
इसके अलावा, जांच से पता चला कि GPT-4 ने New York Times के लेखों के खंडों को याद करने के सबूत भी दिखाए। हालांकि, शोधकर्ताओं ने नोट किया कि समाचार लेखों के लिए स्पष्ट याद रखने की दर फिक्शन पुस्तकों के लिए देखी गई दर की तुलना में कम थी। यह अंतर संभावित रूप से विभिन्न कारकों के लिए जिम्मेदार ठहराया जा सकता है, जैसे कि मूल प्रशिक्षण डेटासेट के भीतर इन विभिन्न टेक्स्ट प्रकारों की आवृत्ति या प्रस्तुति, या शायद मॉडल ने पत्रकारिता बनाम कथा गद्य को कैसे संसाधित किया, इसमें भिन्नताएं। सटीक दर के बावजूद, तथ्य यह है कि विभिन्न प्रकार की कॉपीराइट सामग्री - साहित्यिक कार्य और पत्रकारिता के टुकड़े दोनों - में याद रखना हुआ, इस तर्क को मजबूत करता है कि यह घटना किसी एक शैली या स्रोत तक सीमित नहीं है।
ये निष्कर्ष चल रही कानूनी और नैतिक चर्चाओं में पर्याप्त वजन रखते हैं। यदि GPT-4 जैसे मॉडल वास्तव में विशिष्ट, कॉपीराइट किए गए अंशों को उगलने में सक्षम हैं जिन पर उन्हें प्रशिक्षित किया गया था, तो यह OpenAI के उचित उपयोग बचाव को जटिल बनाता है। उचित उपयोग अक्सर उन उपयोगों का पक्ष लेता है जो मूल कार्य को बदलते हैं; शब्दशः पुनरुत्पादन, भले ही अनजाने या संभाव्य हो, परिवर्तन से दूर और सरल प्रतिलिपि की ओर झुकता है। इस साक्ष्य का संभावित रूप से कॉपीराइट मुकदमों में वादी द्वारा यह तर्क देने के लिए उपयोग किया जा सकता है कि OpenAI की प्रशिक्षण प्रथाओं के परिणामस्वरूप उल्लंघनकारी व्युत्पन्न कार्यों का निर्माण हुआ या मॉडल के आउटपुट द्वारा प्रत्यक्ष उल्लंघन की सुविधा मिली। यह प्रशिक्षण के लिए उपयोग किए गए डेटा और AI द्वारा उत्पन्न विशिष्ट आउटपुट के बीच मूर्त लिंक को रेखांकित करता है, जिससे ‘सीखने के पैटर्न’ (‘learning patterns’) की अमूर्त अवधारणा ठोस पुनरुत्पादन के बहुत करीब महसूस होती है।
AI विकास में विश्वास और पारदर्शिता की अनिवार्यता
Abhilasha Ravichander, University of Washington में डॉक्टरेट की छात्रा और अध्ययन के सह-लेखकों में से एक, ने उनके शोध के व्यापक निहितार्थों पर जोर दिया। उन्होंने इस बात पर प्रकाश डाला कि ये निष्कर्ष संभावित रूप से ‘विवादास्पद डेटा’ (‘contentious data’) पर महत्वपूर्ण प्रकाश डालते हैं जो कई समकालीन AI मॉडलों की आधारशिला बन सकता है। याद की गई सामग्री की पहचान करने की क्षमता OpenAI जैसी कंपनियों द्वारा उपयोग किए जाने वाले अन्यथा अपारदर्शी प्रशिक्षण डेटासेट में एक खिड़की प्रदान करती है, चाहे वह कितनी भी छोटी क्यों न हो।
Ravichander ने AI अनुसंधान समुदाय और जनता के बीच बढ़ती भावना को व्यक्त किया: ‘भरोसेमंद बड़े भाषा मॉडल रखने के लिए, हमें ऐसे मॉडल की आवश्यकता है जिनकी हम वैज्ञानिक रूप से जांच, ऑडिट और परीक्षण कर सकें।’ (‘In order to have large language models that are trustworthy, we need to have models that we can probe and audit and examine scientifically.’) यह कथन AI उद्योग के सामने एक महत्वपूर्ण चुनौती को रेखांकित करता है। जैसे-जैसे ये मॉडल समाज के विभिन्न पहलुओं में अधिक एकीकृत होते जा रहे हैं - समाचार लेख तैयार करने और कोड लिखने से लेकर चिकित्सा निदान और वित्तीय विश्लेषण में सहायता करने तक - विश्वास और जवाबदेही की आवश्यकता सर्वोपरि हो जाती है। उपयोगकर्ताओं, नियामकों और जनता को आश्वासन की आवश्यकता है कि ये सिस्टम निष्पक्ष, विश्वसनीय और नैतिक रूप से काम करते हैं। कई मौजूदा LLMs की ‘ब्लैक बॉक्स’ (‘black box’) प्रकृति, जहां उनके निर्माता भी उनकी आंतरिक कार्यप्रणाली की हर बारीकियों या विशिष्ट आउटपुट की सटीक उत्पत्ति को पूरी तरह से नहीं समझ सकते हैं, इस विश्वास की स्थापना में बाधा डालती है।
अध्ययन की प्रस्तावित कार्यप्रणाली केवल कॉपीराइट याद रखने का पता लगाने की तकनीक से कहीं अधिक का प्रतिनिधित्व करती है; यह व्यापक AI ऑडिटिंग (‘AI auditing’) के लिए एक संभावित उपकरण के रूप में कार्य करता है। मॉडलों की जांच करने की क्षमता, यहां तक कि केवल APIs के माध्यम से एक्सेस किए जाने वाले भी, स्वतंत्र सत्यापन और विश्लेषण की अनुमति देती है। Ravichander ने आगे ‘पूरे पारिस्थितिकी तंत्र में अधिक डेटा पारदर्शिता की तत्काल आवश्यकता’ (‘need for greater data transparency in the whole ecosystem’) पर जोर दिया। यह जाने बिना कि इन मॉडलों को किस डेटा पर प्रशिक्षित किया गया है, संभावित पूर्वाग्रहों का आकलन करना, सुरक्षा कमजोरियों की पहचान करना, हानिकारक या गलत आउटपुट के स्रोत को समझना, या, जैसा कि यह अध्ययन उजागर करता है, संभावित कॉपीराइट उल्लंघन की सीमा निर्धारित करना अविश्वसनीय रूप से कठिन हो जाता है। पारदर्शिता का आह्वान केवल अकादमिक नहीं है; यह एक जिम्मेदार और टिकाऊ AI भविष्य के निर्माण के लिए एक मौलिक आवश्यकता है। इसमें मालिकाना जानकारी और बौद्धिक संपदा (स्वयं मॉडल सहित) की सुरक्षा और सार्वजनिक जवाबदेही और सुरक्षा सुनिश्चित करने के बीच जटिल व्यापार-बंद शामिल हैं। मजबूत ऑडिटिंग टूल और फ्रेमवर्क का विकास, डेटा प्रकटीकरण के लिए स्पष्ट मानकों के साथ, तेजी से महत्वपूर्ण होता जा रहा है क्योंकि AI अपनी तीव्र उन्नति जारी रखता है।
OpenAI का रुख और आगे का अनिश्चित मार्ग
रचनाकारों और सांसदों के बढ़ते दबाव का सामना करते हुए, OpenAI ने लगातार एक कानूनी और नियामक वातावरण की वकालत की है जो AI मॉडल के प्रशिक्षण के लिए कॉपीराइट सामग्री के व्यापक उपयोग की अनुमति देता है। कंपनी का तर्क है कि नवाचार के लिए और अमेरिका के लिए वैश्विक AI दौड़ में प्रतिस्पर्धात्मक बढ़त बनाए रखने के लिए इस तरह का लचीलापन आवश्यक है। उनके लॉबिंग प्रयासों ने दुनिया भर की सरकारों को मौजूदा कॉपीराइट कानूनों, विशेष रूप से संयुक्त राज्य अमेरिका में ‘उचित उपयोग’ (‘fair use’) की अवधारणा की व्याख्या करने या संहिताबद्ध करने के लिए राजी करने पर ध्यान केंद्रित किया है, जो AI डेवलपर्स के लिए अनुकूल हो। उनका तर्क है कि विविध डेटासेट पर मॉडल को प्रशिक्षित करना, जिसमें कॉपीराइट किए गए कार्य शामिल हैं, शक्तिशाली और लाभकारी AI सिस्टम बनाने के लिए आवश्यक एक परिवर्तनकारी उपयोग है।
हालांकि, बढ़ती चिंताओं को पहचानते हुए, OpenAI ने इस मुद्दे को संबोधित करने के लिए कुछ कदम भी उठाए हैं, यद्यपि ऐसे उपाय जिन्हें आलोचक अक्सर अपर्याप्त मानते हैं। कंपनी ने कुछ प्रकाशकों और सामग्री निर्माताओं के साथ सामग्री लाइसेंसिंग समझौते (‘content licensing agreements’) किए हैं, जिससे उनकी सामग्री का उपयोग करने की स्पष्ट अनुमति सुरक्षित हो गई है। ये सौदे, महत्वपूर्ण होते हुए भी, GPT-4 जैसे मॉडल को प्रशिक्षित करने के लिए संभावित रूप से उपयोग किए गए डेटा के केवल एक अंश का प्रतिनिधित्व करते हैं। इसके अलावा, OpenAI ने ऑप्ट-आउट तंत्र (‘opt-out mechanisms’) लागू किए हैं। ये कॉपीराइट धारकों को औपचारिक रूप से अनुरोध करने की अनुमति देते हैं कि उनकी सामग्री का उपयोग भविष्य के AI प्रशिक्षण उद्देश्यों के लिए न किया जाए। हालांकि यह निर्माता अधिकारों का सम्मान करने की दिशा में एक कदम प्रतीत होता है, इन ऑप्ट-आउट सिस्टम की प्रभावशीलता और व्यावहारिकता बहस योग्य है। वे व्यक्तिगत रचनाकारों पर यह पता लगाने का भार डालते हैं कि उनके काम का उपयोग किया जा सकता है और फिर ऑप्ट आउट करने के लिए OpenAI की विशिष्ट प्रक्रियाओं को नेविगेट करना पड़ता है। इसके अलावा, ये तंत्र आमतौर पर उन मॉडलों में सामग्री के उपयोग को संबोधित नहीं करते हैं जिन्हें पहले ही प्रशिक्षित किया जा चुका है।
वर्तमान स्थिति एक मौलिक तनाव को दर्शाती है: नवाचार के लिए सूचना के विशाल डिजिटल ब्रह्मांड का लाभ उठाने की AI कंपनियों की इच्छा बनाम रचनाकारों का अपने मूल कार्यों को नियंत्रित करने और उनसे लाभ उठाने का अधिकार। याद रखने का प्रदर्शन करने वाला अध्ययन जटिलता की एक और परत जोड़ता है, यह सुझाव देता है कि ‘से सीखना’ (‘learning from’) और ‘कॉपी करना’ (‘copying’) डेटा के बीच की रेखा धुंधली है और शायद मॉडल डेवलपर्स द्वारा पहले स्वीकार किए जाने की तुलना में अधिक बार पार की जाती है। आगे का रास्ता अनिश्चित बना हुआ है। इसमें विशेष रूप से AI प्रशिक्षण डेटा को संबोधित करने वाला नया कानून, इस नए संदर्भ में मौजूदा कॉपीराइट कानून की व्याख्या करने वाले ऐतिहासिक अदालती फैसले, उद्योग-व्यापी सर्वोत्तम प्रथाओं और लाइसेंसिंग ढांचे का विकास, या बेहतर डेटा प्रोवेनेंस ट्रैकिंग या मॉडल याद रखने को कम करने की तकनीकों जैसे तकनीकी समाधान शामिल हो सकते हैं। जो स्पष्ट लगता है वह यह है कि AI और कॉपीराइट पर बहस खत्म होने से बहुत दूर है; वास्तव में, यह अभी शुरू हो सकती है, जिसके आर्टिफिशियल इंटेलिजेंस और रचनात्मक अर्थव्यवस्था दोनों के भविष्य के लिए गहरे निहितार्थ हैं। याद रखने से संबंधित निष्कर्ष एक स्पष्ट अनुस्मारक के रूप में काम करते हैं कि इन शक्तिशाली उपकरणों को ईंधन देने वाले डिजिटल डेटा की उत्पत्ति, मालिक और अधिकार हैं जिन्हें अनदेखा नहीं किया जा सकता है।