OpenAI के GPT-4o पर पेड डेटा उपयोग के नए आरोप

कृत्रिम बुद्धिमत्ता (AI) के विकास की निरंतर प्रगति, जिसका नेतृत्व OpenAI जैसी दिग्गज कंपनियाँ कर रही हैं, अक्सर बौद्धिक संपदा और डेटा स्वामित्व के लंबे समय से स्थापित सिद्धांतों से टकराती है। यह टकराव एक बार फिर विवाद का कारण बना है, जिसमें नए आरोप सामने आए हैं कि OpenAI का नवीनतम प्रमुख मॉडल, GPT-4o, संभवतः आवश्यक अनुमतियाँ प्राप्त किए बिना, पेवॉल के पीछे सुरक्षित कॉपीराइट सामग्री का उपयोग करके प्रशिक्षित किया गया हो सकता है। ये दावे एक नव स्थापित निगरानी समूह, AI Disclosures Project से उत्पन्न हुए हैं, जो परिष्कृत AI सिस्टम को प्रशिक्षित करने के लिए डेटा की नैतिक सोर्सिंग के आसपास पहले से ही जटिल बहस में जटिलता की एक और परत जोड़ते हैं।

वॉचडॉग की आवाज़: AI Disclosures Project के आरोप

2024 में लॉन्च किया गया, AI Disclosures Project खुद को AI उद्योग के भीतर अक्सर अपारदर्शी प्रथाओं की जांच के लिए समर्पित एक गैर-लाभकारी संस्था के रूप में स्थापित करता है। इसके संस्थापकों में मीडिया उद्यमी Tim O’Reilly, तकनीकी पुस्तकों के एक प्रमुख प्रकाशक O’Reilly Media के संस्थापक, और अर्थशास्त्री Ilan Strauss जैसी उल्लेखनीय हस्तियाँ शामिल हैं। O’Reilly Media से यह संबंध विशेष रूप से प्रासंगिक है, क्योंकि परियोजना की प्रारंभिक धमाकेदार रिपोर्ट विशेष रूप से GPT-4o के प्रशिक्षण डेटासेट के भीतर O’Reilly की पेवॉल वाली पुस्तक सामग्री की कथित उपस्थिति पर केंद्रित है।

उनके अध्ययन का केंद्रीय दावा उत्तेजक है: OpenAI और O’Reilly Media के बीच किसी ज्ञात लाइसेंसिंग समझौते के अभाव के बावजूद, GPT-4o मॉडल सीधे O’Reilly की कॉपीराइट पुस्तकों से प्राप्त सामग्री के साथ उल्लेखनीय रूप से उच्च स्तर की परिचितता प्रदर्शित करता है। रिपोर्ट का तर्क है कि यह परिचितता दृढ़ता से सुझाव देती है कि इन पेवॉल सामग्री को मॉडल की क्षमताओं के निर्माण के लिए उपयोग किए गए डेटा के विशाल भंडार में शामिल किया गया था। अध्ययन पुराने OpenAI मॉडल, विशेष रूप से GPT-3.5 Turbo की तुलना में एक महत्वपूर्ण अंतर पर प्रकाश डालता है, जो GPT-4o के विकास तक डेटा अधिग्रहण प्रथाओं में संभावित बदलाव या विस्तार का संकेत देता है।

इसके निहितार्थ पर्याप्त हैं। यदि मालिकाना, भुगतान-के-लिए सामग्री को प्राधिकरण या मुआवजे के बिना AI मॉडल द्वारा ग्रहण किया जा रहा है, तो यह जनरेटिव AI के युग में कॉपीराइट कानून के बारे में मौलिक प्रश्न उठाता है। प्रकाशक और लेखक सदस्यता या खरीद मॉडल पर भरोसा करते हैं, जो उनकी सामग्री की विशिष्टता पर आधारित होते हैं। प्रशिक्षण के लिए इस सामग्री का कथित उपयोग इन व्यावसायिक मॉडलों को कमजोर करने के रूप में देखा जा सकता है, संभावित रूप से उस सामग्री का अवमूल्यन कर सकता है जिसे बनाने के लिए महत्वपूर्ण निवेश की आवश्यकता होती है। यह विशिष्ट आरोप सार्वजनिक रूप से उपलब्ध वेबसाइटों को स्क्रैप करने से आगे बढ़कर, स्पष्ट रूप से भुगतान करने वाले ग्राहकों के लिए अभिप्रेत सामग्री तक पहुँचने के क्षेत्र में प्रवेश करता है।

ब्लैक बॉक्स के अंदर झाँकना: Membership Inference Attack

अपने दावों को पुष्ट करने के लिए, AI Disclosures Project के शोधकर्ताओं ने ‘membership inference attack’ नामक एक परिष्कृत तकनीक का इस्तेमाल किया, विशेष रूप से एक विधि का उपयोग करके जिसे वे DE-COP कहते हैं। इस दृष्टिकोण के पीछे मूल विचार यह परीक्षण करना है कि क्या AI मॉडल ने पाठ के विशिष्ट टुकड़ों को ‘याद’ किया है या कम से कम उनके साथ एक मजबूत परिचितता विकसित की है। संक्षेप में, हमला मॉडल की जांच करता है कि क्या यह मूल पाठ अंशों (इस मामले में, O’Reilly पुस्तकों से) और उन्हीं अंशों के सावधानीपूर्वक निर्मित पैराफ्रेस्ड संस्करणों, जो किसी अन्य AI द्वारा उत्पन्न किए गए हैं, के बीच मज़बूती से अंतर कर सकता है।

अंतर्निहित तर्क यह है कि यदि कोई मॉडल लगातार एक करीबी पैराफ्रेज़ की तुलना में मूल मानव-लिखित पाठ को पहचानने की यादृच्छिक-से-अधिक क्षमता दिखाता है, तो इसका तात्पर्य है कि मॉडल ने उस मूल पाठ का पहले सामना किया है - संभवतः इसके प्रशिक्षण चरण के दौरान। यह परीक्षण करने के समान है कि क्या कोई व्यक्ति एक विशिष्ट, कम-ज्ञात तस्वीर को पहचानता है जिसे उसने कभी नहीं देखने का दावा किया है; लगातार पहचान पूर्व जोखिम का सुझाव देती है।

AI Disclosures Project के परीक्षण का पैमाना काफी बड़ा था। उन्होंने 34 विभिन्न O’Reilly Media पुस्तकों से लिए गए 13,962 विशिष्ट पैराग्राफ अंशों का उपयोग किया। ये अंश उस प्रकार की विशेष, उच्च-मूल्य वाली सामग्री का प्रतिनिधित्व करते थे जो आमतौर पर प्रकाशक के पेवॉल के पीछे पाई जाती है। अध्ययन ने फिर इस विभेदन कार्य पर GPT-4o और इसके पूर्ववर्ती, GPT-3.5 Turbo, दोनों के प्रदर्शन को मापा।

रिपोर्ट में प्रस्तुत परिणाम चौंकाने वाले थे। GPT-4o ने पेवॉल वाली O’Reilly सामग्री को पहचानने की काफी बढ़ी हुई क्षमता का प्रदर्शन किया। इसके प्रदर्शन को AUROC (Area Under the Receiver Operating Characteristic curve) स्कोर का उपयोग करके परिमाणित किया गया था, जो बाइनरी क्लासिफायर के प्रदर्शन का मूल्यांकन करने के लिए एक सामान्य मीट्रिक है। GPT-4o ने 82% का AUROC स्कोर प्राप्त किया। इसके विपरीत, GPT-3.5 Turbo ने 50% से थोड़ा ऊपर स्कोर किया, जो अनिवार्य रूप से यादृच्छिक अनुमान लगाने के बराबर है - परीक्षण की गई सामग्री की बहुत कम या कोई विशिष्ट पहचान का संकेत नहीं देता है। रिपोर्ट का तर्क है कि यह स्पष्ट अंतर, यद्यपि अप्रत्यक्ष, सम्मोहक सबूत प्रदान करता है कि पेवॉल सामग्री वास्तव में GPT-4o के प्रशिक्षण आहार का हिस्सा थी। 82% का स्कोर एक मजबूत संकेत सुझाता है, जो संयोग या सामान्यीकृत ज्ञान से अपेक्षित से कहीं अधिक है।

आवश्यक चेतावनियाँ और अनुत्तरित प्रश्न

जबकि निष्कर्ष एक सम्मोहक कहानी प्रस्तुत करते हैं, अध्ययन के सह-लेखक, जिनमें AI शोधकर्ता Sruly Rosenblat शामिल हैं, सराहनीय रूप से उनकी कार्यप्रणाली और AI प्रशिक्षण की जटिल प्रकृति में निहित संभावित सीमाओं को स्वीकार करते हैं। एक महत्वपूर्ण चेतावनी जो वे उठाते हैं वह अप्रत्यक्ष डेटा अंतर्ग्रहण की संभावना है। वे ध्यान देते हैं कि यह संभव है कि ChatGPT (OpenAI का लोकप्रिय इंटरफ़ेस) के उपयोगकर्ताओं ने विभिन्न उद्देश्यों के लिए, जैसे कि पाठ के बारे में प्रश्न पूछना या सारांश का अनुरोध करना, पेवॉल वाली O’Reilly पुस्तकों के अंशों को सीधे चैट इंटरफ़ेस में कॉपी और पेस्ट किया हो। यदि यह पर्याप्त रूप से बार-बार हुआ, तो मॉडल प्रारंभिक प्रशिक्षण डेटासेट में सीधे समावेश के बजाय उपयोगकर्ता इंटरैक्शन के माध्यम से अप्रत्यक्ष रूप से सामग्री सीख सकता था। उपयोगकर्ता संकेतों के माध्यम से अप्रत्यक्ष सीखने से प्रत्यक्ष प्रशिक्षण जोखिम को अलग करना AI फोरेंसिक में एक महत्वपूर्ण चुनौती बनी हुई है।

इसके अलावा, अध्ययन का दायरा OpenAI के नवीनतम या विशेष मॉडल पुनरावृत्तियों तक विस्तारित नहीं हुआ जो GPT-4o के मुख्य प्रशिक्षण चक्र के समवर्ती या बाद में विकसित या जारी किए गए हो सकते हैं। संभावित रूप से GPT-4.5 (यदि यह उस विशिष्ट नामकरण या क्षमता स्तर के तहत मौजूद है) और तर्क-केंद्रित मॉडल जैसे o3-mini और o1 को समान ‘membership inference attacks’ के अधीन नहीं किया गया था। यह इस सवाल को खुला छोड़ देता है कि क्या डेटा सोर्सिंग प्रथाएं और विकसित हो सकती हैं, या क्या ये नए मॉडल पेवॉल सामग्री के साथ परिचितता के समान पैटर्न प्रदर्शित करते हैं। AI विकास में तीव्र पुनरावृत्ति चक्र का मतलब है कि किसी भी स्नैपशॉट विश्लेषण के लगभग तुरंत थोड़ा पुराना होने का खतरा होता है।

ये सीमाएँ आवश्यक रूप से अध्ययन के मुख्य निष्कर्षों को अमान्य नहीं करती हैं, लेकिन वे बारीकियों की महत्वपूर्ण परतें जोड़ती हैं। एक फाउंडेशन मॉडल को प्रशिक्षित करने के लिए उपयोग किए गए टेराबाइट्स डेटा के भीतर क्या रहता है, यह निश्चित रूप से साबित करना कुख्यात रूप से कठिन है। ‘Membership inference attacks’ संभाव्य साक्ष्य प्रदान करते हैं, जो पूर्ण निश्चितता प्रदान करने के बजाय संभावना का सुझाव देते हैं। OpenAI, अन्य AI प्रयोगशालाओं की तरह, मालिकाना चिंताओं और प्रतिस्पर्धी संवेदनशीलताओं का हवाला देते हुए, अपने प्रशिक्षण डेटा संरचना को बारीकी से सुरक्षित रखता है।

एक व्यापक संघर्ष: AI क्षेत्र में कॉपीराइट की लड़ाई

AI Disclosures Project द्वारा लगाए गए आरोप एक निर्वात में मौजूद नहीं हैं। वे प्रशिक्षण उद्देश्यों के लिए कॉपीराइट सामग्री के उपयोग पर AI डेवलपर्स और रचनाकारों के बीच एक बहुत व्यापक, चल रहे संघर्ष में नवीनतम झड़प का प्रतिनिधित्व करते हैं। OpenAI, Google, Meta, और Microsoft जैसे अन्य प्रमुख खिलाड़ियों के साथ, खुद को कई हाई-प्रोफाइल मुकदमों में उलझा हुआ पाता है। लेखकों, कलाकारों, समाचार संगठनों और अन्य अधिकार धारकों द्वारा लाई गई ये कानूनी चुनौतियाँ, आम तौर पर जनरेटिव AI मॉडल को प्रशिक्षित करने के लिए इंटरनेट से बड़ी मात्रा में पाठ और छवियों के अनधिकृत स्क्रैपिंग और अंतर्ग्रहण से उत्पन्न होने वाले व्यापक कॉपीराइट उल्लंघन का आरोप लगाती हैं।

AI कंपनियों द्वारा अक्सर लगाया जाने वाला मुख्य बचाव उचित उपयोग के सिद्धांत (संयुक्त राज्य अमेरिका में) या अन्य न्यायालयों में समान अपवादों पर टिका होता है। वे तर्क देते हैं कि प्रशिक्षण के लिए कॉपीराइट कार्यों का उपयोग करना एक ‘परिवर्तनकारी’ उपयोग है - AI मॉडल केवल मूल कार्यों को पुन: प्रस्तुत नहीं कर रहे हैं, बल्कि पूरी तरह से नए आउटपुट उत्पन्न करने के लिए पैटर्न, शैलियों और जानकारी सीखने के लिए डेटा का उपयोग कर रहे हैं। इस व्याख्या के तहत, प्रशिक्षण प्रक्रिया स्वयं, एक शक्तिशाली नया उपकरण बनाने के उद्देश्य से, ग्रहण किए गए डेटा के प्रत्येक टुकड़े के लिए लाइसेंस की आवश्यकता के बिना अनुमेय होनी चाहिए।

हालांकि, अधिकार धारक इस दृष्टिकोण का पुरजोर विरोध करते हैं। उनका तर्क है कि इसमें शामिल नकल का सरासर पैमाना, बनाए जा रहे AI उत्पादों की व्यावसायिक प्रकृति, और AI आउटपुट की मूल कार्यों के साथ सीधे प्रतिस्पर्धा करने और उन्हें प्रतिस्थापित करने की क्षमता उचित उपयोग के निष्कर्ष के खिलाफ भारी पड़ती है। तर्क यह है कि AI कंपनियाँ रचनाकारों को मुआवजा दिए बिना रचनात्मक कार्य के आधार पर अरबों डॉलर के उद्यम बना रही हैं।

इस मुकदमेबाजी की पृष्ठभूमि के खिलाफ, OpenAI ने विभिन्न सामग्री प्रदाताओं के साथ लाइसेंसिंग सौदे करके कुछ जोखिमों को कम करने के लिए सक्रिय रूप से प्रयास किया है। प्रमुख समाचार प्रकाशकों (जैसे Associated Press और Axel Springer), सोशल मीडिया प्लेटफॉर्म (जैसे Reddit), और स्टॉक मीडिया लाइब्रेरी (जैसे Shutterstock) के साथ समझौतों की घोषणा की गई है। ये सौदे OpenAI को भुगतान के बदले में विशिष्ट डेटासेट तक वैध पहुँच प्रदान करते हैं, संभावित रूप से संभावित रूप से उल्लंघनकारी वेब-स्क्रैप किए गए डेटा पर इसकी निर्भरता को कम करते हैं। कंपनी ने कथित तौर पर पत्रकारों को भी काम पर रखा है, उन्हें अपने मॉडल के आउटपुट की गुणवत्ता और विश्वसनीयता को परिष्कृत करने और सुधारने में मदद करने का काम सौंपा है, जो उच्च-गुणवत्ता, संभावित रूप से क्यूरेटेड, इनपुट की आवश्यकता के बारे में जागरूकता का सुझाव देता है।

तरंग प्रभाव: सामग्री पारिस्थितिकी तंत्र की चिंताएँ

AI Disclosures Project की रिपोर्ट OpenAI के लिए तत्काल कानूनी निहितार्थों से परे अपनी चिंताओं का विस्तार करती है। यह इस मुद्दे को एक प्रणालीगत खतरे के रूप में प्रस्तुत करता है जो संपूर्ण डिजिटल सामग्री पारिस्थितिकी तंत्र के स्वास्थ्य और विविधता को नकारात्मक रूप से प्रभावित कर सकता है। अध्ययन एक संभावित हानिकारक फीडबैक लूप प्रस्तुत करता है: यदि AI कंपनियाँ रचनाकारों को मुआवजा दिए बिना उच्च-गुणवत्ता, पेशेवर रूप से बनाई गई सामग्री (पेवॉल सामग्री सहित) का स्वतंत्र रूप से उपयोग कर सकती हैं, तो यह पहली बार में ऐसी सामग्री के उत्पादन की वित्तीय व्यवहार्यता को नष्ट कर देता है।

पेशेवर सामग्री निर्माण - चाहे वह खोजी पत्रकारिता हो, गहन तकनीकी नियमावली हो, कथा लेखन हो, या अकादमिक शोध हो - अक्सर महत्वपूर्ण समय, विशेषज्ञता और वित्तीय निवेश की आवश्यकता होती है। पेवॉल और सदस्यता मॉडल अक्सर इस काम को वित्तपोषित करने के लिए आवश्यक तंत्र होते हैं। यदि इन प्रयासों का समर्थन करने वाले राजस्व स्रोत कम हो जाते हैं क्योंकि सामग्री प्रभावी रूप से बिना पारिश्रमिक के प्रतिस्पर्धी AI सिस्टम को प्रशिक्षित करने के लिए उपयोग की जा रही है, तो उच्च-गुणवत्ता, विविध सामग्री बनाने का प्रोत्साहन कम हो सकता है। इससे कम सूचित जनता, विशेष ज्ञान संसाधनों में कमी, और संभावित रूप से निम्न-गुणवत्ता या AI-जनित सामग्री का प्रभुत्व वाला इंटरनेट हो सकता है जिसमें मानव विशेषज्ञता और सत्यापन का अभाव हो।

नतीजतन, AI Disclosures Project AI कंपनियों से उनके प्रशिक्षण डेटा प्रथाओं के बारे में अधिक पारदर्शिता और जवाबदेही की दृढ़ता से वकालत करता है। वे मजबूत नीतियों और संभावित रूप से नियामक ढांचे के कार्यान्वयन का आह्वान करते हैं जो यह सुनिश्चित करते हैं कि सामग्री रचनाकारों को उचित मुआवजा दिया जाए जब उनका काम वाणिज्यिक AI मॉडल के विकास में योगदान देता है। यह दुनिया भर के निर्माता समूहों से व्यापक कॉलों को प्रतिध्वनित करता है जो तंत्र चाहते हैं - चाहे लाइसेंसिंग समझौतों, रॉयल्टी सिस्टम, या सामूहिक सौदेबाजी के माध्यम से - यह सुनिश्चित करने के लिए कि उन्हें उनकी बौद्धिक संपदा पर प्रशिक्षित AI सिस्टम द्वारा उत्पन्न मूल्य का हिस्सा प्राप्त हो। बहस एक स्थायी संतुलन खोजने पर केंद्रित है जहाँ AI नवाचार मानव रचनात्मकता और ज्ञान सृजन के लिए एक संपन्न पारिस्थितिकी तंत्र के साथ फल-फूल सकता है। चल रही कानूनी लड़ाइयों का समाधान और नए कानून या उद्योग मानकों की क्षमता इस भविष्य के संतुलन को आकार देने में महत्वपूर्ण होगी। बड़े पैमाने पर, जटिल AI मॉडल में डेटा प्रोवेनेंस को ट्रैक करने और मूल्य का श्रेय देने का तरीका एक महत्वपूर्ण तकनीकी और नैतिक बाधा बना हुआ है।