OpenAI च्या GPT-4o वर पेवॉल डेटा वापराचा आरोप

OpenAI सारख्या कंपन्यांच्या नेतृत्वाखाली कृत्रिम बुद्धिमत्तेचा (AI) विकास वेगाने होत आहे, परंतु यामुळे बौद्धिक संपदा आणि डेटा मालकीच्या जुन्या तत्त्वांसोबत संघर्ष निर्माण होत आहे. OpenAI चे नवीन फ्लॅगशिप मॉडेल, GPT-4o, पेवॉलमागील कॉपीराइटेड सामग्री वापरून प्रशिक्षित केले गेले असावे, यासाठी आवश्यक परवानग्या न घेता, असे नवीन आरोप समोर आल्याने हा वाद पुन्हा एकदा उफाळून आला आहे. हे दावे AI Disclosures Project नावाच्या एका नवीन वॉचडॉग गटाने केले आहेत, ज्यामुळे अत्याधुनिक AI प्रणालींच्या प्रशिक्षणासाठी डेटाच्या नैतिक सोर्सिंगबद्दलच्या गुंतागुंतीच्या चर्चेत आणखी एक स्तर जोडला गेला आहे.

वॉचडॉगचा आवाज: AI Disclosures Project चे आरोप

2024 मध्ये सुरू झालेला AI Disclosures Project स्वतःला AI उद्योगातील अनेकदा अपारदर्शक असलेल्या पद्धतींची छाननी करण्यासाठी समर्पित असलेली एक ना-नफा संस्था म्हणून स्थान देतो. याच्या संस्थापकांमध्ये मीडिया उद्योजक Tim O’Reilly (O’Reilly Media चे संस्थापक, जे तांत्रिक पुस्तकांचे प्रमुख प्रकाशक आहेत) आणि अर्थशास्त्रज्ञ Ilan Strauss यांसारख्या उल्लेखनीय व्यक्तींचा समावेश आहे. O’Reilly Media शी असलेला हा संबंध विशेषतः संबंधित आहे, कारण प्रकल्पाचा सुरुवातीचा धक्कादायक अहवाल विशेषतः GPT-4o च्या प्रशिक्षण डेटामध्ये O’Reilly च्या पेवॉल केलेल्या पुस्तकांच्या सामग्रीच्या कथित उपस्थितीवर लक्ष केंद्रित करतो.

त्यांच्या अभ्यासाचा मध्यवर्ती दावा उत्तेजक आहे: OpenAI आणि O’Reilly Media यांच्यात कोणताही ज्ञात परवाना करार नसतानाही, GPT-4o मॉडेल O’Reilly च्या कॉपीराइट केलेल्या पुस्तकांमधून थेट घेतलेल्या सामग्रीशी लक्षणीय उच्च पातळीची ओळख दर्शवते. ही ओळख, अहवालानुसार, जोरदारपणे सूचित करते की ही पेवॉल केलेली सामग्री मॉडेलची क्षमता तयार करण्यासाठी वापरल्या गेलेल्या डेटाच्या विशाल कॉर्पसमध्ये समाविष्ट केली गेली होती. हा अभ्यास जुन्या OpenAI मॉडेल्स, विशेषतः GPT-3.5 Turbo च्या तुलनेत महत्त्वपूर्ण फरक दर्शवतो, ज्यामुळे GPT-4o च्या विकासापर्यंत डेटा संपादन पद्धतींमध्ये संभाव्य बदल किंवा विस्तार सूचित होतो.

याचे परिणाम महत्त्वपूर्ण आहेत. जर मालकीची, पैसे देऊन मिळणारी सामग्री AI मॉडेल्सद्वारे अधिकृतता किंवा भरपाईशिवाय वापरली जात असेल, तर ते जनरेटिव्ह AI च्या युगात कॉपीराइट कायद्याबद्दल मूलभूत प्रश्न निर्माण करते. प्रकाशक आणि लेखक सबस्क्रिप्शन किंवा खरेदी मॉडेल्सवर अवलंबून असतात, जे त्यांच्या सामग्रीच्या विशिष्टतेवर आधारित असतात. प्रशिक्षणासाठी या सामग्रीचा कथित वापर या व्यवसाय मॉडेल्सना कमजोर करणारा म्हणून पाहिला जाऊ शकतो, ज्यामुळे तयार करण्यासाठी महत्त्वपूर्ण गुंतवणूक आवश्यक असलेल्या सामग्रीचे मूल्य संभाव्यतः कमी होते. हा विशिष्ट आरोप सार्वजनिकरित्या उपलब्ध वेबसाइट्स स्क्रॅप करण्यापलीकडे जातो, स्पष्टपणे पैसे देणाऱ्या ग्राहकांसाठी असलेल्या सामग्रीमध्ये प्रवेश करण्याच्या क्षेत्रात प्रवेश करतो.

ब्लॅक बॉक्समध्ये डोकावणे: मेंबरशिप इन्फरन्स अटॅक

आपल्या दाव्यांची पुष्टी करण्यासाठी, AI Disclosures Project मधील संशोधकांनी ‘मेंबरशिप इन्फरन्स अटॅक’ (membership inference attack) नावाचे एक अत्याधुनिक तंत्र वापरले, विशेषतः त्यांनी DE-COP नावाची पद्धत वापरली. या दृष्टिकोनामागील मुख्य कल्पना म्हणजे AI मॉडेलने विशिष्ट मजकूर ‘लक्षात ठेवला’ आहे की नाही किंवा किमान त्याबद्दल मजबूत ओळख विकसित केली आहे की नाही हे तपासणे. थोडक्यात, हा हल्ला मॉडेलला मूळ मजकूर उतारे (या प्रकरणात, O’Reilly पुस्तकांमधील) आणि त्याच उताऱ्यांच्या काळजीपूर्वक तयार केलेल्या पॅराफ्रेज्ड आवृत्त्या (दुसऱ्या AI द्वारे व्युत्पन्न केलेल्या) यांच्यात विश्वसनीयरित्या फरक करू शकतो का हे पाहण्यासाठी तपासतो.

यामागील तर्क असा आहे की जर एखादे मॉडेल जवळच्या पॅराफ्रेजच्या तुलनेत मूळ मानवी-लिखित मजकूर ओळखण्याची सातत्याने यादृच्छिकतेपेक्षा जास्त क्षमता दर्शवत असेल, तर याचा अर्थ असा होतो की मॉडेलने तो मूळ मजकूर आधी पाहिला आहे – बहुधा त्याच्या प्रशिक्षण टप्प्यात. हे एखाद्या व्यक्तीला त्यांनी कधीही न पाहिलेला दावा केलेला विशिष्ट, कमी ज्ञात फोटो ओळखता येतो का हे तपासण्यासारखे आहे; सातत्यपूर्ण ओळख पूर्वीच्या संपर्काचे सूचक आहे.

AI Disclosures Project च्या चाचणीची व्याप्ती मोठी होती. त्यांनी 34 वेगवेगळ्या O’Reilly Media पुस्तकांमधून घेतलेले 13,962 विशिष्ट परिच्छेद उतारे वापरले. हे उतारे प्रकाशकाच्या पेवॉलमागे सामान्यतः आढळणाऱ्या विशेष, उच्च-मूल्याच्या सामग्रीचे प्रतिनिधित्व करतात. अभ्यासाने नंतर GPT-4o आणि त्याचा पूर्ववर्ती, GPT-3.5 Turbo, या दोघांच्या या भिन्नता कार्यावरील कामगिरीचे मोजमाप केले.

अहवालात सादर केलेले निकाल धक्कादायक होते. GPT-4o ने पेवॉल केलेल्या O’Reilly सामग्रीला ओळखण्याची लक्षणीय वाढलेली क्षमता दर्शविली. त्याची कामगिरी AUROC (Area Under the Receiver Operating Characteristic curve) स्कोअर वापरून मोजली गेली, जी बायनरी क्लासिफायरच्या कामगिरीचे मूल्यांकन करण्यासाठी एक सामान्य मेट्रिक आहे. GPT-4o ने 82% चा AUROC स्कोअर प्राप्त केला. याउलट, GPT-3.5 Turbo ने फक्त 50% पेक्षा थोडा जास्त स्कोअर केला, जो मूलतः यादृच्छिक अंदाजासारखा आहे – चाचणी केलेल्या सामग्रीची कोणतीही विशिष्ट ओळख दर्शवत नाही. हा तीव्र फरक, अहवालानुसार, पेवॉल केलेली सामग्री खरोखरच GPT-4o च्या प्रशिक्षण आहाराचा भाग होती याचा आकर्षक, जरी अप्रत्यक्ष, पुरावा प्रदान करतो. 82% स्कोअर एक मजबूत संकेत दर्शवतो, जो संधी किंवा सामान्य ज्ञानाने अपेक्षित असलेल्या पलीकडे आहे.

आवश्यक सावधगिरी आणि अनुत्तरित प्रश्न

जरी निष्कर्ष एक आकर्षक कथा सादर करत असले तरी, अभ्यासाचे सह-लेखक, ज्यात AI संशोधक Sruly Rosenblat यांचा समावेश आहे, त्यांच्या पद्धती आणि AI प्रशिक्षणाच्या गुंतागुंतीच्या स्वरूपातील संभाव्य मर्यादा प्रशंसनीयरित्या मान्य करतात. त्यांनी उपस्थित केलेली एक महत्त्वपूर्ण सावधगिरी म्हणजे अप्रत्यक्ष डेटा अंतर्ग्रहण (indirect data ingestion) ची शक्यता. हे शक्य आहे, ते नमूद करतात, की ChatGPT (OpenAI चे लोकप्रिय इंटरफेस) च्या वापरकर्त्यांनी पेवॉल केलेल्या O’Reilly पुस्तकांमधील उतारे थेट चॅट इंटरफेसमध्ये विविध कारणांसाठी कॉपी आणि पेस्ट केले असतील, जसे की मजकुराबद्दल प्रश्न विचारणे किंवा सारांश मागणे. जर हे पुरेसे वारंवार घडले असेल, तर मॉडेलने सुरुवातीच्या प्रशिक्षण डेटामध्ये थेट समावेशाऐवजी वापरकर्त्याच्या संवादांद्वारे अप्रत्यक्षपणे सामग्री शिकली असेल. थेट प्रशिक्षण एक्सपोजरला वापरकर्ता प्रॉम्प्टद्वारे अप्रत्यक्ष शिक्षणापासून वेगळे करणे AI फॉरेन्सिक्समध्ये एक महत्त्वपूर्ण आव्हान आहे.

शिवाय, अभ्यासाची व्याप्ती OpenAI च्या अगदी नवीनतम किंवा विशेष मॉडेल आवृत्त्यांपर्यंत विस्तारित नव्हती जी GPT-4o च्या मुख्य प्रशिक्षण चक्राच्या समवर्ती किंवा नंतर विकसित किंवा प्रसिद्ध केली गेली असावी. संभाव्यतः GPT-4.5 (जर ते त्या विशिष्ट नामकरण किंवा क्षमता स्तराखाली अस्तित्वात असेल) आणि o3-minio1 सारख्या तर्क-केंद्रित मॉडेल्सचा समावेश असलेल्या मॉडेल्सवर समान मेंबरशिप इन्फरन्स अटॅक केले गेले नाहीत. यामुळे डेटा सोर्सिंग पद्धती आणखी विकसित झाल्या आहेत का, किंवा ही नवीन मॉडेल्स पेवॉल केलेल्या सामग्रीशी समान ओळखीचे नमुने दर्शवतात का, हा प्रश्न खुला राहतो. AI विकासातील जलद पुनरावृत्ती चक्रांचा अर्थ असा आहे की कोणतेही स्नॅपशॉट विश्लेषण जवळजवळ त्वरित थोडेसे कालबाह्य होण्याचा धोका असतो.

या मर्यादा अभ्यासाच्या मुख्य निष्कर्षांना necessariamente अवैध ठरवत नाहीत, परंतु त्या महत्त्वाच्या बारकावे जोडतात. फाउंडेशन मॉडेल प्रशिक्षित करण्यासाठी वापरल्या गेलेल्या टेराबाइट्स डेटामध्ये नेमके काय आहे हे निश्चितपणे सिद्ध करणे अत्यंत कठीण आहे. मेंबरशिप इन्फरन्स अटॅक संभाव्य पुरावे देतात, जे पूर्ण निश्चिततेऐवजी संभाव्यता दर्शवतात. OpenAI, इतर AI लॅबप्रमाणे, मालकी हक्काच्या चिंता आणि स्पर्धात्मक संवेदनशीलतेचा हवाला देत, आपल्या प्रशिक्षण डेटा रचनेचे बारकाईने संरक्षण करते.

एक व्यापक संघर्ष: AI क्षेत्रातील कॉपीराइट लढाया

AI Disclosures Project ने केलेले आरोप एका रिकाम्या जागेत अस्तित्वात नाहीत. ते AI डेव्हलपर्स आणि निर्मात्यांमध्ये प्रशिक्षणाच्या उद्देशाने कॉपीराइट केलेल्या सामग्रीच्या वापरावर सुरू असलेल्या एका मोठ्या, व्यापक संघर्षातील नवीनतम चकमक दर्शवतात. OpenAI, Google, Meta आणि Microsoft सारख्या इतर प्रमुख कंपन्यांसोबत, अनेक हाय-प्रोफाइल खटल्यांमध्ये अडकले आहे. लेखक, कलाकार, वृत्तसंस्था आणि इतर हक्क धारकांनी आणलेली ही कायदेशीर आव्हाने, सामान्यतः जनरेटिव्ह AI मॉडेल्स प्रशिक्षित करण्यासाठी इंटरनेटवरून मोठ्या प्रमाणात मजकूर आणि प्रतिमांच्या अनधिकृत स्क्रॅपिंग आणि अंतर्ग्रहणामुळे होणाऱ्या व्यापक कॉपीराइट उल्लंघनाचा आरोप करतात.

AI कंपन्यांकडून अनेकदा मांडला जाणारा मुख्य बचाव ‘फेअर यूज’ (fair use) च्या सिद्धांतावर (अमेरिकेत) किंवा इतर अधिकारक्षेत्रातील तत्सम अपवादांवर अवलंबून असतो. ते असा युक्तिवाद करतात की प्रशिक्षणासाठी कॉपीराइट केलेल्या कामांचा वापर हा ‘परिवर्तनात्मक’ (transformative) वापर आहे – AI मॉडेल्स केवळ मूळ कामांची पुनरावृत्ती करत नाहीत तर डेटाचा वापर नमुने, शैली आणि माहिती शिकण्यासाठी करतात ज्यामुळे पूर्णपणे नवीन आउटपुट तयार होतात. या अर्थानुसार, एक शक्तिशाली नवीन साधन तयार करण्याच्या उद्देशाने असलेली प्रशिक्षण प्रक्रिया स्वतःच, प्रत्येक अंतर्ग्रहित डेटासाठी परवान्याची आवश्यकता न ठेवता परवानगीयोग्य असावी.

तथापि, हक्क धारक या दृष्टिकोनला तीव्र विरोध करतात. ते असा युक्तिवाद करतात की यात सामील असलेल्या कॉपी करण्याच्या प्रचंड प्रमाणाचा, तयार केल्या जात असलेल्या AI उत्पादनांच्या व्यावसायिक स्वरूपाचा आणि AI आउटपुट मूळ कामांशी थेट स्पर्धा करण्याची आणि त्यांची जागा घेण्याच्या संभाव्यतेचा ‘फेअर यूज’ च्या निष्कर्षाविरुद्ध जोरदार परिणाम होतो. दावा असा आहे की AI कंपन्या निर्मात्यांना भरपाई न देता सर्जनशील कामाच्या आधारावर अब्जावधी डॉलर्सचे उद्योग उभारत आहेत.

या कायदेशीर पार्श्वभूमीवर, OpenAI ने विविध सामग्री प्रदात्यांसोबत परवाना करार (licensing deals) करून काही जोखीम कमी करण्याचा सक्रिय प्रयत्न केला आहे. प्रमुख वृत्त प्रकाशक (जसे की Associated Press आणि Axel Springer), सोशल मीडिया प्लॅटफॉर्म (जसे की Reddit), आणि स्टॉक मीडिया लायब्ररी (जसे की Shutterstock) यांच्यासोबत करार जाहीर केले गेले आहेत. हे करार OpenAI ला पेमेंटच्या बदल्यात विशिष्ट डेटासेटमध्ये कायदेशीर प्रवेश प्रदान करतात, ज्यामुळे संभाव्यतः उल्लंघन करणाऱ्या वेब-स्क्रॅप केलेल्या डेटावरील अवलंबित्व कमी होते. कंपनीने पत्रकारांनाही कामावर ठेवल्याचे वृत्त आहे, त्यांना मॉडेल्सच्या आउटपुटची गुणवत्ता आणि विश्वसनीयता सुधारण्यात मदत करण्याचे काम सोपवले आहे, जे उच्च-गुणवत्तेच्या, संभाव्यतः क्युरेट केलेल्या इनपुटच्या गरजेबद्दल जागरूकता दर्शवते.

तरंग परिणाम: सामग्री परिसंस्थेची चिंता

AI Disclosures Project चा अहवाल OpenAI साठी तात्काळ कायदेशीर परिणामांच्या पलीकडे आपली चिंता व्यक्त करतो. तो या समस्येला संपूर्ण डिजिटल सामग्री परिसंस्थेच्या आरोग्यावर आणि विविधतेवर नकारात्मक परिणाम करू शकणारा एक प्रणालीगत धोका म्हणून मांडतो. अभ्यास एका संभाव्य हानिकारक फीडबॅक लूपची कल्पना करतो: जर AI कंपन्या उच्च-गुणवत्तेची, व्यावसायिकरित्या तयार केलेली सामग्री (पेवॉल केलेल्या सामग्रीसह) निर्मात्यांना भरपाई न देता मुक्तपणे वापरू शकत असतील, तर ते प्रथम स्थानावर अशी सामग्री तयार करण्याची आर्थिक व्यवहार्यता कमी करते.

व्यावसायिक सामग्री निर्मिती – मग ती शोध पत्रकारिता असो, सखोल तांत्रिक मॅन्युअल असो, काल्पनिक लेखन असो किंवा शैक्षणिक संशोधन असो – यासाठी अनेकदा महत्त्वपूर्ण वेळ, कौशल्य आणि आर्थिक गुंतवणूक आवश्यक असते. पेवॉल आणि सबस्क्रिप्शन मॉडेल्स अनेकदा या कामासाठी निधी पुरवण्यासाठी आवश्यक यंत्रणा असतात. जर या प्रयत्नांना समर्थन देणारे महसूल प्रवाह कमी झाले कारण सामग्री प्रभावीपणे प्रतिस्पर्धी AI प्रणालींना प्रशिक्षित करण्यासाठी मोबदल्याशिवाय वापरली जात असेल, तर उच्च-गुणवत्तेची, विविध सामग्री तयार करण्याची प्रेरणा कमी होऊ शकते. यामुळे कमी माहिती असलेला समाज, विशेष ज्ञान संसाधनांमध्ये घट आणि संभाव्यतः मानवी कौशल्य आणि पडताळणी नसलेल्या कमी-गुणवत्तेच्या किंवा AI-व्युत्पन्न सामग्रीचे वर्चस्व असलेले इंटरनेट निर्माण होऊ शकते.

परिणामी, AI Disclosures Project AI कंपन्यांकडून त्यांच्या प्रशिक्षण डेटा पद्धतींबाबत अधिक पारदर्शकता आणि जबाबदारी साठी जोरदारपणे समर्थन करते. ते मजबूत धोरणे आणि संभाव्य नियामक फ्रेमवर्कच्या अंमलबजावणीची मागणी करतात जे सुनिश्चित करतील की जेव्हा निर्मात्यांचे कार्य व्यावसायिक AI मॉडेल्सच्या विकासात योगदान देते तेव्हा त्यांना योग्यरित्या भरपाई दिली जाईल. हे जगभरातील निर्मात्यांच्या गटांकडून आलेल्या व्यापक आवाहनांना प्रतिध्वनित करते जे यंत्रणा शोधतात – मग ते परवाना करार, रॉयल्टी प्रणाली किंवा सामूहिक सौदेबाजीद्वारे असो – जेणेकरून त्यांच्या बौद्धिक संपत्तीवर प्रशिक्षित AI प्रणालींद्वारे व्युत्पन्न केलेल्या मूल्यात त्यांना वाटा मिळेल. AI नवकल्पना मानवी सर्जनशीलता आणि ज्ञान निर्मितीसाठी एका भरभराटीच्या परिसंस्थेसोबत टिकून राहू शकेल असा शाश्वत समतोल शोधण्यावर ही चर्चा केंद्रित आहे. चालू असलेल्या कायदेशीर लढ्यांचे निराकरण आणि नवीन कायदे किंवा उद्योग मानकांची शक्यता हे भविष्यकालीन संतुलन घडवण्यात महत्त्वपूर्ण ठरेल. मोठ्या, गुंतागुंतीच्या AI मॉडेल्समध्ये डेटा उत्पत्तीचा मागोवा कसा घ्यावा आणि मूल्याचे श्रेय कसे द्यावे हा प्रश्न एक महत्त्वपूर्ण तांत्रिक आणि नैतिक अडथळा आहे.