जेनरेटिव AI कॉपीराइट युद्ध: कोहेर पर निशाना

जेनरेटिव AI विकास परिदृश्य एक बार फिर कानूनी मुकाबले में उलझा हुआ है, क्योंकि प्रमुख समाचार और मीडिया संगठनों के एक समूह ने जेनरेटिव AI स्टार्टअप कोहेर के खिलाफ कॉपीराइट और ट्रेडमार्क उल्लंघन का मुकदमा दायर किया है। फरवरी 2025 में दक्षिणी न्यूयॉर्क के लिए अमेरिकी जिला न्यायालय में दायर मुकदमे में, फोर्ब्स, द गार्जियन और लॉस एंजिल्स टाइम्स जैसे सम्मानित प्रकाशनों सहित एक दर्जन से अधिक वादी हैं। मामले के केंद्र में कोहेर द्वारा रिट्रीवल-ऑगमेंटेड जनरेशन (RAG) तकनीक का उपयोग है, जिसके बारे में वादियों का आरोप है कि इसमें डेटाबेस बनाने और आउटपुट उत्पन्न करने के लिए उनकी कॉपीराइट सामग्री का अनधिकृत उपयोग शामिल है।

RAG तकनीक की जांच

रिट्रीवल-ऑगमेंटेड जनरेशन (RAG) बड़े भाषा मॉडल (LLMs) से जुड़ी कुछ अंतर्निहित चुनौतियों के लिए एक संभावित समाधान के रूप में उभरा। पैट्रिक लुईस और उनके सहयोगियों द्वारा 2020 में प्रस्तावित, RAG का उद्देश्य मतिभ्रम (तथ्यात्मक रूप से गलत या बेतुकी जानकारी का उत्पादन), पुरानी जानकारी, और मॉडल के तर्क में पारदर्शिता की कमी जैसे मुद्दों को कम करना है। दिलचस्प बात यह है कि पैट्रिक लुईस स्वयं वर्तमान में कोहेर में एक शोधकर्ता हैं, जो RAG तकनीक पर अपना काम जारी रख रहे हैं। RAG को व्यापक रूप से अपनाया गया है, Microsoft, Google, Amazon और NVIDIA जैसे प्रमुख खिलाड़ियों ने इसे अपने AI सिस्टम में एकीकृत किया है।

समाचार प्रकाशकों द्वारा लाया गया मुकदमा कोहेर के खिलाफ कॉपीराइट उल्लंघन के कई प्रमुख आरोपों पर केंद्रित है। ये दावे जेनरेटिव AI मॉडल के प्रशिक्षण और संचालन में कॉपीराइट सामग्री के उपयोग से संबंधित जटिल कानूनी प्रश्न उठाते हैं।

कोहेर के खिलाफ कॉपीराइट उल्लंघन के दावे

कोहेर के खिलाफ वादियों के आरोपों को चार मुख्य श्रेणियों में विभाजित किया जा सकता है:

1. AI मॉडल प्रशिक्षण

वादियों के तर्क का मूल इस बात के इर्द-गिर्द घूमता है कि कोहेर ने अपने बड़े भाषा मॉडल को कैसे प्रशिक्षित किया, जिसे "कमांड फैमिली" के नाम से जाना जाता है। उनका दावा है कि कोहेर ने इंटरनेट से पाठ की व्यापक "स्क्रैपिंग" में भाग लिया, जिसमें वादियों के प्रकाशनों से कॉपीराइट सामग्री भी शामिल है। इस स्क्रैप किए गए डेटा का उपयोग तब कमांड फैमिली मॉडल को प्रशिक्षित करने के लिए आवश्यक डेटासेट बनाने के लिए किया गया था। इसके अलावा, वादियों का आरोप है कि कोहेर ने कॉमन क्रॉल के C4 जैसे तीसरे पक्ष के डेटासेट का उपयोग किया, जिसमें उनकी कॉपीराइट सामग्री की महत्वपूर्ण मात्रा शामिल है, बिना आवश्यक अनुमति प्राप्त किए।

AI मॉडल प्रशिक्षण में कॉपीराइट सामग्री का उपयोग एक विवादास्पद मुद्दा बन गया है। AI डेवलपर अक्सर तर्क देते हैं कि इस तरह का उपयोग "उचित उपयोग" के सिद्धांत के अंतर्गत आता है, जो कॉपीराइट सामग्री के सीमित उपयोग को आलोचना, टिप्पणी, समाचार रिपोर्टिंग, शिक्षण, छात्रवृत्ति या अनुसंधान जैसे उद्देश्यों के लिए अनुमति देता है। हालांकि, कॉपीराइट धारकों का तर्क है कि वाणिज्यिक उद्देश्यों के लिए उनकी सामग्री की बड़े पैमाने पर स्क्रैपिंग और उपयोग, जैसे कि AI मॉडल को प्रशिक्षित करना, उचित उपयोग के दायरे से परे चला जाता है। यह कानूनी लड़ाई संभवतः इस बात पर निर्भर करेगी कि अदालत वादियों के मूल्यांकन से सहमत है या नहीं।

2. वास्तविक समय का उपयोग / RAG

मुकदमे का एक अन्य महत्वपूर्ण पहलू इस बात पर केंद्रित है कि कोहेर की सेवाएं, विशेष रूप से इसका चैट इंटरफ़ेस, वास्तविक समय में RAG तकनीक का उपयोग कैसे करता है। वादियों का आरोप है कि कोहेर के मॉडल उपयोगकर्ता प्रश्नों के उत्तर उत्पन्न करने के लिए बाहरी स्रोतों, जिनमें उनकी वेबसाइटें भी शामिल हैं, से सामग्री को स्क्रैप करते हैं। वादियों के अनुसार, यह वास्तविक समय की स्क्रैपिंग कॉपीराइट उल्लंघन है, खासकर जब कोहेर के मॉडल पेवॉल को बायपास करते हैं या "robots.txt" निर्देशों को अनदेखा करते हैं, जो कि वे कमांड हैं जो वेब क्रॉलर (AI मॉडल द्वारा उपयोग किए जाने वालों सहित) को एक वेबसाइट से विशिष्ट सामग्री को स्क्रैप नहीं करने के लिए निर्देशित करते हैं।

पेवॉल और robots.txt निर्देशों की बाइपासिंग गंभीर नैतिक और कानूनी प्रश्न उठाती है। पेवॉल को कॉपीराइट सामग्री की रक्षा करने और यह सुनिश्चित करने के लिए डिज़ाइन किया गया है कि प्रकाशकों को उनके काम के लिए मुआवजा दिया जाए। Robots.txt निर्देश वेबसाइट मालिकों के लिए यह नियंत्रित करने का एक मानक तंत्र है कि उनकी सामग्री तक कैसे पहुँचा जाता है और वेब क्रॉलर द्वारा इसका उपयोग कैसे किया जाता है। इन सुरक्षा उपायों को अनदेखा करके, कोहेर पर कॉपीराइट कानूनों और सामग्री निर्माताओं के अधिकारों के प्रति अनादर दिखाने का आरोप है।

3. उल्लंघनकारी आउटपुट

वादियों का तर्क है कि कोहेर की सेवाएं उपयोगकर्ता प्रश्नों के जवाब में उनकी कॉपीराइट कृतियों की प्रतियों, पर्याप्त अंशों या प्रतिस्थापन सारांशों के रूप में उल्लंघनकारी आउटपुट प्रदान करती हैं। वे कोहेर चैट आउटपुट के उदाहरणों का हवाला देते हैं जहां "अंडर द हुड" पैनल वादियों की वेबसाइटों से सीधे कॉपी किए गए पूरे या आंशिक लेख प्रदर्शित करता है।

वादियों का तर्क है कि ये आउटपुट, चाहे वे अक्षरशः प्रतियां हों या सारांश, उपयोगकर्ताओं को मूल लेखों पर जाने की आवश्यकता के लिए सीधे प्रतिस्थापित करते हैं। बदले में, यह डिजिटल सदस्यता और विज्ञापन राजस्व को नुकसान पहुंचाता है जिस पर वादी अपने व्यवसायों को बनाए रखने के लिए भरोसा करते हैं। इस तर्क का मूल यह है कि कोहेर के AI मॉडल अनिवार्य रूप से कॉपीराइट सामग्री के अनधिकृत वितरकों के रूप में काम कर रहे हैं, जो मूल प्रकाशकों को उनके वैध मुआवजे से वंचित कर रहे हैं।

4. अनधिकृत अनुकूलन

"अंडर द हुड" पैनल में वादियों के कार्यों के कुछ हिस्सों को प्रदर्शित करने के अलावा, कोहेर की सेवाएं इन कार्यों के सारांश या सार भी प्रदान करती हैं। वादियों का तर्क है कि इन सारांशों में विवरण का स्तर इतना व्यापक है कि वे अनिवार्य रूप से मूल कार्यों को प्रतिस्थापित करते हैं, उचित उपयोग की सीमाओं को पार करते हैं।

कॉपीराइट कानून न केवल कॉपीराइट कार्यों के अक्षरशः पुनरुत्पादन की रक्षा करता है बल्कि व्युत्पन्न कार्यों के निर्माण की भी रक्षा करता है, जो मूल के अनुकूलन या परिवर्तन हैं। वादियों का तर्क है कि कोहेर के सारांश इतने व्यापक हैं कि वे अनधिकृत व्युत्पन्न कार्य हैं, जो उनकी कॉपीराइट सामग्री के अनुकूलन बनाने और वितरित करने के उनके विशेष अधिकार का उल्लंघन करते हैं।

उपयोगकर्ता कार्यों के लिए माध्यमिक दायित्व

प्रत्यक्ष कॉपीराइट उल्लंघन के दावे से परे, वादी यह भी तर्क देते हैं कि कोहेर अपने उपयोगकर्ताओं के उल्लंघनकारी कार्यों के लिए द्वितीयक रूप से उत्तरदायी है। उनका तर्क है कि कोहेर की सेवाएं उपयोगकर्ताओं द्वारा वादियों के कार्यों के पुनरुत्पादन, प्रदर्शन और वितरण को सुविधाजनक बनाती हैं, और कोहेर केवल उपयोगकर्ता कार्यों के लिए उल्लंघन को जिम्मेदार ठहराकर जिम्मेदारी से बच नहीं सकता है। इस दावे का आधार यह है कि कोहेर का उत्पाद उपयोगकर्ता द्वारा संकेत इनपुट करने के बाद ही उत्तर उत्पन्न करता है, जिससे कंपनी उल्लंघनकारी गतिविधि में भागीदार बन जाती है।

माध्यमिक दायित्व का यह तर्क महत्वपूर्ण है क्योंकि यह AI डेवलपर्स को उनके उपयोगकर्ताओं के कार्यों के लिए जवाबदेह ठहराना चाहता है, भले ही वे उपयोगकर्ता कॉपीराइट उल्लंघन में सीधे तौर पर संलग्न हों। यदि सफल हो जाता है, तो इस तर्क के AI प्रौद्योगिकियों के विकास और तैनाती के लिए दूरगामी निहितार्थ हो सकते हैं, क्योंकि इसके लिए डेवलपर्स को अपने उपयोगकर्ताओं को कॉपीराइट का उल्लंघन करने से रोकने के लिए सुरक्षा उपाय लागू करने की आवश्यकता होगी।

ट्रेडमार्क उल्लंघन के दावे

मुकदमा कॉपीराइट उल्लंघन से परे ट्रेडमार्क उल्लंघन के दावों तक फैला हुआ है। वादियों का आरोप है कि स्रोतों को जिम्मेदार ठहराने की कोहेर की प्रथा ट्रेडमार्क उल्लंघन का गठन करती है क्योंकि यह वादियों के प्रसिद्ध ट्रेडमार्क का उपयोग अनुमति के बिना करती है या उन्हें AI द्वारा उत्पन्न त्रुटिपूर्ण सामग्री से जोड़ती है। उनका तर्क है कि इससे वादियों की ब्रांड प्रतिष्ठा को नुकसान होता है और उनकी विशिष्टता का क्षरण होता है।

ट्रेडमार्क कानूनी रूप से पंजीकृत प्रतीक, डिज़ाइन या वाक्यांश हैं जो किसी कंपनी या उत्पाद का प्रतिनिधित्व करते हैं। ट्रेडमार्क का अनधिकृत उपयोग उपभोक्ताओं के बीच भ्रम पैदा कर सकता है और ब्रांड की प्रतिष्ठा को नुकसान पहुंचा सकता है। वादियों का तर्क है कि AI द्वारा उत्पन्न सामग्री के साथ उनके ट्रेडमार्क का कोहेर का उपयोग उपयोगकर्ताओं को यह विश्वास दिलाने में गुमराह कर सकता है कि वादी कोहेर की सेवाओं का समर्थन करते हैं या उनसे संबद्ध हैं, जो मामला नहीं है।

व्यापक संदर्भ: RAG और AI कॉपीराइट कानून का भविष्य

कोहेर के खिलाफ यह मुकदमा कोई अलग घटना नहीं है। यह अक्टूबर 2024 में अमेरिका में RAG एप्लीकेशन पर केंद्रित एक पूर्व कॉपीराइट मुकदमे का अनुसरण करता है। मामलों की बढ़ती संख्या AI और RAG आर्किटेक्चर के प्रसार के साथ AI डेवलपर्स और कॉपीराइट धारकों के बीच बढ़ते तनाव का प्रदर्शन करती है।

RAG तकनीक के आसपास की कानूनी लड़ाइयों के AI कॉपीराइट कानून के भविष्य में एक महत्वपूर्ण मुद्दा बनने की संभावना है। RAG अनूठी चुनौतियां पेश करता है क्योंकि इसमें आउटपुट उत्पन्न करने के लिए वास्तविक समय में कॉपीराइट सामग्री की पुनर्प्राप्ति और उपयोग शामिल है। यह उचित उपयोग के दायरे, उपयोगकर्ता कार्यों के लिए AI डेवलपर्स की जिम्मेदारी और कृत्रिम बुद्धिमत्ता के युग में बौद्धिक संपदा की सुरक्षा के बारे में जटिल प्रश्न उठाता है।

इन मुकदमों के परिणाम का AI प्रौद्योगिकियों के विकास और तैनाती पर गहरा प्रभाव पड़ सकता है। यदि अदालतें कॉपीराइट धारकों के पक्ष में फैसला सुनाती हैं, तो AI डेवलपर्स को कॉपीराइट उल्लंघन को रोकने के लिए सख्त सुरक्षा उपाय लागू करने के लिए मजबूर किया जा सकता है, जिससे AI मॉडल विकसित करने की लागत और जटिलता बढ़ सकती है। दूसरी ओर, यदि अदालतें AI डेवलपर्स के पक्ष में फैसला सुनाती हैं, तो कॉपीराइट धारकों को तेजी से परिष्कृत AI प्रौद्योगिकियों के सामने अपनी बौद्धिक संपदा की रक्षा करने के लिए नए तरीके खोजने की आवश्यकता हो सकती है।

समाचार प्रकाशकों और कोहेर के बीच संघर्ष AI, कॉपीराइट और सामग्री निर्माण के भविष्य के बारे में चल रही बहस में एक महत्वपूर्ण मोड़ के रूप में कार्य करता है। इस मामले का नतीजा, अन्य मामलों के साथ, जेनरेटिव AI और कॉपीराइट सामग्री के साथ इसकी बातचीत के लिए कानूनी परिदृश्य को निस्संदेह आकार देगा। जैसे-जैसे AI विकसित होता जा रहा है और हमारे जीवन के विभिन्न पहलुओं में अधिक एकीकृत होता जा रहा है, नवाचार को बढ़ावा देने और सामग्री निर्माताओं के अधिकारों की रक्षा करने के बीच संतुलन बनाना आवश्यक है। अदालतों, विधायकों और AI समुदाय को मिलकर स्पष्ट दिशानिर्देश और नियम स्थापित करने चाहिए जो बौद्धिक संपदा का सम्मान सुनिश्चित करते हुए रचनात्मकता को बढ़ावा दें।

विशेष रूप से, समाचार उद्योग को AI के युग में चुनौतियों के एक अनूठे समूह का सामना करना पड़ता है। जैसे-जैसे AI मॉडल समाचार सामग्री उत्पन्न करने में तेजी से सक्षम होते जा रहे हैं, यह महत्वपूर्ण है कि प्रकाशकों को उनकी कॉपीराइट सामग्री के उपयोग के लिए मुआवजा दिया जाए और उनके ब्रांडों की अखंडता की रक्षा की जाए। कोहेर के खिलाफ मुकदमा समाचार प्रकाशकों द्वारा अपने अधिकारों का दावा करने और यह सुनिश्चित करने के प्रयास का प्रतिनिधित्व करता है कि उनके काम का AI कंपनियों द्वारा उचित प्राधिकरण के बिना शोषण नहीं किया जाए।