डीपसीक-R1 की प्रशिक्षण उत्पत्ति का अनावरण
Copyleaks, जो AI पहचान और शासन में विशेषज्ञता वाली एक फर्म है, द्वारा किए गए हालिया शोध ने इस सवाल का एक निश्चित जवाब दिया है कि क्या डीपसीक-R1 ने OpenAI के मॉडल पर प्रशिक्षण लिया: हाँ। डीपसीक, एक AI-संचालित चैटबॉट जो बिना किसी शुल्क के उपलब्ध है, अपनी उपस्थिति, अनुभव और कार्यक्षमता में ChatGPT के समान है।
फ़िंगरप्रिंटिंग तकनीक: ऑथरिंग AI की पहचान
AI-जनित पाठ की उत्पत्ति पर प्रकाश डालने के लिए, शोधकर्ताओं ने एक नवीन पाठ फ़िंगरप्रिंटिंग उपकरण विकसित किया। यह उपकरण किसी दिए गए पाठ को उत्पन्न करने के लिए जिम्मेदार विशिष्ट AI मॉडल को निर्धारित करने के लिए डिज़ाइन किया गया है। शोधकर्ताओं ने AI-जनित नमूनों के एक विशाल डेटासेट का उपयोग करके उपकरण को सावधानीपूर्वक प्रशिक्षित किया। इसके बाद, उन्होंने ज्ञात AI मॉडल का उपयोग करके इसका परीक्षण किया, और परिणाम स्पष्ट थे।
चौंकाने वाली समानता: डीपसीक-R1 और OpenAI
परीक्षण से एक सम्मोहक आँकड़ा सामने आया: डीपसीक-R1 द्वारा उत्पादित 74.2 प्रतिशत ग्रंथों ने OpenAI के आउटपुट के साथ एक शैलीगत मिलान प्रदर्शित किया। यह मजबूत सहसंबंध दृढ़ता से सुझाव देता है कि डीपसीक ने अपने प्रशिक्षण चरण के दौरान OpenAI के मॉडल को शामिल किया।
दृष्टिकोण में एक विपरीतता: माइक्रोसॉफ्ट का Phi-4
एक विपरीत परिप्रेक्ष्य प्रदान करने के लिए, माइक्रोसॉफ्ट के Phi-4 मॉडल पर विचार करें। उसी परीक्षण में, Phi-4 ने किसी भी ज्ञात मॉडल के साथ 99.3 प्रतिशत ‘असहमति’ प्रदर्शित की। यह परिणाम स्वतंत्र प्रशिक्षण के सम्मोहक साक्ष्य के रूप में कार्य करता है, यह दर्शाता है कि Phi-4 को मौजूदा मॉडलों पर भरोसा किए बिना विकसित किया गया था। Phi-4 की स्वतंत्र प्रकृति और OpenAI के साथ डीपसीक की भारी समानता के बीच स्पष्ट विपरीतता बाद के स्पष्ट प्रतिकृति या नकल को रेखांकित करती है।
नैतिक और बौद्धिक संपदा चिंताएँ
यह रहस्योद्घाटन डीपसीक-R1 की OpenAI के मॉडल से निकट समानता के बारे में गंभीर चिंताएँ पैदा करता है। इन चिंताओं में कई महत्वपूर्ण क्षेत्र शामिल हैं:
- डेटा सोर्सिंग: डीपसीक-R1 को प्रशिक्षित करने के लिए उपयोग किए गए डेटा की उत्पत्ति एक महत्वपूर्ण प्रश्न बन जाती है।
- बौद्धिक संपदा अधिकार: OpenAI के बौद्धिक संपदा अधिकारों का संभावित उल्लंघन एक महत्वपूर्ण चिंता का विषय है।
- पारदर्शिता: डीपसीक की प्रशिक्षण पद्धति के बारे में पारदर्शिता की कमी नैतिक प्रश्न उठाती है।
अनुसंधान दल और कार्यप्रणाली
येहोनाटन बिट्टन, शाई निसान और एलाद बिट्टन के नेतृत्व में Copyleaks डेटा साइंस टीम ने यह अभूतपूर्व शोध किया। उनकी कार्यप्रणाली एक ‘सर्वसम्मत जूरी’ दृष्टिकोण पर केंद्रित थी। इस दृष्टिकोण में तीन अलग-अलग पहचान प्रणालियाँ शामिल थीं, जिनमें से प्रत्येक को AI-जनित ग्रंथों को वर्गीकृत करने का काम सौंपा गया था। एक निर्णायक निर्णय तभी लिया जाता था जब तीनों प्रणालियाँ सहमत होती थीं।
परिचालन और बाजार निहितार्थ
नैतिक और बौद्धिक संपदा चिंताओं से परे, विचार करने के लिए व्यावहारिक परिचालन निहितार्थ हैं। मौजूदा मॉडलों पर अघोषित निर्भरता कई मुद्दों को जन्म दे सकती है:
- पूर्वाग्रहों का सुदृढीकरण: मूल मॉडल के भीतर मौजूदा पूर्वाग्रहों को कायम रखा जा सकता है।
- सीमित विविधता: आउटपुट की विविधता प्रतिबंधित हो सकती है, जिससे नवाचार बाधित हो सकता है।
- कानूनी और नैतिक जोखिम: अप्रत्याशित कानूनी या नैतिक परिणाम उत्पन्न हो सकते हैं।
इसके अलावा, डीपसीक के एक क्रांतिकारी, लागत प्रभावी प्रशिक्षण पद्धति के दावे, यदि OpenAI की तकनीक के अनधिकृत आसवन पर आधारित पाए जाते हैं, तो महत्वपूर्ण बाजार प्रभाव हो सकते हैं। इसने NVIDIA को एक दिन में $593 बिलियन के भारी नुकसान में योगदान दिया हो सकता है और संभावित रूप से डीपसीक को अनुचित प्रतिस्पर्धात्मक लाभ प्रदान किया हो सकता है।
एक कठोर दृष्टिकोण: एकाधिक क्लासिफायर का संयोजन
अनुसंधान पद्धति ने एक अत्यधिक कठोर दृष्टिकोण अपनाया, जिसमें तीन उन्नत AI क्लासिफायर को एकीकृत किया गया। इनमें से प्रत्येक क्लासिफायर को चार प्रमुख AI मॉडल से पाठ नमूनों पर सावधानीपूर्वक प्रशिक्षित किया गया था:
- Claude
- Gemini
- Llama
- OpenAI
इन क्लासिफायर को सूक्ष्म शैलीगत बारीकियों की पहचान करने के लिए डिज़ाइन किया गया था, जिनमें शामिल हैं:
- वाक्य संरचना: वाक्यों के भीतर शब्दों और वाक्यांशों की व्यवस्था।
- शब्दावली: शब्दों का चुनाव और उनकी आवृत्ति।
- वाक्यांश: अभिव्यक्ति की समग्र शैली और स्वर।
‘सर्वसम्मत जूरी’ प्रणाली: सटीकता सुनिश्चित करना
‘सर्वसम्मत जूरी’ प्रणाली कार्यप्रणाली का एक प्रमुख तत्व थी, जो झूठे सकारात्मक के खिलाफ एक मजबूत जांच सुनिश्चित करती थी। इस प्रणाली के लिए आवश्यक था कि तीनों क्लासिफायर स्वतंत्र रूप से एक वर्गीकरण पर सहमत हों, इससे पहले कि इसे अंतिम माना जाए। इस कड़े मानदंड के परिणामस्वरूप 99.88 प्रतिशत की असाधारण परिशुद्धता दर और केवल 0.04 प्रतिशत की उल्लेखनीय रूप से कम झूठी-सकारात्मक दर हुई। प्रणाली ने ज्ञात और अज्ञात दोनों AI मॉडल से ग्रंथों की सटीक पहचान करने की अपनी क्षमता का प्रदर्शन किया।
AI डिटेक्शन से परे: मॉडल-विशिष्ट एट्रिब्यूशन
Copyleaks के मुख्य डेटा वैज्ञानिक, शाई निसान ने कहा, ‘इस शोध के साथ, हम सामान्य AI पहचान से आगे बढ़ गए हैं जैसा कि हम जानते थे और मॉडल-विशिष्ट एट्रिब्यूशन में, एक सफलता जो मौलिक रूप से बदल देती है कि हम AI सामग्री तक कैसे पहुंचते हैं।’
मॉडल एट्रिब्यूशन का महत्व
निसान ने इस क्षमता के महत्व पर आगे जोर दिया: ‘यह क्षमता कई कारणों से महत्वपूर्ण है, जिसमें समग्र पारदर्शिता में सुधार, नैतिक AI प्रशिक्षण प्रथाओं को सुनिश्चित करना और, सबसे महत्वपूर्ण बात, AI प्रौद्योगिकियों के बौद्धिक संपदा अधिकारों की रक्षा करना और, उम्मीद है, उनके संभावित दुरुपयोग को रोकना शामिल है।’
गहराई में जाना: डीपसीक के दृष्टिकोण के निहितार्थ
इस शोध के निष्कर्षों के दूरगामी निहितार्थ हैं जो इस तात्कालिक प्रश्न से परे हैं कि क्या डीपसीक ने OpenAI के मॉडल की नकल की है। आइए इनमें से कुछ निहितार्थों को और विस्तार से देखें:
नवाचार का भ्रम
यदि डीपसीक का प्रशिक्षण OpenAI के मॉडल पर बहुत अधिक निर्भर करता है, तो यह इसके नवाचार की वास्तविक सीमा के बारे में सवाल उठाता है। जबकि डीपसीक ने अपने चैटबॉट को एक उपन्यास रचना के रूप में प्रस्तुत किया हो सकता है, अंतर्निहित तकनीक शुरू में दावा किए जाने की तुलना में कम अभूतपूर्व हो सकती है। यह उन उपयोगकर्ताओं और निवेशकों को गुमराह कर सकता है जो मानते हैं कि वे वास्तव में एक अद्वितीय AI प्रणाली के साथ बातचीत कर रहे हैं।
AI लैंडस्केप पर प्रभाव
अन्य मॉडलों पर प्रशिक्षित AI मॉडल को व्यापक रूप से अपनाने से AI लैंडस्केप पर एक समरूप प्रभाव पड़ सकता है। यदि कई AI सिस्टम अंततः कुछ मूलभूत मॉडलों से प्राप्त होते हैं, तो यह क्षेत्र में दृष्टिकोण और दृष्टिकोण की विविधता को सीमित कर सकता है। यह नवाचार को दबा सकता है और कम गतिशील और प्रतिस्पर्धी AI पारिस्थितिकी तंत्र का कारण बन सकता है।
अधिक पारदर्शिता की आवश्यकता
यह मामला AI मॉडल के विकास और परिनियोजन में अधिक पारदर्शिता की तत्काल आवश्यकता पर प्रकाश डालता है। उपयोगकर्ता और हितधारक यह जानने के हकदार हैं कि AI सिस्टम कैसे प्रशिक्षित होते हैं और किन डेटा स्रोतों का उपयोग किया जाता है। यह जानकारी इन प्रणालियों के संभावित पूर्वाग्रहों, सीमाओं और नैतिक निहितार्थों का आकलन करने के लिए महत्वपूर्ण है।
विनियमन की भूमिका
डीपसीक मामला AI उद्योग के अधिक विनियमन की आवश्यकता के बारे में बहस को भी बढ़ावा दे सकता है। सरकारों और नियामक निकायों को यह सुनिश्चित करने के लिए उपायों पर विचार करने की आवश्यकता हो सकती है कि AI डेवलपर्स नैतिक दिशानिर्देशों का पालन करें, बौद्धिक संपदा अधिकारों की रक्षा करें और पारदर्शिता को बढ़ावा दें।
AI विकास का भविष्य
डीपसीक के प्रशिक्षण विधियों के आसपास का विवाद AI विकास के भविष्य के बारे में एक व्यापक चर्चा के लिए उत्प्रेरक के रूप में काम कर सकता है। यह सर्वोत्तम प्रथाओं, नैतिक विचारों और AI सिस्टम के निर्माण में मौलिकता के महत्व के पुनर्मूल्यांकन को प्रेरित कर सकता है।
जिम्मेदार AI विकास के लिए एक आह्वान
डीपसीक मामला जिम्मेदार AI विकास के महत्व की याद दिलाता है। यह निम्नलिखित की आवश्यकता को रेखांकित करता है:
- मौलिकता: AI डेवलपर्स को मौजूदा मॉडलों पर बहुत अधिक निर्भर रहने के बजाय वास्तव में उपन्यास मॉडल बनाने का प्रयास करना चाहिए।
- पारदर्शिता: AI सिस्टम विकसित करने के लिए उपयोग किए जाने वाले प्रशिक्षण डेटा और पद्धतियों का खुलासा उपयोगकर्ताओं और हितधारकों के लिए किया जाना चाहिए।
- नैतिक विचार: AI विकास को नैतिक सिद्धांतों द्वारा निर्देशित किया जाना चाहिए, जिसमें निष्पक्षता, जवाबदेही और बौद्धिक संपदा अधिकारों का सम्मान शामिल है।
- सहयोग: AI समुदाय के भीतर खुला सहयोग और ज्ञान साझा करना नवाचार को बढ़ावा देने और मौजूदा पूर्वाग्रहों की प्रतिकृति को रोकने में मदद कर सकता है।
आगे का रास्ता: एक विविध और नैतिक AI भविष्य सुनिश्चित करना
अंतिम लक्ष्य एक विविध और नैतिक AI पारिस्थितिकी तंत्र बनाना होना चाहिए जहां नवाचार फलता-फूलता है और उपयोगकर्ता उन प्रणालियों पर भरोसा कर सकते हैं जिनके साथ वे बातचीत करते हैं। इसके लिए जिम्मेदार AI विकास प्रथाओं, पारदर्शिता और इस तेजी से विकसित हो रही तकनीक के नैतिक निहितार्थों के बारे में चल रही बातचीत के प्रति प्रतिबद्धता की आवश्यकता है। डीपसीक मामला एक मूल्यवान सबक के रूप में कार्य करता है, जो मौजूदा मॉडलों पर बहुत अधिक निर्भर रहने के संभावित नुकसान को उजागर करता है और AI उन्नति की खोज में मौलिकता और नैतिक विचारों के महत्व पर जोर देता है। AI का भविष्य हमारे द्वारा आज किए गए विकल्पों पर निर्भर करता है, और यह महत्वपूर्ण है कि हम सभी के लिए एक लाभकारी और न्यायसंगत भविष्य सुनिश्चित करने के लिए जिम्मेदार विकास को प्राथमिकता दें।
Copyleaks जांच के निष्कर्षों ने AI विकास के एक महत्वपूर्ण पहलू पर प्रकाश डाला है, और यह जरूरी है कि उद्योग एक अधिक पारदर्शी, नैतिक और अभिनव भविष्य को बढ़ावा देने के लिए इस अनुभव से सीखे।