डीपसीक के AI प्रशिक्षण: क्या गूगल का जेमिनी शामिल था?
हाल ही में यह अंदाज़ा लगाया गया है कि चीनी AI प्रयोगशाला, DeepSeek ने अपने नवीनतम पुनरावृत्ति, R1 तर्क AI मॉडल को प्रशिक्षित करने के लिए Google के Gemini AI मॉडल से डेटा का उपयोग किया होगा। इस मॉडल ने गणित और कोडिंग बेंचमार्क में मजबूत प्रदर्शन किया है। जबकि DeepSeek ने R1 को प्रशिक्षित करने के लिए उपयोग किए गए डेटा स्रोतों के बारे में चुप्पी साधी है, कई AI शोधकर्ताओं ने सुझाव दिया है कि Gemini, या कम से कम Gemini के कुछ हिस्सों ने एक भूमिका निभाई है।
साक्ष्य और आरोप
सैम पेच, मेलबर्न स्थित एक डेवलपर जो AI के लिए “भावनात्मक बुद्धिमत्ता” के मूल्यांकन बनाने में माहिर है, ने वह प्रस्तुत किया है जिसे वह विश्वास है कि DeepSeek मॉडल को Gemini द्वारा उत्पन्न आउटपुट का उपयोग करके प्रशिक्षित किया गया था। पेच ने X (पूर्व में ट्विटर) पर एक पोस्ट में उल्लेख किया कि DeepSeek का मॉडल, विशेष रूप से R1-0528 संस्करण, Google के Gemini 2.5 Pro द्वारा पसंद की जाने वाली भाषा और अभिव्यक्तियों के लिए एक वरीयता प्रदर्शित करता है।
इसके अलावा, एक अन्य डेवलपर, जो SpeechMap के निर्माता के छद्म नाम के तहत काम कर रहा है, AI के लिए एक “स्वतंत्र भाषण मूल्यांकन”, ने देखा है कि निष्कर्षों की ओर काम करते हुए DeepSeek मॉडल द्वारा उत्पन्न “विचार” Gemini ट्रेस से मिलते जुलते हैं। यह अवलोकन दावों में एक और परत जोड़ता है।
यह पहली बार नहीं है जब DeepSeek को प्रतिस्पर्धी AI मॉडल से डेटा का लाभ उठाने के आरोपों का सामना करना पड़ा है। दिसंबर में, डेवलपर्स ने देखा कि DeepSeek का V3 मॉडल अक्सर खुद को ChatGPT, OpenAI के लोकप्रिय चैटबॉट प्लेटफॉर्म के रूप में पहचानता है। इससे पता चला कि मॉडल को ChatGPT चैट लॉग पर प्रशिक्षित किया गया था, जिससे डेटा उपयोग प्रथाओं के बारे में चिंताएं बढ़ रही हैं।
गहरे आरोप: डिस्टिलेशन और डेटा एक्सफिल्ट्रेशन
इस साल की शुरुआत में, OpenAI ने फाइनेंशियल टाइम्स के साथ साझा किया कि उन्होंने डिस्टिलेशन नामक एक तकनीक के उपयोग से DeepSeek को जोड़ने वाले सबूतों की खोज की है। डिस्टिलेशन में बड़े, अधिक परिष्कृत मॉडल से डेटा निकालकर AI मॉडल को प्रशिक्षित करना शामिल है। ब्लूमबर्ग ने बताया कि Microsoft, OpenAI में एक प्रमुख सहयोगी और निवेशक, ने 2024 के अंत में OpenAI डेवलपर खातों के माध्यम से महत्वपूर्ण डेटा एक्सफिल्ट्रेशन का पता लगाया था। OpenAI का मानना है कि ये खाते DeepSeek से जुड़े हैं।
डिस्टिलेशन, जबकि स्वाभाविक रूप से अनैतिक नहीं है, समस्याग्रस्त हो जाता है जब यह सेवा की शर्तों का उल्लंघन करता है। OpenAI की शर्तें स्पष्ट रूप से ग्राहकों को प्रतिस्पर्धात्मक AI सिस्टम विकसित करने के लिए कंपनी के मॉडल आउटपुट का उपयोग करने से रोकती हैं। यह DeepSeek के इन शर्तों के पालन के बारे में गंभीर सवाल उठाता है।
AI प्रशिक्षण डेटा का संदिग्ध जल
यह स्वीकार करना महत्वपूर्ण है कि AI मॉडल अक्सर खुद को गलत पहचानते हैं और इसी तरह के शब्दों और वाक्यांशों पर अभिसरण करते हैं। यह खुले वेब की प्रकृति के कारण है, जो कई AI कंपनियों के लिए प्रशिक्षण डेटा का प्राथमिक स्रोत है। वेब तेजी से AI-जनरेटेड सामग्री से संतृप्त हो रहा है। कंटेंट फार्म क्लिकबेट बनाने के लिए AI का उपयोग कर रहे हैं, और बॉट Reddit और X जैसे प्लेटफार्मों को AI-जनरेटेड पोस्ट से भर रहे हैं।
यह “संदूषण” AI आउटपुट को प्रशिक्षण डेटासेट से प्रभावी ढंग से फ़िल्टर करना अविश्वसनीय रूप से चुनौतीपूर्ण बनाता है, यह सवाल और भी जटिल हो जाता है कि क्या DeepSeek ने जानबूझकर Gemini डेटा का उपयोग किया था।
विशेषज्ञ राय और परिप्रेक्ष्य
दावों को निर्णायक रूप से साबित करने में चुनौतियों के बावजूद, कुछ AI विशेषज्ञों का मानना है कि यह प्रशंसनीय है कि DeepSeek ने Google के Gemini से डेटा पर प्रशिक्षण लिया। गैर-लाभकारी AI अनुसंधान संस्थान AI2 के शोधकर्ता नाथन लैम्बर्ट ने X पर कहा, “अगर मैं DeepSeek होता, तो मैं निश्चित रूप से सबसे अच्छे API मॉडल से ढेर सारा सिंथेटिक डेटा बनाता। [DeepSeek के पास] GPU की कमी है और नकदी से भरा हुआ है। यह उनके लिए शाब्दिक रूप से प्रभावी रूप से अधिक कंप्यूट है।”
लैम्बर्ट का परिप्रेक्ष्य मौजूदा AI मॉडल का लाभ उठाने के लिए DeepSeek के लिए संभावित आर्थिक प्रोत्साहनों पर प्रकाश डालता है ताकि अपनी क्षमताओं को बढ़ाया जा सके, विशेष रूप से इसकी संसाधन बाधाओं को देखते हुए।
सुरक्षा उपाय और प्रतिउपाय
AI कंपनियों ने सुरक्षा उपायों को तेज कर दिया है, आंशिक रूप से डिस्टिलेशन जैसी प्रथाओं को रोकने के लिए। OpenAI ने अप्रैल में, कुछ उन्नत मॉडलों तक पहुंचने के लिए संगठनों को एक ID सत्यापन प्रक्रिया पूरी करने की आवश्यकता शुरू कर दी। इस प्रक्रिया में OpenAI के API द्वारा समर्थित देश से सरकार द्वारा जारी ID जमा करना शामिल है। चीन विशेष रूप से इस सूची से गायब है।
एक अन्य कदम में, Google ने हाल ही में अपने AI स्टूडियो डेवलपर प्लेटफ़ॉर्म के माध्यम से उपलब्ध मॉडलों द्वारा उत्पन्न ट्रेस को “संक्षेप” करना शुरू कर दिया है। यह Gemini ट्रेस पर प्रतिद्वंद्वी मॉडल को प्रशिक्षित करना अधिक कठिन बनाता है। इसी तरह, Anthropic ने मई में घोषणा की कि वह अपने “प्रतिस्पर्धी लाभों” की रक्षा करने की आवश्यकता का हवाला देते हुए अपने स्वयं के मॉडल के ट्रेस को संक्षेप में बताना शुरू कर देगा। ये उपाय AI मॉडल आउटपुट के संभावित दुरुपयोग और ऐसे जोखिमों को कम करने के लिए एक सक्रिय प्रयास के बारे में बढ़ती जागरूकता का संकेत देते हैं।
निहितार्थ और परिणाम
DeepSeek के खिलाफ आरोपों से AI प्रशिक्षण प्रथाओं की नैतिकता और वैधता के बारे में महत्वपूर्ण प्रश्न उठते हैं। यदि DeepSeek ने वास्तव में अपने R1 मॉडल को प्रशिक्षित करने के लिए Gemini डेटा का उपयोग किया, तो इसे कानूनी नतीजों और प्रतिष्ठा को नुकसान का सामना करना पड़ सकता है। यह स्थिति AI उद्योग में अधिक पारदर्शिता और विनियमन की आवश्यकता पर भी प्रकाश डालती है, विशेष रूप से डेटा सोर्सिंग और उपयोग के संबंध में।
DeepSeek के खिलाफ आरोप एक महत्वपूर्ण दुविधा को रेखांकित करते हैं: बौद्धिक संपदा की रक्षा करने और निष्पक्ष प्रतिस्पर्धा सुनिश्चित करने की आवश्यकता के साथ AI में नवाचार और उन्नति की इच्छा को कैसे संतुलित किया जाए। AI उद्योग तेजी से विकसित हो रहा है, और जटिल कानूनी और नैतिक परिदृश्य को नेविगेट करने के लिए स्पष्ट दिशानिर्देश और नैतिक ढांचे आवश्यक हैं। कंपनियों को अपने डेटा स्रोतों के बारे में पारदर्शी होना चाहिए और विश्वास बनाए रखने और संभावित कानूनी देनदारियों से बचने के लिए सेवा समझौते की शर्तों का पालन करना चाहिए।
इसके अलावा, प्रशिक्षण डेटासेट को दूषित करने वाली AI-जनित सामग्री का मुद्दा पूरे AI समुदाय के लिए एक बड़ी चुनौती पेश करता है। जैसे-जैसे AI मॉडल मानव-जनित और AI-जनित डेटा के बीच अंतर करना तेजी से मुश्किल होता जाता है, वैसे-वैसे आश्वस्त करने वाले पाठ, चित्र और सामग्री के अन्य रूपों को उत्पन्न करने में अधिक कुशल होते जाते हैं। यह “संदूषण” AI मॉडल के एक समरूपण का कारण बन सकता है, जहां वे सभी समान पूर्वाग्रहों और सीमाओं को प्रदर्शित करना शुरू करते हैं।
इस चुनौती का समाधान करने के लिए, AI कंपनियों को अधिक परिष्कृत डेटा फ़िल्टरिंग तकनीकों में निवेश करने और वैकल्पिक प्रशिक्षण डेटा स्रोतों का पता लगाने की आवश्यकता है। उन्हें अपने प्रशिक्षण डेटासेट की संरचना और AI-जनित सामग्री को फ़िल्टर करने के लिए उपयोग किए जाने वाले तरीकों के बारे में भी अधिक पारदर्शी होने की आवश्यकता है।
AI प्रशिक्षण के भविष्य को नेविगेट करना
DeepSeek विवाद AI प्रशिक्षण के भविष्य के बारे में अधिक सूक्ष्म चर्चा की तत्काल आवश्यकता को रेखांकित करता है। जैसे-जैसे AI मॉडल अधिक शक्तिशाली होते जाते हैं और डेटा अधिक दुर्लभ होता जाता है, कंपनियां कोनों को काटने और अनैतिक या अवैध प्रथाओं में शामिल होने के लिए लुभा सकती हैं। हालांकि, ऐसी प्रथाएं अंततः AI उद्योग की दीर्घकालिक स्थिरता और विश्वसनीयता को कमजोर करती हैं।
जिम्मेदार AI विकास को बढ़ावा देने वाले नैतिक दिशानिर्देशों और कानूनी ढांचों को विकसित करने के लिए शोधकर्ताओं, नीति निर्माताओं और उद्योग के नेताओं को शामिल करने वाले एक सहयोगी प्रयास की आवश्यकता है। इन दिशानिर्देशों में डेटा सोर्सिंग, पारदर्शिता और जवाबदेही जैसे मुद्दों को संबोधित किया जाना चाहिए। उन्हें कंपनियों को नैतिक और टिकाऊ AI प्रशिक्षण प्रथाओं में निवेश करने के लिए प्रोत्साहित करना चाहिए।
AI प्रशिक्षण के भविष्य के लिए मुख्य बातों पर विचार:
- पारदर्शिता: कंपनियों को अपने AI मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटा स्रोतों और AI-जनित सामग्री को फ़िल्टर करने के लिए उपयोग किए जाने वाले तरीकों के बारे में पारदर्शी होना चाहिए।
- नैतिकता: AI विकास को नैतिक सिद्धांतों का पालन करना चाहिए जो निष्पक्षता, जवाबदेही और बौद्धिक संपदा के प्रति सम्मान को बढ़ावा देते हैं।
- विनियमन: नीति निर्माताओं को स्पष्ट कानूनी ढांचे बनाने चाहिए जो AI प्रशिक्षण द्वारा प्रस्तुत अनूठी चुनौतियों का समाधान करें।
- सहयोग: शोधकर्ताओं, नीति निर्माताओं और उद्योग के नेताओं को AI विकास के लिए नैतिक दिशानिर्देशों और सर्वोत्तम प्रथाओं को विकसित करने के लिए सहयोग करना चाहिए।
- डेटा विविधता: AI प्रशिक्षण को पूर्वाग्रह को कम करने और AI मॉडल के समग्र प्रदर्शन में सुधार करने के लिए डेटा विविधता को प्राथमिकता देनी चाहिए।
- स्थिरता: AI प्रशिक्षण को स्थायी तरीके से आयोजित किया जाना चाहिए, जिससे इसके पर्यावरणीय प्रभाव को कम किया जा सके।
- सुरक्षा: सुरक्षा उपायों को AI मॉडल और प्रशिक्षण डेटा को अनधिकृत पहुंच और उपयोग से बचाना चाहिए।
इन प्रमुख बातों पर विचार करके, AI उद्योग यह सुनिश्चित कर सकता है कि AI विकास एक जिम्मेदार और नैतिक तरीके से आयोजित किया जाए, जिससे संभावित जोखिमों को कम करते हुए नवाचार को बढ़ावा मिले।
आगे का रास्ता
DeepSeek के खिलाफ लगाए गए आरोप AI समुदाय के लिए एक वेक-अप कॉल का काम करते हैं। वे AI विकास में अधिक पारदर्शिता, नैतिक आचरण और मजबूत सुरक्षा उपायों की महत्वपूर्ण आवश्यकता को रेखांकित करते हैं। जैसे-जैसे AI हमारे जीवन के विभिन्न पहलुओं में व्याप्त है, यह अनिवार्य है कि हम इसके जिम्मेदार और लाभकारी उपयोग को सुनिश्चित करने के लिए स्पष्ट सीमाएँ और नैतिक दिशानिर्देश स्थापित करें।
DeepSeek मामला, इसके अंतिम परिणाम की परवाह किए बिना, निस्संदेह AI नैतिकता के आसपास चल रही चर्चा को आकार देगा और AI विकास के भविष्य के प्रक्षेपवक्र को प्रभावित करेगा। यह एक अनुस्मारक के रूप में कार्य करता है कि नवाचार की खोज को नैतिक सिद्धांतों के प्रति प्रतिबद्धता और हमारे कार्यों के संभावित परिणामों की मान्यता के साथ संयमित किया जाना चाहिए। AI का भविष्य इन जटिल चुनौतियों को ज्ञान और दूरदर्शिता के साथ नेविगेट करने की हमारी क्षमता पर निर्भर करता है।
साक्ष्य और आरोप
सैम Paech, मेलबर्न स्थित एक डेवलपर जो AI के लिए “भावनात्मक बुद्धिमत्ता” (emotional intelligence) के मूल्यांकन बनाने में माहिर है, ने वह प्रस्तुत किया है जिसे वह विश्वास है कि DeepSeek मॉडल को Gemini by Google द्वारा उत्पन्न आउटपुट का उपयोग करके प्रशिक्षित किया गया था। Paech ने X (पूर्व में Twitter) पर एक पोस्ट में उल्लेख किया कि DeepSeek का मॉडल, विशेष रूप से R1-0528 संस्करण, Google के Gemini 2.5 Pro द्वारा पसंद की जाने वाली भाषा और अभिव्यक्तियों के लिए एक वरीयता प्रदर्शित करता है।
इसके अलावा, एक अन्य डेवलपर, जो SpeechMap के निर्माता के छद्म नाम के तहत काम कर रहा है, AI के लिए एक “स्वतंत्र भाषण मूल्यांकन” (free speech eval), ने देखा है कि निष्कर्षों की ओर काम करते हुए DeepSeek मॉडल द्वारा उत्पन्न “विचार” Gemini ट्रेस से मिलते जुलते हैं। यह अवलोकन दावों में एक और परत जोड़ता है।
गहरे आरोप: डिस्टिलेशन और डेटा एक्सफिल्ट्रेशन
इस साल की शुरुआत में, OpenAI ने फाइनेंशियल टाइम्स के साथ साझा किया कि उन्होंने डिस्टिलेशन (distillation) नामक एक तकनीक के उपयोग से DeepSeek को जोड़ने वाले सबूतों की खोज की है। डिस्टिलेशन में बड़े, अधिक परिष्कृत मॉडल से डेटा निकालकर AI मॉडल को प्रशिक्षित करना शामिल है। Bloomberg ने बताया कि Microsoft, OpenAI में एक प्रमुख सहयोगी और निवेशक, ने 2024 के अंत में OpenAI डेवलपर खातों के माध्यम से महत्वपूर्ण डेटा एक्सफिल्ट्रेशन (data exfiltration) का पता लगाया था। OpenAI का मानना है कि ये खाते DeepSeek से जुड़े हैं।
डिस्टिलेशन (distillation), जबकि स्वाभाविक रूप से अनैतिक नहीं है, समस्याग्रस्त हो जाता है जब यह सेवा की शर्तों (terms of service) का उल्लंघन करता है। OpenAI की शर्तें स्पष्ट रूप से ग्राहकों को प्रतिस्पर्धात्मक AI सिस्टम विकसित करने के लिए कंपनी के मॉडल आउटपुट का उपयोग करने से रोकती हैं।
AI प्रशिक्षण डेटा का संदिग्ध जल
यह स्वीकार करना महत्वपूर्ण है कि AI मॉडल अक्सर खुद को गलत पहचानते हैं और इसी तरह के शब्दों और वाक्यांशों पर अभिसरण करते हैं। यह खुले वेब (open web) की प्रकृति के कारण है, जो कई AI कंपनियों के लिए प्रशिक्षण डेटा का प्राथमिक स्रोत है। वेब तेजी से AI-जनरेटेड सामग्री (AI-generated content) से संतृप्त हो रहा है। कंटेंट फार्म (content farm) क्लिकबेट बनाने के लिए AI का उपयोग कर रहे हैं, और बॉट Reddit और X जैसे प्लेटफार्मों को AI-जनरेटेड पोस्ट से भर रहे हैं।
यह “संदूषण” AI आउटपुट को प्रशिक्षण डेटासेट से प्रभावी ढंग से फ़िल्टर करना अविश्वसनीय रूप से चुनौतीपूर्ण बनाता है।
सुरक्षा उपाय और प्रतिउपाय
AI कंपनियों ने सुरक्षा उपायों (security measure) को तेज कर दिया है, आंशिक रूप से डिस्टिलेशन (distillation) जैसी प्रथाओं को रोकने के लिए। OpenAI ने अप्रैल में, कुछ उन्नत मॉडलों तक पहुंचने के लिए संगठनों को एक ID सत्यापन प्रक्रिया (ID verification process) पूरी करने की आवश्यकता शुरू कर दी। इस प्रक्रिया में OpenAI API के द्वारा समर्थित देश से सरकार द्वारा जारी ID जमा करना शामिल है।
निहितार्थ और परिणाम
DeepSeek के खिलाफ आरोपों से AI प्रशिक्षण प्रथाओं की नैतिकता और वैधता के बारे में महत्वपूर्ण प्रश्न उठते हैं। यदि DeepSeek ने वास्तव में अपने R1 मॉडल को प्रशिक्षित करने के लिए Gemini डेटा का उपयोग किया, तो इसे कानूनी नतीजों और प्रतिष्ठा को नुकसान का सामना करना पड़ सकता है। यह स्थिति AI उद्योग में अधिक पारदर्शिता और विनियमन की आवश्यकता पर भी प्रकाश डालती है।