एआई दुनिया में अटकलों का बाजार गर्म है, खासकर डीपसीक के R1 रीजनिंग मॉडल के बेहतर संस्करण के हालिया रिलीज के बाद। इस चीनी एआई लैब ने एक ऐसा मॉडल पेश किया है जो गणित और कोडिंग बेंचमार्क में प्रभावशाली क्षमताएं प्रदर्शित करता है। हालांकि, इस मॉडल को प्रशिक्षित करने के लिए उपयोग किए गए डेटा की उत्पत्ति चर्चा का केंद्र बन गई है, कुछ एआई शोधकर्ताओं ने गूगल के जेमिनी एआई परिवार के साथ संभावित लिंक का सुझाव दिया है।
डीपसीक का R1 मॉडल: एक करीबी नजर
डीपसीक के R1 रीजनिंग मॉडल ने गणितीय समस्या-समाधान और कोडिंग कार्यों जैसे क्षेत्रों में अपने प्रदर्शन के लिए ध्यान आकर्षित किया है। कंपनी की मॉडल के प्रशिक्षण में उपयोग किए गए विशिष्ट डेटा स्रोतों का खुलासा करने में अनिच्छा ने एआई अनुसंधान समुदाय के भीतर अटकलों को हवा दी है।
जेमिनी के प्रभाव के आरोप
बहस का मूल इस संभावना के इर्द-गिर्द घूमता है कि डीपसीक ने अपने स्वयं के मॉडल को बढ़ाने के लिए गूगल के जेमिनी से आउटपुट का लाभ उठाया। “भावनात्मक बुद्धिमत्ता” मूल्यांकन में विशेषज्ञता रखने वाले एआई डेवलपर सैम पेच ने सबूत पेश किए जो सुझाव देते हैं कि डीपसीक का R1-0528 मॉडल गूगल के जेमिनी 2.5 प्रो द्वारा समर्थित भाषा और अभिव्यक्तियों के लिए प्राथमिकताएं प्रदर्शित करता है। हालांकि यह अवलोकन अकेले निर्णायक प्रमाण नहीं है, लेकिन इसने चल रही चर्चा में योगदान दिया है।
चर्चा में एक और परत जोड़ते हुए, “स्पीचमैप” के गुमनाम निर्माता ने, जो एक एआई मूल्यांकन उपकरण है जो मुफ्त भाषण पर केंद्रित है, ने उल्लेख किया कि डीपसीक मॉडल द्वारा उत्पन्न “विचार” - आंतरिक तर्क प्रक्रियाएं जो निष्कर्षों तक पहुंचने के लिए उपयोग की जाती हैं - जेमिनी के ट्रेस पैटर्न के समान हैं। इससे यह सवाल और भी गहरा हो जाता है कि क्या डीपसीक ने गूगल के जेमिनी परिवार से डेटा का उपयोग किया है।
पिछले आरोप और OpenAI की चिंताएं
ऐसा पहली बार नहीं है जब डीपसीक को प्रतिस्पर्धी एआई मॉडल से डेटा का उपयोग करने के आरोपों का सामना करना पड़ा है। दिसंबर में, यह देखा गया कि डीपसीक का V3 मॉडल अक्सर खुद को OpenAI के व्यापक रूप से इस्तेमाल किए जाने वाले एआई चैटबॉट चैटजीपीटी के रूप में पहचानता है। इससे संदेह पैदा हुआ कि मॉडल को चैटजीपीटी चैट लॉग पर प्रशिक्षित किया गया होगा।
साज़िश को बढ़ाते हुए, OpenAI ने कथित तौर पर इस साल की शुरुआत में डीपसीक को डिस्टिलेशन के उपयोग से जोड़ने वाले सबूतों की खोज की, एक तकनीक जिसमें छोटे लोगों को प्रशिक्षित करने के लिए बड़े, अधिक शक्तिशाली एआई मॉडल से डेटा निकालना शामिल है। रिपोर्टों के अनुसार, माइक्रोसॉफ्ट, OpenAI में एक प्रमुख सहयोगी और निवेशक, ने 2024 के अंत में OpenAI डेवलपर खातों के माध्यम से महत्वपूर्ण डेटा एक्सफिल्ट्रेशन का पता लगाया। OpenAI का मानना है कि ये खाते डीपसीक से जुड़े हैं।
जबकि डिस्टिलेशन एआई दुनिया में एक आम बात है, OpenAI की सेवा की शर्तें स्पष्ट रूप से उपयोगकर्ताओं को प्रतिस्पर्धात्मक एआई सिस्टम बनाने के लिए कंपनी के मॉडल आउटपुट का उपयोग करने से रोकती हैं। इससे OpenAI की नीतियों के संभावित उल्लंघनों के बारे में चिंताएं बढ़ जाती हैं।
एआई “संदूषण” की चुनौती
यह विचार करना महत्वपूर्ण है कि एआई मॉडल, प्रशिक्षण के दौरान, समान शब्दावली और वाक्यांशों पर अभिसरित हो सकते हैं। ऐसा इसलिए है क्योंकि खुला वेब, एआई कंपनियों के लिए प्रशिक्षण डेटा का प्राथमिक स्रोत, एआई-जनित सामग्री से तेजी से संतृप्त हो रहा है। सामग्री फ़ार्म क्लिकबैट लेखों का उत्पादन करने के लिए एआई का उपयोग करते हैं, और बॉट रेडिट और एक्स जैसे प्लेटफार्मों को एआई-जनित पोस्ट के साथ भर देते हैं।
डेटा परिदृश्य का यह “संदूषण” प्रशिक्षण डेटासेट से एआई-जनित सामग्री को प्रभावी ढंग से फ़िल्टर करना चुनौतीपूर्ण बनाता है। नतीजतन, यह पता लगाना मुश्किल हो सकता है कि क्या किसी मॉडल का आउटपुट वास्तव में किसी अन्य मॉडल के डेटा से प्राप्त हुआ है या बस वेब पर एआई-जनित सामग्री की सर्वव्यापी उपस्थिति को दर्शाता है।
मामले पर विशेषज्ञ परिप्रेक्ष्य
निश्चित रूप से लिंक साबित करने में आने वाली चुनौतियों के बावजूद, AI2 एआई अनुसंधान संस्थान के एक शोधकर्ता नाथन लैम्बर्ट जैसे एआई विशेषज्ञों का मानना है कि डीपसीक को गूगल के जेमिनी के डेटा पर प्रशिक्षण देने की संभावना प्रशंसनीय है। लैम्बर्ट का सुझाव है कि GPU उपलब्धता में बाधाओं का सामना करते हुए लेकिन पर्याप्त वित्तीय संसाधनों के मालिक डीपसीक को सर्वश्रेष्ठ उपलब्ध API मॉडल द्वारा उत्पन्न सिंथेटिक डेटा का उपयोग करना अधिक कुशल लग सकता है।
एआई कंपनियां सुरक्षा उपाय बढ़ाती हैं
डिस्टिलेशन और अनधिकृत डेटा उपयोग के बारे में चिंताएं एआई कंपनियों को अपने सुरक्षा उपायों को मजबूत करने के लिए प्रेरित कर रही हैं। उदाहरण के लिए, OpenAI को अब संगठनों को कुछ उन्नत मॉडलों तक पहुंचने के लिए एक आईडी सत्यापन प्रक्रिया पूरी करने की आवश्यकता है। इस प्रक्रिया के लिए OpenAI के API द्वारा समर्थित देश से सरकार द्वारा जारी आईडी की आवश्यकता होती है, जिसमें चीन शामिल नहीं है।
गूगल ने डिस्टिलेशन की संभावना को कम करने के लिए भी कदम उठाए हैं। उन्होंने हाल ही में अपने एआई स्टूडियो डेवलपर प्लेटफॉर्म के माध्यम से उपलब्ध मॉडलों द्वारा उत्पन्न ट्रेस को “संक्षेप” करना शुरू कर दिया है। इससे जेमिनी ट्रेस से विस्तृत जानकारी निकालकर प्रतिस्पर्धी मॉडलों को प्रशिक्षित करना अधिक कठिन हो जाता है। इसी तरह, एंथ्रोपिक ने अपने “प्रतिस्पर्धी लाभों” की रक्षा की आवश्यकता का हवाला देते हुए अपने स्वयं के मॉडल के ट्रेस को संक्षेप में बताने की योजना की घोषणा की।
एआई परिदृश्य के लिए निहितार्थ
डीपसीक और गूगल के जेमिनी डेटा के संभावित उपयोग के आसपास का विवाद एआई परिदृश्य में कई महत्वपूर्ण मुद्दों पर प्रकाश डालता है:
- डेटा नैतिकता और जिम्मेदार एआई विकास: जैसे-जैसे एआई मॉडल तेजी से परिष्कृत होते जाते हैं, डेटा सोर्सिंग और उपयोग से जुड़े नैतिक विचार सर्वोपरि होते जाते हैं। एआई कंपनियों को यह सुनिश्चित करने की आवश्यकता है कि वे नैतिक दिशानिर्देशों का पालन कर रहे हैं और दूसरों के बौद्धिक संपदा अधिकारों का सम्मान कर रहे हैं।
- एआई-जनित सामग्री का प्रभाव: वेब पर एआई-जनित सामग्री का प्रसार एआई प्रशिक्षण के लिए एक चुनौती है। जैसे-जैसे डेटा तेजी से “दूषित” होता जाता है, एआई मॉडल की गुणवत्ता और अखंडता सुनिश्चित करना अधिक कठिन होता जाता है।
- ** पारदर्शिता और जवाबदेही की आवश्यकता:** एआई कंपनियों को अपने डेटा स्रोतों और प्रशिक्षण विधियों के बारे में पारदर्शी होना चाहिए। इससे विश्वास बनाने में मदद मिलेगी और यह सुनिश्चित होगा कि एआई को जिम्मेदारी से विकसित और उपयोग किया जा रहा है।
- मजबूत सुरक्षा उपायों का महत्व: जैसे-जैसे एआई उद्योग अधिक प्रतिस्पर्धी होता जाता है, एआई कंपनियों को अपने डेटा और मॉडल तक अनधिकृत पहुंच को रोकने के लिए मजबूत सुरक्षा उपायों को लागू करने की आवश्यकता होती है।
एआई विकास का भविष्य
डीपसीक विवाद एआई उद्योग के सामने आने वाली जटिल नैतिक और तकनीकी चुनौतियों की याद दिलाता है। जैसे-जैसे एआई का विकास जारी है, यह महत्वपूर्ण है कि एआई कंपनियां, शोधकर्ता और नीति निर्माता यह सुनिश्चित करने के लिए मिलकर काम करें कि एआई को इस तरह से विकसित और उपयोग किया जाए जिससे समाज को लाभ हो। इसमें पारदर्शिता, जवाबदेही और नैतिक डेटा प्रथाओं को बढ़ावा देना शामिल है।
चल रही बहस: डीपसीक के खिलाफ आरोप डेटा गोपनीयता, सुरक्षा और नैतिक एआई विकास से जुड़ी बढ़ती चिंताओं को उजागर करते हैं। डेटा सोर्सिंग में पारदर्शिता की कमी और वैध डेटा संग्रह और अनधिकृत डेटा स्क्रैपिंग के बीच लगातार धुंधली होती रेखाएं एआई समुदाय के भीतर स्पष्ट नियमों और जिम्मेदार प्रथाओं की मांग करती हैं। जैसे-जैसे प्रौद्योगिकी आगे बढ़ती है, उद्योग को बौद्धिक संपदा अधिकारों, “एआई संदूषण” के जोखिम और अनपेक्षित परिणामों की संभावना जैसे मुद्दों से जूझना चाहिए।
एआई प्रशिक्षण डेटा की नैतिकता: डीपसीक के आसपास का विवाद एआई मॉडल के लिए प्रशिक्षण डेटा जमा करते समय खेलने वाले नैतिक विचारों पर भी प्रकाश डालता है। इंटरनेट से स्क्रैप किए गए विशाल डेटासेट पर बढ़ती निर्भरता के साथ, सवाल जैसे कि डेटा का मालिक कौन है, सहमति कैसे प्राप्त की जाती है (या अनदेखी की जाती है), और क्या डेटा का उपयोग निष्पक्ष रूप से और जिम्मेदारी से किया जाता है, और अधिक जरूरी होते जा रहे हैं। एआई समुदाय को डेटा सोर्सिंग के लिए स्पष्ट दिशानिर्देश स्थापित करने चाहिए जो कॉपीराइट कानूनों का सम्मान करते हैं, व्यक्तिगत जानकारी की सुरक्षा करते हैं और पूर्वाग्रह को कम करते हैं।
एआई डोमिनेंस के लिए दौड़: डीपसीक के खिलाफ आरोपों को संयुक्त राज्य अमेरिका और चीन के बीच एआई डोमिनेंस के लिए तीव्र दौड़ के प्रतिबिंब के रूप में भी समझा जा सकता है। दोनों देश एआई अनुसंधान और विकास में अरबों डॉलर डाल रहे हैं, और सफलताओं को प्राप्त करने का दबाव प्रतिस्पर्धा को बढ़ावा दे रहा है और संभावित रूप से कोनों को काट रहा है। यदि डीपसीक वास्तव में OpenAI या गूगल डेटा का उपयोग बिना अनुमति के कर रहा है, तो इसे आक्रामक रणनीति और बौद्धिक संपदा चोरी के एक उदाहरण के रूप में समझा जा सकता है जिसने लंबे समय से अमेरिका-चीन तकनीकी संबंध को त्रस्त कर रखा है।
एआई इकोसिस्टम के लिए व्यापक निहितार्थ: जबकि ध्यान वर्तमान में डीपसीक पर है, इस मामले के पूरे एआई इकोसिस्टम के लिए व्यापक निहितार्थ हो सकते हैं। यदि यह साबित हो जाता है कि डीपसीक ने अवैध रूप से चैटजीपीटी या जेमिनी से डेटा का उपयोग किया है, तो यह अन्य कंपनियों को अपने स्वयं के डेटा सोर्सिंग प्रथाओं का कड़ाई से ऑडिट करने के लिए प्रेरित कर सकता है, जिससे संभावित रूप से विकास की गति धीमी हो सकती है और लागत बढ़ सकती है। यह डेटा संग्रह और उपयोग के आसपास सख्त नियमों की ओर भी ले जा सकता है, न केवल अमेरिका और चीन में, बल्कि विश्व स्तर पर भी।
सिंथेटिक रूप से उत्पन्न डेटा का प्रभाव: सिंथेटिक डेटा का उदय, लैम्बर्ट द्वारा प्रस्तावित, मॉडल को प्रशिक्षण देने के लिए एक व्यवहार्य विकल्प के रूप में एआई विकास के भविष्य के बारे में मौलिक सवाल उठाता है। जबकि सिंथेटिक डेटासेट वास्तविक दुनिया के डेटा से संबंधित कुछ नैतिक और कॉपीराइट चिंताओं को दरकिनार कर देते हैं, सिंथेटिक डेटासेट पर प्रशिक्षित मॉडल का प्रदर्शन और मजबूती अक्सर मूल डेटा पर प्रशिक्षित मॉडल से मेल खाने में विफल रहती है। एआई समुदाय को परिष्कृत सिंथेटिक डेटासेट उत्पन्न करने के लिए नवीन दृष्टिकोण खोजने की आवश्यकता है जो सटीकता और विश्वसनीयता से समझौता किए बिना उद्योग की जरूरतों को पूरा करते हैं।
मॉडल संक्षेपण डेटा गवर्नेंस के एक रूप में: गूगल और एंथ्रोपिक का हालिया निर्णय उनके मॉडलों द्वारा उत्पन्न ट्रेस को “संक्षेप” करना शुरू करना एआई उद्योग में डेटा गवर्नेंस के बढ़ते महत्व को दर्शाता है। मॉडलों की निर्णय लेने की प्रक्रियाओं के भीतर विस्तृत जानकारी को अस्पष्ट करके, कंपनियां दूसरों के लिए उनकी तकनीकों को रिवर्स-इंजीनियर करना अधिक कठिन बना रही हैं। यह दृष्टिकोण व्यापार रहस्यों की रक्षा करने और नैतिक डेटा सोर्सिंग प्रथाओं को बनाए रखने में मदद कर सकता है, लेकिन यह एआई सिस्टम की पारदर्शिता और व्याख्या में भी सवाल उठाता है।
नैतिक और कानूनी विचारों के साथ नवाचार को संतुलित करना: डीपसीक विवाद एआई नवाचार को प्रोत्साहित करने और बौद्धिक संपदा अधिकारों की रक्षा करने और नैतिक सिद्धांतों के पालन को सुनिश्चित करने के बीच एक सावधानीपूर्वक संतुलन बनाने की आवश्यकता को रेखांकित करता है। जैसे-जैसे एआई मॉडल परिष्कार और जटिलता में बढ़ते जा रहे हैं, उद्योग के सामने आने वाली नैतिक और कानूनी चुनौतियाँ और अधिक स्पष्ट होती जाएँगी। इन चिंताओं के बीच सही संतुलन खोजना एआई के जिम्मेदार और टिकाऊ विकास को बढ़ावा देने के लिए महत्वपूर्ण होगा।