एI जग DeepSeek च्या R1 मॉडेलच्या सुधारित आवृत्तीच्या प्रकाशनानंतर चर्चेत आहे. या चिनी AI प्रयोगशाळेने एक मॉडेल सादर केले आहे जे गणित आणि कोडिंग बेंचमार्क मध्ये प्रभावी क्षमता दर्शवते. तथापि, हे मॉडेल प्रशिक्षित करण्यासाठी वापरल्या जाणार्या डेटाचा स्रोत चर्चेचा विषय बनला आहे, काही AI संशोधकांनी Google च्या Gemini AI कुटुंबाशी संभाव्य संबंध असल्याचे सूचित केले आहे.
DeepSeek चे R1 मॉडेल: एक जवळून दृष्टीक्षेप
DeepSeek च्या R1 मॉडेलने गणितीय समस्या सोडवणे आणि कोडिंग कार्ये यांसारख्या क्षेत्रांतील कामगिरीमुळे लक्ष वेधले आहे. कंपनीने मॉडेलच्या प्रशिक्षणात वापरलेले विशिष्ट डेटा स्रोत उघड करण्यास नाखूष दर्शविल्यामुळे AI संशोधन समुदायात तर्कवितर्क वाढला आहे.
Gemini च्या प्रभावाचे आरोप
या वादाचा मूळ मुद्दा DeepSeek ने Google च्या Gemini कडून मिळालेल्या आऊटपुटचा उपयोग करून त्यांचे स्वतःचे मॉडेल सुधारले आहे, या शक्यतेवर आधारित आहे. “भावनिक बुद्धिमत्ता” मूल्यांकनामध्ये तज्ञ असलेले AI डेव्हलपर सॅम पॅच यांनी पुरावा सादर केला आहे की DeepSeek चे R1-0528 मॉडेल Google च्या Gemini 2.5 Pro द्वारे समर्थित भाषा आणि अभिव्यक्तींना प्राधान्य देते. जरी हे निरीक्षण निर्णायक पुरावा नसले तरी, त्याने चालू असलेल्या चर्चेत योगदान दिले आहे.
या चर्चेत आणखी एक पदर जोडताना, “स्पीचमॅप” च्या अनामिक निर्मात्याने, जे मुक्त भाषणावर लक्ष केंद्रित करणारे AI मूल्यांकन साधन आहे, नमूद केले की DeepSeek मॉडेलद्वारे व्युत्पन्न केलेले “विचार” - निष्कर्षापर्यंत पोहोचण्यासाठी वापरल्या जाणार्या अंतर्गत तर्क प्रक्रिया - Gemini च्या ट्रेस पॅटर्नसारखेच आहेत. DeepSeek ने Google च्या Gemini कुटुंबातील डेटा वापरला आहे की नाही या प्रश्नाची तीव्रता आणखी वाढवते.
मागील आरोप आणि OpenAI च्या चिंता
DeepSeek वर प्रतिस्पर्धी AI मॉडेलमधील डेटा वापरल्याचा आरोप होण्याची ही पहिली वेळ नाही. डिसेंबरमध्ये, असे दिसून आले की DeepSeek चे V3 मॉडेल अनेकदा स्वतःला ChatGPT म्हणून ओळखत होते, जे OpenAI चे मोठ्या प्रमाणावर वापरले जाणारे AI चॅटबॉट आहे. यामुळे मॉडेलला ChatGPT चॅट लॉगवर प्रशिक्षित केले गेले असावे, असा संशय निर्माण झाला.
या व्यतिरिक्त, OpenAI ने या वर्षाच्या सुरुवातीला DeepSeek ला डिस्टिलेशन वापरण्याशी जोडणारा पुरावा शोधल्याचे वृत्त आहे, हे एक तंत्र आहे ज्यामध्ये मोठ्या, अधिक शक्तिशाली AI मॉडेलमधून डेटा काढून लहान मॉडेलला प्रशिक्षित केले जाते. अहवालानुसार, Microsoft ने, OpenAI मधील एक महत्त्वाचा सहयोगी आणि गुंतवणूकदार, 2024 च्या उत्तरार्धात OpenAI डेव्हलपर खात्यांद्वारे महत्त्वपूर्ण डेटा एक्स्फिल्ट्रेशन (data exfiltration) शोधले. OpenAI चा असा विश्वास आहे की ही खाती DeepSeek शी संबंधित आहेत.
डिस्टिलेशन ही AI जगात एक सामान्य प्रथा असली तरी, OpenAI च्या सेवेच्या अटी स्पष्टपणे वापरकर्त्यांना प्रतिस्पर्धी AI प्रणाली तयार करण्यासाठी कंपनीच्या मॉडेल आऊटपुट वापरण्यास मनाई करतात. यामुळे OpenAI च्या धोरणांचे उल्लंघन होण्याची शक्यता आहे.
AI “दूषितता” चे आव्हान
हे लक्षात घेणे महत्त्वाचे आहे की AI मॉडेल प्रशिक्षणादरम्यान समान शब्दसंग्रह आणि वाक्यरचनांवर एकत्रित होऊ शकतात. याचे मुख्य कारण म्हणजे AI कंपन्यांसाठी प्रशिक्षण डेटाचा प्राथमिक स्रोत असलेले खुले वेब AI-व्युत्पन्न सामग्रीने अधिकाधिक भरलेले आहे. कंटेंट फार्म क्लिकब Bait लेख तयार करण्यासाठी AI चा वापर करतात आणि बॉट्स Reddit आणि X सारख्या प्लॅटफॉर्मवर AI-व्युत्पन्न पोस्ट्सचा पूर आणतात.
डेटा लँडस्केपच्या या “दूषिततेमुळे” प्रशिक्षण डेटासेटमधून AI-व्युत्पन्न सामग्री प्रभावीपणे फिल्टर करणे अधिक कठीण होते. परिणामी, मॉडेलचे आऊटपुट खरोखरच दुसर्या मॉडेलच्या डेटावरुन घेतले गेले आहे की फक्त वेबवर AI-व्युत्पन्न सामग्रीची सर्वव्यापी उपस्थिती दर्शवते हे ओळखणे कठीण होऊ शकते.
या प्रकरणावर तज्ञांचे दृष्टीकोन
निश्चितपणे दुवा सिद्ध करण्यातील आव्हानांना न जुमानता, AI संशोधन संस्थेतील (AI2) संशोधक नॅथन लॅम्बर्ट यांसारख्या AI तज्ञांचा असा विश्वास आहे की DeepSeek ने Google च्या Gemini च्या डेटावर प्रशिक्षण दिले असण्याची शक्यता आहे. लॅम्बर्ट सूचित करतात की DeepSeek GPU च्या उपलब्धतेतील अडचणींचा सामना करत आहे, परंतु त्यांच्याकडे पुरेसा आर्थिक निधी आहे, त्यामुळे सर्वोत्तम उपलब्ध API मॉडेलद्वारे व्युत्पन्न केलेला सिंथेटिक डेटा वापरणे अधिक कार्यक्षम वाटू शकते.
AI कंपन्या सुरक्षा उपायांमध्ये वाढ करतात
डिस्टिलेशन आणि अनधिकृत डेटा वापराच्या चिंतेमुळे AI कंपन्या त्यांच्या सुरक्षा उपायांमध्ये वाढ करत आहेत. उदाहरणार्थ, OpenAI ला आता काही प्रगत मॉडेलमध्ये प्रवेश करण्यासाठी संस्थांना ID पडताळणी प्रक्रिया पूर्ण करणे आवश्यक आहे. या प्रक्रियेसाठी OpenAI च्या API द्वारे समर्थित देशातील सरकार-जारी केलेल्या ID ची आवश्यकता आहे, ज्यामध्ये चीनचा समावेश नाही.
Google ने देखील डिस्टिलेशनची शक्यता कमी करण्यासाठी पाऊले उचलली आहेत. त्यांनी अलीकडेच त्यांच्या AI Studio डेव्हलपर प्लॅटफॉर्मद्वारे उपलब्ध असलेल्या मॉडेल्सद्वारे व्युत्पन्न केलेल्या ट्रेसेसचे “संक्षेपण” करणे सुरू केले आहे. यामुळे Gemini ट्रेसेसमधून तपशीलवार माहिती काढून प्रतिस्पर्धी मॉडेल्सना प्रशिक्षित करणे अधिक कठीण होते. त्याचप्रमाणे, Anthropic ने त्याच्या स्वतःच्या मॉडेलच्या ट्रेसेसचे संक्षेपण करण्याची योजना जाहीर केली आहे, आणि याचे कारण म्हणजे त्याचे “स्पर्धात्मक फायदे” जपण्याची गरज आहे.
AI परिदृश्यासाठी त्याचे निहितार्थ
DeepSeek आणि Google च्या Gemini डेटाच्या संभाव्य वापराभोवतीचा वाद AI परिदृश्यातील अनेक महत्त्वपूर्ण समस्यांवर प्रकाश टाकतो:
- डेटा नैतिकता आणि जबाबदार AI विकास: AI मॉडेल्स अधिकाधिक अत्याधुनिक होत असल्याने, डेटा सोर्सिंग आणि वापराशी संबंधित नैतिक विचार महत्त्वाचे ठरतात. AI कंपन्यांनी हे सुनिश्चित करणे आवश्यक आहे की ते नैतिक मार्गदर्शक तत्त्वांचे पालन करत आहेत आणि इतरांच्या बौद्धिक संपदा अधिकारांचा आदर करत आहेत.
- AI-व्युत्पन्न सामग्रीचा प्रभाव: वेबवरील AI-व्युत्पन्न सामग्रीचा प्रसार AI प्रशिक्षणासाठी एक आव्हान आहे. डेटा अधिकाधिक “दूषित” होत असल्याने, AI मॉडेल्सची गुणवत्ता आणि अखंडता सुनिश्चित करणे अधिक कठीण होते.
- पारदर्शकता आणि उत्तरदायित्वाची गरज: AI कंपन्यांनी त्यांचे डेटा स्रोत आणि प्रशिक्षण पद्धतींबद्दल पारदर्शक असणे आवश्यक आहे. यामुळे विश्वास निर्माण होण्यास मदत होईल आणि AI चा विकास आणि वापर जबाबदारीने केला जाईल.
- मजबूत सुरक्षा उपायांचे महत्त्व: AI उद्योग अधिक स्पर्धात्मक होत असल्याने, AI कंपन्यांना त्यांच्या डेटा आणि मॉडेलमध्ये अनधिकृत प्रवेश प्रतिबंधित करण्यासाठी मजबूत सुरक्षा उपाय अंमलात आणणे आवश्यक आहे.
AI विकासाचे भविष्य
DeepSeek चा वाद AI उद्योगासमोर असलेल्या जटिल नैतिक आणि तांत्रिक आव्हानांची आठवण करून देतो. AI विकसित होत असताना, AI कंपन्या, संशोधक आणि धोरणकर्त्यांनी एकत्रितपणे हे सुनिश्चित करणे आवश्यक आहे की AI चा विकास आणि वापर अशा प्रकारे केला जाईल ज्यामुळे समाजाला फायदा होईल. यामध्ये पारदर्शकता, उत्तरदायित्व आणि नैतिक डेटा पद्धतींचा प्रचार करणे समाविष्ट आहे.
चालू असलेली चर्चा: DeepSeek वरील आरोपांमुळे डेटा गोपनीयता, सुरक्षा आणि नैतिक AI विकासाशी संबंधित वाढत्या चिंता अधोरेखित होतात. डेटा सोर्सिंगमधील पारदर्शकतेचा अभाव आणि कायदेशीर डेटा संकलन आणि अनधिकृत डेटा स्क्रॅपिंग यांच्यातील वाढत्या अस्पष्ट रेषा AI समुदायामध्ये स्पष्ट नियम आणि जबाबदार पद्धतींची मागणी करतात. तंत्रज्ञान जसजसे पुढे जाईल तसतसे उद्योगाला बौद्धिक संपदा अधिकार, “AI दूषितता” चा धोका आणि अनपेक्षित परिणामांची शक्यता यासारख्या समस्यांशी झुंज द्यावी लागेल.
AI प्रशिक्षण डेटाची नैतिकता: DeepSeek भोवतीचा वाद AI मॉडेलसाठी प्रशिक्षण डेटा जमा करताना विचारात घेतल्या जाणार्या नैतिक विचारांवर प्रकाश टाकतो. इंटरनेटवरून स्क्रॅप केलेल्या प्रचंड डेटासेटवरील वाढत्या अवलंबनामुळे, डेटाचा मालक कोण आहे, संमती कशी मिळवली जाते (किंवा दुर्लक्षित केली जाते) आणि डेटाचा उपयोग योग्य आणि जबाबदारीने केला जातो की नाही, असे प्रश्न अधिक तातडीचे बनत आहेत. AI समुदायाने डेटा सोर्सिंगसाठी स्पष्ट मार्गदर्शक तत्त्वे स्थापित करणे आवश्यक आहे जे कॉपीराइट कायद्यांचा आदर करतात, वैयक्तिक माहितीचे संरक्षण करतात आणि पूर्वाग्रह कमी करतात.
AI वर्चस्वासाठी शर्यत: DeepSeek वरील आरोपांचा अर्थ युनायटेड स्टेट्स आणि चीन यांच्यातील AI वर्चस्वाच्या तीव्र शर्यचे प्रतिबिंब म्हणून देखील लावला जाऊ शकतो. दोन्ही देश AI संशोधन आणि विकासासाठी अब्जावधी डॉलर्स ओतत आहेत आणि प्रगती साध्य करण्याचा दबाव स्पर्धा वाढवत आहे आणि संभाव्यतः शॉर्टकट घेत आहे. जर DeepSeek खरंच OpenAI किंवा Google चा डेटा परवानगीशिवाय वापरत असेल, तर ते आक्रमक डावपेचांचे आणि बौद्धिक संपत्तीच्या चोरीचे उदाहरण म्हणून अर्थ लावले जाऊ शकते ज्याने दीर्घकाळ US-चीन तंत्रज्ञान संबंधांना ग्रासले आहे.
AI इकोसिस्टमसाठी व्यापक परिणाम: जरी सध्या DeepSeek वर लक्ष केंद्रित केले जात असले तरी, या प्रकरणाचे संपूर्ण AI परिसंस्थेसाठी मोठे परिणाम असू शकतात. जर DeepSeek ने ChatGPT किंवा Gemini चा डेटा बेकायदेशीरपणे वापरला आहे हे सिद्ध झाले, तर ते इतर कंपन्यांना त्यांच्या डेटा सोर्सिंग पद्धतींचे कठोरपणे ऑडिट करण्यास प्रवृत्त करू शकते, ज्यामुळे विकासाचा वेग कमी होऊ शकतो आणि खर्च वाढू शकतो. यामुळे केवळ यूएस आणि चीनमध्येच नव्हे तर जागतिक स्तरावर डेटा संकलन आणि वापराभोवतीचे नियम अधिक कडक होऊ शकतात.
कृत्रिमरित्या व्युत्पन्न केलेल्या डेटाचा प्रभाव: लॅम्बर्ट यांनी प्रस्तावित केलेला सिंथेटिक डेटा, मॉडेल प्रशिक्षित करण्यासाठी व्यवहार्य पर्याय म्हणून उदयास येणे, AI विकासाच्या भविष्याबद्दल मूलभूत प्रश्न निर्माण करते. सिंथेटिक डेटासेट वास्तविक-जगातील डेटाशी संबंधित काही नैतिक आणि कॉपीराइट चिंतांना बगल देत असले तरी, सिंथेटिक डेटावर प्रशिक्षित केलेल्या मॉडेल्सची कार्यक्षमता आणि मजबूतता बहुतेक वेळा मूळ डेटावर प्रशिक्षित केलेल्या मॉडेल्सशी जुळत नाही. अचूकता आणि विश्वासार्हतेशी तडजोड न करता उद्योगाच्या गरजा पूर्ण करणारे अत्याधुनिक सिंथेटिक डेटासेट तयार करण्यासाठी AI समुदायाला नाविन्यपूर्ण दृष्टीकोन शोधण्याची आवश्यकता आहे.
डेटा गव्हर्नन्सचे स्वरूप म्हणून मॉडेल सारांश: Google आणि Anthropic यांनी अलीकडेच त्यांच्या मॉडेल्सद्वारे व्युत्पन्न केलेल्या ट्रेसेसचे “संक्षेपण” करणे सुरू करण्याचा निर्णय AI उद्योगात डेटा गव्हर्नन्सचे वाढते महत्त्व दर्शवितो. मॉडेल्सच्या निर्णय घेण्याच्या प्रक्रियेतील तपशीलवार माहिती अस्पष्ट करून, कंपन्या इतरांना त्यांचे तंत्रज्ञान रिव्हर्स-इंजिनियर करणे अधिक कठीण करत आहेत. हा दृष्टीकोन व्यापार गुपिते (trade secrets) जपण्यास आणि नैतिक डेटा सोर्सिंग पद्धतींचे पालन करण्यास मदत करू शकतो, परंतु AI प्रणालींच्या पारदर्शिता आणि स्पष्टीकरणाबद्दल देखील प्रश्न उपस्थित करतो.
नैतिक आणि कायदेशीर विचारांसह नवकल्पना संतुलित करणे: DeepSeek चा वाद AI नवकल्पनांना प्रोत्साहन देणे आणि बौद्धिक संपदा अधिकारांचे संरक्षण करणे आणि नैतिक तत्त्वांचे पालन सुनिश्चित करणे यांमध्ये काळजीपूर्वक संतुलन साधण्याची गरज अधोरेखित करतो. AI मॉडेल जसजसे अत्याधुनिक आणि जटिल होत जातील, तसतसे उद्योगासमोर येणारी नैतिक आणि कायदेशीर आव्हाने अधिक गंभीर होतील. या चिंतांमध्ये योग्य संतुलन साधणे हे AI च्या जबाबदार आणि टिकाऊ विकासाला प्रोत्साहन देण्यासाठी महत्त्वपूर्ण असेल.