डीपसीक एआय प्रशिक्षणावर प्रश्नचिन्ह?

डीपसीकच्या एआय प्रशिक्षणावर प्रश्नचिन्ह: गुगलच्या जेमिनीचे योगदान?

अलीकडील काळात, चिनी एआय प्रयोगशाळा डीपसीकने (DeepSeek) आपल्या नवीनतम आर1 (R1) रिझनिंग एआय मॉडेलला प्रशिक्षण देण्यासाठी गुगलच्या जेमिनी (Gemini) एआय मॉडेलमधील डेटा वापरला असावा, असा अंदाज व्यक्त केला जात आहे. हे मॉडेल गणित आणि कोडिंग बेंचमार्क मध्ये उत्तम कामगिरी करत आहे. डीपसीकने आर1 ला प्रशिक्षण देण्यासाठी वापरलेल्या डेटा स्रोतांबद्दल मौन बाळगले असले, तरी अनेक एआय संशोधकांनी जेमिनीने किंवा किमान जेमिनीच्या काही भागांनी यात भूमिका बजावली असावी, असा दावा केला आहे.

पुरावे आणि आरोप

सॅम पेच (Sam Paech) नावाचे मेलबर्नमधील एक डेव्हलपर (Developer), जे एआयसाठी “ भावनिक बुद्धिमत्ता” मूल्यमापन तयार करण्यात तज्ञ आहेत, त्यांनी डीपसीकचे (DeepSeek) मॉडेल जेमिनीद्वारे (Gemini) व्युत्पन्न केलेल्या आउटपुटचा (Output) वापर करून प्रशिक्षित केले असल्याचा पुरावा सादर केला आहे, असा त्यांचा विश्वास आहे. पेच यांनी एक्स (X) (पूर्वीचे ट्विटर) वरील एका पोस्टमध्ये नमूद केले आहे की, डीपसीकचे मॉडेल, विशेषतः आर1-0528 (R1-0528) आवृत्ती, गुगलच्या जेमिनी 2.5 प्रो (Gemini 2.5 Pro) प्रमाणे भाषा आणि अभिव्यक्ती वापरण्यास प्राधान्य देते.

या व्यतिरिक्त, स्पीचमॅपचे (SpeechMap) निर्माते, जे एआयसाठी (AI) “फ्री स्पीच इव्हॅल्यूएशन” (free speech eval) म्हणून काम करतात, त्यांनी असे निरीक्षण नोंदवले आहे की, डीपसीक मॉडेलने निष्कर्ष काढण्यासाठी तयार केलेले “विचार” जेमिनीच्या (Gemini) ट्रेसशी (Traces) खूपच मिळ- जुळते आहेत. या निरीक्षणांमुळे दाव्यांमध्ये आणखी भर पडली आहे.

डीपसीकने प्रतिस्पर्धी एआय मॉडेलमधून (AI models) डेटा वापरल्याचा आरोप होण्याची ही पहिलीच वेळ नाही. यापूर्वी, डिसेंबरमध्ये डेव्हलपर्सनी (Developers) निदर्शनास आणले की, डीपसीकचे (DeepSeek) व्ही3 (V3) मॉडेल स्वतःला OpenAI च्या लोकप्रिय चॅटबॉट प्लॅटफॉर्म (Chatbot Platform) ChatGPT म्हणून ओळखत होते. यावरून असे सूचित होते की, मॉडेलला ChatGPT चॅट लॉग्जवर (Chat logs) प्रशिक्षित केले गेले होते, ज्यामुळे डेटा वापराच्या पद्धतींबद्दल चिंता वाढली होती.

सखोल आरोप: डिस्टिलेशन आणि डेटा एक्सफिल्ट्रेशन

या वर्षाच्या सुरुवातीला, OpenAI ने फायनान्शिअल टाइम्सला (Financial Times) सांगितले की, डीपसीक (DeepSeek) डिस्टिलेशन (Distillation) नावाचे तंत्र वापरत असल्याचा पुरावा त्यांना सापडला आहे. डिस्टिलेशनमध्ये (Distillation) मोठ्या आणि अधिक अत्याधुनिक मॉडेलमधून (Sophisticated models) डेटा काढून एआय (AI) मॉडेलला प्रशिक्षण देणे समाविष्ट आहे. ब्लूमबर्गने (Bloomberg) वृत्त दिले आहे की, मायक्रोसॉफ्टने (Microsoft), OpenAI मधील एक महत्त्वाचे सहयोगी आणि गुंतवणूकदार, यांनी 2024 च्या उत्तरार्धात OpenAI डेव्हलपर (Developer) खात्यांद्वारे महत्त्वपूर्ण डेटा एक्सफिल्ट्रेशन (Data exfiltration) शोधले. OpenAI चा असा विश्वास आहे की, ही खाती डीपसीकशी (DeepSeek) जोडलेली आहेत.

डिस्टिलेशन (Distillation) हे मुळात अनैतिक नसले तरी, जेव्हा ते सेवेच्या अटींचे उल्लंघन करते, तेव्हा ते समस्याप्रधान ठरते. OpenAI च्या अटी स्पष्टपणे नमूद करतात की, ग्राहकांनी कंपनीच्या मॉडेल आऊटपुटचा (Model output) वापर प्रतिस्पर्धी एआय (AI) प्रणाली विकसित करण्यासाठी करू नये. यामुळे डीपसीकच्या (DeepSeek) या अटींच्या पालनाबाबत गंभीर प्रश्न निर्माण होतात.

एआय प्रशिक्षण डेटाची (AI Training Data) संदिग्धता

हे लक्षात घेणे महत्त्वाचे आहे की, एआय (AI) मॉडेल अनेकदा स्वतःची चुकीची ओळख करून देतात आणि समान शब्द आणि वाक्ये वापरतात. याचे कारण म्हणजे ओपन वेब (Open web), जी बऱ्याच एआय (AI) कंपन्यांसाठी प्रशिक्षण डेटाचा प्राथमिक स्रोत आहे. ही वेब (Web) अधिकाधिक एआय- व्युत्पन्न (AI- generated) सामग्रीने भरलेली आहे. कंटेंट फार्म्स (Content farms) क्लिकबेट (Clickbait) तयार करण्यासाठी एआयचा (AI) वापर करत आहेत आणि बॉट्स (Bots) रेडिट (Reddit) आणि एक्स (X) सारख्या प्लॅटफॉर्मवर एआय- व्युत्पन्न (AI- generated) पोस्ट्सचा (Posts) पूर आणत आहेत.

या “प्रदूषणामुळे” प्रशिक्षण डेटासेटमधून (Training datasets) एआय (AI) आऊटपुट प्रभावीपणे फिल्टर (Filter) करणे अत्यंत कठीण झाले आहे, ज्यामुळे डीपसीकने (DeepSeek) हेतू पुरस्सर जेमिनीचा (Gemini) डेटा वापरला होता की नाही, हा प्रश्न अधिकच किचकट बनला आहे.

तज्ञांची मते आणि दृष्टीकोन

दाव्यांना निश्चितपणे सिद्ध करण्याच्या अडचणी असूनही, काही एआय (AI) तज्ञांचा असा विश्वास आहे की, डीपसीकने (DeepSeek) गुगलच्या जेमिनीच्या (Google’s Gemini) डेटावर प्रशिक्षण घेतले असण्याची शक्यता आहे. नानफा AI संशोधन संस्थेतील (Nonprofit AI research institute) एआय2 (AI2) मधील संशोधक नॅथन लॅम्बर्ट (Nathan Lambert) यांनी एक्सवर (X) म्हटले आहे की, “जर मी डीपसीक (DeepSeek) असतो, तर मी निश्चितपणे सर्वोत्तम API मॉडेलमधून भरपूर सिंथेटिक (Synthetic) डेटा तयार केला असता. डीपसीककडे (DeepSeek) GPUs ची कमतरता आहे आणि त्यांच्याकडे भरपूर पैसा आहे. त्यामुळे हे त्यांच्यासाठी अक्षरशः अधिक कंप्यूटिंग (Computing) आहे.”

लॅम्बर्टचा (Lambert) दृष्टीकोन डीपसीकला (DeepSeek) संसाधनांची कमतरता लक्षात घेता, स्वतःची क्षमता वाढवण्यासाठी विद्यमान एआय (AI) मॉडेलचा (Existing AI model) लाभ घेण्यासाठी संभाव्य आर्थिक प्रोत्साहन दर्शवितो.

सुरक्षा उपाय आणि प्रति उपाय

एआय (AI) कंपन्यांनी अंशतः डिस्टिलेशनसारख्या (Distillation) पद्धतींना प्रतिबंध करण्यासाठी सुरक्षा उपायांमध्ये वाढ केली आहे. एप्रिलमध्ये, OpenAI ने काही प्रगत मॉडेल्समध्ये (Advanced models) प्रवेश मिळवण्यासाठी संस्थांना आयडी (ID) पडताळणी प्रक्रिया पूर्ण करणे अनिवार्य केले. या प्रक्रियेत OpenAI च्या API द्वारे समर्थित देशांमधील सरकार- जारी ओळखपत्र सादर करणे आवश्यक आहे. विशेष म्हणजे, चीन या यादीत नाही.

आणखी एका हालचालीमध्ये, गुगलने (Google) अलीकडेच त्याच्या एआय (AI) स्टुडिओ (Studio) डेव्हलपर (Developer) प्लॅटफॉर्मद्वारे (Platform) उपलब्ध असलेल्या मॉडेल्सद्वारे (Models) व्युत्पन्न केलेल्या ट्रेसेसचा (Traces) “संक्षेप” करणे सुरू केले आहे. यामुळे प्रतिस्पर्धी मॉडेल्सला (Rival models) जेमिनी ट्रेसेसवर (Gemini traces) प्रभावीपणे प्रशिक्षण देणे अधिक कठीण झाले आहे. त्याचप्रमाणे, अँथ्रोपिकने (Anthropic) मे मध्ये घोषणा केली की, ते आपल्या स्वतःच्या मॉडेलच्या (Model) ट्रेसेसचा सारांश देण्यास सुरुवात करेल, ज्यामुळे त्यांच्या “स्पर्धात्मक फायद्यांचे” संरक्षण करण्याची गरज आहे. हे उपाय एआय (AI) मॉडेल (Model) आऊटपुटच्या संभाव्य गैरवापराविषयी वाढती जागरूकता आणि असे धोके कमी करण्याच्या सक्रिय प्रयत्नांना दर्शवतात.

परिणाम

डीपसीकवरील (DeepSeek) आरोपांमुळे एआय (AI) प्रशिक्षणाच्या (Training) पद्धतींच्या नैतिकता आणि कायदेशीरतेबद्दल महत्त्वपूर्ण प्रश्न निर्माण झाले आहेत. जर डीपसीकने (DeepSeek) खरोखरच आपल्या आर1 (R1) मॉडेलला प्रशिक्षण देण्यासाठी जेमिनीचा (Gemini) डेटा वापरला असेल, तर त्याला कायदेशीर परिणाम आणि प्रतिष्ठेचे नुकसान होऊ शकते. ही परिस्थिती एआय (AI) उद्योगात अधिक पारदर्शकता आणि नियमनाची गरज अधोरेखित करते, विशेषतः डेटा सोर्सिंग (Data Sourcing) आणि वापराच्या संदर्भात.

डीपसीकवरील (DeepSeek) आरोप एक महत्त्वपूर्ण कोंडी अधोरेखित करतात: बौद्धिक संपत्तीचे संरक्षण (Intellectual property) आणि निष्पक्ष स्पर्धेची खात्री करण्याच्या गरजेसह एआयमधील (AI) नवकल्पना आणि प्रगती साधण्याची इच्छा संतुलित कशी करावी. एआय (AI) उद्योग वेगाने विकसित होत आहे आणि जटिल कायदेशीर आणि নৈতিক परिदृश्य नेव्हिगेट (Navigate) करण्यासाठी स्पष्ट मार्गदर्शक तत्त्वे आणि नैतिक चौकट आवश्यक आहेत. कंपन्यांनी त्यांच्या डेटा स्रोतांबद्दल पारदर्शक असणे आवश्यक आहे आणि विश्वास टिकवण्यासाठी आणि संभाव्य कायदेशीर उत्तरदायित्व टाळण्यासाठी सेवेच्या अटी व शर्तींचे पालन करणे आवश्यक आहे.

शिवाय, एआय- व्युत्पन्न (AI-generated) सामग्री प्रशिक्षण डेटासेटला दूषित करते ही समस्या संपूर्ण एआय (AI) समुदायासाठी एक मोठे आव्हान आहे. एआय (AI) मॉडेल (Model) जेव्हा खात्रीलायक मजकूर, प्रतिमा आणि इतर प्रकारची सामग्री व्युत्पन्न करण्यास अधिक सक्षम होतात, तेव्हा मानवनिर्मित आणि एआय- व्युत्पन्न (AI- generated) डेटामध्ये फरक करणेअधिक कठीण होते. या “प्रदूषणामुळे” एआय (AI) मॉडेल्सचे (Models) एकसमान मिश्रण होऊ शकते, जिथे ते सर्व समान पूर्वग्रह आणि मर्यादा दर्शवू लागतात.

या आव्हानाला तोंड देण्यासाठी, एआय (AI) कंपन्यांनी अधिक अत्याधुनिक डेटा फिल्टरिंग (Data filtering) तंत्रांमध्ये गुंतवणूक करणे आणि पर्यायी प्रशिक्षण डेटा स्रोतांचा शोध घेणे आवश्यक आहे. त्यांनी त्यांच्या प्रशिक्षण डेटासेटच्या (Training datasets) रचना आणि एआय- व्युत्पन्न (AI-generated) सामग्री फिल्टर (Filter) करण्यासाठी वापरल्या जाणाऱ्या पद्धतींबद्दल अधिक पारदर्शक असणे आवश्यक आहे.

एआय प्रशिक्षणाच्या भविष्याकडे वाटचाल

डीपसीकचा (DeepSeek) वाद एआय (AI) प्रशिक्षणाच्या भविष्याबद्दल अधिक सूक्ष्म चर्चेची तातडीची गरज अधोरेखित करतो. एआय (AI) मॉडेल (Model) अधिक शक्तिशाली होत असताना आणि डेटा अधिक दुर्मिळ होत असताना, कंपन्या प्रलोभनांना बळी पडून अनैतिक किंवा बेकायदेशीर पद्धतींचा अवलंब करू शकतात. तथापि, अशा पद्धती एआय (AI) उद्योगाच्या दीर्घकालीन टिकाऊपणा आणि विश्वासार्हतेला कमी लेखतात.

जबाबदार एआय (AI) विकासाला प्रोत्साहन देणारी नैतिक मार्गदर्शक तत्त्वे आणि कायदेशीर चौकट विकसित करण्यासाठी संशोधक, धोरणकर्ते आणि उद्योग नेते यांचा सहकार्याने प्रयत्न करणे आवश्यक आहे. या मार्गदर्शक तत्त्वांमध्ये डेटा सोर्सिंग (Data Sourcing), पारदर्शकता आणि उत्तरदायित्व यासारख्या समस्यांचे निराकरण केले पाहिजे. तसेच, त्यांनी कंपन्यांना नैतिक आणि टिकाऊ एआय (AI) प्रशिक्षण पद्धतींमध्ये गुंतवणूक करण्यास प्रोत्साहित केले पाहिजे.

एआय (AI) प्रशिक्षणाच्या भविष्यासाठी मुख्य विचार:

  • पारदर्शकता: कंपन्यांनी त्यांच्या एआय (AI) मॉडेलला (Model) प्रशिक्षण देण्यासाठी वापरल्या जाणाऱ्या डेटा स्रोतांबद्दल आणि एआय- व्युत्पन्न (AI- generated) सामग्री फिल्टर (Filter) करण्यासाठी वापरल्या जाणाऱ्या पद्धतींबद्दल पारदर्शक असले पाहिजे.
  • नैतिकता: एआय (AI) विकासाने नैतिक तत्त्वांचे पालन केले पाहिजे, जे निष्पक्षता, उत्तरदायित्व आणि बौद्धिक संपत्तीचा आदर वाढवतात.
  • नियमन: धोरणकर्त्यांनी स्पष्ट कायदेशीर चौकट तयार करावी, जी एआय (AI) प्रशिक्षणाद्वारे उद्भवलेल्या अद्वितीय आव्हानांना संबोधित करते.
  • सहकार्य: संशोधक, धोरणकर्ते आणि उद्योग नेते यांनी एआय (AI) विकासासाठी नैतिक मार्गदर्शक तत्त्वे आणि सर्वोत्तम पद्धती विकसित करण्यासाठी सहकार्य केले पाहिजे.
  • डेटा विविधता: एआय (AI) प्रशिक्षणाने (Training) पूर्वग्रह कमी करण्यासाठी आणि एआय (AI) मॉडेलची (Model) एकूण कार्यक्षमता सुधारण्यासाठी डेटा विविधतेला प्राधान्य दिले पाहिजे.
  • टिकाऊपणा: एआय (AI) प्रशिक्षण टिकाऊ पद्धतीने आयोजित केले जावे, ज्यामुळे त्याचा पर्यावरणीय प्रभाव कमी होईल.
  • सुरक्षा: सुरक्षा उपायांमुळे एआय (AI) मॉडेल्स (Models) आणि प्रशिक्षण डेटा अनधिकृत प्रवेश आणि वापरापासून सुरक्षित ठेवला पाहिजे.

या प्रमुख विचारांना संबोधित करून, एआय (AI) उद्योग हे सुनिश्चित करू शकतो की, एआय (AI) विकास जबाबदार आणि नैतिक रीतीने केला जाईल, ज्यामुळे संभाव्य धोके कमी करताना नवकल्पनांना प्रोत्साहन मिळेल.

पुढील मार्ग

डीपसीकवर (DeepSeek) केलेले आरोप एआय (AI) समुदायासाठी एक इशारा आहे. ते एआय (AI) विकासामध्ये अधिक पारदर्शकता, नैतिक आचरण आणि मजबूत संरक्षणात्मक उपायांची नितांत गरज अधोरेखित करतात. एआय (AI) जसजसे आपल्या जीवनातील विविध पैलूंमध्ये प्रवेश करत आहे, तसतसे त्याच्या जबाबदार आणि फायदेशीर वापरासाठी स्पष्ट सीमा आणि नैतिक मार्गदर्शक तत्त्वे स्थापित करणे आपल्यासाठी अत्यावश्यक आहे.

डीपसीकचा (DeepSeek) खटला, अंतिम परिणाम काहीही असो, एआय (AI) नीतिमत्तेशी (Ethics) संबंधित चालू असलेल्या संभाषणाला आकार देईल आणि एआय (AI) विकासाच्या भविष्यातील वाटचालीस प्रभावित करेल. हे एक स्मरणपत्र आहे की, नवोपक्रमाचा पाठपुरावा नैतिक तत्त्वांच्या बांधिलकीने आणि आपल्या कृतींच्या संभाव्य परिणामांच्या जाणिवेने संतुलित असणे आवश्यक आहे. एआयचे (AI) भविष्य शहाणपणाने आणि दूरदृष्टीने या गुंतागुंतीच्या आव्हानांना तोंड देण्याच्या आपल्या क्षमतेवर अवलंबून आहे.