डीपसीकची ओपनएआयची नक्कल उघड?

डीपसीक-आर1 (DeepSeek-R1) च्या प्रशिक्षणाचे मूळ उघडकीस

कॉपीलीक्स (Copyleaks), जी AI शोध आणि प्रशासनामध्ये विशेष फर्म आहे, यांनी केलेल्या अलीकडील संशोधनाने डीपसीक-आर1 (DeepSeek-R1) ने OpenAI च्या मॉडेलवर प्रशिक्षण घेतले आहे का, या प्रश्नाचे निश्चित उत्तर दिले आहे: होय. डीपसीक (DeepSeek), एक AI-चालित चॅटबॉट विनामूल्य उपलब्ध आहे, त्याचे स्वरूप, अनुभव आणि कार्यक्षमता ChatGPT सारखीच आहे.

फिंगरप्रिंटिंग तंत्र: लेखक AI ओळखणे

AI-निर्मित मजकुराच्या उत्पत्तीवर प्रकाश टाकण्यासाठी, संशोधकांनी एक नवीन मजकूर फिंगरप्रिंटिंग साधन (text fingerprinting tool) विकसित केले. हे साधन विशिष्ट AI मॉडेल ओळखण्यासाठी डिझाइन केलेले आहे, ज्याने दिलेला मजकूर तयार केला आहे. संशोधकांनी हजारो AI-निर्मित नमुन्यांच्या विशाल डेटासेटचा वापर करून हे साधन तयार केले. त्यानंतर, त्यांनी ज्ञात AI मॉडेल्स वापरून त्याची चाचणी केली आणि निकाल स्पष्ट होते.

धक्कादायक साम्य: डीपसीक-आर1 (DeepSeek-R1) आणि ओपनएआय (OpenAI)

चाचणीमध्ये एक महत्त्वपूर्ण आकडेवारी समोर आली: डीपसीक-आर1 (DeepSeek-R1) द्वारे उत्पादित केलेल्या 74.2% मजकुरांमध्ये OpenAI च्या उत्पादनाशी शैलीत्मक (stylistic) जुळणी दिसून आली. हे मजबूत सहसंबंध (correlation) सूचित करते की डीपसीकने (DeepSeek) त्याच्या प्रशिक्षण टप्प्यात OpenAI च्या मॉडेलचा समावेश केला आहे.

दृष्टिकोनातील फरक: मायक्रोसॉफ्टचे फाय-4 (Microsoft’s Phi-4)

विरोधाभासी दृष्टिकोन (contrasting perspective) देण्यासाठी, मायक्रोसॉफ्टच्या फाय-4 (Phi-4) मॉडेलचा विचार करा. त्याच चाचणीमध्ये, फाय-4 (Phi-4) ने कोणत्याही ज्ञात मॉडेलशी 99.3% ‘असहमती’ दर्शविली. हा निकाल स्वतंत्र प्रशिक्षणाचा पुरावा आहे, जो दर्शवितो की फाय-4 (Phi-4) विद्यमान मॉडेल्सवर अवलंबून न राहता विकसित केले गेले. फाय-4 (Phi-4) चे स्वतंत्र स्वरूप आणि डीपसीकचे (DeepSeek) OpenAI शी असलेले साम्य, डीपसीकची (DeepSeek) नक्कल किंवा कॉपी दर्शवते.

नैतिक आणि बौद्धिक संपदा चिंता

हे प्रकटीकरण डीपसीक-आर1 (DeepSeek-R1) च्या OpenAI च्या मॉडेलशी असलेल्या साम्याबद्दल गंभीर चिंता निर्माण करते. या चिंतांमध्ये अनेक गंभीर क्षेत्रांचा समावेश आहे:

  • डेटा सोर्सिंग (Data Sourcing): डीपसीक-आर1 (DeepSeek-R1) ला प्रशिक्षित करण्यासाठी वापरलेल्या डेटाचा स्त्रोत एक महत्त्वपूर्ण प्रश्न बनतो.
  • बौद्धिक संपदा अधिकार (Intellectual Property Rights): OpenAI च्या बौद्धिक संपदा अधिकारांचे संभाव्य उल्लंघन ही एक महत्त्वपूर्ण चिंता आहे.
  • पारदर्शकता (Transparency): डीपसीकच्या (DeepSeek) प्रशिक्षण पद्धतीबद्दल पारदर्शकतेचा अभाव नैतिक प्रश्न निर्माण करतो.

संशोधन कार्यसंघ आणि कार्यप्रणाली

येहोनाटन बिट्टन (Yehonatan Bitton), शाई निसान (Shai Nisan) आणि एलाड बिट्टन (Elad Bitton) यांच्या नेतृत्वाखालील कॉपीलीक्स डेटा सायन्स टीमने (Copyleaks Data Science Team) हे महत्त्वपूर्ण संशोधन केले. त्यांची कार्यप्रणाली ‘एकमत ज्युरी’ (‘unanimous jury’) दृष्टिकोनावर केंद्रित होती. या दृष्टिकोनामध्ये तीन भिन्न शोध प्रणालींचा समावेश होता, प्रत्येकाला AI-निर्मित मजकूर वर्गीकृत करण्याचे काम सोपवण्यात आले होते. जेव्हा तिन्ही प्रणाली सहमत असतील तेव्हाच अंतिम निर्णय घेतला जात होता.

कार्यान्वयन आणि बाजारातील परिणाम

नैतिक आणि बौद्धिक संपदा (intellectual property) चिंतेव्यतिरिक्त, विचारात घेण्यासाठी व्यावहारिक कार्यान्वयन (operational implications) परिणाम आहेत. विद्यमान मॉडेल्सवरील अवलंबित्वामुळे अनेक समस्या उद्भवू शकतात:

  • पूर्वाग्रहांचे मजबुतीकरण (Reinforcement of Biases): मूळ मॉडेलमधील विद्यमान पूर्वाग्रह कायम राहू शकतात.
  • मर्यादित विविधता (Limited Diversity): उत्पादनांची विविधता मर्यादित असू शकते, ज्यामुळे नवकल्पना (innovation) प्रतिबंधित होऊ शकते.
  • कायदेशीर आणि नैतिक धोके (Legal and Ethical Risks): अनपेक्षित कायदेशीर किंवा नैतिक परिणाम उद्भवू शकतात.

शिवाय, डीपसीकचा (DeepSeek) क्रांतिकारी, किफायतशीर प्रशिक्षण पद्धतीचा दावा, जर OpenAI च्या तंत्रज्ञानावर आधारित असल्याचे आढळल्यास, बाजारात महत्त्वपूर्ण परिणाम होऊ शकतात. यामुळे NVIDIA चे एका दिवसात $593 अब्जचे नुकसान झाले आणि संभाव्यतः डीपसीकला (DeepSeek) अयोग्य स्पर्धात्मक फायदा (unfair competitive advantage) मिळाला.

कठोर दृष्टिकोन: एकाधिक वर्गीकरणकर्त्यांचे (Classifiers) संयोजन

संशोधन कार्यप्रणालीने अत्यंत कठोर दृष्टिकोन वापरला, ज्यामध्ये तीन प्रगत AI वर्गीकरणकर्त्यांचा (classifiers) समावेश होता. यापैकी प्रत्येक वर्गीकरणकर्ता चार प्रमुख AI मॉडेल्समधून घेतलेल्या मजकूर नमुन्यांवर काळजीपूर्वक प्रशिक्षित केले गेले होते:

  1. क्लॉड (Claude)
  2. जेमिनी (Gemini)
  3. लामा (Llama)
  4. ओपनएआय (OpenAI)

हे वर्गीकरणकर्ते सूक्ष्म शैलीत्मक बारकावे (stylistic nuances) ओळखण्यासाठी डिझाइन केलेले होते, ज्यामध्ये हे समाविष्ट आहे:

  • वाक्य रचना (Sentence Structure): वाक्यांमधील शब्द आणि वाक्यांशांची मांडणी.
  • शब्दसंग्रह (Vocabulary): शब्दांची निवड आणि त्यांची वारंवारता.
  • वाक्प्रचार (Phrasing): अभिव्यक्तीची (expression) एकूण शैली आणि स्वर.

‘एकमत ज्युरी’ (‘Unanimous Jury’) प्रणाली: अचूकता सुनिश्चित करणे

‘एकमत ज्युरी’ प्रणाली कार्यप्रणालीचा एक महत्त्वाचा घटक होता, ज्यामुळे चुकीच्या परिणामांविरूद्ध मजबूत तपासणी सुनिश्चित होते. या प्रणालीमध्ये तिन्ही वर्गीकरणकर्त्यांनी (classifiers) स्वतंत्रपणे वर्गीकरणावर सहमत होणे आवश्यक होते. या कठोर निकषामुळे 99.88% अचूकता दर आणि केवळ 0.04% चा कमी चुकीचा-सकारात्मक दर (false-positive rate) प्राप्त झाला. प्रणालीने ज्ञात आणि अज्ञात AI मॉडेल्समधील मजकूर अचूकपणे ओळखण्याची क्षमता दर्शविली.

AI शोधाच्या पलीकडे: मॉडेल-विशिष्ट विशेषता

कॉपीलीक्सचे (Copyleaks) मुख्य डेटा वैज्ञानिक शाई निसान (Shai Nisan) म्हणाले, “या संशोधनामुळे, आम्ही सामान्य AI शोधाच्या पलीकडे जाऊन मॉडेल-विशिष्ट गुणधर्म (model-specific attribution) ओळखले आहेत, जे AI सामग्रीकडे पाहण्याचा दृष्टिकोन बदलतो.”

मॉडेल गुणधर्माचे (Model Attribution) महत्त्व

निसान यांनी या क्षमतेचे महत्त्व पुढे सांगितले: “ही क्षमता अनेक कारणांसाठी महत्त्वपूर्ण आहे, ज्यामध्ये एकूण पारदर्शकता सुधारणे, नैतिक AI प्रशिक्षण पद्धती सुनिश्चित करणे आणि सर्वात महत्त्वाचे म्हणजे, AI तंत्रज्ञानाच्या बौद्धिक संपदा अधिकारांचे (intellectual property rights) संरक्षण करणे आणि संभाव्य गैरवापर टाळणे समाविष्ट आहे.”

अधिक खोलवर: डीपसीकच्या (DeepSeek) दृष्टिकोनाचे परिणाम

या संशोधनाच्या निष्कर्षांचे दूरगामी परिणाम आहेत, जे डीपसीकने (DeepSeek) OpenAI च्या मॉडेलची कॉपी केली आहे का, या तात्काळ प्रश्नाच्या पलीकडे जातात. चला यापैकी काही परिणामांचा अधिक तपशीलवार विचार करूया:

नवकल्पनेचा भ्रम (The Illusion of Innovation)

जर डीपसीकचे (DeepSeek) प्रशिक्षण OpenAI च्या मॉडेलवर मोठ्या प्रमाणात अवलंबून असेल, तर ते त्याच्या नवकल्पनेच्या (innovation) वास्तविकतेवर प्रश्न निर्माण करते. डीपसीकने (DeepSeek) कदाचित त्याचे चॅटबॉट एक नवीन निर्मिती म्हणून सादर केले असेल, परंतु मूळ तंत्रज्ञान सुरुवातीला दावा केल्यापेक्षा कमी বিপ্লবী असू शकते. हे वापरकर्ते आणि गुंतवणूकदारांची दिशाभूल करू शकते, जे एक खऱ्या अर्थाने अद्वितीय AI प्रणालीशी संवाद साधत असल्याचा विश्वास ठेवतात.

AI लँडस्केपवर (AI Landscape) परिणाम

इतर मॉडेल्सवर प्रशिक्षित केलेल्या AI मॉडेल्सचा व्यापक वापर AI लँडस्केपवर (AI landscape) एकसारखेपणा आणू शकतो. जर अनेक AI प्रणाली काही मूलभूत मॉडेल्समधून घेतल्या गेल्या असतील, तर ते दृष्टिकोन आणि विविधतेची मर्यादा आणू शकते. हे नवकल्पना (innovation) रोखू शकते आणि कमी गतिशील आणि स्पर्धात्मक AI इकोसिस्टम (ecosystem) तयार करू शकते.

अधिक पारदर्शकतेची गरज

हे प्रकरण AI मॉडेल्सच्या विकास आणि उपयोजनामध्ये अधिक पारदर्शकतेची तातडीची गरज दर्शवते. वापरकर्ते आणि भागधारकांना (stakeholders) हे माहित असणे आवश्यक आहे की AI प्रणाली कशी प्रशिक्षित केली जातात आणि कोणता डेटा स्त्रोत वापरला जातो. ही माहिती या प्रणालींचे संभाव्य पूर्वाग्रह, मर्यादा आणि नैतिक परिणाम (ethical implications) यांचे मूल्यांकन करण्यासाठी महत्त्वपूर्ण आहे.

नियमनाची भूमिका

डीपसीक (DeepSeek) प्रकरण AI उद्योगाच्या अधिक नियमनाची गरज असलेल्या वादाला चालना देऊ शकते. सरकार आणि नियामक संस्थांनी (regulatory bodies) हे सुनिश्चित करणे आवश्यक आहे की AI विकासक नैतिक मार्गदर्शक तत्त्वांचे (ethical guidelines) पालन करतात, बौद्धिक संपदा अधिकारांचे (intellectual property rights) संरक्षण करतात आणि पारदर्शकतेला प्रोत्साहन देतात.

AI विकासाचे भविष्य

डीपसीकच्या (DeepSeek) प्रशिक्षण पद्धतींवरील वाद AI विकासाच्या भविष्याबद्दल व्यापक चर्चा सुरू करू शकतो. हे सर्वोत्तम पद्धती, नैतिक विचार आणि AI प्रणालींच्या निर्मितीमध्ये मौलिकतेचे महत्त्व यावर पुनर्विचार करण्यास प्रवृत्त करू शकते.

जबाबदार AI विकासासाठी आवाहन

डीपसीक (DeepSeek) प्रकरण जबाबदार AI विकासाच्या महत्त्वाचे स्मरण करून देते. हे खालील गोष्टींची गरज अधोरेखित करते:

  • मौलिकता (Originality): AI विकासकांनी विद्यमान मॉडेल्सवर जास्त अवलंबून न राहता खऱ्या अर्थाने नवीन मॉडेल्स तयार करण्याचा प्रयत्न केला पाहिजे.
  • पारदर्शकता (Transparency): AI प्रणाली विकसित करण्यासाठी वापरलेला प्रशिक्षण डेटा आणि कार्यपद्धती वापरकर्त्यांसाठी आणि भागधारकांसाठी (stakeholders) उघड करणे आवश्यक आहे.
  • नैतिक विचार (Ethical Considerations): AI विकासामध्ये न्याय्यता, जबाबदारी आणि बौद्धिक संपदा अधिकारांचा (intellectual property rights) आदर यासह नैतिक तत्त्वांचे पालन केले पाहिजे.
  • सहयोग (Collaboration): AI समुदायामध्ये खुले सहयोग आणि ज्ञानाची देवाणघेवाण नवकल्पना (innovation) वाढविण्यात आणि विद्यमान पूर्वाग्रहांची पुनरावृत्ती टाळण्यास मदत करू शकते.

पुढील मार्ग: वैविध्यपूर्ण आणि नैतिक AI भविष्य सुनिश्चित करणे

अंतिम ध्येय एक वैविध्यपूर्ण आणि नैतिक AI इकोसिस्टम (ecosystem) तयार करणे असले पाहिजे, जिथे नवकल्पना (innovation) वाढेल आणि वापरकर्ते त्यांच्याशी संवाद साधणाऱ्या प्रणालींवर विश्वास ठेवू शकतील. यासाठी जबाबदार AI विकास पद्धती, पारदर्शकता आणि या वेगाने विकसित होणाऱ्या तंत्रज्ञानाच्या नैतिक परिणामांबद्दल सतत संवाद आवश्यक आहे. डीपसीक (DeepSeek) प्रकरण एक मौल्यवान धडा आहे, जो विद्यमान मॉडेल्सवर जास्त अवलंबून राहण्याचे संभाव्य धोके दर्शवितो आणि AI च्या प्रगतीमध्ये मौलिकता आणि नैतिक विचारांचे महत्त्व अधोरेखित करतो. AI चे भविष्य आपण आज घेतलेल्या निर्णयांवर अवलंबून आहे आणि सर्वांसाठी एक फायदेशीर आणि न्याय्य भविष्य सुनिश्चित करण्यासाठी आपण जबाबदार विकासाला प्राधान्य देणे महत्त्वाचे आहे.
कॉपीलीक्स (Copyleaks) तपासाच्या निष्कर्षांनी AI विकासाच्या एका महत्त्वपूर्ण पैलूवर प्रकाश टाकला आहे, आणि हे आवश्यक आहे की संपूर्ण उद्योगाने या अनुभवातून शिकून अधिक पारदर्शक, नैतिक आणि नाविन्यपूर्ण भविष्यासाठी प्रयत्न करावेत.