AI 'ओपन सोर्स'चा मोठा देखावा: एका संकल्पनेचे अपहरण

‘ओपन सोर्स’ या शब्दाला एकेकाळी एक विशिष्ट स्पष्टता होती, सामायिक ज्ञानाचे आणि सहयोगी प्रगतीचे वचन होते, ज्यामुळे असंख्य वैज्ञानिक आणि तांत्रिक प्रगतीला चालना मिळाली. यातून एकत्र येऊन समुदाय काहीतरी निर्माण करत आहेत, एकमेकांच्या कामाचे परीक्षण करत आहेत आणि दिग्गजांच्या खांद्यावर उभे आहेत कारण आराखडे (blueprints) मुक्तपणे उपलब्ध होते, अशी प्रतिमा तयार झाली. आता, Artificial Intelligence च्या जगात वावरताना, हा शब्द अधिकाधिक निसरडा वाटू लागला आहे. Nature मासिकाच्या पानांवर आणि प्रयोगशाळा व बोर्डरूममध्ये कुजबुजल्याप्रमाणे, AI च्या या सुवर्णकाळात अनेक कंपन्या त्यांच्या निर्मितीला ‘ओपन सोर्स’चे लेबल लावत आहेत, पण खरे महत्त्वाचे घटक मात्र गुप्त ठेवत आहेत. हा केवळ शब्दच्छल नाही; ही एक अशी प्रथा आहे जी वैज्ञानिक सचोटीच्या मूळ तत्त्वांना पोखरत आहे आणि भविष्यातील नवोपक्रमाचा मार्ग अंधकारमय करण्याची धमकी देत आहे. संशोधन समुदाय, ज्याला याचा सर्वाधिक फायदा किंवा तोटा होऊ शकतो, त्यांनी या ढोंगाला ओळखले पाहिजे आणि खऱ्या अर्थाने पारदर्शकता आणि पुनरुत्पादकता या तत्त्वांना मूर्त रूप देणाऱ्या AI प्रणालींसाठी जोरदारपणे बाजू मांडली पाहिजे, ज्यावर आपण दीर्घकाळापासून अवलंबून आहोत.

खुल्या युगाचा सुवर्णकाळ: धोक्यात असलेला वारसा

दशकांपासून, ओपन-सोर्स चळवळ वैज्ञानिक प्रगतीची एक अज्ञात नायिका राहिली आहे. सांख्यिकीय विश्लेषणासाठी R Studio किंवा द्रव गतिशीलतेच्या मॉडेलिंगसाठी OpenFOAM सारख्या परिचित साधनांच्या पलीकडे विचार करा. Linux सारख्या मूलभूत प्रणालींचा विचार करा, ज्या इंटरनेट आणि वैज्ञानिक संगणकीय क्लस्टर्सचा मोठा भाग चालवतात, किंवा Apache वेब सर्व्हर, जो सहयोगी सॉफ्टवेअर विकासाचा पुरावा आहे. तत्त्वज्ञान सरळ होते: सोर्स कोडमध्ये प्रवेश द्या, परवानगी देणाऱ्या परवान्याअंतर्गत बदल आणि पुनर्वितरणास अनुमती द्या आणि जागतिक परिसंस्था वाढवा जिथे सुधारणांचा फायदा सर्वांना होतो.

हा केवळ परोपकार नव्हता; ही व्यावहारिक प्रतिभा होती. खुल्यापणामुळे शोधाला गती मिळाली. संशोधक प्रयोग पुन्हा करू शकत होते, निष्कर्षांची पडताळणी करू शकत होते आणि नव्याने सुरुवात न करता किंवा अपारदर्शक मालकी प्रणालींमध्ये न अडकता विद्यमान कामावर आधारित नवीन काम करू शकत होते. यामुळे विश्वास वाढला, कारण अंतर्गत कार्यप्रणाली तपासणीसाठी उपलब्ध होती, ज्यामुळे त्रुटी (bugs) शोधून त्या एकत्रितपणे दुरुस्त करता येत होत्या. यामुळे प्रवेशाचे लोकशाहीकरण झाले, ज्यामुळे जगभरातील शास्त्रज्ञ आणि विकासक, संस्थात्मक संलग्नता किंवा बजेटची पर्वा न करता, अत्याधुनिक कामात सहभागी होऊ शकले. सामायिक प्रवेश आणि परस्पर छाननीवर आधारित ही सहयोगी भावना वैज्ञानिक पद्धतीमध्ये खोलवर रुजली, ज्यामुळे विविध क्षेत्रांमध्ये मजबुती सुनिश्चित झाली आणि जलद प्रगती झाली. वापरल्या जाणाऱ्या साधनांचे विश्लेषण करणे, समजून घेणे आणि त्यात बदल करण्याची क्षमता अत्यंत महत्त्वाची होती. हे केवळ सॉफ्टवेअर वापरण्यापुरते मर्यादित नव्हते; ते कसे कार्य करते हे समजून घेणे, विशिष्ट वैज्ञानिक कार्यासाठी त्याची योग्यता सुनिश्चित करणे आणि सामूहिक ज्ञान भांडारात योगदान देणे महत्त्वाचे होते. या सद्गुणी चक्राने अभूतपूर्व वेगाने नवोपक्रमाला चालना दिली.

AI ची डेटावरील निर्भरता: ‘कोडच राजा’ का कमी पडतो

आता मोठ्या प्रमाणावरील Artificial Intelligence च्या युगात प्रवेश करूया, विशेषतः त्या मूलभूत मॉडेल्सचा (foundational models) विचार करूया ज्यांनी खूप लक्ष आणि गुंतवणूक आकर्षित केली आहे. येथे, पारंपरिक ओपन-सोर्स प्रतिमान, जे प्रामुख्याने सोर्स कोडवर केंद्रित होते, त्याला एका मूलभूत विसंगतीचा सामना करावा लागतो. AI मॉडेल तयार करण्यासाठी वापरले जाणारे अल्गोरिदम आणि कोड निश्चितपणे चित्राचा भाग आहेत, परंतु ते संपूर्ण कथा नाहीत. आधुनिक AI, विशेषतः डीप लर्निंग मॉडेल्स, डेटाचे प्रचंड भुकेले ग्राहक आहेत. प्रशिक्षण डेटा (training data) केवळ एक इनपुट नाही; तो मॉडेलची क्षमता, पूर्वग्रह आणि मर्यादा यांचा मुख्य निर्धारक आहे, असे म्हणता येईल.

मॉडेलचा कोड, किंवा त्याचे अंतिम प्रशिक्षित पॅरामीटर्स (‘weights’) प्रसिद्ध करणे, परंतु प्रशिक्षणासाठी वापरलेल्या प्रचंड डेटासेटबद्दल अर्थपूर्ण प्रवेश किंवा तपशीलवार माहिती न देणे, हे एखाद्याला कारच्या चाव्या देण्यासारखे आहे, पण ती कोणत्या प्रकारचे इंधन घेते, ती कुठे चालवली गेली आहे, किंवा इंजिन प्रत्यक्षात कसे एकत्र केले गेले हे सांगण्यास नकार देण्यासारखे आहे. तुम्ही कदाचित ती चालवू शकाल, परंतु तिच्या कार्यक्षमतेतील त्रुटी समजून घेण्याची, संभाव्य समस्यांचे निदान करण्याची किंवा नवीन प्रवासासाठी त्यात विश्वासार्हपणे बदल करण्याची तुमची क्षमता मर्यादित असेल.

शिवाय, या मॉडेल्सना सुरुवातीपासून प्रशिक्षित करण्यासाठी आवश्यक असलेले संगणकीय संसाधने (computational resources) प्रचंड आहेत, अनेकदा एका प्रशिक्षण सत्रासाठी लाखो डॉलर्स खर्च होतात. यामुळे आणखी एक अडथळा निर्माण होतो. जरी कोड आणि डेटा पूर्णपणे उपलब्ध असले तरी, केवळ काही मोजक्या संस्थांकडेच प्रशिक्षण प्रक्रिया पुन्हा करण्याची पायाभूत सुविधा आहे. ही वास्तविकता पारंपरिक सॉफ्टवेअरच्या तुलनेत गतिशीलतेला मूलभूतपणे बदलते, जिथे कोड संकलित करणे सामान्यतः बहुतेक विकासक किंवा संशोधकांच्या आवाक्यात असते. AI साठी, खरी पुनरुत्पादकता आणि पुन्हा प्रशिक्षण देऊन प्रयोग करण्याची क्षमता अनेकदा अप्राप्य राहते, जरी घटक ‘ओपन’ म्हणून लेबल केलेले असले तरीही. म्हणून, कोडसाठी तयार केलेल्या जुन्या ओपन-सोर्स व्याख्या लागू करणे या नवीन, डेटा-केंद्रित आणि गणना-केंद्रित (compute-intensive) क्षेत्राच्या गरजा पूर्ण करत नाही.

‘ओपनवॉशिंग’: मेंढीच्या वेशातील लांडगा

पारंपारिक ओपन-सोर्स संकल्पना आणि AI विकासाच्या वास्तवामधील या दरीमुळे ‘ओपनवॉशिंग’ नावाच्या घटनेसाठी सुपीक जमीन तयार झाली आहे. कंपन्या उत्सुकतेने त्यांच्या AI मॉडेल्सवर ‘ओपन सोर्स’ लेबल लावतात, या शब्दाशी संबंधित जनसंपर्क फायदे आणि सदिच्छा मिळवतात, परंतु त्याच वेळी असे परवाने किंवा प्रवेश निर्बंध वापरतात जे खऱ्या खुल्यापणाच्या भावनेचा, जरी काटेकोर (आणि कदाचित कालबाह्य) अक्षराचा नसला तरी, विश्वासघात करतात.

हे व्यवहारात कसे दिसते?

  • डेटाशिवाय कोड प्रकाशन: एखादी कंपनी मॉडेलच्या आर्किटेक्चरचा कोड आणि कदाचित पूर्व-प्रशिक्षित वेट्स (weights) प्रसिद्ध करू शकते, ज्यामुळे इतरांना मॉडेल ‘जसे आहे तसे’ वापरता येते किंवा लहान डेटासेटवर फाइन-ट्यून करता येते. तथापि, प्रचंड, मूलभूत प्रशिक्षण डेटासेट – मॉडेलच्या मुख्य क्षमतांना परिभाषित करणारा गुप्त घटक – मालकीचा आणि लपलेला राहतो.
  • निर्बंधात्मक परवाना: मॉडेल्स अशा परवान्याअंतर्गत प्रसिद्ध केली जाऊ शकतात जी पहिल्या दृष्टीक्षेपात खुली वाटतात परंतु त्यात व्यावसायिक वापरास मर्यादित करणारे, विशिष्ट परिस्थितीत उपयोजनास प्रतिबंधित करणारे, किंवा विशिष्ट प्रकारचे बदल किंवा विश्लेषण प्रतिबंधित करणारे कलम असतात. हे निर्बंध सामान्यतः ओपन-सोर्स सॉफ्टवेअरशी संबंधित असलेल्या स्वातंत्र्यांच्या विरोधात जातात.
  • अस्पष्ट डेटा प्रकटीकरण: डेटा स्रोत, संकलन पद्धती, स्वच्छता प्रक्रिया आणि संभाव्य पूर्वग्रहांबद्दल तपशीलवार माहितीऐवजी, कंपन्या अस्पष्ट वर्णन देऊ शकतात किंवा महत्त्वपूर्ण तपशील पूर्णपणे वगळू शकतात. ‘डेटा पारदर्शकते’च्या या अभावामुळे मॉडेलची विश्वासार्हता किंवा नैतिक परिणामांचे पूर्णपणे मूल्यांकन करणे अशक्य होते.

अशा पद्धतींमध्ये का गुंतले जाते? प्रेरणा कदाचित विविध आहेत. ‘ओपन सोर्स’चे सकारात्मक अर्थ प्रतिभा आकर्षित करण्यासाठी, विकासक समुदाय तयार करण्यासाठी (जरी प्रतिबंधित असले तरी) आणि अनुकूल प्रसिद्धी निर्माण करण्यासाठी निःसंशयपणे मौल्यवान आहेत. अधिक संशयास्पदपणे, जसे Nature सूचित करते, नियामक प्रोत्साहन असू शकते. उदाहरणार्थ, युरोपियन युनियनचा व्यापक 2024 AI कायदा, ओपन सोर्स म्हणून वर्गीकृत प्रणालींसाठी संभाव्य सूट किंवा हलक्या आवश्यकतांचा समावेश करतो. धोरणात्मकपणे लेबल वापरून, काही कंपन्या कमी घर्षणासह जटिल नियामक लँडस्केपमध्ये नेव्हिगेट करण्याची आशा करू शकतात, संभाव्यतः शक्तिशाली, सामान्य-उद्देशीय AI प्रणालींसाठी असलेल्या छाननीला बगल देऊ शकतात. हा धोरणात्मक ब्रँडिंग व्यायाम ओपन-सोर्स चळवळीच्या ऐतिहासिक सदिच्छेचा गैरफायदा घेतो आणि जबाबदार AI उपयोजन सुनिश्चित करण्याच्या प्रयत्नांना संभाव्यतः कमजोर करतो.

खुल्यापणाची श्रेणी: उदाहरणांचे परीक्षण

हे ओळखणे महत्त्वाचे आहे की AI मधील खुलेपणा necessariamente बायनरी स्थिती नाही; तो एका श्रेणीवर अस्तित्वात आहे. तथापि, सध्याच्या लेबलिंग पद्धती अनेकदा एखादे विशिष्ट मॉडेल त्या श्रेणीवर नेमके कुठे आहे हे अस्पष्ट करतात.

या संदर्भात अनेकदा चर्चिल्या जाणाऱ्या काही प्रमुख उदाहरणांचा विचार करा:

  • Meta ची Llama मालिका: Meta ने Llama मॉडेल्ससाठी वेट्स (weights) आणि कोड प्रसिद्ध केले असले तरी, सुरुवातीला प्रवेशासाठी अर्ज आवश्यक होता आणि परवान्यामध्ये निर्बंध समाविष्ट होते, विशेषतः खूप मोठ्या कंपन्यांद्वारे वापर आणि विशिष्ट अनुप्रयोगांशी संबंधित. गंभीरपणे, मूलभूत प्रशिक्षण डेटा प्रसिद्ध केला गेला नाही, ज्यामुळे पूर्ण पुनरुत्पादकता आणि त्याच्या वैशिष्ट्यांचे सखोल विश्लेषण मर्यादित झाले. जरी नंतरच्या आवृत्त्यांमध्ये अटी समायोजित केल्या गेल्या असल्या तरी, डेटा अपारदर्शकतेचा मुख्य मुद्दा अनेकदा तसाच राहतो.
  • Microsoft चे Phi-2: Microsoft ने Phi-2 ला ‘ओपन-सोर्स’ लहान भाषा मॉडेल म्हणून सादर केले. मॉडेल वेट्स उपलब्ध असले तरी, परवान्यामध्ये विशिष्ट वापराच्या मर्यादा आहेत आणि त्याच्या प्रशिक्षण डेटासेटबद्दल तपशीलवार माहिती, जी त्याची क्षमता आणि संभाव्य पूर्वग्रह समजून घेण्यासाठी महत्त्वपूर्ण आहे (विशेषतः ‘सिंथेटिक’ डेटावर प्रशिक्षित केल्यामुळे), पूर्णपणे पारदर्शक नाही.
  • Mistral AI चे Mixtral: एका प्रमुख युरोपियन AI स्टार्टअपद्वारे प्रसिद्ध केलेल्या या मॉडेलने त्याच्या कामगिरीसाठी लक्ष वेधून घेतले. जरी घटक परवानगी देणाऱ्या Apache 2.0 परवान्याअंतर्गत (कोड/वेट्ससाठी खऱ्या अर्थाने खुला परवाना) प्रसिद्ध केले गेले असले तरी, प्रशिक्षण डेटा रचना आणि क्युरेशन प्रक्रियेसंदर्भात पूर्ण पारदर्शकता मर्यादित आहे, ज्यामुळे सखोल वैज्ञानिक छाननीमध्ये अडथळा येतो.

यांची तुलना पारंपरिक ओपन-सोर्स तत्त्वांसह अधिक संरेखन साधण्याचा प्रयत्न करणाऱ्या उपक्रमांशी करा:

  • Allen Institute for AI चे OLMo: या प्रकल्पाचा उद्देश स्पष्टपणे खऱ्या अर्थाने खुले भाषा मॉडेल तयार करणे हा होता, ज्यामध्ये केवळ मॉडेल वेट्स आणि कोडच नव्हे तर प्रशिक्षण डेटा (Dolma डेटासेट) आणि तपशीलवार प्रशिक्षण लॉग प्रसिद्ध करण्याला प्राधान्य दिले गेले. या वचनबद्धतेमुळे व्यापक संशोधन समुदायाद्वारे अभूतपूर्व स्तरावरील पुनरुत्पादकता आणि विश्लेषण शक्य होते.
  • LLM360 चे CrystalCoder: हा समुदाय-चालित प्रयत्न देखील मॉडेल विकास जीवनचक्रातील सर्व घटक प्रसिद्ध करण्यावर जोर देतो, ज्यात इंटरमीडिएट चेकपॉइंट्स आणि डेटा व प्रशिक्षण प्रक्रियेबद्दल तपशीलवार दस्तऐवजीकरण समाविष्ट आहे, ज्यामुळे कॉर्पोरेट प्रकाशनांमध्ये अनेकदा गहाळ असलेली पारदर्शकता वाढते.

ही विरोधाभासी उदाहरणे अधोरेखित करतात की AI मध्ये खरा खुलेपणा शक्य आहे, परंतु त्यासाठी केवळ कोड किंवा वेट्स प्रसिद्ध करण्यापलीकडे जाणीवपूर्वक वचनबद्धतेची आवश्यकता आहे. त्यासाठी डेटा आणि प्रक्रियेबद्दल पारदर्शकतेची मागणी आहे, आणि त्यासोबत येणाऱ्या छाननीला स्वीकारण्याची तयारी आहे. ‘ओपनवॉशिंग’मुळे निर्माण झालेली सध्याची संदिग्धता संशोधकांना कोणती साधने खऱ्या अर्थाने खुल्या वैज्ञानिक चौकशीला समर्थन देतात हे ओळखणे कठीण करते.

विश्वासाची धूप: वैज्ञानिक सचोटी धोक्यात

या व्यापक ‘ओपनवॉशिंग’चे परिणाम केवळ ब्रँडिंगच्या पलीकडे जातात. जेव्हा संशोधक अशा AI मॉडेल्सवर अवलंबून असतात ज्यांची अंतर्गत कार्यप्रणाली, विशेषतः ज्या डेटावर त्यांना प्रशिक्षित केले गेले आहे, अपारदर्शक असते, तेव्हा ते वैज्ञानिक पद्धतीच्या हृदयावर आघात करते.

  • पुनरुत्पादकता कमी होते: वैज्ञानिक वैधतेचा आधारस्तंभ म्हणजे स्वतंत्र संशोधकांनी परिणाम पुन्हा तयार करण्याची क्षमता. जर प्रशिक्षण डेटा आणि अचूक प्रशिक्षण पद्धती अज्ञात असतील, तर खरी प्रतिकृती अशक्य होते. संशोधक पूर्व-प्रशिक्षित मॉडेल वापरू शकतात, परंतु ते त्याच्या निर्मितीची पडताळणी करू शकत नाहीत किंवा लपलेल्या डेटामधून प्राप्त झालेल्या त्याच्या मूलभूत गुणधर्मांची तपासणी करू शकत नाहीत.
  • पडताळणीमध्ये अडथळा: शास्त्रज्ञ मॉडेलच्या आउटपुटवर कसा विश्वास ठेवू शकतात जर ते ज्या डेटावरून शिकले आहे त्याची तपासणी करू शकत नसतील? प्रशिक्षण डेटामध्ये अंतर्भूत असलेले छुपे पूर्वग्रह, अयोग्यता किंवा नैतिक चिंता मॉडेलच्या वर्तनात अनिवार्यपणे प्रकट होतील, तरीही पारदर्शकतेशिवाय या त्रुटी शोधणे, निदान करणे किंवा कमी करणे कठीण आहे. वैज्ञानिक शोधासाठी अशा ब्लॅक बॉक्सचा वापर करणे अनिश्चिततेची अस्वीकार्य पातळी आणते.
  • नवोपक्रम थांबतो: विज्ञान मागील कामावर आधारित प्रगती करते. जर मूलभूत मॉडेल्स निर्बंधांसह किंवा आवश्यक पारदर्शकतेशिवाय (विशेषतः डेटा संदर्भात) प्रसिद्ध केले गेले, तर ते इतरांना नवोपक्रम करण्याची, पर्यायी प्रशिक्षण पद्धतींसह प्रयोग करण्याची किंवा मूळ निर्मात्यांनी कल्पना न केलेल्या नवीन वैज्ञानिक अनुप्रयोगांसाठी मॉडेल्स जुळवून घेण्याची क्षमता मर्यादित करते. प्रगती या अर्ध-अपारदर्शक प्रणालींच्या प्रदात्यांद्वारे नियंत्रित होते.

बंद किंवा अंशतः बंद कॉर्पोरेट प्रणालींवर अवलंबून राहणे संशोधकांना सक्रिय सहभागी आणि नवोपक्रमकांऐवजी निष्क्रिय ग्राहक भूमिकेत ढकलते. यामुळे भविष्यात महत्त्वपूर्ण वैज्ञानिक पायाभूत सुविधा काही मोठ्या संस्थांद्वारे नियंत्रित होण्याचा धोका निर्माण होतो, जे संभाव्यतः खुल्या वैज्ञानिक चौकशीच्या गरजांपेक्षा व्यावसायिक हितसंबंधांना प्राधान्य देऊ शकतात. पारदर्शकतेची ही धूप थेट आधुनिक संशोधनाला आधार देणाऱ्या साधनांवरील विश्वासाच्या धुपेशी संबंधित आहे.

बाजार एकाग्रता आणि नवोपक्रमावरील परिणाम

वैज्ञानिक पद्धतीवरील तात्काळ परिणामांपलीकडे, AI मधील बनावट ओपन सोर्सच्या प्रसाराचे महत्त्वपूर्ण आर्थिक आणि बाजारावर परिणाम होतात. मोठ्या मूलभूत मॉडेल्सच्या विकासासाठी केवळ महत्त्वपूर्ण तज्ञताच नव्हे तर प्रचंड डेटासेट आणि प्रचंड संगणकीय शक्तीमध्ये प्रवेश आवश्यक आहे – ही संसाधने मोठ्या तंत्रज्ञान कॉर्पोरेशन्सकडे असमान प्रमाणात आहेत.

जेव्हा या कॉर्पोरेशन्स ‘ओपन सोर्स’ बॅनरखाली मॉडेल्स प्रसिद्ध करतात परंतु महत्त्वपूर्ण प्रशिक्षण डेटावर नियंत्रण ठेवतात किंवा निर्बंधात्मक परवाने लादतात, तेव्हा ते एक असमान खेळण्याचे मैदान तयार करते.

  • प्रवेशातील अडथळे: स्टार्टअप्स आणि लहान संशोधन प्रयोगशाळांमध्ये सुरुवातीपासून तुलनात्मक मूलभूत मॉडेल्स तयार करण्यासाठी संसाधनांची कमतरता असते. जर प्रस्थापित कंपन्यांनी प्रसिद्ध केलेली तथाकथित ‘ओपन’ मॉडेल्स अटींसह (जसे की व्यावसायिक वापरावरील निर्बंध किंवा सखोल बदलांना प्रतिबंध करणारी डेटा अपारदर्शकता) येत असतील, तर ते या लहान कंपन्यांना प्रभावीपणे स्पर्धा करण्याची किंवा त्यावर आधारित खऱ्या अर्थाने नाविन्यपूर्ण अनुप्रयोग तयार करण्याची क्षमता मर्यादित करते.
  • प्रस्थापितांना बळकट करणे: ‘ओपनवॉशिंग’ एक धोरणात्मक खंदक म्हणून काम करू शकते. उपयुक्त परंतु खऱ्या अर्थाने खुल्या नसलेल्या मॉडेल्सना प्रसिद्ध करून, मोठ्या कंपन्या त्यांच्या तंत्रज्ञानावर अवलंबून असलेल्या परिसंस्था वाढवू शकतात आणि त्याच वेळी प्रतिस्पर्धकांना त्यांच्या मुख्य मालमत्तांची (डेटा आणि परिष्कृत प्रशिक्षण प्रक्रिया) पूर्णपणे प्रतिकृती करण्यापासून किंवा त्यात लक्षणीय सुधारणा करण्यापासून प्रतिबंधित करू शकतात. हे खुल्यापणासारखे दिसते परंतु नियंत्रित प्लॅटफॉर्म धोरणासारखे कार्य करते.
  • दृष्टिकोनांची विविधता कमी होणे: जर नवोपक्रम काही प्रबळ, अर्ध-अपारदर्शक मूलभूत मॉडेल्सवर जास्त अवलंबून राहिला, तर ते AI विकासाच्या एकसमानतेकडे नेऊ शकते, संभाव्यतः पर्यायी आर्किटेक्चर्स, प्रशिक्षण प्रतिमान किंवा डेटा धोरणांकडे दुर्लक्ष करू शकते जे लहान, स्वतंत्र गट जर क्षेत्र खऱ्या अर्थाने खुले असते तर शोधू शकले असते.

खरा ओपन सोर्स ऐतिहासिकदृष्ट्या स्पर्धा आणि वितरित नवोपक्रमासाठी एक शक्तिशाली इंजिन ठरला आहे. AI मधील सध्याचा ट्रेंड शक्ती केंद्रित करण्याचा आणि खुल्या सहकार्याने वाढवल्या जाणाऱ्या गतिशीलतेलाच दाबण्याचा धोका निर्माण करतो, ज्यामुळे संभाव्यतः कमी उत्साही आणि अधिक केंद्रीय नियंत्रित AI लँडस्केप तयार होऊ शकते.

नियामक त्रुटी आणि नैतिक तारेवरची कसरत

‘ओपनवॉशिंग’ची नियामक त्रुटींचा गैरफायदा घेण्याची क्षमता, विशेषतः EU AI कायद्यासारख्या फ्रेमवर्कसंदर्भात, अधिक बारकाईने तपासण्याची गरज आहे. या कायद्याचा उद्देश AI प्रणालींसाठी जोखीम-आधारित नियम स्थापित करणे आहे, उच्च-जोखीम अनुप्रयोगांवर कठोर आवश्यकता लादणे आहे. ओपन-सोर्स AI साठी सूट किंवा हलक्या जबाबदाऱ्या नवोपक्रमाला चालना देण्यासाठी आणि ओपन-सोर्स समुदायावर जास्त भार टाकणे टाळण्यासाठी आहेत.

तथापि, जर कंपन्या खऱ्या पारदर्शकतेचा अभाव असलेल्या मॉडेल्ससाठी (विशेषतः डेटा आणि प्रशिक्षणासंदर्भात) ‘ओपन सोर्स’चा दावा यशस्वीरित्या करू शकल्या, तर त्या महत्त्वाच्या सुरक्षा उपायांना बगल देऊ शकतात. यामुळे गंभीर प्रश्न निर्माण होतात:

  • अर्थपूर्ण छाननी: नियामक एखाद्या शक्तिशाली AI मॉडेलच्या जोखमींचे पुरेसे मूल्यांकन करू शकतात का, जर त्याचा प्रशिक्षण डेटा – त्याच्या वर्तनाचा आणि संभाव्य पूर्वग्रहांचा मुख्य निर्धारक – दृष्टीआड असेल? चुकीच्या लेबलिंगमुळे संभाव्यतः उच्च-जोखीम असलेल्या प्रणालींना हेतू पेक्षा कमी देखरेखीखाली कार्य करण्याची परवानगी मिळू शकते.
  • जबाबदारीतील त्रुटी: जेव्हा गोष्टी चुकीच्या होतात – जर एखादे मॉडेल हानिकारक पूर्वग्रह दर्शवते किंवा धोकादायक आउटपुट तयार करते – तर अंतर्निहित डेटा आणि प्रशिक्षण प्रक्रिया अपारदर्शक असल्यास कोण जबाबदार आहे? खरा खुलेपणा तपासणी आणि जबाबदारी सुलभ करतो; ‘ओपनवॉशिंग’ ते अस्पष्ट करते.
  • नैतिक शासन: AI जबाबदारीने तैनात करण्यासाठी त्याच्या मर्यादा आणि संभाव्य सामाजिक परिणाम समजून घेणे आवश्यक आहे. जेव्हा प्रशिक्षण डेटासारखे मुख्य घटक गुप्त ठेवले जातात तेव्हा ही समज मूलभूतपणे धोक्यात येते. यामुळे स्वतंत्र ऑडिट, पूर्वग्रह मूल्यांकन आणि नैतिक पुनरावलोकने लक्षणीयरीत्या अधिक आव्हानात्मक, किंबहुना अशक्य होतात.

नियमनामध्ये नेव्हिगेट करण्यासाठी ‘ओपन सोर्स’ लेबलचा धोरणात्मक वापर केवळ कायदेशीर डावपेच नाही; त्याचे गंभीर नैतिक परिणाम आहेत. यामुळे सार्वजनिक विश्वास कमी होण्याचा आणि AI विकास सुरक्षित, न्याय्य आणि जबाबदार पद्धतीने पुढे जाईल याची खात्री करण्याच्या प्रयत्नांना बाधा येण्याचा धोका आहे. ‘ओपन सोर्स AI’ च्या नियामक व्याख्या खऱ्या पारदर्शकतेच्या तत्त्वांशी जुळतात याची खात्री करणे त्यामुळे अत्यंत महत्त्वाचे आहे.

खऱ्या AI ओपननेसकडे वाटचाल

सुदैवाने, धोक्याची घंटा वाजत आहे आणि AI च्या युगात ‘ओपन सोर्स’चा अर्थ पुन्हा प्राप्त करण्यासाठी प्रयत्न सुरू आहेत. Open Source Initiative (OSI), ओपन-सोर्स व्याख्यांची दीर्घकाळची संरक्षक, ने Open Source AI साठी स्पष्ट मानके स्थापित करण्यासाठी जागतिक सल्लामसलत प्रक्रिया सुरू केली आहे (ज्याचा परिणाम OSAID 1.0 व्याख्येत झाला आहे).

या प्रयत्नातील एक प्रमुख नवोपक्रम म्हणजे ‘डेटा माहिती’ (data information) ची संकल्पना. काही प्रकरणांमध्ये प्रचंड कच्चा डेटासेट प्रसिद्ध करणे कायदेशीर किंवा लॉजिस्टिकदृष्ट्या अव्यवहार्य असू शकते (गोपनीयता, कॉपीराइट किंवा केवळ आकारामुळे) हे ओळखून, OSAID फ्रेमवर्क डेटामधील माहिती च्या व्यापक प्रकटीकरणावर जोर देते. यात यावर तपशील समाविष्ट आहे:

  • स्रोत: डेटा कुठून आला?
  • वैशिष्ट्ये: तो कोणत्या प्रकारचा डेटा आहे (मजकूर, प्रतिमा, कोड)? त्याचे सांख्यिकीय गुणधर्म काय आहेत?
  • तयारी: डेटा कसा गोळा केला गेला, फिल्टर केला गेला, स्वच्छ केला गेला आणि पूर्व-प्रक्रिया केली गेली? पूर्वग्रह कमी करण्यासाठी कोणती पावले उचलली गेली?

पारदर्शकतेची ही पातळी, जरी कच्चा डेटा स्वतः नसला तरी, संशोधकांना मॉडेलची संभाव्य क्षमता, मर्यादा आणि संभाव्य पूर्वग्रह समजून घेण्यासाठी महत्त्वपूर्ण संदर्भ प्रदान करते. हे विद्यमान मर्यादांमध्ये जास्तीत जास्त पारदर्शकतेसाठी प्रयत्न करणारे एक व्यावहारिक तडजोड दर्शवते. OSI सोबत, Open Future सारख्या संस्था ‘डेटा-कॉमन्स’ (data-commons) मॉडेल कडे व्यापक बदलासाठी वकिली करत आहेत, AI प्रशिक्षणासाठी सामायिक, नैतिकदृष्ट्या सोर्स केलेले आणि उघडपणे प्रवेशयोग्य डेटासेट तयार करण्याचे मार्ग शोधत आहेत, ज्यामुळे प्रवेशातील अडथळे आणखी कमी होतील आणि सहयोगी विकासाला चालना मिळेल. अशी स्पष्ट, समुदाय-मान्यताप्राप्त मानके स्थापित करणे आणि त्यांचे पालन करणे हे ‘ओपनवॉशिंग’चे धुके दूर करण्यासाठी आवश्यक पहिले पाऊल आहे.

संशोधन समुदायासाठी अत्यावश्यकता

शास्त्रज्ञ आणि संशोधक केवळ AI साधनांचे ग्राहक नाहीत; ही साधने वैज्ञानिक मूल्यांशी जुळतात याची खात्री करण्यात ते महत्त्वपूर्ण हितधारक आहेत. OSAID 1.0 सारख्या विकसित होत असलेल्या व्याख्या आणि मानकांसह सक्रियपणे गुंतणे महत्त्वाचे आहे. परंतु कृती केवळ जागरूकतेच्या पलीकडे गेली पाहिजे:

  • पारदर्शकतेची मागणी करा: प्रकाशने, अनुदान प्रस्ताव आणि साधन निवडीमध्ये, संशोधकांनी ते वापरत असलेल्या AI मॉडेल्ससंदर्भात अधिक पारदर्शकतेला प्राधान्य दिले पाहिजे आणि मागणी केली पाहिजे. यात मॉडेल प्रकाशनांसोबत तपशीलवार ‘डेटा माहिती’ कार्ड्स किंवा डेटाशीट्ससाठी आग्रह धरणे समाविष्ट आहे.
  • खऱ्या खुल्यापणाला समर्थन द्या: OLMo सारख्या प्रकल्पांमध्ये किंवा कोड, डेटा आणि पद्धती प्रसिद्ध करण्यासाठी खरी वचनबद्धता दर्शविणाऱ्या इतर उपक्रमांमध्ये सक्रियपणे योगदान द्या, त्यांचा वापर करा आणि संदर्भ द्या. डाउनलोड्स आणि संदर्भांसह मतदान करणे एक शक्तिशाली बाजार संकेत पाठवते.
  • मूल्यांकन मानके विकसित करा: समुदायाला AI मॉडेलच्या खुल्यापणाची पदवी मूल्यांकन करण्यासाठी मजबूत पद्धती आणि चेकलिस्टची आवश्यकता आहे, साध्या लेबल्सच्या पलीकडे जाऊन. समवयस्क पुनरावलोकन प्रक्रियेत संशोधनात वापरल्या जाणाऱ्या AI साधनांशी संबंधित पारदर्शकतेच्या दाव्यांची छाननी समाविष्ट केली पाहिजे.
  • संस्थांमध्ये वकिली करा: विद्यापीठे, संशोधन संस्था आणि व्यावसायिक सोसायट्यांना खऱ्या अर्थाने खुल्या आणि पारदर्शक AI साधने आणि प्लॅटफॉर्मच्या वापरास अनुकूल किंवा आवश्यक धोरणे स्वीकारण्यास प्रोत्साहित करा.

वैज्ञानिक समुदायाचा मोठा प्रभाव आहे. पुनरुत्पादकता, पारदर्शकता आणि सहयोगी प्रवेश टिकवून ठेवणार्‍या मानकांवर एकत्रितपणे आग्रह धरून, संशोधक दिशाभूल करणार्‍या दाव्यांना मागे ढकलू शकतात आणि कठोर वैज्ञानिक शोधासाठी अनुकूल AI परिसंस्था तयार करण्यात मदत करू शकतात.

धोरण, निधी आणि पुढील मार्ग

सरकार आणि सार्वजनिक निधी एजन्सी देखील AI लँडस्केपला आकार देण्यात महत्त्वपूर्ण शक्ती वापरतात. त्यांची धोरणे एकतर ‘ओपनवॉशिंग’ला अप्रत्यक्षपणे मान्यता देऊ शकतात किंवा खऱ्या खुल्यापणाला सक्रियपणे प्रोत्साहन देऊ शकतात.

  • खुल्यापणासाठी आदेश: US National Institutes of Health (NIH) सारख्या संस्थांकडे आधीच त्यांच्याद्वारे निधी दिलेल्या संशोधनासाठी ओपन लायसन्सिंग आणि डेटा शेअरिंग आवश्यक असलेले आदेश आहेत. सार्वजनिक पैशाने विकसित केलेल्या AI मॉडेल्स आणि डेटासेटसाठी समान तत्त्वे विस्तारित करणे हे एक तार्किक आणि आवश्यक पाऊल आहे. जर सार्वजनिक निधी AI विकासास समर्थन देत असेल, तर परिणाम शक्य तितक्या मोठ्या प्रमाणात सार्वजनिकरित्या प्रवेशयोग्य आणि पडताळणीयोग्य असावेत.
  • खरेदी शक्ती: सरकारी एजन्सी तंत्रज्ञानाचे प्रमुख ग्राहक आहेत. सार्वजनिक खरेदी करारांमध्ये खऱ्या ओपन-सोर्स AI साठी (OSAID सारख्या मानकांचे पालन करून) आवश्यकता निर्दिष्ट करून, सरकार कंपन्यांना अधिक पारदर्शक पद्धती स्वीकारण्यासाठी महत्त्वपूर्ण बाजार प्रोत्साहन तयार करू शकतात. Italy ची सार्वजनिक प्रशासनात ओपन-सोर्स सॉफ्टवेअरची आवश्यकता एक संभाव्य टेम्पलेट प्रदान करते.
  • खुल्या पायाभूत सुविधांमध्ये गुंतवणूक: नियमनाच्या पलीकडे, ‘डेटा कॉमन्स’ उपक्रमांमध्ये सार्वजनिक गुंतवणूक, संशोधकांसाठी खुली संगणकीय संसाधने आणि खऱ्या अर्थाने खुल्या AI मॉडेल्सना होस्ट करण्यासाठी आणि त्यांचे मूल्यांकन करण्यासाठी समर्पित प्लॅटफॉर्म परिवर्तनकारी ठरू शकतात. यामुळे खेळण्याचे मैदान समतल करण्यात मदत होऊ शकते आणि मालकी किंवा अर्ध-खुल्या प्रणालींना व्यवहार्य पर्याय प्रदान करू शकतात.
  • जागतिक सहकार्य: AI विकासाच्या जागतिक स्वरूपाला पाहता, ओपन-सोर्स AI मानके परिभाषित करण्यावर आणि त्यांना प्रोत्साहन देण्यावर आंतरराष्ट्रीय सहकार्य नियामक विखंडन टाळण्यासाठी आणि जगभरात पारदर्शकता आणि जबाबदारीची एक सुसंगत आधाररेखा सुनिश्चित करण्यासाठी आवश्यक आहे.

धोरणात्मक लीव्हर्स, जेव्हा विचारपूर्वक लागू केले जातात, तेव्हा ते फसव्या लेबलिंगकडून खऱ्या अर्थाने वैज्ञानिक सचोटी आणि व्यापक नवोपक्रमाला समर्थन देणाऱ्या पद्धतींकडे प्रोत्साहनांना लक्षणीयरीत्या बदलू शकतात. AI मधील ‘ओपन सोर्स’ भ्रमाविरुद्धच्या लढाईसाठी एकत्रित प्रयत्नांची आवश्यकता आहे. संशोधकांनी सतर्क टीकाकार असले पाहिजे, वैज्ञानिक कठोरतेसाठी आवश्यक असलेल्या पारदर्शकतेची मागणी केली पाहिजे. OSI सारख्या मानक-निर्धारण संस्थांनी AI च्या अद्वितीय स्वरूपाला प्रतिबिंबित करणाऱ्या व्याख्या परिष्कृत करणे सुरू ठेवले पाहिजे. आणि धोरणकर्त्यांनी पडताळणीयोग्य, विश्वासार्ह आणि प्रवेशयोग्य कृत्रिम बुद्धिमत्तेतील सार्वजनिक हिताशी जुळणाऱ्या पद्धतींना प्रोत्साहन देण्यासाठी आणि अनिवार्य करण्यासाठी त्यांच्या प्रभावाचा वापर केला पाहिजे. विज्ञानातील AI चा भविष्यातील मार्ग – मग तो शोधासाठी खऱ्या अर्थाने खुला सीमा बनेल किंवा अपारदर्शक कॉर्पोरेट प्रणालींनी वर्चस्व गाजवलेले लँडस्केप बनेल – तो धोक्यात आहे.