AI 'ओपन सोर्स'चा देखावा: वैज्ञानिक सचोटीचे आवाहन

एका पायाभूत संकल्पनेचे अवमूल्यन: 'ओपन सोर्स'ची धूप

‘ओपन सोर्स’ हा शब्द एकेकाळी तांत्रिक आणि वैज्ञानिक क्षेत्रात एक दीपस्तंभ म्हणून ओळखला जात होता. हे पारदर्शकता, अनिर्बंध प्रवेश, सहयोगी सुधारणा आणि पुनरुत्पादकतेचे मूलभूत तत्त्व यावर आधारित एक शक्तिशाली विचारसरणी दर्शवत असे. अनेक पिढ्यांपासून संशोधक आणि विकासकांसाठी, हे सामायिक ज्ञान आणि सामूहिक प्रगतीसाठी वचनबद्धतेचे प्रतीक होते. R Studio सारख्या वातावरणात आढळणाऱ्या मूलभूत सांख्यिकीय साधनांपासून, जे असंख्य शाखांमधील विश्लेषणांना सक्षम करतात, ते OpenFOAM सारख्या अत्याधुनिक सिम्युलेशन प्लॅटफॉर्मपर्यंत, जे द्रव गतिशीलतेची गुंतागुंत उलगडण्यासाठी वापरले जातात, ओपन-सोर्स सॉफ्टवेअर हे नवनिर्मितीसाठी एक अपरिहार्य उत्प्रेरक ठरले आहे. याने जगभरातील शास्त्रज्ञांना एकमेकांच्या कामाची तपासणी, पडताळणी, बदल आणि त्यावर आधारित नवीन काम करण्याची परवानगी देऊन शोधांना गती दिली, ज्यामुळे निष्कर्षांची प्रतिकृती आणि प्रमाणीकरण करता येईल याची खात्री झाली – जी वैज्ञानिक पद्धतीचा आधार आहे.

तथापि, आता या विश्वसनीय पदनामावर कृत्रिम बुद्धिमत्तेच्या (artificial intelligence) वाढत्या क्षेत्रामुळे एक सावली पडली आहे. Nature सारख्या प्रकाशनांनी नोंदवलेल्या अलीकडील गंभीर चर्चांमधून हे स्पष्ट झाले आहे की, एक चिंताजनक प्रवृत्ती उदयास आली आहे जिथे प्रमुख AI विकासक त्यांच्या मॉडेल्ससाठी ‘ओपन सोर्स’ लेबलचा अवलंब करतात, परंतु त्याच वेळी खऱ्या मोकळेपणासाठी आवश्यक असलेले महत्त्वपूर्ण घटक रोखून ठेवतात. ही प्रथा या शब्दाचा अर्थ कमी करण्याचा धोका निर्माण करते, त्याला पारदर्शकतेच्या प्रतीकातून संभाव्य दिशाभूल करणाऱ्या विपणन घोषणेमध्ये रूपांतरित करते. मुख्य समस्या अनेकदा आधुनिक AI प्रणालींच्या अद्वितीय स्वरूपात असते. पारंपारिक सॉफ्टवेअरच्या विपरीत जिथे सोर्स कोड सर्वोपरि असतो, मोठ्या AI मॉडेल्सची शक्ती आणि वर्तन त्यांच्या प्रशिक्षणासाठी वापरल्या जाणाऱ्या प्रचंड डेटासेट आणि त्यांना परिभाषित करणाऱ्या गुंतागुंतीच्या आर्किटेक्चरशी अविभाज्यपणे जोडलेले असते. जेव्हा या प्रशिक्षण डेटामध्ये प्रवेश किंवा मॉडेलची रचना आणि वेटिंगबद्दल तपशीलवार माहिती प्रतिबंधित केली जाते, तेव्हा मॉडेलच्या कोडचा काही भाग उपलब्ध करून दिला गेला असला तरीही, ‘ओपन सोर्स’ असल्याचा दावा पोकळ वाटतो. ही विसंगती ओपन-सोर्स तत्त्वज्ञानाच्या हृदयावर आघात करते, स्वतंत्र छाननी आणि प्रतिकृतीसाठी अत्यंत महत्त्वाचे घटक अस्पष्ट ठेवून प्रवेशयोग्यतेचा भ्रम निर्माण करते.

वैज्ञानिक AI मध्ये खऱ्या मोकळेपणाची गरज

AI मध्ये, विशेषतः वैज्ञानिक क्षेत्रात, खरी मोकळीक टिकवून ठेवण्याचे महत्त्व अत्यंत जास्त आहे. विज्ञान स्वतंत्रपणे परिणामांची पडताळणी करण्याची, पद्धती समजून घेण्याची आणि पूर्वीच्या कामावर आधारित नवीन काम करण्याची क्षमता यावर भरभराट करते. जेव्हा साधने स्वतः – वाढत्या प्रमाणात अत्याधुनिक AI मॉडेल्स – ब्लॅक बॉक्स बनतात, तेव्हा ही मूलभूत प्रक्रिया धोक्यात येते. ज्या AI प्रणालींची अंतर्गत कार्यप्रणाली, प्रशिक्षण डेटा पूर्वाग्रह किंवा संभाव्य अपयश मोड अपारदर्शक आहेत त्यावर अवलंबून राहणे संशोधनात अस्वीकार्य पातळीची अनिश्चितता आणते. जर AI च्या आउटपुटला आकार देणारे घटक अज्ञात किंवा पडताळणी करण्यायोग्य नसतील तर एखादा शास्त्रज्ञ आत्मविश्वासाने निष्कर्षांवर कसा आधारित राहू शकतो? समुदाय अशा मालकीच्या प्रणालींद्वारे व्युत्पन्न केलेल्या निष्कर्षांवर कसा विश्वास ठेवू शकतो ज्यांचे स्वतंत्रपणे ऑडिट किंवा प्रतिकृती करता येत नाही?

विज्ञानातील ओपन-सोर्स सॉफ्टवेअरचे ऐतिहासिक यश एक स्पष्ट विरोधाभास आणि एक स्पष्ट बेंचमार्क प्रदान करते. पारंपारिक ओपन-सोर्स प्रकल्पांमध्ये अंतर्भूत असलेल्या पारदर्शकतेने विश्वास वाढवला आणि मजबूत पीअर रिव्ह्यू सक्षम केले. संशोधक अल्गोरिदम तपासू शकत होते, त्यांच्या मर्यादा समजू शकत होते आणि विशिष्ट गरजांसाठी त्यांना अनुकूल करू शकत होते. या सहयोगी परिसंस्थेने बायोइन्फॉरमॅटिक्सपासून खगोलभौतिकीपर्यंतच्या क्षेत्रात प्रगतीला गती दिली. वैज्ञानिक शोधात क्रांती घडवण्याची AI ची क्षमता प्रचंड आहे, जी जटिल डेटासेटचे विश्लेषण करणे, गृहितके तयार करणे आणि अभूतपूर्व प्रमाणात गुंतागुंतीच्या प्रक्रियांचे अनुकरण करण्याचे वचन देते. तथापि, ही क्षमता साकारणे नेहमीच वैज्ञानिक प्रगतीला आधार देणाऱ्या पारदर्शकता आणि पुनरुत्पादकतेच्या त्याच तत्त्वांचे पालन करण्यावर अवलंबून आहे. बंद, मालकीच्या AI प्रणालींकडे वळणे, जरी त्या ‘ओपन’ म्हणून मुखवटा घातलेल्या असल्या तरी, संशोधन समुदायाला खंडित करण्याचा, सहकार्यात अडथळा आणण्याचा आणि शेवटी समजून घेणे आणि प्रमाणीकरण करण्यात अडथळे निर्माण करून शोधाची गती कमी करण्याचा धोका आहे. वैज्ञानिक प्रयत्नांना अशी साधने आवश्यक आहेत जी केवळ शक्तिशालीच नाहीत, तर पारदर्शक आणि विश्वासार्ह देखील आहेत.

डेटाची समस्या: AI चे पारदर्शकतेचे आव्हान

AI मधील ‘ओपन सोर्स’ वादाच्या केंद्रस्थानी प्रशिक्षण डेटाचा (training data) गंभीर मुद्दा आहे. मुख्यत्वे त्याच्या कोडद्वारे परिभाषित केलेल्या पारंपरिक सॉफ्टवेअरच्या विपरीत, मोठे भाषा मॉडेल (LLMs) आणि इतर पायाभूत AI प्रणाली त्यांच्या विकासादरम्यान ग्रहण केलेल्या प्रचंड डेटासेटद्वारे मूलभूतपणे आकार घेतात. या डेटाची वैशिष्ट्ये, पूर्वाग्रह आणि उत्पत्ती मॉडेलच्या वर्तनावर, त्याच्या क्षमतांवर आणि त्याच्या संभाव्य मर्यादांवर खोलवर परिणाम करतात. म्हणून, AI मधील खऱ्या मोकळेपणासाठी या डेटाबद्दल पारदर्शकतेची पातळी आवश्यक आहे जी केवळ मॉडेल वेट्स किंवा इन्फरन्स कोड जारी करण्यापलीकडे जाते.

सध्या ‘ओपन सोर्स’ छत्रीखाली विकले जाणारे अनेक मॉडेल्स या आघाडीवर स्पष्टपणे कमी पडतात. Meta चे Llama सिरीज, Microsoft चे Phi-2, किंवा Mistral AI चे Mixtral यांसारखी प्रमुख उदाहरणे विचारात घ्या. या कंपन्या काही घटक जारी करत असताना, विकासकांना मॉडेल्स चालवण्याची किंवा फाइन-ट्यून करण्याची परवानगी देतात, ते अनेकदा महत्त्वपूर्ण निर्बंध लादतात किंवा अंतर्निहित प्रशिक्षण डेटाबद्दल अल्प तपशील प्रदान करतात. यात समाविष्ट असलेले डेटासेट प्रचंड, मालकीचे, वेबवरून कमी क्युरेशनसह स्क्रॅप केलेले किंवा परवाना निर्बंधांच्या अधीन असू शकतात, ज्यामुळे पूर्ण सार्वजनिक प्रकाशन आव्हानात्मक किंवा अशक्य होते. तथापि, याबद्दल व्यापक माहितीशिवाय:

  • डेटा स्रोत: माहिती कोठून आली? ती प्रामुख्याने मजकूर, प्रतिमा, कोड होती का? कोणत्या वेबसाइट्स, पुस्तके किंवा डेटाबेसमधून?
  • डेटा क्युरेशन: डेटा कसा फिल्टर, साफ आणि प्रक्रिया केला गेला? माहिती समाविष्ट करण्यासाठी किंवा वगळण्यासाठी कोणते निकष वापरले गेले?
  • डेटा वैशिष्ट्ये: डेटामधील ज्ञात पूर्वाग्रह काय आहेत (उदा. लोकसंख्याशास्त्रीय, सांस्कृतिक, भाषिक)? तो कोणत्या कालावधीचा आहे?
  • प्रीप्रोसेसिंग पायऱ्या: प्रशिक्षणापूर्वी डेटावर कोणते परिवर्तन लागू केले गेले?

…स्वतंत्र संशोधकांना मॉडेलचे वर्तन पूर्णपणे समजून घेणे, त्याच्या विकासाची प्रतिकृती करणे किंवा त्याच्या संभाव्य पूर्वाग्रह आणि अपयशाच्या बिंदूंचे गंभीरपणे मूल्यांकन करणे अत्यंत कठीण होते. डेटा पारदर्शकतेचा हा अभाव हे मुख्य कारण आहे की अनेक वर्तमान ‘ओपन सोर्स’ AI प्रकाशन सॉफ्टवेअर जगात स्थापित खऱ्या मोकळेपणाच्या भावनेला, जरी कायद्याला नसले तरी, पूर्ण करत नाहीत. याउलट, Allen Institute for AI चे OLMo मॉडेल किंवा LLM360 च्या CrystalCoder सारख्या समुदाय-चालित प्रयत्नांनी त्यांच्या डेटा आणि प्रशिक्षण पद्धतींबद्दल अधिक पारदर्शकता प्रदान करण्यासाठी अधिक एकत्रित प्रयत्न केले आहेत, ज्यामुळे पारंपारिक ओपन-सोर्स मूल्यांशी अधिक जुळणारा उच्च मानक स्थापित झाला आहे.

'ओपनवॉशिंग': धोरणात्मक लेबलिंग की नियामक पळवाट?

ज्या संस्था त्याच्या तत्त्वांना पूर्णपणे स्वीकारत नाहीत त्यांच्याद्वारे ‘ओपन सोर्स’ लेबलचा वापर केल्याने ‘ओपनवॉशिंग’ (openwashing) बद्दल चिंता वाढली आहे. हा शब्द पारदर्शकता आणि प्रवेशयोग्यतेच्या संबंधित पातळीशी वचनबद्ध न होता, जनसंपर्क फायद्यांसाठी किंवा धोरणात्मक फायद्यासाठी मोकळेपणाच्या सकारात्मक अर्थांचा फायदा घेण्याच्या प्रथेचे वर्णन करतो. कंपन्या यात का गुंतू शकतात? अनेक घटक कारणीभूत असू शकतात. ‘ओपन सोर्स’ ब्रँड महत्त्वपूर्ण सद्भावना वाहून नेतो, समुदाय आणि सामायिक प्रगतीसाठी वचनबद्धता सुचवतो, जे विकासक आणि ग्राहकांसाठी आकर्षक असू शकते.

शिवाय, Nature आणि इतर निरीक्षकांनी नमूद केल्याप्रमाणे, नियामक परिदृश्य अनवधानाने अशा वर्तनाला प्रोत्साहन देऊ शकतात. युरोपियन युनियनचा महत्त्वाचा AI कायदा, जो 2024 मध्ये अंतिम झाला, त्यात उच्च-जोखीम आणि सामान्य-उद्देशीय AI प्रणालींवर कठोर आवश्यकता लादणाऱ्या तरतुदींचा समावेश आहे. तथापि, त्यात ओपन-सोर्स परवान्याअंतर्गत जारी केलेल्या AI मॉडेल्ससाठी संभाव्य सूट किंवा हलक्या आवश्यकता देखील आहेत. यामुळे एक संभाव्य पळवाट निर्माण होते जिथे कंपन्या धोरणात्मकदृष्ट्या त्यांच्या मॉडेल्सना ‘ओपन सोर्स’ म्हणून लेबल लावू शकतात – जरी प्रशिक्षण डेटासारखे मुख्य घटक प्रतिबंधित असले तरीही – विशेषतः नियामक अडथळे पार करण्यासाठी आणि अधिक कठोर अनुपालन जबाबदाऱ्या टाळण्यासाठी.

नियामक लवादाची ही क्षमता अत्यंत चिंताजनक आहे. जर ‘ओपनवॉशिंग’मुळे शक्तिशाली AI प्रणालींना सुरक्षा, निष्पक्षता आणि उत्तरदायित्व सुनिश्चित करण्याच्या उद्देशाने केलेल्या छाननीतून पळ काढता येत असेल, तर ते नियमांच्या मूळ उद्देशालाच कमजोर करते. हे वैज्ञानिक समुदायाला देखील एका अनिश्चित स्थितीत ठेवते. संशोधक या नाममात्र ‘ओपन’ प्रणालींकडे पूर्णपणे बंद व्यावसायिक ऑफरिंगच्या तुलनेत त्यांच्या प्रवेशयोग्यतेमुळे आकर्षित होऊ शकतात, फक्त स्वतःला अशा साधनांवर अवलंबून असलेले शोधण्यासाठी ज्यांच्या पद्धती अपारदर्शक आणि पडताळणी करण्यायोग्य नाहीत. ही अवलंबित्व वैज्ञानिक सचोटीशी तडजोड करण्याचा धोका निर्माण करते, ज्यामुळे संशोधन पुनरुत्पादक, निःपक्षपाती आणि एका ठोस, समजण्यायोग्य पायावर आधारित आहे याची खात्री करणे कठीण होते. एका परिचित लेबलचे आकर्षण खऱ्या वैज्ञानिक चौकशीत अडथळा आणणाऱ्या अंतर्निहित निर्बंधांना लपवू शकते.

AI युगासाठी मोकळेपणाची पुनर्परिभाषा: OSAID फ्रेमवर्क

AI द्वारे निर्माण झालेल्या अद्वितीय आव्हानांसाठी पारंपारिक ओपन-सोर्स व्याख्यांची अपर्याप्तता ओळखून, ओपन सोर्स इनिशिएटिव्ह (OSI) – ओपन-सोर्स तत्त्वांचे दीर्घकाळचे संरक्षक – एका महत्त्वपूर्ण जागतिक प्रयत्नात गुंतले आहे. त्यांचे ध्येय कृत्रिम बुद्धिमत्तेसाठी विशेषतः तयार केलेली एक स्पष्ट, मजबूत व्याख्या स्थापित करणे आहे: ओपन सोर्स AI डेफिनेशन (OSAID 1.0). ही पुढाकार AI च्या संदर्भात ‘ओपन’ चा अर्थ पुन्हा प्राप्त करण्यासाठी आणि पारदर्शकता आणि उत्तरदायित्वासाठी निःसंदिग्ध मानके स्थापित करण्याच्या दिशेने एक महत्त्वपूर्ण पाऊल दर्शवते.

प्रस्तावित OSAID फ्रेमवर्कमधील एक प्रमुख नविनता म्हणजे ‘डेटा माहिती’ (data information) ची संकल्पना. प्रचंड प्रशिक्षण डेटासेटचे पूर्ण प्रकाशन अनेकदा अव्यवहार्य किंवा गोपनीयता चिंता, कॉपीराइट निर्बंध किंवा निव्वळ प्रमाणामुळे कायदेशीररित्या प्रतिबंधित असू शकते हे मान्य करून, OSAID डेटा बद्दल व्यापक प्रकटीकरण अनिवार्य करण्यावर लक्ष केंद्रित करते. यात विकासकांना याबद्दल तपशीलवार माहिती प्रदान करण्याची आवश्यकता समाविष्ट आहे:

  1. स्रोत आणि रचना: प्रशिक्षण डेटाच्या उत्पत्तीची स्पष्टपणे ओळख करणे.
  2. वैशिष्ट्ये: डेटामधील ज्ञात वैशिष्ट्ये, मर्यादा आणि संभाव्य पूर्वाग्रहांचे दस्तऐवजीकरण करणे.
  3. तयारी पद्धती: प्रशिक्षणासाठी डेटा साफ करणे, फिल्टर करणे आणि तयार करण्यासाठी वापरल्या गेलेल्या प्रक्रियांचे स्पष्टीकरण देणे.

जरी कच्चा डेटा सामायिक केला जाऊ शकत नसला तरी, हा मेटाडेटा प्रदान केल्याने संशोधक आणि ऑडिटर्सना AI मॉडेलला आकार देणाऱ्या घटकांबद्दल महत्त्वपूर्ण अंतर्दृष्टी मिळण्यास मदत होते. हे संभाव्य पूर्वाग्रहांची चांगली समज सुलभ करते, अधिक माहितीपूर्ण जोखीम मूल्यांकन सक्षम करते आणि प्रतिकृती किंवा तुलनात्मक अभ्यासांचा प्रयत्न करण्यासाठी आधार प्रदान करते.

डेटा माहितीच्या पलीकडे, OSI चा प्रयत्न, Open Future सारख्या संस्थांच्या वकिलीसह, ‘डेटा-कॉमन्स’ मॉडेलकडे (data-commons model) व्यापक बदलांना प्रोत्साहन देतो. हे भविष्याची कल्पना करते जिथे AI प्रशिक्षणासाठी आवश्यक डेटासेट अधिक खुलेपणाने आणि समानतेने क्युरेट केले जातात आणि उपलब्ध केले जातात, ज्यामुळे AI विकासासाठी, विशेषतः संशोधन समुदायामध्ये, अधिक पारदर्शक आणि सहयोगी परिसंस्था वाढीस लागते. OSAID व्याख्येचा उद्देश एक स्पष्ट बेंचमार्क प्रदान करणे आहे ज्याच्या विरूद्ध AI प्रणालींचे मूल्यांकन केले जाऊ शकते, वरवरच्या लेबल्सच्या पलीकडे जाऊन मोकळेपणासाठी खऱ्या वचनबद्धतेचे मूल्यांकन करणे.

एक सामूहिक जबाबदारी: खरी AI पारदर्शकता चालवणे

AI मध्ये खरी मोकळीक सुनिश्चित करण्याचे आव्हान केवळ व्याख्यांद्वारे सोडवले जाऊ शकत नाही; यासाठी अनेक हितधारकांकडून एकत्रित कृतीची आवश्यकता आहे. वैज्ञानिक समुदाय, विकासक आणि अत्याधुनिक AI साधनांचे प्राथमिक वापरकर्ते म्हणून, एक महत्त्वपूर्ण जबाबदारी धारण करतो. संशोधकांनी OSAID 1.0 सारख्या उपक्रमांमध्ये सक्रियपणे सहभागी झाले पाहिजे, त्याची तत्त्वे समजून घेतली पाहिजेत आणि त्यांच्या स्वीकृतीसाठी वकिली केली पाहिजे. त्यांनी वापरण्याचा विचार करत असलेल्या AI मॉडेल्सच्या ‘मोकळेपणा’च्या दाव्यांचे गंभीरपणे मूल्यांकन करणे आवश्यक आहे, प्रशिक्षण डेटा आणि पद्धतींबद्दल अधिक पारदर्शकता देणाऱ्यांना प्राधान्य देणे, जरी त्यासाठी सोयीस्कर पण अपारदर्शक प्रणालींच्या आकर्षणाचा प्रतिकार करणे आवश्यक असले तरी. प्रकाशने, परिषदा आणि संस्थात्मक चर्चांमध्ये पडताळणीयोग्य, पुनरुत्पादक AI साधनांची गरज व्यक्त करणे महत्त्वाचे आहे.

सार्वजनिक निधी संस्था आणि सरकारी संस्थांची देखील महत्त्वपूर्ण भूमिका आहे. ते अनुदान आवश्यकता आणि खरेदी धोरणांद्वारे महत्त्वपूर्ण प्रभाव टाकतात. US National Institutes of Health (NIH) सारख्या संस्था, ज्या आधीच त्यांच्या निधीतून व्युत्पन्न केलेल्या संशोधन डेटासाठी ओपन लायसन्सिंग अनिवार्य करतात, एक मौल्यवान उदाहरण प्रदान करतात. त्याचप्रमाणे, इटलीची सार्वजनिक प्रशासन संस्थांना ओपन-सोर्स सॉफ्टवेअरला प्राधान्य देण्याची आवश्यकता धोरण कसे अवलंबन चालवू शकते हे दर्शवते. ही तत्त्वे AI च्या क्षेत्रात विस्तारित केली जाऊ शकतात आणि केली पाहिजेत. सरकार आणि निधी संस्थांनी विचार केला पाहिजे:

  • सार्वजनिकरित्या निधी पुरवलेल्या AI संशोधन आणि विकासासाठी मजबूत ओपन सोर्स AI मानकांचे (जसे की OSAID) पालन अनिवार्य करणे.
  • संशोधन-केंद्रित AI मॉडेल्सच्या प्रशिक्षणासाठी योग्य असलेल्या खऱ्या अर्थाने खुल्या, उच्च-गुणवत्तेच्या डेटासेटच्या निर्मितीमध्ये गुंतवणूक करणे – एक ‘डेटा कॉमन्स’.
  • EU AI कायद्यासारखे नियम अशा प्रकारे अंमलात आणले जातील याची खात्री करणे की ते ‘ओपनवॉशिंग’ला प्रतिबंध घालतील आणि सर्व शक्तिशाली AI प्रणालींना त्यांच्या परवाना दाव्यांची पर्वा न करता जबाबदार धरतील.

शेवटी, संशोधनातील AI चे भविष्य सुरक्षित करण्यासाठी एका संयुक्त आघाडीची आवश्यकता आहे. शास्त्रज्ञांनी पारदर्शकतेची मागणी केली पाहिजे, संस्थांनी खऱ्या मोकळेपणाला प्राधान्य देणारी धोरणे लागू केली पाहिजेत आणि नियामकांनी हे सुनिश्चित केले पाहिजे की ‘ओपन सोर्स’ लेबल उत्तरदायित्वासाठी अर्थपूर्ण वचनबद्धता दर्शवते, सोयीस्कर पळवाट नाही. या सामूहिक प्रयत्नांशिवाय, वैज्ञानिक शोधासाठी AI ची प्रचंड क्षमता बंद, मालकीच्या प्रणालींनी वर्चस्व असलेल्या परिदृश्यामुळे धोक्यात येण्याचा धोका आहे, ज्यामुळे वैज्ञानिक प्रगतीच्या सहयोगी आणि पडताळणीयोग्य स्वरूपालाच मूलभूतपणे कमजोर केले जाईल. भविष्यातील संशोधनाची सचोटी धोक्यात आहे.