‘ओपन सोर्स’ शब्द कभी एक निश्चित स्पष्टता के साथ गूंजता था, साझा ज्ञान और सहयोगात्मक प्रगति का एक वादा जिसने अनगिनत वैज्ञानिक और तकनीकी छलांगों को आगे बढ़ाया। इसने समुदायों को एक साथ निर्माण करते हुए, एक-दूसरे के काम की जांच करते हुए, और दिग्गजों के कंधों पर खड़े होने की छवियां पेश कीं क्योंकि ब्लूप्रिंट स्वतंत्र रूप से उपलब्ध थे। अब, Artificial Intelligence के परिदृश्य को नेविगेट करते हुए, वह शब्द तेजी से… फिसलन भरा महसूस होता है। जैसा कि Nature के पन्नों में उजागर किया गया है और प्रयोगशालाओं और बोर्डरूम में फुसफुसाया गया है, AI गोल्ड रश में खिलाड़ियों की एक चिंताजनक संख्या अपनी रचनाओं को ‘ओपन सोर्स’ के पर्दे में ढक रही है, जबकि वास्तव में महत्वपूर्ण घटकों को ताले और चाबी के नीचे रखा जा रहा है। यह सिर्फ एक शब्दार्थ संबंधी झगड़ा नहीं है; यह एक ऐसी प्रथा है जो वैज्ञानिक अखंडता की नींव को कुतरती है और भविष्य के नवाचार के मार्ग को अस्पष्ट करने का खतरा पैदा करती है। अनुसंधान समुदाय, वही समूह जिसे सबसे अधिक लाभ या हानि होने वाली है, को इस दिखावे को पहचानना होगा कि यह क्या है और उन AI प्रणालियों के लिए बलपूर्वक वकालत करनी होगी जो वास्तव में पारदर्शिता और पुनरुत्पादन क्षमता के सिद्धांतों को मूर्त रूप देते हैं जिन पर हम लंबे समय से निर्भर हैं।
खुलेपन का स्वर्ण युग: एक विरासत खतरे में
दशकों से, ओपन-सोर्स आंदोलन वैज्ञानिक उन्नति का एक अनसंग नायक रहा है। सांख्यिकीय जादूगरी के लिए R Studio या द्रव गतिकी मॉडलिंग के लिए OpenFOAM जैसे परिचित उपकरणों से परे सोचें। Linux जैसी आधारशिला प्रणालियों पर विचार करें, जो इंटरनेट और वैज्ञानिक कंप्यूटिंग क्लस्टर के विशाल क्षेत्रों को शक्ति प्रदान करती हैं, या Apache वेब सर्वर, सहयोगात्मक सॉफ्टवेयर विकास का एक प्रमाण। दर्शन सीधा था: सोर्स कोड तक पहुंच प्रदान करें, अनुमति देने वाले लाइसेंस के तहत संशोधन और पुनर्वितरण की अनुमति दें, और एक वैश्विक पारिस्थितिकी तंत्र को बढ़ावा दें जहां सुधार सभी को लाभान्वित करें।
यह केवल परोपकारिता नहीं थी; यह व्यावहारिक प्रतिभा थी। खुलेपन ने खोज को गति दी। शोधकर्ता प्रयोगों को दोहरा सकते थे, निष्कर्षों को मान्य कर सकते थे, और पहिया को फिर से खोजे बिना या अपारदर्शी मालिकाना प्रणालियों को नेविगेट किए बिना मौजूदा काम पर निर्माण कर सकते थे। इसने विश्वास को बढ़ावा दिया, क्योंकि आंतरिक कार्य निरीक्षण के लिए उपलब्ध थे, जिससे बग्स को सामूहिक रूप से ढूंढा और ठीक किया जा सकता था। इसने पहुंच का लोकतंत्रीकरण किया, जिससे दुनिया भर के वैज्ञानिकों और डेवलपर्स को, संस्थागत संबद्धता या बजट की परवाह किए बिना, अत्याधुनिक काम में भाग लेने में सक्षम बनाया गया। यह सहयोगात्मक भावना, साझा पहुंच और आपसी जांच पर बनी, वैज्ञानिक पद्धति में ही गहराई से समा गई, जिससे मजबूती सुनिश्चित हुई और विविध क्षेत्रों में तेजी से प्रगति हुई। उपयोग किए जा रहे उपकरणों को विच्छेदित करने, समझने और संशोधित करने की क्षमता सर्वोपरि थी। यह केवल सॉफ्टवेयर का उपयोग करने के बारे में नहीं था; यह समझने के बारे में था कि यह कैसे काम करता है, एक विशिष्ट वैज्ञानिक कार्य के लिए इसकी उपयुक्तता सुनिश्चित करना, और सामूहिक ज्ञान पूल में वापस योगदान करना। इस पुण्य चक्र ने अभूतपूर्व गति से नवाचार को प्रेरित किया।
AI की डेटा निर्भरता: क्यों ‘कोड ही राजा है’ कम पड़ता है
बड़े पैमाने पर Artificial Intelligence के युग में प्रवेश करें, विशेष रूप से उन मूलभूत मॉडलों में जो इतना ध्यान और निवेश आकर्षित करते हैं। यहां, पारंपरिक ओपन-सोर्स प्रतिमान, जो मुख्य रूप से सोर्स कोड पर केंद्रित है, एक मौलिक बेमेल का सामना करता है। जबकि AI मॉडल बनाने के लिए उपयोग किए जाने वाले एल्गोरिदम और कोड निश्चित रूप से तस्वीर का हिस्सा हैं, वे पूरी कहानी से बहुत दूर हैं। आधुनिक AI, विशेष रूप से डीप लर्निंग मॉडल, डेटा के प्रचंड उपभोक्ता हैं। प्रशिक्षण डेटा केवल एक इनपुट नहीं है; यह यकीनन मॉडल की क्षमताओं, पूर्वाग्रहों और सीमाओं का प्राथमिक निर्धारक है।
मॉडल के कोड, या यहां तक कि इसके अंतिम प्रशिक्षित पैरामीटर (‘वेट्स’) को जारी करना, प्रशिक्षण के लिए उपयोग किए जाने वाले विशाल डेटासेट के बारे में सार्थक पहुंच या विस्तृत जानकारी प्रदान किए बिना, किसी को कार की चाबियां सौंपने जैसा है, लेकिन यह बताने से इनकार करना कि यह किस प्रकार का ईंधन लेता है, इसे कहाँ चलाया गया है, या इंजन वास्तव में कैसे इकट्ठा किया गया था। आप इसे चलाने में सक्षम हो सकते हैं, लेकिन आपके पास इसके प्रदर्शन की विचित्रताओं को समझने, संभावित समस्याओं का निदान करने, या नई यात्राओं के लिए इसे मज़बूती से संशोधित करने की सीमित क्षमता है।
इसके अलावा, इन मॉडलों को शुरू से प्रशिक्षित करने के लिए आवश्यक कम्प्यूटेशनल संसाधन बहुत अधिक हैं, जो अक्सर एक प्रशिक्षण रन के लिए लाखों डॉलर तक पहुंच जाते हैं। यह एक और बाधा पैदा करता है। भले ही कोड और डेटा पूरी तरह से उपलब्ध होते, केवल मुट्ठी भर संगठन ही प्रशिक्षण प्रक्रिया को दोहराने के लिए बुनियादी ढांचे के मालिक हैं। यह वास्तविकता पारंपरिक सॉफ्टवेयर की तुलना में गतिशीलता को मौलिक रूप से बदल देती है, जहां कोड संकलित करना आमतौर पर अधिकांश डेवलपर्स या शोधकर्ताओं की पहुंच के भीतर होता है। AI के लिए, सच्ची पुनरुत्पादन क्षमता और पुनर्प्रशिक्षण द्वारा प्रयोग करने की क्षमता अक्सर मायावी बनी रहती है, तब भी जब घटकों को ‘खुला’ लेबल किया जाता है। इसलिए, कोड के लिए कल्पना की गई पुरानी ओपन-सोर्स परिभाषाओं को केवल लागू करना इस नए, डेटा-केंद्रित और गणना-गहन डोमेन की आवश्यकताओं को पकड़ नहीं पाता है।
‘ओपनवॉशिंग’: भेड़ की खाल में भेड़िया
पारंपरिक ओपन-सोर्स अवधारणाओं और AI विकास की वास्तविकताओं के बीच इस अंतर ने ‘ओपनवॉशिंग’ नामक घटना के लिए उपजाऊ जमीन तैयार की है। कंपनियाँ उत्सुकता से अपने AI मॉडलों पर ‘ओपन सोर्स’ का लेबल लगाती हैं, इस शब्द से जुड़े जनसंपर्क लाभ और सद्भावना प्राप्त करती हैं, जबकि लाइसेंस या एक्सेस प्रतिबंधों को नियोजित करती हैं जो वास्तविक खुलेपन की भावना, यदि सख्त (और यकीनन पुरानी) परिभाषा नहीं, के साथ विश्वासघात करती हैं।
यह व्यवहार में कैसा दिखता है?
- डेटा के बिना कोड रिलीज: एक कंपनी मॉडल के आर्किटेक्चर कोड और शायद प्री-ट्रेन्ड वेट्स भी जारी कर सकती है, जिससे दूसरों को मॉडल का ‘जैसा है’ उपयोग करने या छोटे डेटासेट पर इसे फाइन-ट्यून करने की अनुमति मिलती है। हालांकि, विशाल, मूलभूत प्रशिक्षण डेटासेट - गुप्त सॉस जो मॉडल की मुख्य क्षमताओं को परिभाषित करता है - मालिकाना और छिपा रहता है।
- प्रतिबंधात्मक लाइसेंसिंग: मॉडल ऐसे लाइसेंस के तहत जारी किए जा सकते हैं जो पहली नज़र में खुले लगते हैं लेकिन उनमें ऐसे खंड होते हैं जो व्यावसायिक उपयोग को सीमित करते हैं, कुछ परिदृश्यों में परिनियोजन को प्रतिबंधित करते हैं, या विशिष्ट प्रकार के संशोधन या विश्लेषण को प्रतिबंधित करते हैं। ये प्रतिबंध आमतौर पर ओपन-सोर्स सॉफ्टवेयर से जुड़ी स्वतंत्रताओं के विपरीत चलते हैं।
- अस्पष्ट डेटा प्रकटीकरण: डेटा स्रोतों, संग्रह विधियों, सफाई प्रक्रियाओं और संभावित पूर्वाग्रहों के बारे में विस्तृत जानकारी के बजाय, कंपनियां अस्पष्ट विवरण दे सकती हैं या महत्वपूर्ण विवरणों को पूरी तरह से छोड़ सकती हैं। ‘डेटा पारदर्शिता’ की यह कमी मॉडल की विश्वसनीयता या नैतिक निहितार्थों का पूरी तरह से आकलन करना असंभव बना देती है।
ऐसी प्रथाओं में क्यों संलग्न हों? प्रेरणाएँ संभवतः विविध हैं। ‘ओपन सोर्स’ के सकारात्मक अर्थ प्रतिभा को आकर्षित करने, डेवलपर समुदायों का निर्माण करने (भले ही प्रतिबंधित हों), और अनुकूल प्रेस उत्पन्न करने के लिए निर्विवाद रूप से मूल्यवान हैं। अधिक सनकी रूप से, जैसा कि Nature सुझाव देता है, नियामक प्रोत्साहन हो सकते हैं। उदाहरण के लिए, यूरोपीय संघ के व्यापक 2024 AI Act में ओपन सोर्स के रूप में वर्गीकृत प्रणालियों के लिए संभावित छूट या हल्की आवश्यकताएं शामिल हैं। रणनीतिक रूप से लेबल का उपयोग करके, कुछ फर्में कम घर्षण के साथ जटिल नियामक परिदृश्यों को नेविगेट करने की उम्मीद कर सकती हैं, संभावित रूप से शक्तिशाली, सामान्य-उद्देश्य वाली AI प्रणालियों के लिए लक्षित जांच से बच सकती हैं। यह रणनीतिक ब्रांडिंग अभ्यास ओपन-सोर्स आंदोलन की ऐतिहासिक सद्भावना का शोषण करता है जबकि संभावित रूप से जिम्मेदार AI परिनियोजन सुनिश्चित करने के प्रयासों को कमजोर करता है।
खुलेपन का एक स्पेक्ट्रम: प्रदर्शनों की जांच
यह पहचानना महत्वपूर्ण है कि AI में खुलापन आवश्यक रूप से एक द्विआधारी स्थिति नहीं है; यह एक स्पेक्ट्रम पर मौजूद है। हालांकि, वर्तमान लेबलिंग प्रथाएं अक्सर अस्पष्ट करती हैं कि कोई विशेष मॉडल वास्तव में उस स्पेक्ट्रम पर कहां बैठता है।
इस संदर्भ में अक्सर चर्चा किए जाने वाले कुछ प्रमुख उदाहरणों पर विचार करें:
- Meta का Llama सीरीज: जबकि Meta ने Llama मॉडल के लिए वेट्स और कोड जारी किए, एक्सेस के लिए शुरू में आवेदन की आवश्यकता थी, और लाइसेंस में प्रतिबंध शामिल थे, विशेष रूप से बहुत बड़ी कंपनियों द्वारा उपयोग और विशिष्ट अनुप्रयोगों के संबंध में। गंभीर रूप से, अंतर्निहित प्रशिक्षण डेटा जारी नहीं किया गया था, जिससे पूर्ण पुनरुत्पादन क्षमता और इसकी विशेषताओं का गहरा विश्लेषण सीमित हो गया। जबकि बाद के संस्करणों ने शर्तों को समायोजित किया है, डेटा अपारदर्शिता का मुख्य मुद्दा अक्सर बना रहता है।
- Microsoft का Phi-2: Microsoft ने Phi-2 को ‘ओपन-सोर्स’ छोटे भाषा मॉडल के रूप में प्रस्तुत किया। जबकि मॉडल वेट्स उपलब्ध हैं, लाइसेंस में विशिष्ट उपयोग सीमाएं हैं, और इसके प्रशिक्षण डेटासेट के बारे में विस्तृत जानकारी, इसकी क्षमताओं और संभावित पूर्वाग्रहों को समझने के लिए महत्वपूर्ण (विशेषकर ‘सिंथेटिक’ डेटा पर इसके प्रशिक्षण को देखते हुए), पूरी तरह से पारदर्शी नहीं है।
- Mistral AI का Mixtral: एक प्रमुख यूरोपीय AI स्टार्टअप द्वारा जारी इस मॉडल ने अपने प्रदर्शन के लिए ध्यान आकर्षित किया। जबकि घटकों को एक अनुमति देने वाले Apache 2.0 लाइसेंस (कोड/वेट्स के लिए वास्तव में एक खुला लाइसेंस) के तहत जारी किया गया था, प्रशिक्षण डेटा संरचना और क्यूरेशन प्रक्रिया के संबंध में पूर्ण पारदर्शिता सीमित बनी हुई है, जो गहन वैज्ञानिक जांच में बाधा डालती है।
इनकी तुलना उन पहलों से करें जो पारंपरिक ओपन-सोर्स सिद्धांतों के साथ अधिक संरेखण के लिए प्रयासरत हैं:
- Allen Institute for AI का OLMo: इस परियोजना का स्पष्ट उद्देश्य एक वास्तव में खुला भाषा मॉडल बनाना था, जिसमें न केवल मॉडल वेट्स और कोड, बल्कि प्रशिक्षण डेटा (Dolma डेटासेट) और विस्तृत प्रशिक्षण लॉग जारी करने को प्राथमिकता दी गई। यह प्रतिबद्धता व्यापक अनुसंधान समुदाय द्वारा अभूतपूर्व स्तर की पुनरुत्पादन क्षमता और विश्लेषण की अनुमति देती है।
- LLM360 का CrystalCoder: यह समुदाय-संचालित प्रयास इसी तरह मॉडल विकास जीवनचक्र के सभी घटकों को जारी करने पर जोर देता है, जिसमें मध्यवर्ती चेकपॉइंट और डेटा और प्रशिक्षण प्रक्रिया के बारे में विस्तृत दस्तावेज़ीकरण शामिल है, जो कॉर्पोरेट रिलीज में अक्सर गायब पारदर्शिता के स्तर को बढ़ावा देता है।
ये विपरीत उदाहरण उजागर करते हैं कि AI में वास्तविक खुलापन संभव है, लेकिन इसके लिए केवल कोड या वेट्स जारी करने से परे एक जानबूझकर प्रतिबद्धता की आवश्यकता है। यह डेटा और प्रक्रिया के बारे में पारदर्शिता की मांग करता है, इसके साथ आने वाली जांच को गले लगाता है। ‘ओपनवॉशिंग’ द्वारा बढ़ावा दी गई वर्तमान अस्पष्टता शोधकर्ताओं के लिए यह पहचानना कठिन बना देती है कि कौन से उपकरण वास्तव में खुले वैज्ञानिक जांच का समर्थन करते हैं।
विश्वास का क्षरण: वैज्ञानिक अखंडता दांव पर
इस व्यापक ‘ओपनवॉशिंग’ के निहितार्थ केवल ब्रांडिंग से कहीं आगे तक फैले हुए हैं। जब शोधकर्ता AI मॉडल पर भरोसा करते हैं जिनके आंतरिक कामकाज, विशेष रूप से जिस डेटा पर उन्हें प्रशिक्षित किया गया था, अपारदर्शी होते हैं, तो यह वैज्ञानिक पद्धति के दिल पर हमला करता है।
- पुनरुत्पादन क्षमता कमजोर: वैज्ञानिक वैधता का एक आधारशिला स्वतंत्र शोधकर्ताओं द्वारा परिणामों को पुन: उत्पन्न करने की क्षमता है। यदि प्रशिक्षण डेटा और सटीक प्रशिक्षण पद्धतियां अज्ञात हैं, तो सच्ची प्रतिकृति असंभव हो जाती है। शोधकर्ता प्री-ट्रेन्ड मॉडल का उपयोग कर सकते हैं, लेकिन वे इसके निर्माण को सत्यापित नहीं कर सकते हैं या छिपे हुए डेटा से प्राप्त इसके मौलिक गुणों की जांच नहीं कर सकते हैं।
- सत्यापन बाधित: वैज्ञानिक किसी मॉडल के आउटपुट पर कैसे भरोसा कर सकते हैं यदि वे उस डेटा का निरीक्षण नहीं कर सकते जिससे उसने सीखा है? प्रशिक्षण डेटा में अंतर्निहित छिपे हुए पूर्वाग्रह, अशुद्धियां, या नैतिक चिंताएं अनिवार्य रूप से मॉडल के व्यवहार में प्रकट होंगी, फिर भी पारदर्शिता के बिना, इन खामियों का पता लगाना, निदान करना या कम करना मुश्किल है। वैज्ञानिक खोज के लिए ऐसे ब्लैक बॉक्स का उपयोग करना अनिश्चितता का एक अस्वीकार्य स्तर पेश करता है।
- नवाचार बाधित: विज्ञान पिछले काम पर निर्माण करके प्रगति करता है। यदि मूलभूत मॉडल प्रतिबंधों के साथ या आवश्यक पारदर्शिता (विशेषकर डेटा के संबंध में) के बिना जारी किए जाते हैं, तो यह दूसरों की नवाचार करने, वैकल्पिक प्रशिक्षण व्यवस्थाओं के साथ प्रयोग करने, या उपन्यास वैज्ञानिक अनुप्रयोगों के लिए मॉडल को उन तरीकों से अनुकूलित करने की क्षमता में बाधा डालता है जिनकी मूल रचनाकारों ने कल्पना नहीं की होगी। प्रगति इन अर्ध-अपारदर्शी प्रणालियों के प्रदाताओं द्वारा नियंत्रित हो जाती है।
बंद या आंशिक रूप से बंद कॉर्पोरेट प्रणालियों पर निर्भरता शोधकर्ताओं को सक्रिय प्रतिभागियों और नवप्रवर्तकों के बजाय एक निष्क्रिय उपभोक्ता भूमिका में मजबूर करती है। यह एक ऐसे भविष्य का निर्माण करने का जोखिम उठाता है जहां महत्वपूर्ण वैज्ञानिक बुनियादी ढांचा कुछ बड़ी संस्थाओं द्वारा नियंत्रित होता है, जो संभावित रूप से खुले वैज्ञानिक जांच की जरूरतों पर वाणिज्यिक हितों को प्राथमिकता देते हैं। पारदर्शिता का यह क्षरण सीधे आधुनिक अनुसंधान को रेखांकित करने वाले उपकरणों में विश्वास के क्षरण में तब्दील हो जाता है।
बाजार एकाग्रता और नवाचार पर द्रुतशीतन प्रभाव
वैज्ञानिक अभ्यास पर तत्काल प्रभाव से परे, AI में नकली ओपन सोर्स की व्यापकता महत्वपूर्ण आर्थिक और बाजार निहितार्थ रखती है। बड़े मूलभूत मॉडलों के विकास के लिए न केवल महत्वपूर्ण विशेषज्ञता की आवश्यकता होती है, बल्कि विशाल डेटासेट और भारी कम्प्यूटेशनल शक्ति तक पहुंच की भी आवश्यकता होती है - संसाधन जो बड़े प्रौद्योगिकी निगमों के पास असमान रूप से होते हैं।
जब ये निगम ‘ओपन सोर्स’ बैनर के तहत मॉडल जारी करते हैं, लेकिन महत्वपूर्ण प्रशिक्षण डेटा पर नियंत्रण बनाए रखते हैं या प्रतिबंधात्मक लाइसेंस लगाते हैं, तो यह एक असमान खेल का मैदान बनाता है।
- प्रवेश में बाधाएं: स्टार्टअप्स और छोटी शोध प्रयोगशालाओं के पास शुरू से तुलनीय मूलभूत मॉडल बनाने के लिए संसाधनों की कमी होती है। यदि पदाधिकारियों द्वारा जारी किए गए कथित रूप से ‘खुले’ मॉडल शर्तों के साथ आते हैं (जैसे वाणिज्यिक उपयोग प्रतिबंध या डेटा अपारदर्शिता जो गहरे संशोधन को रोकती है), तो यह इन छोटे खिलाड़ियों की प्रभावी ढंग से प्रतिस्पर्धा करने या शीर्ष पर वास्तव में अभिनव अनुप्रयोग बनाने की क्षमता को सीमित करता है।
- पदाधिकारियों को मजबूत करना: ‘ओपनवॉशिंग’ एक रणनीतिक खाई के रूप में काम कर सकता है। उपयोगी लेकिन वास्तव में खुले नहीं मॉडल जारी करके, बड़ी कंपनियां अपनी तकनीक पर निर्भर पारिस्थितिकी तंत्र को बढ़ावा दे सकती हैं, जबकि प्रतिस्पर्धियों को उनकी मुख्य संपत्ति (डेटा और परिष्कृत प्रशिक्षण प्रक्रियाएं) को पूरी तरह से दोहराने या महत्वपूर्ण रूप से सुधारने से रोक सकती हैं। यह खुलेपन जैसा दिखता है लेकिन एक नियंत्रित प्लेटफ़ॉर्म रणनीति के करीब काम करता है।
- दृष्टिकोणों की कम विविधता: यदि नवाचार कुछ प्रमुख, अर्ध-अपारदर्शी मूलभूत मॉडलों पर अत्यधिक निर्भर हो जाता है, तो यह AI विकास के समरूपीकरण का कारण बन सकता है, संभावित रूप से वैकल्पिक आर्किटेक्चर, प्रशिक्षण प्रतिमानों, या डेटा रणनीतियों की अनदेखी कर सकता है जिन्हें छोटे, स्वतंत्र समूह तलाश सकते हैं यदि क्षेत्र वास्तव में खुला होता।
वास्तविक ओपन सोर्स ऐतिहासिक रूप से प्रतिस्पर्धा और वितरित नवाचार के लिए एक शक्तिशाली इंजन रहा है। AI में मौजूदा प्रवृत्ति शक्ति को केंद्रित करने और उसी गतिशीलता को दबाने का जोखिम उठाती है जिसे खुला सहयोग बढ़ावा देने के लिए है, संभावित रूप से एक कम जीवंत और अधिक केंद्रीय रूप से नियंत्रित AI परिदृश्य की ओर ले जाता है।
नियामक अंधे धब्बे और नैतिक तंग रस्सी
नियामक खामियों का फायदा उठाने के लिए ‘ओपनवॉशिंग’ की क्षमता, विशेष रूप से EU AI Act जैसे ढांचे के संबंध में, करीब से जांच की हकदार है। इस अधिनियम का उद्देश्य AI प्रणालियों के लिए जोखिम-आधारित नियम स्थापित करना है, उच्च-जोखिम वाले अनुप्रयोगों पर सख्त आवश्यकताएं लागू करना है। ओपन-सोर्स AI के लिए छूट या हल्की बाध्यताएं नवाचार को बढ़ावा देनेऔर ओपन-सोर्स समुदाय पर अत्यधिक बोझ डालने से बचने के लिए हैं।
हालांकि, अगर कंपनियां वास्तविक पारदर्शिता (विशेषकर डेटा और प्रशिक्षण के संबंध में) की कमी वाले मॉडलों के लिए सफलतापूर्वक ‘ओपन सोर्स’ मेंटल का दावा कर सकती हैं, तो वे महत्वपूर्ण सुरक्षा उपायों को दरकिनार कर सकती हैं। यह महत्वपूर्ण प्रश्न उठाता है:
- सार्थक जांच: क्या नियामक किसी शक्तिशाली AI मॉडल के जोखिमों का पर्याप्त रूप से आकलन कर सकते हैं यदि इसका प्रशिक्षण डेटा - इसके व्यवहार और संभावित पूर्वाग्रहों का एक प्रमुख निर्धारक - दृष्टि से छिपा हुआ है? गलत लेबलिंग संभावित रूप से उच्च-जोखिम वाली प्रणालियों को इरादे से कम निगरानी के साथ संचालित करने की अनुमति दे सकती है।
- जवाबदेही अंतराल: जब चीजें गलत होती हैं - यदि कोई मॉडल हानिकारक पूर्वाग्रह प्रदर्शित करता है या खतरनाक आउटपुट उत्पन्न करता है - तो कौन जवाबदेह है यदि अंतर्निहित डेटा और प्रशिक्षण प्रक्रिया अपारदर्शी है? सच्चा खुलापन जांच और जवाबदेही की सुविधा देता है; ‘ओपनवॉशिंग’ इसे अस्पष्ट करता है।
- नैतिक शासन: AI को जिम्मेदारी से तैनात करने के लिए इसकी सीमाओं और संभावित सामाजिक प्रभावों को समझने की आवश्यकता है। यह समझ मौलिक रूप से तब कमजोर हो जाती है जब प्रशिक्षण डेटा जैसे मुख्य घटकों को गुप्त रखा जाता है। यह स्वतंत्र ऑडिट, पूर्वाग्रह मूल्यांकन और नैतिक समीक्षाओं को काफी अधिक चुनौतीपूर्ण, यदि असंभव नहीं, बना देता है।
विनियमन को नेविगेट करने के लिए ‘ओपन सोर्स’ लेबल का रणनीतिक उपयोग केवल एक कानूनी पैंतरेबाज़ी नहीं है; इसके गहरे नैतिक निहितार्थ हैं। यह सार्वजनिक विश्वास को कम करने और यह सुनिश्चित करने के प्रयासों में बाधा डालने का जोखिम उठाता है कि AI विकास एक सुरक्षित, निष्पक्ष और जवाबदेह तरीके से आगे बढ़े। यह सुनिश्चित करना कि ‘ओपन सोर्स AI’ की नियामक परिभाषाएं वास्तविक पारदर्शिता के सिद्धांतों के साथ संरेखित हों, इसलिए सर्वोपरि है।
सच्चे AI खुलेपन की ओर एक मार्ग बनाना
सौभाग्य से, खतरे की घंटियाँ बज रही हैं, और AI के युग में ‘ओपन सोर्स’ के अर्थ को पुनः प्राप्त करने के प्रयास चल रहे हैं। Open Source Initiative (OSI), ओपन-सोर्स परिभाषाओं का एक लंबे समय से संरक्षक, ने Open Source AI के लिए स्पष्ट मानक स्थापित करने के लिए एक वैश्विक परामर्श प्रक्रिया का नेतृत्व किया है (जिसके परिणामस्वरूप OSAID 1.0 परिभाषा मिली है)।
इस प्रयास में एक प्रमुख नवाचार ‘डेटा सूचना’ की अवधारणा है। यह मानते हुए कि बड़े पैमाने पर कच्चे डेटासेट जारी करना कुछ मामलों में कानूनी या तार्किक रूप से अव्यवहार्य हो सकता है (गोपनीयता, कॉपीराइट, या सरासर पैमाने के कारण), OSAID ढांचा डेटा के बारे में व्यापक प्रकटीकरण की आवश्यकता पर जोर देता है। इसमें विवरण शामिल हैं:
- स्रोत: डेटा कहाँ से आया?
- विशेषताएँ: यह किस प्रकार का डेटा है (पाठ, चित्र, कोड)? इसके सांख्यिकीय गुण क्या हैं?
- तैयारी: डेटा कैसे एकत्र, फ़िल्टर, साफ और पूर्व-संसाधित किया गया था? पूर्वाग्रह को कम करने के लिए क्या कदम उठाए गए?
पारदर्शिता का यह स्तर, कच्चे डेटा के बिना भी, शोधकर्ताओं को मॉडल की संभावित क्षमताओं, सीमाओं और संभावित पूर्वाग्रहों को समझने के लिए महत्वपूर्ण संदर्भ प्रदान करता है। यह मौजूदा बाधाओं के भीतर अधिकतम पारदर्शिता के लिए जोर देते हुए एक व्यावहारिक समझौता का प्रतिनिधित्व करता है। OSI के साथ, Open Future जैसे संगठन ‘डेटा-कॉमन्स’ मॉडल की ओर एक व्यापक बदलाव की वकालत कर रहे हैं, AI प्रशिक्षण के लिए साझा, नैतिक रूप से सोर्स किए गए, और खुले तौर पर सुलभ डेटासेट बनाने के तरीकों की खोज कर रहे हैं, प्रवेश में बाधाओं को और कम कर रहे हैं और सहयोगात्मक विकास को बढ़ावा दे रहे हैं। ऐसे स्पष्ट, समुदाय-परीक्षित मानकों को स्थापित करना और उनका पालन करना ‘ओपनवॉशिंग’ के कोहरे को दूर करने की दिशा में आवश्यक पहला कदम है।
अनुसंधान समुदाय के लिए अनिवार्यता
वैज्ञानिक और शोधकर्ता केवल AI उपकरणों के उपभोक्ता नहीं हैं; वे यह सुनिश्चित करने में महत्वपूर्ण हितधारक हैं कि ये उपकरण वैज्ञानिक मूल्यों के साथ संरेखित हों। OSAID 1.0 जैसी विकसित हो रही परिभाषाओं और मानकों के साथ सक्रिय रूप से जुड़ना महत्वपूर्ण है। लेकिन कार्रवाई केवल जागरूकता से परे जानी चाहिए:
- पारदर्शिता की मांग करें: प्रकाशनों, अनुदान प्रस्तावों और उपकरण चयन में, शोधकर्ताओं को उनके द्वारा उपयोग किए जाने वाले AI मॉडल के संबंध में अधिक पारदर्शिता को प्राथमिकता देनी चाहिए और मांग करनी चाहिए। इसमें मॉडल रिलीज के साथ विस्तृत ‘डेटा सूचना’ कार्ड या डेटाशीट के लिए जोर देना शामिल है।
- वास्तविक खुलेपन का समर्थन करें: OLMo या अन्य पहलों जैसी परियोजनाओं में सक्रिय रूप से योगदान करें, उपयोग करें और उद्धृत करें जो कोड, डेटा और कार्यप्रणाली जारी करने के लिए वास्तविक प्रतिबद्धता प्रदर्शित करती हैं। डाउनलोड और उद्धरणों के साथ मतदान एक शक्तिशाली बाजार संकेत भेजता है।
- मूल्यांकन मानक विकसित करें: समुदाय को सरल लेबल से परे जाकर, AI मॉडल के खुलेपन की डिग्री का मूल्यांकन करने के लिए मजबूत तरीकों और चेकलिस्ट की आवश्यकता है। सहकर्मी समीक्षा प्रक्रियाओं में अनुसंधान में उपयोग किए जाने वाले AI उपकरणों से जुड़े पारदर्शिता दावों की जांच शामिल होनी चाहिए।
- संस्थानों के भीतर वकालत करें: विश्वविद्यालयों, अनुसंधान संस्थानों और पेशेवर समाजों को ऐसी नीतियां अपनाने के लिए प्रोत्साहित करें जो वास्तव में खुले और पारदर्शी AI उपकरणों और प्लेटफार्मों के उपयोग का पक्ष लेती हैं या आवश्यक बनाती हैं।
वैज्ञानिक समुदाय काफी प्रभाव रखता है। सामूहिक रूप से उन मानकों पर जोर देकर जो पुनरुत्पादन क्षमता, पारदर्शिता और सहयोगात्मक पहुंच को बनाए रखते हैं, शोधकर्ता भ्रामक दावों का विरोध कर सकते हैं और कठोर वैज्ञानिक खोज के लिए अनुकूल AI पारिस्थितिकी तंत्र को आकार देने में मदद कर सकते हैं।
नीति, वित्त पोषण, और आगे का रास्ता
सरकारें और सार्वजनिक वित्त पोषण एजेंसियां भी AI परिदृश्य को आकार देने में महत्वपूर्ण शक्ति रखती हैं। उनकी नीतियां या तो परोक्ष रूप से ‘ओपनवॉशिंग’ का समर्थन कर सकती हैं या सक्रिय रूप से वास्तविक खुलेपन को बढ़ावा दे सकती हैं।
- खुलेपन के लिए जनादेश: US National Institutes of Health (NIH) जैसे संस्थानों के पास पहले से ही जनादेश हैं जिनके लिए उनके द्वारा वित्त पोषित अनुसंधान के लिए खुले लाइसेंसिंग और डेटा साझाकरण की आवश्यकता होती है। सार्वजनिक धन से विकसित AI मॉडल और डेटासेट के लिए समान सिद्धांतों का विस्तार करना एक तार्किक और आवश्यक कदम है। यदि सार्वजनिक धन AI विकास का समर्थन करता है, तो परिणाम सार्वजनिक रूप से सुलभ और यथासंभव सत्यापन योग्य होने चाहिए।
- खरीद शक्ति: सरकारी एजेंसियां प्रौद्योगिकी की प्रमुख उपभोक्ता हैं। सार्वजनिक खरीद अनुबंधों में वास्तविक ओपन-सोर्स AI (OSAID जैसे मानकों का पालन करते हुए) के लिए आवश्यकताओं को निर्दिष्ट करके, सरकारें कंपनियों के लिए अधिक पारदर्शी प्रथाओं को अपनाने के लिए एक महत्वपूर्ण बाजार प्रोत्साहन बना सकती हैं। सार्वजनिक प्रशासन में ओपन-सोर्स सॉफ्टवेयर के लिए Italy की आवश्यकता एक संभावित टेम्पलेट प्रदान करती है।
- खुले बुनियादी ढांचे में निवेश: विनियमन से परे, ‘डेटा कॉमन्स’ पहलों, शोधकर्ताओं के लिए खुले कम्प्यूटेशनल संसाधनों, और वास्तव में खुले AI मॉडल की मेजबानी और मूल्यांकन के लिए समर्पित प्लेटफार्मों में सार्वजनिक निवेश परिवर्तनकारी हो सकता है। यह खेल के मैदान को समतल करने और मालिकाना या अर्ध-खुले सिस्टम के लिए व्यवहार्य विकल्प प्रदान करने में मदद कर सकता है।
- वैश्विक सहयोग: AI विकास की वैश्विक प्रकृति को देखते हुए, ओपन-सोर्स AI मानकों को परिभाषित करने और बढ़ावा देने पर अंतर्राष्ट्रीय सहयोग नियामक विखंडन से बचने और दुनिया भर में पारदर्शिता और जवाबदेही की एक सुसंगत आधार रेखा सुनिश्चित करने के लिए आवश्यक है।
नीतिगत लीवर, जब सोच-समझकर लागू किए जाते हैं, तो भ्रामक लेबलिंग से दूर उन प्रथाओं की ओर प्रोत्साहनों को महत्वपूर्ण रूप से स्थानांतरित कर सकते हैं जो वास्तव में वैज्ञानिक अखंडता और व्यापक नवाचार का समर्थन करते हैं। AI में ‘ओपन सोर्स’ भ्रम के खिलाफ लड़ाई के लिए एक ठोस प्रयास की आवश्यकता है। शोधकर्ताओं को सतर्क आलोचक होना चाहिए, वैज्ञानिक कठोरता के लिए आवश्यक पारदर्शिता की मांग करनी चाहिए। OSI जैसे मानक-निर्धारण निकायों को उन परिभाषाओं को परिष्कृत करना जारी रखना चाहिए जो AI की अनूठी प्रकृति को दर्शाती हैं। और नीति निर्माताओं को अपने प्रभाव का उपयोग उन प्रथाओं को प्रोत्साहित करने और अनिवार्य करने के लिए करना चाहिए जो सत्यापन योग्य, भरोसेमंद और सुलभ आर्टिफिशियल इंटेलिजेंस में सार्वजनिक हित के साथ संरेखित हों। विज्ञान में AI का भविष्य का प्रक्षेपवक्र - चाहे वह खोज के लिए वास्तव में खुला मोर्चा बन जाए या अपारदर्शी कॉर्पोरेट प्रणालियों का प्रभुत्व वाला परिदृश्य - संतुलन में लटका हुआ है।