तंत्रज्ञान उद्योगाच्या दाव्यांना आव्हान देत, समर्पित संशोधकांच्या एका टीमने एक महत्त्वाचे यश मिळवले आहे: एक AI मॉडेल तयार करणे, जे पूर्णपणे नैतिकदृष्ट्या मिळवलेल्या डेटावर प्रशिक्षित आहे. MIT, Cornell University आणि University of Toronto सारख्या प्रतिष्ठित संस्थांमधील तज्ञांनी हे यश मिळवले आहे. हे AI विकासाच्या भविष्यासाठी एक व्यवहार्य आणि जबाबदार ब्लूप्रिंट सादर करते. याचा महत्त्वाचा भाग म्हणजे केवळ खुल्या परवान्यासह किंवा सार्वजनिक डोमेन सामग्रीचा वापर करून तयार केलेला डेटासेट.
नैतिक डेटा सोर्सिंगचे प्रचंड कार्य
या नैतिक AI च्या निर्मितीचा प्रवास सोपा नव्हता. संशोधकांनी मान्य केले की, खरी अडचण संगणकीय शक्ती नव्हती, तर मानवी प्रयत्नांची होती. Common Pile v0.1, आठ टेराबाइट्सपेक्षा जास्त डेटासेट तयार करण्यासाठी, AI प्रशिक्षणासाठी योग्य बनवण्यासाठी काळजीपूर्वक मॅन्युअल साफसफाई आणि रीफॉर्मेटिंगची आवश्यकता होती. डेटासेट दूषित करू शकणाऱ्या कोणत्याही त्रुटी शोधण्यासाठी माहितीच्या अंतहीन ढिगाऱ्यातून चाळणी करत असल्याची कल्पना करा.
परंतु खरे आव्हान कॉपीराइट स्थितीची तपासणी करणे हे होते. इंटरनेटच्या जगात, चुकीच्या परवानग्या सामान्य आहेत, ज्यामुळे कॉपीराइट पडताळणीचे काम खूप कठीण झाले.
"हे असे नाही की जिथे तुम्ही तुमच्याकडे असलेले संसाधने वाढवू शकता," अभ्यास सहलेखक Stella Biderman यांनी WaPo ला सांगितले. "आम्ही स्वयंचलित साधने वापरतो, परंतु आमचे सर्व काम दिवसाच्या शेवटी व्यक्तिचलितपणे तपासले जाते. आणि ते खरोखरच कठीण आहे."
टेराबाइट्स डेटा चाळून कॉपीराइट समस्या शोधणे सोपे नाही. संशोधक फक्त अधिक कॉम्प्युटर चिप्स वापरून ह्या समस्येचे निराकरण करू शकत नव्हते. त्याऐवजी, त्यांना व्यक्तिचलितपणे सर्व डेटा सत्यापित आणि एनोटेट करणे आवश्यक होते.
अडचणींवर मात: एका नैतिक AI चा जन्म
अडथळे असूनही, Biderman आणि त्यांच्या टीमने चिकाटी सोडली नाही. Common Pile तयार करण्याचे कठीण काम पूर्ण झाल्यावर, त्यांनी सात अब्ज पॅरामीटर Large Language Model (LLM) प्रशिक्षित करण्यासाठी त्याची क्षमता वापरली. परिणामस्वरूप, Meta च्या Llama 1 आणि Llama 2 7B सारख्या उद्योगातील मानकांपेक्षा चांगली कामगिरी केली, पण नैतिक दृष्ट्या कोणतीही नैतिक बाजू न सोडता हे यश मिळवले.
पण AI संशोधन क्षेत्र वेगाने बदलत आहे. हे लक्षात ठेवणे महत्त्वाचे आहे की Meta ने Llama 1 आणि Llama 2 काही वर्षांपूर्वी जारी केले होते, जे AI च्या जगात खूप मोठा काळ आहे.
एका लहान, समर्पित टीमने मर्यादित संसाधनांमध्ये तुलनात्मक परिणाम साध्य केले हे त्यांच्या कल्पकतेचे उदाहरण आहे. विशेषतः, Congress च्या Library मधील 130,000 इंग्रजी भाषेतील पुस्तकांचा मोठा साठा पूर्वी दुर्लक्षित होता, तो त्यांनी शोधला.
AI आणि कॉपीराइटचे संदिग्ध पाणी
AI च्या युगात कॉपीराइट ही एक कठीण नैतिक आणि कायदेशीर समस्या आहे. OpenAI आणि Google सारख्या मोठ्या कंपन्यांनी बातम्या लेखांपासून ते वैयक्तिक सोशल मीडिया पोस्टपर्यंत सर्वकाही वापरून प्रचंड डेटासेट तयार केले आहेत. या पद्धतीवर अनेक बाजूंनी टीका झाली आहे. लेखकांनी AI मॉडेलला प्रशिक्षित करण्यासाठी कॉपीराइट केलेल्या पुस्तकांचा बेकायदेशीर वापर केल्याचा आरोप करत खटले दाखल केले आहेत.
तंत्रज्ञान उद्योगाचा असा युक्तिवाद आहे की अशा पद्धती योग्य वापर आहेत. AI चा विकास डेटाच्या मुक्त प्रवेशशिवाय "अशक्य" आहे, असे त्यांचे म्हणणे आहे. हे नवीन संशोधन सिलिकॉन व्हॅलीतील दाव्यांना जोरदार प्रत्युत्तर देते.
हे यश एक महत्त्वपूर्ण पाऊल असले तरी, ते सर्व नैतिक विचार दूर करत नाही. Large language models मध्ये मानवी कामगारांना विस्थापित करण्याची क्षमता आहे, त्यामुळे कामगारांच्या भविष्याबद्दल मूलभूत प्रश्न निर्माण होतात. याव्यतिरिक्त, सार्वजनिक डोमेनमधील कामांचा वापर प्रत्येकाला आवडणार नाही, विशेषत: ज्यांचे रचनात्मक योगदान आता AI द्वारे पुन्हा तयार केले जात आहे.
एखाद्या काल्पनिक भविष्यात AI कंपन्यांना डेटा वापरासाठी परवानगी मागण्यास किंवा भरपाई देण्यास भाग पाडले जात असले तरी, कॉपीराइट धारकांना AI प्रशिक्षणासाठी परवानगी देण्यासाठी जास्त दबाव येऊ शकतो. AI मॉडेलला प्रशिक्षित करण्यासाठी लागणाऱ्या प्रचंड संसाधनांमुळे बहुतेक कॉपीराइट धारक मोठ्या AI कंपन्यांकडून डेटा वापरण्याची परवानगी देण्यास विरोध करू शकणार नाहीत.
AI मध्ये पारदर्शिता आणि जबाबदारीच्या दिशेने
Biderman मात्र आशावादी आहेत. OpenAI सारख्या कंपन्या नैतिक डेटा सोर्सिंग स्वीकारतील, असा त्यांना कोणताही भ्रम नाही. त्याऐवजी, त्यांच्या कार्यामुळे डेटा वापरामध्ये अधिक पारदर्शकता येईल, अशी त्यांची अपेक्षा आहे. कोणत्या AI उत्पादनांना प्रशिक्षित करण्यासाठी कोणता डेटासेट वापरला गेला? या प्रश्नाचे उत्तर AI च्या भविष्यासाठी महत्त्वपूर्ण ठरू शकते.
"Partial transparency मध्ये सुद्धा खूप सामाजिक मूल्य आणि मध्यम प्रमाणात वैज्ञानिक मूल्य आहे," असे त्या WaPo ला म्हणाल्या.
सध्या, एखाद्या विशिष्ट AI ला प्रशिक्षित करण्यासाठी नेमके कोणते डेटासेट वापरले जातात, हे रहस्य ठेवले जाते. AI मॉडेलची प्रतिकृती बनवण्याचा एकमेव मार्ग म्हणजे सध्याचे AI मॉडेल कसे तयार केले गेले हे तुम्हाला सांगितले जाणे किंवा AI मॉडेलचे रिव्हर्स इंजिनिअरिंग करणे, ज्यास खूप वेळ आणि प्रयत्न लागू शकतात.
AI विकासातील एक Paradigm Shift
या संशोधनाचे महत्त्व AI च्या नैतिकतेच्या पलीकडे आहे. AI कसा विकसित केला जाऊ शकतो, यात हा एक मूलभूत बदल दर्शवतो. नैतिक विचार आणि तांत्रिक प्रगती एकमेकांना पर्यायी नाहीत, हे सिद्ध होते. पारदर्शिता, जबाबदार डेटा सोर्सिंग आणि मानवी देखरेखेला प्राधान्य देऊन, आपण एक असे भविष्य घडवू शकतो जिथे AI मानवतेची सेवा करेल, उलट नाही.
नैतिक चिंता आणि सामाजिक परिणामांचे निराकरण
तांत्रिक उद्योगाचा असा युक्तिवाद आहे की, नैतिक डेटा वापरणे एक असाध्य अडथळा आहे, याला आता निर्णायकपणे आव्हान दिले गेले आहे. या प्रकल्पाच्या यशामुळे हे स्पष्ट होते की, AI मॉडेल एका solid ethical foundation वर तयार करणे शक्य आहे. तथापि, AI विकासाची नैतिक बाजू कॉपीराइट समस्यांच्या पलीकडे आहे. AI चे सामाजिक-आर्थिक परिणाम, ज्यात नोकरी कपात आणि अल्गोरिदममधील bias यांचा समावेश आहे, यावर काळजीपूर्वक विचार करणे आवश्यक आहे.
AI मॉडेलवर परिणाम करणारे नैतिक विचार केवळ सोर्सिंगच्या पलीकडे आहेत. AI मॉडेल कोणत्याही विशिष्ट लोकसंख्येच्या बाजूने किंवा विरोधात biased नाही, हे देखील आपण verify केले पाहिजे.
पारदर्शिता आणि जबाबदारीला प्रोत्साहन देणे
विश्वास वाढवण्यासाठी आणि जबाबदार नवकल्पना सुनिश्चित करण्यासाठी, AI उद्योगाने पारदर्शिता आणि जबाबदारी स्वीकारली पाहिजे. कंपन्यांनी त्यांचे मॉडेल प्रशिक्षित करण्यासाठी वापरलेले डेटा स्रोत आणि bias कमी करण्यासाठी वापरलेल्या पद्धतींबद्दल माहिती देणे आवश्यक आहे. स्वतंत्र ऑडिट आणि बाह्य देखरेखामुळे जबाबदारी आणखी वाढू शकते आणि नैतिक चुका टाळता येतील.
AI transparency चा वापर डेटासेटमध्ये AI मॉडेलमध्ये bias टाळण्यासाठी पुरेसे वितरण आहे की नाही हे verify करण्यासाठी केले जाऊ शकते. AI accountability बाह्य ऑडिटद्वारे लागू केली जाऊ शकते जेणेकरून संभाव्य नैतिक चुका तपासता येतील.
सहयोग आणि Open Source Solutions
नैतिकदृष्ट्या सोर्स केलेल्या AI च्या विकासासाठी सहयोग आणि open-source उपायांची आवश्यकता आहे. डेटासेट, कार्यपद्धती आणि सर्वोत्तम पद्धती सामायिक करून, संशोधक आणि विकासक प्रगतीला गती देऊ शकतात आणि एकत्रितपणे नैतिक AI विकासाच्या समस्यांचे निराकरण करू शकतात. Open-source उपक्रम लहान संस्था आणि व्यक्तींना AI क्रांतीमध्ये भाग घेण्यास सक्षम करू शकतात, हे सुनिश्चित करून की या तंत्रज्ञानाचा लाभ अधिक समान रीतीने सामायिक केला जाईल.
एका उज्ज्वल भविष्याची आशा
पूर्णपणे नैतिकदृष्ट्या घेतलेल्या डेटावर प्रशिक्षित AI मॉडेल तयार करणे हे जबाबदार आणि फायदेशीर AI च्या शोधातील एक महत्त्वाचा टप्पा आहे. हे यश केवळ हेच सिद्ध करत नाही की नैतिक AI विकास शक्य आहे, तर इतरांना त्याचे अनुसरण करण्यासाठी एक roadmap देखील प्रदान करते. पारदर्शिता, सहयोग आणि नैतिक तत्त्वांबद्दलची बांधिलकी स्वीकारून, आपण मानवी मूल्यांचे रक्षण करून आणि अधिक न्याय्य आणि समान भविष्यास प्रोत्साहन देऊन AI ची पूर्ण क्षमता अनलॉक करू शकतो.