मूर्त एआयचा शोध: एक महत्त्वाकांक्षी ध्येय
अनेक वर्षांपासून, रोबोटिक्स उद्योग ‘मूर्त एआय’ (Embodied AI) च्या ध्येयाचा पाठपुरावा करत आहे - म्हणजेच, कृत्रिम बुद्धिमत्ता तयार करणे, जे रोबोट्सना विविध प्रकारच्या नवीन आणि अनपेक्षित परिस्थितीत सुरक्षितपणे आणि अचूकपणे नियंत्रित करू शकेल. Nvidia सारख्या कंपन्यांद्वारे सक्रियपणे पाठपुरावा केलेले हे महत्त्वाकांक्षी ध्येय, रोबोट्सना वास्तविक जगात विविध कार्ये करण्यास सक्षम अशा कुशल कामगारांमध्ये रूपांतरित करण्याची क्षमता असलेले ‘पवित्र ग्रेल’ (Holy Grail) आहे.
जेमिनी रोबोटिक्स: भाषा आणि दृष्टीच्या पायावर आधारित
Google चे नवीन मॉडेल्स जेमिनी 2.0 लार्ज लँग्वेज मॉडेलच्या सामर्थ्याचा उपयोग करतात, रोबोटिक ऍप्लिकेशन्सच्या विशिष्ट मागण्या पूर्ण करण्यासाठी त्याची क्षमता वाढवतात. जेमिनी रोबोटिक्समध्ये Google ज्याला ‘व्हिजन-लँग्वेज-ऍक्शन’ (VLA) क्षमता म्हणतो, ते समाविष्ट आहे. हे मॉडेलला दृश्यात्मक इनपुटवर प्रक्रिया करण्यास, नैसर्गिक भाषेतील आदेशांचा अर्थ लावण्यास आणि या इनपुट्सचे अचूक शारीरिक हालचालींमध्ये भाषांतर करण्यास अनुमती देते. याउलट, जेमिनी रोबोटिक्स-ईआर ‘एम्बोडेड रिझनिंग’ (Embodied Reasoning) वर लक्ष केंद्रित करते, वर्धित स्थानिक समज (spatial understanding) देते, जे विद्यमान रोबोट नियंत्रण प्रणालींसह सहज एकत्रीकरणास (seamless integration) अनुमती देते.
समजूतदारपणापासून कृतीपर्यंत: कुशलतेचे एक नवीन युग
या प्रगतीचे व्यावहारिक परिणाम खूप मोठे आहेत. कल्पना करा की, जेमिनी रोबोटिक्सने सुसज्ज असलेल्या रोबोटला ‘केळी उचलून टोपलीत ठेव’ अशी सूचना दिली आहे. रोबोट, त्याच्या कॅमेरा-आधारित दृष्टीचा (camera-based vision) उपयोग करून, केळी ओळखेल आणि कार्य पूर्ण करण्यासाठी त्याच्या रोबोटिक हाताला कुशलतेने मार्गदर्शन करेल. किंवा ‘ओरिगामी फॉक्स फोल्ड करा’ (fold an origami fox) या आदेशाचा विचार करा. रोबोट, ओरिगामी आणि कागद दुमडण्याच्या (paper folding) नाजूक कलेच्या ज्ञानाचा उपयोग करून, हे गुंतागुंतीचे कार्य काळजीपूर्वक पूर्ण करेल.
2023 मध्ये, Google च्या RT-2 मॉडेलने सामान्यीकृत रोबोटिक क्षमतांच्या दिशेने एक महत्त्वपूर्ण प्रगती दर्शविली. इंटरनेट डेटाचा फायदा घेऊन, RT-2 ने रोबोट्सना भाषेचे आदेश समजून घेण्यास आणि नवीन परिस्थितीशी जुळवून घेण्यास सक्षम केले, ज्यामुळे त्याच्या आधीच्या मॉडेलच्या तुलनेत न पाहिलेल्या कार्यांवर कामगिरी दुप्पट झाली. दोन वर्षांनंतर, जेमिनी रोबोटिक्सने आणखी एक महत्त्वपूर्ण झेप घेतली आहे, केवळ समजूतदारपणाच्या पलीकडे जाऊन जटिल शारीरिक कुशलतेचा समावेश केला आहे, जे RT-2 च्या आवाक्याबाहेर होते.
RT-2 केवळ आधी सराव केलेल्या शारीरिक हालचालींचा पुनर्वापर करण्यापुरते मर्यादित होते, तर जेमिनी रोबोटिक्समध्ये कुशलतेत (dexterity) लक्षणीय वाढ दिसून येते. या नवीन कुशलतेमुळे पूर्वी अशक्य असलेली कार्ये, जसे की ओरिगामी फोल्डिंगची नाजूक कला आणि झिप-लॉक (Zip-loc) बॅगमध्ये स्नॅक्सचे अचूक पॅकिंग करणे, शक्य झाले आहे. हे स्थित्यंतर - केवळ आदेश समजणाऱ्या रोबोट्सपासून नाजूक शारीरिक कार्ये करण्यास सक्षम असलेल्या रोबोट्सपर्यंत - हे दर्शविते की डीपमाइंड (DeepMind) रोबोटिक्समधील सर्वात मोठे आव्हान सोडवण्याच्या मार्गावर आहे: रोबोट्सना त्यांचे ‘ज्ञान’ वास्तविक जगात काळजीपूर्वक, अचूक हालचालींमध्ये रूपांतरित करण्यास सक्षम करणे.
सामान्यीकरण: वास्तविक-जगाशी जुळवून घेण्याची क्षमता
डीपमाइंड (DeepMind) यावर जोर देते की नवीन जेमिनी रोबोटिक्स प्रणाली लक्षणीय सुधारित सामान्यीकरण (generalization) दर्शवते - म्हणजेच, नवीन कार्ये करण्याची क्षमता, ज्यासाठी ते स्पष्टपणे प्रशिक्षित केलेले नाही. ही एक महत्त्वपूर्ण प्रगती आहे. कंपनीच्या घोषणेनुसार, जेमिनी रोबोटिक्स “इतर अत्याधुनिक व्हिजन-लँग्वेज-ऍक्शन मॉडेल्सच्या तुलनेत सर्वसमावेशक सामान्यीकरण बेंचमार्कवर (comprehensive generalization benchmark) कामगिरी दुप्पट करते.”
सामान्यीकरण (Generalization) खूप महत्त्वाचे आहे कारण प्रत्येक परिस्थितीसाठी विशिष्ट प्रशिक्षणाची आवश्यकता न घेता नवीन परिस्थितीशी जुळवून घेण्यास सक्षम रोबोट्स, अनपेक्षित वास्तविक-जगातील वातावरणात प्रभावीपणे कार्य करण्यासाठी आवश्यक आहेत. ही जुळवून घेण्याची क्षमता (adaptability) एका विशिष्ट, कार्य-विशिष्ट रोबोटला खऱ्या अर्थाने बहुमुखी आणि जुळवून घेणाऱ्या मशीनमध्ये वेगळे करते.
एक सामान्य रोबोट ब्रेन: Google ची महत्त्वाकांक्षी दृष्टी
Google चे प्रयत्न स्पष्टपणे ‘सामान्य रोबोट ब्रेन’ (generalist robot brain) तयार करण्याच्या दिशेने आहेत - एक बहुमुखी एआय (AI), जो विविध प्रकारच्या रोबोटिक प्लॅटफॉर्मवर नियंत्रण ठेवण्यास सक्षम आहे. या दृष्टीकोनाच्या अनुषंगाने, कंपनीने ‘जेमिनी 2.0 सह पुढील पिढीचे ह्युमनॉइड रोबोट्स (humanoid robots) तयार करण्यासाठी’ ऍपट्रॉनिक (Apptronik) या आघाडीच्या रोबोटिक्स कंपनीसोबत भागीदारीची घोषणा केली आहे.
प्रामुख्याने ALOHA 2 नावाच्या बायमॅन्युअल रोबोट (bimanual robot) प्लॅटफॉर्मवर प्रशिक्षित केलेले असले तरी, Google म्हणते की जेमिनी रोबोटिक्समध्ये विविध रोबोट प्रकारांवर नियंत्रण ठेवण्याची क्षमता आहे. यामध्ये संशोधन-आधारित फ्रँका रोबोटिक आर्म्स (Franka robotic arms) आणि ऍपट्रॉनिकच्या अपोलो रोबोट (Apptronik’s Apollo robot) सारख्या अधिक अत्याधुनिक ह्युमनॉइड सिस्टमचा (humanoid systems) समावेश आहे. ही जुळवून घेण्याची क्षमता जेमिनी रोबोटिक्सची विविध प्रकारच्या रोबोटिक ऍप्लिकेशन्ससाठी एक सार्वत्रिक ‘मेंदू’ (universal ‘brain’) बनण्याची क्षमता दर्शवते.
ह्युमनॉइड रोबोटिक्स लँडस्केप: हार्डवेअर आणि सॉफ्टवेअर एकत्र
ह्युमनॉइड रोबोटिक्सचा (humanoid robotics) शोध एक सहयोगी प्रयत्न आहे, ज्यामध्ये अनेक कंपन्या या आव्हानाच्या विविध पैलूंमध्ये योगदान देत आहेत. फिगर एआय (Figure AI) आणि बोस्टन डायनॅमिक्स (Boston Dynamics) (पूर्वीची अल्फाबेटची उपकंपनी) सारख्या कंपन्या प्रगत ह्युमनॉइड रोबोटिक्स हार्डवेअर (humanoid robotics hardware) विकसित करत आहेत. तथापि, एक खरोखर प्रभावी एआय ‘ड्रायव्हर’ (AI ‘driver’) - सॉफ्टवेअर घटक जो या रोबोट्सना बुद्धिमत्ता आणि स्वायत्तता देतो - ही एक महत्त्वपूर्ण कमतरता राहिली आहे.
या क्षेत्रात Google चे प्रयत्न गती घेत आहेत. कंपनीने बोस्टन डायनॅमिक्स (Boston Dynamics), ऍजिलिटी रोबोटिक्स (Agility Robotics) आणि एन्चंटेड टूल्स (Enchanted Tools) यासह आघाडीच्या रोबोटिक्स कंपन्यांना ‘ट्रस्टेड टेस्टर’ (trusted tester) प्रोग्रामद्वारे जेमिनी रोबोटिक्स-ईआर (Gemini Robotics-ER) मध्ये मर्यादित प्रवेश दिला आहे. हा सहयोगी दृष्टिकोन खरोखर सक्षम ह्युमनॉइड रोबोट्सच्या विकासाला आणि उपयोजनाला गती देण्याचा एकत्रित प्रयत्न दर्शवतो.
सुरक्षितता प्रथम: जबाबदार रोबोटिक्ससाठी एक स्तरित दृष्टीकोन
रोबोटिक्समध्ये सुरक्षिततेचे महत्त्व ओळखून, Google ‘स्तरित, समग्र दृष्टिकोन’ (layered, holistic approach) यावर जोर देते, ज्यामध्ये पारंपारिक रोबोट सुरक्षा उपायांचा समावेश आहे. या उपायांमध्ये टक्कर टाळणे (collision avoidance) आणि फोर्स लिमिटेशन्स (force limitations) समाविष्ट आहेत, ज्यामुळे रोबोट सुरक्षित मापदंडांमध्ये (safe parameters) कार्य करतात.
शिवाय, कंपनी ‘रोबोट कॉन्स्टिट्यूशन’ (Robot Constitution) फ्रेमवर्कच्या विकासाचे वर्णन करते. हे फ्रेमवर्क, आयझॅक असिमोव्हच्या (Isaac Asimov) रोबोटिक्सच्या तीन नियमांवर (Three Laws of Robotics) आधारित, रोबोट्सच्या नैतिक आणि सुरक्षित विकासासाठी आणि उपयोजनासाठी मार्गदर्शक तत्त्वे प्रदान करते. या फ्रेमवर्कच्या जोडीने, Google ने ‘ASIMOV’ नावाचा डेटासेट (dataset) प्रसिद्ध केला आहे, जो संशोधकांना रोबोटिक कृतींच्या सुरक्षिततेच्या परिणामांचे मूल्यांकन करण्यात मदत करण्यासाठी डिझाइन केलेला आहे.
ASIMOV डेटासेट: सुरक्षितता मूल्यांकनाचे मानकीकरण
ASIMOV डेटासेट Google च्या रोबोट सुरक्षिततेचे मूल्यांकन करण्यासाठी प्रमाणित पद्धती स्थापित करण्याचा प्रयत्न दर्शवतो, जे शारीरिक हानी टाळण्यापलीकडे आहे. विविध परिस्थितींमध्ये रोबोटच्या कृतींच्या संभाव्य परिणामांना एआय मॉडेल्स (AI models) किती चांगल्या प्रकारे समजून घेतात, याचे मूल्यांकन करण्यात संशोधकांना मदत करण्यासाठी हा डेटासेट डिझाइन केलेला आहे. Google च्या घोषणेनुसार, हा डेटासेट “संशोधकांना वास्तविक-जगातील परिस्थितींमध्ये रोबोटिक कृतींच्या सुरक्षिततेच्या परिणामांचे कठोरपणे मोजमाप करण्यात मदत करेल.” हे उपक्रम रोबोटिक्स क्षेत्रात जबाबदार नावीन्यपूर्णतेसाठी (responsible innovation) Google ची वचनबद्धता दर्शवतात.
रोबोटिक्सचे भविष्य: शक्यतांची एक झलक
Google ने अद्याप नवीन एआय मॉडेल्ससाठी (AI models) विशिष्ट टाइमलाइन किंवा व्यावसायिक ऍप्लिकेशन्सची घोषणा केलेली नाही, जे सध्या संशोधन टप्प्यात आहेत, परंतु दर्शविलेली प्रगती निर्विवादपणे महत्त्वपूर्ण आहे. Google द्वारे प्रसिद्ध केलेले डेमो व्हिडिओ एआय-चालित क्षमतांमध्ये (AI-driven capabilities) उल्लेखनीय प्रगती दर्शवतात. तथापि, हे लक्षात घेणे महत्त्वाचे आहे की हे प्रदर्शन नियंत्रित संशोधन वातावरणात केले गेले आहेत. या प्रणालींची खरी चाचणी वास्तविक जगाच्या अनपेक्षित आणि गतिशील वातावरणात (dynamic settings) सुरक्षितपणे कार्य करण्याच्या त्यांच्या क्षमतेमध्ये असेल.
जेमिनी रोबोटिक्स (Gemini Robotics) आणि जेमिनी रोबोटिक्स-ईआर (Gemini Robotics-ER) चा विकास रोबोटिक्सच्या उत्क्रांतीतील (evolution) एक महत्त्वपूर्ण क्षण दर्शवतो. या मॉडेल्समध्ये कुशलता, जुळवून घेण्याची क्षमता आणि स्वायत्ततेचे (autonomy) एक नवीन युग सुरू करण्याची क्षमता आहे, ज्यामुळे रोबोट्स आपल्या जीवनात सहजपणे मिसळून जातील आणि विविध प्रकारच्या कार्यांमध्ये योगदान देतील. जसजसे संशोधन पुढे जाईल आणि ही तंत्रज्ञानं अधिक प्रगत होतील, तसतसे आपण भविष्यात रोबोट्स आपल्या घरांमध्ये, कार्यस्थळांमध्ये आणि समुदायांमध्ये अधिकाधिक महत्त्वाची भूमिका बजावताना पाहू शकतो. खऱ्या अर्थाने मूर्त एआय (Embodied AI) च्या दिशेने प्रवास चालू आहे, परंतु Google ची नवीनतम प्रगती पुढे असलेल्या रोमांचक शक्यतांची एक झलक दर्शवते. अत्याधुनिक हार्डवेअर (sophisticated hardware) आणि वाढत्या बुद्धिमान सॉफ्टवेअरचे (intelligent software) मिश्रण रोबोटिक्स लँडस्केपमध्ये (robotics landscape) बदल घडवून आणण्यासाठी सज्ज आहे, ज्यामुळे आपण अशा भविष्याच्या जवळ जात आहोत जिथे रोबोट्स केवळ साधने नाहीत, तर आपल्या दैनंदिन जीवनातील बहुमुखी भागीदार आहेत.