अँथ्रोपिकचा क्लॉड पोकेमॉन का हरवू शकला नाही?

AGI चे आश्वासन (The Promise of AGI)

कृत्रिम बुद्धिमत्तेच्या (Artificial Intelligence) वाढत्या क्षेत्रात, ‘कृत्रिम सामान्य बुद्धिमत्ता’ (Artificial General Intelligence - AGI) ही संकल्पना एक आकर्षक शक्यता बनली आहे. इंडस्ट्री लीडर्स अधिकाधिक सूचित करत आहेत की आपण अशा व्हर्च्युअल एजंट्सच्या निर्मितीच्या उंबरठ्यावर आहोत जे विविध संज्ञानात्मक कार्यांमध्ये (cognitive tasks) मानवी समजूतदारपणा आणि कार्यक्षमतेशी जुळणारे किंवा त्याहूनही अधिक चांगले काम करू शकतील. या अपेक्षेमुळे टेक कंपन्यांमध्ये स्पर्धा निर्माण झाली आहे, प्रत्येकजण हे महत्त्वपूर्ण यश मिळवणारी पहिली कंपनी बनण्याचा प्रयत्न करत आहे.

OpenAI, AI क्षेत्रातील एक प्रमुख कंपनी, ‘PhD-level’ AI एजंटच्या आगमनाची सूचना देत आहे. त्यांचे म्हणणे आहे की हा एजंट स्वतंत्रपणे काम करू शकेल, ‘उच्च-उत्पन्न ज्ञान कामगार’ (high-income knowledge worker) स्तरावर कार्य करू शकेल. एलॉन मस्क (Elon Musk), नेहमीच महत्त्वाकांक्षी उद्योजक, यांनी तर याहून मोठी भविष्यवाणी केली आहे, ते म्हणतात की 2025 च्या अखेरीस आपल्याकडे AI असेल जे ‘कोणत्याही एका मानवापेक्षा हुशार’ असेल. डॅरिओ अमोदेई (Dario Amodei), अँथ्रोपिकचे (Anthropic) CEO, आणखी एक प्रमुख AI कंपनी, थोडा अधिक पुराणमतवादी दृष्टिकोन ठेवतात पण ते सुद्धा असेच काहीसे म्हणतात, 2027 च्या अखेरीस AI ‘जवळजवळ प्रत्येक गोष्टीत मानवांपेक्षा चांगले’ असू शकते.

अँथ्रोपिकचा ‘क्लॉड प्लेज पोकेमॉन’ प्रयोग (Anthropic’s ‘Claude Plays Pokémon’ Experiment)

या महत्त्वाकांक्षी अंदाजांच्या पार्श्वभूमीवर, अँथ्रोपिकने गेल्या महिन्यात त्यांचा ‘क्लॉड प्लेज पोकेमॉन’ प्रयोग सादर केला. AGI भविष्याच्या दिशेने एक पाऊल म्हणून सादर केलेला हा प्रकल्प, ‘AI प्रणालींची झलक दाखवतो जी केवळ प्रशिक्षणाद्वारेच नव्हे तर सामान्यीकृत तर्काद्वारे (generalized reasoning) आव्हानांना सामोरे जाण्यास सक्षम आहेत,’ असे वर्णन केले गेले. अँथ्रोपिकने क्लॉड 3.7 सॉनेटच्या (Claude 3.7 Sonnet) ‘सुधारित तर्क क्षमतांमुळे’ (improved reasoning capabilities) कंपनीच्या नवीनतम मॉडेलला क्लासिक गेम बॉय RPG, Pokémon मध्ये प्रगती करणे शक्य झाले, ज्यामध्ये ‘जुन्या मॉडेल्सना यश मिळण्याची शक्यता कमी होती,’ यावर जोर देऊन लक्ष वेधले.

कंपनीने यावर जोर दिला की क्लॉड 3.7 सॉनेटच्या ‘विस्तारित विचार’ (extended thinking) मुळे नवीन मॉडेलला ‘पुढे काय करायचे याची योजना आखणे, त्याची उद्दिष्ट्ये लक्षात ठेवणे आणि सुरुवातीच्या रणनीती अयशस्वी झाल्यास नवीन रणनीती वापरणे’ शक्य झाले. अँथ्रोपिकने असा युक्तिवाद केला की, ‘पिक्सेलेटेड जिम लीडर्सशी लढण्यासाठी या महत्त्वपूर्ण क्षमता आहेत. आणि, आम्ही असे मानतो की, वास्तविक-जगातील समस्या सोडवण्यासाठी देखील या क्षमता आवश्यक आहेत.’ याचा अर्थ स्पष्ट होता: Pokémon मधील क्लॉडची प्रगती केवळ एक खेळ नव्हता; हे AI च्या जटिल, वास्तविक-जगातील आव्हानांना सामोरे जाण्याच्या वाढत्या क्षमतेचे प्रदर्शन होते.

वास्तव: क्लॉडचे संघर्ष (The Reality Check: Claude’s Struggles)

तथापि, क्लॉडच्या Pokémon कामगिरीबद्दलचा सुरुवातीचा उत्साह वास्तवामुळे कमी झाला आहे. क्लॉड 3.7 सॉनेटने निःसंशयपणे त्याच्या पूर्ववर्तींपेक्षा चांगली कामगिरी केली असली तरी, त्याने गेमवर पूर्णपणे प्रभुत्व मिळवलेले नाही. Twitch वर हजारो दर्शकांनी क्लॉडचे चालू असलेले संघर्ष पाहिले आहेत, त्याच्या वारंवार होणाऱ्या चुका आणि अकार्यक्षमता बघितल्या आहेत.

चालींच्या दरम्यान विस्तारित ‘विचार’ (thinking) थांबून असूनही – ज्या दरम्यान दर्शक प्रणालीची अनुকরণ केलेली तर्क प्रक्रिया पाहू शकतात – क्लॉड अनेकदा खालील गोष्टी करताना आढळतो:

  • पूर्ण झालेल्या शहरांना पुन्हा भेट देणे: AI वारंवार अशा ठिकाणी परत जातो ज्या ठिकाणी तो आधीच जाऊन आलेला आहे, कोणताही हेतू न ठेवता.
  • आंधळ्या कोपऱ्यांमध्ये अडकणे: क्लॉड अनेकदा नकाशाच्या कोपऱ्यांमध्ये दीर्घकाळ अडकतो, बाहेर पडण्याचा मार्ग शोधण्यात अक्षम असतो.
  • मदत न करणाऱ्या NPCs शी वारंवार संवाद साधणे: AI त्याच नॉन-प्लेअर कॅरेक्टर्सशी (non-player characters) पुन्हा पुन्हा निरर्थक संभाषण करताना दिसले आहे.

मानवी पातळीपेक्षा कमी असलेल्या इन-गेम कामगिरीची ही उदाहरणे, काहींनी कल्पना केलेल्या सुपरइंटेलिजन्सपेक्षा खूप दूर असलेले चित्र रंगवतात. मुलांसाठी डिझाइन केलेल्या गेममध्ये क्लॉडला संघर्ष करताना पाहून, आपण संगणक बुद्धिमत्तेच्या नवीन युगाची सुरुवात पाहत आहोत यावर विश्वास ठेवणे कठीण होते.

मानवी पातळीपेक्षा कमी कामगिरीतून शिकलेले धडे (Lessons from Sub-Human Performance)

क्लॉडची Pokémon मधील सध्याची पातळी, त्याच्या कमतरता असूनही, सामान्यीकृत, मानवी-स्तरीय कृत्रिम बुद्धिमत्तेच्या चालू असलेल्या शोधाबद्दल मौल्यवान माहिती देते. त्याच्या संघर्षातूनही महत्त्वपूर्ण धडे मिळतात जे भविष्यातील विकासाच्या प्रयत्नांना माहिती देऊ शकतात.

क्लॉड Pokémon खेळू शकतो हेच खरं तर उल्लेखनीय आहे. Go आणि Dota 2 सारख्या खेळांसाठी AI प्रणाली विकसित करताना, अभियंते (engineers) त्यांच्या अल्गोरिदमला (algorithms) खेळाच्या नियमांचे आणि रणनीतींचे विस्तृत ज्ञान देतात, तसेच त्यांच्या शिकण्यास मार्गदर्शन करण्यासाठी एक रिवॉर्ड फंक्शन (reward function) देखील देतात. याउलट, क्लॉड प्लेज पोकेमॉन प्रकल्पाचे डेव्हलपर डेव्हिड हर्षे (David Hershey) यांनी, Pokémon गेम्स खेळण्यासाठी खास प्रशिक्षित किंवा ट्यून न केलेल्या, एका असंपादित, सामान्यीकृत क्लॉड मॉडेलने सुरुवात केली.

हर्षे यांनी Ars ला सांगितले, “हे पूर्णपणे [क्लॉड] जगाबद्दल समजलेल्या इतर विविध गोष्टींचा वापर व्हिडिओ गेम्सकडे निर्देशित करण्यासाठी करत आहे.” ते पुढे म्हणाले, “त्यामुळे त्याला पोकेमॉनची जाणीव आहे. जर तुम्ही claude.ai वर गेलात आणि पोकेमॉनबद्दल विचारले, तर त्याने जे वाचले आहे त्यावर आधारित त्याला पोकेमॉन काय आहे हे माहित आहे… जर तुम्ही विचारले, तर ते तुम्हाला सांगेल की आठ जिम बॅजेस आहेत, ते तुम्हाला सांगेल की पहिला ब्रॉक आहे… त्याला विस्तृत रचना माहित आहे.”

व्हिज्युअल इंटरप्रिटेशनची आव्हाने (The Challenges of Visual Interpretation)

गेम स्टेट माहितीसाठी की (key) गेम बॉय रॅम ॲड्रेसचे निरीक्षण करण्याव्यतिरिक्त, क्लॉड गेमच्या व्हिज्युअल आउटपुटचा अर्थ लावतो, जसे एखादा मानवी खेळाडू करतो. तथापि, AI इमेज प्रोसेसिंगमध्ये अलीकडील प्रगती असूनही, क्लॉडला अजूनही गेम बॉय स्क्रीनशॉटच्या कमी-रिझोल्यूशन, पिक्सेलेटेड जगाचा अर्थ मानवासारखा अचूक लावणे शक्य होत नाही.

“क्लॉड अजूनही स्क्रीनवर काय आहे हे समजून घेण्यात विशेष चांगला नाही,” हर्षे यांनी कबूल केले. “तुम्ही त्याला भिंतींमध्ये चालण्याचा प्रयत्न करताना सतत पहाल.”

हर्षे यांना शंका आहे की क्लॉडच्या प्रशिक्षण डेटामध्ये (training data) गेम बॉय स्क्रीनसारख्या प्रतिमांचे तपशीलवार मजकूर वर्णन नसावे. याचा अर्थ असा आहे की, क्लॉड कदाचित अधिक वास्तववादी प्रतिमांसह चांगले कार्य करू शकेल.

“माणसांबद्दल ही एक मजेदार गोष्ट आहे की आपण लोकांच्या या आठ-बाय-आठ पिक्सेल ब्लॉबकडे पाहून म्हणू शकतो, ‘ती निळ्या केसांची मुलगी आहे,’” हर्षे यांनी नमूद केले. “मला वाटते की लोकांमध्ये, आपल्या वास्तविक जगातून मॅप करण्याची आणि समजून घेण्याची क्षमता आहे… त्यामुळे क्लॉड स्क्रीनवर एक व्यक्ती आहे हे पाहण्यास सक्षम आहे, याबद्दल मला आश्चर्य वाटते.”

भिन्न सामर्थ्ये, भिन्न कमकुवतपणा (Different Strengths, Different Weaknesses)

अगदी अचूक व्हिज्युअल इंटरप्रिटेशनसह (visual interpretation) सुद्धा, हर्षे यांचा असा विश्वास आहे की क्लॉडला 2D नेव्हिगेशन आव्हानांमध्ये अजूनही संघर्ष करावा लागेल जे मानवांसाठी अगदी सोपे आहेत. “माझ्यासाठी हे समजणे खूप सोपे आहे की [इन-गेम] इमारत ही एक इमारत आहे आणि मी इमारतीमधून चालू शकत नाही,” ते म्हणाले. “आणि क्लॉडसाठी हे समजणे खूप आव्हानात्मक आहे… हे मजेदार आहे कारण ते वेगवेगळ्या प्रकारे हुशार आहे, तुम्हाला माहिती आहे?”

हर्षे यांच्या मते, क्लॉड गेमच्या अधिक मजकूर-आधारित पैलूंमध्ये उत्कृष्ट आहे. लढाईदरम्यान, जेव्हा गेम सूचित करतो की इलेक्ट्रिक-टाइप पोकेमॉनचा हल्ला रॉक-टाइप प्रतिस्पर्ध्याविरुद्ध ‘फार प्रभावी नाही’, तेव्हा क्लॉड हे लगेच लक्षात घेतो. त्यानंतर तो ही माहिती भविष्यातील संदर्भासाठी त्याच्या विस्तृत लिखित ज्ञान बेसमध्ये संग्रहित करतो. क्लॉड अनेक ज्ञानाचे तुकडे एकत्रित करून अत्याधुनिक लढाई কৌশল तयार करू शकतो, इतकेच नाही तर पोकेमॉन पकडण्यासाठी आणि व्यवस्थापित करण्यासाठी दीर्घकालीन योजनांमध्ये या কৌশलांचा विस्तार करू शकतो.

जेव्हा गेमचा मजकूर हेतुपुरस्सर दिशाभूल करणारा किंवा अपूर्ण असतो तेव्हा क्लॉड आश्चर्यकारक ‘बुद्धिमत्ता’ देखील दर्शवतो. हर्षे यांनी सुरुवातीच्या गेममधील एका कार्याचे उदाहरण दिले, जिथे खेळाडूला प्रोफेसर ओकला शेजारी शोधण्यास सांगितले जाते, परंतु तो तिथे नसतो. “5 वर्षांचा असताना, माझ्यासाठी ते खूप गोंधळात टाकणारे होते,” हर्षे म्हणाले. “परंतु क्लॉड प्रत्यक्षात त्याच क्रमाने जातो, जिथे तो आईशी बोलतो, लॅबमध्ये जातो, [ओक] सापडत नाही, म्हणतो, ‘मला काहीतरी शोधण्याची गरज आहे’… तो [मानवांनी] प्रत्यक्षात ते कसे शिकायचे आहे, त्याच पद्धतीने जाण्यासाठी पुरेसा प्रगत आहे.”

मानवी-पातळीवरील खेळाच्या तुलनेत ही विरोधाभासी सामर्थ्ये आणि कमकुवतपणा, AI संशोधन आणि क्षमतांची एकूण स्थिती दर्शवतात, हर्षे यांनी स्पष्ट केले. “मला वाटते की ही या मॉडेल्सबद्दलची एक सार्वत्रिक गोष्ट आहे… आम्ही त्याचा मजकूर भाग प्रथम तयार केला आणि मजकूर भाग निश्चितपणे… अधिक शक्तिशाली आहे. हे मॉडेल प्रतिमांबद्दल कसे तर्क करू शकतात हे सुधारत आहे, परंतु मला वाटते की ते थोडे मागे आहे.”

मेमरीच्या मर्यादा (The Limits of Memory)

व्हिज्युअल आणि टेक्स्टुअल इंटरप्रिटेशनमधील (visual and textual interpretation) आव्हानांव्यतिरिक्त, हर्षे यांनी कबूल केले की क्लॉडला त्याने जे शिकले आहे ते ‘लक्षात ठेवण्यास’ (remembering) त्रास होतो. सध्याच्या मॉडेलमध्ये 200,000 टोकन्सची ‘संदर्भ विंडो’ (context window) आहे, जी कोणत्याही वेळी त्याच्या ‘मेमरी’ (memory) मध्ये संग्रहित करू शकणाऱ्या संबंधित माहितीचे प्रमाण मर्यादित करते. जेव्हा प्रणालीचा विस्तारणारा ज्ञान बेस या विंडोमध्ये भरतो, तेव्हा क्लॉड एक विस्तृत सारांश प्रक्रियेतून जातो, तपशीलवार नोट्स लहान सारांशांमध्ये संकुचित करतो, ज्यामुळे काही सूक्ष्म तपशील गमावले जातात.

यामुळे क्लॉडला ‘खूप वेळ गोष्टींचा मागोवा ठेवणे आणि त्याने आतापर्यंत काय प्रयत्न केले याची चांगली जाणीव ठेवणे कठीण होऊ शकते,’ हर्षे म्हणाले. “तुम्ही निश्चितपणे त्याला कधीकधी असे काहीतरी हटवताना पहाल जे त्याने हटवायला नको होते. तुमच्या ज्ञान बेसमध्ये किंवा तुमच्या सारांशात नसलेली कोणतीही गोष्ट निघून जाईल, म्हणून तुम्हाला तिथे काय ठेवायचे आहे याचा विचार करावा लागेल.”

चुकीच्या माहितीचे धोके (The Perils of Incorrect Information)

महत्त्वाची माहिती विसरण्यापेक्षा जास्त त्रासदायक गोष्ट म्हणजे क्लॉडची नकळत त्याच्या ज्ञान बेसमध्ये चुकीची माहिती टाकण्याची प्रवृत्ती. एखाद्या सदोष आधारावर विश्वदृष्टी (worldview) तयार करणाऱ्या षड्यंत्र सिद्धांतकाराप्रमाणे (conspiracy theorist), क्लॉड त्याच्या स्व-लिखित ज्ञान बेसमध्ये झालेली चूक त्याच्या Pokémon खेळाला चुकीच्या मार्गावर नेत आहे हे ओळखण्यास खूप धीमा असू शकतो.

“भूतकाळात लिहिलेल्या गोष्टींवर, तो आंधळेपणाने विश्वास ठेवतो,” हर्षे म्हणाले. “मी त्याला हे पाहिलं आहे की तो [इन-गेम लोकेशन] विरिडियन फॉरेस्टचा (Viridian Forest) बाहेर पडण्याचा मार्ग विशिष्ट निर्देशांकांवर (coordinates) सापडला आहे यावर खूप विश्वास ठेवतो आणि मग तो त्या निर्देशांकांच्या आसपासच्या एका लहान चौकोनात तास आणि तास घालवतो जे चुकीचे आहेत. त्याला ते ‘अयशस्वी’ आहे हे ठरवण्यासाठी खूप वेळ लागतो.”

या आव्हानांना असूनही, हर्षे यांनी नमूद केले की क्लॉड 3.7 सॉनेट पूर्वीच्या मॉडेल्सपेक्षा ‘त्याच्या गृहीतकांवर प्रश्न विचारणे, नवीन रणनीती वापरून पाहणे आणि विविध रणनीतींचा मागोवा ठेवणे’ यामध्ये लक्षणीयरीत्या चांगले आहे. नवीन मॉडेल अजूनही ‘खूप वेळ’ त्याच कृती पुन्हा करण्याचा ‘प्रयत्न करत असताना’, ते शेवटी ‘काय चालले आहे आणि त्याने आधी काय प्रयत्न केले आहे याची जाणीव करून घेतो आणि अनेक वेळा त्यातून वास्तविक प्रगती करतो,’ हर्षे म्हणाले.

पुढील मार्ग (The Path Forward)

क्लॉड प्लेज Pokémon ला अनेक पुनरावृत्तींमध्ये (iterations) पाहण्याचा एक सर्वात आकर्षक पैलू, हर्षे म्हणाले, प्रणालीची प्रगती आणि रणनीती धावांमध्ये (runs) लक्षणीयरीत्या कशी बदलू शकते हे पाहणे आहे. कधीकधी, क्लॉड ‘प्रयत्न करण्यासाठी वेगवेगळ्या मार्गांबद्दल तपशीलवार नोट्स ठेवून’ ‘प्रत्यक्षात एक सुसंगत रणनीती तयार करण्यास सक्षम आहे’ हे दर्शवितो, ते म्हणाले. पण ‘बहुतेक वेळा ते तसे करत नाही… बहुतेक वेळा, ते भिंतीवर चालते कारण त्याला खात्री असते की त्याला बाहेर पडण्याचा मार्ग दिसत आहे.’

हर्षे यांच्या मते, क्लॉडच्या सध्याच्या आवृत्तीची एक मोठी मर्यादा अशी आहे की ‘जेव्हा ते चांगली रणनीती तयार करते, तेव्हा मला वाटत नाही की त्याला स्वतःबद्दल जाणीव आहे की त्याने तयार केलेली एक रणनीती दुसर्‍यापेक्षा चांगली आहे.’ आणि ते म्हणाले, ही समस्या सोडवणे सोपे नाही.

तरीही, हर्षे यांना गेम बॉय स्क्रीनशॉटबद्दल मॉडेलची समज सुधारून क्लॉडच्या Pokémon खेळात सुधारणा करण्यासाठी ‘सुलभ संधी’ (low-hanging fruit) दिसते. “मला वाटते की जर त्याला स्क्रीनवर काय आहे याची अचूक जाणीव असेल तर ते गेम जिंकू शकेल,” ते म्हणाले, असे मॉडेल ‘मानवापेक्षा थोडे कमी’ कामगिरी करेल.

भविष्यातील क्लॉड मॉडेल्ससाठी संदर्भ विंडो (context window) वाढवल्याने त्यांना ‘दीर्घकाळ तर्क करणे आणि दीर्घकाळ गोष्टी अधिक सुसंगतपणे हाताळणे’ शक्य होईल, हर्षे पुढे म्हणाले. भविष्यातील मॉडेल्स ‘लक्षात ठेवणे, प्रगती करण्यासाठी काय प्रयत्न करणे आवश्यक आहे याचा सुसंगत संच ठेवणे’ यामध्ये ‘थोडे चांगले’ होऊन सुधारतील, ते म्हणाले.

AI मॉडेल्समध्ये सुधारणा होण्याची शक्यता नाकारता येत नसली तरी, क्लॉडची सध्याची Pokémon कामगिरी हे दर्शवत नाही की ते मानवी-स्तरीय, पूर्णपणे सामान्यीकृत कृत्रिम बुद्धिमत्तेच्या युगाची सुरुवात करण्याच्या मार्गावर आहे. हर्षे यांनी कबूल केले की क्लॉड 3.7 सॉनेटला माउंट मूनवर (Mt. Moon) 80 तास अडकलेले पाहून ‘असे वाटू शकते की हे मॉडेलला काय करायचे आहे हे माहित नाही.’

तथापि, हर्षे क्लॉडच्या नवीन तर्क मॉडेलमध्ये दिसणाऱ्या जागरूकतेच्या (awareness) क्षणांमुळे प्रभावित झाले आहेत, ते म्हणतात की ते कधीकधी ‘स्वतःला सांगते की त्याला काय करायचे आहे हे माहित नाही आणि त्याला माहित आहे की त्याला काहीतरी वेगळे करण्याची आवश्यकता आहे. आणि ‘काहीही करू शकत नाही’ आणि ‘थोडे करू शकते’ यात माझ्यासाठी या AI गोष्टींसाठी खूप मोठा फरक आहे,” ते पुढे म्हणाले. “तुम्हाला माहिती आहे, जेव्हा एखादी गोष्ट काहीतरी करू शकते तेव्हा याचा अर्थ असा होतो की आपण ते खरोखर चांगले करण्यास सक्षम होण्याच्या अगदी जवळ आहोत.”