ट्युरिंग टेस्टचे संकट: AI ने बेंचमार्कला मागे टाकले?

बुद्धिमत्तेच्या भ्रमाचा पर्दाफाश

अनेक दशकांपासून, कृत्रिम बुद्धिमत्तेचे मापन करण्याच्या प्रयत्नात Turing Test एक महत्त्वाचा, जरी वारंवार गैरसमज झालेला, टप्पा म्हणून उभा आहे. प्रतिभाशाली Alan Turing यांनी संकल्पित केलेली ही चाचणी एक साधे पण गहन आव्हान प्रस्तावित करते: केवळ मजकूर-आधारित संभाषणाद्वारे एखादे मशीन मानवाला पटवून देऊ शकेल का की ते देखील मानव आहे? अनेकांनी या चाचणीतील यशाचा अर्थ खरा मशीन विचारसरणीचा उदय, सिलिकॉन मेंदू अखेरीस आपल्या स्वतःच्या संज्ञानात्मक क्षमतांचे प्रतिबिंब दर्शवत असल्याचे चिन्ह मानले आहे. तथापि, या अर्थावर नेहमीच वादविवाद झाले आहेत आणि OpenAI च्या GPT-4.5 सारख्या अत्याधुनिक AI मॉडेल्सच्या अलीकडील घडामोडींमुळे गंभीर पुनर्मूल्यांकन करण्यास भाग पाडले जात आहे.

University of California at San Diego मधून समोर आलेले महत्त्वपूर्ण संशोधन या वादाला तीव्रतेने समोर आणते. तेथील विद्वानांनी क्लासिक Turing Test स्वरूपात मानवांना प्रगत large language models (LLMs) विरुद्ध उभे करून प्रयोग केले. निकाल धक्कादायक होते: OpenAI ची नवीनतम आवृत्ती, कथित GPT-4.5, केवळ उत्तीर्ण झाली नाही; ती उत्कृष्ट ठरली, मानवी सहभागी त्यांच्या स्वतःच्या मानवतेचा पुरावा देण्यापेक्षा अधिक खात्रीशीरपणे मानवी असल्याचे भासवण्यात यशस्वी झाली. हे generative AI च्या क्षमतेमध्ये एक महत्त्वपूर्ण झेप दर्शवते, जी अस्सल मानवी वाटणारे प्रतिसाद तयार करू शकते. तरीही, या अभ्यासामागील संशोधक देखील या संभाषणात्मक पराक्रमाला artificial general intelligence (AGI) - मानवी-स्तरीय संज्ञानात्मक क्षमता असलेल्या मशीन तयार करण्याचे मायावी ध्येय - च्या साध्यतेशी जोडण्याविरुद्ध सावधगिरी बाळगण्याचा इशारा देतात. असे दिसते की ही चाचणी, मशीन बुद्धिमत्तेच्या खऱ्या स्वरूपाबद्दल सांगण्याऐवजी, चाचणीच्या स्वतःच्या मर्यादा आणि आपल्या स्वतःच्या मानवी गृहितकांबद्दल अधिक प्रकट करत आहे.

क्लासिक प्रयोगाला आधुनिक वळण

Turing Test चे चिरस्थायी आकर्षण त्याच्या मोहक साधेपणात आहे. Turing ने एका ‘imitation game’ ची कल्पना केली होती ज्यात तीन खेळाडूंचा समावेश होता: एक मानवी प्रश्नकर्ता (न्यायाधीश), एक मानवी साक्षीदार आणि एक संगणक साक्षीदार. एकमेकांपासून वेगळे ठेवलेले, केवळ मजकूर संदेशांद्वारे संवाद साधणारे, साक्षीदार न्यायाधीशांना त्यांच्या मानवी ओळखीबद्दल पटवून देण्याचा प्रयत्न करतील. न्यायाधीशाला, एक सहभागी मशीन आहे याची जाणीव असल्याने, कोण कोण आहे हे ठरवायचे असते. या सेटअपची प्रतिभा त्याच्या मूळ तुलनात्मक स्वरूपात आहे. जर न्यायाधीशाने चुकून संगणकाला मानव म्हणून ओळखले, तर ते केवळ मशीनच्या खात्रीशीर कामगिरीचेच नव्हे, तर मानवी साक्षीदाराने स्वतःच्या मानवतेचे पुरेसे संकेत देण्यात संभाव्य अपयश किंवा कदाचित न्यायाधीशाची ते संकेत योग्यरित्या समजण्याची असमर्थता दर्शवते. हे मानवी समज, विश्वास आणि आपण मानव असण्याशी जोडलेल्या सूक्ष्म संकेतांचे एक आकर्षक परीक्षण बनते, तितकेच ते गणन क्षमतेचे मापन आहे.

या पायावर आधारित, UC San Diego चे संशोधक, Cameron Jones आणि Benjamin Bergen यांनी आधुनिक LLMs च्या शक्तीचा वापर करून आणि पदवीपूर्व विद्यार्थ्यांना सामील करून चाचणीची समकालीन आवृत्ती लागू केली. त्यांची प्रायोगिक रचना Turing च्या तीन-मार्गी संरचनेचे बारकाईने पालन करत होती. विद्यार्थ्यांना यादृच्छिकपणे भूमिका नियुक्त केल्या गेल्या: काही न्यायाधीशांसारखे वागले, तर काही मानवी साक्षीदार म्हणून. प्रत्येक न्यायाधीशाने एकाच वेळी, स्वतंत्रपणे पाच-मिनिटांच्या मजकूर चॅटमध्ये मानवी साक्षीदार आणि AI साक्षीदार दोघांशीही संवाद साधला. न्यायाधीशासाठी आव्हान तेच राहिले: मशीन ओळखा.

सध्याच्या AI च्या क्षमतांचा शोध घेण्यासाठी, संगणक साक्षीदार म्हणून अनेक मॉडेल्स तैनात करण्यात आले:

  • GPT-4.5 (Minimal Prompt): या आवृत्तीला फक्त मूलभूत सूचना मिळाल्या.
  • GPT-4.5 (PERSONA Prompt): या प्रकाराला लक्षणीयरीत्या अधिक तपशीलवार मार्गदर्शन देण्यात आले. प्रॉम्प्टने AI ला एक विशिष्ट व्यक्तिमत्व स्वीकारण्याची सूचना दिली - ‘एक तरुण व्यक्ती जो अंतर्मुख आहे, इंटरनेट संस्कृतीबद्दल जाणकार आहे आणि slang वापरतो.’ याचा उद्देश AI ची अनुकूलन क्षमता आणि विशिष्ट मानवी आद्यरूपांचे अनुकरण करण्याची क्षमता तपासणे हा होता.
  • GPT-4o: OpenAI चे दुसरे प्रमुख मॉडेल तुलना बिंदू म्हणून काम केले.
  • Llama 3.1 405b: Meta Platforms चे शक्तिशाली LLM व्याप्ती वाढवण्यासाठी समाविष्ट केले गेले.
  • ELIZA: 1960 च्या दशकातील एक मौलिक चॅटबॉट प्रोग्राम नियंत्रणासाठी समाविष्ट केला गेला. त्याची सापेक्ष साधेपणा हे निर्धारित करण्यात मदत करण्यासाठी होती की LLMs चे कोणतेही यश अत्याधुनिक प्रोग्रामिंगमुळे होते की केवळ यादृच्छिक संधी आणि सहज फसवल्या जाणाऱ्या न्यायाधीशांमुळे.

हा बहु-मॉडेल दृष्टिकोन, संरचित, वेळ-बद्ध संवाद आणि किमान प्रॉम्प्ट केलेल्या आणि व्यक्तिमत्व-चालित AI मधील तुलनेसह, मशीन किती प्रभावीपणे मानवी संभाषणाचे अनुकरण करू शकतात आणि मानव या प्रयत्नांना कसे समजतात याचे विश्लेषण करण्यासाठी एक समृद्ध डेटासेट प्रदान केला.

जेव्हा अनुकरण वास्तवावर मात करते

UC San Diego अभ्यासाचे निष्कर्ष खरोखरच उल्लेखनीय होते, विशेषतः तपशीलवार PERSONA prompt द्वारे मार्गदर्शन केल्यावर GPT-4.5 च्या कामगिरीबद्दल. या विशिष्ट कॉन्फिगरेशनने आश्चर्यकारक 73% ‘विजय दर’ प्राप्त केला. थोडक्यात, जवळपास तीन-चतुर्थांश वेळा, या AI शी संवाद साधणाऱ्या मानवी न्यायाधीशांनी निष्कर्ष काढला की ते दुसऱ्या मानवाशी संभाषण करत आहेत. हा आकडा केवळ त्याच्या निरपेक्ष मूल्यातच नव्हे, तर इतर सहभागींच्या तुलनेतही महत्त्वपूर्ण आहे.

मापदंडांचा विचार करा:

  • मानवी साक्षीदार: गंमतीची गोष्ट म्हणजे, साक्षीदार म्हणून सहभागी झालेले वास्तविक मानव, व्यक्तिमत्व-चालित GPT-4.5 पेक्षा न्यायाधीशांना त्यांच्या मानवतेबद्दल पटवून देण्यात कमी यशस्वी झाले.
  • इतर AI मॉडेल्स: किमान प्रॉम्प्टसह GPT-4.5, तसेच GPT-4o आणि Llama 3.1 (अगदी समान व्यक्तिमत्व प्रॉम्प्ट दिल्यावरही) ने लक्षणीयरीत्या कमी गुण मिळवले, ज्यांचे विजय दर 21% ते 56% दरम्यान होते. हे चाचणी केलेल्या विशिष्ट GPT-4.5 मॉडेलच्या प्रगत क्षमता आणि तयार केलेल्या प्रॉम्प्टिंगच्या महत्त्वपूर्ण प्रभावावर प्रकाश टाकते.
  • मागील GPT-4 कामगिरी: त्याच संशोधकांनी फक्त एक वर्षापूर्वी केलेल्या प्रयोगाच्या पूर्वीच्या आवृत्तीत, GPT-4 ने केवळ 54% विजय दर मिळवला होता, जो यादृच्छिक संधीच्या (50%) उंबरठ्यापेक्षा किंचित जास्त होता. GPT-4.5 सह 73% पर्यंतची झेप मॉडेलच्या मानवी-सदृश मजकूर तयार करण्याच्या क्षमतेत जलद प्रगती दर्शवते.
  • ELIZA: विंटेज चॅटबॉटने, अपेक्षेप्रमाणे, खराब कामगिरी केली, बेसलाइन म्हणून त्याचा उद्देश पूर्ण केला आणि पुष्टी केली की LLMs चे यश केवळ न्यायाधीशांना कोणत्याही प्रोग्रामद्वारे सहज फसवल्यामुळे नव्हते.

Jones आणि Bergen यांचा निष्कर्ष स्पष्ट होता: न्यायाधीश केवळ मानव आणि मशीनमध्ये फरक करण्यासाठी संघर्ष करत नव्हते; ते सक्रियपणे व्यक्तिमत्व-चालित GPT-4.5 ला मानव मानण्याकडे अधिक झुकलेले होते, त्याऐवजी वास्तविक मानवी सहभागी मानव आहेत यावर विश्वास ठेवण्यापेक्षा. हे सूचित करते की AI, योग्यरित्या निर्देशित केल्यावर, मानवी संवादाच्या समजल्या जाणाऱ्या बारकाव्यांचे अनुकरण करू शकते - कदाचित अस्सल मानवी चॅटमध्ये उपस्थित असलेली विचित्रता किंवा विसंगती फिल्टर करून - या विशिष्ट, मर्यादित वातावरणात मानवांपेक्षा अधिक प्रभावीपणे. यश केवळ उत्तीर्ण होण्यापुरते नव्हते; ते चाचणीच्या मर्यादेत समजल्या जाणाऱ्या ‘मानवते’ मध्ये मानवी बेसलाइन ओलांडण्याबद्दल होते.

मानवसदृशतेचा अडथळा: बुद्धिमत्ता की अनुकूलन?

Turing Test च्या या आधुनिक आवृत्तीत GPT-4.5 चा विजय AGI च्या आगमनाचे संकेत देतो का? संशोधक, क्षेत्रातील अनेक तज्ञांसह, सावधगिरी बाळगण्याचा आग्रह धरतात. चाचणीभोवतीचा ‘सर्वात वादग्रस्त प्रश्न’, जसे Jones आणि Bergen मान्य करतात, नेहमीच हा राहिला आहे की ती खरोखर बुद्धिमत्ता मोजते की दुसरे काहीतरी. GPT-4.5 ची मानवांना इतक्या प्रभावीपणे फसवण्याची क्षमता निर्विवादपणे एक तांत्रिक पराक्रम आहे, परंतु ती कदाचित मॉडेलच्या अत्याधुनिक अनुकरण आणि अनुकूलन क्षमतेबद्दल अधिक बोलते, खऱ्या समजबुद्धी किंवा जाणीवेपेक्षा.

एक दृष्टीकोन असा आहे की हे प्रगत LLMs नमुना जुळवणी आणि भविष्यवाणीमध्ये अपवादात्मकपणे निपुण झाले आहेत. मानवी मजकुराच्या प्रचंड डेटावर प्रशिक्षित, ते शब्दांच्या क्रमांची, संभाषणात्मक वळणांची आणि विविध प्रकारच्या मानवी संवादांशी संबंधित शैलीत्मक घटकांची सांख्यिकीय शक्यता शिकतात. PERSONA prompt ने GPT-4.5 ला एक विशिष्ट लक्ष्य नमुना प्रदान केला - एक अंतर्मुख, इंटरनेट-जाणकार तरुण व्यक्ती. AI चे यश, म्हणून, त्याच्या प्रशिक्षण डेटावर आधारित, त्या प्रोफाइलशी सुसंगत प्रतिसाद तयार करण्यासाठी, विनंती केलेल्या व्यक्तिमत्त्वाशी जुळण्यासाठी ‘त्याचे वर्तन अनुकूलित करण्याची’ क्षमता प्रदर्शित करते असे पाहिले जाऊ शकते. हे लवचिकता आणि जनरेटिव्ह शक्तीचे एक उल्लेखनीय प्रदर्शन आहे, ज्यामुळे मशीनला प्रॉम्प्टद्वारे परिभाषित केलेल्या संदर्भात खात्रीशीरपणे मानवी दिसू देते.

तथापि, ही अनुकूलन क्षमता मानवांमध्ये असलेल्या सामान्य बुद्धिमत्तेपेक्षा वेगळी आहे, ज्यात तर्क करणे, संदर्भ खोलवर समजून घेणे, नवीन अनुभवांमधून शिकणे आणि चेतना असणे यांचा समावेश होतो - असे गुण जे सध्याचे LLMs प्रदर्शित करत नाहीत. AI विद्वान Melanie Mitchell यांनी युक्तिवाद केल्याप्रमाणे, नैसर्गिक भाषेत अस्खलितता, बुद्धिबळात प्रभुत्व मिळवण्यासारखेच, सामान्य बुद्धिमत्तेचा निश्चित पुरावा नाही. हे एका विशिष्ट, जरी जटिल, कौशल्य डोमेनमध्ये प्रभुत्व सिद्ध करते. म्हणून, GPT-4.5 ची कामगिरी नैसर्गिक भाषा निर्मितीमध्ये एक मैलाचा दगड असली तरी, तिला केवळ AGI कडे एक पाऊल म्हणून चित्रित करणे दिशाभूल करणारे असू शकते. मजकूर-आधारित संभाषणात उच्च दर्जाची ‘मानवसदृशता’ प्राप्त करणे असे वर्णन करणे अधिक अचूक वाटते, जी मानवी-स्तरीय बुद्धिमत्तेपेक्षा सूक्ष्म परंतु महत्त्वपूर्णरीत्या वेगळी संकल्पना आहे.

संवादाचा आरसा: चाचणी आपल्याबद्दल काय प्रकट करते

UC San Diego अभ्यासाचा कदाचित सर्वात वेधक पैलू AI बद्दल काय प्रकट करतो यात नाही, तर मानवी निर्णय आणि आपण संवादांमध्ये, विशेषतः ऑनलाइन, आणलेल्या गृहितकांबद्दल काय उघड करतो यात आहे. मानवी न्यायाधीश वारंवार फसले गेले आणि कधीकधी AI च्या संवाद शैलीला प्राधान्य दिले, हे या स्वरूपात मशीन बुद्धिमत्तेचा अंतिम मध्यस्थ म्हणून मानवी समजेचा वापर करण्यातील मूळ व्यक्तिनिष्ठता आणि संभाव्य त्रुटींकडे निर्देश करते.

संशोधकांनी न्यायाधीशांच्या तर्कातील आकर्षक नमुने नोंदवले:

  • अनपेक्षित वर्तन: अगदी आदिम ELIZA प्रोग्रामनेही न्यायाधीशांना 23% वेळा फसवण्यात यश मिळवले. हे ELIZA ने बुद्धिमत्ता दाखवल्यामुळे नव्हते, तर अनेकदा ते न्यायाधीशांच्या AI कसे वागावे याबद्दलच्या पूर्वकल्पित कल्पना पूर्ण करत नव्हते म्हणून होते. न्यायाधीशांनी साक्षीदार ‘व्यंग्यात्मक’ किंवा ‘असभ्य’ असल्याचे कारण दिले, असे गुणधर्म ज्यांची त्यांनी मशीनकडून अपेक्षा केली नव्हती, त्यामुळे तो मानव असावा असा निष्कर्ष काढला.
  • बौद्धिकतेपेक्षा सामाजिकतेवर लक्ष केंद्रित करणे: Alan Turing च्या अपेक्षेच्या विरुद्ध की न्यायाधीश ज्ञान आणि बौद्धिक क्षमतेसाठी तपासणी करतील, या अभ्यासातील सहभागी अनेकदा संभाषणात्मक शैली, भावनिक सूर आणि सामाजिक संकेतांवर अधिक लक्ष केंद्रित करत असल्याचे दिसले.
  • अपूर्णतेचा विरोधाभास: एका आश्चर्यकारक वळणात, न्यायाधीशांनी साक्षीदाराला मानव म्हणून योग्यरित्या ओळखण्यासाठी वापरलेल्या घटकांपैकी एक म्हणजे ज्ञानाचा अभाव जाणवणे. हे सूचित करते की मानवांमध्ये चुका होतात आणि ते अपूर्ण असतात, तर AI कडून विश्वकोशीय किंवा अति-अचूक असण्याची अपेक्षा केली जाऊ शकते अशी एक अंतर्निहित धारणा आहे.

या निरीक्षणांमुळे Jones आणि Bergen असा दावा करतात की न्यायाधीशांचे निर्णय ‘मानव आणि AI प्रणाली कशा प्रकारे वागण्याची शक्यता आहे याबद्दल जटिल गृहितके’ समाविष्ट करतात, जे बुद्धिमत्तेच्या साध्या मूल्यांकनाच्या पलीकडे जातात. निकष सामाजिक अपेक्षा, व्यक्तिमत्व निर्णय आणि अगदी तांत्रिक क्षमतांबद्दलच्या पूर्वग्रहांशी जोडले जातात. ज्या युगात मजकूर-आधारित संवाद सर्वव्यापी आहे, तिथे आपण ऑनलाइन संवादांसाठी अंगवळणी पडलेल्या सवयी आणि अपेक्षा विकसित केल्या आहेत. Turing Test, मूळतः मानव-संगणक संवादात एक नवीन तपासणी म्हणून डिझाइन केलेली, आता या ऑनलाइन मानवी सवयी आणि पूर्वग्रहांची चाचणी म्हणून अधिक कार्य करते. हे डिजिटल व्यक्तिमत्त्वांचे विश्लेषण करण्याची आपली क्षमता मोजते, जी मानव आणि बॉट्स दोघांसोबतच्या आपल्या दैनंदिन अनुभवांनी प्रभावित होते. मूलभूतपणे, आधुनिक Turing Test, जसे या संशोधनाने दाखवले आहे, मशीन बुद्धिमत्तेचे थेट मूल्यांकन करण्याऐवजी, मानवी अपेक्षेच्या लेन्सद्वारे फिल्टर केलेल्या, समजल्या जाणाऱ्या मानवसदृशतेचे मापक असल्याचे दिसते.

इमिटेशन गेमच्या पलीकडे: AI मूल्यांकनासाठी नवीन दिशा

GPT-4.5 सारख्या मॉडेल्सच्या प्रभावी कामगिरी आणि पारंपरिक Turing Test स्वरूपात अंतर्भूत असलेल्या मर्यादा आणि पूर्वग्रह लक्षात घेता, प्रश्न उद्भवतो: AGI कडे प्रगती मोजण्यासाठी हा दशकांपूर्वीचा बेंचमार्क अजूनही योग्य साधन आहे का? UC San Diego चे संशोधक, AI समुदायातील वाढत्या आवाजासह, सूचित करतात की कदाचित नाही - किमान, एकमेव किंवा निश्चित उपाय म्हणून नाही.

GPT-4.5 चे यश, विशेषतः PERSONA prompt वरील त्याचे अवलंबित्व, एका मुख्य मर्यादेवर जोर देते: चाचणी एका विशिष्ट, अनेकदा संकुचित, संभाषणात्मक संदर्भात कामगिरीचे मूल्यांकन करते. ती necessariamente तर्क, नियोजन, सर्जनशीलता किंवा विविध परिस्थितींमध्ये सामान्य ज्ञानाची समज यांसारख्या खोल संज्ञानात्मक क्षमतांची तपासणी करत नाही. जसे Jones आणि Bergen म्हणतात, ‘बुद्धिमत्ता जटिल आणि बहुआयामी आहे,’ याचा अर्थ ‘बुद्धिमत्तेची कोणतीही एक चाचणी निर्णायक असू शकत नाही.’

हे मूल्यांकन पद्धतींच्या अधिक व्यापक संचाची आवश्यकता दर्शवते. अनेक संभाव्य मार्ग समोर येतात:

  1. सुधारित चाचणी डिझाइन: संशोधक स्वतःच भिन्नता सुचवतात. जर न्यायाधीश AI तज्ञ असते, ज्यांच्याकडे भिन्न अपेक्षा आणि कदाचित मशीनच्या क्षमता तपासण्यासाठी अधिक अत्याधुनिक पद्धती असत्या तर काय? जर महत्त्वपूर्ण आर्थिक प्रोत्साहन सादर केले गेले, ज्यामुळे न्यायाधीशांना प्रतिसादांची अधिक काळजीपूर्वक आणि विचारपूर्वक छाननी करण्यास प्रोत्साहन मिळाले तर काय? हे बदल गतिशीलता बदलू शकतात आणि संभाव्यतः भिन्न परिणाम देऊ शकतात, ज्यामुळे चाचणीच्या निकालावर संदर्भ आणि प्रेरणेचा प्रभाव आणखी अधोरेखित होतो.
  2. व्यापक क्षमता चाचणी: संभाषणात्मक अस्खलिततेच्या पलीकडे जाऊन, मूल्यांकन बुद्धिमत्तेच्या विविध पैलूंची आवश्यकता असलेल्या कार्यांच्या विस्तृत श्रेणीवर लक्ष केंद्रित करू शकते - नवीन डोमेनमधील समस्या सोडवणे, दीर्घकालीन नियोजन, जटिल कारणात्मक संबंध समजून घेणे, किंवा प्रशिक्षण डेटाच्या अत्याधुनिक रिमिक्सिंगऐवजी खरी सर्जनशीलता प्रदर्शित करणे.
  3. Human-in-the-Loop (HITL) मूल्यांकन: AI मूल्यांकनामध्ये मानवी निर्णयाला अधिक पद्धतशीरपणे समाकलित करण्याचा वाढता कल आहे, परंतु कदाचित क्लासिक Turing Test पेक्षा अधिक संरचित मार्गांनी. यात मानवांनी विशिष्ट निकषांवर आधारित AI आउटपुटचे मूल्यांकन करणे समाविष्ट असू शकते (उदा. तथ्यात्मक अचूकता, तार्किक सुसंगतता, नैतिक विचार, उपयुक्तता) केवळ बायनरी मानव/मशीन निर्णय घेण्याऐवजी. मानव मॉडेल्स सुधारण्यात, कमकुवतपणा ओळखण्यात आणि सूक्ष्म अभिप्रायाच्या आधारावर विकासाला मार्गदर्शन करण्यात मदत करू शकतात.

मूळ कल्पना अशी आहे की बुद्धिमत्तेसारख्या जटिल गोष्टीचे मूल्यांकन करण्यासाठी साध्या अनुकरणाच्या पलीकडे पाहणे आवश्यक आहे. जरी Turing Test ने एक मौल्यवान प्रारंभिक चौकट प्रदान केली आणि महत्त्वपूर्ण चर्चांना चालना देत असली तरी, केवळ त्यावर अवलंबून राहिल्यास अत्याधुनिक अनुकरणाला खरी समज म्हणून गैरसमज होण्याचा धोका असतो. AGI समजून घेण्याच्या आणि संभाव्यतः साध्य करण्याच्या मार्गासाठी मूल्यांकनाच्या अधिक समृद्ध, अधिक वैविध्यपूर्ण आणि कदाचित अधिक कठोर पद्धती आवश्यक आहेत.

AGI चे रहस्य आणि मूल्यांकनाचे भविष्य

अलीकडील प्रयोग एका मूलभूत आव्हानाला अधोरेखित करतात जे Turing Test च्या पलीकडे जाते: Artificial General Intelligence म्हणजे नेमके काय हे परिभाषित करण्यासाठी आपण संघर्ष करतो, आपण त्याचा सामना केल्यास आपण ते निश्चितपणे कसे ओळखू यावर सहमत होणे तर दूरच. जर मानव, त्यांच्या सर्व मूळ पूर्वग्रह आणि गृहितकांसह, एका साध्या चॅट इंटरफेसमध्ये चांगल्या प्रकारे प्रॉम्प्ट केलेल्या LLM द्वारे इतक्या सहजपणे प्रभावित होऊ शकतात, तर आपण संभाव्यतः भविष्यातील अधिक प्रगत प्रणालींच्या खोल संज्ञानात्मक क्षमतांचा विश्वसनीयपणे न्याय कसा करू शकतो?

AGI कडेचा प्रवास संदिग्धतेने झाकलेला आहे. UC San Diego अभ्यास एक शक्तिशाली स्मरणपत्र म्हणून काम करतो की आपले सध्याचे बेंचमार्क पुढील कार्यासाठी अपुरे असू शकतात. हे सिम्युलेटेड वर्तन आणि खरी समज यांच्यात फरक करण्याच्या गहन अडचणीवर प्रकाश टाकते, विशेषतः जेव्हा सिम्युलेशन अधिकाधिक अत्याधुनिक होत जाते. यामुळे भविष्यातील मूल्यांकन प्रतिमानांबद्दल सट्टा, तरीही विचार करायला लावणारे प्रश्न निर्माण होतात. आपण विज्ञान कथांच्या वर्णनांसारख्या टप्प्यावर पोहोचू शकतो का, जिथे मानवी निर्णय प्रगत AI ला मानवांपासून वेगळे करण्यासाठी खूप अविश्वसनीय मानला जाईल?

कदाचित, विरोधाभासाने, अत्यंत प्रगत मशीन बुद्धिमत्तेच्या मूल्यांकनासाठी इतर मशीनच्या मदतीची आवश्यकता असेल. संज्ञानात्मक खोली, सुसंगतता आणि अस्सल तर्कासाठी तपासणी करण्यासाठी विशेषतः डिझाइन केलेल्या प्रणाली, मानवी न्यायाधीशांना प्रभावित करणाऱ्या सामाजिक संकेत आणि पूर्वग्रहांसाठी संभाव्यतः कमी संवेदनाक्षम, मूल्यांकन टूलकिटचे आवश्यक घटक बनू शकतात. किंवा, किमान, मानवी सूचना (प्रॉम्प्ट्स), AI अनुकूलन आणि बुद्धिमत्तेच्या परिणामी समजेमधील परस्परसंवादाची खोल समज महत्त्वपूर्ण असेल. विशिष्ट, संभाव्यतः फसवे, वर्तन मिळवण्याच्या मानवी प्रयत्नांना प्रतिसाद देणाऱ्या इतर मशीनचे निरीक्षण करताना त्यांना काय समजते हे आपल्याला मशीनला विचारण्याची आवश्यकता असू शकते. AI मोजण्याचा शोध आपल्याला केवळ मशीन बुद्धिमत्तेच्या स्वरूपाचाच नव्हे, तर आपल्या स्वतःच्या जटिल, अनेकदा आश्चर्यकारक, स्वरूपाचा सामना करण्यास भाग पाडतो.