बुद्धिमत्ता के भ्रम का पर्दाफाश
दशकों से, Turing Test कृत्रिम बुद्धिमत्ता (artificial intelligence) को मापने की खोज में एक मील का पत्थर रहा है, भले ही इसे अक्सर गलत समझा गया हो। प्रतिभाशाली Alan Turing द्वारा कल्पित, इसने एक सरल लेकिन गहन चुनौती पेश की: क्या कोई मशीन केवल टेक्स्ट-आधारित बातचीत के माध्यम से किसी इंसान को यह विश्वास दिला सकती है कि वह भी इंसान है? कई लोगों ने इस परीक्षण में सफलता को सच्ची मशीन सोच की सुबह के रूप में व्याख्यायित किया है, एक संकेत है कि सिलिकॉन दिमाग अंततः हमारी अपनी संज्ञानात्मक क्षमताओं को प्रतिबिंबित कर रहे थे। हालाँकि, यह व्याख्या हमेशा बहस से भरी रही है, और OpenAI के GPT-4.5 जैसे परिष्कृत AI मॉडल से जुड़े हालिया विकास एक महत्वपूर्ण पुनर्मूल्यांकन के लिए मजबूर कर रहे हैं।
University of California at San Diego से उभर रहा अभूतपूर्व शोध इस बहस को तीव्र रूप से सामने लाता है। वहां के विद्वानों ने क्लासिक Turing Test प्रारूप में मनुष्यों को उन्नत बड़े भाषा मॉडल (large language models - LLMs) के खिलाफ खड़ा करके प्रयोग किए। परिणाम चौंकाने वाले थे: OpenAI का नवीनतम पुनरावृत्ति, कथित तौर पर GPT-4.5, न केवल पास हुआ; यह उत्कृष्ट साबित हुआ, वास्तविक मानव प्रतिभागियों द्वारा अपनी मानवता साबित करने की तुलना में अपने मानव प्रतिरूपण में अधिक विश्वसनीय साबित हुआ। यह जनरेटिव AI की क्षमता में एक महत्वपूर्ण छलांग का प्रतिनिधित्व करता है जो प्रामाणिक रूप से मानवीय महसूस होने वाले प्रतिक्रियाओं को तैयार करता है। फिर भी, इस अध्ययन के पीछे के शोधकर्ता भी इस संवादात्मक कौशल को कृत्रिम सामान्य बुद्धिमत्ता (artificial general intelligence - AGI) की उपलब्धि के साथ जोड़ने के खिलाफ चेतावनी देते हैं - मानव-स्तरीय संज्ञानात्मक संकायों वाली मशीनें बनाने का मायावी लक्ष्य। ऐसा लगता है कि परीक्षण, मशीन बुद्धिमत्ता की वास्तविक प्रकृति के बारे में बताने के बजाय, स्वयं परीक्षण की सीमाओं और हमारी अपनी मानवीय मान्यताओं के बारे में अधिक खुलासा कर रहा है।
एक क्लासिक प्रयोग पर एक आधुनिक मोड़
Turing Test की स्थायी अपील इसकी सुरुचिपूर्ण सादगी में निहित है। Turing ने एक ‘नकल खेल’ (‘imitation game’) की कल्पना की जिसमें तीन खिलाड़ी शामिल थे: एक मानव पूछताछकर्ता (न्यायाधीश), एक मानव गवाह, और एक कंप्यूटर गवाह। एक-दूसरे से अलग, केवल टेक्स्ट संदेशों के माध्यम से संवाद करते हुए, गवाह न्यायाधीश को अपनी मानवीय पहचान के बारे में समझाने का प्रयास करेंगे। न्यायाधीश, यह जानते हुए कि एक प्रतिभागी एक मशीन है, को यह निर्धारित करना होगा कि कौन कौन है। इस सेटअप की प्रतिभा इसकी अंतर्निहित तुलनात्मक प्रकृति है। यदि न्यायाधीश गलती से कंप्यूटर को मानव के रूप में पहचान लेता है, तो यह न केवल मशीन के विश्वसनीय प्रदर्शन का संकेत देता है, बल्कि मानव गवाह द्वारा अपनी मानवता का पर्याप्त रूप से संकेत देने में संभावित विफलता, या शायद न्यायाधीश की उन संकेतों को सही ढंग से समझने में असमर्थता का भी संकेत देता है। यह मानव धारणा, विश्वास और उन सूक्ष्म संकेतों की एक आकर्षक परीक्षा बन जाती है जिन्हें हम इंसान होने से जोड़ते हैं, जितना कि यह कम्प्यूटेशनल क्षमता का माप है।
इस नींव पर निर्माण करते हुए, UC San Diego के शोधकर्ताओं, Cameron Jones और Benjamin Bergen ने आधुनिक LLMs की शक्ति का लाभ उठाते हुए और स्नातक छात्रों को शामिल करते हुए परीक्षण का एक समकालीन संस्करण लागू किया। उनका प्रयोगात्मक डिजाइन Turing की त्रि-आयामी संरचना का बारीकी से पालन करता था। छात्रों को यादृच्छिक रूप से भूमिकाएँ सौंपी गईं: कुछ ने न्यायाधीश के रूप में काम किया, अन्य ने मानव गवाह के रूप में। प्रत्येक न्यायाधीश ने एक मानव गवाह और एक AI गवाह दोनों के साथ एक साथ, स्वतंत्र पांच मिनट की टेक्स्ट चैट में भाग लिया। न्यायाधीश के लिए चुनौती वही रही: मशीन की पहचान करना।
वर्तमान AI की क्षमताओं का पता लगाने के लिए, कंप्यूटर गवाह के रूप में कई मॉडलों को तैनात किया गया था:
- GPT-4.5 (Minimal Prompt): इस संस्करण को केवल बुनियादी निर्देश प्राप्त हुए।
- GPT-4.5 (PERSONA Prompt): इस संस्करण को काफी अधिक विस्तृत मार्गदर्शन दिया गया था। प्रॉम्प्ट ने AI को एक विशिष्ट व्यक्तित्व अपनाने का निर्देश दिया - एक ‘युवा व्यक्ति जो अंतर्मुखी है, इंटरनेट संस्कृति के बारे में जानकार है, और स्लैंग का उपयोग करता है’। इसका उद्देश्य AI की अनुकूलन क्षमता और विशिष्ट मानव आदर्शों की नकल करने की क्षमता का परीक्षण करना था।
- GPT-4o: OpenAI का अन्य प्रमुख मॉडल तुलना बिंदु के रूप में कार्य करता है।
- Llama 3.1 405b: Meta Platforms का शक्तिशाली LLM दायरे को व्यापक बनाने के लिए शामिल किया गया था।
- ELIZA: 1960 के दशक का एक मौलिक चैटबॉट प्रोग्राम नियंत्रण के रूप में शामिल किया गया था। इसकी सापेक्ष सादगी यह निर्धारित करने में मदद करने के लिए थी कि क्या LLMs द्वारा कोई भी सफलता परिष्कृत प्रोग्रामिंग के कारण थी या केवल यादृच्छिक अवसर और आसानी से मूर्ख बनने वाले न्यायाधीशों के कारण।
यह बहु-मॉडल दृष्टिकोण, संरचित, समयबद्ध इंटरैक्शन और न्यूनतम प्रॉम्प्टेड और व्यक्तित्व-संचालित AI के बीच तुलना के साथ मिलकर, यह विश्लेषण करने के लिए एक समृद्ध डेटासेट प्रदान करता है कि मशीनें अब कितनी प्रभावी ढंग से मानव बातचीत की नकल कर सकती हैं और मनुष्य इन प्रयासों को कैसे समझते हैं।
जब नकल वास्तविकता से आगे निकल जाती है
UC San Diego अध्ययन के निष्कर्ष उल्लेखनीय से कम नहीं थे, खासकर GPT-4.5 के प्रदर्शन के संबंध में जब विस्तृत PERSONA प्रॉम्प्ट द्वारा निर्देशित किया गया था। इस विशिष्ट कॉन्फ़िगरेशन ने आश्चर्यजनक 73% ‘जीत दर’ (‘win rate’) हासिल की। संक्षेप में, लगभग तीन-चौथाई बार, इस AI के साथ बातचीत करने वाले मानव न्यायाधीशों ने निष्कर्ष निकाला कि वे किसी अन्य इंसान के साथ बातचीत कर रहे थे। यह आंकड़ा न केवल अपने पूर्ण मूल्य में महत्वपूर्ण है, बल्कि अन्य प्रतिभागियों की तुलना में भी महत्वपूर्ण है।
बेंचमार्क पर विचार करें:
- मानव गवाह: विडंबना यह है कि गवाह के रूप में भाग लेने वाले वास्तविक मनुष्य व्यक्तित्व-संचालित GPT-4.5 की तुलना में न्यायाधीशों को अपनी मानवता के बारे में समझाने में कम सफल रहे।
- अन्य AI मॉडल: न्यूनतम प्रॉम्प्ट के साथ GPT-4.5, साथ ही GPT-4o और Llama 3.1 (यहां तक कि जब समान व्यक्तित्व प्रॉम्प्ट दिए गए थे) ने काफी कम स्कोर किया, जिनकी जीत दर 21% और 56% के बीच थी। यह परीक्षण किए गए विशिष्ट GPT-4.5 मॉडल की उन्नत क्षमताओं और अनुरूपित प्रॉम्प्टिंग के महत्वपूर्ण प्रभाव को उजागर करता है।
- पिछला GPT-4 प्रदर्शन: ठीक एक साल पहले उन्हीं शोधकर्ताओं द्वारा किए गए प्रयोग के पहले पुनरावृत्ति में, GPT-4 ने केवल 54% की जीत दर हासिल की थी, जो यादृच्छिक अवसर (50%) की सीमा से बमुश्किल अधिक थी। GPT-4.5 के साथ 73% तक की छलांग मॉडल की मानव-जैसी टेक्स्ट उत्पन्न करने की क्षमता में तेजी से प्रगति को दर्शाती है।
- ELIZA: विंटेज चैटबॉट, जैसा कि अपेक्षित था, ने खराब प्रदर्शन किया, एक आधार रेखा के रूप में अपने उद्देश्य की पूर्ति की और पुष्टि की कि LLMs की सफलता केवल न्यायाधीशों के किसी भी प्रोग्राम द्वारा आसानी से मूर्ख बनाए जाने के कारण नहीं थी।
Jones और Bergen का निष्कर्ष स्पष्ट था: न्यायाधीश केवल मानव को मशीन से अलग करने के लिए संघर्ष नहीं कर रहे थे; वे सक्रिय रूप से व्यक्तित्व-संचालित GPT-4.5 को मानव मानने के लिए अधिक इच्छुक थे, बजाय इसके कि वे वास्तविक मानव प्रतिभागियों को मानव मानें। यह बताता है कि AI, जब ठीक से निर्देश दिया जाता है, तो मानव संपर्क की कथित बारीकियों का अनुकरण कर सकता है - शायद वास्तविक मानव चैट में मौजूद अजीबपन या विसंगतियों को भी फ़िल्टर कर सकता है - इस विशिष्ट, विवश वातावरण में मनुष्यों की तुलना में अधिक प्रभावी ढंग से। सफलता केवल पास होने के बारे में नहीं थी; यह परीक्षण की सीमाओं के भीतर कथित ‘मानवता’ (‘humanness’) में मानव आधार रेखा को पार करने के बारे में थी।
मानवता की बाधा: बुद्धिमत्ता या अनुकूलन?
क्या Turing Test के इस आधुनिक पुनरावृत्ति में GPT-4.5 की विजय AGI के आगमन का संकेत देती है? शोधकर्ता, क्षेत्र के कई विशेषज्ञों के साथ, सावधानी बरतने का आग्रह करते हैं। परीक्षण के आसपास ‘सबसे विवादास्पद प्रश्न’ (‘most controversial question’), जैसा कि Jones और Bergen स्वीकार करते हैं, हमेशा यह रहा है कि क्या यह वास्तव में बुद्धिमत्ता को मापता है या कुछ और। जबकि GPT-4.5 की मनुष्यों को इतनी प्रभावी ढंग से मूर्ख बनाने की क्षमता निर्विवाद रूप से एक तकनीकी उपलब्धि है, यह वास्तविक समझ या चेतना के बजाय मॉडल की परिष्कृत नकल और अनुकूलन क्षमता के बारे में अधिक बता सकती है।
एक दृष्टिकोण यह है कि ये उन्नत LLMs पैटर्न मिलान और भविष्यवाणी में असाधारण रूप से माहिर हो गए हैं। मानव पाठ डेटा की विशाल मात्रा से पोषित, वे विभिन्न प्रकार की मानव बातचीत से जुड़े शब्द अनुक्रमों, संवादात्मक मोड़ों और शैलीगत तत्वों की सांख्यिकीय संभावना सीखते हैं। PERSONA प्रॉम्प्ट ने GPT-4.5 को एक विशिष्ट लक्ष्य पैटर्न प्रदान किया - एक अंतर्मुखी, इंटरनेट-प्रेमी युवा व्यक्ति। इसलिए, AI की सफलता को अनुरोधित व्यक्तित्व से मेल खाने के लिए ‘अपने व्यवहार को अनुकूलित करने’ (‘adapt its behaviour’) की क्षमता के प्रदर्शन के रूप में देखा जा सकता है, जो उस प्रोफ़ाइल के अनुरूप प्रतिक्रियाएँ उत्पन्न करने के लिए अपने प्रशिक्षण डेटा पर आधारित है। यह लचीलेपन और जनरेटिव शक्ति का एक उल्लेखनीय प्रदर्शन है, जो मशीन को प्रॉम्प्ट द्वारा परिभाषित संदर्भ के भीतर विश्वसनीय रूप से मानव जैसा दिखने की अनुमति देता है।
हालाँकि, यह अनुकूलन क्षमता मनुष्यों के पास मौजूद सामान्य बुद्धिमत्ता से अलग है, जिसमें तर्क करना, संदर्भ को गहराईसे समझना, नवीन अनुभवों से सीखना और चेतना रखना शामिल है - ऐसे गुण जो वर्तमान LLMs स्पष्ट रूप से प्रदर्शित नहीं करते हैं। जैसा कि AI विद्वान Melanie Mitchell ने तर्क दिया है, प्राकृतिक भाषा में प्रवाह, शतरंज में महारत हासिल करने की तरह, सामान्य बुद्धिमत्ता का निश्चित प्रमाण नहीं है। यह एक विशिष्ट, यद्यपि जटिल, कौशल डोमेन में महारत साबित करता है। इसलिए, जबकि GPT-4.5 का प्रदर्शन प्राकृतिक भाषा निर्माण में एक मील का पत्थर है, इसे केवल AGI की ओर एक कदम के रूप में प्रस्तुत करना भ्रामक हो सकता है। इसे पाठ-आधारित बातचीत में ‘मानवता’ (‘humanlikeness’) की उच्च डिग्री प्राप्त करने के रूप में वर्णित करना अधिक सटीक लगता है, जो मानव-स्तरीय बुद्धिमत्ता से सूक्ष्म लेकिन महत्वपूर्ण रूप से भिन्न अवधारणा है।
बातचीत का आईना: परीक्षण हमारे बारे में क्या बताता है
शायद UC San Diego अध्ययन का सबसे दिलचस्प पहलू यह नहीं है कि यह AI के बारे में क्या बताता है, बल्कि यह है कि यह मानव निर्णय और उन मान्यताओं को उजागर करता है जिन्हें हम बातचीत में लाते हैं, खासकर ऑनलाइन। तथ्य यह है कि मानव न्यायाधीशों को अक्सर मूर्ख बनाया गया था, और कभी-कभी AI की बातचीत शैली को भी पसंद किया गया था, इस प्रारूप में मशीन बुद्धिमत्ता के अंतिम मध्यस्थ के रूप में मानव धारणा का उपयोग करने में निहित व्यक्तिपरकता और संभावित खामियों की ओर इशारा करता है।
शोधकर्ताओं ने न्यायाधीशों के तर्क में आकर्षक पैटर्न नोट किए:
- अप्रत्याशित व्यवहार: यहां तक कि आदिम ELIZA प्रोग्राम ने भी 23% बार न्यायाधीशों को मूर्ख बनाने में कामयाबी हासिल की। ऐसा इसलिए नहीं था क्योंकि ELIZA ने प्रतिभा का प्रदर्शन किया, बल्कि अक्सर इसलिए क्योंकि यह न्यायाधीशों की पूर्वकल्पित धारणाओं को पूरा नहीं करता था कि एक AI को कैसे व्यवहार करना चाहिए। न्यायाधीशों ने गवाह के ‘व्यंग्यात्मक’ (‘sarcastic’) या ‘असभ्य’ (‘rude’) होने जैसे कारणों का हवाला दिया, ऐसे लक्षण जिनकी वे मशीन से उम्मीद नहीं करते थे, इस प्रकार यह निष्कर्ष निकाला कि यह मानव होना चाहिए।
- बुद्धि के बजाय सामाजिकता पर ध्यान: Alan Turing की अपेक्षा के विपरीत कि न्यायाधीश ज्ञान और बौद्धिक क्षमता की जांच करेंगे, इस अध्ययन में प्रतिभागियों ने अक्सर संवादात्मक शैली, भावनात्मक स्वर और सामाजिक संकेतों पर अधिक ध्यान केंद्रित किया।
- अपूर्णता का विरोधाभास: एक आश्चर्यजनक मोड़ में, न्यायाधीशों द्वारा किसी गवाह को मानव के रूप में सही ढंग से पहचानने के लिए उपयोग किए जाने वाले कारकों में से एक ज्ञान की कथित कमी थी। यह एक अंतर्निहित धारणा का सुझाव देता है कि मनुष्य अचूक और अपूर्ण हैं, जबकि AI से विश्वकोशीय या अत्यधिक सटीक होने की उम्मीद की जा सकती है।
ये अवलोकन Jones और Bergen को यह दावा करने के लिए प्रेरित करते हैं कि न्यायाधीशों के निर्णय ‘मानव और AI सिस्टम के संभावित व्यवहार के बारे में जटिल मान्यताओं’ (‘complex assumptions about how humans and AI systems might be likely to behave’) को शामिल करते हैं, जो बुद्धिमत्ता के सरल मूल्यांकन से परे जाते हैं। मानदंड सामाजिक अपेक्षाओं, व्यक्तित्व निर्णयों और यहां तक कि तकनीकी क्षमताओं के बारे में पूर्वाग्रहों के साथ जुड़ जाते हैं। एक ऐसे युग में जहां टेक्स्ट-आधारित संचार सर्वव्यापी है, हमने ऑनलाइन इंटरैक्शन के लिए अंतर्निहित आदतें और अपेक्षाएं विकसित की हैं। Turing Test, मूल रूप से मानव-कंप्यूटर संपर्क में एक उपन्यास जांच के रूप में डिज़ाइन किया गया, अब इन ऑनलाइन मानवीय आदतों और पूर्वाग्रहों (‘online human habits and biases’) के परीक्षण के रूप में अधिक कार्य करता है। यह डिजिटल व्यक्तित्वों को पार्स करने की हमारी क्षमता को मापता है, जो ऑनलाइन मनुष्यों और बॉट्स दोनों के साथ हमारे दैनिक अनुभवों से प्रभावित होता है। मौलिक रूप से, आधुनिक Turing Test, जैसा कि इस शोध द्वारा प्रदर्शित किया गया है, मशीन बुद्धिमत्ता का प्रत्यक्ष मूल्यांकन कम और मानव अपेक्षा के लेंस के माध्यम से फ़िल्टर की गई कथित मानवता का मापक अधिक प्रतीत होता है।
नकल के खेल से परे: AI मूल्यांकन के लिए एक नया मार्ग बनाना
GPT-4.5 जैसे मॉडलों के सम्मोहक प्रदर्शन और पारंपरिक Turing Test प्रारूप में निहित उजागर सीमाओं और पूर्वाग्रहों को देखते हुए, सवाल उठता है: क्या यह दशकों पुराना बेंचमार्क अभी भी AGI की दिशा में प्रगति को मापने के लिए सही उपकरण है? UC San Diego के शोधकर्ता, AI समुदाय में बढ़ती हुई आवाज़ के साथ, सुझाव देते हैं कि शायद नहीं - कम से कम, एकमात्र या निश्चित उपाय के रूप में नहीं।
GPT-4.5 की बहुत सफलता, विशेष रूप से PERSONA प्रॉम्प्ट पर इसकी निर्भरता, एक प्रमुख सीमा को रेखांकित करती है: परीक्षण एक विशिष्ट, अक्सर संकीर्ण, संवादात्मक संदर्भ के भीतर प्रदर्शन का मूल्यांकन करता है। यह आवश्यक रूप से गहरी संज्ञानात्मक क्षमताओं जैसे तर्क, योजना, रचनात्मकता, या विविध स्थितियों में सामान्य ज्ञान की समझ की जांच नहीं करता है। जैसा कि Jones और Bergen कहते हैं, ‘बुद्धिमत्ता जटिल और बहुआयामी है’ (‘intelligence is complex and multifaceted’), जिसका अर्थ है कि ‘बुद्धिमत्ता का कोई एक परीक्षण निर्णायक नहीं हो सकता’ (‘no single test of intelligence could be decisive’)।
यह मूल्यांकन विधियों के अधिक व्यापक सूट की आवश्यकता की ओर इशारा करता है। कई संभावित रास्ते उभरते हैं:
- संशोधित परीक्षण डिजाइन: शोधकर्ता स्वयं भिन्नताओं का सुझाव देते हैं। क्या होगा यदि न्यायाधीश AI विशेषज्ञ हों, जिनके पास अलग-अलग अपेक्षाएँ हों और शायद किसी मशीन की क्षमताओं की जांच करने के लिए अधिक परिष्कृत तरीके हों? क्या होगा यदि महत्वपूर्ण वित्तीय प्रोत्साहन पेश किए जाएं, जो न्यायाधीशों को प्रतिक्रियाओं की अधिक सावधानीपूर्वक और सोच-समझकर जांच करने के लिए प्रोत्साहित करें? ये परिवर्तन गतिशीलता को बदल सकते हैं और संभावित रूप से अलग-अलग परिणाम दे सकते हैं, जो परीक्षण के परिणाम पर संदर्भ और प्रेरणा के प्रभाव को और उजागर करते हैं।
- व्यापक क्षमता परीक्षण: संवादात्मक प्रवाह से परे जाकर, मूल्यांकन उन कार्यों की एक विस्तृत श्रृंखला पर ध्यान केंद्रित कर सकते हैं जिनके लिए बुद्धिमत्ता के विभिन्न पहलुओं की आवश्यकता होती है - उपन्यास डोमेन में समस्या-समाधान, दीर्घकालिक योजना, जटिल कारण संबंधों को समझना, या प्रशिक्षण डेटा के परिष्कृत रीमिक्सिंग के बजाय वास्तविक रचनात्मकता का प्रदर्शन करना।
- मानव-में-लूप (Human-in-the-Loop - HITL) मूल्यांकन: AI मूल्यांकन में मानव निर्णय को अधिक व्यवस्थित रूप से एकीकृत करने की दिशा में एक बढ़ता हुआ चलन है, लेकिन शायद क्लासिक Turing Test की तुलना में अधिक संरचित तरीकों से। इसमें विशिष्ट मानदंडों (जैसे, तथ्यात्मक सटीकता, तार्किक सुसंगतता, नैतिक विचार, उपयोगिता) के आधार पर AI आउटपुट का मूल्यांकन करने वाले मनुष्य शामिल हो सकते हैं, बजाय केवल एक द्विआधारी मानव/मशीन निर्णय लेने के। मनुष्य मॉडल को परिष्कृत करने, कमजोरियों की पहचान करने और सूक्ष्म प्रतिक्रिया के आधार पर विकास का मार्गदर्शन करने में मदद कर सकते हैं।
मूल विचार यह है कि बुद्धिमत्ता जैसी जटिल चीज़ का आकलन करने के लिए सरल नकल से परे देखने की आवश्यकता होती है। जबकि Turing Test ने एक मूल्यवान प्रारंभिक ढांचा प्रदान किया और महत्वपूर्ण चर्चाओं को चिंगारी देना जारी रखा है, अकेले इस पर निर्भरता परिष्कृत नकल को वास्तविक समझ के लिए गलत समझने का जोखिम उठाती है। AGI को समझने और संभावित रूप से प्राप्त करने के मार्ग के लिए मूल्यांकन के समृद्ध, अधिक विविध और शायद अधिक कठोर तरीकों की आवश्यकता है।
AGI की पहेली और मूल्यांकन का भविष्य
हाल के प्रयोग एक मौलिक चुनौती को रेखांकित करते हैं जो स्वयं Turing Test से परे फैली हुई है: हम ठीक से परिभाषित करने के लिए संघर्ष करते हैं कि Artificial General Intelligence क्या है, अकेले इस बात पर सहमत हों कि यदि हम इसका सामना करते हैं तो हम इसे निश्चित रूप से कैसे पहचानेंगे। यदि मनुष्य, अपने सभी अंतर्निहित पूर्वाग्रहों और मान्यताओं के साथ, एक साधारण चैट इंटरफ़ेस में एक अच्छी तरह से प्रॉम्प्ट किए गए LLM द्वारा इतनी आसानी से प्रभावित हो सकते हैं, तो हम संभावित रूप से कहीं अधिक उन्नत भविष्य प्रणालियों की गहरी संज्ञानात्मक क्षमताओं का मज़बूती से न्याय कैसे कर सकते हैं?
AGI की ओर यात्रा अस्पष्टता में डूबी हुई है। UC San Diego अध्ययन एक शक्तिशाली अनुस्मारक के रूप में कार्य करता है कि हमारे वर्तमान बेंचमार्क आगे के कार्य के लिए अपर्याप्त हो सकते हैं। यह नकली व्यवहार को वास्तविक समझ से अलग करने में गहन कठिनाई को उजागर करता है, खासकर जब सिमुलेशन तेजी से परिष्कृत होता जा रहा है। यह भविष्य के मूल्यांकन प्रतिमानों के बारे में सट्टा, फिर भी विचारोत्तेजक, प्रश्नों की ओर ले जाता है। क्या हम विज्ञान कथा कथाओं की याद दिलाने वाले एक बिंदु पर पहुँच सकते हैं, जहाँ मानव निर्णय को उन्नत AI को मनुष्यों से अलग करने के लिए बहुत अविश्वसनीय माना जाता है?
शायद, विरोधाभासी रूप से, अत्यधिक उन्नत मशीन बुद्धिमत्ता के मूल्यांकन के लिए अन्य मशीनों से सहायता की आवश्यकता होगी। विशेष रूप से संज्ञानात्मक गहराई, स्थिरता और वास्तविक तर्क के लिए जांच करने के लिए डिज़ाइन किए गए सिस्टम, जो संभावित रूप से सामाजिक संकेतों और पूर्वाग्रहों के प्रति कम संवेदनशील होते हैं जो मानव न्यायाधीशों को प्रभावित करते हैं, मूल्यांकन टूलकिट के आवश्यक घटक बन सकते हैं। या, कम से कम, मानव निर्देशों (प्रॉम्प्ट्स), AI अनुकूलन, और बुद्धिमत्ता की परिणामी धारणा के बीच परस्पर क्रिया की गहरी समझ महत्वपूर्ण होगी। हमें मशीनों से पूछने की आवश्यकता हो सकती है कि वे अन्य मशीनों को विशिष्ट, संभावित रूप से भ्रामक, व्यवहारों को प्राप्त करने के मानवीय प्रयासों पर प्रतिक्रिया करते हुए क्या समझती हैं। AI को मापने की खोज हमें न केवल मशीन बुद्धिमत्ता की प्रकृति का सामना करने के लिए मजबूर करती है, बल्कि हमारी अपनी जटिल, अक्सर आश्चर्यजनक, प्रकृति का भी सामना करने के लिए मजबूर करती है।