इमिटेशन गेम फिर से: क्या AI ने ट्यूरिंग टेस्ट को मात दी?

आर्टिफिशियल इंटेलिजेंस का परिदृश्य लगातार बदल रहा है, जो उन मील के पत्थरों से चिह्नित है जो कभी विज्ञान कथाओं का हिस्सा थे। सबसे स्थायी बेंचमार्क में से एक ट्यूरिंग टेस्ट रहा है, जिसे सत्तर साल पहले एक मशीन की मानवीय बातचीत की विश्वसनीय रूप से नकल करने की क्षमता के माप के रूप में तैयार किया गया था। दशकों तक, यह एक दुर्जेय, शायद प्रतीकात्मक, चुनौती बनी रही। हालाँकि, हाल के घटनाक्रम बताते हैं कि यह सीमा निर्णायक रूप से पार हो गई हो सकती है। कैलिफोर्निया विश्वविद्यालय, सैन डिएगो से उभरे एक अध्ययन से संकेत मिलता है कि OpenAI के उन्नत भाषा मॉडल, GPT-4.5 ने न केवल परीक्षण पास किया, बल्कि आश्चर्यजनक सफलता के साथ ऐसा किया, जो अक्सर वास्तविक मनुष्यों की तुलना में अपने मानव प्रतिरूपण में अधिक विश्वसनीय साबित हुआ। यह परिणाम AI क्षमताओं के बारे में बातचीत को नए क्षेत्र में ले जाता है, परीक्षण पर ही, मशीन इंटेलिजेंस की प्रकृति, और ऐसी संस्थाओं के निर्माण के निहितार्थों पर करीब से नज़र डालने की मांग करता है जो हमारे अपने भाषाई व्यवहार को इतनी प्रभावी ढंग से प्रतिबिंबित कर सकती हैं।

डिजिटल धोखे को समझना: प्रयोग के अंदर

शोध प्रयास, जिसका उपयुक्त शीर्षक ‘लार्ज लैंग्वेज मॉडल्स पास द ट्यूरिंग टेस्ट’ है और वर्तमान में सहकर्मी समीक्षा के दौर से गुजर रहा है, ने मनुष्यों के साथ सीधी तुलना में AI की संवादात्मक क्षमताओं की जांच करने के लिए डिज़ाइन की गई एक पद्धति का इस्तेमाल किया। सेटिंग एक ऑनलाइन प्लेटफ़ॉर्म थी जहाँ बातचीत पूरी तरह से टेक्स्ट के माध्यम से होती थी, जिससे दृश्य और श्रवण संकेतों को हटा दिया जाता था जो एक गैर-मानवीय प्रतिभागी को धोखा दे सकते थे। इस डिजिटल स्वांग के लिए लगभग तीन सौ विश्वविद्यालय के छात्रों की भर्ती की गई थी। प्रत्येक प्रतिभागी को यादृच्छिक रूप से तीन भूमिकाओं में से एक सौंपी गई थी: समझदार जज, एक मानव ‘गवाह’, या, जज को शुरू में अनभिज्ञ, एक AI ‘गवाह’।

मुख्य कार्य अनुनय का खेल था। मानव गवाह और AI गवाह दोनों, अलग-अलग डिजिटल कमरों से काम करते हुए, जज के साथ टेक्स्ट-आधारित बातचीत में लगे रहे। उनका उद्देश्य एकवचन था: जज को उनकी मानवीय पहचान के बारे में समझाना। जज, बातचीत की अवधि के बाद, महत्वपूर्ण निर्णय का सामना करता था - पहचानें कि कौन सा वार्ताकार मानव था और कौन सी मशीन थी।

यह केवल मानव आधार रेखा के विरुद्ध एक AI का परीक्षण नहीं था। शोधकर्ताओं ने इस चुनौती के खिलाफ कई अलग-अलग AI प्रोग्रामों को खड़ा किया, जो संवादात्मक AI की स्थिति पर एक तुलनात्मक परिप्रेक्ष्य प्रदान करते हैं:

  • GPT-4.5 (persona prompt के साथ): इस मॉडल ने, जब विशेष रूप से मानव-जैसा व्यक्तित्व अपनाने का निर्देश दिया गया, तो एक उल्लेखनीय उपलब्धि हासिल की। 73% एक्सचेंजों में जहां इसने इस शर्त के तहत काम किया, जजों ने गलती से इसे मानव प्रतिभागी के रूप में पहचान लिया। यह आंकड़ा न केवल पूर्ण रूप से उच्च है; इसने उसी प्रायोगिक सेटअप के भीतर अपनी मानवता साबित करने की कोशिश कर रहे वास्तविक मानव गवाहों की सफलता दर को पार कर लिया।
  • Meta’s LLaMa 3.1 405b (persona prompt के साथ): एक और शक्तिशाली समकालीन बड़ा भाषा मॉडल, LLaMa 3.1, ने भी इसी तरह प्रेरित होने पर महत्वपूर्ण प्रेरक क्षमता का प्रदर्शन किया, जजों को 56% बार मूर्ख बनाया। हालांकि इस विशिष्ट परीक्षण में GPT-4.5 की ऊंचाइयों तक नहीं पहुंच पाया, फिर भी इसके प्रदर्शन ने मानव और मशीन संचार के बीच की रेखाओं को काफी हद तक धुंधला कर दिया।
  • GPT-4o (OpenAI का पिछला मॉडल): दिलचस्प बात यह है कि OpenAI के थोड़े पहले के मॉडल, GPT-4o ने विशिष्ट persona prompt के बिना परीक्षण किए जाने पर स्पष्ट रूप से अलग प्रदर्शन किया। इसे केवल 21% बार मानव के रूप में पहचाना गया, जो विशेष रूप से निर्देशित न होने पर मॉडल की संवादात्मक शैलियों में अनुरूप निर्देशों की महत्वपूर्ण भूमिका या शायद अंतर्निहित अंतर का सुझाव देता है।
  • ELIZA: एक ऐतिहासिक बेंचमार्क के रूप में, शोधकर्ताओं ने ELIZA को शामिल किया, जो 1960 के दशक में विकसित एक अग्रणी चैटबॉट था, जो रोजेरियन मनोचिकित्सक का अनुकरण करने वाली अपनी सरल पैटर्न-मिलान तकनीकों के लिए जाना जाता था। आश्चर्य नहीं कि, मानव नकल के ELIZA के प्रयास आधुनिक प्रतिभागियों के लिए बहुत कम विश्वसनीय थे, जिन्हें केवल 23% बार मानव के रूप में आंका गया। यह मध्यवर्ती दशकों में प्राकृतिक भाषा प्रसंस्करण में हुई अपार प्रगति को उजागर करता है।

UC San Diego की भाषा और अनुभूति प्रयोगशाला के अध्ययन में शामिल एक शोधकर्ता Cameron Jones ने संक्षिप्त रूप से चौंकाने वाले निष्कर्ष को संक्षेप में प्रस्तुत किया। उन्होंने नोट किया कि मानव जजों ने काफी संघर्ष किया, जब वे मनुष्यों और GPT-4.5 या LLaMa के प्रेरित संस्करणों के बीच अंतर करने की कोशिश कर रहे थे, तो यादृच्छिक अवसर से बेहतर प्रदर्शन नहीं किया। अधिक स्पष्ट रूप से, उन्होंने प्रति-सहज परिणाम पर जोर दिया: ‘और 4.5 को वास्तविक मनुष्यों की तुलना में काफी अधिक बार मानव माना गया!’ यह बताता है कि AI, विशिष्ट परिस्थितियों में, टेक्स्ट में मानवता का प्रदर्शन करने में स्वयं मनुष्यों से बेहतर हो सकता है, शायद संवादात्मक मानदंडों का अधिक बारीकी से पालन करके या वास्तविक लोगों द्वारा प्रदर्शित विशिष्ट संकेतों से बचकर। निहितार्थ गहरा है - AI सिर्फ पास नहीं हो रहा था; यह इस विशिष्ट संदर्भ में कथित मानवता के लिए एक नया मानक स्थापित कर रहा था।

बेंचमार्क पर पुनर्विचार: क्या ट्यूरिंग टेस्ट अभी भी स्वर्ण मानक है?

यह खबर कि एक मशीन ने संभावित रूप से ट्यूरिंग टेस्ट ‘पास’ कर लिया है, खासकर मनुष्यों से बेहतर प्रदर्शन करके, अनिवार्य रूप से बहस छेड़ती है। क्या यह सच्ची मशीन इंटेलिजेंस की सुबह का प्रतीक है, जिसके बारे में Alan Turing ने खुद अनुमान लगाया था? या यह केवल उस परीक्षण की सीमाओं को प्रकट करता है जिसे उन्होंने हमारे अपने से बहुत अलग युग में प्रस्तावित किया था? AI समुदाय में कई प्रमुख आवाजें सावधानी बरतने का आग्रह करती हैं, यह सुझाव देते हुए कि इस विशेष परीक्षा में उत्तीर्ण होना आर्टिफिशियल जनरल इंटेलिजेंस (AGI) प्राप्त करने के बराबर नहीं है - एक AI की मानव स्तर पर कार्यों की एक विस्तृत श्रृंखला में ज्ञान को समझने, सीखने और लागू करने की काल्पनिक क्षमता।

Santa Fe Institute की AI विद्वान Melanie Mitchell ने Science जर्नल में इस संदेह को शक्तिशाली रूप से व्यक्त किया। उनका तर्क है कि ट्यूरिंग टेस्ट, विशेष रूप से अपने क्लासिक संवादात्मक रूप में, वास्तविक संज्ञानात्मक क्षमता का माप कम और हमारी अपनी मानवीय प्रवृत्तियों और मान्यताओं का प्रतिबिंब अधिक हो सकता है। हम सामाजिक प्राणी हैं, धाराप्रवाह भाषा को अंतर्निहित विचार और इरादे के संकेत के रूप में व्याख्या करने के लिए प्रवृत्त हैं। GPT-4.5 जैसे बड़े भाषा मॉडल मानव पाठ के विशाल डेटासेट पर प्रशिक्षित होते हैं, जो उन्हें पैटर्न की पहचान करने और सांख्यिकीय रूप से संभावित भाषाई प्रतिक्रियाएं उत्पन्न करने में असाधारण रूप से कुशल बनाते हैं। वे सिंटैक्स में उत्कृष्टता प्राप्त करते हैं, संवादात्मक प्रवाह की नकल करते हैं, और शैलीगत बारीकियों को भी दोहरा सकते हैं। हालाँकि, Mitchell का तर्क है, ‘प्राकृतिक भाषा में धाराप्रवाह लगने की क्षमता, शतरंज खेलने की तरह, सामान्य बुद्धि का निर्णायक प्रमाण नहीं है।’ किसी विशिष्ट कौशल में महारत, भले ही वह भाषा जितनी जटिल क्यों न हो, जरूरी नहीं कि व्यापक समझ, चेतना, या प्रशिक्षण के दौरान सीखे गए पैटर्न से परे नवीन तर्क की क्षमता का संकेत दे।

Mitchell आगे ट्यूरिंग टेस्ट अवधारणा की विकसित व्याख्या, और शायद कमजोर पड़ने की ओर इशारा करती हैं। वह Stanford University से पहले के GPT-4 मॉडल पर शोध के संबंध में 2024 की घोषणा का संदर्भ देती हैं। Stanford टीम ने अपने निष्कर्षों को ‘पहली बार में से एक के रूप में प्रतिष्ठित किया जब एक आर्टिफिशियल इंटेलिजेंस स्रोत ने एक कठोर ट्यूरिंग टेस्ट पास किया है।’ फिर भी, जैसा कि Mitchell देखती हैं, उनकी कार्यप्रणाली में मनोवैज्ञानिक सर्वेक्षणों और इंटरैक्टिव गेम पर GPT-4 की प्रतिक्रियाओं में सांख्यिकीय पैटर्न की तुलना मानव डेटा से करना शामिल था। तुलनात्मक विश्लेषण का एक वैध रूप होने के बावजूद, वह रूखेपन से नोट करती हैं कि यह सूत्रीकरण ‘ट्यूरिंग के लिए पहचानने योग्य नहीं हो सकता है,’ जिसका मूल प्रस्ताव अविभाज्य बातचीत पर केंद्रित था।

यह एक महत्वपूर्ण बिंदु पर प्रकाश डालता है: ट्यूरिंग टेस्ट एक अखंड इकाई नहीं है। इसकी व्याख्या और अनुप्रयोग अलग-अलग हैं। UC San Diego प्रयोग ट्यूरिंग के मूल संवादात्मक फोकस के करीब लगता है, फिर भी यहां भी सवाल उठते हैं। क्या परीक्षण वास्तव में बुद्धिमत्ता को माप रहा था, या यह AI की एक विशिष्ट कार्य - व्यक्तित्व अपनाने और संवादात्मक नकल - को असाधारण रूप से अच्छी तरह से निष्पादित करने की क्षमता को माप रहा था? तथ्य यह है कि GPT-4.5 ने ‘persona prompt’ दिए जाने पर काफी बेहतर प्रदर्शन किया, यह बताता है कि इसकी सफलता एक अंतर्निहित, सामान्यीकरण योग्य मानव-जैसी गुणवत्ता के बजाय निर्देशों के आधार पर कुशल अभिनय के बारे में अधिक हो सकती है।

आलोचकों का तर्क है कि LLMs मौलिक रूप से मानव मन से अलग तरीके से काम करते हैं। वे अवधारणाओं को उस तरह से ‘समझते’ नहीं हैं जैसे मनुष्य करते हैं; वे सीखे हुए सांख्यिकीय संबंधों के आधार पर प्रतीकों में हेरफेर करते हैं। उनमें जीवित अनुभव, अवतार, चेतना और वास्तविक इरादे की कमी होती है। जबकि वे भावनाओं या अनुभवों के बारे में टेक्स्ट उत्पन्न कर सकते हैं, वे उन्हें महसूस नहीं करते हैं। इसलिए, अकेले भाषाई आउटपुट पर आधारित परीक्षण पास करना इंजीनियरिंग और डेटा विज्ञान का एक प्रभावशाली करतब हो सकता है, लेकिन यह जरूरी नहीं कि वास्तविक संवेदनशील बुद्धिमत्ता के अंतर को पाट दे। परीक्षण मशीनों की आंतरिक स्थितियों के बजाय सतह-स्तर के मानव व्यवहार को दोहराने के लिए बड़े पैमाने पर डेटासेट और परिष्कृत एल्गोरिदम की शक्ति के बारे में अधिक खुलासा कर सकता है। यह हमें यह सामना करने के लिए मजबूर करता है कि क्या भाषाई प्रवाह मानव बुद्धि की गहरी, बहुआयामी प्रकृति के लिए पर्याप्त प्रॉक्सी है।

एक ऐसी दुनिया में नेविगेट करना जहाँ रेखाएँ धुंधली हो जाती हैं

भले ही GPT-4.5 का प्रदर्शन सच्ची बुद्धिमत्ता का गठन करता हो या केवल परिष्कृत नकल, व्यावहारिक निहितार्थ निर्विवाद और दूरगामी हैं। हम एक ऐसे युग में प्रवेश कर रहे हैं जहाँ ऑनलाइन मानव और मशीन-जनित टेक्स्ट के बीच अंतर करना तेजी से मुश्किल होता जा रहा है, यदि कुछ संदर्भों में असंभव नहीं है। इसके विश्वास, संचार और हमारे डिजिटल समाज के ताने-बाने के लिए गहरे परिणाम हैं।

AI की मनुष्यों का विश्वसनीय रूप से प्रतिरूपण करने की क्षमता गलत सूचना और हेरफेर के बारे में तत्काल चिंताएँ पैदा करती है। दुर्भावनापूर्ण अभिनेता परिष्कृत फ़िशिंग घोटालों के लिए ऐसी तकनीक तैनात कर सकते हैं, व्यक्तियों के अनुरूप प्रचार फैला सकते हैं, या जनमत को प्रभावित करने या ऑनलाइन समुदायों को बाधित करने के लिए नकली सोशल मीडिया प्रोफाइल की सेनाएँ बना सकते हैं। यदि एक नियंत्रित प्रयोग में समझदार उपयोगकर्ता भी अंतर बताने के लिए संघर्ष करते हैं, तो खुले इंटरनेट पर धोखे की संभावना बहुत अधिक है। AI-संचालित प्रतिरूपण और AI-पहचान उपकरणों के बीच हथियारों की दौड़ तेज होने की संभावना है, लेकिन लाभ अक्सर प्रतिरूपणकर्ताओं के पास हो सकता है, खासकर जब मॉडल अधिक परिष्कृत हो जाते हैं।

दुर्भावनापूर्ण उपयोगों से परे, धुंधली रेखाएँ रोजमर्रा की बातचीत को प्रभावित करती हैं। ग्राहक सेवा कैसे बदलेगी जब चैटबॉट मानव एजेंटों से अप्रभेद्य हो जाएंगे? क्या ऑनलाइन डेटिंग प्रोफाइल या सामाजिक इंटरैक्शन के लिए सत्यापन के नए रूपों की आवश्यकता होगी? मनुष्यों पर मनोवैज्ञानिक प्रभाव भी महत्वपूर्ण है। यह जानना कि आप जिस इकाई के साथ ऑनलाइन बातचीत कर रहे हैं वह AI हो सकती है, अविश्वास और अलगाव को बढ़ावा दे सकता है। इसके विपरीत, अत्यधिक विश्वसनीय AI साथियों के साथ भावनात्मक जुड़ाव बनाना, उनकी प्रकृति को जानते हुए भी, नैतिक और सामाजिक प्रश्नों का अपना सेट प्रस्तुत करता है।

GPT-4.5 जैसे मॉडलों की सफलता हमारी शैक्षिक प्रणालियों और रचनात्मक उद्योगों को भी चुनौती देती है। हम छात्र के काम का आकलन कैसे करते हैं जब AI प्रशंसनीय निबंध उत्पन्न कर सकता है? मानव लेखकत्व का क्या मूल्य है जब AI समाचार लेख, स्क्रिप्ट, या यहां तक कि कविता का उत्पादन कर सकता है जो पाठकों के साथ प्रतिध्वनित होती है? जबकि AI वृद्धि और सहायता के लिए एक शक्तिशाली उपकरण हो सकता है, मानव आउटपुट को दोहराने की इसकी क्षमता मौलिकता, रचनात्मकता और बौद्धिक संपदा के पुनर्मूल्यांकन की आवश्यकता है।

इसके अलावा, UC San Diego अध्ययन AI प्रगति को मापने के लिए पूरी तरह से संवादात्मक परीक्षणों पर निर्भर रहने की सीमाओं को रेखांकित करता है। यदि लक्ष्य वास्तव में बुद्धिमान सिस्टम (AGI) बनाना है, न कि केवल विशेषज्ञ नकलची, तो शायद ध्यान उन बेंचमार्क की ओर स्थानांतरित करने की आवश्यकता है जो तर्क, विविध डोमेन में समस्या-समाधान, नवीन स्थितियों के अनुकूलन, और शायद चेतना या आत्म-जागरूकता के पहलुओं का आकलन करते हैं - कुख्यात रूप से परिभाषित करने के लिए कठिन अवधारणाएं, मापने की तो बात ही छोड़ दें। ट्यूरिंग टेस्ट, एक अलग तकनीकी युग में कल्पना की गई, ने एक प्रेरणादायक लक्ष्य के रूप में अपना उद्देश्य पूरा किया हो सकता है, लेकिन आधुनिक AI की जटिलताओं के लिए अधिक सूक्ष्म और बहुआयामी मूल्यांकन ढांचे की मांग हो सकती है।

GPT-4.5 की उपलब्धि एक अंतिम बिंदु से कम और महत्वपूर्ण प्रतिबिंब के लिए एक उत्प्रेरक अधिक है। यह मानव भाषा में महारत हासिल करने में वर्तमान AI तकनीकों की असाधारण शक्ति को प्रदर्शित करता है, एक ऐसा करतब जिसमें लाभ और हानि दोनों की अपार संभावनाएं हैं। यह हमें बुद्धिमत्ता, पहचान और मानव-मशीन संपर्क के भविष्य के बारे में मौलिक सवालों से जूझने के लिए मजबूर करता है, एक ऐसी दुनिया में जहां विश्वसनीय रूप से ‘बात करने की क्षमता’ अब विशेष रूप से मानव क्षेत्र नहीं है। इमिटेशन गेम एक नए स्तर पर पहुंच गया है, और नियमों, खिलाड़ियों और दांव को समझना पहले से कहीं अधिक महत्वपूर्ण हो गया है।