बेंचमार्कवर पुनर्विचार: ट्युरिंगच्या दृष्टिकोनला आधुनिक वळण
एखादे यंत्र खरोखर ‘विचार’ करू शकते का, हे ठरवण्याचा प्रयत्न अनेक दशकांपासून संगणक शास्त्रज्ञ आणि तत्त्वज्ञांना आकर्षित करत आहे. या चर्चेच्या केंद्रस्थानी अनेकदा Alan Turing यांची मूलभूत संकल्पना असते. Alan Turing हे एक हुशार ब्रिटिश गणितज्ञ आणि कोडब्रेकर होते, ज्यांच्या कार्यामुळे आधुनिक संगणकीय युगाचा पाया घातला गेला. Turing यांनी एका परिस्थितीची कल्पना केली, जी आता ‘Turing Test’ म्हणून प्रसिद्ध आहे. यात एक मानवी प्रश्नकर्ता दोन अदृश्य घटकांशी मजकूर-आधारित संभाषण करतो – एक मानव आणि एक मशीन. मशीनच्या यशाचे महत्त्वपूर्ण मोजमाप काय? प्रश्नकर्त्याला आपण मानव आहोत असा विश्वास देण्याची त्याची क्षमता. जर प्रश्नकर्ता मशीन आणि व्यक्तीमध्ये विश्वसनीयपणे फरक करू शकला नाही, तर Turing यांच्या मते, मशीन मानवासारखे बुद्धिमान वर्तन करण्यास सक्षम मानले जाऊ शकते. मूळ चाचणीवर चेतना किंवा समजूतदारपणाचे खरे मोजमाप म्हणून पुरेशी नसल्याबद्दल टीका झाली असली तरी, त्याची मूळ कल्पना – AI ची मानवी संवादाची खात्रीशीरपणे नक्कल करण्याची क्षमता तपासणे – एक प्रभावी बेंचमार्क म्हणून कायम आहे.
आता, University of California, San Diego मधील संशोधकांनी या क्लासिक मूल्यांकनाला नवीन जीवन दिले आहे, आजच्या अत्याधुनिक AI परिदृश्यासाठी डिझाइन केलेला एक आकर्षक बदल सादर केला आहे. त्यांच्या अभ्यासाने Turing Test च्या त्रिपक्षीय आवृत्तीची सुरुवात केली आहे, ज्यामुळे मूल्यांकनात गुंतागुंत आणि कदाचित अधिक वास्तववादी गतिशीलता आली आहे. हे केवळ एका AI ला एका मानवापासून वेगळे करण्यापुरते नव्हते; यात परस्परसंवाद आणि फसवणुकीचा अधिक गुंतागुंतीचा खेळ समाविष्ट होता, ज्यामुळे समकालीन कृत्रिम बुद्धिमत्ता प्रणालींना नक्कल करण्याच्या कलेत त्यांच्या मर्यादांपर्यंत ढकलले गेले. निष्कर्षांवरून असे सूचित होते की सर्वात प्रगत AI मॉडेल्स केवळ मानवासारख्या संभाषणाच्या उंबरठ्यावर पोहोचत नाहीत; काही संदर्भांमध्ये, ते कदाचित त्यावरून उडी मारत आहेत, कधीकधी मानवांपेक्षा अधिक मानवी दिसत आहेत.
आव्हान: मानवांना अत्याधुनिक AI विरुद्ध उभे करणे
UC San Diego टीमने तयार केलेली प्रायोगिक रचना विशिष्ट आणि कठोर होती. संवादाच्या प्रत्येक फेरीत त्रिकूट होते: दोन मानवी सहभागी आणि एक AI मॉडेल. मानवांना एकच, आव्हानात्मक ध्येय देण्यात आले होते: संभाषणाच्या कालावधीनंतर, त्यांच्या दोन अदृश्य संवादकांपैकी कोण कृत्रिम बुद्धिमत्ता आहे आणि कोण सहकारी मानव आहे हे ठरवणे. या सेटअपमुळे मूळ एकास-एक-एक Turing Test च्या तुलनेत स्वाभाविकपणे धोका वाढतो.
हे निर्धारण सुलभ करण्यासाठी, सहभागींनी दोन एकाचवेळी, समांतर मजकूर-आधारित संवादांमध्ये भाग घेतला – एक लपलेल्या मानवासोबत, दुसरा लपलेल्या AI सोबत. त्यांना प्रत्येक फेरीसाठी संक्षिप्त पाच मिनिटांची वेळ देण्यात आली होती. या कालावधीत, मानवी परीक्षकांना पूर्ण स्वातंत्र्य होते. ते कोणतीही प्रश्न विचारण्याची रणनीती वापरू शकत होते, कोणत्याही विषयावर चौकशी करू शकत होते, किंवा त्यांच्या चॅट भागीदारांचे खरे स्वरूप उघड करण्यासाठी त्यांना प्रभावी वाटणारी कोणतीही संभाषण युक्ती वापरू शकत होते. संवादाच्या वेळेची संक्षिप्तता आणखी एक आव्हान जोडते, AI ची त्वरीत एक खात्रीशीर व्यक्तिमत्व स्थापित करण्याची आणि तपासणी अंतर्गत ते टिकवून ठेवण्याची क्षमता तपासते, तसेच मानवाची मर्यादित संभाषण डेटावर आधारित जलद, अचूक निर्णय घेण्याची क्षमता तपासते. पाच मिनिटांच्या संवादाच्या कालावधीनंतर, सत्याचा क्षण आला: मानवी सहभागींनी त्यांचे मत नोंदवले, कोणत्या घटकाला ते AI मानतात हे ओळखले.
संशोधकांनी एकाच AI प्रणालीवर अवलंबून न राहता, AI विकासातील विविध युगे आणि क्षमतांचे प्रतिनिधित्व करणारी एक वैविध्यपूर्ण लाइनअप तयार केली:
- ELIZA: सुमारे सहा दशकांपूर्वी (स्रोतामध्ये नमूद केल्याप्रमाणे 80 नव्हे, ELIZA 1960 च्या दशकाच्या मध्यातील आहे) Joseph Weizenbaum यांनी विकसित केलेला एक अग्रणी चॅटबॉट. आजच्या मानकांनुसार आदिम असला तरी, पॅटर्न मॅचिंग आणि साध्या स्क्रिप्ट्सवर अवलंबून असलेला ELIZA, संवादात्मक AI च्या सुरुवातीच्या प्रयत्नांचे प्रतिनिधित्व करणारा ऐतिहासिक आधार म्हणून काम करतो.
- Meta’s Llama 3.1-405B: Meta AI कडील एक शक्तिशाली, समकालीन लार्ज लँग्वेज मॉडेल (LLM), जे त्याच्या अत्याधुनिक मजकूर निर्मिती आणि तार्किक क्षमतांसाठी ओळखले जाते. त्याचा समावेश एका प्रमुख AI संशोधन प्रयोगशाळेतील सध्याच्या अत्याधुनिक स्थितीचे प्रतिनिधित्व करतो.
- OpenAI’s GPT-4o: अभ्यासाच्या वेळी OpenAI कडून सार्वजनिकरित्या प्रसिद्ध केलेले नवीनतम मल्टीमॉडल मॉडेल, जे त्याच्या गती, कार्यक्षमता आणि मागील GPT आवृत्त्यांच्या तुलनेत सुधारित संभाषण क्षमतांसाठी ओळखले जाते.
- OpenAI’s GPT-4.5: OpenAI च्या फ्लॅगशिप मॉडेल मालिकेची एक अधिक प्रगत, कदाचित अप्रकाशित किंवा अंतर्गत आवृत्ती. त्याचा समावेश सार्वजनिकरित्या उपलब्ध प्रणालींच्या पलीकडे संभाव्यतः सीमा ओलांडणाऱ्या मॉडेल्समध्ये प्रवेश दर्शवतो.
या निवडीमुळे संशोधकांना केवळ आधुनिक AI ची मानवांशीच नव्हे, तर ऐतिहासिक बेंचमार्कशी आणि समकालीन AI च्या विविध स्तरांविरुद्ध तुलना करता आली. मूळ प्रश्न कायम होता: या मशीन्स, विशेषतः प्रगत LLMs, या त्रिपक्षीय संवादात्मक कोड्यात यशस्वीरित्या मार्गक्रमण करून मानव म्हणून पास होऊ शकतील का?
व्यक्तिमत्त्व रणनीती: GPT-4.5 ने अद्भूत यश कसे मिळवले
अभ्यासात AI मॉडेल्ससाठी दोन भिन्न कार्यान्वयन परिस्थितींचा समावेश करण्यात आला, ज्यामुळे तपासाला आणखी एक परिमाण मिळाले. संशोधकांना हे समजून घ्यायचे होते की AI चे स्पष्ट ध्येय मानवी सहभागींना फसवण्याच्या क्षमतेवर परिणाम करते का.
परिस्थिती 1: स्पष्ट फसवणुकीचे कार्य: या सेटअपमध्ये, AI ला थेट आणि निःसंदिग्ध सूचना देण्यात आली: मानवी सहभागीला दिशाभूल करा. त्याचे प्रोग्राम केलेले उद्दिष्ट होते की मानवी परीक्षकाला ते दुसऱ्या खऱ्या व्यक्तीशी संवाद साधत आहेत असा विश्वास देण्यासाठी संभाषणात्मकदृष्ट्या शक्य असलेले सर्व काही करणे. यामुळे AI ची रणनीती बनवण्याची आणि कदाचित मानवी दिसण्याच्या ध्येयाकडे संभाषण हाताळण्याची क्षमता तपासली गेली, जेव्हा तसे करण्यास स्पष्टपणे सांगितले गेले.
परिस्थिती 2: व्यक्तिमत्त्व नक्कल करण्याचे कार्य: येथे, AI ला वेगळ्या प्रकारचा प्रॉम्प्ट मिळाला. त्याला स्पष्टपणे फसवण्यास सांगितले गेले नाही. त्याऐवजी, त्याला एक विशिष्ट व्यक्तिमत्त्व धारण करण्याची सूचना देण्यात आली – इंटरनेट संस्कृतीत खोलवर रुजलेल्या एका तरुण व्यक्तीचे, त्या लोकसंख्येसाठी वैशिष्ट्यपूर्ण असलेल्या समकालीन स्लँग आणि संवाद शैलींच्या वापरासह. AI ला फक्त हे पात्र * साकारण्यास* सांगितले गेले, प्रश्नकर्त्याला फसवण्याच्या स्पष्ट सूचनेशिवाय.
या दोन परिस्थितींमधील परिणाम लक्षणीयरीत्या भिन्न होते, विशेषतः उत्कृष्ट कामगिरी करणाऱ्या GPT-4.5 साठी. स्पष्टपणे दिशाभूल करण्याच्या सूचनेनुसार (परिस्थिती 1) कार्य करत असताना, GPT-4.5 ने 36% यश दर मिळवला. हे नगण्य नसले तरी, ही आकडेवारी सूचित करते की उघडपणे फसवण्याचा प्रयत्न करताना, AI कदाचित कमी खात्रीशीर होते, किंवा कदाचित त्याचे प्रयत्न मानवी परीक्षकांद्वारे अधिक सहजपणे ओळखले जात होते जे कृत्रिमतेसाठी अधिक सतर्क असू शकतात.
तथापि, व्यक्तिमत्त्व नक्कल कार्यात (परिस्थिती 2) कथा नाटकीयरित्या बदलली. जेव्हा फक्त तरुण, इंटरनेट-जाणकार व्यक्तिमत्त्व साकारण्यास सांगितले गेले, तेव्हा GPT-4.5 ची कामगिरी गगनाला भिडली. त्याने मानवी सहभागींना त्याच्या मानवतेबद्दल खात्री पटवण्यात उल्लेखनीय 73% संवादांमध्ये यश मिळवले. हे सूचित करते की नैसर्गिक वाटणारे पात्र स्वीकारणे, जरी ते शैलीबद्ध असले तरी, थेट फसवणुकीचा प्रयत्न करण्यापेक्षा मिसळून जाण्यासाठी अधिक प्रभावी धोरण होते. याचा अर्थ असा आहे की AI ची ताकद गणन केलेल्या हाताळणीत कमी आणि विशिष्ट लोकसंख्या किंवा व्यक्तिमत्त्वांशी संबंधित मानवी संवादाचे नमुने वास्तववादीपणे संश्लेषित करण्याची आणि त्याची नक्कल करण्याच्या क्षमतेत अधिक आहे, जे त्याने त्याच्या विशाल प्रशिक्षण डेटामधून शिकले आहे. AI मानव बनण्याचा प्रयत्न करत नव्हते; ते एका विशिष्ट प्रकारच्या मानवाप्रमाणे अभिनय करत होते, आणि ते आश्चर्यकारक प्रभावीतेने करत होते.
तुलनात्मक कामगिरी: फसवणुकीचा स्पेक्ट्रम
GPT-4.5 ने लक्ष वेधून घेतले असले तरी, इतर AI मॉडेल्सच्या कामगिरीने मौल्यवान संदर्भ आणि काही मनोरंजक आश्चर्य प्रदान केले.
Meta’s Llama 3.1-405B ने देखील लक्षणीय क्षमता दर्शविली. त्याने मानवांना त्याच्या सत्यतेबद्दल खात्री पटवण्यात 56% यश दर मिळवला. हा निकाल यादृच्छिक संधीपेक्षा (जो दोन-निवडीच्या परिस्थितीत 50% असेल, जरी त्रिपक्षीय चाचणीची गतिशीलता साध्या शक्यतांना किंचित गुंतागुंतीची करते) लक्षणीयरीत्या चांगला आहे. हे Llama 3.1 ला अत्यंत सक्षम संवादात्मक नक्कल करणाऱ्यांच्या श्रेणीत ठामपणे ठेवते, जे मानवी परीक्षकांना वारंवार फसवण्यास सक्षम आहे, जरी ते GPT-4.5 ने त्याच्या इष्टतम परिस्थितीत दर्शविलेल्या विलक्षण पातळीपर्यंत पोहोचले नाही. ही ठोस कामगिरी आघाडीच्या लार्ज लँग्वेज मॉडेल्सच्या सूक्ष्म मानवी संवादाची नक्कल करण्याच्या सामान्य प्रगतीवर जोर देते.
कदाचित सर्वात अनपेक्षित निष्कर्ष GPT-4o आणि ऐतिहासिक ELIZA प्रोग्राम यांच्यातील तुलनेतून समोर आला. OpenAI च्या प्रगत GPT-4o मॉडेलने सहभागींना ते मानव आहे हे केवळ 21% प्रकरणांमध्ये पटवून दिले. याउलट, खूप सोप्या, स्क्रिप्ट-आधारित ELIZA प्रोग्रामने किंचित चांगली कामगिरी केली, 23% यश दर मिळवला. दोन्ही टक्केवारी कमी असली तरी, या विशिष्ट चाचणी सेटअपमध्ये दोन्हीपैकी कोणीही विशेष खात्रीशीर नव्हते हे दर्शवते, ELIZA ची किंचित आघाडी लक्षणीय आहे. हे या संक्षिप्त संवादांमध्ये मानवी आकलन आणि निर्णयाच्या स्वरूपाबद्दल प्रश्न निर्माण करते. असे असू शकते का की ELIZA ची साधेपणा आणि अंदाजक्षमता, कदाचित विक्षिप्त किंवा विलक्षण म्हणून समजली गेली, कधीकधी मानवी अ-मानक संवाद म्हणून चुकीचा अर्थ लावला गेला, तर GPT-4o चे अधिक जटिल परंतु संभाव्यतः निर्जंतुकीकरण किंवा अति-औपचारिक प्रतिसाद (त्याच्या विशिष्ट प्रॉम्प्टिंग आणि चाचणीतील वर्तनावर अवलंबून) अधिक सहजपणे कृत्रिम म्हणून ध्वजांकित केले गेले? वैकल्पिकरित्या, ते विशिष्ट संवाद किंवा सहभागींच्या अपेक्षांमधील बारकावे प्रतिबिंबित करू शकते ज्याने काही थोड्या प्रकरणांमध्ये ELIZA च्या शैलीला अनुकूलता दर्शविली. हा निकाल निश्चितपणे मानव वेगवेगळ्या प्रकारच्या कृत्रिमते किंवा अ-मानक संवादाला कसे समजतात यावर पुढील तपासाची हमी देतो.
तथापि, उत्कृष्ट निकाल GPT-4.5 ची कामगिरी राहिली, जी अभ्यासाचे मुख्य लेखक, Cameron Jones, UC San Diego येथील Language and Cognition Laboratory मधील संशोधक यांनी विशेषतः अधोरेखित केली. Jones यांनी सर्वात धक्कादायक पैलूवर जोर दिला: ‘लोक GPT-4.5 आणि LLaMa मधील लोकांमधील फरक ओळखू शकले नाहीत आणि 4.5 ला तर खऱ्या लोकांपेक्षा जास्त वेळा मानव म्हणून रेट केले गेले!’ हे एक गहन विधान आहे. AI ने मानव म्हणून पास होणे ही एक गोष्ट आहे; त्याच चाचणीत सहभागी असलेल्या वास्तविक मानवांपेक्षा अधिक मानवी म्हणून समजले जाणे ही पूर्णपणे दुसरी गोष्ट आहे. हे सूचित करते की GPT-4.5, किमान व्यक्तिमत्त्व परिस्थितीत, असे प्रतिसाद तयार केले असावेत जे सहभागींच्या सामान्य मानवी ऑनलाइन संवादाच्या अपेक्षांशी (कदाचित अधिक आकर्षक, सुसंगत किंवा रूढीवादीपणे ‘मानवी’) अधिक जवळून जुळले, वास्तविक, संभाव्यतः अधिक वैविध्यपूर्ण किंवा कमी अंदाजित, खऱ्या मानवी प्रतिसादांपेक्षा.
ट्युरिंगच्या पलीकडे: अति-वास्तववादी AI नक्कलचे परिणाम
जरी संशोधकांनी मान्य केले की Turing Test स्वतः, त्याच्या मूळ स्वरूपात आणि या सुधारित स्वरूपात देखील, खरी मशीन बुद्धिमत्ता किंवा समजूतदारपणा मोजण्यासाठी कालबाह्य मापदंड असू शकते, तरीही अभ्यासाचे निष्कर्ष महत्त्वपूर्ण वजन धारण करतात. ते AI प्रणाली, विशेषतः मानवी मजकूर आणि संवादाच्या प्रचंड डेटासेटवर प्रशिक्षित केलेल्या लार्ज लँग्वेज मॉडेल्सवर आधारित प्रणाली, नक्कल करण्याची कला आत्मसात करण्यात किती पुढे गेल्या आहेत याचा स्पष्ट पुरावा देतात.
निकालांवरून दिसून येते की या प्रणाली केवळ व्याकरणात्मकदृष्ट्या योग्य किंवा संदर्भात्मकदृष्ट्या संबंधित संभाषण आउटपुट तयार करू शकत नाहीत, तर मानवी आउटपुटपासून आकलनात्मकदृष्ट्या अविभाज्य आहेत, किमान लहान, मजकूर-आधारित संवादांच्या मर्यादेत. जरी अंतर्निहित AI मध्ये खरी समज, चेतना किंवा मानवी संवादाला माहिती देणारे व्यक्तिनिष्ठ अनुभव नसले तरी, त्याची संभाव्य, आकर्षक आणि पात्र-सुसंगत प्रतिसाद संश्लेषित करण्याची क्षमता वेगाने सुधारत आहे. ते प्रभावीपणे समजूतदारपणाचा एक दर्शनी भाग तयार करू शकते जो मानवी परीक्षकांना बहुसंख्य वेळा फसवण्यासाठी पुरेसा खात्रीशीर आहे, विशेषतः जेव्हा एखादे संबंधित व्यक्तिमत्त्व स्वीकारले जाते.
या क्षमतेचे गंभीर परिणाम आहेत, जे Turing Test च्या शैक्षणिक उत्सुकतेच्या पलीकडे विस्तारलेले आहेत. Cameron Jones या प्रगत नक्कलमुळे चालणाऱ्या अनेक संभाव्य सामाजिक बदलांकडे निर्देश करतात:
- नोकरी ऑटोमेशन: AI ची मानवांना अल्प-मुदतीच्या संवादांमध्ये अखंडपणे बदलण्याची क्षमता, संभाव्यतः ओळखल्याशिवाय, मजकूर-आधारित संवादावर मोठ्या प्रमाणावर अवलंबून असलेल्या भूमिकांमध्ये ऑटोमेशनसाठी दार अधिक उघडते. ग्राहक सेवा चॅट्स, सामग्री निर्मिती, डेटा एंट्री, शेड्युलिंग आणि विविध प्रकारचे डिजिटल सहाय्य यांमध्ये AI चा अवलंब वाढू शकतो, जर AI पुरेसे खात्रीशीर आणि किफायतशीर सिद्ध झाले तर मानवी कामगारांना विस्थापित करू शकते. अभ्यासातून असे सूचित होते की ‘खात्रीशीर’ उंबरठा गाठला जात आहे किंवा ओलांडला जात आहे.
- वर्धित सोशल इंजिनिअरिंग: गैरवापराची शक्यता लक्षणीय आहे. दुर्भावनापूर्ण घटक अत्याधुनिक फिशिंग घोटाळ्यांसाठी, चुकीची माहिती पसरवण्यासाठी, जनमतावर प्रभाव टाकण्यासाठी किंवा फसवणुकीच्या उद्देशाने व्यक्तींची तोतयागिरी करण्यासाठी अति-वास्तववादी AI चॅटबॉट्सचा फायदा घेऊ शकतात. वास्तविक मानवांपेक्षा जास्त वेळा मानवी म्हणून समजले जाणारे AI फसवणुकीसाठी एक अविश्वसनीयपणे शक्तिशाली साधन असू शकते, ज्यामुळे व्यक्तींना ऑनलाइन संवादांवर विश्वास ठेवणे कठीण होते. ‘व्यक्तिमत्त्व’ धोरणाची प्रभावीता येथे विशेषतः चिंताजनक आहे, कारण AI विशिष्ट प्रकारच्या विश्वासू व्यक्ती किंवा अधिकार पदावरील व्यक्तींची तोतयागिरी करण्यासाठी तयार केले जाऊ शकते.
- सामान्य सामाजिक उलथापालथ: विशिष्ट अनुप्रयोगांच्या पलीकडे, मानवी नक्कल करण्यास सक्षम असलेल्या AI चा व्यापक वापर सामाजिक गतिशीलतेत मूलभूतपणे बदल करू शकतो. आपण ऑनलाइन वातावरणात विश्वास कसा स्थापित करतो? संभाव्यतः कृत्रिम संवादकांमार्फत मध्यस्थी केल्यावर मानवी संबंधांच्या स्वरूपाचे काय होते? यामुळे वाढीव एकाकीपणा येऊ शकतो, किंवा विरोधाभासीपणे, AI-मानवी सहवासाचे नवीन प्रकार येऊ शकतात? मानवी आणि मशीन संवादातील पुसट होत चाललेली रेषा या प्रश्नांवर सामाजिक विचारमंथन आवश्यक करते. हे डिजिटल युगात सत्यता आणि परस्परसंवादाच्या आपल्या व्याख्यांना आव्हान देते.
सध्या पीअर रिव्ह्यूच्या प्रतीक्षेत असलेला हा अभ्यास, मानवी संभाषण वर्तनाची नक्कल करण्याच्या AI च्या क्षमतेतील जलद प्रगती दर्शवणारा एक महत्त्वपूर्ण डेटा पॉईंट म्हणून काम करतो. हे अधोरेखित करते की खऱ्या कृत्रिम सामान्य बुद्धिमत्तेबद्दलची चर्चा सुरू असताना, विशिष्ट संदर्भांमध्ये मानवाप्रमाणे अभिनय करण्याची AI ची व्यावहारिक क्षमता एका महत्त्वपूर्ण टप्प्यावर पोहोचली आहे. आपण अशा युगात प्रवेश करत आहोत जिथे पुराव्याचा भार बदलू शकतो – एखादे मशीन मानवी वाटते का हे विचारण्याऐवजी, आपण ऑनलाइन संवाद साधत असलेला ‘मानव’ खरोखर जैविक आहे का, असा प्रश्न आपल्याला अधिकाधिक विचारण्याची गरज भासू शकते. नक्कल खेळ एका नवीन पातळीवर पोहोचला आहे आणि त्याचे परिणाम आता कुठे उलगडू लागले आहेत.