कृत्रिम बुद्धिमत्तेचे (AI) क्षेत्र सतत बदलत आहे, एकेकाळी विज्ञान कथा वाटणाऱ्या गोष्टी आता सत्यात उतरल्या आहेत. यामध्ये सर्वात टिकाऊ मापदंडांपैकी एक म्हणजे ट्युरिंग चाचणी (Turing test), जी सत्तर वर्षांपूर्वी एका मशीनच्या मानवी संभाषणाची खात्रीशीरपणे नक्कल करण्याच्या क्षमतेचे मोजमाप म्हणून तयार केली गेली. दशकांपासून, हे एक जबरदस्त, कदाचित प्रतीकात्मक आव्हान राहिले. तथापि, अलीकडील घडामोडी सूचित करतात की ही मर्यादा निर्णायकपणे ओलांडली गेली असावी. University of California at San Diego (UC San Diego) मधून समोरआलेल्या एका अभ्यासात असे दिसून आले आहे की OpenAI चे प्रगत भाषा मॉडेल, GPT-4.5, केवळ चाचणीत यशस्वी झाले नाही, तर ते आश्चर्यकारक यश मिळवून, अनेकदा प्रत्यक्ष माणसांपेक्षा त्यांच्या मानवी प्रतिरूपणात अधिक खात्रीशीर ठरले. या परिणामामुळे AI क्षमतांबद्दलची चर्चा नवीन क्षेत्रात पोहोचली आहे, ज्यामुळे चाचणी स्वतः, मशीन बुद्धिमत्तेचे स्वरूप आणि आपल्या स्वतःच्या भाषिक वर्तनाची इतक्या प्रभावीपणे नक्कल करू शकणाऱ्या अस्तित्वांच्या निर्मितीचे परिणाम यावर अधिक बारकाईने लक्ष देण्याची मागणी होत आहे.
डिजिटल फसवणूक उलगडणे: प्रयोगाच्या आत
‘Large Language Models Pass the Turing Test’ असे समर्पक शीर्षक असलेला आणि सध्या समवयस्क पुनरावलोकनाखाली (peer review) असलेला हा संशोधन प्रयत्न, AI च्या संभाषण क्षमतांची माणसांशी थेट तुलना करण्यासाठी तयार केलेल्या पद्धतीचा वापर करतो. सेटिंग एक ऑनलाइन प्लॅटफॉर्म होते जिथे संवाद पूर्णपणे मजकुराद्वारे साधला जात होता, ज्यामुळे गैर-मानवी सहभागीला उघड करू शकणारे दृश्य आणि श्रवण संकेत काढून टाकले गेले. या डिजिटल मुखवटाधारी खेळासाठी सुमारे तीनशे विद्यापीठ विद्यार्थ्यांना भरती करण्यात आले. प्रत्येक सहभागीला यादृच्छिकपणे तीन भूमिकांपैकी एक नियुक्त केली गेली: विवेकी न्यायाधीश, एक मानवी ‘साक्षीदार’, किंवा, सुरुवातीला न्यायाधीशांना नकळत, एक AI ‘साक्षीदार’.
मुख्य कार्य हे मन वळवण्याचा खेळ होता. मानवी साक्षीदार आणि AI साक्षीदार दोघेही, वेगळ्या डिजिटल खोल्यांमधून कार्यरत होते, न्यायाधीशांसोबत मजकूर-आधारित संभाषणात गुंतले. त्यांचे उद्दिष्ट एकच होते: न्यायाधीशांना त्यांच्या मानवी ओळखीबद्दल पटवून देणे. न्यायाधीशांना, संवादाच्या कालावधीनंतर, महत्त्वपूर्ण निर्णयाचा सामना करावा लागला - कोणता संवादक माणूस होता आणि कोणता मशीन होता हे ओळखणे.
ही केवळ एका AI ची मानवी आधाररेषेविरुद्ध चाचणी नव्हती. संशोधकांनी अनेक भिन्न AI प्रोग्राम्सनाया आव्हानाला सामोरे लावले, ज्यामुळे संभाषणात्मक AI च्या स्थितीवर तुलनात्मक दृष्टीकोन मिळाला:
- GPT-4.5 (persona prompt सह): या मॉडेलने, जेव्हा विशेषतः मानवी व्यक्तिमत्त्व स्वीकारण्याची सूचना दिली गेली, तेव्हा एक उल्लेखनीय कामगिरी केली. ज्या ७३% संवादांमध्ये ते या स्थितीत कार्यरत होते, न्यायाधीशांनी चुकून त्याला मानवी सहभागी म्हणून ओळखले. हा आकडा केवळ निरपेक्ष दृष्टीने उच्च नाही; त्याने त्याच प्रायोगिक सेटअपमध्ये स्वतःची माणुसकी सिद्ध करण्याचा प्रयत्न करणाऱ्या प्रत्यक्ष मानवी साक्षीदारांच्या यश दरापेक्षा जास्त कामगिरी केली.
- Meta’s LLaMa 3.1 405b (persona prompt सह): आणखी एक शक्तिशाली समकालीन मोठे भाषा मॉडेल, LLaMa 3.1, ने देखील त्याचप्रमाणे प्रॉम्प्ट केल्यावर महत्त्वपूर्ण मन वळवण्याची क्षमता दर्शविली, न्यायाधीशांना ५६% वेळा फसवले. या विशिष्ट चाचणीत GPT-4.5 च्या उंचीपर्यंत पोहोचले नसले तरी, त्याच्या कामगिरीने मानवी आणि मशीन संवादातील रेषा लक्षणीयरीत्या अस्पष्ट केल्या.
- GPT-4o (OpenAI चे मागील मॉडेल): विशेष म्हणजे, OpenAI चे थोडे पूर्वीचे मॉडेल, GPT-4o, जेव्हा विशिष्ट persona prompt शिवाय चाचणी केली गेली तेव्हा लक्षणीयरीत्या वेगळी कामगिरी केली. ते केवळ २१% वेळा माणूस म्हणून ओळखले गेले, जे सूचित करते की विशेषतः मार्गदर्शन न केल्यास मॉडेल्सच्या संभाषणात्मक शैलींमध्ये तयार केलेल्या सूचनांची किंवा कदाचित अंगभूत फरकांची महत्त्वपूर्ण भूमिका आहे.
- ELIZA: ऐतिहासिक मापदंड म्हणून, संशोधकांनी ELIZA चा समावेश केला, जो १९६० च्या दशकात विकसित केलेला एक अग्रणी चॅटबॉट होता, जो रॉजेरियन मानसोपचारतज्ञाचे अनुकरण करणाऱ्या साध्या नमुना-जुळवणी तंत्रांसाठी ओळखला जातो. आश्चर्यकारक नाही की, ELIZA चे मानवी नक्कल करण्याचे प्रयत्न आधुनिक सहभागींसाठी खूपच कमी खात्रीशीर होते, केवळ २३% वेळा माणूस म्हणून न्याय दिला गेला. हे गेल्या दशकांमध्ये नैसर्गिक भाषा प्रक्रियेत (natural language processing) झालेल्या प्रचंड प्रगतीवर प्रकाश टाकते.
Cameron Jones, UC San Diego च्या Language and Cognition Lab मधील या अभ्यासात सामील असलेल्या एका संशोधकाने, या धक्कादायक निष्कर्षाचा संक्षिप्त सारांश दिला. त्यांनी नमूद केले की मानवी न्यायाधीशांना लक्षणीय संघर्ष करावा लागला, GPT-4.5 किंवा LLaMa च्या प्रॉम्प्ट केलेल्या आवृत्त्या आणि माणसे यांच्यात फरक करण्याचा प्रयत्न करताना यादृच्छिक संधीपेक्षा चांगली कामगिरी केली नाही. अधिक स्पष्टपणे, त्यांनी अंतर्ज्ञानाच्या विरुद्ध असलेल्या निकालावर जोर दिला: ‘आणि 4.5 ला तर प्रत्यक्ष माणसांपेक्षा लक्षणीयरीत्या जास्त वेळा माणूस म्हणून न्याय दिला गेला!’ हे सूचित करते की AI, विशिष्ट परिस्थितीत, मजकुरात माणुसकीचे प्रदर्शन करण्यात माणसांपेक्षा चांगले असू शकते, कदाचित संभाषणात्मक नियमांचे अधिक काटेकोरपणे पालन करून किंवा वास्तविक लोक दर्शविणारे विशिष्ट संकेत टाळून. याचा अर्थ गहन आहे - AI केवळ उत्तीर्ण होत नव्हते; ते या विशिष्ट संदर्भात मानवीपणाच्या जाणिवेसाठी एक नवीन मानक स्थापित करत होते.
मापदंडाचा पुनर्विचार: ट्युरिंग चाचणी अजूनही सुवर्ण मानक आहे का?
एका मशीनने संभाव्यतः ट्युरिंग चाचणी ‘उत्तीर्ण’ केली आहे, विशेषतः माणसांपेक्षा चांगली कामगिरी करून, ही बातमी अपरिहार्यपणे वादविवाद निर्माण करते. हे खऱ्या मशीन बुद्धिमत्तेच्या पहाटेचे प्रतीक आहे, ज्याबद्दल स्वतः अॅलन ट्युरिंगने (Alan Turing) अंदाज लावला होता? की हे फक्त त्याने आपल्यापेक्षा खूप वेगळ्या युगात प्रस्तावित केलेल्या चाचणीच्या मर्यादा उघड करते? AI समुदायातील अनेक प्रमुख आवाज सावधगिरी बाळगण्याचा सल्ला देतात, असे सुचवतात की ही विशिष्ट परीक्षा उत्तीर्ण करणे म्हणजे कृत्रिम सामान्य बुद्धिमत्ता (artificial general intelligence - AGI) प्राप्त करण्यासारखे नाही - AI ची मानवी स्तरावर विस्तृत कार्यांमध्ये ज्ञान समजून घेण्याची, शिकण्याची आणि लागू करण्याची काल्पनिक क्षमता.
Melanie Mitchell, Santa Fe Institute मधील AI अभ्यासक, यांनी Science जर्नलमध्ये ही साशंकता जोरदारपणे मांडली. त्या युक्तिवाद करतात की ट्युरिंग चाचणी, विशेषतः तिच्या क्लासिक संभाषणात्मक स्वरूपात, कदाचित खऱ्या संज्ञानात्मक क्षमतेचे मोजमाप कमी आणि आपल्या स्वतःच्या मानवी प्रवृत्ती आणि गृहितकांचे प्रतिबिंब जास्त असू शकते. आपण सामाजिक प्राणी आहोत, ओघवती भाषा म्हणजे अंतर्निहित विचार आणि हेतूचे चिन्ह आहे असे अर्थ लावण्यासाठी प्रवृत्त आहोत. GPT-4.5 सारखे मोठे भाषा मॉडेल मानवी मजकुराच्या प्रचंड डेटासेटवर प्रशिक्षित केले जातात, ज्यामुळे ते नमुने ओळखण्यात आणि सांख्यिकीयदृष्ट्या संभाव्य भाषिक प्रतिसाद तयार करण्यात विलक्षण प्रवीण बनतात. ते वाक्यरचनेत उत्कृष्ट आहेत, संभाषणात्मक प्रवाहाची नक्कल करतात आणि शैलीत्मक बारकावे देखील पुनरुत्पादित करू शकतात. तथापि, Mitchell म्हणतात, ‘नैसर्गिक भाषेत ओघवते बोलण्याची क्षमता, बुद्धिबळ खेळण्यासारखी, सामान्य बुद्धिमत्तेचा निर्णायक पुरावा नाही.’ एखाद्या विशिष्ट कौशल्यातील प्रभुत्व, जरी ते भाषेसारखे गुंतागुंतीचे असले तरी, व्यापक समज, चेतना किंवा प्रशिक्षणादरम्यान शिकलेल्या नमुन्यांच्या पलीकडे नवीन तर्काची क्षमता सूचित करत नाही.
Mitchell पुढे ट्युरिंग चाचणी संकल्पनेच्या विकसित होत असलेल्या अर्थाकडे, आणि कदाचित सौम्यीकरणाकडे लक्ष वेधतात. त्या Stanford University कडून पूर्वीच्या GPT-4 मॉडेलवरील संशोधनाबद्दल २०२४ च्या घोषणेचा संदर्भ देतात. Stanford टीमने त्यांच्या निष्कर्षांना ‘कृत्रिम बुद्धिमत्तेच्या स्रोताने कठोर ट्युरिंग चाचणी उत्तीर्ण करण्याची पहिली वेळ’ म्हणून गौरव केला. तरीही, Mitchell निरीक्षण करतात की, त्यांच्या पद्धतीमध्ये GPT-4 च्या मानसशास्त्रीय सर्वेक्षणांवरील प्रतिसादांमधील सांख्यिकीय नमुन्यांची आणि मानवी डेटासह परस्परसंवादी खेळांची तुलना करणे समाविष्ट होते. तुलनात्मक विश्लेषणाचा एक वैध प्रकार असला तरी, त्या कोरडेपणाने नमूद करतात की हे सूत्र ‘ट्युरिंगला कदाचित ओळखता येणार नाही’, ज्यांचा मूळ प्रस्ताव अविभाज्य संभाषणावर केंद्रित होता.
हे एका महत्त्वपूर्ण मुद्द्यावर प्रकाश टाकते: ट्युरिंग चाचणी ही एकसंध संस्था नाही. तिचा अर्थ आणि अनुप्रयोग बदलला आहे. UC San Diego प्रयोग ट्युरिंगच्या मूळ संभाषणात्मक फोकसच्या जवळ असल्याचे दिसते, तरीही येथेही प्रश्न उद्भवतात. चाचणी खरोखर बुद्धिमत्तेचे मोजमाप करत होती, की AI ची विशिष्ट कार्य - व्यक्तिमत्त्व अवलंबन आणि संभाषणात्मक नक्कल - अपवादात्मकपणे चांगले करण्याची क्षमता मोजत होती? GPT-4.5 ने ‘persona prompt’ दिल्यावर लक्षणीयरीत्या चांगली कामगिरी केली हे तथ्य सूचित करते की त्याचे यश कदाचित अंगभूत, सामान्यीकरण करण्यायोग्य मानवी गुणांऐवजी सूचनांवर आधारित कुशल अभिनयाबद्दल अधिक असू शकते.
समीक्षकांचा असा युक्तिवाद आहे की LLMs (Large Language Models) मानवी मनापेक्षा मूलभूतपणे वेगळ्या पद्धतीने कार्य करतात. ते मानवाप्रमाणे संकल्पना ‘समजत’ नाहीत; ते शिकलेल्या सांख्यिकीय संबंधांवर आधारित चिन्हे हाताळतात. त्यांच्यात जगलेला अनुभव, शरीररूपता, चेतना आणि खरा हेतू नसतो. जरी ते भावना किंवा अनुभवांबद्दल मजकूर तयार करू शकत असले तरी, ते त्यांना अनुभवत नाहीत. म्हणून, केवळ भाषिक आउटपुटवर आधारित चाचणी उत्तीर्ण करणे हे अभियांत्रिकी आणि डेटा सायन्सचे एक प्रभावी पराक्रम असू शकते, परंतु ते खऱ्या सजीव बुद्धिमत्तेपर्यंतचे अंतर necessariamente भरून काढत नाही. चाचणी कदाचित मशीनच्या अंतर्गत स्थितींपेक्षा पृष्ठभागावरील मानवी वर्तनाची नक्कल करण्यासाठी प्रचंड डेटासेट आणि अत्याधुनिक अल्गोरिदमच्या सामर्थ्याबद्दल अधिक प्रकट करत असेल. हे आपल्याला मानवी बुद्धिमत्तेच्या सखोल, बहुआयामी स्वरूपासाठी भाषिक ओघवतेपणा पुरेसा प्रॉक्सी आहे की नाही यावर विचार करण्यास भाग पाडते.
रेषा अस्पष्ट होत असलेल्या जगात मार्गक्रमण करणे
GPT-4.5 ची कामगिरी खरी बुद्धिमत्ता दर्शवते की केवळ अत्याधुनिक नक्कल, याची पर्वा न करता, व्यावहारिक परिणाम निर्विवाद आणि दूरगामी आहेत. आपण अशा युगात प्रवेश करत आहोत जिथे ऑनलाइन मानवी आणि मशीन-व्युत्पन्न मजकूर यांच्यात फरक करणे अधिकाधिक कठीण होत आहे, काही संदर्भांमध्ये अशक्य नसले तरी. याचे विश्वास, संवाद आणि आपल्या डिजिटल समाजाच्या अगदी जडणघडणीवर गंभीर परिणाम होतात.
AI ची मानवांची खात्रीशीरपणे नक्कल करण्याची क्षमता चुकीची माहिती आणि हाताळणीबद्दल तात्काळ चिंता निर्माण करते. दुर्भावनापूर्ण घटक अशा तंत्रज्ञानाचा वापर अत्याधुनिक फिशिंग घोटाळ्यांसाठी, व्यक्तींना अनुरूप प्रचार पसरवण्यासाठी, किंवा सार्वजनिक मत बदलण्यासाठी किंवा ऑनलाइन समुदायांमध्ये व्यत्यय आणण्यासाठी बनावट सोशल मीडिया प्रोफाइलची फौज तयार करण्यासाठी करू शकतात. जर नियंत्रित प्रयोगातील विवेकी वापरकर्ते देखील फरक सांगण्यास धडपडत असतील, तर खुल्या इंटरनेटवर फसवणुकीची क्षमता प्रचंड आहे. AI-चालित प्रतिरूपण आणि AI-शोध साधनांमधील शस्त्रास्त्र स्पर्धा तीव्र होण्याची शक्यता आहे, परंतु फायदा अनेकदा प्रतिरूपण करणाऱ्यांकडे असू शकतो, विशेषतः मॉडेल्स अधिक परिष्कृत होत असताना.
दुर्भावनापूर्ण वापरांच्या पलीकडे, अस्पष्ट होत असलेल्या रेषा रोजच्या संवादांवर परिणाम करतात. जेव्हा चॅटबॉट्स मानवी एजंट्सपासून वेगळे ओळखता येणार नाहीत तेव्हा ग्राहक सेवा कशी बदलेल? ऑनलाइन डेटिंग प्रोफाइल किंवा सामाजिक संवादांसाठी नवीन प्रकारच्या पडताळणीची आवश्यकता असेल का? मानवांवरील मानसिक परिणाम देखील महत्त्वपूर्ण आहे. आपण ज्या अस्तित्वाशी ऑनलाइन संभाषण करत आहात ते AI असू शकते हे जाणून घेतल्याने अविश्वास आणि दुरावा वाढू शकतो. याउलट, अत्यंत खात्रीशीर AI साथीदारांशी भावनिक जोड निर्माण करणे, त्यांचे स्वरूप माहीत असूनही, स्वतःचे नैतिक आणि सामाजिक प्रश्न निर्माण करते.
GPT-4.5 सारख्या मॉडेल्सचे यश आपल्या शैक्षणिक प्रणाली आणि सर्जनशील उद्योगांनाही आव्हान देते. जेव्हा AI संभाव्य निबंध तयार करू शकते तेव्हा आपण विद्यार्थ्यांच्या कामाचे मूल्यांकन कसे करावे? जेव्हा AI बातम्यांचे लेख, स्क्रिप्ट्स किंवा वाचकांना भावणारी कविता तयार करू शकते तेव्हा मानवी लेखनाचे मूल्य काय आहे? जरी AI वृद्धी आणि मदतीसाठी एक शक्तिशाली साधन असू शकते, तरीही मानवी आउटपुटची नक्कल करण्याची त्याची क्षमता मौलिकता, सर्जनशीलता आणि बौद्धिक संपत्तीचे पुनर्मूल्यांकन करणे आवश्यक करते.
शिवाय, UC San Diego अभ्यास AI प्रगती मोजण्यासाठी केवळ संभाषणात्मक चाचण्यांवर अवलंबून राहण्याच्या मर्यादा अधोरेखित करतो. जर ध्येय खऱ्या अर्थाने बुद्धिमान प्रणाली (AGI) तयार करणे असेल, केवळ तज्ञ नक्कल करणारे नाही, तर कदाचित लक्ष विविध क्षेत्रांमधील तर्क, समस्या सोडवणे, नवीन परिस्थितींशी जुळवून घेणे आणि कदाचित चेतना किंवा आत्म-जागरूकतेच्या पैलूंवर केंद्रित करण्याची आवश्यकता आहे - परिभाषित करणे अत्यंत कठीण संकल्पना, मोजमाप करणे तर दूरच. ट्युरिंग चाचणी, एका वेगळ्या तांत्रिक युगात संकल्पित, एक प्रेरणादायी ध्येय म्हणून तिचे कार्य केले असेल, परंतु आधुनिक AI च्या गुंतागुंतीला अधिक सूक्ष्म आणि बहुआयामी मूल्यांकन फ्रेमवर्कची आवश्यकता असू शकते.
GPT-4.5 ची उपलब्धी ही अंतिम बिंदूपेक्षा गंभीर चिंतनासाठी एक उत्प्रेरक आहे. हे मानवी भाषेत प्रभुत्व मिळविण्यासाठी सध्याच्या AI तंत्रांची विलक्षण शक्ती दर्शवते, एक पराक्रम ज्यामध्ये फायदा आणि हानी दोन्हीसाठी प्रचंड क्षमता आहे. हे आपल्याला बुद्धिमत्ता, ओळख आणि मानवी-मशीन संवादाच्या भविष्याबद्दल मूलभूत प्रश्नांशी झगडण्यास भाग पाडते, अशा जगात जिथे खात्रीशीरपणे ‘बोलण्याची’ क्षमता यापुढे केवळ मानवी क्षेत्र नाही. تقلید खेळ (imitation game) एका नवीन स्तरावर पोहोचला आहे, आणि नियम, खेळाडू आणि धोके समजून घेणे कधीही इतके महत्त्वाचे नव्हते.