AI मानवी संभाषणात पारंगत? इमिटेशन गेमची समीक्षा.

कृत्रिम बुद्धिमत्तेच्या (AI) क्षेत्रात, माणसांप्रमाणे विचार करू शकणारी किंवा किमान संभाषण करू शकणारी यंत्रे तयार करण्याची महत्त्वाकांक्षा फार पूर्वीपासून आहे. अनेक दशकांपासून, या क्षेत्रातील मापदंड, जरी वादग्रस्त असला तरी, बहुतेक वेळा ट्युरिंग टेस्ट (Turing Test) राहिला आहे, ज्याची कल्पना विसाव्या शतकाच्या मध्यात प्रतिभाशाली गणितज्ञ अॅलन ट्युरिंग (Alan Turing) यांनी मांडली होती. याची संकल्पना साधी पण गहन आहे: एखादे यंत्र मानवी प्रश्नकर्त्याशी इतक्या खात्रीशीरपणे संवाद साधू शकते का की न्यायाधीश त्याला दुसऱ्या मानवापासून विश्वसनीयपणे वेगळे ओळखू शकणार नाही? अलीकडील घडामोडी सूचित करतात की काही सर्वात अत्याधुनिक लार्ज लँग्वेज मॉडेल्स (LLMs) कदाचित या मनोरंजक टप्प्यावर पोहोचले आहेत किंवा कदाचित ओलांडले आहेत, ज्यामुळे बुद्धिमत्तेचे स्वरूप, नक्कल आणि AI च्या भविष्यातील मार्गाबद्दल पुन्हा चर्चा सुरू झाली आहे.

संभाषणात्मक आव्हानांची नवी फेरी

युनिव्हर्सिटी ऑफ कॅलिफोर्निया सॅन दिएगो (University of California San Diego) मधून समोर आलेल्या एका अभ्यासाने हा प्रश्न पुन्हा तीव्रतेने चर्चेत आणला आहे. संशोधक कॅमेरॉन आर. जोन्स (Cameron R. Jones) आणि बेंजामिन के. बर्गेन (Benjamin K. Bergen) यांनी अत्याधुनिक AI प्रणालींच्या संभाषणात्मक कौशल्याचे मूल्यांकन करण्यासाठी ट्युरिंग टेस्टची समकालीन आवृत्ती तयार केली. त्यांच्या प्रयोगात मानवी सहभागींना अनेक AI मॉडेल्ससमोर ठेवण्यात आले, ज्यात OpenAI चे अत्यंत प्रतिष्ठित GPT-4.5 आणि Meta चे प्रभावी LLaMa-3.1-405B यांचा समावेश होता. या सेटअपमध्ये एका मानवी न्यायाधीशाने एकाच वेळी पाच मिनिटांचे टेक्स्ट-आधारित संभाषण केले – एक लपलेल्या मानवी सहभागीसोबत आणि एक लपलेल्या AI मॉडेलसोबत. या संक्षिप्त संवादानंतर, न्यायाधीशाचे कार्य सरळ होते: कोणता संभाषण भागीदार यंत्र होता आणि कोणता मानव होता हे ओळखणे.

निकाल, विशेषतः विशिष्ट व्यक्तिरेखा (persona) स्वीकारण्यास प्रवृत्त केलेल्या मॉडेल्ससाठी, धक्कादायक होते.

  • GPT-4.5 ची कामगिरी: जेव्हा मानवासारखे वागण्याचे निर्देश दिले गेले, तेव्हा GPT-4.5 ने न्यायाधीशांना तब्बल ७३% वेळा यशस्वीरित्या फसविले. हा आकडा महत्त्वपूर्ण आहे कारण तो दर्शवितो की न्यायाधीशांनी संभाषणात सामील असलेल्या प्रत्यक्ष मानवी सहभागीपेक्षा AI ला मानव म्हणून ओळखण्याची अधिक शक्यता होती.
  • LLaMa-3.1-405B चे प्रदर्शन: Meta चे मोठे मॉडेल, LLaMa-3.1-405B (जिथे 405B त्याच्या क्षमतांना आकार देणाऱ्या पॅरामीटर्सची प्रचंड संख्या दर्शवते), त्याच ‘व्यक्तिरेखा’ स्थितीत प्रशंसनीय कामगिरी केली. त्याला ५६% वेळा मानव म्हणून ओळखले गेले. जरी GPT-4.5 च्या स्कोअरपेक्षा कमी असले तरी, हा निकाल अजूनही त्याला महत्त्वपूर्ण ५०% च्या उंबरठ्यावर ठेवतो, जो अनेकदा चाचणी उत्तीर्ण झाल्याचे सूचक मानला जातो. हे सूचित करते की त्याचे प्रतिसाद मानवी सहभागींच्या प्रतिसादांपेक्षा सांख्यिकीयदृष्ट्या वेगळे करणे कठीण होते.
  • आधाररेखा तुलना (Baseline Comparisons): संदर्भ देण्यासाठी आणि न्यायाधीश केवळ अंदाजे अंदाज लावत नाहीत याची खात्री करण्यासाठी, संशोधकांनी आधाररेखा मॉडेल्सचा समावेश केला. ELIZA, १९६० च्या दशकातील एक प्रसिद्ध सुरुवातीचा चॅटबॉट, जो MIT मध्ये जोसेफ वेझेनबॉम (Joseph Weizenbaum) यांनी डिझाइन केला होता, नियंत्रक म्हणून समाविष्ट केला गेला. आश्चर्यकारक नाही की, त्याच्या निर्मितीपासून AI मधील प्रचंड प्रगती त्याच्या कामगिरीत प्रतिबिंबित झाली, त्याने केवळ २३% ‘मानवी’ रेटिंग प्राप्त केले. मनोरंजक गोष्ट म्हणजे, GPT-4o, २०२४ मध्ये प्रसिद्ध झालेले OpenAI चे अधिक अलीकडील मॉडेल, या विशिष्ट चाचणी सेटअपमध्ये देखील समान आधाररेखा स्तरावर कामगिरी केली, त्याला केवळ २१% वेळा मानव मानले गेले. हे अधोरेखित करते की विशिष्ट संरचना, प्रशिक्षण किंवा कदाचित प्रॉम्प्टिंग धोरण स्वतःच, मानवी-सदृश संभाषणात्मक कामगिरी साध्य करण्यात महत्त्वपूर्ण भूमिका बजावतात.

अभ्यासाची पद्धत, या तीन-पक्षीय सेटअपचा (न्यायाधीश, लपलेला मानव, लपलेला AI) वापर करून, AI चे ट्युरिंग बेंचमार्कवर मूल्यांकन करण्याच्या काही पूर्वीच्या प्रयत्नांच्या तुलनेत तिच्या कठोरतेसाठी नोंदली जाते. संभाषणात्मक अविभाज्यता (conversational indistinguishability) मूल्यांकन करण्यासाठी अधिक आव्हानात्मक आणि वास्तववादी परिस्थिती निर्माण करणे हे त्याचे उद्दिष्ट आहे.

व्यक्तिरेखेची शक्ती: AI एक मेथड अॅक्टर म्हणून

या विशिष्ट अभ्यासात GPT-4.5 आणि LLaMa-3.1-405B च्या यश दरांवर परिणाम करणारा एक महत्त्वाचा घटक म्हणजे विशिष्ट ‘व्यक्तिरेखा’ प्रॉम्प्ट्सचा वापर. संशोधकांनी मॉडेल्सची चाचणी मानवी-सदृश पात्र किंवा शैली स्वीकारण्याच्या निर्देशांसह आणि त्याशिवाय केली. जेव्हा व्यक्तिरेखा प्रॉम्प्ट लागू केले गेले तेव्हा कामगिरीतील लक्षणीय वाढ आधुनिक LLMs च्या एका मुख्य पैलूवर जोर देते: निर्देशांवर आधारित त्यांचे आउटपुट जुळवून घेण्याची त्यांची उल्लेखनीय क्षमता.

AI साठी ‘व्यक्तिरेखा स्वीकारणे’ म्हणजे काय? याचा अर्थ मॉडेल आपले समायोजन करते:

  1. शैली आणि सूर (Tone and Style): सामान्य भाषेची नक्कल करणे, बोलीभाषा वापरणे किंवा संकोच किंवा विचारांचे अनुकरण करणे.
  2. सामग्री फोकस (Content Focus): संभाव्यतः वैयक्तिक अनुभवांचा (जरी काल्पनिक असले तरी) संदर्भ देणे, मते व्यक्त करणे किंवा स्वीकारलेल्या पात्राशी संबंधित लहान गप्पांमध्ये गुंतणे.
  3. संवाद पद्धत (Interaction Pattern): अशा प्रकारे प्रतिसाद देणे जे अधिक संवादात्मक वाटेलआणि केवळ माहिती पुनर्प्राप्ती प्रणालीसारखे नाही.

ही क्षमता थेट या मॉडेल्सना प्रशिक्षित करण्याच्या पद्धतीतून येते. LLMs नमुने, शैली आणि माहिती प्रचंड डेटासेटमधून शिकतात, ज्यात प्रामुख्याने इंटरनेटवर आणि अंकीय साहित्यात मानवांनी तयार केलेले टेक्स्ट आणि कोड असतात. जेव्हा विशिष्ट प्रकारच्या व्यक्तीप्रमाणे वागण्यास सांगितले जाते, तेव्हा मॉडेल त्याच्या प्रशिक्षण डेटामधील मानवी संभाषणाच्या विशाल उदाहरणांवर अवलंबून असते जे त्या व्यक्तिरेखेशी जुळतात. हे खऱ्या व्यक्तिमत्त्वापेक्षा अत्याधुनिक पॅटर्न जुळवणी आणि निर्मितीबद्दल अधिक आहे.

यामुळे, नोस्टालॅब (NostaLab) या इनोव्हेशन थिंक-टँकचे संस्थापक जॉन नोस्टा (John Nosta) यांच्यासारख्या निरीक्षकांनी व्यक्त केलेल्या कल्पनेकडे नेले जाते की, कदाचित आपण जे पाहत आहोत ते मानवी अर्थाने कृत्रिम बुद्धिमत्ता (intelligence) नाही, तर अत्यंत प्रगत कृत्रिम सहानुभूती (empathy) आहे – किंवा किमान, त्याचे खात्रीशीर अनुकरण आहे. AI सहानुभूती अनुभवत नाही, परंतु तिने ती व्यक्त करण्याशी संबंधित भाषिक नमुने शिकले आहेत. यश वर्तणुकीच्या नक्कलवर अवलंबून असते, प्रतिसादांना अशा पद्धतीने तयार करणे जे मानवी-सदृश वाटेल, विशेषतः चाचणीत वापरलेल्या पाच मिनिटांच्या संभाषणांसारख्या लहान संवादांदरम्यान.

संशोधकांनी स्वतः या अनुकूलतेवर प्रकाश टाकला: ‘हे निश्चितपणे LLMs ची सहजता आहे ज्याद्वारे त्यांना वेगवेगळ्या परिस्थितींमध्ये त्यांचे वर्तन जुळवून घेण्यासाठी प्रॉम्प्ट केले जाऊ शकते, ज्यामुळे ते इतके लवचिक बनतात: आणि वरवर पाहता मानव म्हणून पास होण्यास इतके सक्षम.’ ही लवचिकता दुधारी तलवार आहे, जी उल्लेखनीय संभाषणात्मक ओघवतेपणा सक्षम करते आणि त्याच वेळी सत्यता आणि संभाव्य हेरफेरबद्दल प्रश्न निर्माण करते.

एक ऐतिहासिक कामगिरी की सदोष मापदंड? ट्युरिंग टेस्टचे पुनर्मूल्यांकन

जरी मथळे AI ने ट्युरिंग टेस्ट ‘पास’ केल्याची घोषणा करत असले तरी, या कामगिरीच्या महत्त्वावर काळजीपूर्वक विचार करणे आवश्यक आहे. एका संक्षिप्त टेक्स्ट चॅटमध्ये बहुसंख्य न्यायाधीशांना खात्री पटवणे खरोखर मानवी-स्तरीय बुद्धिमत्तेच्या बरोबरीचे आहे का? बहुतेक तज्ञ, अभ्यासाच्या लेखकांसह, अप्रत्यक्षपणे नाही असे म्हणतील.

ट्युरिंग टेस्ट, इंटरनेट-स्केल डेटावर प्रशिक्षित LLMs च्या आगमनापूर्वी खूप पूर्वी कल्पित, प्रामुख्याने संभाषणात्मक कामगिरी (conversational performance) मोजते, खोल संज्ञानात्मक क्षमता नाही जसे की:

  • समज (Comprehension): AI खरोखर संभाषणातील बारकावे आणि परिणाम समजून घेते का, की ते केवळ सांख्यिकीयदृष्ट्या सर्वात संभाव्य पुढील शब्दांचा अंदाज लावत आहे?
  • चेतना (Consciousness): जागरूकता आणि विचारांचा व्यक्तिनिष्ठ अनुभव मानवांच्या (आणि संभाव्यतः इतर जैविक जीवनाच्या) क्षेत्रात दृढपणे राहतो. सध्याचे AI मॉडेल्स ते धारण करत असल्याचे कोणतेही पुरावे दर्शवत नाहीत.
  • तर्क (Reasoning): जरी AI विशिष्ट डोमेनमध्ये तार्किक पावले उचलू शकत असले तरी, सामान्य-उद्देशीय तर्क, सामान्य ज्ञान आणि नवीन परिस्थितीत कारण-आणि-परिणाम समजून घेण्याची त्याची क्षमता अजूनही मानवांच्या तुलनेत मर्यादित आहे.
  • हेतू (Intent): AI प्रतिसाद अल्गोरिदम आणि डेटावर आधारित तयार केले जातात; त्यांच्या संवादाला चालना देणारी खरी श्रद्धा, इच्छा किंवा हेतू त्यांच्यात नसतात.

म्हणून, ट्युरिंग टेस्टवरील उच्च स्कोअर हे दर्शविते की AI नक्कल खेळ (imitation game) अपवादात्मकपणे चांगले खेळू शकते, विशेषतः जेव्हा विशिष्ट प्रॉम्प्ट्सद्वारे मार्गदर्शन केले जाते. त्याने मानवी संभाषणात्मक नमुन्यांशी जवळून जुळणारे टेक्स्ट तयार करायला शिकले आहे. टेक एज्युकेशन कंपनी Waye च्या संस्थापक सिनेड बोव्हेल (Sinead Bovell) यांनी यावर विचार केला, प्रश्न विचारला की ‘कोणत्याही एका व्यक्तीने कधीही वाचू किंवा पाहू शकणार नाही इतक्या मानवी डेटावर’ प्रशिक्षित AI अखेरीस ‘मानवी वाटण्यात’ उत्कृष्ट होईल यात खरोखर आश्चर्य आहे का.

यामुळे एक मूलभूत प्रश्न निर्माण होतो: २१ व्या शतकात AI प्रगतीसाठी ट्युरिंग टेस्ट अजूनही संबंधित किंवा पुरेसा मापदंड आहे का? काहीजण असा युक्तिवाद करतात की संभाषणाद्वारे फसवणुकीवर त्याचा भर खूप संकुचित आणि संभाव्यतः दिशाभूल करणारा आहे. हे त्या क्षमतांचे पुरेसे मूल्यांकन करत नाही ज्यांना आपण अनेकदा खऱ्या बुद्धिमत्तेशी जोडतो, जसे की समस्या सोडवणे, सर्जनशीलता, नैतिक निर्णय किंवा पूर्णपणे नवीन भौतिक किंवा संकल्पनात्मक वातावरणांशी जुळवून घेणे.

ऐतिहासिक संदर्भ देखील संबंधित आहे. AI ने ट्युरिंग टेस्ट पास केल्याचे दावे यापूर्वीही समोर आले आहेत. २०१४ मध्ये, ‘युजीन गुस्टमन’ (Eugene Goostman) नावाचा चॅटबॉट, जो एका १३ वर्षीय युक्रेनियन मुलाचे अनुकरण करण्यासाठी डिझाइन केला होता, त्याने कथितरित्या एका समान चाचणी कार्यक्रमादरम्यान ३३% न्यायाधीशांना खात्री पटवली. जरी त्यावेळी काहींनी याचे कौतुक केले असले तरी, ३३% यश दर सामान्यतः उद्धृत केलेल्या ५०% उंबरठ्यापेक्षा कमी होता आणि तो एका व्यक्तिरेखेचा (एक गैर-मूळ इंग्रजी भाषिक किशोरवयीन) वापर करून प्राप्त केला गेला होता जो व्याकरणातील चुका किंवा ज्ञानातील उणिवा माफ करू शकत होता. अलीकडील निकालांच्या तुलनेत जे ५०% पेक्षा जास्त आहेत आणि अधिक अत्याधुनिक मॉडेल्ससह ७३% पर्यंत पोहोचले आहेत, संभाषणात्मक AI मधील प्रगती निर्विवाद आहे, परंतु चाचणीच्या स्वतःच्या मर्यादा संबंधित राहतात.

इंजिनमध्ये डोकावणे: संभाषणात्मक कौशल्याचे चालक

GPT-4.5 सारख्या मॉडेल्सची प्रभावी कामगिरी अपघाती नाही; हे AI विकासातील अथक नवकल्पना आणि परिष्करणाचा परिणाम आहे, विशेषतः लार्ज लँग्वेज मॉडेल्सच्या क्षेत्रात. अनेक घटक त्यांच्या अशा मानवी-सदृश टेक्स्ट तयार करण्याच्या क्षमतेत योगदान देतात:

  1. प्रचंड डेटासेट (Massive Datasets): आधुनिक LLMs खऱ्या अर्थाने टेक्स्ट आणि कोडच्या आश्चर्यकारक प्रमाणावर प्रशिक्षित केले जातात. या विशाल प्रदर्शनामुळे त्यांना गुंतागुंतीच्या व्याकरणात्मक रचना, विविध शब्दसंग्रह, शैलीत्मक बारकावे, तथ्यात्मक माहिती (जरी नेहमी अचूक नसली तरी) आणि सामान्य संभाषणात्मक क्रम शिकता येतात.
  2. अत्याधुनिक आर्किटेक्चर्स (Sophisticated Architectures): मूळ तंत्रज्ञान, अनेकदा ट्रान्सफॉर्मर (Transformer) आर्किटेक्चरवर आधारित, ‘अटेन्शन’ (attention) सारख्या यंत्रणा वापरते ज्यामुळे मॉडेल आउटपुट तयार करताना इनपुट प्रॉम्प्टमधील वेगवेगळ्या शब्दांच्या महत्त्वाचे वजन करू शकते. हे टेक्स्टच्या लांब पल्ल्यांवर संदर्भ आणि सुसंगतता राखण्यास मदत करते.
  3. प्रगत प्रशिक्षण तंत्र (Advanced Training Techniques): मानवी अभिप्रायातून मजबुतीकरण शिक्षण (Reinforcement Learning from Human Feedback - RLHF) सारखी तंत्रे मॉडेल्सना फाइन-ट्यून करण्यासाठी वापरली जातात. मानव वेगवेगळ्या AI प्रतिसादांना रेट करतात, मॉडेलला अधिक उपयुक्त, निरुपद्रवी आणि सत्यवान – आणि अनेकदा, अधिक मानवी-वाटणारे आउटपुट तयार करण्याच्या दिशेने मार्गदर्शन करतात.
  4. पॅरामीटर स्केल (Parameter Scale): LLaMa-3.1-405B सारखी मॉडेल्स, शेकडो अब्ज पॅरामीटर्ससह, प्रशिक्षणादरम्यान शिकलेली माहिती संग्रहित आणि प्रक्रिया करण्याची अधिक क्षमता ठेवतात, ज्यामुळे अधिक जटिल आणि सूक्ष्म टेक्स्ट निर्मिती शक्य होते.
  5. संदर्भ धारणा (Context Retention): नवीन मॉडेल्स संभाषणाच्या पूर्वीच्या भागांना ‘लक्षात ठेवण्याची’ सुधारित क्षमता दर्शवतात, ज्यामुळे अधिक सुसंगत आणि संबंधित संवाद साधता येतात, जे मानवी संवादाचे एक महत्त्वाचे पैलू आहे.
  6. मल्टीमोडल फाउंडेशन (Multimodal Foundations): GPT-4 सारख्या पूर्ववर्तींवर आधारित, ज्यात टेक्स्टच्या पलीकडे क्षमता (जसे की प्रतिमा समज) समाविष्ट होत्या, नवीन मॉडेल्सना संभाव्यतः अधिक समृद्ध अंतर्गत प्रतिनिधित्व देते, जरी चाचणी संवाद पूर्णपणे टेक्स्ट-आधारित असला तरी.

जेव्हा OpenAI ने GPT-4.5 चे पूर्वावलोकन केले, तेव्हा CEO सॅम ऑल्टमन (Sam Altman) यांनी टिप्पणी केली, ‘हे पहिले मॉडेल आहे जे मला एका विचारशील व्यक्तीशी बोलल्यासारखे वाटते.’ जरी व्यक्तिनिष्ठ असले तरी, ही भावना या तांत्रिक प्रगतीमुळे सक्षम झालेल्या संभाषणात्मक क्षमतेतील गुणात्मक झेप दर्शवते. व्यक्तिरेखा प्रॉम्प्ट नंतर एका शक्तिशाली लीव्हरप्रमाणे कार्य करते, या क्षमतांना शिकलेल्या डेटामधून काढलेल्या विशिष्ट मानवी संभाषणात्मक शैलीची नक्कल करण्याच्या दिशेने निर्देशित करते.

वास्तवावर परिणाम: सामाजिक आणि आर्थिक विचार

AI मानवी संभाषणाची खात्रीशीरपणे नक्कल करू शकते हे प्रदर्शन, जरी ते खऱ्या बुद्धिमत्तेच्या बरोबरीचे नसले तरी, शैक्षणिक चाचण्यांच्या पलीकडे जाणारे महत्त्वपूर्ण वास्तविक-जगातील परिणाम आहेत. जसे सिनेड बोव्हेल यांनी नमूद केले, या प्रगतीचे संभाव्यतः ‘मोठे आर्थिक आणि सामाजिक परिणाम’ आहेत.

  • नोकरी बाजार विस्कळीत होणे (Job Market Disruption): संवादावर मोठ्या प्रमाणावर अवलंबून असलेली क्षेत्रे AI एकत्रीकरण आणि संभाव्य विस्थापनासाठी प्रमुख उमेदवार आहेत. ग्राहक सेवा भूमिका, सामग्री निर्मिती (लेख लिहिणे, विपणन कॉपी), भाषांतर सेवा आणि अगदी शिकवणी किंवा वैयक्तिक सहाय्याच्या काही बाबी वाढत्या प्रमाणात अत्याधुनिक चॅटबॉट्स आणि AI एजंट्सद्वारे हाताळल्या जाऊ शकतात. ‘एजेंटिक AI’ (Agentic AI) – डेटा विश्लेषण, विक्री समर्थन किंवा आरोग्यसेवा व्यवस्थापन यांसारख्या क्षेत्रांमध्ये स्वायत्तपणे कार्यप्रवाह करण्यासाठी डिझाइन केलेल्या प्रणाली – कडे अलीकडील जोर आणखी गती मिळवतो जर हे एजंट मानवी-सदृश ओघवतेपणाने संवाद साधू शकतील.
  • मानवी संबंध आणि विश्वास (Human Relationships and Trust): जसजसे AI सहानुभूती आणि व्यक्तिमत्त्वाची नक्कल करण्यात अधिक प्रवीण होईल, तसतसे ते मानवी संवाद गतिशीलतेत बदल करू शकते. लोक AI साथीदारांशी भावनिक बंध तयार करतील का? जेव्हा मानव आणि AI यांच्यात फरक करणे कठीण होईल तेव्हा आपण ऑनलाइन संवादांमध्ये सत्यता कशी सुनिश्चित करू? फसवणूक, मग ती घोटाळ्यांसाठी असो, चुकीची माहिती पसरवण्यासाठी असो किंवा मतांमध्ये फेरफार करण्यासाठी असो, त्याची शक्यता लक्षणीयरीत्या वाढते.
  • ‘डीपर फेक्स’ चा उदय (The Rise of ‘Deeper Fakes’): FAU येथील सेंटर फॉर द फ्युचर माइंडच्या (Center for the Future Mind at FAU) संस्थापक संचालक सुसान श्नाइडर (Susan Schneider) यांनी या मार्गाबद्दल चिंता व्यक्त केली, ‘डीपर फेक्स’ (deeper fakes) आणि अगदी ‘चॅटबॉट सायबरवॉर्स’ (chatbot cyberwars) यांचा समावेश असलेल्या संभाव्य ‘भीषण’ परिस्थितीचा अंदाज वर्तवला. जर AI टेक्स्टमध्ये व्यक्तींची खात्रीशीरपणे नक्कल करू शकत असेल, तर दुर्भावनापूर्ण प्रतिरूपणाची शक्यता नाटकीयरित्या वाढते.
  • नैतिक संरेखन (Ethical Alignment): श्नाइडर यांनी संरेखनाच्या महत्त्वपूर्ण मुद्द्यावर देखील प्रकाश टाकला: AI प्रणाली मानवी मूल्यांनुसार वागतील याची खात्री करणे. एक AI जे मानवी संभाषणाची पूर्णपणे नक्कल करू शकते परंतु नैतिक कंपासचा अभाव आहे किंवा प्रशिक्षणादरम्यान शिकलेल्या पक्षपाती डेटावर कार्य करते, ते हानिकारक रूढीवादी कल्पनांना कायम ठेवू शकते किंवा अनैतिक शिफारसी करू शकते, हे सर्व पूर्णपणे वाजवी वाटत असताना. या मॉडेल्सनी ‘योग्यरित्या संरेखित’ (properly aligned) नसतानाही चाचणी उत्तीर्ण केली ही वस्तुस्थिती अनेक संशोधकांसाठी चिंतेचा विषय आहे.

संभाषणात्मकरित्या मानव म्हणून ‘पास’ होण्याची क्षमता केवळ तांत्रिक उत्सुकता नाही; ती आपण कसे काम करतो, संवाद साधतो, विश्वास ठेवतो आणि वाढत्या डिजिटल जगात एकमेकांशी संबंध ठेवतो याच्याशी थेट छेदते.

भविष्याचा वेध: नक्कल पलीकडे खरी क्षमता

जरी GPT-4.5 आणि LLaMa-3.1 चा समावेश असलेले अलीकडील ट्युरिंग टेस्ट निकाल AI विकासाच्या इतिहासातील उल्लेखनीय टप्पे असले तरी, ते प्रामुख्याने नैसर्गिक भाषा निर्मिती आणि नक्कल (natural language generation and mimicry) मधील आश्चर्यकारक प्रगतीवर प्रकाश टाकतात. अनेक तज्ञांमधील एकमत असे आहे की आता लक्ष केवळ संभाषणात्मक नक्कलमध्ये उत्कृष्ट कामगिरी करण्याऐवजी खरी समज, तर्क आणि नैतिक वर्तन दर्शविणाऱ्या AI च्या विकासाकडे वळवले पाहिजे.

यासाठी पारंपरिक ट्युरिंग टेस्टच्या पलीकडे जाऊन नवीन बेंचमार्क आणि मूल्यांकन पद्धतींकडे जाणे आवश्यक आहे. हे कसे दिसू शकतात?

  • नवीन परिस्थितींमध्ये जटिल समस्या सोडवण्यावर लक्ष केंद्रित करणाऱ्या चाचण्या.
  • मजबूत सामान्य ज्ञानाच्या तर्काचे (robust common-sense reasoning) मूल्यांकन.
  • अस्पष्ट परिस्थितीत नैतिक निर्णय घेण्याचे (ethical decision-making) मूल्यांकन.
  • सर्जनशीलता आणि मूळ विचारांचे (creativity and original thought) मोजमाप, केवळ विद्यमान नमुन्यांचे पुनर्संयोजन नाही.
  • दीर्घकालीन नियोजन आणि धोरणात्मक विचार (long-term planning and strategic thinking) आवश्यक असलेल्या चाचण्या.

क्षेत्रातील अनेकांसाठी अंतिम ध्येय केवळ खात्रीशीर संभाषणकर्ते तयार करणे नाही तर वास्तविक-जगातील समस्या सोडवण्यासाठी आणि मानवी क्षमता वाढवण्यासाठी विश्वसनीय, विश्वासार्ह साधने म्हणून काम करू शकणारे AI विकसित करणे आहे. मूळ अहवालातील निष्कर्षानुसार, AI चे भविष्य कदाचित त्याच्या व्यावहारिक उपयुक्ततेमध्ये (practical utility) – वैज्ञानिक शोधात मदत करणे, आरोग्यसेवा सुधारणे, जटिल प्रणाली व्यवस्थापित करणे – केवळ खात्रीशीरपणे गप्पा मारण्याच्या क्षमतेपेक्षा अधिक आहे.

कृत्रिम सामान्य बुद्धिमत्तेकडे (Artificial General Intelligence - AGI) प्रवास, जर साध्य करण्यायोग्य असेल तर, लांब आणि गुंतागुंतीचा आहे. ट्युरिंग टेस्ट पास करण्यासारखे टप्पे मार्गावरील महत्त्वपूर्ण दर्शक आहेत, जे सध्याच्या तंत्रांची शक्ती दर्शवतात. तथापि, ते आपल्या सध्याच्या मेट्रिक्सच्या मर्यादा आणि या शक्तिशाली तंत्रज्ञानाचा विकास सुरू असताना आपण संबोधित करणे आवश्यक असलेल्या गहन नैतिक आणि सामाजिक प्रश्नांची महत्त्वपूर्ण आठवण करून देतात. नक्कल खेळात नवीन चॅम्पियन असू शकतात, परंतु खऱ्या अर्थाने बुद्धिमान, फायदेशीर आणि संरेखित AI तयार करण्याचे आव्हान नुकतेच सुरू झाले आहे.