போலி விளையாட்டு மறுபார்வை: AI டூரிங் சோதனையை வென்றதா?

செயற்கை நுண்ணறிவின் (AI) நிலப்பரப்பு தொடர்ந்து மாறிக்கொண்டே இருக்கிறது, ஒரு காலத்தில் அறிவியல் புனைகதையாக இருந்த மைல்கற்களால் இது குறிக்கப்படுகிறது. எழுபது ஆண்டுகளுக்கு முன்பு ஒரு இயந்திரம் மனித உரையாடலை நம்பத்தகுந்த வகையில் பிரதிபலிக்கும் திறனை அளவிடுவதற்காக உருவாக்கப்பட்ட டூரிங் சோதனை, மிகவும் நீடித்த அளவுகோல்களில் ஒன்றாகும். பல தசாப்தங்களாக, இது ஒரு வலிமையான, ஒருவேளை குறியீட்டு சவாலாகவே இருந்தது. இருப்பினும், சமீபத்திய முன்னேற்றங்கள் இந்த வரம்பு தீர்க்கமாக கடந்துவிட்டதாகக் கூறுகின்றன. கலிபோர்னியா பல்கலைக்கழகம், சான் டியாகோவில் (University of California at San Diego) இருந்து வெளிவரும் ஒரு ஆய்வு, OpenAI-ன் மேம்பட்ட மொழி மாதிரி, GPT-4.5, சோதனையை வழிநடத்தியது மட்டுமல்லாமல், வியக்கத்தக்க வெற்றியுடன் அதைச் செய்தது, உண்மையான மனிதர்களை விட அதன் மனித प्रतिरूपத்தில் பெரும்பாலும் அதிக நம்பகத்தன்மையை நிரூபித்தது. இந்த முடிவு AI திறன்கள் பற்றிய உரையாடலை புதிய பிரதேசத்திற்குத் தள்ளுகிறது, சோதனை தன்னை, இயந்திர நுண்ணறிவின் தன்மை மற்றும் நமது சொந்த மொழியியல் நடத்தையை இவ்வளவு திறம்பட பிரதிபலிக்கக்கூடிய நிறுவனங்களை உருவாக்குவதன் தாக்கங்கள் ஆகியவற்றைக் கூர்ந்து கவனிக்கக் கோருகிறது.

டிஜிட்டல் ஏமாற்றத்தைப் புரிந்துகொள்ளுதல்: பரிசோதனையின் உள்ளே

‘பெரிய மொழி மாதிரிகள் டூரிங் சோதனையில் தேர்ச்சி பெறுகின்றன’ (‘Large Language Models Pass the Turing Test’) என்ற தலைப்பில் பொருத்தமாக பெயரிடப்பட்ட இந்த ஆராய்ச்சி முயற்சி, தற்போது சக மதிப்பாய்வுக்கு உட்பட்டுள்ளது, இது AI-ன் உரையாடல் திறன்களை மனிதர்களுடன் நேரடி ஒப்பீட்டில் ஆய்வு செய்ய வடிவமைக்கப்பட்ட ஒரு முறையைப் பயன்படுத்தியது. அமைப்பு ஒரு ஆன்லைன் தளமாக இருந்தது, அங்கு தொடர்புகள் முற்றிலும் உரை வழியாக மத்தியஸ்தம் செய்யப்பட்டன, இது மனிதரல்லாத பங்கேற்பாளரைக் காட்டிக்கொடுக்கக்கூடிய காட்சி மற்றும் செவிவழி குறிப்புகளை அகற்றியது. இந்த டிஜிட்டல் முகமூடி அணிவகுப்புக்கு கிட்டத்தட்ட முந்நூறு பல்கலைக்கழக மாணவர்கள் நியமிக்கப்பட்டனர். ஒவ்வொரு பங்கேற்பாளருக்கும் மூன்று பாத்திரங்களில் ஒன்று தோராயமாக ஒதுக்கப்பட்டது: பகுத்தறியும் நீதிபதி, ஒரு மனித ‘சாட்சி’, அல்லது, ஆரம்பத்தில் நீதிபதிக்குத் தெரியாமல், ஒரு AI ‘சாட்சி’.

முக்கிய பணி ஒரு வற்புறுத்தல் விளையாட்டாக இருந்தது. மனித சாட்சி மற்றும் AI சாட்சி இருவரும், தனித்தனி டிஜிட்டல் அறைகளில் இருந்து செயல்பட்டு, நீதிபதியுடன் உரை அடிப்படையிலான உரையாடலில் ஈடுபட்டனர். அவர்களின் நோக்கம் தனித்துவமானது: நீதிபதியை தங்கள் மனித அடையாளத்தை நம்ப வைப்பது. நீதிபதி, ஒரு குறிப்பிட்ட கால இடைவெளிக்குப் பிறகு, முக்கியமான முடிவை எதிர்கொண்டார் - எந்த உரையாடுபவர் மனிதர் மற்றும் எது இயந்திரம் என்பதைக் கண்டறிவது.

இது ஒரு AI-ஐ மனித அடிப்படைக்கு எதிராக சோதிப்பது மட்டுமல்ல. ஆராய்ச்சியாளர்கள் பல வேறுபட்ட AI நிரல்களை இந்த சவாலுக்கு எதிராக நிறுத்தி, உரையாடல் AI-ன் நிலை குறித்த ஒப்பீட்டு முன்னோக்கை வழங்கினர்:

  • GPT-4.5 (persona prompt உடன்): இந்த மாதிரி, குறிப்பாக மனிதனைப் போன்ற ஆளுமையை ஏற்றுக்கொள்ள அறிவுறுத்தப்பட்டபோது, ஒரு குறிப்பிடத்தக்க சாதனையை எட்டியது. இந்த நிலையில் அது செயல்பட்ட பரிமாற்றங்களில் 73% இல், நீதிபதிகள் தவறுதலாக அதை மனித பங்கேற்பாளர் என்று அடையாளம் கண்டனர். இந்த எண்ணிக்கை முழுமையான அடிப்படையில் உயர்ந்தது மட்டுமல்ல; அதே சோதனை அமைப்பிற்குள் தங்கள் சொந்த மனிதநேயத்தை நிரூபிக்க முயன்ற உண்மையான மனித சாட்சிகளின் வெற்றி விகிதத்தை இது மிஞ்சியது.
  • Meta-வின் LLaMa 3.1 405b (persona prompt உடன்): மற்றொரு சக்திவாய்ந்த சமகால பெரிய மொழி மாதிரி, LLaMa 3.1, இதேபோல் தூண்டப்பட்டபோது குறிப்பிடத்தக்க வற்புறுத்தும் திறனைக் காட்டியது, நீதிபதிகளை 56% நேரம் ஏமாற்றியது. இந்த குறிப்பிட்ட சோதனையில் GPT-4.5-ன் உயரங்களை எட்டவில்லை என்றாலும், அதன் செயல்திறன் மனித மற்றும் இயந்திர தகவல்தொடர்புக்கு இடையிலான கோடுகளை கணிசமாக மங்கலாக்கியது.
  • GPT-4o (OpenAI-ன் முந்தைய மாதிரி): சுவாரஸ்யமாக, OpenAI-ன் சற்று முந்தைய மாதிரி, GPT-4o, குறிப்பிட்ட persona prompt இல்லாமல் சோதிக்கப்பட்டபோது குறிப்பிடத்தக்க வகையில் வித்தியாசமாக செயல்பட்டது. இது மனிதனாக 21% நேரம் மட்டுமே அடையாளம் காணப்பட்டது, இது வெளிப்படையாக வழிகாட்டப்படாதபோது மாதிரிகளின் உரையாடல் பாணிகளில் வடிவமைக்கப்பட்ட அறிவுறுத்தல்களின் முக்கிய பங்கு அல்லது உள்ளார்ந்த வேறுபாடுகளைக் குறிக்கிறது.
  • ELIZA: ஒரு வரலாற்று அளவுகோலாக, ஆராய்ச்சியாளர்கள் ELIZA-வைச் சேர்த்தனர், இது 1960 களில் உருவாக்கப்பட்ட ஒரு முன்னோடி chatbot ஆகும், இது ஒரு ரோஜேரியன் உளவியல் சிகிச்சையாளரைப் பின்பற்றும் அதன் எளிய முறை-பொருந்தும் நுட்பங்களுக்காக அறியப்பட்டது. ஆச்சரியப்படத்தக்க வகையில், ELIZA-வின் மனிதனைப் பிரதிபலிக்கும் முயற்சிகள் நவீன பங்கேற்பாளர்களுக்கு மிகவும் குறைவாகவே நம்பத்தகுந்ததாக இருந்தன, இது மனிதனாக 23% நேரம் மட்டுமே மதிப்பிடப்பட்டது. இது இடைப்பட்ட தசாப்தங்களில் இயற்கை மொழி செயலாக்கத்தில் ஏற்பட்ட மகத்தான முன்னேற்றத்தை எடுத்துக்காட்டுகிறது.

UC San Diego-வின் மொழி மற்றும் அறிவாற்றல் ஆய்வகத்தைச் சேர்ந்த (Language and Cognition Lab) ஆய்வில் ஈடுபட்ட ஆராய்ச்சியாளரான Cameron Jones, இந்த வியக்கத்தக்க கண்டுபிடிப்பை சுருக்கமாகக் கூறினார். மனித நீதிபதிகள் கணிசமாக சிரமப்பட்டதாக அவர் குறிப்பிட்டார், GPT-4.5 அல்லது LLaMa-வின் தூண்டப்பட்ட பதிப்புகளுக்கும் மனிதர்களுக்கும் இடையில் வேறுபாடு காண முயற்சிக்கும்போது சீரற்ற வாய்ப்பை விட சிறப்பாக செயல்படவில்லை. மேலும் கூர்மையாக, அவர் எதிர்-உள்ளுணர்வு முடிவை வலியுறுத்தினார்: ‘மேலும் 4.5 உண்மையான மனிதர்களை விட கணிசமாக அதிக முறை மனிதனாக மதிப்பிடப்பட்டது!’ இது AI, குறிப்பிட்ட சூழ்நிலைகளின் கீழ், உரையில் மனிதநேயத்தை நடிப்பதில் மனிதர்களை விட சிறப்பாக இருக்கலாம் என்று கூறுகிறது, ஒருவேளை உரையாடல் விதிமுறைகளை மிகவும் நெருக்கமாகப் பின்பற்றுவதன் மூலம் அல்லது உண்மையான மக்கள் வெளிப்படுத்தும் தனித்துவமான அடையாளங்களைத் தவிர்ப்பதன் மூலம். இதன் உட்பொருள் ஆழமானது - AI தேர்ச்சி பெறுவது மட்டுமல்ல; இந்த குறிப்பிட்ட சூழலில் உணரப்பட்ட மனிதநேயத்திற்கு இது ஒரு புதிய தரத்தை அமைத்தது.

அளவுகோலை மறுபரிசீலனை செய்தல்: டூரிங் சோதனை இன்னும் தங்கத் தரமா?

ஒரு இயந்திரம் டூரிங் சோதனையை ‘தேர்ச்சி’ பெற்றுள்ளது என்ற செய்தி, குறிப்பாக மனிதர்களை விஞ்சி, தவிர்க்க முடியாமல் விவாதத்தைத் தூண்டுகிறது. இது உண்மையான இயந்திர நுண்ணறிவின் விடியலைக் குறிக்கிறதா, ஆலன் டூரிங் (Alan Turing) அவரே ஊகித்த வகை? அல்லது இது நம்முடையதிலிருந்து முற்றிலும் மாறுபட்ட ஒரு சகாப்தத்தில் அவர் முன்மொழிந்த சோதனையின் வரம்புகளை வெறுமனே வெளிப்படுத்துகிறதா? AI சமூகத்தில் பல முக்கிய குரல்கள் எச்சரிக்கையுடன் இருக்குமாறு வலியுறுத்துகின்றன, இந்த குறிப்பிட்ட தேர்வில் வெற்றி பெறுவது செயற்கை பொது நுண்ணறிவை (artificial general intelligence - AGI) அடைவதற்கு சமமாகாது என்று கூறுகின்றன - இது ஒரு AI-ன் பரந்த அளவிலான பணிகளில் மனித மட்டத்தில் அறிவைப் புரிந்துகொள்ளவும், கற்றுக்கொள்ளவும் மற்றும் பயன்படுத்தவும் கூடிய கற்பனையான திறன்.

சாண்டா ஃபே நிறுவனத்தில் (Santa Fe Institute) AI அறிஞரான மெலனி மிட்செல் (Melanie Mitchell), Science இதழில் இந்த சந்தேகத்தை சக்திவாய்ந்த முறையில் வெளிப்படுத்தினார். டூரிங் சோதனை, குறிப்பாக அதன் உன்னதமான உரையாடல் வடிவத்தில், உண்மையான அறிவாற்றல் திறனின் அளவீடாக இருப்பதை விட, நமது சொந்த மனிதப் போக்குகள் மற்றும் அனுமானங்களின் பிரதிபலிப்பாக இருக்கலாம் என்று அவர் வாதிடுகிறார். நாம் சமூக உயிரினங்கள், சரளமான மொழியை அடிப்படை சிந்தனை மற்றும் நோக்கத்தின் அடையாளமாக விளக்குவதற்கு முன்கூட்டியே தயாராக இருக்கிறோம். GPT-4.5 போன்ற பெரிய மொழி மாதிரிகள் மனித உரையின் பிரம்மாண்டமான தரவுத்தொகுப்புகளில் பயிற்சி அளிக்கப்படுகின்றன, இது வடிவங்களை அடையாளம் காண்பதிலும் புள்ளிவிவர ரீதியாக சாத்தியமான மொழியியல் பதில்களை உருவாக்குவதிலும் அசாதாரணமாக திறமையானவையாக மாற உதவுகிறது. அவை தொடரியலில் சிறந்து விளங்குகின்றன, உரையாடல் ஓட்டத்தைப் பின்பற்றுகின்றன, மேலும் பாணி நுணுக்கங்களைக் கூட பிரதிபலிக்க முடியும். இருப்பினும், மிட்செல் வாதிடுகிறார், ‘இயற்கை மொழியில் சரளமாகப் பேசும் திறன், சதுரங்கம் விளையாடுவது போல, பொது நுண்ணறிவுக்கான உறுதியான ஆதாரம் அல்ல.’ ஒரு குறிப்பிட்ட திறனில் தேர்ச்சி, மொழி போன்ற சிக்கலான ஒன்றாக இருந்தாலும், பரந்த புரிதல், உணர்வு அல்லது பயிற்சியின் போது கற்றுக்கொண்ட வடிவங்களுக்கு அப்பாற்பட்ட புதிய பகுத்தறிவுக்கான திறனைக் குறிக்க வேண்டிய அவசியமில்லை.

மிட்செல் மேலும் டூரிங் சோதனை கருத்தின் வளர்ந்து வரும் விளக்கம், மற்றும் ஒருவேளை நீர்த்துப்போதல் ஆகியவற்றைக் சுட்டிக்காட்டுகிறார். அவர் ஸ்டான்போர்ட் பல்கலைக்கழகத்தில் (Stanford University) இருந்து முந்தைய GPT-4 மாதிரி குறித்த ஆராய்ச்சி தொடர்பான 2024 அறிவிப்பைக் குறிப்பிடுகிறார். ஸ்டான்போர்ட் குழு தங்கள் கண்டுபிடிப்புகளை ‘ஒரு செயற்கை நுண்ணறிவு ஆதாரம் கடுமையான டூரிங் சோதனையில் தேர்ச்சி பெற்ற முதல் முறைகளில் ஒன்று’ என்று பாராட்டியது. ஆயினும், மிட்செல் கவனிப்பது போல, அவர்களின் முறை GPT-4-ன் பதில்களில் உள்ள புள்ளிவிவர வடிவங்களை உளவியல் ஆய்வுகள் மற்றும் ஊடாடும் விளையாட்டுகளில் மனித தரவுகளுடன் ஒப்பிடுவதை உள்ளடக்கியது. ஒப்பீட்டு பகுப்பாய்வின் செல்லுபடியாகும் வடிவமாக இருந்தாலும், இந்த சூத்திரம் ‘டூரிங்கிற்கு அடையாளம் காணக்கூடியதாக இருக்காது’ என்று அவர் வறண்ட முறையில் குறிப்பிடுகிறார், அதன் அசல் முன்மொழிவு பிரித்தறிய முடியாத உரையாடலை மையமாகக் கொண்டது.

இது ஒரு முக்கியமான புள்ளியை எடுத்துக்காட்டுகிறது: டூரிங் சோதனை ஒரு ஒற்றைக்கல் நிறுவனம் அல்ல. அதன் விளக்கம் மற்றும் பயன்பாடு வேறுபட்டுள்ளது. UC San Diego பரிசோதனை டூரிங்கின் அசல் உரையாடல் கவனத்திற்கு நெருக்கமாகத் தோன்றுகிறது, ஆனாலும் இங்கேயும் கேள்விகள் எழுகின்றன. சோதனை உண்மையில் நுண்ணறிவை அளவிடுகிறதா, அல்லது அது AI-ன் ஒரு குறிப்பிட்ட பணியைச் செய்யும் திறனை அளவிடுகிறதா - ஆளுமை தழுவல் மற்றும் உரையாடல் பிரதிபலிப்பு - விதிவிலக்காக நன்றாக? GPT-4.5 ஒரு ‘persona prompt’ கொடுக்கப்பட்டபோது கணிசமாக சிறப்பாக செயல்பட்டது என்ற உண்மை, அதன் வெற்றி ஒரு உள்ளார்ந்த, பொதுமைப்படுத்தக்கூடிய மனிதனைப் போன்ற தரத்தை விட அறிவுறுத்தல்களின் அடிப்படையில் திறமையான நடிப்பைப் பற்றியதாக இருக்கலாம் என்று கூறுகிறது.

விமர்சகர்கள் LLM-கள் மனித மனங்களிலிருந்து அடிப்படையில் வித்தியாசமாக செயல்படுவதாக வாதிடுகின்றனர். அவை மனிதர்கள் செய்யும் விதத்தில் கருத்துக்களை ‘புரிந்து கொள்ளவில்லை’; அவை கற்றுக்கொண்ட புள்ளிவிவர உறவுகளின் அடிப்படையில் சின்னங்களைக் கையாளுகின்றன. அவற்றுக்கு வாழ்ந்த அனுபவம், உருவகம், உணர்வு மற்றும் உண்மையான நோக்கம் இல்லை. அவை உணர்ச்சிகள் அல்லது அனுபவங்கள் பற்றி உரையை உருவாக்க முடியும் என்றாலும், அவை அவற்றை உணரவில்லை. எனவே, மொழியியல் வெளியீட்டை மட்டுமே அடிப்படையாகக் கொண்ட ஒரு சோதனையில் தேர்ச்சி பெறுவது பொறியியல் மற்றும் தரவு அறிவியலின் ஈர்க்கக்கூடிய சாதனையாக இருக்கலாம், ஆனால் அது உண்மையான உணர்வுள்ள நுண்ணறிவுக்கான இடைவெளியைக் குறைக்க வேண்டிய அவசியமில்லை. சோதனை இயந்திரங்களின் உள் நிலைகளைப் பற்றி வெளிப்படுத்துவதை விட, மேற்பரப்பு அளவிலான மனித நடத்தையைப் பிரதிபலிக்க பாரிய தரவுத்தொகுப்புகள் மற்றும் அதிநவீன வழிமுறைகளின் சக்தியைப் பற்றி அதிகம் வெளிப்படுத்தக்கூடும். மொழியியல் சரளம் மனித நுண்ணறிவின் ஆழமான, பன்முகத்தன்மைக்கு போதுமான பதிலியாக உள்ளதா என்பதை எதிர்கொள்ள இது நம்மை கட்டாயப்படுத்துகிறது.

கோடுகள் மங்கும் உலகத்தை வழிநடத்துதல்

GPT-4.5-ன் செயல்திறன் உண்மையான நுண்ணறிவைக் கொண்டிருக்கிறதா அல்லது அதிநவீன பிரதிபலிப்பை மட்டுமே கொண்டிருக்கிறதா என்பதைப் பொருட்படுத்தாமல், நடைமுறை தாக்கங்கள் மறுக்க முடியாதவை மற்றும் தொலைநோக்குடையவை. ஆன்லைனில் மனிதனால் உருவாக்கப்பட்ட மற்றும் இயந்திரத்தால் உருவாக்கப்பட்ட உரையை வேறுபடுத்துவது பெருகிய முறையில் கடினமாகி வரும், சில சூழல்களில் சாத்தியமற்றதாக இல்லாவிட்டால், ஒரு சகாப்தத்திற்குள் நுழைகிறோம். இது நம்பிக்கை, தகவல்தொடர்பு மற்றும் நமது டிஜிட்டல் சமூகத்தின் கட்டமைப்பிற்கே ஆழமான விளைவுகளைக் கொண்டுள்ளது.

AI மனிதர்களை நம்பத்தகுந்த வகையில் प्रतिरूपப்படுத்தும் திறன் தவறான தகவல் மற்றும் கையாளுதல் பற்றிய உடனடி கவலைகளை எழுப்புகிறது. தீங்கிழைக்கும் நடிகர்கள் அதிநவீன ஃபிஷிங் மோசடிகளுக்கு அத்தகைய தொழில்நுட்பத்தைப் பயன்படுத்தலாம், தனிநபர்களுக்கு ஏற்றவாறு பிரச்சாரத்தைப் பரப்பலாம் அல்லது பொதுக் கருத்தைத் திசைதிருப்ப அல்லது ஆன்லைன் சமூகங்களைக் சீர்குலைக்க போலி சமூக ஊடக சுயவிவரங்களின் படைகளை உருவாக்கலாம். கட்டுப்படுத்தப்பட்ட பரிசோதனையில் பகுத்தறியும் பயனர்கள் கூட வித்தியாசத்தைச் சொல்ல சிரமப்பட்டால், திறந்த இணையத்தில் ஏமாற்றுவதற்கான சாத்தியம் மகத்தானது. AI-உந்துதல் प्रतिरूपத்திற்கும் AI-கண்டறிதல் கருவிகளுக்கும் இடையிலான ஆயுதப் போட்டி தீவிரமடைய வாய்ப்புள்ளது, ஆனால் நன்மை பெரும்பாலும் प्रतिरूपப்பாளர்களிடம் இருக்கலாம், குறிப்பாக மாதிரிகள் மேலும் செம்மைப்படுத்தப்படுவதால்.

தீங்கிழைக்கும் பயன்பாடுகளுக்கு அப்பால், மங்கும் கோடுகள் அன்றாட தொடர்புகளை பாதிக்கின்றன. சாட்போட்கள் மனித முகவர்களிடமிருந்து பிரித்தறிய முடியாததாக மாறும்போது வாடிக்கையாளர் சேவை எவ்வாறு மாறும்? ஆன்லைன் டேட்டிங் சுயவிவரங்கள் அல்லது சமூக தொடர்புகளுக்கு புதிய சரிபார்ப்பு வடிவங்கள் தேவையா? மனிதர்கள் மீதான உளவியல் தாக்கமும் குறிப்பிடத்தக்கது. நீங்கள் ஆன்லைனில் உரையாடும் நிறுவனம் ஒரு AI ஆக இருக்கலாம் என்பதை அறிவது அவநம்பிக்கையையும் அந்நியப்படுத்தலையும் வளர்க்கக்கூடும். மாறாக, மிகவும் நம்பத்தகுந்த AI தோழர்களுடன் உணர்ச்சி ரீதியான இணைப்புகளை உருவாக்குவது, அவர்களின் தன்மையை அறிந்திருந்தாலும் கூட, அதன் சொந்த நெறிமுறை மற்றும் சமூக கேள்விகளை முன்வைக்கிறது.

GPT-4.5 போன்ற மாதிரிகளின் வெற்றி நமது கல்வி முறைகள் மற்றும் படைப்புத் தொழில்களையும் சவால் செய்கிறது. AI நம்பத்தகுந்த கட்டுரைகளை உருவாக்க முடியும் போது மாணவர் பணியை நாம் எவ்வாறு மதிப்பிடுவது? AI செய்தி கட்டுரைகள், ஸ்கிரிப்டுகள் அல்லது வாசகர்களுடன் எதிரொலிக்கும் கவிதைகளை கூட உருவாக்க முடியும் போது மனித படைப்பாற்றலின் மதிப்பு என்ன? AI பெருக்கம் மற்றும் உதவிக்கு ஒரு சக்திவாய்ந்த கருவியாக இருக்க முடியும் என்றாலும், மனித வெளியீட்டைப் பிரதிபலிக்கும் அதன் திறன் அசல் தன்மை, படைப்பாற்றல் மற்றும் அறிவுசார் சொத்துரிமை ஆகியவற்றை மறு மதிப்பீடு செய்ய வேண்டியதை அவசியமாக்குகிறது.

மேலும், UC San Diego ஆய்வு AI முன்னேற்றத்தை அளவிட உரையாடல் சோதனைகளை மட்டுமே நம்பியிருப்பதன் வரம்புகளை அடிக்கோடிட்டுக் காட்டுகிறது. நிபுணர் பிரதிபலிப்பாளர்களை விட உண்மையான அறிவார்ந்த அமைப்புகளை (AGI) உருவாக்குவதே குறிக்கோளாக இருந்தால், ஒருவேளை பகுத்தறிவு, பல்வேறு களங்களில் சிக்கல் தீர்த்தல், புதிய சூழ்நிலைகளுக்கு ஏற்ப மாறும் தன்மை, மற்றும் ஒருவேளை உணர்வு அல்லது சுய விழிப்புணர்வின் அம்சங்களை மதிப்பிடும் அளவுகோல்களை நோக்கி கவனம் மாற வேண்டும் - வரையறுக்க, அளவிட மிகவும் கடினமான கருத்துக்கள். வேறுபட்ட தொழில்நுட்ப யுகத்தில் கருத்தரிக்கப்பட்ட டூரிங் சோதனை, ஒரு உத்வேகம் தரும் இலக்கு கம்பமாக அதன் நோக்கத்தைச் செய்திருக்கலாம், ஆனால் நவீன AI-ன் சிக்கல்கள் மிகவும் நுணுக்கமான மற்றும் பன்முக மதிப்பீட்டு கட்டமைப்புகளைக் கோரலாம்.

GPT-4.5-ன் சாதனை ஒரு இறுதிப் புள்ளியை விட விமர்சனப் பிரதிபலிப்புக்கான ஒரு ஊக்கியாகும். இது மனித மொழியில் தேர்ச்சி பெறுவதில் தற்போதைய AI நுட்பங்களின் அசாதாரண சக்தியை நிரூபிக்கிறது, இது நன்மை மற்றும் தீங்கு இரண்டிற்கும் மகத்தான ஆற்றலைக் கொண்ட ஒரு சாதனையாகும். இது நுண்ணறிவு, அடையாளம் மற்றும் மனித-இயந்திர தொடர்புகளின் எதிர்காலம் பற்றிய அடிப்படை கேள்விகளுடன் மல்யுத்தம் செய்ய நம்மை கட்டாயப்படுத்துகிறது, அங்கு நம்பத்தகுந்த வகையில் ‘பேச்சு பேசும்’ திறன் இனி பிரத்தியேகமாக மனிதப் பிரதேசம் அல்ல. போலி விளையாட்டு ஒரு புதிய நிலையை எட்டியுள்ளது, மேலும் விதிகள், வீரர்கள் மற்றும் பங்குகளைப் புரிந்துகொள்வது முன்னெப்போதையும் விட முக்கியமானது.