நுண்ணறிவின் மாயையை வெளிக்கொணர்தல்
பல தசாப்தங்களாக, செயற்கை நுண்ணறிவை அளவிடும் முயற்சியில், டூரிங் சோதனை ஒரு மைல்கல்லாக, அடிக்கடி தவறாகப் புரிந்து கொள்ளப்பட்ட ஒன்றாக இருந்து வருகிறது. புத்திசாலித்தனமான Alan Turing ஆல் கருத்தாக்கம் செய்யப்பட்டது, இது ஒரு எளிய மற்றும் ஆழமான சவாலை முன்மொழிந்தது: ஒரு இயந்திரம், உரை அடிப்படையிலான உரையாடல் மூலம் மட்டுமே, அதுவும் மனிதன் என்று ஒரு மனிதனை நம்ப வைக்க முடியுமா? இந்த சோதனையில் வெற்றி பெறுவதை பலர் உண்மையான இயந்திர சிந்தனையின் விடியலாக, சிலிக்கான் மூளைகள் இறுதியாக நமது சொந்த அறிவாற்றல் திறன்களைப் பிரதிபலிக்கின்றன என்பதற்கான அறிகுறியாக விளக்கியுள்ளனர். இருப்பினும், இந்த விளக்கம் எப்போதும் விவாதத்திற்குரியதாகவே இருந்து வருகிறது, மேலும் OpenAI இன் GPT-4.5 போன்ற அதிநவீன AI மாதிரிகள் சம்பந்தப்பட்ட சமீபத்திய முன்னேற்றங்கள் ஒரு முக்கியமான மறுமதிப்பீட்டை கட்டாயப்படுத்துகின்றன.
University of California at San Diego வில் இருந்து வெளிவரும் அற்புதமான ஆராய்ச்சி இந்த விவாதத்தை கூர்மையான நிவாரணத்திற்குள் தள்ளுகிறது. அங்குள்ள அறிஞர்கள் கிளாசிக் டூரிங் சோதனை வடிவத்தில் மனிதர்களை மேம்பட்ட பெரிய மொழி மாதிரிகளுக்கு (LLMs) எதிராக சோதனைகளை நடத்தினர். முடிவுகள் வியக்கத்தக்கவை: OpenAI இன் சமீபத்திய மறு செய்கை, GPT-4.5 என்று கூறப்படுகிறது, தேர்ச்சி பெறவில்லை; அது சிறந்து விளங்கியது, உண்மையான மனித பங்கேற்பாளர்கள் தங்கள் சொந்த மனிதத்தன்மையை நிரூபிப்பதை விட அதன் மனித प्रतिरूपத்தில் அதிக நம்பகத்தன்மையை நிரூபித்தது. இது மனிதனாக உண்மையாக உணரும் பதில்களை உருவாக்கும் உருவாக்கும் AI இன் திறனில் ஒரு குறிப்பிடத்தக்க பாய்ச்சலைக் குறிக்கிறது. ஆயினும்கூட, இந்த ஆய்வின் பின்னணியில் உள்ள ஆராய்ச்சியாளர்கள் கூட இந்த உரையாடல் திறமையை செயற்கை பொது நுண்ணறிவு (AGI) - மனித நிலை அறிவாற்றல் திறன்களைக் கொண்ட இயந்திரங்களை உருவாக்கும் மழுப்பலான இலக்கை அடைவதோடு சமன்படுத்துவதற்கு எதிராக எச்சரிக்கின்றனர். சோதனை, அது தெரிகிறது, இயந்திர நுண்ணறிவின் உண்மையான தன்மையைப் பற்றி விட, சோதனையின் வரம்புகள் மற்றும் நமது சொந்த மனித அனுமானங்களைப் பற்றி அதிகம் வெளிப்படுத்தக்கூடும்.
ஒரு கிளாசிக் பரிசோதனையில் ஒரு நவீன திருப்பம்
டூரிங் சோதனையின் நீடித்த ஈர்ப்பு அதன் நேர்த்தியான எளிமையில் உள்ளது. Turing ஒரு ‘சாயல் விளையாட்டை’ கற்பனை செய்தார், அதில் மூன்று வீரர்கள் உள்ளனர்: ஒரு மனித விசாரணையாளர் (நீதிபதி), ஒரு மனித சாட்சி மற்றும் ஒரு கணினி சாட்சி. ஒருவருக்கொருவர் தனிமைப்படுத்தப்பட்டு, உரைச் செய்திகள் வழியாக மட்டுமே தொடர்பு கொண்டு, சாட்சிகள் நீதிபதியை தங்கள் மனித அடையாளத்தை நம்ப வைக்க முயற்சிப்பார்கள். ஒரு பங்கேற்பாளர் ஒரு இயந்திரம் என்பதை அறிந்த நீதிபதி, எது எது என்பதை தீர்மானிக்க வேண்டும். இந்த அமைப்பின் மேதை அதன் உள்ளார்ந்த ஒப்பீட்டு தன்மையில் உள்ளது. நீதிபதி தவறுதலாக கணினியை மனிதனாக அடையாளம் கண்டால், அது இயந்திரத்தின் நம்பகமான செயல்திறனை மட்டுமல்ல, மனித சாட்சியின் சொந்த மனிதத்தன்மையை போதுமான அளவு சமிக்ஞை செய்யத் தவறியதையும், அல்லது ஒருவேளை அந்த சமிக்ஞைகளை சரியாக உணர நீதிபதியின் இயலாமையையும் குறிக்கிறது. இது மனித உணர்தல், நம்பிக்கை மற்றும் மனிதனாக இருப்பதோடு நாம் தொடர்புபடுத்தும் நுட்பமான குறிப்புகளின் ஒரு கவர்ச்சிகரமான பரிசோதனையாக மாறுகிறது, அதே போல் இது கணக்கீட்டு திறனின் அளவீடாகவும் உள்ளது.
இந்த அடித்தளத்தின் மீது கட்டமைத்து, UC San Diego ஆராய்ச்சியாளர்கள், Cameron Jones மற்றும் Benjamin Bergen, நவீன LLMs இன் சக்தியைப் பயன்படுத்தி மற்றும் இளங்கலை மாணவர்களை உள்ளடக்கிய சோதனையின் சமகால பதிப்பை செயல்படுத்தினர். அவர்களின் சோதனை வடிவமைப்பு Turing இன் மூன்று வழி அமைப்புக்கு நெருக்கமாக ஒட்டிக்கொண்டது. மாணவர்கள் தோராயமாக பாத்திரங்களுக்கு நியமிக்கப்பட்டனர்: சிலர் நீதிபதிகளாக செயல்பட்டனர், மற்றவர்கள் மனித சாட்சிகளாக. ஒவ்வொரு நீதிபதியும் ஒரே நேரத்தில், சுயாதீனமாக ஐந்து நிமிட உரை அரட்டைகளில் ஒரு மனித சாட்சி மற்றும் ஒரு AI சாட்சி ஆகிய இருவருடனும் ஈடுபட்டனர். நீதிபதிக்கான சவால் அப்படியே இருந்தது: இயந்திரத்தை அடையாளம் காணவும்.
தற்போதைய AI இன் திறன்களை ஆராய, பல மாதிரிகள் கணினி சாட்சியாக பயன்படுத்தப்பட்டன:
- GPT-4.5 (குறைந்தபட்ச தூண்டுதல்): இந்த பதிப்பு அடிப்படை வழிமுறைகளை மட்டுமே பெற்றது.
- GPT-4.5 (PERSONA தூண்டுதல்): இந்த மாறுபாட்டிற்கு கணிசமாக விரிவான வழிகாட்டுதல் வழங்கப்பட்டது. தூண்டுதல் AI க்கு ஒரு குறிப்பிட்ட ஆளுமையை - ‘இணைய கலாச்சாரம் பற்றி அறிந்த, உள்முக சிந்தனையுள்ள, மற்றும் கொச்சை மொழி பயன்படுத்தும் ஒரு இளம் நபர்’ - ஏற்க அறிவுறுத்தியது. இது AI இன் தகவமைப்பு மற்றும் குறிப்பிட்ட மனித முன்மாதிரிகளைப் பின்பற்றும் திறனை சோதிப்பதை நோக்கமாகக் கொண்டது.
- GPT-4o: OpenAI இன் மற்றொரு முக்கிய மாதிரி ஒரு ஒப்பீட்டு புள்ளியாக செயல்பட்டது.
- Llama 3.1 405b: Meta Platforms இன் சக்திவாய்ந்த LLM நோக்கத்தை விரிவுபடுத்துவதற்காக சேர்க்கப்பட்டது.
- ELIZA: 1960 களில் இருந்து ஒரு முக்கிய chatbot நிரல் ஒரு கட்டுப்பாடாக சேர்க்கப்பட்டது. அதன் ஒப்பீட்டு எளிமை, LLMs இன் எந்தவொரு வெற்றியும் அதிநவீன நிரலாக்கத்தால் ஏற்பட்டதா அல்லது வெறுமனே சீரற்ற வாய்ப்பு மற்றும் எளிதில் ஏமாற்றப்பட்ட நீதிபதிகளால் ஏற்பட்டதா என்பதை தீர்மானிக்க உதவும் நோக்கம் கொண்டது.
இந்த பல-மாதிரி அணுகுமுறை, கட்டமைக்கப்பட்ட, நேரமிடப்பட்ட தொடர்புகள் மற்றும் குறைந்தபட்ச தூண்டுதல் மற்றும் ஆளுமை-உந்துதல் AI க்கு இடையிலான ஒப்பீடு ஆகியவற்றுடன் இணைந்து, இயந்திரங்கள் இப்போது மனித உரையாடலை எவ்வளவு திறம்பட பின்பற்ற முடியும் மற்றும் மனிதர்கள் இந்த முயற்சிகளை எவ்வாறு உணர்கிறார்கள் என்பதை பகுப்பாய்வு செய்ய ஒரு வளமான தரவுத்தொகுப்பை வழங்கியது.
சாயல் யதார்த்தத்தை மிஞ்சும்போது
UC San Diego ஆய்வின் கண்டுபிடிப்புகள் குறிப்பிடத்தக்கவை, குறிப்பாக விரிவான PERSONA தூண்டுதலால் வழிநடத்தப்பட்டபோது GPT-4.5 இன் செயல்திறன் குறித்து. இந்த குறிப்பிட்ட கட்டமைப்பு வியக்கத்தக்க 73% ‘வெற்றி விகிதத்தை’ அடைந்தது. சாராம்சத்தில், இந்த AI உடன் தொடர்பு கொண்ட மனித நீதிபதிகளில் கிட்டத்தட்ட முக்கால்வாசி பேர் தாங்கள் மற்றொரு மனிதருடன் உரையாடுவதாக முடிவு செய்தனர். இந்த எண்ணிக்கை அதன் முழுமையான மதிப்பில் மட்டுமல்ல, மற்ற பங்கேற்பாளர்களுடன் ஒப்பிடும்போதும் குறிப்பிடத்தக்கது.
அளவுகோல்களைக் கவனியுங்கள்:
- மனித சாட்சிகள்: முரண்பாடாக, சாட்சிகளாக பங்கேற்ற உண்மையான மனிதர்கள், ஆளுமை-உந்துதல் GPT-4.5 ஐ விட நீதிபதிகளை தங்கள் மனிதத்தன்மையை நம்ப வைப்பதில் குறைவாக வெற்றி பெற்றனர்.
- பிற AI மாதிரிகள்: குறைந்தபட்ச தூண்டுதலுடன் கூடிய GPT-4.5, GPT-4o மற்றும் Llama 3.1 (ஒரே மாதிரியான ஆளுமை தூண்டுதல்கள் கொடுக்கப்பட்டபோதும்) கணிசமாக குறைவாக மதிப்பெண் பெற்றன, வெற்றி விகிதங்கள் 21% முதல் 56% வரை இருந்தன. இது சோதிக்கப்பட்ட குறிப்பிட்ட GPT-4.5 மாதிரியின் மேம்பட்ட திறன்களையும், வடிவமைக்கப்பட்ட தூண்டுதலின் குறிப்பிடத்தக்க தாக்கத்தையும் எடுத்துக்காட்டுகிறது.
- முந்தைய GPT-4 செயல்திறன்: அதே ஆராய்ச்சியாளர்களால் ஒரு வருடத்திற்கு முன்பு நடத்தப்பட்ட சோதனையின் முந்தைய மறு செய்கையில், GPT-4 வெறும் 54% வெற்றி விகிதத்தை அடைந்தது, சீரற்ற வாய்ப்பின் (50%) வாசலைக் கடந்தது. GPT-4.5 உடன் 73% ஆக உயர்ந்தது, மனிதனைப் போன்ற உரையை உருவாக்கும் மாதிரியின் திறனில் விரைவான முன்னேற்றத்தை நிரூபிக்கிறது.
- ELIZA: பழங்கால chatbot, எதிர்பார்த்தபடி, மோசமாக செயல்பட்டது, ஒரு அடிப்படையாக அதன் நோக்கத்தை நிறைவேற்றியது மற்றும் LLMs இன் வெற்றி வெறுமனே எந்தவொரு நிரலாலும் எளிதில் ஏமாற்றப்பட்ட நீதிபதிகளால் ஏற்படவில்லை என்பதை உறுதிப்படுத்தியது.
Jones மற்றும் Bergen இன் முடிவு கடுமையாக இருந்தது: நீதிபதிகள் மனிதனை இயந்திரத்திலிருந்து வேறுபடுத்துவதில் வெறுமனே போராடவில்லை; அவர்கள் உண்மையான மனித பங்கேற்பாளர்களை நம்புவதை விட, ஆளுமை-உந்துதல் GPT-4.5 மனிதன் என்று நம்புவதற்கு தீவிரமாக அதிகம் சாய்ந்திருந்தனர். இது, AI, சரியாக அறிவுறுத்தப்பட்டால், மனித தொடர்புகளின் உணரப்பட்ட நுணுக்கங்களை - ஒருவேளை உண்மையான மனித அரட்டையில் இருக்கும் சங்கடம் அல்லது முரண்பாடுகளை வடிகட்டுவதன் மூலம் - இந்த குறிப்பிட்ட, கட்டுப்படுத்தப்பட்ட சூழலில் மனிதர்களை விட திறம்பட உருவகப்படுத்த முடியும் என்று கூறுகிறது. வெற்றி என்பது தேர்ச்சி பெறுவது மட்டுமல்ல; அது சோதனையின் வரம்புகளுக்குள் உணரப்பட்ட ‘மனிதத்தன்மையில்’ மனித அடிப்படையை மீறுவதாகும்.
மனிதனைப் போன்ற தடை: நுண்ணறிவா அல்லது தழுவலா?
இந்த நவீன டூரிங் சோதனையில் GPT-4.5 இன் வெற்றி AGI இன் வருகையை சமிக்ஞை செய்கிறதா? ஆராய்ச்சியாளர்கள், துறையில் உள்ள பல நிபுணர்களுடன் சேர்ந்து, எச்சரிக்கையை வலியுறுத்துகின்றனர். Jones மற்றும் Bergen ஒப்புக்கொள்வது போல், சோதனையைச் சுற்றியுள்ள ‘மிகவும் சர்ச்சைக்குரிய கேள்வி’, அது உண்மையில் நுண்ணறிவை அளவிடுகிறதா அல்லது முற்றிலும் வேறு எதையாவது அளவிடுகிறதா என்பதுதான். மனிதர்களை இவ்வளவு திறம்பட ஏமாற்றும் GPT-4.5 இன் திறன் மறுக்கமுடியாத தொழில்நுட்ப சாதனையாக இருந்தாலும், அது உண்மையான புரிதல் அல்லது நனவை விட மாதிரியின் அதிநவீன சாயல் மற்றும் தழுவலுக்கு அதிகம் பேசக்கூடும்.
ஒரு கண்ணோட்டம் என்னவென்றால், இந்த மேம்பட்ட LLMs மாதிரி பொருத்தம் மற்றும் கணிப்பதில் விதிவிலக்காக திறமையானவையாக மாறிவிட்டன. பரந்த அளவிலான மனித உரைத் தரவுகளுடன் ஊட்டப்பட்டு, அவை வெவ்வேறு வகையான மனித தொடர்புகளுடன் தொடர்புடைய சொல் வரிசைகள், உரையாடல் திருப்பங்கள் மற்றும் பாணி கூறுகளின் புள்ளிவிவர நிகழ்தகவைக் கற்றுக்கொள்கின்றன. PERSONA தூண்டுதல் GPT-4.5 க்கு ஒரு குறிப்பிட்ட இலக்கு மாதிரியை வழங்கியது - ஒரு உள்முக சிந்தனையுள்ள, இணையம் அறிந்த இளம் நபர். எனவே, AI இன் வெற்றி, கோரப்பட்ட ஆளுமையுடன் பொருந்தக்கூடிய வகையில் அதன் ‘நடத்தையை மாற்றியமைக்கும்’ திறனின் செயல்விளக்கமாகக் காணப்படலாம், அந்த சுயவிவரத்துடன் ஒத்துப்போகும் பதில்களை உருவாக்க அதன் பயிற்சித் தரவை ஈர்க்கிறது. இது நெகிழ்வுத்தன்மை மற்றும் உருவாக்கும் சக்தியின் ஒரு குறிப்பிடத்தக்க காட்சி, தூண்டுதலால் வரையறுக்கப்பட்ட சூழலுக்குள் இயந்திரம் நம்பத்தகுந்த மனிதனாகத் தோன்ற அனுமதிக்கிறது.
இருப்பினும், இந்த தழுவல் மனிதர்கள் கொண்டிருக்கும் பொது நுண்ணறிவிலிருந்து வேறுபட்டது, இது பகுத்தறிவு, சூழலை ஆழமாகப் புரிந்துகொள்வது, புதிய அனுபவங்களிலிருந்து கற்றுக்கொள்வது மற்றும் நனவைக் கொண்டிருப்பது ஆகியவற்றை உள்ளடக்கியது - தற்போதைய LLMs வெளிப்படையாகக் காட்டாத குணங்கள். AI அறிஞர் Melanie Mitchell வாதிட்டது போல், இயற்கை மொழியில் சரளமாக இருப்பது, சதுரங்கத்தில் தேர்ச்சி பெறுவது போலவே, பொது நுண்ணறிவின் உறுதியான ஆதாரம் அல்ல. இது ஒரு குறிப்பிட்ட, சிக்கலானதாக இருந்தாலும், திறன் களத்தில் தேர்ச்சி பெற்றதை நிரூபிக்கிறது. எனவே, GPT-4.5 இன் செயல்திறன் இயற்கை மொழி உருவாக்கத்தில் ஒரு மைல்கல்லாக இருந்தாலும், அதை AGI நோக்கிய ஒரு படியாக மட்டுமே வடிவமைப்பது தவறாக வழிநடத்தும். உரை அடிப்படையிலான உரையாடலில் உயர் மட்ட ‘மனிதனைப் போன்ற தன்மையை’ அடைவதாக விவரிப்பது மிகவும் துல்லியமாகத் தெரிகிறது, இது மனித நிலை நுண்ணறிவிலிருந்து நுட்பமாக ஆனால் முக்கியமாக வேறுபட்ட கருத்தாகும்.
தொடர்புகளின் கண்ணாடி: சோதனை நம்மைப் பற்றி என்ன வெளிப்படுத்துகிறது
ஒருவேளை UC San Diego ஆய்வின் மிகவும் புதிரான அம்சம் அது AI பற்றி வெளிப்படுத்துவதில் இல்லை, ஆனால் அது மனித தீர்ப்பு மற்றும் நாம் தொடர்புகளுக்கு, குறிப்பாக ஆன்லைனில் கொண்டு வரும் அனுமானங்களைப் பற்றி அம்பலப்படுத்துவதில் உள்ளது. மனித நீதிபதிகள் அடிக்கடி ஏமாற்றப்பட்டனர், சில சமயங்களில் AI இன் தொடர்பு பாணியை விரும்பினர் என்பது, இந்த வடிவத்தில் இயந்திர நுண்ணறிவின் இறுதி நடுவராக மனித உணர்வைப் பயன்படுத்துவதில் உள்ள உள்ளார்ந்த அகநிலை மற்றும் சாத்தியமான குறைபாடுகளை சுட்டிக்காட்டுகிறது.
ஆராய்ச்சியாளர்கள் நீதிபதிகளின் பகுத்தறிவில் கவர்ச்சிகரமான வடிவங்களைக் குறிப்பிட்டனர்:
- எதிர்பாராத நடத்தை: பழமையான ELIZA நிரல் கூட நீதிபதிகளை 23% நேரம் ஏமாற்ற முடிந்தது. இது ELIZA புத்திசாலித்தனத்தை வெளிப்படுத்தியதால் அல்ல, ஆனால் பெரும்பாலும் அது ஒரு AI எப்படி நடந்து கொள்ள வேண்டும் என்று நீதிபதிகளின் முன்முடிவுகளை பூர்த்தி செய்யாததால். நீதிபதிகள் சாட்சி ‘கிண்டலாக’ அல்லது ‘முரட்டுத்தனமாக’ இருந்ததாக காரணங்களைக் குறிப்பிட்டனர், அவை இயந்திரத்திலிருந்து அவர்கள் எதிர்பார்க்காத பண்புகள், இதனால் அது மனிதனாக இருக்க வேண்டும் என்று முடிவு செய்தனர்.
- அறிவை விட சமூகத்தன்மையில் கவனம்: Alan Turing நீதிபதிகள் அறிவு மற்றும் அறிவுசார் திறனை ஆராய்வார்கள் என்று எதிர்பார்த்ததற்கு மாறாக, இந்த ஆய்வில் பங்கேற்பாளர்கள் பெரும்பாலும் உரையாடல் பாணி, உணர்ச்சி தொனி மற்றும் சமூக குறிப்புகளில் அதிக கவனம் செலுத்துவதாகத் தோன்றியது.
- குறையின் முரண்பாடு: ஒரு ஆச்சரியமான திருப்பத்தில், நீதிபதிகள் ஒரு சாட்சியை மனிதனாக சரியாக அடையாளம் காணப் பயன்படுத்திய காரணிகளில் ஒன்று, அறிவு இல்லாமை என்று உணரப்பட்டது. இது மனிதர்கள் தவறானவர்கள் மற்றும் குறைபாடுள்ளவர்கள் என்ற அடிப்படை அனுமானத்தை பரிந்துரைக்கிறது, அதே நேரத்தில் AI கலைக்களஞ்சியமாகவோ அல்லது மிகத் துல்லியமாகவோ இருக்கும் என்று எதிர்பார்க்கப்படலாம்.
இந்த அவதானிப்புகள் Jones மற்றும் Bergen ஐ, நீதிபதிகளின் முடிவுகள் ‘மனிதர்கள் மற்றும் AI அமைப்புகள் எவ்வாறு நடந்து கொள்ள வாய்ப்புள்ளது என்பது பற்றிய சிக்கலான அனுமானங்களை’ உள்ளடக்கியுள்ளன என்று வலியுறுத்த வழிவகுக்கின்றன, இது நுண்ணறிவின் எளிய மதிப்பீட்டிற்கு அப்பால் செல்கிறது. அளவுகோல்கள் சமூக எதிர்பார்ப்புகள், ஆளுமை தீர்ப்புகள் மற்றும் தொழில்நுட்ப திறன்கள் பற்றிய தப்பெண்ணங்களுடன் பின்னிப்பிணைந்துள்ளன. உரை அடிப்படையிலான தொடர்பு எங்கும் நிறைந்திருக்கும் ஒரு யுகத்தில், ஆன்லைன் தொடர்புகளுக்கு நாம் வேரூன்றிய பழக்கவழக்கங்களையும் எதிர்பார்ப்புகளையும் உருவாக்கியுள்ளோம். டூரிங் சோதனை, முதலில் மனித-கணினி தொடர்புக்குள் ஒரு புதிய ஆய்வாக வடிவமைக்கப்பட்டது, இப்போது இந்த ஆன்லைன் மனித பழக்கவழக்கங்கள் மற்றும் தப்பெண்ணங்களின் சோதனையாக அதிகம் செயல்படுகிறது. இது டிஜிட்டல் ஆளுமைகளைப் பகுப்பாய்வு செய்யும் நமது திறனை அளவிடுகிறது, இது மனிதர்கள் மற்றும் போட்கள் ஆகிய இருவருடனும் ஆன்லைனில் நமது தினசரி அனுபவங்களால் பாதிக்கப்படுகிறது. அடிப்படையில், நவீன டூரிங் சோதனை, இந்த ஆராய்ச்சியால் நிரூபிக்கப்பட்டபடி, இயந்திர நுண்ணறிவின் நேரடி மதிப்பீட்டை விட, மனித எதிர்பார்ப்பின் லென்ஸ் மூலம் வடிகட்டப்பட்ட, உணரப்பட்ட மனிதனைப் போன்ற தன்மையின் அளவீடாகத் தோன்றுகிறது.
சாயல் விளையாட்டுக்கு அப்பால்: AI மதிப்பீட்டிற்கு ஒரு புதிய போக்கை வரைதல்
GPT-4.5 போன்ற மாதிரிகளின் கட்டாய செயல்திறன் மற்றும் பாரம்பரிய டூரிங் சோதனை வடிவத்தில் உள்ளார்ந்த முன்னிலைப்படுத்தப்பட்ட வரம்புகள் மற்றும் தப்பெண்ணங்களைக் கருத்தில் கொண்டு, கேள்வி எழுகிறது: இந்த பல தசாப்தங்கள் பழமையான அளவுகோல் AGI நோக்கிய முன்னேற்றத்தை அளவிடுவதற்கான சரியான கருவியாக இன்னும் உள்ளதா? UC San Diego ஆராய்ச்சியாளர்கள், AI சமூகத்தில் வளர்ந்து வரும் கோரஸுடன் சேர்ந்து, அநேகமாக இல்லை என்று பரிந்துரைக்கின்றனர் - குறைந்தபட்சம், ஒரே அல்லது உறுதியான அளவீடாக இல்லை.
GPT-4.5 இன் வெற்றி, குறிப்பாக PERSONA தூண்டுதலை நம்பியிருப்பது, ஒரு முக்கிய வரம்பை அடிக்கோடிட்டுக் காட்டுகிறது: சோதனை ஒரு குறிப்பிட்ட, பெரும்பாலும் குறுகிய, உரையாடல் சூழலுக்குள் செயல்திறனை மதிப்பிடுகிறது. இது பகுத்தறிவு, திட்டமிடல், படைப்பாற்றல் அல்லது பல்வேறு சூழ்நிலைகளில் பொது அறிவு புரிதல் போன்ற ஆழமான அறிவாற்றல் திறன்களை அவசியமாக ஆராயவில்லை. Jones மற்றும் Bergen கூறுவது போல், ‘நுண்ணறிவு சிக்கலானது மற்றும் பன்முகத்தன்மை கொண்டது,’ அதாவது ‘நுண்ணறிவின் எந்தவொரு சோதனையும் தீர்க்கமானதாக இருக்க முடியாது.’
இது மதிப்பீட்டு முறைகளின் மிகவும் விரிவான தொகுப்பின் தேவையை சுட்டிக்காட்டுகிறது. பல சாத்தியமான வழிகள் வெளிப்படுகின்றன:
- மாற்றியமைக்கப்பட்ட சோதனை வடிவமைப்புகள்: ஆராய்ச்சியாளர்கள் தாங்களே மாறுபாடுகளை பரிந்துரைக்கின்றனர். நீதிபதிகள் AI நிபுணர்களாக இருந்தால், வேறுபட்ட எதிர்பார்ப்புகளைக் கொண்டிருந்தால் மற்றும் ஒரு இயந்திரத்தின் திறன்களை ஆராய்வதற்கான ஒருவேளை மிகவும் அதிநவீன முறைகளைக் கொண்டிருந்தால் என்ன செய்வது? குறிப்பிடத்தக்க நிதி ஊக்கத்தொகைகள் அறிமுகப்படுத்தப்பட்டால் என்ன செய்வது, நீதிபதிகளை பதில்களை மிகவும் கவனமாகவும் சிந்தனையுடனும் ஆராய ஊக்குவிப்பது? இந்த மாற்றங்கள் இயக்கவியலை மாற்றக்கூடும் மற்றும் சாத்தியமான வேறுபட்ட முடிவுகளைத் தரக்கூடும், சோதனையின் விளைவில் சூழல் மற்றும் உந்துதலின் செல்வாக்கை மேலும் எடுத்துக்காட்டுகிறது.
- பரந்த திறன் சோதனை: உரையாடல் சரளத்திற்கு அப்பால் நகர்ந்து, மதிப்பீடுகள் நுண்ணறிவின் வெவ்வேறு அம்சங்கள் தேவைப்படும் பரந்த அளவிலான பணிகளில் கவனம் செலுத்தலாம் - புதிய களங்களில் சிக்கலைத் தீர்ப்பது, நீண்ட கால திட்டமிடல், சிக்கலான காரண உறவுகளைப் புரிந்துகொள்வது அல்லது பயிற்சித் தரவின் அதிநவீன மறுசீரமைப்பைக் காட்டிலும் உண்மையான படைப்பாற்றலை வெளிப்படுத்துவது.
- மனிதன்-வட்டத்தில் (HITL) மதிப்பீடு: AI மதிப்பீட்டில் மனித தீர்ப்பை மிகவும் முறையாக ஒருங்கிணைக்கும் போக்கு அதிகரித்து வருகிறது, ஆனால் ஒருவேளை கிளாசிக் டூரிங் சோதனையை விட மிகவும் கட்டமைக்கப்பட்ட வழிகளில். இது மனிதர்கள் குறிப்பிட்ட அளவுகோல்களின் அடிப்படையில் AI வெளியீடுகளை மதிப்பிடுவதை உள்ளடக்கியிருக்கலாம் (எ.கா., உண்மைத் துல்லியம், தர்க்கரீதியான ஒத்திசைவு, நெறிமுறை பரிசீலனைகள், பயன்) வெறும் இருமை மனிதன்/இயந்திர தீர்ப்பை வழங்குவதை விட. மனிதர்கள் மாதிரிகளைச் செம்மைப்படுத்தவும், பலவீனங்களைக் கண்டறியவும், நுணுக்கமான பின்னூட்டத்தின் அடிப்படையில் வளர்ச்சியை வழிநடத்தவும் உதவலாம்.
முக்கிய யோசனை என்னவென்றால், நுண்ணறிவு போன்ற சிக்கலான ஒன்றை மதிப்பிடுவதற்கு எளிய சாயலுக்கு அப்பால் பார்க்க வேண்டும். டூரிங் சோதனை ஒரு மதிப்புமிக்க ஆரம்ப கட்டமைப்பை வழங்கியபோதும், முக்கியமான விவாதங்களைத் தூண்டுவதைத் தொடர்ந்தாலும், அதை மட்டும் நம்பியிருப்பது அதிநவீன சாயலை உண்மையான புரிதலுக்காகத் தவறாகப் புரிந்து கொள்ளும் அபாயத்தை ஏற்படுத்துகிறது. AGI ஐப் புரிந்துகொள்வதற்கும் சாத்தியமான அடைவதற்கும் வழி, மதிப்பீட்டின் பணக்கார, மிகவும் மாறுபட்ட மற்றும் ஒருவேளை மிகவும் கடுமையான முறைகளை அவசியமாக்குகிறது.
AGI இன் புதிர் மற்றும் மதிப்பீட்டின் எதிர்காலம்
சமீபத்திய சோதனைகள் டூரிங் சோதனையைத் தாண்டி நீட்டிக்கப்படும் ஒரு அடிப்படை சவாலை அடிக்கோடிட்டுக் காட்டுகின்றன: செயற்கை பொது நுண்ணறிவு எதைக் கொண்டுள்ளது என்பதைத் துல்லியமாக வரையறுக்க நாங்கள் போராடுகிறோம், அதை எதிர்கொண்டால் அதை எவ்வாறு உறுதியாக அங்கீகரிப்போம் என்பதை ஒப்புக்கொள்வது ஒருபுறம் இருக்கட்டும். மனிதர்கள், அவர்களின் உள்ளார்ந்த தப்பெண்ணங்கள் மற்றும் அனுமானங்களுடன், ஒரு எளிய அரட்டை இடைமுகத்தில் நன்கு தூண்டப்பட்ட LLM ஆல் இவ்வளவு எளிதாக அசைக்கப்பட முடிந்தால், சாத்தியமான மிகவும் மேம்பட்ட எதிர்கால அமைப்புகளின் ஆழமான அறிவாற்றல் திறன்களை நாம் எவ்வாறு நம்பத்தகுந்த முறையில் தீர்மானிக்க முடியும்?
AGI நோக்கிய பயணம் தெளிவின்மையில் மறைக்கப்பட்டுள்ளது. UC San Diego ஆய்வு நமது தற்போதைய அளவுகோல்கள் முன்னால் உள்ள பணிக்கு போதுமானதாக இருக்காது என்பதற்கான ஒரு சக்திவாய்ந்த நினைவூட்டலாக செயல்படுகிறது. உருவகப்படுத்தப்பட்ட நடத்தையை உண்மையான புரிதலிலிருந்து பிரிப்பதில் உள்ள ஆழ்ந்த சிரமத்தை இது எடுத்துக்காட்டுகிறது, குறிப்பாக உருவகப்படுத்துதல் பெருகிய முறையில் அதிநவீனமாக மாறும் போது. இது எதிர்கால மதிப்பீட்டு முன்னுதாரணங்களைப் பற்றிய ஊகங்களுக்கு, இன்னும் சிந்தனையைத் தூண்டும் கேள்விகளுக்கு வழிவகுக்கிறது. அறிவியல் புனைகதை விவரிப்புகளை நினைவூட்டும் வகையில், மேம்பட்ட AI ஐ மனிதர்களிடமிருந்து வேறுபடுத்துவதற்கு மனித தீர்ப்பு மிகவும் நம்பமுடியாததாகக் கருதப்படும் ஒரு நிலையை நாம் அடைய முடியுமா?
ஒருவேளை, முரண்பாடாக, மிகவும் மேம்பட்ட இயந்திர நுண்ணறிவின் மதிப்பீட்டிற்கு மற்ற இயந்திரங்களின் உதவி தேவைப்படலாம். அறிவாற்றல் ஆழம், நிலைத்தன்மை மற்றும் உண்மையான பகுத்தறிவு ஆகியவற்றை ஆராய்வதற்காக பிரத்யேகமாக வடிவமைக்கப்பட்ட அமைப்புகள், மனித நீதிபதிகளை அசைக்கும் சமூக குறிப்புகள் மற்றும் தப்பெண்ணங்களுக்கு குறைவாக பாதிக்கப்படக்கூடியவை, மதிப்பீட்டு கருவித்தொகுப்பின் அவசியமான கூறுகளாக மாறக்கூடும். அல்லது, குறைந்தபட்சம், மனித அறிவுறுத்தல்கள் (தூண்டுதல்கள்), AI தழுவல் மற்றும் அதன் விளைவாக வரும் நுண்ணறிவின் உணர்தல் ஆகியவற்றுக்கு இடையேயான இடைவினையின் ஆழமான புரிதல் முக்கியமானதாக இருக்கும். குறிப்பிட்ட, சாத்தியமான ஏமாற்றும் நடத்தைகளை வெளிக்கொணர மனித முயற்சிகளுக்கு பதிலளிக்கும் பிற இயந்திரங்களைக் கவனிக்கும்போது அவை எதைக் கண்டறிகின்றன என்று இயந்திரங்களிடம் கேட்க வேண்டியிருக்கலாம். AI ஐ அளவிடுவதற்கான தேடல் இயந்திர நுண்ணறிவின் தன்மையை மட்டுமல்ல, நமது சொந்த சிக்கலான, பெரும்பாலும் ஆச்சரியமான தன்மையையும் எதிர்கொள்ள நம்மை கட்டாயப்படுத்துகிறது.