சாட்ஜிபிடி டூரிங் சோதனையில் வெற்றிகரமாக தேர்ச்சி பெறும் கருத்து ஒரு தவிர்க்க முடியாத விளைவாக அதிகரித்து வருகிறது. உண்மையில், சில ஆராய்ச்சியாளர்கள் இது ஏற்கனவே இந்த சாதனையை அடைந்துவிட்டதாக நம்புகிறார்கள்.
சாட்ஜிபிடியால் எடுத்துக்காட்டப்பட்ட சாட்போட்களின் பரிணாமம், புத்திசாலித்தனம், இயல்பான தன்மை மற்றும் மனிதனைப் போன்ற குணங்களில் ஒரு குறிப்பிடத்தக்க அதிகரிப்பைக் காட்டுகிறது. இந்த முன்னேற்றம் தர்க்கரீதியானது, ஏனெனில் மனிதர்கள் தான் பெரிய மொழி மாதிரிகளின் (LLMs) வடிவமைப்பாளர்கள். இந்த கருவிகள் அவற்றின் "தர்க்கரீதியான" திறன்களைச் செம்மைப்படுத்தி, மனித பேச்சை அதிக துல்லியத்துடன் பிரதிபலிக்கும்போது, ஒரு முக்கியமான கேள்வி எழுகிறது: அவை டூரிங் தேர்வில் தேர்ச்சி பெற போதுமான அளவு மேம்பட்டவையா?
டூரிங் சோதனை பல தசாப்தங்களாக இயந்திர நுண்ணறிவை மதிப்பிடுவதில் ஒரு முக்கியமான அளவுகோலாக இருந்து வருகிறது. தற்போது, ஆராய்ச்சியாளர்கள் சாட்ஜிபிடி போன்ற LLMகளை இந்த கடுமையான மதிப்பீட்டிற்கு உட்படுத்துகின்றனர். ஒரு வெற்றிகரமான முடிவு AI வளர்ச்சியின் துறையில் ஒரு நினைவுச்சின்ன மைல்கல்லைக் குறிக்கும்.
எனவே, சாட்ஜிபிடி டூரிங் தேர்வில் தேர்ச்சி பெற முடியுமா? சில ஆராய்ச்சியாளர்கள் முடியும் என்று உறுதியாக கூறுகிறார்கள். இருப்பினும், முடிவுகள் இன்னும் விளக்கத்திற்குத் திறந்தே உள்ளன. டூரிங் சோதனை நேரடியான பைனரி முடிவை வழங்காது, இதனால் கண்டுபிடிப்புகள் ஓரளவு தெளிவற்றதாக இருக்கும். மேலும், சாட்ஜிபிடி டூரிங் தேர்வில் தேர்ச்சி பெற்றாலும், அது ஒரு LLM இல் உள்ளார்ந்த "மனிதனைப் போன்ற" குணங்களின் உறுதியான அறிகுறியாக இருக்காது.
சிக்கல்களை ஆராய்வோம்.
டூரிங் சோதனையை அவிழ்த்தல்
டூரிங் சோதனையின் சாராம்சம் மிகவும் எளிமையானது.
பிரிட்டிஷ் கணிதவியலாளர் ஆலன் டூரிங், கணினி அறிவியலில் ஒரு முன்னோடி, ஆரம்பத்தில் அறியப்பட்டதைப் போல, இயந்திர நுண்ணறிவுக்கான ஒரு லிட்மஸ் சோதனையாக செயல்படுகிறது. டூரிங் சோதனையில் ஒரு மனித மதிப்பீட்டாளர் ஒரு மனிதன் மற்றும் ஒரு இயந்திரம் ஆகிய இரண்டோடும் உரையாடல்களில் ஈடுபடுகிறார், எது எதுவென்று தெரியாமல். மதிப்பீட்டாளர் இயந்திரத்தை மனிதனிடமிருந்து வேறுபடுத்திப் பார்க்க முடியாவிட்டால், இயந்திரம் டூரிங் தேர்வில் தேர்ச்சி பெற்றதாகக் கருதப்படுகிறது. ஒரு ஆராய்ச்சி அமைப்பில், இந்த சோதனை பல மதிப்பீட்டாளர்களுடன் பல முறை நடத்தப்படுகிறது.
இந்த சோதனை ஒரு LLM மனிதனைப் போலவே அதே அளவிலான நுண்ணறிவைக் கொண்டிருக்கிறதா என்பதை உறுதியாகக் கண்டறியவில்லை என்பதை அங்கீகரிப்பது அவசியம். மாறாக, இது ஒரு மனிதனை நம்பத்தகுந்த வகையில் ஆள்மாறாட்டம் செய்யும் LLM இன் திறனை மதிப்பிடுகிறது.
LLMகளின் சிந்தனை செயல்முறை
LLMகள், அவற்றின் இயல்பின் மூலம், ஒரு உடல் மூளை, உணர்வு அல்லது உலகத்தைப் பற்றிய விரிவான புரிதல் இல்லை. அவை சுய விழிப்புணர்வு இல்லாமல் உள்ளன, மேலும் உண்மையான கருத்துக்கள் அல்லது நம்பிக்கைகள் இல்லை.
இந்த மாதிரிகள் புத்தகங்கள், ஆன்லைன் கட்டுரைகள், ஆவணங்கள் மற்றும் டிரான்ஸ்கிரிப்டுகள் உட்பட பரந்த அளவிலான தகவல் ஆதாரங்களை உள்ளடக்கிய பரந்த தரவுத்தொகுப்புகளில் பயிற்சி அளிக்கப்படுகின்றன. ஒரு பயனர் உரையை உள்ளீடாக வழங்கும்போது, AI மாதிரி அதன் "தர்க்கரீதியான" திறன்களைப் பயன்படுத்தி உள்ளீட்டிற்குப் பின்னால் உள்ள மிகவும் சாத்தியமான பொருள் மற்றும் நோக்கத்தை வேறுபடுத்துகிறது. பின்னர், மாதிரி இந்த விளக்கத்தின் அடிப்படையில் ஒரு பதிலைத் உருவாக்குகிறது.
அவற்றின் மையத்தில், LLMகள் அதிநவீன வார்த்தை கணிப்பு இயந்திரங்களாக செயல்படுகின்றன. அவற்றின் விரிவான பயிற்சித் தரவைப் பயன்படுத்தி, அவை பதிலை உருவாக்கும் போது அவற்றின் சொற்களஞ்சியத்தைப் பயன்படுத்தி, பதிலை தொடங்குகின்றன. இந்த தொடர்ச்சியான செயல்முறை ஒரு முழுமையான பதில் உருவாக்கப்படும் வரை தொடர்கிறது. இந்த விளக்கம் எளிமைப்படுத்தப்பட்டாலும், LLMகள் உலகத்தைப் பற்றிய உண்மையான புரிதலை விட புள்ளிவிவர சாத்தியக்கூறுகளின் அடிப்படையில் எவ்வாறு பதில்களை உருவாக்குகின்றன என்பதன் சாரத்தை இது கைப்பற்றுகிறது.
எனவே, LLMகள் வழக்கமான அர்த்தத்தில் "சிந்திக்கின்றன" என்று கூறுவது தவறானது.
அனுபவ சான்றுகள்: சாட்ஜிபிடி மற்றும் டூரிங் சோதனை
டூரிங் சோதனையில் சாட்ஜிபிடியின் செயல்திறனை பல ஆய்வுகள் ஆராய்ந்துள்ளன, பல நேர்மறையான முடிவுகளைத் தருகின்றன. இது GPT-4 மற்றும் GPT-4.5 போன்ற LLMகள் இப்போது டூரிங் சோதனையின் வரம்பை மீறிவிட்டதாக சில கணினி விஞ்ஞானிகள் வலியுறுத்த வழிவகுத்தது.
இந்த மதிப்பீடுகள் பெரும்பாலானவை OpenAI இன் GPT-4 மாதிரியில் கவனம் செலுத்துகின்றன, இது சாட்ஜிபிடி தொடர்புகளில் பெரும்பான்மைக்கு சக்தியளிக்கிறது. யுசி சான் டியாகோவால் நடத்தப்பட்ட ஒரு ஆய்வில், மனித மதிப்பீட்டாளர்கள் GPT-4 ஐ ஒரு மனிதனிடமிருந்து வேறுபடுத்திப் பார்க்க முடியவில்லை என்று தெரியவந்தது. இந்த ஆய்வில், GPT-4 ஆனது 54% வழக்குகளில் ஒரு மனிதனாக தவறாக அடையாளம் காணப்பட்டது. இருப்பினும், இந்த செயல்திறன் உண்மையான மனிதர்களின் செயல்திறனை விட இன்னும் பின்தங்கியே இருந்தது, அவர்கள் 67% நேரம் மனிதனாக சரியாக அடையாளம் காணப்பட்டனர்.
GPT-4.5 வெளியானதைத் தொடர்ந்து, UC சான் டியாகோ ஆராய்ச்சியாளர்கள் ஆய்வை மீண்டும் செய்தனர். இந்த முறை, LLM 73% வழக்குகளில் மனிதனாக அடையாளம் காணப்பட்டது, உண்மையான மனிதர்களின் செயல்திறனை விஞ்சியது. மெட்டாவின் லாமா-3.1-405B தேர்வில் தேர்ச்சி பெற முடியும் என்றும் இந்த ஆய்வு சுட்டிக்காட்டியது.
UC சான் டியாகோவிலிருந்து சுயாதீனமாக நடத்தப்பட்ட இதேபோன்ற ஆய்வுகள் GPT க்கு தேர்ச்சி மதிப்பெண்களையும் வழங்கியுள்ளன. ரீடிங் பல்கலைக்கழகத்தால் 2024 ஆம் ஆண்டில் நடத்தப்பட்ட ஒரு ஆய்வில், GPT-4 இளங்கலை படிப்புகளுக்கான வீட்டுப்பாட மதிப்பீடுகளுக்கு பதில்களை உருவாக்கியது. கிரேடர்கள் பரிசோதனை பற்றி அறிந்திருக்கவில்லை, மேலும் 33 சமர்ப்பிப்புகளில் ஒன்றை மட்டுமே கொடியிட்டனர். மீதமுள்ள 32 உள்ளீடுகளுக்கு சாட்ஜிபிடி சராசரிக்கு அதிகமான கிரேடுகளைப் பெற்றது.
இந்த ஆய்வுகள் உறுதியானவையா? முழுமையாக இல்லை. இந்த ஆராய்ச்சி கண்டுபிடிப்புகள் தோன்றுவதை விட குறைவாகவே இருப்பதாக சிலர் வாதிடுகின்றனர். இந்த சந்தேகம் சாட்ஜிபிடி டூரிங் தேர்வில் தேர்ச்சி பெற்றுவிட்டதாக உறுதியாக அறிவிப்பதை தடுக்கிறது.
இருப்பினும், GPT-4 போன்ற முந்தைய தலைமுறை LLMகள் எப்போதாவது டூரிங் தேர்வில் தேர்ச்சி பெற்றாலும், LLMகள் தொடர்ந்து முன்னேறும்போது வெற்றிகரமான முடிவுகள் பெருகிய முறையில் பொதுவானதாகி வருகின்றன என்பது தெளிவாகிறது. GPT-4.5 போன்ற அதிநவீன மாடல்களின் வருகையுடன், மாடல்கள் தொடர்ந்து டூரிங் தேர்வில் தேர்ச்சி பெறக்கூடிய ஒரு புள்ளியை நாங்கள் விரைவாக நெருங்கி வருகிறோம்.
மனிதனுக்கும் AI க்கும் இடையே வேறுபடுத்துவது சாத்தியமற்ற ஒரு எதிர்காலத்தை OpenAI கற்பனை செய்கிறது. இந்த பார்வை OpenAI CEO சாம் ஆல்ட்மேனின் ஒரு மனித சரிபார்ப்பு திட்டத்தில் கண் பந்து ஸ்கேன் செய்யும் ஒரு கருவியை உள்ளடக்கியது.
சாட்ஜிபிடியின் சுய மதிப்பீடு
டூரிங் தேர்வில் தேர்ச்சி பெற முடியுமா என்று கேட்டபோது, சாட்ஜிபிடி ஏற்கனவே விவாதிக்கப்பட்ட நிபந்தனைகளுடன் உறுதியான பதிலளித்தது. "சாட்ஜிபிடி டூரிங் தேர்வில் தேர்ச்சி பெற முடியுமா?" என்ற கேள்விக்கு பதிலளித்த சாட்போட் (4o மாதிரியைப் பயன்படுத்தி) "சாட்ஜிபிடி சில சூழ்நிலைகளில் டூரிங் தேர்வில் தேர்ச்சி பெற முடியும், ஆனால் நம்பகமானதாகவோ அல்லது உலகளவில்வோ அல்ல" என்று கூறியது. சாட்போட் "இது சாதாரண நிலைமைகளின் கீழ் சராசரி பயனருடன் டூரிங் தேர்வில் தேர்ச்சி பெறக்கூடும், ஆனால் ஒரு உறுதியான மற்றும் சிந்தனைமிக்க விசாரணை செய்பவர் அதை எப்போதும் வெளிப்படுத்த முடியும்" என்று முடித்தார்.
டூரிங் சோதனையின் வரம்புகள்
சில கணினி விஞ்ஞானிகள் இப்போது டூரிங் சோதனையை காலாவதியானதாகவும், LLM களை மதிப்பிடுவதில் குறைந்த மதிப்பைக் கொண்டதாகவும் கருதுகின்றனர். அமெரிக்க உளவியலாளர், அறிவாற்றல் விஞ்ஞானி, எழுத்தாளர் மற்றும் AI வர்ணனையாளர் கேரி மார்கஸ், சமீபத்திய வலைப்பதிவு இடுகையில் இந்த கண்ணோட்டத்தை சுருக்கமாகக் கூறினார், "நான் (மற்றும் பலர்) பல ஆண்டுகளாக கூறியது போல், டூரிங் சோதனை நுண்ணறிவின் சோதனையல்ல, மனித ஏமாற்றுத்தனத்தின் சோதனை."
டூரிங் சோதனை உண்மையான நுண்ணறிவை விட நுண்ணறிவின் உணர்வில் கவனம் செலுத்துகிறது என்பதை நினைவில் கொள்வதும் முக்கியம். இந்த வேறுபாடு முக்கியமானது. சாட்ஜிபிடி 4o போன்ற ஒரு மாதிரி மனித பேச்சை பிரதிபலிப்பதன் மூலம் தேர்வில் தேர்ச்சி பெறக்கூடும். மேலும், தேர்வில் ஒரு LLM இன் வெற்றி விவாதத்தின் தலைப்பு மற்றும் மதிப்பீட்டாளரைப் பொறுத்தது. சாட்ஜிபிடி சாதாரண உரையாடலில் சிறந்து விளங்கக்கூடும், ஆனால் உண்மையான உணர்ச்சி நுண்ணறிவு தேவைப்படும் தொடர்புகளில் போராடக்கூடும். மேலும், நவீன AI அமைப்புகள் எளிய உரையாடலுக்கு அப்பால் பயன்பாடுகளுக்கு பெருகிய முறையில் பயன்படுத்தப்படுகின்றன, குறிப்பாக நாம் ஏஜென்டிக் AI இன் உலகத்தை நோக்கி நகரும்போது.
டூரிங் சோதனை முற்றிலும் பொருத்தமற்றது என்று இது கூறவில்லை. இது ஒரு குறிப்பிடத்தக்க வரலாற்று அளவுகோலாக உள்ளது, மேலும் LLM கள் அதை கடக்க முடியும் என்பது குறிப்பிடத்தக்கது. இருப்பினும், டூரிங் சோதனை இயந்திர நுண்ணறிவின் இறுதி அளவீடு அல்ல.
டூரிங் சோதனைக்கு அப்பால்: சிறந்த அளவுகோலைத் தேடுதல்
டூரிங் சோதனை, வரலாற்று ரீதியாக முக்கியத்துவம் வாய்ந்ததாக இருந்தாலும், உண்மையான செயற்கை நுண்ணறிவின் போதுமான அளவீடாக பெருகிய முறையில் பார்க்கப்படுகிறது. மனித உரையாடலைப் பிரதிபலிப்பதில் அதன் கவனம், சிக்கலைத் தீர்ப்பது, படைப்பாற்றல் மற்றும் தகவமைத்தல் போன்ற நுண்ணறிவின் முக்கிய அம்சங்களைக் கவனிக்கத் தவறுகிறது. சோதனையின் ஏமாற்றத்தின் மீதான சார்பு நெறிமுறை கவலைகளையும் எழுப்புகிறது, ஏனெனில் இது AI அமைப்புகளை உண்மையான நுண்ணறிவை வளர்ப்பதற்குப் பதிலாக மனிதனைப் போன்ற குணங்களை ஏமாற்ற ஊக்குவிக்கிறது.
புதிய அளவீடுகளின் தேவை
AI தொழில்நுட்பம் முன்னேறும்போது, இன்னும் விரிவான மற்றும் பொருத்தமான அளவுகோல்களின் தேவை அதிகரித்து வருகிறது. இந்த புதிய அளவீடுகள் டூரிங் சோதனையின் குறைபாடுகளை நிவர்த்தி செய்து AI திறன்களின் மிகவும் துல்லியமான மதிப்பீட்டை வழங்க வேண்டும். எதிர்கால அளவுகோல்களுக்கான சில சாத்தியமான திசைகள் பின்வருமாறு:
- நிகழ் உலக சிக்கலை தீர்ப்பது: நிலையான எரிசக்தி கட்டத்தை வடிவமைப்பது அல்லது நோய்க்கான மருந்தை உருவாக்குவது போன்ற சிக்கலான நிகழ் உலக சிக்கல்களைத் தீர்க்க AI அமைப்புகளுக்குத் தேவைப்படும் சோதனைகள்.
- படைப்பு பணிகள்: ஒரு நாவலை எழுதுவது, இசை அமைப்பது அல்லது கலைப்படைப்பை உருவாக்குவது போன்ற அசல் மற்றும் கற்பனையான உள்ளடக்கத்தை உருவாக்கும் AI இன் திறனை மதிப்பிடும் மதிப்பீடுகள்.
- தகவமைப்பு மற்றும் கற்றல்: புதிய அனுபவங்களிலிருந்து கற்றுக்கொள்வதற்கும் மாறும் சூழல்களுக்கு ஏற்ப மாற்றியமைப்பதற்கும் ஒரு AI இன் திறனை அளவிடும் அளவீடுகள்.
- நெறிமுறை கருத்தாய்வுகள்: நெறிமுறை முடிவுகளை எடுப்பதற்கும் பக்கச்சார்புகளைத் தவிர்ப்பதற்கும் ஒரு AI இன் திறனை மதிப்பிடும் மதிப்பீடுகள்.
தோன்றிய அளவுகோல்களின் எடுத்துக்காட்டுகள்
டூரிங் சோதனையின் வரம்புகளை நிவர்த்தி செய்ய பல புதிய அளவீடுகள் வெளிவருகின்றன. அவை பின்வருமாறு:
- வினோகிராட் ஸ்கீமா சவால்: இந்த சோதனை வாக்கியங்களில் தெளிவற்ற பிரதிபெயர்களைப் புரிந்துகொள்வதற்கான AI இன் திறனில் கவனம் செலுத்துகிறது.
- AI2 ரீசனிங் சவால்: இந்த அளவுகோல் சிக்கலான நூல்களின் அடிப்படையில் கேள்விகளுக்கு காரணம் மற்றும் பதிலளிக்கும் AI இன் திறனை மதிப்பிடுகிறது.
- பொது அறிவு ரீசனிங் சவால்: இந்த சோதனை பொது அறிவு பற்றிய AI இன் புரிதலையும், அனுமானங்களைச் செய்யும் திறனையும் மதிப்பிடுகிறது.
AI மதிப்பீட்டின் எதிர்காலம்
AI மதிப்பீட்டின் எதிர்காலம் வெவ்வேறு அளவுகோல்களின் கலவையை உள்ளடக்கியதாக இருக்கும், ஒவ்வொன்றும் நுண்ணறிவின் குறிப்பிட்ட அம்சங்களை மதிப்பிடுவதற்கு வடிவமைக்கப்பட்டுள்ளன. இந்த அளவுகோல்கள் AI தொழில்நுட்பத்தில் ஏற்படும் விரைவான முன்னேற்றங்களுக்கு ஏற்ப தொடர்ந்து உருவாக வேண்டும். மேலும், AI அளவுகோல்களின் மேம்பாடு மற்றும் மதிப்பீட்டில் ஆராய்ச்சியாளர்கள், கொள்கை வகுப்பாளர்கள் மற்றும் பொதுமக்கள் உள்ளிட்ட பல்வேறு பங்குதாரர்களை ஈடுபடுத்துவது மிகவும் முக்கியமானது.
மிமிக்ரிக்கு அப்பால் நகர்தல்
இறுதியில், AI ஆராய்ச்சியின் குறிக்கோள் நுண்ணறிவு உள்ள அமைப்புகளை மட்டுமல்லாமல், மனிதகுலத்திற்கு நன்மை பயக்கும் அமைப்புகளையும் உருவாக்குவதாக இருக்க வேண்டும். இதற்கு மனிதனைப் போன்ற மிமிக்ரியைத் தொடர்வதைத் தாண்டி, நிகழ் உலக சிக்கல்களைத் தீர்க்கவும், படைப்பாற்றலை மேம்படுத்தவும் மற்றும் நெறிமுறை முடிவுகளை எடுக்கவும் AI அமைப்புகளை உருவாக்குவதில் கவனம் செலுத்த வேண்டும். புதிய அளவுகோல்களை ஏற்றுக்கொள்வதன் மூலமும், இந்த பரந்த இலக்குகளில் கவனம் செலுத்துவதன் மூலமும், AI இன் முழு திறனையும் நாங்கள் திறக்க முடியும் மற்றும் AI மற்றும் மனிதர்கள் ஒன்றிணைந்து சிறந்த உலகத்தை உருவாக்கக்கூடிய ஒரு எதிர்காலத்தை உருவாக்க முடியும்.