செயற்கை நுண்ணறிவு (AI) தரநிலைகளை மறுபரிசீலனை: அர்த்தமுள்ள அளவீட்டுக்கான தேடல்
மேலான செயற்கை நுண்ணறிவைத் (AI) தேடுவது பெரும்பாலும் தரநிலை மதிப்பெண்களால் தூண்டப்படுகிறது, ஆனால் இந்த மதிப்பெண்கள் உண்மையான உலக திறன்களை உண்மையிலேயே குறிக்கின்றனவா? பாரம்பரிய தரநிலைகள் அதிகரித்து வரும் ஆய்வுக்கு உட்படுத்தப்படுவதால் AI சமூகம் இந்த கேள்வியுடன் போராடுகிறது.
நவம்பர் 2024 இல் அறிமுகப்படுத்தப்பட்ட SWE-பெஞ்ச், AI மாதிரியின் குறியீட்டுத் திறனை மதிப்பிடுவதற்கான பிரபலமான கருவியாக விரைவாக இழுவைப் பெற்றது. இது ஒரு டஜன் பைதான் அடிப்படையிலான திட்டங்களில் பொது GitHub களஞ்சியங்களிலிருந்து எடுக்கப்பட்ட 2,000 க்கும் மேற்பட்ட உண்மையான நிரலாக்க சவால்களைப் பயன்படுத்துகிறது. ஒரு வலுவான SWE-பெஞ்ச் மதிப்பெண் ஒரு விரும்பத்தக்க அடையாளமாக மாறியுள்ளது, OpenAI, Anthropic மற்றும் Google போன்ற முன்னணி AI உருவாக்குநர்களிடமிருந்து முக்கிய மாதிரி வெளியீடுகளில் முக்கியமாக காட்சிப்படுத்தப்படுகிறது. இந்த ஜாம்பவான்களுக்கு அப்பால், நன்றாக ட்யூனிங் செய்வதில் நிபுணத்துவம் பெற்ற AI நிறுவனங்கள் SWE-பெஞ்ச் தலைவர் பதவிக்கான ஆதிக்கத்திற்காக தொடர்ந்து போட்டியிடுகின்றன.
இருப்பினும், இந்த தரநிலைகளைச் சுற்றியுள்ள வெறி தவறாக வழிநடத்தும். SWE-பெஞ்ச் வளர்ச்சியில் ஈடுபட்டுள்ள பிரின்ஸ்டன் பல்கலைக்கழக ஆராய்ச்சியாளர் ஜான் யாங், முதலிடத்திற்கான கடுமையான போட்டி முறையை "சூதாட்டம்" செய்ய வழிவகுத்தது என்று குறிப்பிடுகிறார். இந்த தரநிலைகள் உண்மையான AI சாதனையை துல்லியமாக பிரதிபலிக்கின்றனவா என்பது குறித்து இது கவலைகளை எழுப்புகிறது.
பிரச்சினை வெளிப்படையான ஏமாற்றுதல் அல்ல, மாறாக தரநிலையின் வரம்புகளை சுரண்டுவதற்காக குறிப்பாக வடிவமைக்கப்பட்ட உத்திகளை உருவாக்குவதாகும். உதாரணமாக, ஆரம்ப SWE-பெஞ்ச் பைதான் குறியீட்டில் மட்டுமே கவனம் செலுத்தியது, டெவலப்பர்கள் தங்கள் மாதிரிகளை பைத்தானில் மட்டும் பயிற்சி செய்ய ஊக்குவிக்கிறது. இந்த உயர் மதிப்பெண் மாதிரிகள் வெவ்வேறு நிரலாக்க மொழிகளை எதிர்கொள்ளும்போது அடிக்கடி தடுமாறுகின்றன என்று யாங் கவனித்தார், இது அவர் "மெருகூட்டப்பட்டது" என்று விவரிக்கும் ஒரு மேலோட்டமான புரிதலை வெளிப்படுத்துகிறது.
"இது முதல் பார்வையில் நன்றாக இருக்கிறது, ஆனால் நீங்கள் அதை ஒரு வித்தியாசமான மொழியில் இயக்க முயற்சிக்கிறீர்கள், முழு விஷயமும் ஒரு வகையான வீழ்ச்சியடைகிறது," என்று யாங் விளக்குகிறார். "அந்த நேரத்தில், நீங்கள் ஒரு மென்பொருள் பொறியியல் முகவரை வடிவமைக்கவில்லை. நீங்கள் ஒரு SWE-பெஞ்ச் முகவரை உருவாக்க வடிவமைக்கிறீர்கள், அது மிகவும் குறைவான ஆர்வமாக உள்ளது."
இந்த "SWE-பெஞ்ச் பிரச்சினை" AI மதிப்பீட்டில் ஒரு பரந்த சவாலை பிரதிபலிக்கிறது. முன்னேற்றத்தின் நம்பகமான குறிகாட்டிகளாகக் கருதப்பட்ட தரநிலைகள், உண்மையான உலக திறன்களிலிருந்து பெருகிய முறையில் பிரிக்கப்படுகின்றன. சிக்கலைச் சமாளிக்கும்போது, வெளிப்படைத்தன்மை குறித்த கவலைகள் மேற்பரப்பில் வெளிவந்துள்ளன, இது இந்த அளவீடுகளில் நம்பிக்கையை மேலும் குறைக்கிறது. இந்த சிக்கல்கள் இருந்தபோதிலும், தரநிலைகள் மாதிரி வளர்ச்சியில் ஒரு முக்கிய பங்கைத் தொடர்ந்து வகிக்கின்றன, இருப்பினும் பல நிபுணர்கள் அவற்றின் உள்ளார்ந்த மதிப்பை கேள்விக்குள்ளாக்குகிறார்கள். OpenAI இணை நிறுவனர் ஆண்ட்ரேஜ் கர்பதி கூட தற்போதைய சூழ்நிலையை ஒரு "மதிப்பீட்டு நெருக்கடி" என்று குறிப்பிட்டுள்ளார், AI திறன்களை அளவிடுவதற்கான நம்பகமான முறைகள் இல்லாததையும், முன்னோக்கி செல்லும் தெளிவான பாதை இல்லாததையும் குறிப்பிடுகிறார்.
ஸ்டான்போர்ட் பல்கலைக்கழகத்தின் மனித மையப்படுத்தப்பட்ட AI நிறுவனத்தின் ஆராய்ச்சி இயக்குனர் வனெசா பார்லி, "வரலாற்று ரீதியாக, தரநிலைகள் AI அமைப்புகளை மதிப்பிடுவதற்கான வழியாகும். அதை முன்னோக்கி எடுத்துச் செல்ல அமைப்புகளை மதிப்பிட வேண்டுமா? அது இல்லையென்றால், வழி என்ன?" என்று கேட்கிறார்.
அதிகரித்து வரும் கல்வியாளர்கள் மற்றும் AI ஆராய்ச்சியாளர்களின் குழு சமூக அறிவியலில் இருந்து உத்வேகம் பெற்று, மிகவும் கவனம் செலுத்தும் அணுகுமுறையை ஆதரிக்கிறது. அவர்கள் "செல்லுபடியாகும்," என்ற கருத்துக்கு முன்னுரிமை அளிக்க முன்மொழிகின்றனர், இது அளவு சமூக அறிவியலுக்கு மையமானது, இது ஒரு அளவீட்டு கருவி எவ்வளவு சிறப்பாக நோக்கம் கொண்ட கட்டுமானத்தை துல்லியமாக கைப்பற்றுகிறது என்பதை மதிப்பிடுகிறது. செல்லுபடியாகும் என்பதற்கு முக்கியத்துவம் கொடுப்பது "காரணம்" அல்லது "அறிவியல் அறிவு" போன்ற தெளிவற்ற வரையறுக்கப்பட்ட கருத்துக்களை மதிப்பிடும் தரநிலைகளை சவால் செய்யலாம். இது செயற்கை பொது நுண்ணறிவைத் (AGI) தேடுவதைத் தணிக்கக்கூடும் என்றாலும், இது தனிப்பட்ட மாதிரிகளை மதிப்பிடுவதற்கு மிகவும் உறுதியான அடித்தளத்தை வழங்கும்.
மிச்சிகன் பல்கலைக்கழகத்தில் பேராசிரியரும், செல்லுபடியாகும் தன்மைக்கான உந்துதலில் முன்னணி குரலாகவும் இருக்கும் அபிகெய்ல் ஜேக்கப்ஸ், "செல்லுபடியாகும் தன்மையை தீவிரமாக எடுத்துக்கொள்வது அகாடமியா, தொழில் அல்லது எங்கிருந்தாலும் அவர்களின் அமைப்பு அவர்கள் சொல்வதைச் செய்கிறது என்று காட்டும்படி கேட்பது என்று அர்த்தம். அவர்கள் தங்கள் கூற்றை ஆதரிக்க முடியும் என்று காட்டுவதில் இருந்து விலகிச் செல்ல விரும்பினால், AI உலகில் ஒரு பலவீனத்திற்கு இது காரணமாகிறது என்று நான் நினைக்கிறேன்." என்கிறார்.
பாரம்பரிய சோதனையின் வரம்புகள்
AI துறையின் தரநிலைகளின் மீதான நம்பிக்கை அவர்களின் கடந்தகால வெற்றிகளிலிருந்து உருவாகிறது, குறிப்பாக இமேஜ்நெட் போன்ற சவால்களில்.
2010 இல் தொடங்கப்பட்ட இமேஜ்நெட், ஆராய்ச்சியாளர்களுக்கு 1,000 வெவ்வேறு வகுப்புகளாக வகைப்படுத்தப்பட்ட 3 மில்லியனுக்கும் அதிகமான படங்களின் தரவுத்தளத்தை வழங்கியது. சவால் முறை-அக்னோஸ்டிக் ஆகும், அதன் அடிப்படை அணுகுமுறையைப் பொருட்படுத்தாமல் எந்தவொரு வெற்றிகரமான வழிமுறையும் நம்பகத்தன்மையைப் பெற அனுமதித்தது. 2012 இல் அலெக்ஸ்நெட் மூலம் பெறப்பட்ட முன்னேற்றம், GPU பயிற்சி முறையின் வழக்கத்திற்கு மாறான வடிவத்தைப் பயன்படுத்தியது, இது நவீன AI இன் ஒரு மூலக்கல்லாக மாறியது. அலெக்ஸ்நெட்டின் கன்வோலுஷனல் நரம்பியல் நெட்வொர்க்குகள் பட அங்கீகாரத்தைத் திறக்கும் என்று சிலர் கணித்திருக்க முடியும் என்றாலும், அதன் அதிக மதிப்பெண் எந்த சந்தேகத்தையும் அமைதிப்படுத்தியது. (குறிப்பாக, அலெக்ஸ்நெட்டின் டெவலப்பர்களில் ஒருவர் OpenAI ஐ இணைந்து நிறுவினார்.)
சவாலுக்கும் உண்மையான உலக பட அங்கீகார பணிகளுக்கும் இடையிலான நெருக்கமான சீரமைப்பிலிருந்து இமேஜ்நெட்டின் செயல்திறன் வந்தது. முறைகள் பற்றிய விவாதங்கள் இருந்தபோதிலும், மிக உயர்ந்த மதிப்பெண் மாதிரி நடைமுறை பயன்பாடுகளில் உயர்ந்த செயல்திறனைக் காட்டியது.
இருப்பினும், பல ஆண்டுகளாக, AI ஆராய்ச்சியாளர்கள் இதே முறை-அக்னோஸ்டிக் அணுகுமுறையை பெருகிய முறையில் பொதுவான பணிகளுக்குப் பயன்படுத்தினர். எடுத்துக்காட்டாக, SWE-பெஞ்ச், பரந்த குறியீட்டு திறனுக்கான ஒரு ப்ராக்ஸியாக அடிக்கடி பயன்படுத்தப்படுகிறது, அதே நேரத்தில் பிற தேர்வு-பாணி தரநிலைகள் பகுத்தறிவு திறனை அளவிட பயன்படுத்தப்படுகின்றன. இந்த பரந்த நோக்கம் ஒரு குறிப்பிட்ட தரநிலை எதை அளவிடுகிறது என்பதை கடுமையாக வரையறுப்பதை கடினமாக்குகிறது, இது கண்டுபிடிப்புகளின் பொறுப்பான விளக்கத்திற்கு தடையாக உள்ளது.
எங்கே விஷயங்கள் உடைந்து போகின்றன
ஸ்டான்போர்டில் பிஎச்டி மாணவியான அங்கா ரூல், பொதுவான தன்மைக்கான உந்துதல் தான் மதிப்பீட்டுப் பிரச்சினையின் மூல காரணம் என்று வாதிடுகிறார். "நாங்கள் பணி-குறிப்பிட்ட மாதிரிகளிலிருந்து பொது நோக்க மாதிரிகளுக்கு மாறியுள்ளோம்," என்று ரூல் கூறுகிறார். "இது இனி ஒரு குறிப்பிட்ட பணியைப் பற்றியது அல்ல, ஆனால் பல பணிகள், எனவே மதிப்பீடு கடினமாகிறது."
ஜேக்கப்ஸைப் போலவே, "தரநிலைகளில் உள்ள முக்கிய பிரச்சினை நடைமுறை செயலாக்கத்தை விட செல்லுபடியாகும் தன்மைதான்," என்று ரூல் நம்புகிறார். "அங்குதான் பல விஷயங்கள் உடைந்து போகின்றன." குறியீடு செய்வது போன்ற சிக்கலான பணிகளுக்கு, ஒவ்வொரு கருத்தரிக்கக்கூடிய சூழ்நிலையையும் ஒரு சிக்கல் தொகுப்பில் உள்ளடக்குவது கிட்டத்தட்ட சாத்தியமற்றது. இதன் விளைவாக, ஒரு மாதிரியின் அதிக மதிப்பெண் உண்மையான குறியீட்டு திறனைக் காட்டுகிறதா அல்லது சிக்கல் தொகுப்பின் புத்திசாலித்தனமான கையாளுதலையா என்பதை அறிவது கடினம். சாதனை மதிப்பெண்களைப் பெறுவதற்கான தீவிர அழுத்தம் மேலும் குறுக்குவழிகளை ஊக்குவிக்கிறது.
பல குறிப்பிட்ட தரநிலைகளில் வெற்றி பொதுவாக திறன் கொண்ட மாதிரியாக மொழிபெயர்க்கும் என்று டெவலப்பர்கள் நம்புகிறார்கள். இருப்பினும், முகவர் AI இன் எழுச்சி, ஒரு ஒற்றை அமைப்பு சிக்கலான மாதிரிகளின் வரிசையை ஒருங்கிணைக்க முடியும், இது குறிப்பிட்ட பணிகளில் மேம்பாடுகள் பொதுமைப்படுத்துமா என்பதை மதிப்பிடுவது கடினமாக்குகிறது. "நீங்கள் திருப்பக்கூடிய பல நொடிகள் உள்ளன," என்று பிரின்ஸ்டனில் கணினி விஞ்ஞானியும், AI துறையில் மோசமான நடைமுறைகளின் விமர்சகருமான சயாஷ் கபூர் கூறுகிறார். "முகவர்களைப் பொறுத்தவரை, அவர்கள் மதிப்பீட்டிற்கான சிறந்த நடைமுறைகளை விட்டுவிட்டார்கள்."
கடந்த ஜூலையில் வெளியிடப்பட்ட ஒரு கட்டுரையில், 2024 இல் AI மாதிரிகள் வெப்அரீனா தரநிலையை எவ்வாறு அணுகின என்பது குறித்த குறிப்பிட்ட சிக்கல்களை கபூர் எடுத்துக்காட்டினார், இது வலைக்கு செல்ல AI முகவரின் திறனை சோதிக்கிறது. இந்த தரநிலை ரெடிட், விக்கிப்பீடியா மற்றும் பிறவற்றைப் பின்பற்றும் குளோன் செய்யப்பட்ட வலைத்தளங்களில் செய்யப்பட்ட 800 க்கும் மேற்பட்ட பணிகளைக் கொண்டுள்ளது. கபூர் மற்றும் அவரது குழு வென்ற மாதிரி, STeP, பயனர் சுயவிவர பக்கங்களை நேரடியாக அணுக ரெடிட் URL களின் கட்டமைப்பை சுரண்டியது, இது வெப்அரீனா பணிகளில் அடிக்கடி தேவைப்படுகிறது.
வெளிப்படையான ஏமாற்றுதல் இல்லையென்றாலும், வெப்அரீனாவில் முதல் முறையாக பணிகளைப் பார்த்திருந்தால் முகவர் எவ்வளவு நன்றாக வேலை செய்திருப்பார் என்பதன் "தீவிர தவறான பிரதிநிதித்துவம்" என்று கபூர் கருதுகிறார். இருப்பினும், OpenAI இன் வலை முகவர், ஆபரேட்டர், அப்போதிருந்து இதேபோன்ற கொள்கையை ஏற்றுக்கொண்டார்.
AI தரநிலைகளுடனான சிக்கல்களை மேலும் விளக்கும் வகையில், கபூர் மற்றும் ஒரு குழு ஆராய்ச்சியாளர்கள் சமீபத்தில் சாட்போட் அரீனாவில் குறிப்பிடத்தக்க சிக்கல்களை வெளிப்படுத்தும் ஒரு கட்டுரையை வெளியிட்டனர், இது ஒரு பிரபலமான கூட்ட நெறிமுறையிடப்பட்ட மதிப்பீட்டு அமைப்பு ஆகும். சில சிறந்த அடித்தள மாதிரிகள் வெளியிடப்படாத தனியார் சோதனை மற்றும் அவற்றின் மதிப்பெண்களைத் தேர்ந்தெடுப்பதில் ஈடுபட்டுள்ளன என்று அவர்களின் கண்டுபிடிப்புகள் காட்டுகின்றன.
எல்லாவற்றையும் தொடங்கிய இமேஜ்நெட் தரநிலை கூட இப்போது செல்லுபடியாகும் சிக்கல்களை எதிர்கொள்கிறது. வாஷிங்டன் பல்கலைக்கழகம் மற்றும் கூகிள் ஆராய்ச்சியின் ஆராய்ச்சியாளர்கள் நடத்திய 2023 ஆய்வில், இமேஜ்நெட்-வென்ற வழிமுறைகள் ஆறு உண்மையான உலக தரவுத்தொகுப்புகளில் பயன்படுத்தப்பட்டபோது "சிறிய முன்னேற்றம்" காட்டவில்லை என்று கண்டறியப்பட்டது, இது சோதனையின் வெளிப்புற செல்லுபடியாகும் தன்மை அதன் வரம்பை எட்டியுள்ளது என்பதைக் குறிக்கிறது.
சிறியதாகப் போவது
செல்லுபடியாகும் சிக்கலைத் தீர்க்க, சில ஆராய்ச்சியாளர்கள் தரநிலைகளை குறிப்பிட்ட பணிகளுடன் மீண்டும் இணைக்க முன்மொழிகின்றனர். ரூல் கூறியது போல், AI உருவாக்குநர்கள் "இந்த உயர் மட்ட தரநிலைகளை நாட வேண்டும், அவை கீழ்நிலை நுகர்வோருக்கு கிட்டத்தட்ட அர்த்தமற்றவை, ஏனெனில் தரநிலை உருவாக்குநர்கள் இனி கீழ்நிலை பணியை எதிர்பார்க்க முடியாது."
நவம்பர் 2024 இல், ரூல் பெட்டர் பெஞ்ச் என்ற ஒரு பொது தரவரிசை திட்டத்தைத் தொடங்கினார், இது குறியீடு ஆவணத்தின் தெளிவு மற்றும் மிக முக்கியமாக, அதன் கூறப்பட்ட திறனை அளவிடுவதில் தரநிலையின் செல்லுபடியாகும் தன்மை உட்பட பல்வேறு அளவுகோல்களின் அடிப்படையில் தரநிலைகளை மதிப்பிடுகிறது. பெட்டர் பெஞ்ச் வடிவமைப்பாளர்களை அவர்களின் தரநிலை சோதனைகளை தெளிவாக வரையறுக்கவும், தரநிலையை உள்ளடக்கிய பணிகளுடன் எவ்வாறு தொடர்புடையது என்பதையும் சவால் விடுகிறது.
"உங்களுக்கு திறன்களின் கட்டமைப்பு முறிவு இருக்க வேண்டும்," என்று ரூல் கூறுகிறார். "உண்மையான திறன்கள் எதைப் பற்றி நீங்கள் கவலைப்படுகிறீர்கள், அவற்றை நாம் அளவிடக்கூடிய ஒன்றாக எவ்வாறு செயல்படுத்தப் போகிறோம்?"
விளைவுகள் வெளிப்படுத்துகின்றன. ஏடிஏரி 2600 விளையாட்டுகளை விளையாட கற்றுக்கொள்வதற்கான மாதிரிகளின் திறனை சோதிக்க 2013 இல் நிறுவப்பட்ட ஆர்கேட் கற்றல் சுற்றுச்சூழல் (ALE), மிக உயர்ந்த மதிப்பெண் தரநிலைகளில் ஒன்றாக வெளிப்படுகிறது. மாறாக, பாரிய பல பணி மொழி புரிதல் (MMLU) தரநிலை, பொது மொழி திறன்களுக்கான பரவலாகப் பயன்படுத்தப்படும் சோதனை, கேள்விகளுக்கும் அடிப்படை திறனுக்கும் இடையிலான மோசமாக வரையறுக்கப்பட்ட இணைப்பு காரணமாக மிகக் குறைந்த மதிப்பெண்களைப் பெறுகிறது.
குறிப்பிட்ட தரநிலைகளின் நற்பெயர்களில் பெட்டர் பெஞ்ச் இன்னும் குறிப்பிடத்தக்க தாக்கத்தை ஏற்படுத்தவில்லை என்றாலும், AI தரநிலைகளை எவ்வாறு மேம்படுத்துவது என்பது குறித்த விவாதங்களின் முன்னணியில் செல்லுபடியாகும் தன்மையை வெற்றிகரமாக கொண்டு வந்துள்ளது. ரூல் ஹக்கிங் பேஸ், எடின்பர்க் பல்கலைக்கழகம் மற்றும் எலூதர்ஏஐ ஆகியவற்றால் நடத்தப்படும் ஒரு புதிய ஆராய்ச்சி குழுவில் இணைந்துள்ளார், அங்கு அவர் செல்லுபடியாகும் தன்மை மற்றும் AI மாதிரி மதிப்பீடு குறித்த தனது யோசனைகளை மேலும் வளர்ப்பார்.
ஹக்கிங் பேஸின் உலகளாவிய கொள்கையின் தலைவரான ஐரீன் சோலைமான், நேரடியான திறன்களை அளவிடுவதற்கு அப்பாற்பட்ட செல்லுபடியாகும் தரநிலைகளை உருவாக்குவதில் குழு கவனம் செலுத்தும் என்று கூறுகிறார். "அடுப்பிலிருந்து ஒரு நல்ல தரநிலைக்கு ஏற்கனவே வேலை செய்யக்கூடியதாக நிறைய பசி இருக்கிறது," என்று சோலைமான் கூறுகிறார். "நிறைய மதிப்பீடுகள் அதிகமாகச் செய்ய முயற்சிக்கின்றன."
பரந்த தொழில் இந்த பார்வையில் ஒன்றிணைவதாகத் தெரிகிறது. மார்ச் மாதம் வெளியிடப்பட்ட ஒரு கட்டுரையில், கூகிள், மைக்ரோசாப்ட், ஆந்த்ரோபிக் மற்றும் பிற ஆராய்ச்சியாளர்கள் மதிப்பீடுகளை மேம்படுத்துவதற்கான ஒரு புதிய கட்டமைப்பை கோடிட்டுக் காட்டினர், செல்லுபடியாகும் தன்மையை ஒரு மூலக்கல்லாகக் கொண்டனர்.
"AI மதிப்பீட்டு அறிவியல், ‘பொது நுண்ணறிவு’ பற்றிய கரடுமுரடான கூற்றுகளுக்கு அப்பால், முன்னேற்றத்தின் பணி-குறிப்பிட்ட மற்றும் உண்மையான உலக தொடர்புடைய நடவடிக்கைகளை நோக்கி நகர வேண்டும்," என்று ஆராய்ச்சியாளர்கள் வாதிடுகின்றனர்.
\"ஸ்க்விஷி\" விஷயங்களை அளவிடுதல்
இந்த மாற்றத்தை எளிதாக்க, சில ஆராய்ச்சியாளர்கள் சமூக அறிவியலின் கருவிகளை நோக்கி திரும்புகிறார்கள். பிப்ரவரி நிலை அறிக்கை "ஜென்ஏஐ அமைப்புகளை மதிப்பிடுவது ஒரு சமூக அறிவியல் அளவீட்டு சவால்" என்று வாதிட்டது, குறிப்பாக சமூக அறிவியல் செல்லுபடியாகும் அமைப்புகள் AI தரநிலைகளுக்கு எவ்வாறு பயன்படுத்தப்படலாம் என்பதை ஆராய்கிறது.
முதலில் மைக்ரோசாஃப்ட் ஆராய்ச்சி பிரிவைச் சேர்ந்தவர்கள், ஆனால் ஸ்டான்போர்ட் மற்றும் மிச்சிகன் பல்கலைக்கழகத்தைச் சேர்ந்த கல்வியாளர்களையும் உள்ளடக்கிய ஆசிரியர்கள், சித்தாந்தம், ஜனநாயகம் மற்றும் ஊடக சார்பு போன்ற போட்டியிட்ட கருத்துக்களை அளவிட சமூக விஞ்ஞானிகள் பயன்படுத்தும் தரநிலைகளைச் சுட்டிக்காட்டுகின்றனர். AI தரநிலைகளுக்குப் பயன்படுத்தப்படும் இந்த நடைமுறைகள், தெளிவற்ற பொதுமைப்படுத்தல்களை நாடாமல் "காரணம்" மற்றும் "கணிதத் திறன்" போன்ற கருத்துக்களை அளவிடுவதற்கான ஒரு வழியை வழங்க முடியும்.
சமூக அறிவியல் இலக்கியம் அளவிடப்படும் கருத்தை கடுமையாக வரையறுப்பதன் முக்கியத்துவத்தை வலியுறுத்துகிறது. உதாரணமாக, ஒரு சமூகத்தில் ஜனநாயகத்தின் அளவை அளவிட வடிவமைக்கப்பட்ட ஒரு சோதனை முதலில் ஒரு "ஜனநாயக சமூகத்தின்" தெளிவான வரையறையை நிறுவி, பின்னர் அந்த வரையறைக்கு பொருத்தமான கேள்விகளை உருவாக்க வேண்டும்.
SWE-பெஞ்ச் போன்ற ஒரு தரநிலைக்கு இதைப் பயன்படுத்த, வடிவமைப்பாளர்கள் கிட்ஹப்பிலிருந்து நிரலாக்க சிக்கல்களை சேகரிக்கும் பாரம்பரிய இயந்திர கற்றல் அணுகுமுறையை கைவிட்டு பதில்களைச் சரிபார்க்க ஒரு திட்டத்தை உருவாக்க வேண்டும். அதற்கு பதிலாக, அவர்கள் முதலில் தரநிலை எதை அளவிட விரும்புகிறது என்பதை வரையறுக்க வேண்டும் (எ.கா., "மென்பொருளில் கொடியிடப்பட்ட சிக்கல்களைத் தீர்க்கும் திறன்"), அதை துணை திறன்களாகப் பிரிக்கவும் (எ.கா., வெவ்வேறு வகையான சிக்கல்கள் அல்லது நிரல் கட்டமைப்புகள்), பின்னர் அந்த துணை திறன்களைத் துல்லியமாக உள்ளடக்கும் கேள்விகளை உருவாக்கவும்.
ஜேக்கப்ஸ் போன்ற ஆராய்ச்சியாளர்களுக்கு, AI ஆராய்ச்சியாளர்கள் தரநிலையை எவ்வாறு அணுகுகிறார்கள் என்பதிலிருந்து இந்த ஆழமான மாற்றம் தான் புள்ளி. "தொழில்நுட்பத் துறையில் என்ன நடக்கிறது மற்றும் சமூக அறிவியலில் இருந்து வரும் இந்த கருவிகளுக்கு இடையே ஒரு பொருந்தாமை உள்ளது," என்று அவர் கூறுகிறார். "மனிதர்களைப் பற்றிய இந்த ஸ்க்விஷி விஷயங்களை நாம் எவ்வாறு அளவிட விரும்புகிறோம் என்பதைப் பற்றி நாம் பல தசாப்தங்களாக சிந்திக்கிறோம்."
ஆராய்ச்சி சமூகத்தில் இந்த யோசனைகளின் அதிகரித்து வரும் தாக்கம் இருந்தபோதிலும், AI நிறுவனங்கள் உண்மையில் தரநிலைகளை எவ்வாறு பயன்படுத்துகின்றன என்பதில் அவர்களின் செல்வாக்கு மெதுவாக உள்ளது.
OpenAI, Anthropic, Google மற்றும் Meta ஆகியவற்றிலிருந்து சமீபத்திய மாதிரி வெளியீடுகள் MMLU போன்ற பல தேர்வு அறிவு தரநிலைகளை பெரிதும் நம்பியுள்ளன, செல்லுபடியாகும் ஆராய்ச்சியாளர்கள் விலகிச் செல்ல முயற்சிக்கிறார்கள். மாதிரி வெளியீடுகள், பெரும்பாலும், பொது நுண்ணறிவில் ஏற்படும் அதிகரிப்புகளை நிரூபிப்பதில் கவனம் செலுத்துகின்றன, மேலும் இந்த கூற்றுக்களை ஆதரிக்க பரந்த தரநிலைகள் பயன்படுத்தப்படுகின்றன.
சில பார்வையாளர்கள் இதை திருப்திகரமாகக் காண்கிறார்கள். வார்டன் பேராசிரியர் ஈதன் மோலிக், தரநிலைகள் "விஷயங்களின் மோசமான அளவீடுகள், எங்களிடம் என்ன இருக்கிறது" என்கிறார். அவர் மேலும் கூறுகையில், "அதே நேரத்தில், மாதிரிகள் சிறப்பாக வருகின்றன. வேகமான முன்னேற்றத்தால் பல பாவங்கள் மன்னிக்கப்படுகின்றன."
இப்போதைக்கு, செயற்கை பொது நுண்ணறிவில் தொழில்துறையின் நீண்டகால கவனம், அதிக கவனம் செலுத்திய, செல்லுபடியாகும் அணுகுமுறையை மறைக்கக்கூடும். AI மாதிரிகள் பொது நுண்ணறிவில் தொடர்ந்து முன்னேறி வரும் வரை, பயிற்சியாளர்கள் முழுமையாக நம்பாத கருவிகளைப் பயன்படுத்தினாலும், குறிப்பிட்ட பயன்பாடுகள் குறைவாகவே உள்ளன.
"இது நாங்கள் நடந்து செல்லும் கயிற்றாட்டம்," என்று ஹக்கிங் பேஸின் சோலைமான் கூறுகிறார். "அமைப்பை வெளியே எறிவது மிகவும் எளிதானது, ஆனால் இந்த வரம்புகள் இருந்தபோதிலும், எங்கள் மாதிரிகளைப் புரிந்துகொள்வதில் மதிப்பீடுகள் மிகவும் உதவியாக இருக்கின்றன."