சர்ச்சையின் ஒரு நெருக்கமான பார்வை
சமீபத்தில், OpenAI-ல் ஒரு பணியாளர் எலோன் மஸ்கின் AI முயற்சியான xAI மீது ஒரு குற்றச்சாட்டை முன்வைத்தார். அதன் சமீபத்திய AI மாதிரியான Grok 3 க்கான தவறான பெஞ்ச்மார்க் முடிவுகளை xAI வழங்கியதாகக் கூறப்பட்டது. இது ஒரு விவாதத்தைத் தூண்டியது, xAI-யின் இணை நிறுவனர்களில் ஒருவரான இகோர் பாபுஷ்கின், நிறுவனத்தின் நிலைப்பாட்டை உறுதியாகப் பாதுகாத்தார்.
நிலைமையின் உண்மை, அது அடிக்கடி நிகழ்வது போல, மிகவும் நுணுக்கமான ஒரு நடுப்பகுதியில் உள்ளது.
ஒரு வலைப்பதிவு இடுகையில், xAI தனது Grok 3 இன் செயல்திறனை AIME 2025 இல் காட்டியது. இது சமீபத்திய அழைப்பிதழ் கணிதத் தேர்வில் இருந்து பெறப்பட்ட கணித சிக்கல்களின் தொகுப்பாகும். AIME ஒரு உறுதியான AI பெஞ்ச்மார்க்காக இருக்குமா என்பதில் சில நிபுணர்கள் சந்தேகம் தெரிவித்தாலும், இது மற்றும் சோதனையின் பழைய பதிப்புகள் ஒரு மாதிரியின் கணித திறமையை மதிப்பிடுவதற்கு பொதுவாகப் பயன்படுத்தப்படும் கருவியாக இருக்கின்றன.
xAI-யின் வரைபடத்தை டிகோட் செய்தல்
xAI வழங்கிய வரைபடம் Grok 3 – Grok 3 Reasoning Beta மற்றும் Grok 3 mini Reasoning – ஆகிய இரண்டு வகைகளைக் காட்டியது, வெளிப்படையாக OpenAI-யின் சிறந்த செயல்திறன் கொண்ட கிடைக்கக்கூடிய மாதிரியான o3-mini-high ஐ AIME 2025 இல் மிஞ்சியது. இருப்பினும், OpenAI ஊழியர்கள் சமூக ஊடகங்களில் விரைவாக எதிர்வினையாற்றினர், ஒரு வெளிப்படையான விடுபடலைக் குறிப்பிட்டனர்: xAI வரைபடம் o3-mini-high இன் AIME 2025 மதிப்பெண்ணை “cons@64” இல் சேர்க்கவில்லை.
“cons@64” என்றால் என்ன? இது “consensus@64” என்பதன் சுருக்கமாகும், இது ஒரு மாதிரிக்கு ஒரு பெஞ்ச்மார்க்கில் உள்ள ஒவ்வொரு சிக்கலையும் தீர்க்க 64 முயற்சிகளை வழங்குகிறது. அடிக்கடி உருவாக்கப்படும் பதில்கள் பின்னர் இறுதி பதில்களாகத் தேர்ந்தெடுக்கப்படுகின்றன. ஒருவர் எதிர்பார்ப்பது போல், cons@64 பெரும்பாலும் ஒரு மாதிரியின் பெஞ்ச்மார்க் மதிப்பெண்களை கணிசமாக அதிகரிக்கிறது. ஒரு ஒப்பீட்டு வரைபடத்தில் அதைத் தவிர்ப்பது, ஒரு மாதிரி மற்றொன்றை மிஞ்சுவது போன்ற மாயையை உருவாக்கலாம், உண்மையில் அப்படி இல்லாவிட்டாலும் கூட.
“உலகின் புத்திசாலித்தனமான AI” என்ற கூற்று
AIME 2025 மதிப்பெண்களை “@1” இல் கருத்தில் கொள்ளும்போது - மாதிரிகள் பெஞ்ச்மார்க்கில் பெற்ற முதல் மதிப்பெண்ணைக் குறிக்கிறது - Grok 3 Reasoning Beta மற்றும் Grok 3 mini Reasoning இரண்டும் o3-mini-high இன் மதிப்பெண்ணை விடக் குறைவாக உள்ளன. மேலும், Grok 3 Reasoning Beta OpenAI இன் o1 மாதிரி “நடுத்தர” கணினிக்கு அமைக்கப்பட்டதை விட சற்றே பின்தங்கியுள்ளது. இந்த முடிவுகள் இருந்தபோதிலும், xAI Grok 3 ஐ “உலகின் புத்திசாலித்தனமான AI” என்று தீவிரமாக விளம்பரப்படுத்துகிறது.
பாபுஷ்கின், சமூக ஊடகங்களில், OpenAI கடந்த காலத்தில் இதே போன்ற தவறான பெஞ்ச்மார்க் விளக்கப்படங்களை வெளியிட்டதாகக் கூறினார். இருப்பினும், அந்த விளக்கப்படங்கள் OpenAI இன் சொந்த மாதிரிகளின் செயல்திறனை ஒப்பிடுவதற்குப் பயன்படுத்தப்பட்டன. விவாதத்தில் மிகவும் பாரபட்சமற்ற ஒரு பார்வையாளர், cons@64 இல் கிட்டத்தட்ட ஒவ்வொரு மாதிரியின் செயல்திறனையும் காட்டும் ஒரு “துல்லியமான” வரைபடத்தை உருவாக்கினார்.
விடுபட்ட அளவீடு: கணக்கீட்டு செலவு
AI ஆராய்ச்சியாளர் நாதன் லாம்பர்ட் ஒரு முக்கியமான விஷயத்தை எடுத்துரைத்தார்: மிக முக்கியமான அளவீடு மர்மத்தில் மறைக்கப்பட்டுள்ளது. இது ஒவ்வொரு மாதிரியும் அதன் சிறந்த மதிப்பெண்ணை அடைய ஏற்படும் கணக்கீட்டு (மற்றும் நிதி) செலவு ஆகும். இது பெரும்பாலான AI பெஞ்ச்மார்க்குகளுடன் ஒரு அடிப்படை சிக்கலை அடிக்கோடிட்டுக் காட்டுகிறது - அவை ஒரு மாதிரியின் வரம்புகளைப் பற்றியோ அல்லது அதன் பலங்களைப் பற்றியோ மிகக் குறைவாகவே வெளிப்படுத்துகின்றன.
Grok 3 இன் பெஞ்ச்மார்க் பற்றிய விவாதம் AI சமூகத்திற்குள் ஒரு பரந்த சிக்கலை எடுத்துக்காட்டுகிறது: AI மாதிரிகள் எவ்வாறு மதிப்பிடப்படுகின்றன மற்றும் ஒப்பிடப்படுகின்றன என்பதில் அதிக வெளிப்படைத்தன்மை மற்றும் தரப்படுத்தல் தேவை.
AI பெஞ்ச்மார்க்கிங்கில் ஆழமாக ஆராய்தல்
Grok 3 இன் செயல்திறனை xAI வழங்கியதைச் சுற்றியுள்ள சர்ச்சை, AI பெஞ்ச்மார்க்கிங்கின் தன்மை பற்றிய பல முக்கியமான கேள்விகளை எழுப்புகிறது. ஒரு நல்ல பெஞ்ச்மார்க் எதனால் ஆனது? தவறான விளக்கங்களைத் தவிர்ப்பதற்காக முடிவுகள் எவ்வாறு வழங்கப்பட வேண்டும்? AI மாதிரிகளின் திறன்களை மதிப்பிடுவதற்கு பெஞ்ச்மார்க் மதிப்பெண்களை மட்டுமே நம்பியிருப்பதன் வரம்புகள் என்ன?
பெஞ்ச்மார்க்குகளின் நோக்கம்:
கோட்பாட்டில், பெஞ்ச்மார்க்குகள் குறிப்பிட்ட பணிகளில் வெவ்வேறு AI மாதிரிகளின் செயல்திறனை அளவிடவும் ஒப்பிடவும் ஒரு தரப்படுத்தப்பட்ட வழியாக செயல்படுகின்றன. அவை ஒரு பொதுவான அளவுகோலை வழங்குகின்றன, ஆராய்ச்சியாளர்கள் மற்றும் டெவலப்பர்கள் முன்னேற்றத்தைக் கண்காணிக்கவும், பலம் மற்றும் பலவீனங்களை அடையாளம் காணவும், இறுதியில் கண்டுபிடிப்புகளை இயக்கவும் அனுமதிக்கின்றன. இருப்பினும், ஒரு பெஞ்ச்மார்க்கின் செயல்திறன் பல காரணிகளைப் பொறுத்தது:
- தொடர்பு: பெஞ்ச்மார்க் உண்மையான உலக பணிகள் மற்றும் சவால்களை துல்லியமாக பிரதிபலிக்கிறதா?
- முழுமை: AI மாதிரியின் நோக்கம் கொண்ட பயன்பாட்டிற்கு தொடர்புடைய திறன்களின் பரந்த அளவை பெஞ்ச்மார்க் உள்ளடக்கியதா?
- புறநிலைத்தன்மை: பெஞ்ச்மார்க் சார்புநிலையைக் குறைக்கும் மற்றும் நியாயமான ஒப்பீட்டை உறுதி செய்யும் வகையில் வடிவமைக்கப்பட்டு நிர்வகிக்கப்படுகிறதா?
- மறுஉருவாக்கம்: பெஞ்ச்மார்க் முடிவுகளை சுயாதீன ஆராய்ச்சியாளர்களால் தொடர்ந்து நகலெடுக்க முடியுமா?
AI பெஞ்ச்மார்க்கிங்கின் சவால்கள்:
அவற்றின் நோக்கம் இருந்தபோதிலும், AI பெஞ்ச்மார்க்குகள் பெரும்பாலும் சவால்கள் நிறைந்தவை:
- அதிகப்படியான பொருத்தம்: மாதிரிகள் குறிப்பிட்ட பெஞ்ச்மார்க்குகளில் சிறப்பாக செயல்பட சிறப்பாக பயிற்சி அளிக்கப்படலாம், உண்மையான புத்திசாலித்தனம் அல்லது பொதுமைப்படுத்தக்கூடிய திறன்களைப் பெற வேண்டிய அவசியமில்லை. “அதிகப்படியான பொருத்தம்” என்று அழைக்கப்படும் இந்த நிகழ்வு, உண்மையான உலக செயல்திறனை பிரதிபலிக்காத உயர்த்தப்பட்ட மதிப்பெண்களுக்கு வழிவகுக்கும்.
- தரப்படுத்தல் இல்லாமை: வெவ்வேறு பெஞ்ச்மார்க்குகளின் பெருக்கம், ஒவ்வொன்றும் அதன் சொந்த முறைகள் மற்றும் மதிப்பெண் முறையுடன், மாதிரிகள் மற்றும் ஆராய்ச்சி ஆய்வகங்களில் முடிவுகளை ஒப்பிடுவதை கடினமாக்குகிறது.
- கணினியை ஏமாற்றுதல்: xAI சர்ச்சை விளக்குவது போல, நிறுவனங்கள் தங்கள் சொந்த மாதிரிகளுக்கு சாதகமாக பெஞ்ச்மார்க் முடிவுகளைத் தேர்ந்தெடுத்து வழங்குவதற்கு ஒரு தூண்டுதல் உள்ளது, இது பொதுமக்களை தவறாக வழிநடத்தக்கூடும் மற்றும் புறநிலை மதிப்பீட்டைத் தடுக்கக்கூடும்.
- வரையறுக்கப்பட்ட நோக்கம்: பெஞ்ச்மார்க்குகள் பெரும்பாலும் குறுகிய, நன்கு வரையறுக்கப்பட்ட பணிகளில் கவனம் செலுத்துகின்றன, மனித புத்திசாலித்தனத்தின் முழு சிக்கலான தன்மை மற்றும் நுணுக்கத்தைப் பிடிக்கத் தவறுகின்றன. படைப்பாற்றல், பொது அறிவு பகுத்தறிவு அல்லது புதிய சூழ்நிலைகளுக்கு ஏற்ப மாற்றியமைத்தல் போன்ற அம்சங்களை அவை போதுமான அளவு மதிப்பிடாமல் போகலாம்.
வெளிப்படைத்தன்மை மற்றும் முழுமையான மதிப்பீட்டின் அவசியம்
Grok 3 சம்பவம் அதிக வெளிப்படைத்தன்மை மற்றும் AI மாதிரிகளை மதிப்பிடுவதற்கான ஒரு முழுமையான அணுகுமுறைக்கான முக்கியமான தேவையை அடிக்கோடிட்டுக் காட்டுகிறது. ஒரு பெஞ்ச்மார்க் மதிப்பெண்ணை மட்டும் நம்பியிருப்பது, குறிப்பாக முழு சூழலும் இல்லாமல் வழங்கப்பட்ட ஒன்று, மிகவும் தவறாக வழிநடத்தும்.
பெஞ்ச்மார்க்குகளுக்கு அப்பால் நகர்தல்:
பெஞ்ச்மார்க்குகள் ஒரு பயனுள்ள கருவியாக இருந்தாலும், அவை AI மாதிரியின் திறன்களின் ஒரே தீர்மானிப்பாக இருக்கக்கூடாது. ஒரு விரிவான மதிப்பீடு கருத்தில் கொள்ள வேண்டும்:
- உண்மையான உலக செயல்திறன்: நடைமுறை பயன்பாடுகள் மற்றும் சூழ்நிலைகளில் மாதிரி எவ்வாறு செயல்படுகிறது?
- தரமான பகுப்பாய்வு: ஒத்திசைவு, படைப்பாற்றல் மற்றும் பகுத்தறியும் திறன் போன்ற காரணிகளை மதிப்பிடும் மாதிரியின் வெளியீடுகளின் நிபுணர் மதிப்பீடு.
- நெறிமுறை பரிசீலனைகள்: மாதிரி சார்புகளைக் காட்டுகிறதா அல்லது தீங்கு விளைவிக்கும் உள்ளடக்கத்தை உருவாக்குகிறதா?
- விளக்கக்கூடிய தன்மை: மாதிரியின் முடிவெடுக்கும் செயல்முறையைப் புரிந்து கொள்ளவும் விளக்கவும் முடியுமா?
- வலிமை: இரைச்சல் அல்லது எதிர்பாராத உள்ளீடுகளை மாதிரி எவ்வளவு நன்றாக கையாளுகிறது?
வெளிப்படைத்தன்மையை ஊக்குவித்தல்:
AI ஆய்வகங்கள் தங்கள் பெஞ்ச்மார்க்கிங் நடைமுறைகளில் அதிக வெளிப்படைத்தன்மைக்கு பாடுபட வேண்டும். இதில் அடங்கும்:
- முறையை தெளிவாக வரையறுத்தல்: பயன்படுத்தப்பட்ட குறிப்பிட்ட தரவுத்தொகுப்பு, மதிப்பீட்டு அளவீடுகள் மற்றும் எந்த முன் செயலாக்க படிகள் உட்பட பெஞ்ச்மார்க் அமைப்பைப் பற்றிய விரிவான தகவல்களை வழங்குதல்.
- முழு முடிவுகளையும் அறிக்கையிடுதல்: வெவ்வேறு உள்ளமைவுகள் அல்லது முறைகளைப் பயன்படுத்தி (cons@64 போன்றவை) பெறப்பட்டவை உட்பட அனைத்து தொடர்புடைய மதிப்பெண்களையும் வழங்குதல்.
- கணக்கீட்டு செலவை வெளிப்படுத்துதல்: அறிக்கையிடப்பட்ட முடிவுகளை அடைய தேவையான கணக்கீட்டு வளங்களை வெளிப்படுத்துதல்.
- திறந்த மூல பெஞ்ச்மார்க்குகள்: சுயாதீன சரிபார்ப்பு மற்றும் ஒப்பீட்டை எளிதாக்க பெஞ்ச்மார்க் தரவுத்தொகுப்புகள் மற்றும் மதிப்பீட்டு கருவிகளை பொதுவில் கிடைக்கச் செய்தல்.
செயற்கை நுண்ணறிவின் நாட்டம் ஒரு சிக்கலான மற்றும் வேகமாக வளர்ந்து வரும் துறையாகும். பெஞ்ச்மார்க்குகள், குறைபாடுள்ளவையாக இருந்தாலும், முன்னேற்றத்தை அளவிடுவதில் ஒரு பங்கு வகிக்கின்றன. இருப்பினும், அவற்றின் வரம்புகளை அங்கீகரிப்பது மற்றும் AI மாதிரிகளை மதிப்பிடுவதற்கு மிகவும் நுணுக்கமான மற்றும் வெளிப்படையான அணுகுமுறைக்கு பாடுபடுவது முக்கியம். இறுதி இலக்கு சக்திவாய்ந்ததாக மட்டுமல்லாமல் நம்பகமான, நெறிமுறை மற்றும் சமூகத்திற்கு நன்மை பயக்கும் AI அமைப்புகளை உருவாக்குவதாக இருக்க வேண்டும். அதிக பெஞ்ச்மார்க் மதிப்பெண்களைத் துரத்துவதில் இருந்து விலகி, உலகை உண்மையிலேயே புரிந்துகொண்டு அர்த்தமுள்ள வகையில் தொடர்பு கொள்ளும் AI ஐ உருவாக்குவதில் கவனம் செலுத்தப்பட வேண்டும்.