டொமைன்-குறிப்பிட்ட மற்றும் தொழில்துறை பெஞ்ச்மார்க்ஸ்
பெரிய மொழி மாதிரிகளின் (LLMs) மதிப்பீட்டில் பெஞ்ச்மார்க்கிங் ஒரு முக்கிய பங்கு வகிக்கிறது, பல்வேறு பயன்பாடுகளில் பலம் மற்றும் பலவீனங்களை மதிப்பிடுவதற்கான ஒரு கட்டமைக்கப்பட்ட முறையை வழங்குகிறது. நன்கு கட்டமைக்கப்பட்ட பெஞ்ச்மார்க்ஸ் டெவலப்பர்களுக்கு மாதிரி முன்னேற்றத்தைக் கண்காணிக்கவும், மேம்பாட்டிற்கான பகுதிகளை அடையாளம் காணவும், பிற மாடல்களுக்கு எதிரான செயல்திறனை ஒப்பிடவும் ஒரு திறமையான மற்றும் செலவு குறைந்த வழிமுறையை வழங்குகிறது. பொதுவான LLM திறன்களுக்கான பெஞ்ச்மார்க்ஸை உருவாக்குவதில் கணிசமான முன்னேற்றம் ஏற்பட்டுள்ள நிலையில், சிறப்பு களங்களில் ஒரு குறிப்பிடத்தக்க இடைவெளி உள்ளது. கணக்கியல், நிதி, மருத்துவம், சட்டம், இயற்பியல், இயற்கை அறிவியல் மற்றும் மென்பொருள் மேம்பாடு போன்ற துறைகளை உள்ளடக்கிய இந்த களங்கள், ஆழமான அறிவின் அளவைக் கோருகின்றன மற்றும் பெரும்பாலும் பொது நோக்கத்திற்கான பெஞ்ச்மார்க்ஸின் எல்லைக்கு அப்பாற்பட்ட வலுவான மதிப்பீட்டு முறைகள் தேவைப்படுகின்றன.
எடுத்துக்காட்டாக, பல்கலைக்கழக அளவிலான கணிதம் கூட, ஒரு அடிப்படையான பகுதியாக இருந்தாலும், தற்போதுள்ள பொதுவான பெஞ்ச்மார்க்ஸ்களால் போதுமான அளவு மதிப்பிடப்படவில்லை. இவை பெரும்பாலும் அடிப்படை சிக்கல்கள் அல்லது ஒலிம்பியாட்-நிலை போட்டிகளில் காணப்படும் மிகவும் சவாலான பணிகள் மீது கவனம் செலுத்துகின்றன. இது பல்கலைக்கழக பாடத்திட்டங்கள் மற்றும் உண்மையான உலக பயன்பாடுகளுக்கு பொருத்தமான பயன்பாட்டு கணிதத்தை மதிப்பிடுவதில் ஒரு வெற்றிடத்தை விட்டுச்செல்கிறது.
இந்த இடைவெளியை நிவர்த்தி செய்ய, பல்கலைக்கழக அளவிலான கணித திறன்களின் விரிவான மதிப்பீட்டை வழங்க U-MATH என்ற ஒரு பிரத்யேக பெஞ்ச்மார்க் உருவாக்கப்பட்டது. o1 மற்றும் R1 உள்ளிட்ட முன்னணி LLM-களில் இந்த பெஞ்ச்மார்க்கைப் பயன்படுத்தி நடத்தப்பட்ட சோதனைகள் சுவாரஸ்யமான நுண்ணறிவுகளை அளித்தன. பகுத்தறிவு அமைப்புகள் ஒரு தனித்துவமான வகையை ஆக்கிரமித்துள்ளன என்பதை முடிவுகள் தெளிவாகக் காட்டின. OpenAI’யின் o1 77.2% பணிகளை வெற்றிகரமாக தீர்த்து, 73.7% உடன் டீப்ஸீக் R1 ஐத் தொடர்ந்து முன்னணியில் உள்ளது. குறிப்பாக, U-MATH இல் R1 இன் செயல்திறன் o1 ஐ விட பின்தங்கியிருந்தது, இது AIME மற்றும் MATH-500 போன்ற பிற கணித பெஞ்ச்மார்க்குகளில் அதிக மதிப்பெண்களைப் பெற்றதற்கு முரணானது. மற்ற சிறந்த செயல்திறன் கொண்ட மாதிரிகள் ஒரு குறிப்பிடத்தக்க செயல்திறன் இடைவெளியைக் காட்டின, ஜெமினி 1.5 ப்ரோ 60% பணிகளையும், GPT-4 43% பணிகளையும் தீர்த்தன. சுவாரஸ்யமாக, Qwen 2.5 கணித குடும்பத்தைச் சேர்ந்த ஒரு சிறிய, கணித-சிறப்பு மாதிரியும் போட்டி முடிவுகளை நிரூபித்தது.
இந்த கண்டுபிடிப்புகள் முடிவெடுப்பதில் குறிப்பிடத்தக்க நடைமுறை தாக்கங்களைக் கொண்டுள்ளன. டொமைன்-குறிப்பிட்ட பெஞ்ச்மார்க்ஸ் பொறியாளர்களுக்கு அவர்களின் குறிப்பிட்ட சூழல்களில் வெவ்வேறு மாதிரிகள் எவ்வாறு செயல்படுகின்றன என்பதைப் புரிந்துகொள்ள உதவுகின்றன. நம்பகமான பெஞ்ச்மார்க்ஸ் இல்லாத முக்கிய களங்களுக்கு, மேம்பாட்டுக் குழுக்கள் தங்கள் சொந்த மதிப்பீடுகளை மேற்கொள்ளலாம் அல்லது தனிப்பயன் பெஞ்ச்மார்க்ஸை உருவாக்க தரவு கூட்டாளர்களுடன் ஒத்துழைக்கலாம். இந்த தனிப்பயன் பெஞ்ச்மார்க்ஸ் பின்னர் தங்கள் மாதிரியை மற்றவற்றுடன் ஒப்பிடுவதற்கும், ஃபைன்-ட்யூனிங் மறு செய்கைகளைத் தொடர்ந்து புதிய மாதிரி பதிப்புகளைத் தொடர்ந்து மதிப்பிடுவதற்கும் பயன்படுத்தப்படலாம். இந்த வடிவமைக்கப்பட்ட அணுகுமுறை, மதிப்பீட்டு செயல்முறை நோக்கம் கொண்ட பயன்பாட்டிற்கு நேரடியாக தொடர்புடையது என்பதை உறுதிசெய்கிறது, பொதுவான பெஞ்ச்மார்க்ஸை விட அர்த்தமுள்ள நுண்ணறிவுகளை வழங்குகிறது.
பாதுகாப்பு பெஞ்ச்மார்க்ஸ்
AI அமைப்புகளில் பாதுகாப்பின் முக்கியத்துவத்தை மிகைப்படுத்த முடியாது, மேலும் இந்த முக்கியமான அம்சத்தை நிவர்த்தி செய்ய பெஞ்ச்மார்க்ஸின் ஒரு புதிய அலை உருவாகி வருகிறது. இந்த பெஞ்ச்மார்க்ஸ் பாதுகாப்பு மதிப்பீட்டை மிகவும் அணுகக்கூடியதாகவும் தரப்படுத்தப்பட்டதாகவும் மாற்றுவதை நோக்கமாகக் கொண்டுள்ளது. ஒரு உதாரணம் AILuminate, இது பொது நோக்கத்திற்கான LLM-களின் பாதுகாப்பு அபாயங்களை மதிப்பிடுவதற்காக வடிவமைக்கப்பட்ட ஒரு கருவியாகும். AILuminate வன்முறை குற்றங்கள், தனியுரிமை மீறல்கள் மற்றும் பிற அக்கறைக்குரிய பகுதிகளை உள்ளடக்கிய 12 வகைகளின் ஸ்பெக்ட்ரம் முழுவதும் தீங்கு விளைவிக்கும் நடத்தைகளை அங்கீகரிப்பதற்கான ஒரு மாதிரியின் போக்கை மதிப்பிடுகிறது. கருவி ஒவ்வொரு வகைக்கும் “மோசம்” முதல் “சிறந்தது” வரை 5-புள்ளி மதிப்பெண்ணை வழங்குகிறது. இந்த மதிப்பெண்கள் முடிவெடுப்பவர்களை மாதிரிகளை ஒப்பிடவும் அவற்றின் தொடர்புடைய பாதுகாப்பு அபாயங்களைப் பற்றிய தெளிவான புரிதலைப் பெறவும் உதவுகின்றன.
AILuminate கிடைக்கக்கூடிய மிகவும் விரிவான பொது நோக்கத்திற்கான பாதுகாப்பு பெஞ்ச்மார்க்ஸ்களில் ஒன்றாக ஒரு குறிப்பிடத்தக்க படியை முன்னெடுத்துச் சென்றாலும், குறிப்பிட்ட களங்கள் அல்லது தொழில்களுடன் தொடர்புடைய தனிப்பட்ட அபாயங்களை அது ஆராய்வதில்லை. AI தீர்வுகள் பெருகிய முறையில் பல்வேறு துறைகளில் ஒருங்கிணைக்கப்படுவதால், நிறுவனங்கள் அதிக இலக்கு வைக்கப்பட்ட பாதுகாப்பு மதிப்பீடுகளின் தேவையை அங்கீகரிக்கின்றன. சிறப்பு சூழல்களில் LLM-கள் எவ்வாறு செயல்படுகின்றன என்பதைப் பற்றிய ஆழமான புரிதலை வழங்கும் பாதுகாப்பு மதிப்பீடுகளில் வெளிப்புற நிபுணத்துவத்திற்கான தேவை அதிகரித்து வருகிறது. இது AI அமைப்புகள் குறிப்பிட்ட பார்வையாளர்கள் மற்றும் பயன்பாட்டு நிகழ்வுகளின் தனித்துவமான பாதுகாப்பு தேவைகளை பூர்த்தி செய்வதை உறுதிசெய்கிறது, சாத்தியமான அபாயங்களைக் குறைக்கிறது மற்றும் நம்பிக்கையை வளர்க்கிறது.
AI ஏஜென்ட் பெஞ்ச்மார்க்ஸ்
வரவிருக்கும் ஆண்டுகளில் AI ஏஜெண்டுகளின் எதிர்பார்க்கப்படும் வளர்ச்சி அவற்றின் தனித்துவமான திறன்களுக்கு ஏற்ப வடிவமைக்கப்பட்ட சிறப்பு பெஞ்ச்மார்க்ஸின் வளர்ச்சியை இயக்குகிறது. AI ஏஜெண்டுகள் தன்னாட்சி அமைப்புகள் ஆகும், அவை தங்கள் சுற்றுப்புறங்களை விளக்குவதற்கும், தகவலறிந்த முடிவுகளை எடுப்பதற்கும், குறிப்பிட்ட இலக்குகளை அடைய செயல்களைச் செய்வதற்கும் முடியும். எடுத்துக்காட்டாக, ஸ்மார்ட்போன்களில் உள்ள மெய்நிகர் உதவியாளர்கள் குரல் கட்டளைகளை செயலாக்குகிறார்கள், கேள்விகளுக்கு பதிலளிக்கிறார்கள், நினைவூட்டல்களை திட்டமிடுதல் அல்லது செய்திகளை அனுப்புதல் போன்ற பணிகளைச் செய்கிறார்கள்.
AI ஏஜெண்டுகளுக்கான பெஞ்ச்மார்க்ஸ் அடிப்படை LLM-ன் திறன்களை மதிப்பிடுவதை விட அதிகமாக செல்ல வேண்டும். அவை இந்த ஏஜெண்டுகள் தங்கள் நோக்கம் கொண்ட களம் மற்றும் பயன்பாட்டுடன் இணைந்த நடைமுறை, உண்மையான உலக சூழ்நிலைகளில் எவ்வளவு சிறப்பாக செயல்படுகின்றன என்பதை அளவிட வேண்டும். எடுத்துக்காட்டாக, ஒரு HR உதவியாளருக்கான செயல்திறன் அளவுகோல்கள், மருத்துவ நிலைமைகளைக் கண்டறியும் ஒரு சுகாதார முகவருக்கான அளவுகோல்களிலிருந்து கணிசமாக வேறுபடும், இது ஒவ்வொருபயன்பாட்டுடனும் தொடர்புடைய மாறுபட்ட ஆபத்து நிலைகளை பிரதிபலிக்கிறது.
வலுவான பெஞ்ச்மார்க்கிங் கட்டமைப்புகள் மனித மதிப்பீட்டிற்கு வேகமான, அளவிடக்கூடிய மாற்றீட்டை வழங்குவதில் முக்கியமானதாக இருக்கும். குறிப்பிட்ட பயன்பாட்டு நிகழ்வுகளுக்கான பெஞ்ச்மார்க்ஸ் நிறுவப்பட்டவுடன், இந்த கட்டமைப்புகள் முடிவெடுப்பவர்களை AI ஏஜென்ட் அமைப்புகளை திறமையாக சோதிக்க உதவும். AI ஏஜென்ட் தொழில்நுட்பத்தில் விரைவான முன்னேற்றங்களுடன் வேகத்தை தக்கவைக்க இந்த அளவிடுதல் அவசியம்.
பெஞ்ச்மார்க்கிங் ஒரு தகவமைப்பு செயல்முறை
பெரிய மொழி மாதிரிகளின் உண்மையான உலக செயல்திறனைப் புரிந்துகொள்வதில் பெஞ்ச்மார்க்கிங் ஒரு மூலக்கல்லாக செயல்படுகிறது. கடந்த இரண்டு ஆண்டுகளில், பெஞ்ச்மார்க்கிங்கின் கவனம் பொதுவான திறன்களை சோதிப்பதில் இருந்து முக்கிய தொழில் அறிவு, பாதுகாப்பு மற்றும் ஏஜென்ட் திறன்கள் உள்ளிட்ட குறிப்பிட்ட பகுதிகளில் செயல்திறனை மதிப்பிடுவது வரை உருவாகியுள்ளது.
AI அமைப்புகள் தொடர்ந்து முன்னேறும்போது, பெஞ்ச்மார்க்கிங் முறைகள் பொருத்தமானதாகவும் பயனுள்ளதாகவும் இருக்க வேண்டும். Humanity’s Last Exam மற்றும் FrontierMath போன்ற மிகவும் சிக்கலான பெஞ்ச்மார்க்ஸ், LLM-கள் இன்னும் சவாலான கேள்விகளில் மனித நிபுணத்துவத்தை விட குறைவாகவே உள்ளன என்பதை எடுத்துக்காட்டுகிறது, இது தொழில்துறையில் குறிப்பிடத்தக்க கவனத்தை ஈர்த்துள்ளது. இருப்பினும், இந்த பெஞ்ச்மார்க்ஸ் ஒரு முழுமையான படத்தை வழங்கவில்லை.
மிகவும் சிக்கலான சிக்கல்களில் வெற்றி என்பது நடைமுறை பயன்பாடுகளில் அதிக செயல்திறனாக இருக்க வேண்டிய அவசியமில்லை. பொது AI உதவியாளர்களுக்கான GAIA பெஞ்ச்மார்க், மேம்பட்ட AI அமைப்புகள் சவாலான கேள்விகளில் சிறந்து விளங்கக்கூடும், அதே நேரத்தில் எளிமையான பணிகளில் போராடக்கூடும் என்பதை நிரூபிக்கிறது. எனவே, உண்மையான உலக வரிசைப்படுத்தலுக்கான AI அமைப்புகளை மதிப்பிடும்போது, பயன்பாட்டின் குறிப்பிட்ட சூழலுடன் ஒத்துப்போகும் பெஞ்ச்மார்க்ஸை கவனமாக தேர்ந்தெடுப்பது முக்கியம். இது மதிப்பீட்டு செயல்முறை நோக்கம் கொண்ட சூழலில் அமைப்பின் திறன்கள் மற்றும் வரம்புகளை துல்லியமாக பிரதிபலிக்கிறது என்பதை உறுதி செய்கிறது. பெஞ்ச்மார்க்ஸின் தொடர்ச்சியான வளர்ச்சி மற்றும் சுத்திகரிப்பு ஆகியவை AI அமைப்புகள் பல்வேறு தொழில்கள் மற்றும் பயன்பாடுகளில் நம்பகமானதாகவும், பாதுகாப்பானதாகவும், நன்மை பயக்கும் விதமாகவும் இருப்பதை உறுதி செய்வதற்கு அவசியமானவை.