AI (Artificial Intelligence) యొక్క అత్యుత్తమ లక్ష్యాలను సాధించడానికి బెంచ్మార్క్ స్కోర్లు ఎంతవరకు ఉపయోగపడుతున్నాయి? సాంప్రదాయ బెంచ్మార్క్లు మరింత ఎక్కువగా పరిశీలనకు గురి అవుతున్న తరుణంలో ఈ ప్రశ్న AI వర్గంలో చర్చనీయాంశంగా మారింది.
నవంబర్ 2024లో ప్రవేశపెట్టబడిన SWE-Bench, AI మోడల్ యొక్క కోడింగ్ సామర్థ్యాన్ని అంచనా వేయడానికి ఒక ప్రసిద్ధ సాధనంగా వేగంగా ఆదరణ పొందింది. ఇది డజనుకు పైగా Python ఆధారిత ప్రాజెక్టుల నుండి సేకరించిన 2,000 కంటే ఎక్కువ ప్రోగ్రామింగ్ సవాళ్లను కలిగి ఉంది. OpenAI, Anthropic మరియు Google వంటి ప్రముఖ AI డెవలపర్ల నుండి విడుదలయ్యే మోడల్స్లో SWE-Bench స్కోర్ ఒక ముఖ్యమైన గుర్తింపుగా మారింది. ఈ దిగ్గజాలతో పాటు, ఫైన్-ట్యూనింగ్లో ప్రత్యేకత కలిగిన AI సంస్థలు నిరంతరం SWE-Bench లీడర్బోర్డ్లో అగ్రస్థానం కోసం పోటీపడుతున్నాయి.
అయితే, ఈ బెంచ్మార్క్ల చుట్టూ ఉన్న ఉత్సాహం నిజమైన AI సామర్థ్యాన్ని ప్రతిబింబించకపోవచ్చు. SWE-Bench అభివృద్ధిలో పాల్గొన్న ప్రిన్స్టన్ విశ్వవిద్యాలయంలోని పరిశోధకుడు జాన్ యాంగ్, అగ్రస్థానం కోసం జరుగుతున్న తీవ్రమైన పోటీ వ్యవస్థను “గేమింగ్” చేయడానికి దారితీసిందని పేర్కొన్నారు. ఇది నిజమైన AI విజయాన్ని ప్రతిబింబిస్తుందా అనే సందేహాలను రేకెత్తిస్తుంది.
ఇక్కడ సమస్య బహిరంగంగా మోసం చేయడం కాదు, బెంచ్మార్క్ యొక్క పరిమితులను ఉపయోగించుకునే వ్యూహాలను అభివృద్ధి చేయడం. ఉదాహరణకు, ప్రారంభ SWE-Bench కేవలం Python కోడ్పై మాత్రమే దృష్టి సారించింది, డెవలపర్లు తమ మోడళ్లను ప్రత్యేకంగా Pythonపైనే శిక్షణ పొందేలా ప్రోత్సహించింది. ఇలా అధిక స్కోర్లు సాధించిన మోడళ్లు ఇతర ప్రోగ్రామింగ్ భాషలను ఎదుర్కొన్నప్పుడు తడబడ్డాయని యాంగ్ గుర్తించారు. ఇది పైకి మెరుగుగా కనిపించినా లోతైన అవగాహన లేకపోవడాన్ని బయటపెట్టింది.
"మొదట చూడడానికి చాలా బాగుంటుంది, కానీ మీరు దానిని వేరే భాషలో అమలు చేయడానికి ప్రయత్నించినప్పుడు మొత్తం కూలిపోతుంది," అని యాంగ్ వివరించారు. "ఆ సమయంలో, మీరు ఒక సాఫ్ట్వేర్ ఇంజనీరింగ్ ఏజెంట్ను రూపొందించడం లేదు. SWE-Bench ఏజెంట్ను తయారు చేయడానికి ప్రయత్నిస్తున్నారు, ఇది అంత ఆసక్తికరమైనది కాదు."
ఈ "SWE-Bench సమస్య" AI మూల్యాంకనంలో ఒక పెద్ద సవాలును ప్రతిబింబిస్తుంది. ఒకప్పుడు అభివృద్ధికి నమ్మదగిన సూచికలుగా పరిగణించబడిన బెంచ్మార్క్లు, వాస్తవ ప్రపంచ సామర్థ్యాల నుండి వేరు చేయబడుతున్నాయి. దీనికి తోడు, పారదర్శకత గురించి ఆందోళనలు కూడా ఉన్నాయి, ఇది ఈ కొలమానాలపై విశ్వాసాన్ని మరింత తగ్గిస్తుంది. ఈ సమస్యలు ఉన్నప్పటికీ, బెంచ్మార్క్లు మోడల్ అభివృద్ధిలో కీలక పాత్ర పోషిస్తూనే ఉన్నాయి, అయితే చాలా మంది నిపుణులు వాటి అంతర్గత విలువను ప్రశ్నిస్తున్నారు. OpenAI సహ వ్యవస్థాపకుడు ఆండ్రీ కార్పతి ప్రస్తుత పరిస్థితిని "మూల్యాంకన సంక్షోభం" అని అభివర్ణించారు. AI సామర్థ్యాలను కొలవడానికి విశ్వసనీయమైన పద్ధతులు లేకపోవడం మరియు ముందుకు స్పష్టమైన మార్గం లేకపోవడం గురించి ఆయన విచారం వ్యక్తం చేశారు.
స్టాన్ఫోర్డ్ విశ్వవిద్యాలయంలోని ఇన్స్టిట్యూట్ ఫర్ హ్యూమన్-సెంటర్డ్ AI పరిశోధనా డైరెక్టర్ వెనెస్సా పార్లీ ఇలా అడుగుతున్నారు, "చారిత్రాత్మకంగా, బెంచ్మార్క్లు AI వ్యవస్థలను మూల్యాంకనం చేయడానికి ఒక మార్గంగా ఉండేవి. మనం భవిష్యత్తులో కూడా ఇలాగే మూల్యాంకనం చేయాలనుకుంటున్నామా? కాకపోతే, వేరే మార్గం ఏమిటి?"
పెరుగుతున్న విద్యావేత్తలు మరియు AI పరిశోధకులు సాంఘిక శాస్త్రాల నుండి ప్రేరణ పొందిన మరింత కేంద్రీకృత విధానాన్ని సమర్థిస్తున్నారు. వారు "వ్యాలిడిటీ"కి ప్రాధాన్యత ఇవ్వాలని ప్రతిపాదించారు. ఇది పరిమాణాత్మక సాంఘిక శాస్త్రానికి కేంద్రంగా ఉంటుంది. ఒక కొలమానం ఎంతవరకు ఉద్దేశించిన అంశాన్ని ఖచ్చితంగా తెలుపుతుందో అంచనా వేస్తుంది. ఈ వ్యాలిడిటీపై దృష్టి పెట్టడం ద్వారా "రీజనింగ్" లేదా "సైంటిఫిక్ నాలెడ్జ్" వంటి అస్పష్టమైన భావనలను మూల్యాంకనం చేసే బెంచ్మార్క్లకు సవాలు విసరవచ్చు. ఇది ఆర్టిఫిషియల్ జనరల్ ఇంటెలిజెన్స్ (AGI) యొక్క అన్వేషణను తగ్గిస్తుంది, అయితే వ్యక్తిగత మోడళ్లను మూల్యాంకనం చేయడానికి మరింత దృఢమైన పునాదిని అందిస్తుంది.
మిచిగాన్ విశ్వవిద్యాలయంలో ప్రొఫెసర్ మరియు వ్యాలిడిటీ కోసం పనిచేస్తున్న అబిగైల్ జాకబ్స్ ఇలా అంటారు, "వ్యాలిడిటీని సీరియస్గా తీసుకోవడం అంటే, తమ వ్యవస్థ ఏమి చేస్తుందో చూపించమని విద్యావేత్తలను, పరిశ్రమలోని వారిని లేదా ఎవరినైనా అడగడం. వారు తమ వాదనకు మద్దతు ఇవ్వడానికి వెనక్కి తగ్గితే అది AI ప్రపంచంలో బలహీనతను సూచిస్తుందని నేను భావిస్తున్నాను."
సాంప్రదాయ పరీక్షల పరిమితులు
AI పరిశ్రమ బెంచ్మార్క్లపై ఆధారపడటానికి గతంలో వాటి విజయాలే కారణం, ముఖ్యంగా ImageNet వంటి సవాళ్లలో.
ImageNet 2010లో ప్రారంభించబడింది. పరిశోధకులకు 3 మిలియన్లకు పైగా చిత్రాల డేటాబేస్ను 1,000 వేర్వేరు తరగతులుగా వర్గీకరించి అందించింది. ఈ సవాలు పద్ధతి-ఆధారితం కాదు, ఏదైనా విజయవంతమైన అల్గారిథమ్ దాని విధానంతో సంబంధం లేకుండా విశ్వసనీయతను పొందేందుకు అనుమతిస్తుంది. 2012లో AlexNet యొక్క పురోగతి, GPU శిక్షణ యొక్క సాంప్రదాయేతర రూపాన్ని ఉపయోగించింది, ఇది ఆధునిక AIకి మూలస్తంభంగా మారింది. AlexNet యొక్క కన్వల్యూషనల్ న్యూరల్ నెట్వర్క్లు చిత్ర గుర్తింపును అన్లాక్ చేస్తాయని ఎవరూ ఊహించలేకపోయారు, దాని అధిక స్కోర్ అన్ని సందేహాలను నివృత్తి చేసింది. (AlexNet డెవలపర్లలో ఒకరు OpenAIని సహ-స్థాపించారు.)
ImageNet యొక్క ప్రభావం సవాలు మరియు వాస్తవ ప్రపంచ చిత్ర గుర్తింపు పనుల మధ్య ఉన్న దగ్గరి సంబంధం నుండి వచ్చింది. పద్ధతుల గురించి చర్చలు జరిగినప్పటికీ, అత్యధిక స్కోరు సాధించిన మోడల్ ఆచరణాత్మక అనువర్తనాల్లో ఉన్నతమైన పనితీరును కనబరిచింది.
అయితే, ఆ సంవత్సరాల నుండి, AI పరిశోధకులు ఇదే పద్ధతిని సాధారణ పనులకు వర్తింపజేస్తున్నారు. ఉదాహరణకు, SWE-Bench సాధారణంగా కోడింగ్ సామర్థ్యానికి ప్రాతిపదికగా ఉపయోగించబడుతుంది. ఇతర పరీక్షా-శైలి బెంచ్మార్క్లు రీజనింగ్ సామర్థ్యాన్ని అంచనా వేయడానికి ఉపయోగిస్తారు. ఈ విస్తృత పరిధి నిర్దిష్ట బెంచ్మార్క్ ఏమి కొలుస్తుందో ఖచ్చితంగా నిర్వచించడాన్ని కష్టతరం చేస్తుంది, ఫలితాల యొక్క బాధ్యతాయుతమైన వివరణకు ఆటంకం కలిగిస్తుంది.
విషయాలు ఎక్కడ విచ్ఛిన్నమవుతాయి
స్టాన్ఫోర్డ్లో PhD విద్యార్థి అయిన అంకా ర్యూల్, సాధారణత వైపు ఉన్న ఒత్తిడి మూల్యాంకన సమస్యకు మూలమని వాదిస్తున్నారు. "మేము టాస్క్-స్పెసిఫిక్ మోడల్స్ నుండి జనరల్-పర్పస్ మోడల్స్కు మారాము," అని ర్యూల్ చెప్పారు. "ఇది ఇకపై ఒకే పని గురించి కాదు, చాలా పనుల గురించి, కాబట్టి మూల్యాంకనం కష్టమవుతుంది."
జాకబ్స్ లాగే, ర్యూల్ కూడా "బెంచ్మార్క్లతో ఉన్న ప్రధాన సమస్య వ్యాలిడిటీ, ఆచరణాత్మక అమలు కంటే కూడా ఎక్కువ," అని నమ్ముతున్నారు. "అక్కడే చాలా విషయాలు విచ్ఛిన్నమవుతాయి." కోడింగ్ వంటి సంక్లిష్ట పనుల కోసం, ప్రతి ఊహించదగిన దృష్టాంతాన్ని సమస్య సెట్లో చేర్చడం దాదాపు అసాధ్యం. ఫలితంగా, మోడల్ యొక్క అధిక స్కోర్ నిజమైన కోడింగ్ నైపుణ్యాన్ని ప్రతిబింబిస్తుందా లేదా సమస్య సెట్ను తెలివిగా మార్చడాన్ని ప్రతిబింబిస్తుందా అని గుర్తించడం కష్టమవుతుంది. రికార్డు స్కోర్లను సాధించాలనే తీవ్రమైన ఒత్తిడి మరింతగా సత్వర మార్గాలను ప్రోత్సహిస్తుంది.
చాలా నిర్దిష్ట బెంచ్మార్క్లలో విజయం సాధించడం సాధారణంగా సమర్థవంతమైన మోడల్గా మారుతుందని డెవలపర్లు ఆశిస్తున్నారు. అయితే, ఏజెంటిక్ AI పెరుగుదల, ఇక్కడ ఒకే వ్యవస్థ సంక్లిష్టమైన మోడళ్లను కలిగి ఉంటుంది, నిర్దిష్ట పనులపై మెరుగుదలలు సాధారణీకరించబడతాయా అని మూల్యాంకనం చేయడం కష్టతరం చేస్తుంది. "మీరు తిప్పగల చాలా నాబ్లు ఉన్నాయి," అని ప్రిన్స్టన్లోని కంప్యూటర్ శాస్త్రవేత్త మరియు AI పరిశ్రమలో నిర్లక్ష్యపు పద్ధతులను విమర్శించే సయాష్ కపూర్ చెప్పారు. "ఏజెంట్ల విషయానికి వస్తే, వారు మూల్యాంకనం కోసం ఉత్తమ పద్ధతులను వదులుకున్నారు."
గత జూలైలో ప్రచురించబడిన ఒక పత్రంలో, 2024లో AI మోడల్లు WebArena బెంచ్మార్క్ను ఎలా చేరుకున్నాయో కపూర్ ప్రత్యేక సమస్యలను హైలైట్ చేశారు. ఈ బెంచ్మార్క్ Reddit, Wikipedia మరియు ఇతరాలను అనుకరించే క్లోన్డ్ వెబ్సైట్లలో AI ఏజెంట్ యొక్క సామర్థ్యాన్ని పరీక్షిస్తుంది. Reddit URLల నిర్మాణాన్ని ఉపయోగించి వినియోగదారు ప్రొఫైల్ పేజీలకు నేరుగా యాక్సెస్ చేయగలదని కపూర్ మరియు అతని బృందం కనుగొన్నారు. ఇది WebArena పనులలో తరచుగా అవసరమయ్యేది.
ఇది నేరుగా మోసం కానప్పటికీ, కపూర్ దీనిని "ఏజెంట్ WebArenaలో మొదటిసారి పనులను చూసినట్లయితే అది ఎంత బాగా పనిచేస్తుందో అనేదానికి తీవ్రమైన తప్పుగా సూచించడం"గా పరిగణిస్తాడు. అయినప్పటికీ, OpenAI యొక్క వెబ్ ఏజెంట్, ఆపరేటర్, అప్పటి నుండి అలాంటి విధానాన్ని అనుసరించింది.
AI బెంచ్మార్క్లతో ఉన్న సమస్యలను మరింత వివరిస్తూ, కపూర్ మరియు పరిశోధకుల బృందం ఇటీవల ఒక పత్రాన్ని ప్రచురించారు. ఇది ప్రసిద్ధ క్రౌడ్సోర్స్డ్ మూల్యాంకన వ్యవస్థ అయిన చాట్బాట్ అరేనాలో గుర్తించదగిన సమస్యలను వెల్లడించింది. వారి పరిశోధనలు లీడర్బోర్డ్ తారుమారు చేయబడుతోందని సూచించాయి. కొన్ని అగ్ర ఫౌండేషన్ మోడల్లు బహిర్గతం చేయని ప్రైవేట్ పరీక్షలో పాల్గొంటున్నాయి మరియు వాటి స్కోర్లను ఎంపిక చేసి విడుదల చేస్తున్నాయి.
ImageNet కూడా చెల్లుబాటు సమస్యలను ఎదుర్కొంటోంది. వాషింగ్టన్ విశ్వవిద్యాలయం మరియు Google రీసెర్చ్ పరిశోధకులు 2023లో నిర్వహించిన ఒక అధ్యయనంలో ImageNet-విన్నింగ్ అల్గారిథమ్లు ఆరు వాస్తవ ప్రపంచ డేటాసెట్లకు వర్తింపజేసినప్పుడు "పురోగతి లేదని" తేలింది. ఈ పరీక్ష యొక్క బాహ్య వ్యాలిడిటీ దాని పరిమితికి చేరుకుందని సూచిస్తుంది.
చిన్నగా చేయడం
చెల్లుబాటు సమస్యను పరిష్కరించడానికి, కొంతమంది పరిశోధకులు నిర్దిష్ట పనులకు బెంచ్మార్క్లను తిరిగి కనెక్ట్ చేయాలని ప్రతిపాదించారు. ర్యూల్ చెప్పినట్లుగా, AI డెవలపర్లు "ఈ ఉన్నత-స్థాయి బెంచ్మార్క్లను ఆశ్రయించవలసి ఉంటుంది, ఇవి దిగువ వినియోగదారులకు దాదాపు అర్థరహితంగా ఉంటాయి, ఎందుకంటే బెంచ్మార్క్ డెవలపర్లు ఇకపై దిగువ పనిని ఊహించలేరు."
నవంబర్ 2024లో, ర్యూల్ బెటర్బెంచ్ అనే ఒక పబ్లిక్ ర్యాంకింగ్ ప్రాజెక్ట్ను ప్రారంభించింది. ఇది కోడ్ డాక్యుమెంటేషన్ యొక్క స్పష్టత మరియు దాని సామర్థ్యాన్ని కొలవడంలో బెంచ్మార్క్ యొక్క వ్యాలిడిటీతో సహా వివిధ ప్రమాణాల ఆధారంగా బెంచ్మార్క్లను మూల్యాంకనం చేస్తుంది. బెటర్బెంచ్ వారి బెంచ్మార్క్ పరీక్షించే వాటిని మరియు బెంచ్మార్క్ను కలిగి ఉన్న పనులకు అది ఎలా సంబంధం కలిగి ఉందో స్పష్టంగా నిర్వచించమని డిజైనర్లను సవాలు చేస్తుంది.
"మీకు సామర్థ్యాల యొక్క నిర్మాణాత్మక విభజన ఉండాలి," అని ర్యూల్ చెప్పారు. "మీరు శ్రద్ధ వహించే అసలైన నైపుణ్యాలు ఏమిటి, మరియు వాటిని మనం కొలవగలిగే విధంగా ఎలా మార్చగలము?"
ఫలితాలు ఆసక్తికరంగా ఉన్నాయి. ఆటారి 2600 ఆటలను ఎలా ఆడాలో మోడల్ల సామర్థ్యాన్ని పరీక్షించడానికి 2013లో స్థాపించబడిన ఆర్కేడ్ లెర్నింగ్ ఎన్విరాన్మెంట్ (ALE), అత్యధిక స్కోరింగ్ బెంచ్మార్క్లలో ఒకటిగా నిలిచింది. దీనికి విరుద్ధంగా, సాధారణ భాషా నైపుణ్యాల కోసం విస్తృతంగా ఉపయోగించే పరీక్ష అయిన మాసివ్ మల్టీటాస్క్ లాంగ్వేజ్ అండర్స్టాండింగ్ (MMLU) బెంచ్మార్క్, ప్రశ్నలు మరియు అంతర్లీన నైపుణ్యం మధ్య సరిగా నిర్వచించబడని సంబంధం కారణంగా అతి తక్కువ స్కోర్లను పొందింది.
బెటర్బెంచ్ నిర్దిష్ట బెంచ్మార్క్ల ఖ్యాతిని గణనీయంగా ప్రభావితం చేయనప్పటికీ, AI బెంచ్మార్క్లను ఎలా మెరుగుపరచాలనే చర్చలలో వ్యాలిడిటీని విజయవంతంగా తీసుకువచ్చింది. ర్యూల్ హగ్గింగ్ ఫేస్, ఎడిన్బర్గ్ విశ్వవిద్యాలయం మరియు ఎలూథర్ AI ద్వారా నిర్వహించబడే కొత్త పరిశోధన బృందంలో చేరారు. అక్కడ ఆమె వ్యాలిడిటీ మరియు AI మోడల్ మూల్యాంకనంపై తన ఆలోచనలను మరింత అభివృద్ధి చేస్తుంది.
హగ్గింగ్ ఫేస్ యొక్క గ్లోబల్ పాలసీ హెడ్ ఐరీన్ సోలైమాన్ మాట్లాడుతూ, ఈ బృందం సాధారణ సామర్థ్యాలను కొలవడానికి మించి చెల్లుబాటు అయ్యే బెంచ్మార్క్లను నిర్మించడంపై దృష్టి పెడుతుంది. "ఇప్పటికే పని చేసే మంచి బెంచ్మార్క్ కోసం చాలా ఆత్రుతగా ఉన్నారు," అని సోలైమాన్ చెప్పారు. "చాలా మూల్యాంకనాలు ఎక్కువ చేయడానికి ప్రయత్నిస్తున్నాయి."
విస్తృత పరిశ్రమ ఈ అభిప్రాయానికి అనుగుణంగా ఉన్నట్లు కనిపిస్తోంది. మార్చిలో ప్రచురించబడిన ఒక పత్రంలో, Google, Microsoft, Anthropic మరియు ఇతరుల పరిశోధకులు మూల్యాంకనాలను మెరుగుపరచడానికి ఒక కొత్త ఫ్రేమ్వర్క్ను వివరించారు, ఇందులో వ్యాలిడిటీ మూలస్తంభంగా ఉంది.
"AI మూల్యాంకన శాస్త్రం ‘సాధారణ తెలివితేటల’ గురించి స్థూలమైన వాదనల నుండి మరింత పని-నిర్దిష్ట మరియు వాస్తవ ప్రపంచ సంబంధిత పురోగతి కొలమానాల వైపుకు వెళ్లాలి," అని పరిశోధకులు వాదించారు.
"మెత్తటి" విషయాలను కొలవడం
ఈ మార్పును సులభతరం చేయడానికి, కొంతమంది పరిశోధకులు సాంఘిక శాస్త్రం యొక్క సాధనాల వైపు మొగ్గు చూపుతున్నారు. ఫిబ్రవరిలో ప్రచురించబడిన ఒక పత్రం "GenAI వ్యవస్థలను మూల్యాంకనం చేయడం ఒక సాంఘిక శాస్త్ర కొలత సవాలు" అని వాదించింది. ప్రత్యేకించి సాంఘిక శాస్త్ర వ్యాలిడిటీ వ్యవస్థలను AI బెంచ్మార్కింగ్కు ఎలా వర్తింపజేయవచ్చో అన్వేషించింది.
Microsoft యొక్క పరిశోధన విభాగం నుండి వచ్చిన రచయితలు మరియు స్టాన్ఫోర్డ్ మరియు మిచిగాన్ విశ్వవిద్యాలయాల విద్యావేత్తలు, సైద్ధాంతికత, ప్రజాస్వామ్యం మరియు మీడియా పక్షపాతం వంటి వివాదాస్పద భావనలను కొలవడానికి సాంఘిక శాస్త్రవేత్తలు ఉపయోగించే ప్రమాణాలను సూచిస్తారు. AI బెంచ్మార్క్లకు వర్తింపజేస్తే, ఈ విధానాలు అస్పష్టమైన సాధారణీకరణలకు పాల్పడకుండా "రీజనింగ్" మరియు "గణిత నైపుణ్యం" వంటి భావనలను కొలవడానికి ఒక మార్గాన్ని అందిస్తాయి.
సాంఘిక శాస్త్ర సాహిత్యం కొలవబడుతున్న భావనను ఖచ్చితంగా నిర్వచించడం యొక్క ప్రాముఖ్యతను నొక్కి చెబుతుంది. ఉదాహరణకు, ఒక సమాజంలోని ప్రజాస్వామ్య స్థాయిని కొలవడానికి రూపొందించిన పరీక్ష మొదట "ప్రజాస్వామ్య సమాజం" యొక్క స్పష్టమైన నిర్వచనాన్ని ఏర్పాటు చేయాలి. ఆపై ఆ నిర్వచనానికి సంబంధించిన ప్రశ్నలను రూపొందించాలి.
దీన్ని SWE-Bench వంటి బెంచ్మార్క్కు వర్తింపజేయడానికి, డిజైనర్లు GitHub నుండి ప్రోగ్రామింగ్ సమస్యలను సేకరించి సమాధానాలను ధృవీకరించడానికి ఒక పథకాన్ని రూపొందించే సాంప్రదాయ యంత్ర అభ్యాస విధానాన్ని విడిచిపెట్టాలి. బదులుగా, బెంచ్మార్క్ ఏమి కొలవడానికి ఉద్దేశించబడిందో మొదట నిర్వచించాలి (ఉదా., "సాఫ్ట్వేర్లో గుర్తించబడిన సమస్యలను పరిష్కరించగల సామర్థ్యం"), దానిని ఉప నైపుణ్యాలుగా విభజించాలి (ఉదా., వివిధ రకాల సమస్యలు లేదా ప్రోగ్రామ్ నిర్మాణాలు). ఆపై ఆ ఉప నైపుణ్యాలను ఖచ్చితంగా కవర్ చేసే ప్రశ్నలను రూపొందించాలి.
జాకబ్స్ వంటి పరిశోధకులకు, AI పరిశోధకులు బెంచ్మార్కింగ్ను ఎలా చేరుకుంటారో అనే దాని నుండి ఈ లోతైన మార్పు ఖచ్చితంగా చెప్పాలంటే అదే ప్రధానాంశం. "టెక్ పరిశ్రమలో జరుగుతున్నదానికి మరియు సాంఘిక శాస్త్రం నుండి వచ్చిన ఈ సాధనాలకు మధ్య సరిపోలని పరిస్థితి ఉంది,"అని ఆమె అంటారు. "మానవుల గురించి ఈ మెత్తటి విషయాలను మనం ఎలా కొలవాలనుకుంటున్నామో ఆలోచించడంలో మనకు దశాబ్దాల అనుభవం ఉంది."
పరిశోధన వర్గంలో ఈ ఆలోచనల పెరుగుతున్న ప్రభావం ఉన్నప్పటికీ, AI కంపెనీలు బెంచ్మార్క్లను ఎలా ఉపయోగిస్తున్నాయనే దానిపై వాటి ప్రభావం నెమ్మదిగా ఉంది.
OpenAI, Anthropic, Google మరియు Meta నుండి ఇటీవల విడుదలైన మోడల్లు ఇప్పటికీ MMLU వంటి బహుళ-ఎంపిక జ్ఞాన బెంచ్మార్క్లపై ఎక్కువగా ఆధారపడుతున్నాయి. వ్యాలిడిటీ పరిశోధకులు దీనికి మించి వెళ్లడానికి ప్రయత్నిస్తున్నారు. చాలా వరకు మోడల్ విడుదలలు సాధారణ తెలివితేటలలో పెరుగుదలను ప్రదర్శించడంపై దృష్టి పెడతాయి. ఈ వాదనలకు మద్దతు ఇవ్వడానికి విస్తృత బెంచ్మార్క్లు ఉపయోగించబడతాయి.
కొంతమంది పరిశీలకులు దీనిని సంతృప్తికరంగా భావిస్తారు. వార్టన్ ప్రొఫెసర్ ఇథాన్ మోలిక్ బెంచ్మార్క్లు "విషయాలను కొలవడానికి చెడ్డ మార్గాలు అయినప్పటికీ, మనకు ఉన్నవి కూడా అవే" అని సూచిస్తున్నారు. ఆయన ఇంకా ఇలా అంటారు, "అదే సమయంలో, మోడల్లు మెరుగవుతున్నాయి. వేగవంతమైన పురోగతి ద్వారా చాలా పాపాలు క్షమించబడతాయి."
ప్రస్తుతానికి, పరిశ్రమ యొక్క దీర్ఘకాలిక దృష్టి కృత్రిమ సాధారణ తెలివితేటలపై ఎక్కువగా ఉంది. మరింత కేంద్రీకృత, వ్యాలిడిటీ ఆధారిత విధానాన్ని ఇది కప్పివేస్తుంది. AI మోడల్లు సాధారణ తెలివితేటలలో అభివృద్ధి చెందుతున్నంత కాలం, నిర్దిష్ట అనువర్తనాలు అంత ఆకర్షణీయంగా కనిపించవు. దీనిని ఉపయోగిస్తున్న నిపుణులు పూర్తిగా విశ్వసించని సాధనాలను ఉపయోగిస్తున్నప్పటికీ.
"ఇది మనం నడుస్తున్న తాడు," అని హగ్గింగ్ ఫేస్ యొక్క సోలైమాన్ చెప్పారు. "వ్యవస్థను విసిరివేయడం చాలా సులభం, కానీ ఈ పరిమితులతో కూడా మూల్యాంకనాలు మన మోడళ్లను అర్థం చేసుకోవడానికి నిజంగా సహాయపడతాయి."