AI बेंचमार्क पर पुनर्विचार: सार्थक माप की खोज

कृत्रिम बुद्धिमत्ता (AI) को बेहतर बनाने की खोज अक्सर बेंचमार्क स्कोर द्वारा संचालित होती है, लेकिन क्या ये स्कोर वास्तव में वास्तविक दुनिया की क्षमताओं के संकेत हैं? AI समुदाय इस सवाल से जूझ रहा है क्योंकि पारंपरिक बेंचमार्क को बढ़ती जांच का सामना करना पड़ रहा है।

SWE-Bench, जिसे नवंबर 2024 में पेश किया गया था, ने एक AI मॉडल की कोडिंग क्षमता का आकलन करने के लिए एक लोकप्रिय उपकरण के रूप में तेजी से लोकप्रियता हासिल की। यह एक दर्जन पायथन-आधारित परियोजनाओं में सार्वजनिक GitHub रिपॉजिटरी से निकाले गए 2,000 से अधिक प्रामाणिक प्रोग्रामिंग चुनौतियों का लाभ उठाता है। एक मजबूत SWE-Bench स्कोर एक प्रतिष्ठित बैज बन गया है, जिसे OpenAI, Anthropic और Google जैसे प्रमुख AI डेवलपर्स से प्रमुख मॉडल रिलीज़ में प्रमुखता से प्रदर्शित किया जाता है। इन दिग्गजों से परे, ठीक ट्यूनिंग में विशेषज्ञता वाली AI फर्म SWE-Bench लीडरबोर्ड पर लगातार वर्चस्व के लिए प्रतिस्पर्धा करती हैं।

हालांकि, इन बेंचमार्क के आसपास का उत्साह भ्रामक हो सकता है। प्रिंसटन विश्वविद्यालय में एक शोधकर्ता जॉन यांग, जो SWE-Bench के विकास में शामिल हैं, ने उल्लेख किया कि शीर्ष स्थान के लिए तीव्र प्रतिस्पर्धा के कारण सिस्टम की "गेमिंग" हुई है। इससे इस बारे में चिंताएं बढ़ जाती हैं कि क्या ये बेंचमार्क वास्तविक AI उपलब्धि को सटीक रूप से दर्शाते हैं।

मुद्दा जरूरी नहीं कि खुली धोखाधड़ी है, बल्कि विशेष रूप से बेंचमार्क की सीमाओं का दोहन करने के लिए तैयार की गई रणनीतियों का विकास है। उदाहरण के लिए, प्रारंभिक SWE-Bench ने विशेष रूप से पायथन कोड पर ध्यान केंद्रित किया, जिससे डेवलपर्स को अपने मॉडल को विशेष रूप से पायथन पर प्रशिक्षित करने के लिए प्रोत्साहित किया गया। यांग ने देखा कि ये उच्च स्कोरिंग मॉडल अक्सर विभिन्न प्रोग्रामिंग भाषाओं का सामना करने पर लड़खड़ाते हैं, जिससे एक सतही समझ उजागर होती है जिसे वह "गिल्डेड" कहते हैं।

यांग बताते हैं, "यह पहली नज़र में अच्छा और चमकदार दिखता है, लेकिन फिर आप इसे किसी अन्य भाषा पर चलाने की कोशिश करते हैं और पूरी चीज बस अलग हो जाती है।" "उस बिंदु पर, आप एक सॉफ्टवेयर इंजीनियरिंग एजेंट डिजाइन नहीं कर रहे हैं। आप एक SWE-Bench एजेंट बनाने के लिए डिजाइन कर रहे हैं, जो बहुत कम दिलचस्प है।"

यह "SWE-Bench मुद्दा" AI मूल्यांकन में एक व्यापक चुनौती को दर्शाता है। बेंचमार्क, जिन्हें कभी प्रगति के विश्वसनीय संकेतक माना जाता था, तेजी से वास्तविक दुनिया की क्षमताओं से अलग हो रहे हैं। समस्या को बढ़ाते हुए, पारदर्शिता के बारे में चिंताएं सामने आई हैं, जिससे इन मेट्रिक्स में विश्वास और कम हो गया है। इन मुद्दों के बावजूद, बेंचमार्क मॉडल विकास में एक महत्वपूर्ण भूमिका निभाते रहते हैं, भले ही कई विशेषज्ञ उनके अंतर्निहित मूल्य पर सवाल उठाते हैं। OpenAI के सह-संस्थापक आंद्रेज कार्पेथी ने मौजूदा स्थिति को "मूल्यांकन संकट" भी कहा है, AI क्षमताओं को मापने के लिए विश्वसनीय तरीकों की कमी और आगे बढ़ने के लिए एक स्पष्ट रास्ते की अनुपस्थिति पर शोक व्यक्त किया है।

स्टैनफोर्ड विश्वविद्यालय के मानव-केंद्रित AI संस्थान में अनुसंधान निदेशक वैनेसा पार्ली पूछती हैं, "ऐतिहासिक रूप से, बेंचमार्क AI प्रणालियों का मूल्यांकन करने का तरीका थे। क्या हम आगे जाकर प्रणालियों का मूल्यांकन इसी तरह करना चाहते हैं? और यदि नहीं, तो तरीका क्या है?"

शिक्षाविदों और AI शोधकर्ताओं का एक बढ़ता हुआ दल अधिक केंद्रित दृष्टिकोण की वकालत करता है, जो सामाजिक विज्ञान से प्रेरणा लेता है। वे "वैधता" को प्राथमिकता देने का प्रस्ताव करते हैं, जो मात्रात्मक सामाजिक विज्ञान के लिए केंद्रीय एक अवधारणा है, जो आकलन करती है कि एक माप उपकरण इच्छित निर्माण को कितनी अच्छी तरह से कैप्चर करता है। वैधता पर यह जोर उन बेंचमार्क को चुनौती दे सकता है जो "तर्क" या "वैज्ञानिक ज्ञान" जैसी अस्पष्ट रूप से परिभाषित अवधारणाओं का मूल्यांकन करते हैं। हालांकि यह कृत्रिम सामान्य बुद्धिमत्ता (AGI) की खोज को कम कर सकता है, लेकिन यह व्यक्तिगत मॉडल का मूल्यांकन करने के लिए एक अधिक ठोस आधार प्रदान करेगा।

मिशिगन विश्वविद्यालय में प्रोफेसर और वैधता के लिए जोर देने में एक अग्रणी आवाज, अबीगैल जैकब्स का कहना है, "वैधता को गंभीरता से लेने का मतलब है कि अकादमिया, उद्योग या कहीं भी लोगों से यह दिखाने के लिए कहना कि उनकी प्रणाली वही करती है जो वे कहते हैं कि वह करती है। मुझे लगता है कि यह AI दुनिया में एक कमजोरी की ओर इशारा करता है यदि वे यह दिखाने से पीछे हटना चाहते हैं कि वे अपने दावे का समर्थन कर सकते हैं।"

पारंपरिक परीक्षण की सीमाएं

AI उद्योग की बेंचमार्क पर निर्भरता उनकी पिछली सफलताओं से उपजी है, खासकर इमेजनेट जैसी चुनौतियों में।

इमेजनेट, जिसे 2010 में लॉन्च किया गया था, ने शोधकर्ताओं को 1,000 विभिन्न वर्गों में वर्गीकृत 3 मिलियन से अधिक छवियों का एक डेटाबेस प्रस्तुत किया। चुनौती विधि-अज्ञेयवादी थी, जो किसी भी सफल एल्गोरिथ्म को उसकी अंतर्निहित दृष्टिकोण की परवाह किए बिना विश्वसनीयता हासिल करने की अनुमति देती थी। 2012 में एलेक्सनेट की सफलता, जिसने GPU प्रशिक्षण के एक अपरंपरागत रूप का उपयोग किया, आधुनिक AI का एक आधारशिला बन गया। हालांकि कुछ लोगों ने भविष्यवाणी की होगी कि एलेक्सनेट के संवादात्मक तंत्रिका नेटवर्क छवि पहचान को अनलॉक कर देंगे, इसके उच्च स्कोर ने किसी भी संदेह को शांत कर दिया। (उल्लेखनीय रूप से, एलेक्सनेट के डेवलपर्स में से एक OpenAI के सह-संस्थापक बने।)

इमेजनेट की प्रभावशीलता चुनौती और वास्तविक दुनिया की छवि पहचान कार्यों के बीच घनिष्ठ संरेखण से उपजी है। विधियों के बारे में बहस के साथ भी, उच्चतम स्कोरिंग मॉडल ने हमेशा व्यावहारिक अनुप्रयोगों में बेहतर प्रदर्शन का प्रदर्शन किया।

हालांकि, वर्षों बाद से, AI शोधकर्ताओं ने इस समान विधि-अज्ञेयवादी दृष्टिकोण को तेजी से सामान्य कार्यों पर लागू किया है। उदाहरण के लिए, SWE-Bench का उपयोग अक्सर व्यापक कोडिंग क्षमता के लिए प्रॉक्सी के रूप में किया जाता है, जबकि अन्य परीक्षा-शैली बेंचमार्क का उपयोग तर्क क्षमता को मापने के लिए किया जाता है। यह व्यापक दायरा यह परिभाषित करना मुश्किल बनाता है कि एक विशिष्ट बेंचमार्क क्या मापता है, जिससे निष्कर्षों की जिम्मेदार व्याख्या में बाधा आती है।

चीजें कहां टूटती हैं

स्टैनफोर्ड में पीएचडी की छात्रा अंका रूएल का तर्क है कि सामान्यता की ओर धक्का मूल्यांकन समस्या की जड़ है। रूएल कहते हैं, "हम कार्य-विशिष्ट मॉडल से सामान्य-उद्देश्य मॉडल में चले गए हैं।" "यह अब एक एकल कार्य के बारे में नहीं है बल्कि कार्यों के एक पूरे समूह के बारे में है, इसलिए मूल्यांकन कठिन हो जाता है।"

जैकब्स की तरह, रूएल का मानना ​​है कि "बेंचमार्क के साथ मुख्य मुद्दा वैधता है, यहां तक ​​कि व्यावहारिक कार्यान्वयन से भी अधिक," यह देखते हुए: "यहीं पर बहुत सी चीजें टूट जाती हैं।" कोडिंग जैसे जटिल कार्यों के लिए, समस्या सेट में हर कल्पनीय परिदृश्य को शामिल करना लगभग असंभव है। नतीजतन, यह पता लगाना मुश्किल हो जाता है कि क्या किसी मॉडल का उच्च स्कोर वास्तविक कोडिंग कौशल को दर्शाता है या बस समस्या सेट में चालाक हेरफेर को दर्शाता है। रिकॉर्ड स्कोर प्राप्त करने के लिए तीव्र दबाव आगे शॉर्टकट को प्रोत्साहित करता है।

डेवलपर्स को उम्मीद है कि कई विशिष्ट बेंचमार्क में सफलता एक सामान्य रूप से सक्षम मॉडल में तब्दील हो जाएगी। हालांकि, एजेंटिक AI के उदय के साथ, जहां एक एकल प्रणाली मॉडल की एक जटिल सरणी को शामिल कर सकती है, यह मूल्यांकन करना मुश्किल हो जाता है कि क्या विशिष्ट कार्यों पर सुधार सामान्य हो जाएंगे। प्रिंसटन में कंप्यूटर वैज्ञानिक और AI उद्योग में लापरवाह प्रथाओं के आलोचक सयाश कपूर कहते हैं, "बस कई और नॉब हैं जिन्हें आप घुमा सकते हैं।" "जब एजेंटों की बात आती है, तो उन्होंने मूल्यांकन के लिए सर्वोत्तम प्रथाओं को छोड़ दिया है।"

पिछले जुलाई में प्रकाशित एक पेपर में, कपूर ने उन विशिष्ट मुद्दों को उजागर किया कि AI मॉडल ने 2024 में वेब के माध्यम से नेविगेट करने की AI एजेंट की क्षमता का परीक्षण करने वाले वेबएरेना बेंचमार्क को कैसे संपर्क किया। बेंचमार्क में रेडिट, विकिपीडिया और अन्य की नकल करने वाली क्लोन वेबसाइटों पर किए गए 800 से अधिक कार्य शामिल हैं। कपूर और उनकी टीम ने पाया कि जीतने वाले मॉडल, STeP ने रेडिट URL की संरचना का उपयोग करके सीधे उपयोगकर्ता प्रोफाइल पेज तक पहुंचने के लिए किया, जो वेबएरेना कार्यों में एक लगातार आवश्यकता थी।

हालांकि पूरी तरह से धोखा नहीं है, कपूर इसे "एजेंट ने पहली बार वेबएरेना में कार्यों को देखा होता तो यह कितनी अच्छी तरह से काम करता, इसका गंभीर गलत प्रतिनिधित्व" मानते हैं। इसके बावजूद, OpenAI के वेब एजेंट, ऑपरेटर ने तब से इसी तरह की नीति अपनाई है।

AI बेंचमार्क के साथ समस्याओं को और स्पष्ट करते हुए, कपूर और शोधकर्ताओं की एक टीम ने हाल ही में एक पेपर प्रकाशित किया जिसमें चैटबॉट एरेना में महत्वपूर्ण मुद्दों का खुलासा किया गया, जो एक लोकप्रिय क्राउडसोर्स मूल्यांकन प्रणाली है। उनके निष्कर्षों से संकेत मिलता है कि लीडरबोर्ड में हेरफेर किया जा रहा था, कुछ शीर्ष फाउंडेशन मॉडल बिना बताए निजी परीक्षण में लगे हुए थे और चुनिंदा रूप से अपने स्कोर जारी कर रहे थे।

यहां तक ​​कि इमेजनेट, जिस बेंचमार्क ने यह सब शुरू किया, अब वैधता समस्याओं का सामना कर रहा है। वाशिंगटन विश्वविद्यालय और Google अनुसंधान के शोधकर्ताओं द्वारा 2023 के एक अध्ययन में पाया गया कि इमेजनेट-विजेता एल्गोरिदम ने छह वास्तविक दुनिया डेटासेट पर लागू होने पर "बहुत कम या कोई प्रगति" नहीं दिखाई, यह सुझाव देते हुए कि परीक्षण की बाहरी वैधता अपनी सीमा तक पहुंच गई थी।

छोटा जाना

वैधता समस्या को हल करने के लिए, कुछ शोधकर्ताओं ने बेंचमार्क को विशिष्ट कार्यों से फिर से जोड़ने का प्रस्ताव दिया है। जैसा कि रूएल कहते हैं, AI डेवलपर्स को "इन उच्च-स्तरीय बेंचमार्क का सहारा लेना पड़ता है जो डाउनस्ट्रीम उपभोक्ताओं के लिए लगभग अर्थहीन हैं, क्योंकि बेंचमार्क डेवलपर्स अब डाउनस्ट्रीम कार्य का अनुमान नहीं लगा सकते हैं।"

नवंबर 2024 में, रूएल ने बेटरबेंच लॉन्च किया, जो एक सार्वजनिक रैंकिंग परियोजना है जो कोड प्रलेखन की स्पष्टता और महत्वपूर्ण रूप से, अपनी बताई गई क्षमता को मापने में बेंचमार्क की वैधता सहित विभिन्न मानदंडों के आधार पर बेंचमार्क का मूल्यांकन करती है। बेटरबेंच डिजाइनरों को यह स्पष्ट रूप से परिभाषित करने की चुनौती देता है कि उनका बेंचमार्क क्या परीक्षण करता है और यह बेंचमार्क बनाने वाले कार्यों से कैसे संबंधित है।

रूएल कहते हैं, "आपके पास क्षमताओं का एक संरचनात्मक ब्रेकडाउन होना चाहिए।" "वास्तविक कौशल क्या हैं जिनकी आप परवाह करते हैं, और आप उन्हें कैसे संचालित करते हैं जिसे हम माप सकते हैं?"

परिणाम बताते हैं। आर्केड लर्निंग एनवायरनमेंट (ALE), 2013 में स्थापित किया गया था ताकि मॉडल की अटारी 2600 गेम खेलना सीखने की क्षमता का परीक्षण किया जा सके, जो उच्चतम स्कोरिंग बेंचमार्क में से एक के रूप में उभरा है। इसके विपरीत, मैसिव मल्टीटास्क लैंग्वेज अंडरस्टैंडिंग (MMLU) बेंचमार्क, सामान्य भाषा कौशल के लिए व्यापक रूप से उपयोग किया जाने वाला परीक्षण, प्रश्नों और अंतर्निहित कौशल के बीच खराब परिभाषित कनेक्शन के कारण सबसे कम स्कोर में से एक प्राप्त करता है।

हालांकि बेटरबेंच ने अभी तक विशिष्ट बेंचमार्क की प्रतिष्ठा को महत्वपूर्ण रूप से प्रभावित नहीं किया है, लेकिन इसने सफलतापूर्वक AI बेंचमार्क को बेहतर बनाने के बारे में चर्चा में वैधता को सबसे आगे ला दिया है। रूएल हगिंग फेस, एडिनबर्ग विश्वविद्यालय और एलेउथेरएआई द्वारा आयोजित एक नए शोध समूह में शामिल हो गए हैं, जहां वह वैधता और AI मॉडल मूल्यांकन पर अपने विचारों को और विकसित करेंगे।

हगिंग फेस की वैश्विक नीति की प्रमुख इरेन सोलेमन का कहना है कि समूह वैध बेंचमार्क बनाने पर ध्यान केंद्रित करेगा जो सीधी क्षमताओं को मापने से परे जाते हैं। सोलेमन कहते हैं, "शेल्फ से एक अच्छे बेंचमार्क के लिए बहुत भूख है जो पहले से ही काम करता है।" "बहुत सारे मूल्यांकन बहुत कुछ करने की कोशिश कर रहे हैं।"

व्यापक उद्योग इस दृष्टिकोण पर अभिसरण होता दिखाई दे रहा है। मार्च में प्रकाशित एक पेपर में, Google, Microsoft, Anthropic और अन्य के शोधकर्ताओं ने मूल्यांकन में सुधार के लिए एक नया ढांचा तैयार किया, जिसमें वैधता आधारशिला के रूप में थी।

शोधकर्ताओं का तर्क है कि "AI मूल्यांकन विज्ञान को ‘सामान्य बुद्धिमत्ता’ के मोटे दाने वाले दावों से परे हटकर प्रगति के अधिक कार्य-विशिष्ट और वास्तविक दुनिया से संबंधित उपायों की ओर बढ़ना चाहिए।"

"स्क्विशी" चीजों को मापना

इस बदलाव को सुविधाजनक बनाने के लिए, कुछ शोधकर्ता सामाजिक विज्ञान के उपकरणों की ओर रुख कर रहे हैं। फरवरी के एक स्थिति पत्र में तर्क दिया गया कि "GenAI प्रणालियों का मूल्यांकन एक सामाजिक विज्ञान माप चुनौती है," विशेष रूप से यह पता लगाया गया कि सामाजिक विज्ञान वैधता प्रणालियों को AI बेंचमार्किंग पर कैसे लागू किया जा सकता है।

लेखकों, मुख्य रूप से Microsoft की अनुसंधान शाखा से, लेकिन स्टैनफोर्ड और मिशिगन विश्वविद्यालय के शिक्षाविदों सहित, उन मानकों की ओर इशारा करते हैं जिनका उपयोग सामाजिक वैज्ञानिक विचारधारा, लोकतंत्र और मीडिया पूर्वाग्रह जैसी विवादित अवधारणाओं को मापने के लिए करते हैं। AI बेंचमार्क पर लागू होने पर, ये समान प्रक्रियाएं "तर्क" और "गणित प्रवीणता" जैसी अवधारणाओं को अस्पष्ट सामान्यीकरण का सहारा लिए बिना मापने का एक तरीका प्रदान कर सकती हैं।

सामाजिक विज्ञान साहित्य मापी जा रही अवधारणा को सख्ती से परिभाषित करने के महत्व पर जोर देता है। उदाहरण के लिए, एक समाज में लोकतंत्र के स्तर को मापने के लिए डिज़ाइन किए गए एक परीक्षण को पहले "लोकतांत्रिक समाज" की एक स्पष्ट परिभाषा स्थापित करनी चाहिए और फिर उस परिभाषा के लिए प्रासंगिक प्रश्न तैयार करने चाहिए।

इसे SWE-Bench जैसे बेंचमार्क पर लागू करने के लिए, डिजाइनरों को GitHub से प्रोग्रामिंग समस्याओं को एकत्र करने और उत्तरों को मान्य करने के लिए एक योजना बनाने के पारंपरिक मशीन लर्निंग दृष्टिकोण को छोड़ना होगा। इसके बजाय, वे पहले यह परिभाषित करेंगे कि बेंचमार्क का उद्देश्य क्या मापना है (जैसे, "सॉफ्टवेयर में चिह्नित मुद्दों को हल करने की क्षमता"), इसे उप-कौशल में तोड़ना (जैसे, विभिन्न प्रकार की समस्याएं या प्रोग्राम संरचनाएं), और फिर ऐसे प्रश्न बनाना जो उन उप-कौशल को सटीक रूप से कवर करते हैं।

जैकब्स जैसे शोधकर्ताओं के लिए, AI शोधकर्ता आमतौर पर बेंचमार्किंग तक कैसे पहुंचते हैं, इससे यह गहरा बदलाव ठीक यही बात है। वह कहती हैं, "तकनीकी उद्योग में जो हो रहा है और सामाजिक विज्ञान के इन उपकरणों के बीच एक बेमेल है।" "हमारे पास दशकों और दशकों से यह सोचने में लगे हुए हैं कि हम मनुष्यों के बारे में इन स्क्विशी चीजों को कैसे मापना चाहते हैं।"

शोध समुदाय में इन विचारों के बढ़ते प्रभाव के बावजूद, AI कंपनियां वास्तव में बेंचमार्क का उपयोग कैसे करती हैं, इस पर उनका प्रभाव धीमा रहा है।

OpenAI, Anthropic, Google और Meta से हालिया मॉडल रिलीज़ अभी भी MMLU जैसे बहुविकल्पीय ज्ञान बेंचमार्क पर बहुत अधिक निर्भर करती हैं, वही दृष्टिकोण जिससे वैधता शोधकर्ता आगे बढ़ने की कोशिश कर रहे हैं। मॉडल रिलीज़, अधिकांश भाग के लिए, अभी भी सामान्य बुद्धिमत्ता में वृद्धि को प्रदर्शित करने पर ध्यान केंद्रित करते हैं, और इन दावों का समर्थन करने के लिए व्यापक बेंचमार्क का उपयोग किया जाता है।

कुछ पर्यवेक्षकों को यह संतोषजनक लगता है। व्हार्टन के प्रोफेसर एथन मोलिक का सुझाव है कि बेंचमार्क, "चीजों के बुरे माप होने के बावजूद, हमारे पास जो है वह भी है।" वे आगे कहते हैं, "साथ ही, मॉडल बेहतर हो रहे हैं। तेजी से प्रगति से बहुत सारे पाप माफ हो जाते हैं।"

अभी के लिए, कृत्रिम सामान्य बुद्धिमत्ता पर उद्योग का लंबे समय से ध्यान अधिक केंद्रित, वैधता-आधारित दृष्टिकोण को छाया में डालता दिखाई दे रहा है। जब तक AI मॉडल सामान्य बुद्धिमत्ता में आगे बढ़ना जारी रखते हैं, तब तक विशिष्ट अनुप्रयोग कम सम्मोहक लगते हैं, भले ही व्यवसायी उन उपकरणों का उपयोग कर रहे हों जिन पर उन्हें अब पूरी तरह से भरोसा नहीं है।

हगिंग फेस के सोलेमन कहते हैं, "यह वह तंग रस्सी है जिस पर हम चल रहे हैं।" "सिस्टम को बाहर फेंकना बहुत आसान है, लेकिन मूल्यांकन वास्तव में हमारे मॉडल को समझने में सहायक होते हैं, यहां तक ​​कि इन सीमाओं के साथ भी।"