कृत्रिम बुद्धिमत्ता बेंचमार्क: अर्थपूर्ण मापन

कृत्रिम बुद्धिमत्ता (AI) च्या क्षेत्रात, प्रगती मोजण्यासाठी बेंचमार्कचा वापर मोठ्या प्रमाणावर केला जातो. मात्र, हे बेंचमार्क खरोखरच AI ची क्षमता दर्शवतात का, हा एक महत्त्वाचा प्रश्न आहे. पारंपरिक बेंचमार्क्सवर वाढती टीका होत असल्यामुळे AI समुदाय या समस्येवर विचार करत आहे.

SWE-Bench, जे नोव्हेंबर 2024 मध्ये सादर करण्यात आले, ते AI मॉडेलच्या कोडिंग क्षमतेचे मूल्यांकन करण्यासाठी एक लोकप्रिय साधन बनले. यात सार्वजनिक GitHub रिपॉजिटरीजमधून घेतलेल्या 2,000 हून अधिक Python-आधारित प्रकल्पांमधील प्रोग्रामिंग आव्हानांचा समावेश आहे. OpenAI, Anthropic आणि Google सारख्या आघाडीच्या AI विकासकांनी SWE-Bench च्या उच्च गुणांना महत्त्व दिले आहे. या मोठ्या कंपन्यांव्यतिरिक्त, AI फर्म्स SWE-Bench लीडरबोर्डवर वर्चस्व मिळवण्यासाठी सतत स्पर्धा करत असतात.

परंतु, या बेंचमार्क्सभोवतीचा उत्साह दिशाभूल करणारा असू शकतो. प्रिन्सटन युनिव्हर्सिटीमधील संशोधक जॉन यांग, जे SWE-Bench च्या विकासात सहभागी आहेत, त्यांनी नमूद केले की उच्च स्थान मिळवण्यासाठी तीव्र स्पर्धा "गेमिंग"ला प्रोत्साहन देत आहे. यामुळे, हे बेंचमार्क AI च्या वास्तविक कामगिरीचे अचूक प्रतिबिंब आहेत की नाही, याबद्दल चिंता वाढली आहे.

या समस्येत फसवणूक नसली तरी, बेंचमार्कच्या मर्यादांचा फायदा घेण्यासाठी विशिष्ट रणनीती विकसित केल्या जात आहेत. उदाहरणार्थ, सुरुवातीच्या SWE-Bench मध्ये फक्त Python कोडवर लक्ष केंद्रित केले गेले, ज्यामुळे विकासकांना त्यांचे मॉडेल केवळ Python वर प्रशिक्षित करण्यास प्रोत्साहन मिळाले. यांग यांनी निरीक्षण केले की उच्च गुण मिळवणारे हे मॉडेल इतर प्रोग्रामिंग भाषांमध्ये अयशस्वी ठरतात, ज्यामुळे त्यांची उथळ समज दिसून येते.

यांग म्हणतात, "हे मॉडेल दिसायला आकर्षक असले तरी, ते इतर भाषांमध्ये वापरताना अयशस्वी ठरतात. त्यामुळे, तुम्ही सॉफ्टवेअर इंजिनीअरिंग एजंट तयार करत नाही, तर SWE-Bench एजंट तयार करता, ज्यामध्ये फारसा अर्थ नाही."

ही "SWE-Bench समस्या" AI मूल्यांकनातील एक मोठी समस्या दर्शवते. एकेकाळी प्रगतीचे विश्वसनीय निर्देशक मानले जाणारे बेंचमार्क, आता वास्तविक जगातील क्षमतेपासून दूर जात आहेत. त्यातच, पारदर्शकतेच्या कमतरतेमुळे या मेट्रिक्सवरील विश्वास आणखी कमी झाला आहे. या समस्या असूनही, बेंचमार्क मॉडेल विकासात महत्त्वाची भूमिका बजावत आहेत, जरी अनेक तज्ञांना त्यांच्या मूळ मूल्यावर शंका आहे. OpenAI चे सह-संस्थापक आंद्रेज कार्पेथी यांनी या परिस्थितीला "मूल्यांकन संकट" म्हटले आहे. AI क्षमतांचे मोजमाप करण्यासाठी विश्वसनीय पद्धतींचा अभाव आणि भविष्यात सुधारणा कशी करावी, याबाबत स्पष्ट मार्ग नसल्याबद्दल त्यांनी खंत व्यक्त केली आहे.

स्टॅनफोर्ड युनिव्हर्सिटीच्या मानवी-केंद्रित AI संस्थेच्या संशोधन संचालिका Vanessa Parli विचारतात, " historically, benchmarks were the way we evaluated AI systems. Is that the way we want to evaluate systems going forward? And if it’s not, what is the way?"

सामाजिक विज्ञानावर आधारित दृष्टिकोन स्वीकारण्याची वकालत करणारे शिक्षणतज्ज्ञ आणि AI संशोधक वाढत आहेत. ते "वैधता" (validity) यावर जोर देण्याचा प्रस्ताव ठेवतात. "Validity" ही संकल्पना सामाजिक विज्ञानात महत्त्वाची आहे, जी मापनTool किती अचूकपणे अपेक्षित उद्दिष्ट साध्य करते, हे तपासते. "Reasoning" किंवा "scientific knowledge" सारख्या अस्पष्ट संकल्पनांचे मूल्यांकन करणाऱ्या बेंचमार्क्सना यामुळे आव्हान मिळू शकते. जरी यामुळे कृत्रिम सामान्य बुद्धिमत्तेच्या (AGI) ध्येयाला थोडावेळ थांबावे लागले, तरी ते वैयक्तिक मॉडेलच्या मूल्यांकनासाठी अधिक मजबूत आधार प्रदान करेल.

मिशिगन विद्यापीठातील प्राध्यापिका Abigail Jacobs म्हणतात, "Taking validity seriously means asking folks in academia, industry, or wherever to show that their system does what they say it does. I think it points to a weakness in the AI world if they want to back off from showing that they can support their claim."

पारंपरिक चाचणीच्या मर्यादा

AI उद्योग बेंचमार्क्सवर अवलंबून आहे, कारण यापूर्वी ImageNet सारख्या चाचण्यांमध्ये त्यांना यश मिळाले आहे.

ImageNet 2010 मध्ये सुरू करण्यात आले होते. यात 30 लाखांहून अधिक Images चा डेटाबेस होता, ज्यांना 1,000 वेगवेगळ्या Classes मध्ये विभागले होते. या चाचणीत, कोणत्याही यशस्वी Algorithm ला मान्यता मिळत होती, मग त्याची Underlying Approach काहीही असो. 2012 मध्ये AlexNet ने GPU Training चा वापर करून Image Recognition मध्ये मोठी प्रगती केली. AlexNet चे Convolutional Neural Networks Image Recognition अनलॉक करतील, याची कुणी कल्पनाही केली नसेल, पण त्याच्या उच्च स्कोअरने सर्व शंका दूर केल्या. AlexNet च्या विकासकांपैकी एकाने पुढे OpenAI ची सह-स्थापना केली.

ImageNet च्या यशाचे कारण म्हणजे चाचणी आणि वास्तविक जगातील Image Recognition कार्ये यांच्यातील जुळणारे संबंध. पद्धतींबद्दल वादविवाद असूनही, सर्वाधिक गुण मिळवणारे मॉडेल नेहमीच Practical Applications मध्ये उत्कृष्ट प्रदर्शन करत होते.

परंतु, त्यानंतर AI संशोधकांनी याच Method-Agnostic Approach चा वापर अधिकाधिक सामान्य कार्यांसाठी केला. उदाहरणार्थ, SWE-Bench चा वापर Coding क्षमतेचे मूल्यांकन करण्यासाठी केला जातो, तर इतर परीक्षा-शैलीतील बेंचमार्क Reasoning Ability तपासण्यासाठी वापरले जातात. यामुळे, विशिष्ट बेंचमार्क काय मोजतो, हे परिभाषित करणे कठीण होते, ज्यामुळे निष्कर्षांचे योग्य Interpretation करणे अधिक कठीण होते.

समस्या कुठे येतात

स्टॅनफोर्डमधील PhD च्या विद्यार्थिनी Anka Reuel यांचे म्हणणे आहे की, Generality कडे असलेला कल हे Evaluation Problem चे मूळ कारण आहे. Reuel म्हणतात, "We’ve moved from task-specific models to general-purpose models. It’s not about a single task anymore but a whole bunch of tasks, so evaluation becomes harder."

Jacobs यांच्याप्रमाणेच Reuel यांचा असा विश्वास आहे की, "the main issue with benchmarks is validity, even more than the practical implementation," त्या म्हणतात, "That’s where a lot of things break down." Coding सारख्या Complex Tasks साठी, Problem Set मध्ये प्रत्येक संभाव्य परिस्थितीचा समावेश करणे जवळजवळ अशक्य आहे. त्यामुळे, मॉडेलचा उच्च स्कोअर Coding Skill दर्शवतो की Problem Set ची Clever Manipulation, हे ओळखणे कठीण होते. रेकॉर्ड स्कोअर मिळवण्याच्या तीव्र दबावामुळे Shortcuts घेण्यास प्रोत्साहन मिळते.

विकासकांना आशा आहे की विशिष्ट बेंचमार्क्समध्ये यश मिळाल्यास, ते Generally Capable Model मध्ये रूपांतरित होईल. तथापि, Agentic AI च्या वाढीमुळे, जिथे एकच System अनेक Models चा समावेश करू शकते, विशिष्ट Tasks मधील सुधारणा Generalize होतील की नाही, याचे Evaluation करणे कठीण होते. प्रिन्सटनमधील Computer Scientist Sayash Kapoor म्हणतात, "There’s just many more knobs you can turn. When it comes to agents, they have sort of given up on the best practices for evaluation." ते AI उद्योगातील निष्काळजी Practices चे टीकाकार आहेत.

गेल्या वर्षी प्रकाशित झालेल्या एका Paper मध्ये, Kapoor यांनी 2024 मध्ये AI Models ने WebArena Benchmark चा Approach कसा केला, याबद्दल विशिष्ट मुद्दे निदर्शनास आणले. WebArena एका AI Agent ची Web Navigate करण्याची क्षमता तपासते. या Benchmark मध्ये Reddit, Wikipedia आणि इतर Websites ची नक्कल करणाऱ्या Cloned Websites वर Perform केलेल्या 800 हून अधिक Tasks चा समावेश आहे. Kapoor आणि त्यांच्या टीमने शोधले की Winning Model, STeP ने Reddit URLs च्या Structure चा वापर User Profile Pages वर Directly Access करण्यासाठी केला, जी WebArena Tasks मध्ये Frequent Requirement होती.

Kapoor याला Outright Cheating मानत नसले तरी, "serious misrepresentation of how well the agent would work had it seen the tasks in WebArena for the first time," असे मानतात. असे असूनही, OpenAI च्या Web Agent, Operator ने तेव्हापासून अशीच Policy Adopt केली आहे.

AI Benchmarks मधील समस्यांचे आणखी Illustration देताना, Kapoor आणि संशोधकांच्या एका Team ने Chatbot Arena मधील महत्त्वपूर्ण समस्या उघड करणारा Paper प्रकाशित केला. Chatbot Arena एक Popular Crowdsourced Evaluation System आहे. त्यांच्या Findings मध्ये असे दिसून आले की Leaderboard मध्ये Manipulation केले जात आहे. काही Top Foundation Models Private Testing मध्ये गुंतले होते आणि त्यांचे Scores Selectively Release करत होते.

ImageNet ला देखील Validity Problems चा सामना करावा लागत आहे. वॉशिंग्टन विद्यापीठ आणि Google Research च्या संशोधकांनी केलेल्या 2023 च्या अभ्यासात असे आढळून आले की ImageNet Winning Algorithms ने सहा Real-World Datasets वर Apply केल्यावर "little to no progress" दर्शविली, ज्यामुळे Test ची External Validity तिच्या Limit पर्यंत पोहोचली आहे, असे दिसून येते.

लहान स्तरावर जाणे

Validity Problem सोडवण्यासाठी, काही संशोधकांनी Benchmarks ना Specific Tasks सोबत Reconnect करण्याचा प्रस्ताव दिला आहे. Reuel म्हणतात, AI Developers ना "have to resort to these high-level benchmarks that are almost meaningless for downstream consumers, because the benchmark developers can’t anticipate the downstream task anymore."

नोव्हेंबर 2024 मध्ये, Reuel ने BetterBench लाँच केले. हा एक Public Ranking Project आहे, जो Code Documentation च्या Clarity सह विविध Criteria च्या आधारावर Benchmarks चे Evaluation करतो. विशेष म्हणजे, हे Benchmark त्याची Stated Capability मोजण्यात किती Valid आहे, हे तपासते. BetterBench Designers ना त्यांचे Benchmark काय Test करतात आणि ते Benchmark मध्ये असलेल्या Tasks शी कसे संबंधित आहेत, हे Clear Define करण्याचे आव्हान देते.

Reuel म्हणतात, "You need to have a structural breakdown of the capabilities. What are the actual skills you care about, and how do you operationalize them into something we can measure?"

याचे Results Reveal करणारे आहेत. Arcade Learning Environment (ALE), 2013 मध्ये Models ची Atari 2600 Games खेळण्याची क्षमता Test करण्यासाठी Establish करण्यात आले, हे Highest-Scoring Benchmarks पैकी एक ठरले. याउलट, Massive Multitask Language Understanding (MMLU) Benchmark, General Language Skills साठी मोठ्या प्रमाणावर वापरली जाणारी Test, Questions आणि Underlying Skill यांच्यातील Poorly Defined Connection मुळे Lowest Scores पैकी एक आहे.

BetterBench ने विशिष्ट Benchmarks च्या Reputations वर Significant Impact पाडला नसला तरी, AI Benchmarks मध्ये सुधारणा कशी करावी, याबद्दलच्या Discussions मध्ये Validity ला Successfully Forefront वर आणले आहे. Reuel एका नवीन Research Group मध्ये सामील झाली आहे, जी Hugging Face, Edinburgh विद्यापीठ आणि EleutherAI यांनी Host केली आहे. तिथे त्या Validity आणि AI Model Evaluation वरील त्यांचे विचार आणखी Develop करतील.

Hugging Face च्या Global Policy च्या Head Irene Solaiman म्हणतात की हा Group Valid Benchmarks तयार करण्यावर लक्ष केंद्रित करेल, जे Straightforward Capabilities मोजण्यापेक्षा पुढे जातील. Solaiman म्हणतात, "There’s just so much hunger for a good benchmark off the shelf that already works. A lot of evaluations are trying to do too much."

असे दिसते की Broad Industry याच View वर Converge होत आहे. मार्चमध्ये प्रकाशित झालेल्या एका Paper मध्ये, Google, Microsoft, Anthropic आणि इतरांच्या संशोधकांनी Evaluations सुधारण्यासाठी एक नवीन Framework Outline केले आहे, ज्यामध्ये Validity हा Cornerstone आहे.

संशोधकांचे म्हणणे आहे की "AI Evaluation Science ने ‘General Intelligence’ च्या Coarse Grained Claims च्या पलीकडे जाऊन Task-Specific आणि Real-World Relevant Measures of Progress कडे वाटचाल केली पाहिजे."

"Squishy" गोष्टींचे मोजमाप

या Shift ला Facilitate करण्यासाठी, काही संशोधक Social Science च्या Tools कडे वळत आहेत. फेब्रुवारीमध्ये प्रकाशित झालेल्या एका Position Paper मध्ये असा युक्तिवाद करण्यात आला आहे की "Evaluating GenAI systems is a social science measurement challenge," specifically exploring how social science validity systems can be applied to AI Benchmarking.

Microsoft च्या Research Branch मधील आणि स्टॅनफोर्ड आणि मिशिगन विद्यापीठांमधील शिक्षणतज्ज्ञांनी Social Scientists contested concepts जसे Ideology, Democracy आणि Media Bias मोजण्यासाठी वापरतात, त्या Standard कडे लक्ष वेधले. AI Benchmarks ला Apply केल्यास, या Procedures "Reasoning" आणि "Math Proficiency" सारख्या Concepts चे Hazy Generalizations चा वापर न करता मोजमाप करण्याचा मार्ग Provide करू शकतात.

Social Science Literature मध्ये मोजल्या जाणाऱ्या Concept ला Rigorously Define करण्याच्या महत्त्वावर जोर दिला जातो. उदाहरणार्थ, समाजात Democracy ची Level मोजण्यासाठी Design केलेल्या Test मध्ये प्रथम "Democratic Society" ची Clear Definition Establish करणे आवश्यक आहे आणि त्यानंतर त्या Definition शी Relevant Questions तयार करणे आवश्यक आहे.

SWE-Bench सारख्या Benchmark ला हे Apply करण्यासाठी, Designers ना GitHub वरून Programming Problems Collect करण्याचा आणि उत्तरे Validate करण्याची Scheme तयार करण्याचा Traditional Machine Learning Approach सोडावा लागेल. त्याऐवजी, Benchmark ने काय मोजायचे आहे (उदा. "Software मधील Flagged Issues Resolve करण्याची क्षमता"), हे प्रथम Define करणे आवश्यक आहे. त्यानंतर, त्या Subskills (उदा. वेगवेगळ्या प्रकारचे Problems किंवा Program Structures) मध्ये Break Down करणे आवश्यक आहे आणि मग Questions तयार करणे आवश्यक आहे, जे त्या Subskills ला Accurately Cover करतील.

Jacobs सारख्या संशोधकांसाठी, AI संशोधक Benchmarking कडे ज्या प्रकारे Approach करतात, त्यातून हा Profound Shift महत्त्वाचा आहे. त्या म्हणतात, "There’s a mismatch between what’s happening in the tech industry and these tools from social science. We have decades and decades of thinking about how we want to measure these squishy things about humans."

Research Community मध्ये या Ideas चा वाढता Impact असूनही, AI Companies प्रत्यक्षात Benchmarks चा वापर कसा करतात, यावर त्यांचा Influence Slow आहे.

OpenAI, Anthropic, Google आणि Meta च्या Recent Model Releases अजूनही MMLU सारख्या Multiple-Choice Knowledge Benchmarks वर मोठ्या प्रमाणावर अवलंबून आहेत, ज्या Approach ला Validity Researchers Move Beyond करण्याचा प्रयत्न करत आहेत. Model Releases अजूनही General Intelligence मधील Increases Demonstrate करण्यावर Focus करतात आणि या Claims ला Support करण्यासाठी Broad Benchmarks चा वापर केला जातो.

काही Observers ना हे Satisfactory वाटते. Wharton चे Professor Ethan Mollick सुचवतात की Benchmarks "bad measures of things, are also what we’ve got." ते पुढे म्हणतात, "At the same time, the models are getting better. A lot of sins are forgiven by fast progress."

सध्या तरी, Artificial General Intelligence वर Industry चा Long-Standing Focus अधिक Focused, Validity-Based Approach ला Overshadow करत आहे. जोपर्यंत AI Models General Intelligence मध्ये Advance होत राहतील, तोपर्यंत Specific Applications कमी Compelling वाटतात, जरी Practitioners Tools वापरत असले तरी, ज्यांवर त्यांना Fully Trust नाही.

Hugging Face च्या Solaiman म्हणतात, "This is the tightrope we’re walking. It’s too easy to throw the system out, but evaluations are really helpful in understanding our models, even with these limitations."