جامعه هوش مصنوعی اغلب برای دستیابی به هوش مصنوعی برتر، به نمرههای معیار متکی است، اما آیا این نمرهها واقعاً نشاندهنده تواناییهای دنیای واقعی هستند؟ جامعه هوش مصنوعی با این پرسش دست و پنجه نرم میکند، زیرا معیارهای سنتی با بررسی دقیقتری روبرو شدهاند.
SWE-Bench، که در نوامبر 2024 معرفی شد، به سرعت به عنوان ابزاری محبوب برای ارزیابی مهارتهای برنامهنویسی یک مدل هوش مصنوعی مورد توجه قرار گرفت. این ابزار از بیش از 2000 چالش برنامهنویسی معتبر که از مخازن عمومی GitHub در دوازده پروژه مبتنی بر پایتون استخراج شدهاند، استفاده میکند. کسب یک نمره قوی در SWE-Bench به یک نشان ارزشمند تبدیل شده است و در نسخههای اصلی مدل از توسعهدهندگان پیشرو هوش مصنوعی مانند OpenAI، Anthropic و Google به طور برجسته نمایش داده میشود. فراتر از این غولها، شرکتهای هوش مصنوعی متخصص در تنظیم دقیق، به طور مداوم برای برتری در جدول رهبری SWE-Bench رقابت میکنند.
با این حال، هیجان پیرامون این معیارها ممکن است گمراهکننده باشد. جان یانگ، محققی در دانشگاه پرینستون که در توسعه SWE-Bench مشارکت دارد، اشاره میکند که رقابت شدید برای کسب رتبه برتر منجر به “بازی کردن” سیستم شده است. این امر نگرانیهایی را در مورد اینکه آیا این معیارها به طور دقیق نشاندهنده دستاوردهای واقعی هوش مصنوعی هستند، ایجاد میکند.
مسئله لزوماً تقلب آشکار نیست، بلکه توسعه استراتژیهایی است که به طور خاص برای بهرهبرداری از محدودیتهای معیار طراحی شدهاند. به عنوان مثال، SWE-Bench اولیه فقط بر روی کد پایتون متمرکز بود و توسعهدهندگان را تشویق میکرد تا مدلهای خود را منحصراً بر روی پایتون آموزش دهند. یانگ مشاهده کرد که این مدلهای با امتیاز بالا اغلب هنگام مواجهه با زبانهای برنامهنویسی مختلف با مشکل مواجه میشوند و درک سطحی را نشان میدهند که او آن را “مطلا” توصیف میکند.
یانگ توضیح میدهد: “در نگاه اول زیبا و براق به نظر میرسد، اما وقتی سعی میکنید آن را روی یک زبان متفاوت اجرا کنید، همه چیز از هم میپاشد. در آن زمان، شما یک عامل مهندسی نرمافزار طراحی نمیکنید. شما در حال طراحی یک عامل SWE-Bench هستید که بسیار کمتر جالب است.”
این “مسئله SWE-Bench” منعکسکننده یک چالش گستردهتر در ارزیابی هوش مصنوعی است. معیارها، که زمانی به عنوان نشانگرهای قابل اعتماد پیشرفت در نظر گرفته میشدند، به طور فزایندهای از تواناییهای دنیای واقعی جدا شدهاند. نگرانیها در مورد شفافیت این مشکل را تشدید کرده و اعتماد به این معیارها را بیشتر از بین برده است. علیرغم این مسائل، معیارها همچنان نقش محوری در توسعه مدل ایفا میکنند، حتی اگر بسیاری از کارشناسان ارزش ذاتی آنها را زیر سوال ببرند. آندری کارپاتی، یکی از بنیانگذاران OpenAI، حتی وضعیت فعلی را یک “بحران ارزیابی” نامیده است و از فقدان روشهای قابل اعتماد برای اندازهگیری تواناییهای هوش مصنوعی و عدم وجود یک مسیر روشن به جلو ابراز تاسف کرده است.
ونسا پارلی، مدیر تحقیقات در موسسه هوش مصنوعی انسانمحور دانشگاه استنفورد، میپرسد: “از نظر تاریخی، معیارها روشی بودند که ما سیستمهای هوش مصنوعی را ارزیابی میکردیم. آیا این همان روشی است که میخواهیم سیستمها را در آینده ارزیابی کنیم؟ و اگر اینطور نیست، راه حل چیست؟”
یک گروه رو به رشد از دانشگاهیان و محققان هوش مصنوعی از یک رویکرد متمرکزتر حمایت میکنند و از علوم اجتماعی الهام میگیرند. آنها پیشنهاد میکنند که “اعتبار” را در اولویت قرار دهند، مفهومی که در علوم اجتماعی کمی مرکزی است و ارزیابی میکند که یک ابزار اندازهگیری تا چه حد به طور دقیق ساختار مورد نظر را به تصویر میکشد. این تأکید بر اعتبار میتواند معیارهایی را به چالش بکشد که مفاهیم مبهمی مانند “استدلال” یا “دانش علمی” را ارزیابی میکنند. در حالی که ممکن است از شور و شوق برای هوش مصنوعی عمومی (AGI) بکاهد، اما پایه محکمتری برای ارزیابی مدلهای فردی فراهم میکند.
ابیگل جیکوبز، استاد دانشگاه میشیگان و یک صدای پیشرو در تلاش برای اعتبار، ادعا میکند: “جدی گرفتن اعتبار به معنای درخواست از افراد در دانشگاه، صنعت یا هر جای دیگری است که نشان دهند سیستم آنها همانطور که میگویند کار میکند. من فکر میکنم اگر آنها بخواهند از نشان دادن اینکه میتوانند از ادعای خود پشتیبانی کنند، عقبنشینی کنند، این نشاندهنده ضعف در دنیای هوش مصنوعی است.”
محدودیتهای آزمایش سنتی
اتکای صنعت هوش مصنوعی به معیارها ناشی از موفقیتهای گذشته آنها، به ویژه در چالشهایی مانند ImageNet است.
ImageNet، که در سال 2010 راهاندازی شد، پایگاه دادهای از بیش از 3 میلیون تصویر را در 1000 کلاس مختلف در اختیار محققان قرار داد. این چالش روشناشناس بود و به هر الگوریتم موفقی اجازه میداد بدون توجه به رویکرد اساسی خود، اعتبار کسب کند. پیشرفت AlexNet در سال 2012، که از یک شکل غیر متعارف آموزش GPU استفاده میکرد، به یک سنگ بنای هوش مصنوعی مدرن تبدیل شد. در حالی که تعداد کمی میتوانستند پیشبینی کنند که شبکههای عصبی پیچشی AlexNet قفل تشخیص تصویر را باز میکنند، نمره بالای آن هرگونه تردیدی را برطرف کرد. (شایان ذکر است، یکی از توسعهدهندگان AlexNet بعداً OpenAI را تأسیس کرد.)
اثربخشی ImageNet ناشی از همسویی نزدیک بین چالش و وظایف تشخیص تصویر دنیای واقعی بود. حتی با وجود بحثهایی در مورد روشها، مدل با بالاترین امتیاز همیشه عملکرد بهتری در برنامههای کاربردی عملی نشان میداد.
با این حال، در سالهای پس از آن، محققان هوش مصنوعی از همین رویکرد روشناشناس برای وظایف به طور فزاینده کلی استفاده کردهاند. SWE-Bench، به عنوان مثال، اغلب به عنوان جایگزینی برای توانایی کدنویسی گستردهتر استفاده میشود، در حالی که سایر معیارهای سبک امتحان برای سنجش توانایی استدلال استفاده میشوند. این دامنه گسترده، تعریف دقیق آنچه را که یک معیار خاص اندازهگیری میکند، دشوار میکند و مانع از تفسیر مسئولانه یافتهها میشود.
جایی که همه چیز از هم میپاشد
آنکا رویل، دانشجوی دکترا در استنفورد، استدلال میکند که حرکت به سوی کلیت در ریشه مشکل ارزیابی قرار دارد. رویل میگوید: “ما از مدلهای خاصمنظوره به مدلهای چندمنظوره حرکت کردهایم. این دیگر در مورد یک کار واحد نیست، بلکه مجموعهای از وظایف است، بنابراین ارزیابی دشوارتر میشود.”
رویل مانند جیکوبز معتقد است که “مسئله اصلی معیارها اعتبار است، حتی بیشتر از اجرای عملی”، و خاطرنشان میکند: “اینجاست که بسیاری از چیزها از هم میپاشند.” برای وظایف پیچیدهای مانند کدنویسی، تقریباً غیرممکن است که هر سناریوی قابل تصوری را در یک مجموعه مسئله در بر گیرد. در نتیجه، تشخیص اینکه آیا نمره بالاتر یک مدل منعکسکننده مهارت کدنویسی واقعی است یا صرفاً دستکاری هوشمندانه مجموعه مسئله، دشوار میشود. فشار شدید برای دستیابی به نمرات رکورد، بیشتر مشوق میانبرها میشود.
توسعهدهندگان امیدوارند که موفقیت در تعداد زیادی از معیارهای خاص به یک مدل به طور کلی توانا تبدیل شود. با این حال، ظهور هوش مصنوعی عاملی، جایی که یک سیستم واحد میتواند مجموعهای پیچیده از مدلها را در خود جای دهد، ارزیابی اینکه آیا پیشرفت در وظایف خاص تعمیم مییابد یا خیر، دشوار میکند. سایاش کاپور، دانشمند کامپیوتر در پرینستون و منتقد شیوههای سهلانگارانه در صنعت هوش مصنوعی، میگوید: “فقط اهرمهای بیشتری وجود دارد که میتوانید آنها را بچرخانید. وقتی صحبت از عاملها به میان میآید، آنها تا حدودی از بهترین شیوهها برای ارزیابی دست کشیدهاند.”
کاپور در مقالهای که در ماه ژوئیه گذشته منتشر شد، مسائل خاصی را در مورد نحوه برخورد مدلهای هوش مصنوعی با معیار WebArena در سال 2024 برجسته کرد که توانایی یک عامل هوش مصنوعی را در پیمایش وب آزمایش میکند. این معیار شامل بیش از 800 کار انجام شده در وبسایتهای شبیهسازی شده است که از Reddit، Wikipedia و دیگران تقلید میکنند. کاپور و تیمش کشف کردند که مدل برنده، STeP، از ساختار URLهای Reddit برای دسترسی مستقیم به صفحات نمایه کاربر، یک الزام مکرر در وظایف WebArena، بهرهبرداری میکند.
کاپور اگرچه این را تقلب آشکار نمیداند، اما آن را “تحریف جدی از نحوه کار عامل در صورت مشاهده وظایف در WebArena برای اولین بار” میداند. با وجود این، عامل وب OpenAI، Operator، از آن زمان سیاست مشابهی را اتخاذ کرده است.
کاپور و تیمی از محققان اخیراً با انتشار مقالهای که مشکلات قابل توجهی را در Chatbot Arena، یک سیستم ارزیابی جمعسپاری محبوب، نشان میدهد، مشکلات معیارهای هوش مصنوعی را بیشتر نشان دادند. یافتههای آنها نشان داد که جدول رهبری دستکاری میشود و برخی از مدلهای پایه برتر در آزمایش خصوصی فاش نشده شرکت میکنند و امتیازات خود را به طور انتخابی منتشر میکنند.
حتی ImageNet، معیاری که همه چیز را شروع کرد، اکنون با مشکلات اعتباری روبرو است. یک مطالعه در سال 2023 توسط محققان دانشگاه واشنگتن و گوگل ریسرچ نشان داد که الگوریتمهای برنده ImageNet هنگام اعمال بر روی شش مجموعه داده دنیای واقعی “پیشرفت کمی تا بدون پیشرفت” نشان دادند، که نشان میدهد اعتبار خارجی آزمایش به حد خود رسیده است.
کوچکتر شدن
برای حل مشکل اعتبار، برخی از محققان پیشنهاد میکنند که معیارها را دوباره به وظایف خاص متصل کنند. همانطور که رویل میگوید، توسعهدهندگان هوش مصنوعی “مجبورند به این معیارهای سطح بالا متوسل شوند که برای مصرفکنندگان پاییندستی تقریباً بیمعنا هستند، زیرا توسعهدهندگان معیار دیگر نمیتوانند وظایف پاییندستی را پیشبینی کنند.”
رویل در نوامبر 2024 BetterBench را راهاندازی کرد، یک پروژه رتبهبندی عمومی که معیارها را بر اساس معیارهای مختلف، از جمله وضوح اسناد کد و از همه مهمتر، اعتبار معیار در اندازهگیری قابلیت بیان شده، ارزیابی میکند. BetterBench طراحان را به چالش میکشد تا به وضوح تعریف کنند که آزمایش معیار آنها چیست و چگونه با وظایفی که معیار را تشکیل میدهند، مرتبط است.
رویل میگوید: “شما باید یک تجزیه و تحلیل ساختاری از قابلیتها داشته باشید. مهارتهای واقعی که به آنها اهمیت میدهید چیست و چگونه آنها را به چیزی تبدیل میکنید که بتوانیم آن را اندازهگیری کنیم؟”
نتایج نشاندهنده است. محیط یادگیری آرکید (ALE)، که در سال 2013 برای آزمایش توانایی مدلها در یادگیری نحوه بازی Atari 2600 راهاندازی شد، به عنوان یکی از معیارهای با بالاترین امتیاز ظاهر میشود. در مقابل، معیار درک زبان چندوظیفهای گسترده (MMLU)، یک آزمون پرکاربرد برای مهارتهای عمومی زبان، به دلیل ارتباط ضعیف بین سوالات و مهارت اساسی، یکی از کمترین امتیازها را دریافت میکند.
در حالی که BetterBench هنوز تأثیر قابل توجهی بر شهرت معیارهای خاص نگذاشته است، اما با موفقیت اعتبار را در خط مقدم بحثها در مورد چگونگی بهبود معیارهای هوش مصنوعی قرار داده است. رویل به یک گروه تحقیقاتی جدید به میزبانی Hugging Face، دانشگاه ادینبورگ و EleutherAI پیوسته است، جایی که او ایدههای خود را در مورد اعتبار و ارزیابی مدل هوش مصنوعی بیشتر توسعه خواهد داد.
ایرن سلیمان، رئیس سیاست جهانی Hugging Face، میگوید این گروه بر ساخت معیارهای معتبری تمرکز خواهد کرد که فراتر از اندازهگیری قابلیتهای سرراست هستند. سلیمان میگوید: “فقط عطش زیادی برای یک معیار خوب خارج از قفسه وجود دارد که از قبل کار میکند. بسیاری از ارزیابیها سعی میکنند کارهای زیادی انجام دهند.”
به نظر میرسد که صنعت گستردهتر در حال همگرا شدن بر روی این دیدگاه است. محققان گوگل، مایکروسافت، Anthropic و دیگران در مقالهای که در ماه مارس منتشر شد، چارچوب جدیدی را برای بهبود ارزیابیها با محوریت اعتبار ترسیم کردند.
محققان استدلال میکنند: “علم ارزیابی هوش مصنوعی باید از ادعاهای درشتدانهشده ‘هوش عمومی’ به سمت معیارهای مرتبط با وظایف خاص و دنیای واقعی پیشرفت کند.”
اندازهگیری چیزهای “اسکوییشی”
برای تسهیل این تغییر، برخی از محققان به ابزارهای علوم اجتماعی روی آوردهاند. یک مقاله موضعی در ماه فوریه استدلال کرد که “ارزیابی سیستمهای GenAI یک چالش اندازهگیری علوم اجتماعی است” و به طور خاص بررسی میکند که چگونه میتوان سیستمهای اعتبار علوم اجتماعی را در معیارسازی هوش مصنوعی اعمال کرد.
نویسندگان، که عمدتاً از شاخه تحقیقاتی مایکروسافت هستند، اما شامل دانشگاهیانی از استنفورد و دانشگاه میشیگان نیز میشوند، به استانداردهایی اشاره میکنند که دانشمندان علوم اجتماعی برای اندازهگیری مفاهیم مورد اختلاف مانند ایدئولوژی، دموکراسی و تعصب رسانهای استفاده میکنند. با اعمال این رویه ها بر معیارهای هوش مصنوعی، می توان راهی برای اندازه گیری مفاهیمی مانند “استدلال” و “مهارت ریاضی” بدون توسل به تعمیم های مبهم ارائه کرد.
ادبیات علوم اجتماعی بر اهمیت تعریف دقیق مفهوم مورد اندازه گیری تاکید می کند. به عنوان مثال، آزمایشی که برای سنجش سطح دموکراسی در یک جامعه طراحی شده است، ابتدا باید تعریف روشنی از “جامعه دموکراتیک” ایجاد کند و سپس سوالات مرتبط با آن تعریف را تدوین کند.
برای اعمال این رویه ها بر معیاری مانند SWE-Bench، طراحان باید رویکرد سنتی یادگیری ماشینی را در جمع آوری مسائل برنامه نویسی از GitHub و ایجاد طرحی برای اعتبارسنجی پاسخ ها کنار بگذارند. در عوض، آنها ابتدا تعریف می کنند که معیار قصد دارد چه چیزی را اندازه گیری کند (به عنوان مثال، “توانایی حل مسائل علامت گذاری شده در نرم افزار”)، آن را به مهارت های فرعی تقسیم می کنند (به عنوان مثال، انواع مختلف مسائل یا ساختارهای برنامه) و سپس سوالاتی را ایجاد می کنند که به طور دقیق آن مهارت های فرعی را پوشش دهند.
برای محققانی مانند جیکوبز، این تغییر عمیق از نحوه رویکرد معمول محققان هوش مصنوعی به معیارسازی، دقیقاً نکته اصلی است. او میگوید: “بین آنچه در صنعت فناوری اتفاق میافتد و این ابزارها از علوم اجتماعی ناهماهنگی وجود دارد. ما دههها و دههها در مورد چگونگی اندازهگیری این چیزهای اسکوییشی در مورد انسانها فکر کردهایم.”
علیرغم تأثیر فزاینده این ایدهها در جامعه تحقیقاتی، تأثیر آنها بر نحوه استفاده شرکتهای هوش مصنوعی از معیارها کند بوده است.
نسخههای اخیر مدل از OpenAI، Anthropic، Google و Meta همچنان به شدت به معیارهای دانش چند گزینهای مانند MMLU تکیه دارند، همان رویکردی که محققان اعتبار در تلاش برای فراتر رفتن از آن هستند. نسخههای مدل، بیشتر بر نشان دادن افزایش در هوش عمومی تمرکز دارند و از معیارهای گسترده برای حمایت از این ادعاها استفاده میشود.
برخی از ناظران این را رضایتبخش میدانند. اتان مولیک، استاد وارتون، پیشنهاد میکند که معیارها، علیرغم اینکه “معیارهای بدی از چیزها هستند، اما آنچه داریم نیز هستند.” او میافزاید: “در عین حال، مدلها در حال بهتر شدن هستند. بسیاری از گناهان با پیشرفت سریع بخشوده میشوند.”
در حال حاضر، به نظر میرسد تمرکز دیرینه صنعت بر هوش مصنوعی عمومی بر رویکرد متمرکزتر و مبتنی بر اعتبار سایه افکنده است. تا زمانی که مدلهای هوش مصنوعی به پیشرفت در هوش عمومی ادامه دهند، کاربردهای خاص کمتر قانعکننده به نظر میرسند، حتی اگر متخصصان از ابزارهایی استفاده کنند که دیگر به طور کامل به آنها اعتماد ندارند.
سلیمان از Hugging Face میگوید: “این همان طنابی است که ما روی آن راه میرویم. دور انداختن سیستم خیلی آسان است، اما ارزیابیها واقعاً در درک مدلهای ما مفید هستند، حتی با این محدودیتها.”