بازاندیشی معیارهای هوش مصنوعی: جستجوی سنجش معنادار

جامعه هوش مصنوعی اغلب برای دستیابی به هوش مصنوعی برتر، به نمره‌های معیار متکی است، اما آیا این نمره‌ها واقعاً نشان‌دهنده توانایی‌های دنیای واقعی هستند؟ جامعه هوش مصنوعی با این پرسش دست و پنجه نرم می‌کند، زیرا معیارهای سنتی با بررسی دقیق‌تری روبرو شده‌اند.

SWE-Bench، که در نوامبر 2024 معرفی شد، به سرعت به عنوان ابزاری محبوب برای ارزیابی مهارت‌های برنامه‌نویسی یک مدل هوش مصنوعی مورد توجه قرار گرفت. این ابزار از بیش از 2000 چالش برنامه‌نویسی معتبر که از مخازن عمومی GitHub در دوازده پروژه مبتنی بر پایتون استخراج شده‌اند، استفاده می‌کند. کسب یک نمره قوی در SWE-Bench به یک نشان ارزشمند تبدیل شده است و در نسخه‌های اصلی مدل از توسعه‌دهندگان پیشرو هوش مصنوعی مانند OpenAI، Anthropic و Google به طور برجسته نمایش داده می‌شود. فراتر از این غول‌ها، شرکت‌های هوش مصنوعی متخصص در تنظیم دقیق، به طور مداوم برای برتری در جدول رهبری SWE-Bench رقابت می‌کنند.

با این حال، هیجان پیرامون این معیارها ممکن است گمراه‌کننده باشد. جان یانگ، محققی در دانشگاه پرینستون که در توسعه SWE-Bench مشارکت دارد، اشاره می‌کند که رقابت شدید برای کسب رتبه برتر منجر به “بازی کردن” سیستم شده است. این امر نگرانی‌هایی را در مورد اینکه آیا این معیارها به طور دقیق نشان‌دهنده دستاوردهای واقعی هوش مصنوعی هستند، ایجاد می‌کند.

مسئله لزوماً تقلب آشکار نیست، بلکه توسعه استراتژی‌هایی است که به طور خاص برای بهره‌برداری از محدودیت‌های معیار طراحی شده‌اند. به عنوان مثال، SWE-Bench اولیه فقط بر روی کد پایتون متمرکز بود و توسعه‌دهندگان را تشویق می‌کرد تا مدل‌های خود را منحصراً بر روی پایتون آموزش دهند. یانگ مشاهده کرد که این مدل‌های با امتیاز بالا اغلب هنگام مواجهه با زبان‌های برنامه‌نویسی مختلف با مشکل مواجه می‌شوند و درک سطحی را نشان می‌دهند که او آن را “مطلا” توصیف می‌کند.

یانگ توضیح می‌دهد: “در نگاه اول زیبا و براق به نظر می‌رسد، اما وقتی سعی می‌کنید آن را روی یک زبان متفاوت اجرا کنید، همه چیز از هم می‌پاشد. در آن زمان، شما یک عامل مهندسی نرم‌افزار طراحی نمی‌کنید. شما در حال طراحی یک عامل SWE-Bench هستید که بسیار کمتر جالب است.”

این “مسئله SWE-Bench” منعکس‌کننده یک چالش گسترده‌تر در ارزیابی هوش مصنوعی است. معیارها، که زمانی به عنوان نشانگرهای قابل اعتماد پیشرفت در نظر گرفته می‌شدند، به طور فزاینده‌ای از توانایی‌های دنیای واقعی جدا شده‌اند. نگرانی‌ها در مورد شفافیت این مشکل را تشدید کرده و اعتماد به این معیارها را بیشتر از بین برده است. علیرغم این مسائل، معیارها همچنان نقش محوری در توسعه مدل ایفا می‌کنند، حتی اگر بسیاری از کارشناسان ارزش ذاتی آنها را زیر سوال ببرند. آندری کارپاتی، یکی از بنیانگذاران OpenAI، حتی وضعیت فعلی را یک “بحران ارزیابی” نامیده است و از فقدان روش‌های قابل اعتماد برای اندازه‌گیری توانایی‌های هوش مصنوعی و عدم وجود یک مسیر روشن به جلو ابراز تاسف کرده است.

ونسا پارلی، مدیر تحقیقات در موسسه هوش مصنوعی انسان‌محور دانشگاه استنفورد، می‌پرسد: “از نظر تاریخی، معیارها روشی بودند که ما سیستم‌های هوش مصنوعی را ارزیابی می‌کردیم. آیا این همان روشی است که می‌خواهیم سیستم‌ها را در آینده ارزیابی کنیم؟ و اگر اینطور نیست، راه حل چیست؟”

یک گروه رو به رشد از دانشگاهیان و محققان هوش مصنوعی از یک رویکرد متمرکزتر حمایت می‌کنند و از علوم اجتماعی الهام می‌گیرند. آنها پیشنهاد می‌کنند که “اعتبار” را در اولویت قرار دهند، مفهومی که در علوم اجتماعی کمی مرکزی است و ارزیابی می‌کند که یک ابزار اندازه‌گیری تا چه حد به طور دقیق ساختار مورد نظر را به تصویر می‌کشد. این تأکید بر اعتبار می‌تواند معیارهایی را به چالش بکشد که مفاهیم مبهمی مانند “استدلال” یا “دانش علمی” را ارزیابی می‌کنند. در حالی که ممکن است از شور و شوق برای هوش مصنوعی عمومی (AGI) بکاهد، اما پایه محکم‌تری برای ارزیابی مدل‌های فردی فراهم می‌کند.

ابیگل جیکوبز، استاد دانشگاه میشیگان و یک صدای پیشرو در تلاش برای اعتبار، ادعا می‌کند: “جدی گرفتن اعتبار به معنای درخواست از افراد در دانشگاه، صنعت یا هر جای دیگری است که نشان دهند سیستم آنها همانطور که می‌گویند کار می‌کند. من فکر می‌کنم اگر آنها بخواهند از نشان دادن اینکه می‌توانند از ادعای خود پشتیبانی کنند، عقب‌نشینی کنند، این نشان‌دهنده ضعف در دنیای هوش مصنوعی است.”

محدودیت‌های آزمایش سنتی

اتکای صنعت هوش مصنوعی به معیارها ناشی از موفقیت‌های گذشته آنها، به ویژه در چالش‌هایی مانند ImageNet است.

ImageNet، که در سال 2010 راه‌اندازی شد، پایگاه داده‌ای از بیش از 3 میلیون تصویر را در 1000 کلاس مختلف در اختیار محققان قرار داد. این چالش روش‌ناشناس بود و به هر الگوریتم موفقی اجازه می‌داد بدون توجه به رویکرد اساسی خود، اعتبار کسب کند. پیشرفت AlexNet در سال 2012، که از یک شکل غیر متعارف آموزش GPU استفاده می‌کرد، به یک سنگ بنای هوش مصنوعی مدرن تبدیل شد. در حالی که تعداد کمی می‌توانستند پیش‌بینی کنند که شبکه‌های عصبی پیچشی AlexNet قفل تشخیص تصویر را باز می‌کنند، نمره بالای آن هرگونه تردیدی را برطرف کرد. (شایان ذکر است، یکی از توسعه‌دهندگان AlexNet بعداً OpenAI را تأسیس کرد.)

اثربخشی ImageNet ناشی از همسویی نزدیک بین چالش و وظایف تشخیص تصویر دنیای واقعی بود. حتی با وجود بحث‌هایی در مورد روش‌ها، مدل با بالاترین امتیاز همیشه عملکرد بهتری در برنامه‌های کاربردی عملی نشان می‌داد.

با این حال، در سال‌های پس از آن، محققان هوش مصنوعی از همین رویکرد روش‌ناشناس برای وظایف به طور فزاینده کلی استفاده کرده‌اند. SWE-Bench، به عنوان مثال، اغلب به عنوان جایگزینی برای توانایی کدنویسی گسترده‌تر استفاده می‌شود، در حالی که سایر معیارهای سبک امتحان برای سنجش توانایی استدلال استفاده می‌شوند. این دامنه گسترده، تعریف دقیق آنچه را که یک معیار خاص اندازه‌گیری می‌کند، دشوار می‌کند و مانع از تفسیر مسئولانه یافته‌ها می‌شود.

جایی که همه چیز از هم می‌پاشد

آنکا رویل، دانشجوی دکترا در استنفورد، استدلال می‌کند که حرکت به سوی کلیت در ریشه مشکل ارزیابی قرار دارد. رویل می‌گوید: “ما از مدل‌های خاص‌منظوره به مدل‌های چندمنظوره حرکت کرده‌ایم. این دیگر در مورد یک کار واحد نیست، بلکه مجموعه‌ای از وظایف است، بنابراین ارزیابی دشوارتر می‌شود.”

رویل مانند جیکوبز معتقد است که “مسئله اصلی معیارها اعتبار است، حتی بیشتر از اجرای عملی”، و خاطرنشان می‌کند: “اینجاست که بسیاری از چیزها از هم می‌پاشند.” برای وظایف پیچیده‌ای مانند کدنویسی، تقریباً غیرممکن است که هر سناریوی قابل تصوری را در یک مجموعه مسئله در بر گیرد. در نتیجه، تشخیص اینکه آیا نمره بالاتر یک مدل منعکس‌کننده مهارت کدنویسی واقعی است یا صرفاً دستکاری هوشمندانه مجموعه مسئله، دشوار می‌شود. فشار شدید برای دستیابی به نمرات رکورد، بیشتر مشوق میانبرها می‌شود.

توسعه‌دهندگان امیدوارند که موفقیت در تعداد زیادی از معیارهای خاص به یک مدل به طور کلی توانا تبدیل شود. با این حال، ظهور هوش مصنوعی عاملی، جایی که یک سیستم واحد می‌تواند مجموعه‌ای پیچیده از مدل‌ها را در خود جای دهد، ارزیابی اینکه آیا پیشرفت در وظایف خاص تعمیم می‌یابد یا خیر، دشوار می‌کند. سایاش کاپور، دانشمند کامپیوتر در پرینستون و منتقد شیوه‌های سهل‌انگارانه در صنعت هوش مصنوعی، می‌گوید: “فقط اهرم‌های بیشتری وجود دارد که می‌توانید آنها را بچرخانید. وقتی صحبت از عامل‌ها به میان می‌آید، آنها تا حدودی از بهترین شیوه‌ها برای ارزیابی دست کشیده‌اند.”

کاپور در مقاله‌ای که در ماه ژوئیه گذشته منتشر شد، مسائل خاصی را در مورد نحوه برخورد مدل‌های هوش مصنوعی با معیار WebArena در سال 2024 برجسته کرد که توانایی یک عامل هوش مصنوعی را در پیمایش وب آزمایش می‌کند. این معیار شامل بیش از 800 کار انجام شده در وب‌سایت‌های شبیه‌سازی شده است که از Reddit، Wikipedia و دیگران تقلید می‌کنند. کاپور و تیمش کشف کردند که مدل برنده، STeP، از ساختار URLهای Reddit برای دسترسی مستقیم به صفحات نمایه کاربر، یک الزام مکرر در وظایف WebArena، بهره‌برداری می‌کند.

کاپور اگرچه این را تقلب آشکار نمی‌داند، اما آن را “تحریف جدی از نحوه کار عامل در صورت مشاهده وظایف در WebArena برای اولین بار” می‌داند. با وجود این، عامل وب OpenAI، Operator، از آن زمان سیاست مشابهی را اتخاذ کرده است.

کاپور و تیمی از محققان اخیراً با انتشار مقاله‌ای که مشکلات قابل توجهی را در Chatbot Arena، یک سیستم ارزیابی جمع‌سپاری محبوب، نشان می‌دهد، مشکلات معیارهای هوش مصنوعی را بیشتر نشان دادند. یافته‌های آنها نشان داد که جدول رهبری دستکاری می‌شود و برخی از مدل‌های پایه برتر در آزمایش خصوصی فاش نشده شرکت می‌کنند و امتیازات خود را به طور انتخابی منتشر می‌کنند.

حتی ImageNet، معیاری که همه چیز را شروع کرد، اکنون با مشکلات اعتباری روبرو است. یک مطالعه در سال 2023 توسط محققان دانشگاه واشنگتن و گوگل ریسرچ نشان داد که الگوریتم‌های برنده ImageNet هنگام اعمال بر روی شش مجموعه داده دنیای واقعی “پیشرفت کمی تا بدون پیشرفت” نشان دادند، که نشان می‌دهد اعتبار خارجی آزمایش به حد خود رسیده است.

کوچک‌تر شدن

برای حل مشکل اعتبار، برخی از محققان پیشنهاد می‌کنند که معیارها را دوباره به وظایف خاص متصل کنند. همانطور که رویل می‌گوید، توسعه‌دهندگان هوش مصنوعی “مجبورند به این معیارهای سطح بالا متوسل شوند که برای مصرف‌کنندگان پایین‌دستی تقریباً بی‌معنا هستند، زیرا توسعه‌دهندگان معیار دیگر نمی‌توانند وظایف پایین‌دستی را پیش‌بینی کنند.”

رویل در نوامبر 2024 BetterBench را راه‌اندازی کرد، یک پروژه رتبه‌بندی عمومی که معیارها را بر اساس معیارهای مختلف، از جمله وضوح اسناد کد و از همه مهمتر، اعتبار معیار در اندازه‌گیری قابلیت بیان شده، ارزیابی می‌کند. BetterBench طراحان را به چالش می‌کشد تا به وضوح تعریف کنند که آزمایش معیار آنها چیست و چگونه با وظایفی که معیار را تشکیل می‌دهند، مرتبط است.

رویل می‌گوید: “شما باید یک تجزیه و تحلیل ساختاری از قابلیت‌ها داشته باشید. مهارت‌های واقعی که به آنها اهمیت می‌دهید چیست و چگونه آنها را به چیزی تبدیل می‌کنید که بتوانیم آن را اندازه‌گیری کنیم؟”

نتایج نشان‌دهنده است. محیط یادگیری آرکید (ALE)، که در سال 2013 برای آزمایش توانایی مدل‌ها در یادگیری نحوه بازی Atari 2600 راه‌اندازی شد، به عنوان یکی از معیارهای با بالاترین امتیاز ظاهر می‌شود. در مقابل، معیار درک زبان چندوظیفه‌ای گسترده (MMLU)، یک آزمون پرکاربرد برای مهارت‌های عمومی زبان، به دلیل ارتباط ضعیف بین سوالات و مهارت اساسی، یکی از کمترین امتیازها را دریافت می‌کند.

در حالی که BetterBench هنوز تأثیر قابل توجهی بر شهرت معیارهای خاص نگذاشته است، اما با موفقیت اعتبار را در خط مقدم بحث‌ها در مورد چگونگی بهبود معیارهای هوش مصنوعی قرار داده است. رویل به یک گروه تحقیقاتی جدید به میزبانی Hugging Face، دانشگاه ادینبورگ و EleutherAI پیوسته است، جایی که او ایده‌های خود را در مورد اعتبار و ارزیابی مدل هوش مصنوعی بیشتر توسعه خواهد داد.

ایرن سلیمان، رئیس سیاست جهانی Hugging Face، می‌گوید این گروه بر ساخت معیارهای معتبری تمرکز خواهد کرد که فراتر از اندازه‌گیری قابلیت‌های سرراست هستند. سلیمان می‌گوید: “فقط عطش زیادی برای یک معیار خوب خارج از قفسه وجود دارد که از قبل کار می‌کند. بسیاری از ارزیابی‌ها سعی می‌کنند کارهای زیادی انجام دهند.”

به نظر می‌رسد که صنعت گسترده‌تر در حال همگرا شدن بر روی این دیدگاه است. محققان گوگل، مایکروسافت، Anthropic و دیگران در مقاله‌ای که در ماه مارس منتشر شد، چارچوب جدیدی را برای بهبود ارزیابی‌ها با محوریت اعتبار ترسیم کردند.

محققان استدلال می‌کنند: “علم ارزیابی هوش مصنوعی باید از ادعاهای درشت‌دانه‌شده ‘هوش عمومی’ به سمت معیارهای مرتبط با وظایف خاص و دنیای واقعی پیشرفت کند.”

اندازه‌گیری چیزهای “اسکوییشی”

برای تسهیل این تغییر، برخی از محققان به ابزارهای علوم اجتماعی روی آورده‌اند. یک مقاله موضعی در ماه فوریه استدلال کرد که “ارزیابی سیستم‌های GenAI یک چالش اندازه‌گیری علوم اجتماعی است” و به طور خاص بررسی می‌کند که چگونه می‌توان سیستم‌های اعتبار علوم اجتماعی را در معیارسازی هوش مصنوعی اعمال کرد.

نویسندگان، که عمدتاً از شاخه تحقیقاتی مایکروسافت هستند، اما شامل دانشگاهیانی از استنفورد و دانشگاه میشیگان نیز می‌شوند، به استانداردهایی اشاره می‌کنند که دانشمندان علوم اجتماعی برای اندازه‌گیری مفاهیم مورد اختلاف مانند ایدئولوژی، دموکراسی و تعصب رسانه‌ای استفاده می‌کنند. با اعمال این رویه ها بر معیارهای هوش مصنوعی، می توان راهی برای اندازه گیری مفاهیمی مانند “استدلال” و “مهارت ریاضی” بدون توسل به تعمیم های مبهم ارائه کرد.

ادبیات علوم اجتماعی بر اهمیت تعریف دقیق مفهوم مورد اندازه گیری تاکید می کند. به عنوان مثال، آزمایشی که برای سنجش سطح دموکراسی در یک جامعه طراحی شده است، ابتدا باید تعریف روشنی از “جامعه دموکراتیک” ایجاد کند و سپس سوالات مرتبط با آن تعریف را تدوین کند.

برای اعمال این رویه ها بر معیاری مانند SWE-Bench، طراحان باید رویکرد سنتی یادگیری ماشینی را در جمع آوری مسائل برنامه نویسی از GitHub و ایجاد طرحی برای اعتبارسنجی پاسخ ها کنار بگذارند. در عوض، آنها ابتدا تعریف می کنند که معیار قصد دارد چه چیزی را اندازه گیری کند (به عنوان مثال، “توانایی حل مسائل علامت گذاری شده در نرم افزار”)، آن را به مهارت های فرعی تقسیم می کنند (به عنوان مثال، انواع مختلف مسائل یا ساختارهای برنامه) و سپس سوالاتی را ایجاد می کنند که به طور دقیق آن مهارت های فرعی را پوشش دهند.

برای محققانی مانند جیکوبز، این تغییر عمیق از نحوه رویکرد معمول محققان هوش مصنوعی به معیارسازی، دقیقاً نکته اصلی است. او می‌گوید: “بین آنچه در صنعت فناوری اتفاق می‌افتد و این ابزارها از علوم اجتماعی ناهماهنگی وجود دارد. ما دهه‌ها و دهه‌ها در مورد چگونگی اندازه‌گیری این چیزهای اسکوییشی در مورد انسان‌ها فکر کرده‌ایم.”

علیرغم تأثیر فزاینده این ایده‌ها در جامعه تحقیقاتی، تأثیر آنها بر نحوه استفاده شرکت‌های هوش مصنوعی از معیارها کند بوده است.

نسخه‌های اخیر مدل از OpenAI، Anthropic، Google و Meta همچنان به شدت به معیارهای دانش چند گزینه‌ای مانند MMLU تکیه دارند، همان رویکردی که محققان اعتبار در تلاش برای فراتر رفتن از آن هستند. نسخه‌های مدل، بیشتر بر نشان دادن افزایش در هوش عمومی تمرکز دارند و از معیارهای گسترده برای حمایت از این ادعاها استفاده می‌شود.

برخی از ناظران این را رضایت‌بخش می‌دانند. اتان مولیک، استاد وارتون، پیشنهاد می‌کند که معیارها، علی‌رغم اینکه “معیارهای بدی از چیزها هستند، اما آنچه داریم نیز هستند.” او می‌افزاید: “در عین حال، مدل‌ها در حال بهتر شدن هستند. بسیاری از گناهان با پیشرفت سریع بخشوده می‌شوند.”

در حال حاضر، به نظر می‌رسد تمرکز دیرینه صنعت بر هوش مصنوعی عمومی بر رویکرد متمرکزتر و مبتنی بر اعتبار سایه افکنده است. تا زمانی که مدل‌های هوش مصنوعی به پیشرفت در هوش عمومی ادامه دهند، کاربردهای خاص کمتر قانع‌کننده به نظر می‌رسند، حتی اگر متخصصان از ابزارهایی استفاده کنند که دیگر به طور کامل به آنها اعتماد ندارند.

سلیمان از Hugging Face می‌گوید: “این همان طنابی است که ما روی آن راه می‌رویم. دور انداختن سیستم خیلی آسان است، اما ارزیابی‌ها واقعاً در درک مدل‌های ما مفید هستند، حتی با این محدودیت‌ها.”