نگاهی دقیقتر به جنجال
اخیراً، یکی از کارمندان OpenAI اتهامی را علیه xAI، شرکت هوش مصنوعی ایلان ماسک، مطرح کرد. ادعا چه بود؟ اینکه xAI نتایج معیار گمراهکنندهای را برای آخرین مدل هوش مصنوعی خود، Grok 3، ارائه کرده است. این امر جرقهای برای یک بحث شد و ایگور بابوشکین، یکی از بنیانگذاران xAI، قاطعانه از موضع شرکت دفاع کرد.
واقعیت ماجرا، همانطور که اغلب اتفاق میافتد، در یک زمینه میانه و ظریفتر نهفته است.
در یک پست وبلاگ، xAI نموداری را به نمایش گذاشت که عملکرد Grok 3 را در AIME 2025 نشان میداد. این مجموعه ای از مسائل ریاضی چالش برانگیز است که از یک آزمون ریاضی دعوتی اخیر گرفته شده است. در حالی که برخی از کارشناسان در مورد اعتبار AIME به عنوان یک معیار قطعی هوش مصنوعی تردید دارند، این آزمون، همراه با نسخههای قدیمیتر آن، همچنان ابزاری رایج برای ارزیابی توانایی ریاضی یک مدل است.
رمزگشایی نمودار xAI
نموداری که توسط xAI ارائه شد، دو نسخه از Grok 3 را نشان میداد - Grok 3 Reasoning Beta و Grok 3 mini Reasoning - که ظاهراً از مدل برتر موجود OpenAI، یعنی o3-mini-high، در AIME 2025 پیشی گرفته بودند. با این حال، کارمندان OpenAI به سرعت در رسانههای اجتماعی واکنش نشان دادند و به یک حذف آشکار اشاره کردند: نمودار xAI شامل امتیاز AIME 2025 مدل o3-mini-high در “cons@64” نبود.
“cons@64” دقیقاً چیست؟ این مخفف “consensus@64” است، روشی که اساساً به یک مدل 64 بار تلاش برای حل هر مسئله در یک معیار میدهد. سپس پاسخهایی که بیشتر تولید میشوند به عنوان پاسخهای نهایی انتخاب میشوند. همانطور که ممکن است انتظار رود، cons@64 اغلب به طور قابل توجهی امتیازات معیار یک مدل را افزایش میدهد. حذف آن از یک نمودار مقایسهای میتواند این توهم را ایجاد کند که یک مدل از مدل دیگری پیشی میگیرد، در حالی که در واقع ممکن است اینطور نباشد.
ادعای “هوشمندترین هوش مصنوعی جهان”
هنگام در نظر گرفتن امتیازات AIME 2025 در “@1” - که نشان دهنده اولین امتیازی است که مدلها در معیار کسب کردند - هر دو Grok 3 Reasoning Beta و Grok 3 mini Reasoning از امتیاز o3-mini-high کمتر هستند. علاوه بر این، Grok 3 Reasoning Beta تنها اندکی از مدل o1 شرکت OpenAI که روی محاسبات “متوسط” تنظیم شده است، عقبتر است. با وجود این نتایج، xAI فعالانه Grok 3 را به عنوان “هوشمندترین هوش مصنوعی جهان” تبلیغ میکند.
بابوشکین، با مراجعه به رسانههای اجتماعی، پاسخ داد که OpenAI در گذشته نمودارهای معیار گمراهکننده مشابهی را منتشر کرده است. با این حال، آن نمودارها برای مقایسه عملکرد مدلهای خود OpenAI استفاده میشدند. یک ناظر بیطرفتر در این بحث، نمودار “دقیقتری” ایجاد کرد که عملکرد تقریباً هر مدل را در cons@64 نشان میداد.
معیار گمشده: هزینه محاسباتی
ناتان لمبرت، محقق هوش مصنوعی، به نکتهای مهم اشاره کرد: مهمترین معیار همچنان در هالهای از ابهام باقی مانده است. این هزینه محاسباتی (و مالی) است که هر مدل برای دستیابی به بهترین امتیاز خود متحمل میشود. این امر یک مسئله اساسی را در مورد اکثر معیارهای هوش مصنوعی برجسته میکند - آنها اطلاعات بسیار کمی در مورد محدودیتهای یک مدل یا حتی نقاط قوت آن نشان میدهند.
بحث در مورد معیارهای Grok 3 یک مسئله گستردهتر را در جامعه هوش مصنوعی برجسته میکند: نیاز به شفافیت و استانداردسازی بیشتر در نحوه ارزیابی و مقایسه مدلهای هوش مصنوعی.
کاوش عمیقتر در معیارسنجی هوش مصنوعی
جنجال پیرامون ارائه xAI از عملکرد Grok 3 چندین سوال مهم را در مورد ماهیت خود معیارسنجی هوش مصنوعی ایجاد میکند. چه چیزی یک معیار خوب را تشکیل میدهد؟ نتایج چگونه باید ارائه شوند تا از تفسیرهای نادرست جلوگیری شود؟ و محدودیتهای اتکای صرف به امتیازات معیار برای ارزیابی قابلیتهای مدلهای هوش مصنوعی چیست؟
هدف از معیارها:
معیارها، در تئوری، به عنوان یک روش استاندارد برای اندازهگیری و مقایسه عملکرد مدلهای مختلف هوش مصنوعی در وظایف خاص عمل میکنند. آنها یک معیار مشترک ارائه میدهند که به محققان و توسعهدهندگان اجازه میدهد پیشرفت را ردیابی کنند، نقاط قوت و ضعف را شناسایی کنند و در نهایت نوآوری را هدایت کنند. با این حال، اثربخشی یک معیار به چندین عامل بستگی دارد:
- ارتباط: آیا معیار به طور دقیق وظایف و چالشهای دنیای واقعی را منعکس میکند؟
- جامعیت: آیا معیار طیف وسیعی از قابلیتهای مربوط به استفاده مورد نظر مدل هوش مصنوعی را پوشش میدهد؟
- عینیت: آیا معیار به گونهای طراحی و اجرا میشود که سوگیری را به حداقل برساند و مقایسه منصفانه را تضمین کند؟
- تکرارپذیری: آیا نتایج معیار میتواند به طور مداوم توسط محققان مستقل تکرار شود؟
چالشهای معیارسنجی هوش مصنوعی:
با وجود هدف مورد نظرشان، معیارهای هوش مصنوعی اغلب با چالشهایی روبرو هستند:
- بیشبرازش (Overfitting): مدلها میتوانند به طور خاص برای برتری در معیارهای خاص آموزش داده شوند، بدون اینکه لزوماً هوش واقعی یا قابلیتهای تعمیمپذیر به دست آورند. این پدیده، که به عنوان “بیشبرازش” شناخته میشود، میتواند منجر به امتیازات متورمی شود که عملکرد دنیای واقعی را منعکس نمیکنند.
- فقدان استانداردسازی: تکثیر معیارهای مختلف، که هر کدام روش و سیستم امتیازدهی خاص خود را دارند، مقایسه نتایج در مدلها و آزمایشگاههای تحقیقاتی مختلف را دشوار میکند.
- بازی با سیستم: همانطور که جنجال xAI نشان میدهد، این وسوسه برای شرکتها وجود دارد که نتایج معیار را به گونهای انتخابی ارائه دهند که به نفع مدلهای خودشان باشد، که به طور بالقوه عموم را گمراه میکند و مانع ارزیابی عینی میشود.
- محدوده محدود: معیارها اغلب بر وظایف محدود و تعریفشده تمرکز میکنند و نمیتوانند پیچیدگی و ظرافت کامل هوش انسانی را درک کنند. آنها ممکن است جنبههایی مانند خلاقیت، استدلال عقل سلیم یا سازگاری با موقعیتهای جدید را به اندازه کافی ارزیابی نکنند.
نیاز به شفافیت و ارزیابی جامع
حادثه Grok 3 بر نیاز حیاتی به شفافیت بیشتر و رویکردی جامعتر برای ارزیابی مدلهای هوش مصنوعی تأکید میکند. اتکای صرف به یک امتیاز معیار واحد، به ویژه امتیازی که بدون زمینه کامل ارائه میشود، میتواند بسیار گمراهکننده باشد.
فراتر رفتن از معیارها:
در حالی که معیارها میتوانند ابزار مفیدی باشند، نباید تنها تعیینکننده قابلیتهای یک مدل هوش مصنوعی باشند. یک ارزیابی جامعتر باید موارد زیر را در نظر بگیرد:
- عملکرد در دنیای واقعی: مدل در کاربردها و سناریوهای عملی چگونه عمل میکند؟
- تجزیه و تحلیل کیفی: ارزیابی تخصصی خروجیهای مدل، ارزیابی عواملی مانند انسجام، خلاقیت و توانایی استدلال.
- ملاحظات اخلاقی: آیا مدل سوگیریهایی نشان میدهد یا محتوای مضری تولید میکند؟
- توضیحپذیری: آیا فرآیند تصمیمگیری مدل قابل درک و تفسیر است؟
- استحکام: مدل چقدر خوب ورودیهای پر سر و صدا یا غیرمنتظره را مدیریت میکند؟
ترویج شفافیت:
آزمایشگاههای هوش مصنوعی باید برای شفافیت بیشتر در شیوههای معیارسنجی خود تلاش کنند. این شامل:
- تعریف واضح روششناسی: ارائه اطلاعات دقیق در مورد تنظیمات معیار، از جمله مجموعه داده خاص مورد استفاده، معیارهای ارزیابی و هرگونه مراحل پیشپردازش.
- گزارش نتایج کامل: ارائه تمام امتیازات مربوطه، از جمله امتیازاتی که با استفاده از پیکربندیها یا روشهای مختلف (مانند cons@64) به دست آمدهاند.
- افشای هزینه محاسباتی: آشکار کردن منابع محاسباتی مورد نیاز برای دستیابی به نتایج گزارش شده.
- منبع باز کردن معیارها: در دسترس قرار دادن مجموعه دادههای معیار و ابزارهای ارزیابی برای تسهیل تأیید و مقایسه مستقل.
پیگیری هوش مصنوعی یک زمینه پیچیده و به سرعت در حال تحول است. معیارها، در حالی که ناقص هستند، نقشی در اندازهگیری پیشرفت دارند. با این حال، شناخت محدودیتهای آنها و تلاش برای رویکردی ظریفتر و شفافتر برای ارزیابی مدلهای هوش مصنوعی بسیار مهم است. هدف نهایی باید توسعه سیستمهای هوش مصنوعی باشد که نه تنها قدرتمند، بلکه قابل اعتماد، اخلاقی و برای جامعه مفید باشند. تمرکز باید از تعقیب صرف امتیازات معیار بالاتر به ساخت هوش مصنوعی تغییر کند که واقعاً جهان را به شیوهای معنادار درک میکند و با آن تعامل دارد.