یادگیری تقویتی تا چه حد، با کمک مقداری تأیید اضافی، میتواند قابلیتهای مدلهای زبانی بزرگ (LLMs) را ارتقا دهد؟ تیم Qwen علیبابا با آخرین ساخته خود، QwQ، در تلاش برای یافتن پاسخ این سوال است.
QwQ، یک مدل “استدلالی”، دارای 32 میلیارد پارامتر نسبتاً فشرده است. با این حال، علیبابا ادعا میکند که در معیارهای خاص مربوط به ریاضیات، کدنویسی و فراخوانی تابع، از DeepSeek R1، با 671 میلیارد پارامتر عظیم خود، پیشی میگیرد.
تیم Qwen، مشابه رویکردی که با R1 اتخاذ شد، از یادگیری تقویتی برای اصلاح استدلال زنجیره تفکر QwQ استفاده کرد. این روش، تواناییهای تحلیل و تجزیه مسئله را افزایش میدهد. یادگیری تقویتی به طور سنتی استدلال گام به گام را با پاداش دادن به مدلها برای پاسخهای صحیح تقویت میکند، بنابراین پاسخهای دقیقتری را تقویت میکند. با این حال، QwQ با ترکیب یک تأیید کننده دقت و یک سرور اجرای کد، یک قدم فراتر میرود. این تضمین میکند که پاداشها منحصراً برای راهحلهای ریاضی دقیق و کد کاربردی اعطا میشوند.
تیم Qwen ادعا میکند که این رویکرد منجر به مدلی میشود که از اندازه خود فراتر رفته و به عملکردی قابل مقایسه و حتی گاهی فراتر از مدلهای بسیار بزرگتر دست مییابد.
با این حال، معیارهای هوش مصنوعی میتوانند فریبنده باشند. بنابراین، بیایید بررسی کنیم که این ادعاها چگونه به سناریوهای دنیای واقعی ترجمه میشوند و سپس شما را راهنمایی میکنیم که چگونه QwQ را به طور مستقل راهاندازی و اجرا کنید.
ارزیابی عملکرد
ما QwQ را در معرض مجموعهای از پرامپتهای آزمایشی قرار دادیم که شامل دانش عمومی، استدلال فضایی، حل مسئله، ریاضیات و سایر پرسشهایی بود که حتی پیشرفتهترین LLMها را نیز به چالش میکشند.
با توجه به نیازهای حافظه قابل توجه مدل کامل، ما آزمایشهای خود را در دو پیکربندی انجام دادیم تا کاربران با ظرفیتهای RAM متفاوت را در نظر بگیریم. در ابتدا، ما مدل کامل را با استفاده از نسخه نمایشی QwQ در Hugging Face ارزیابی کردیم. متعاقباً، ما یک نسخه کوانتیزه شده 4 بیتی را روی یک GPU 24 گیگابایتی (Nvidia 3090 یا AMD Radeon RX 7900XTX) آزمایش کردیم تا تأثیر کوانتیزاسیون بر دقت را بسنجیم.
برای اکثر سوالات دانش عمومی، QwQ عملکردی مشابه R1 با 671 میلیارد پارامتر DeepSeek و سایر مدلهای استدلالی مانند o3-mini OpenAI نشان داد و قبل از ارائه پاسخ، برای فرموله کردن افکار خود، به طور خلاصه مکث کرد.
نقاط قوت این مدل، شاید جای تعجب نباشد، زمانی آشکار میشود که با چالشهای منطقی، کدنویسی یا ریاضی پیچیدهتر مقابله کند. بیایید قبل از پرداختن به برخی از محدودیتهای آن، به این حوزهها بپردازیم.
##مهارت استدلال فضایی
ما با یک آزمون استدلال فضایی نسبتاً جدید که توسط Homebrew Research به عنوان بخشی از پروژه AlphaMaze آنها طراحی شده است، شروع کردیم.
این آزمون یک هزارتو را در قالب متن به مدل ارائه میدهد، همانطور که در زیر نشان داده شده است. وظیفه مدل این است که از مبدأ “O” به هدف “T” حرکت کند.
تواناییهای کدنویسی
در مرحله بعد، QwQ را با یک چالش کدنویسی در سطح متوسط آزمایش کردیم. از مدل خواسته شد تا تابعی به زبان Python بنویسد که لیستی از اعداد صحیح را به عنوان ورودی دریافت کرده و مجموع تمام اعداد زوج لیست را برگرداند.