DeepSeek-R1 در بسته 32B؟ نگاهی به QwQ علی‌بابا

یادگیری تقویتی تا چه حد، با کمک مقداری تأیید اضافی، می‌تواند قابلیت‌های مدل‌های زبانی بزرگ (LLMs) را ارتقا دهد؟ تیم Qwen علی‌بابا با آخرین ساخته خود، QwQ، در تلاش برای یافتن پاسخ این سوال است.

QwQ، یک مدل “استدلالی”، دارای 32 میلیارد پارامتر نسبتاً فشرده است. با این حال، علی‌بابا ادعا می‌کند که در معیارهای خاص مربوط به ریاضیات، کدنویسی و فراخوانی تابع، از DeepSeek R1، با 671 میلیارد پارامتر عظیم خود، پیشی می‌گیرد.

تیم Qwen، مشابه رویکردی که با R1 اتخاذ شد، از یادگیری تقویتی برای اصلاح استدلال زنجیره تفکر QwQ استفاده کرد. این روش، توانایی‌های تحلیل و تجزیه مسئله را افزایش می‌دهد. یادگیری تقویتی به طور سنتی استدلال گام به گام را با پاداش دادن به مدل‌ها برای پاسخ‌های صحیح تقویت می‌کند، بنابراین پاسخ‌های دقیق‌تری را تقویت می‌کند. با این حال، QwQ با ترکیب یک تأیید کننده دقت و یک سرور اجرای کد، یک قدم فراتر می‌رود. این تضمین می‌کند که پاداش‌ها منحصراً برای راه‌حل‌های ریاضی دقیق و کد کاربردی اعطا می‌شوند.

تیم Qwen ادعا می‌کند که این رویکرد منجر به مدلی می‌شود که از اندازه خود فراتر رفته و به عملکردی قابل مقایسه و حتی گاهی فراتر از مدل‌های بسیار بزرگتر دست می‌یابد.

با این حال، معیارهای هوش مصنوعی می‌توانند فریبنده باشند. بنابراین، بیایید بررسی کنیم که این ادعاها چگونه به سناریوهای دنیای واقعی ترجمه می‌شوند و سپس شما را راهنمایی می‌کنیم که چگونه QwQ را به طور مستقل راه‌اندازی و اجرا کنید.

ارزیابی عملکرد

ما QwQ را در معرض مجموعه‌ای از پرامپت‌های آزمایشی قرار دادیم که شامل دانش عمومی، استدلال فضایی، حل مسئله، ریاضیات و سایر پرسش‌هایی بود که حتی پیشرفته‌ترین LLM‌ها را نیز به چالش می‌کشند.

با توجه به نیازهای حافظه قابل توجه مدل کامل، ما آزمایش‌های خود را در دو پیکربندی انجام دادیم تا کاربران با ظرفیت‌های RAM متفاوت را در نظر بگیریم. در ابتدا، ما مدل کامل را با استفاده از نسخه نمایشی QwQ در Hugging Face ارزیابی کردیم. متعاقباً، ما یک نسخه کوانتیزه شده 4 بیتی را روی یک GPU 24 گیگابایتی (Nvidia 3090 یا AMD Radeon RX 7900XTX) آزمایش کردیم تا تأثیر کوانتیزاسیون بر دقت را بسنجیم.

برای اکثر سوالات دانش عمومی، QwQ عملکردی مشابه R1 با 671 میلیارد پارامتر DeepSeek و سایر مدل‌های استدلالی مانند o3-mini OpenAI نشان داد و قبل از ارائه پاسخ، برای فرموله کردن افکار خود، به طور خلاصه مکث کرد.

نقاط قوت این مدل، شاید جای تعجب نباشد، زمانی آشکار می‌شود که با چالش‌های منطقی، کدنویسی یا ریاضی پیچیده‌تر مقابله کند. بیایید قبل از پرداختن به برخی از محدودیت‌های آن، به این حوزه‌ها بپردازیم.

##مهارت استدلال فضایی

ما با یک آزمون استدلال فضایی نسبتاً جدید که توسط Homebrew Research به عنوان بخشی از پروژه AlphaMaze آنها طراحی شده است، شروع کردیم.

این آزمون یک هزارتو را در قالب متن به مدل ارائه می‌دهد، همانطور که در زیر نشان داده شده است. وظیفه مدل این است که از مبدأ “O” به هدف “T” حرکت کند.

توانایی‌های کدنویسی

در مرحله بعد، QwQ را با یک چالش کدنویسی در سطح متوسط ​​آزمایش کردیم. از مدل خواسته شد تا تابعی به زبان Python بنویسد که لیستی از اعداد صحیح را به عنوان ورودی دریافت کرده و مجموع تمام اعداد زوج لیست را برگرداند.