به چالش کشیدن غولها: یک رقیب جمع و جور
QwQ، با وجود داشتن تنها ۳۲ میلیارد پارامتر در مقایسه با ۶۷۱ میلیارد پارامتر ادعا شده DeepSeek R1، به عنوان یک مدل «استدلالی» معرفی شده است. علیبابا ادعا میکند که این مدل نسبتاً کوچک میتواند R1 را در معیارهای خاص، به ویژه در زمینههایی مانند ریاضیات، کدنویسی و فراخوانی تابع، پشت سر بگذارد. این ادعای بلندپروازانه مستلزم نگاهی دقیقتر به عملکرد درونی و عملکرد دنیای واقعی QwQ است.
یادگیری تقویتی: کلید مهارت QwQ
مشابه DeepSeek R1، تیم Qwen از یادگیری تقویتی (RL) برای بهبود قابلیتهای استدلال زنجیرهای فکر QwQ استفاده کردند. این روش توانایی مدل را برای تجزیه و تحلیل و شکستن مسائل پیچیده به صورت گام به گام افزایش میدهد. رویکرد سنتی در RL شامل پاداش دادن به مدل برای پاسخهای صحیح است، بنابراین پاسخهای دقیق تقویت میشوند.
با این حال، تیم Qwen رویکردی ظریفتر با QwQ در پیش گرفت. آنها یک تأیید کننده دقت و یک سرور اجرای کد را ادغام کردند. این افزودنی حیاتی تضمین میکند که پاداشها فقط برای راهحلهای صحیح ریاضی و کد کاربردی اعطا میشوند. با اجرای این فرآیند تأیید دقیق، تیم قصد دارد مدلی را پرورش دهد که درجه بالاتری از دقت و قابلیت اطمینان را نشان دهد.
ادعاهای عملکرد: بررسی واقعیت
تلاشهای تیم Qwen، به ادعای آنها، مدلی را تولید کرده است که به طور قابل توجهی بالاتر از کلاس وزنی خود عمل میکند. آنها ادعا میکنند که QwQ به سطوح عملکردی در حد و در برخی موارد حتی فراتر از مدلهای بسیار بزرگتر دست مییابد.
با این حال، دنیای معیارهای هوش مصنوعی میتواند پیچیده باشد. بسیار مهم است که فراتر از ارقام گزارش شده برویم و بررسی کنیم که این ادعاها چگونه به سناریوهای عملی و واقعی تبدیل میشوند.
تست عملی: قرار دادن QwQ در معرض آزمایش
برای ارزیابی قابلیتهای QwQ، مجموعهای از اعلانهای آزمایشی طراحی شد که طیف وسیعی از حوزهها را در بر میگرفت. این موارد شامل دانش عمومی، استدلال فضایی، حل مسئله، ریاضیات و سایر چالشهایی بود که حتی برای پیشرفتهترین مدلهای زبان بزرگ (LLM) نیز مشکلساز هستند.
با توجه به نیازهای حافظه قابل توجه مدل کامل، آزمایش در دو پیکربندی اجرا شد. ابتدا، مدل کامل با استفاده از نسخه نمایشی QwQ در Hugging Face ارزیابی شد. این امر امکان ارزیابی پتانسیل کامل آن را فراهم کرد. دوم، یک نسخه کوانتیزه شده 4 بیتی روی یک GPU 24 گیگابایتی (به طور خاص، Nvidia 3090 یا AMD Radeon RX 7900XTX) آزمایش شد. این پیکربندی با هدف سنجش تأثیر کوانتیزاسیون بر دقت مدل، آن را برای کاربرانی با سختافزار کمقدرتتر در دسترستر میکند.
دانش عمومی: حفظ جایگاه خود
در پاسخ به اکثر سوالات دانش عمومی، QwQ عملکردی قابل مقایسه با R1 671 میلیارد پارامتری DeepSeek و سایر مدلهای استدلالی مانند o3-mini OpenAI نشان داد. این مدل معمولاً چند ثانیه طول میکشید تا افکار خود را قبل از ارائه پاسخ به پرس و جو فرموله کند. این رفتار مشخصه مدلهای استدلالی است که تفکر دقیق را بر پاسخهای فوری اولویت میدهند.
برتری در پیچیدگی: منطق، کدنویسی و ریاضیات
جایی که QwQ واقعاً شروع به متمایز کردن خود میکند، مقابله با چالشهای پیچیدهتر شامل منطق، کدنویسی یا ریاضیات است. بیایید به این حوزهها بپردازیم، نقاط قوت آن را برجسته کنیم و به برخی از زمینههایی که در آن کوتاهی میکند، بپردازیم.
استدلال فضایی: پیمایش در هزارتو
یک آزمون استدلال فضایی نسبتاً جدید، که توسط Homebrew Research به عنوان بخشی از پروژه AlphaMaze آنها توسعه یافته است، برای ارزیابی QwQ استفاده شد.
هر دو نمونه QwQ میزبانی شده محلی و مدل با اندازه کامل، به طور مداوم این پازلها را با موفقیت حل کردند. با این حال، هر اجرا چند دقیقه طول کشید تا کامل شود. این نشان میدهد که در حالی که QwQ میتواند استدلال فضایی را به طور موثر انجام دهد، لزوماً سریعترین در آن نیست.
در مقابل، R1 DeepSeek و تقطیر 32B آن رفتارهای متفاوتی از خود نشان دادند. هر دو مدل اولین هزارتو را با موفقیت حل کردند. با این حال، R1 با دومی مشکل داشت، در حالی که تقطیر 32B به میزان موفقیت 90٪ در هزارتوی دوم دست یافت. این تنوع کاملاً غیرمنتظره نیست، با توجه به اینکه R1 و تقطیر از مدلهای پایه متمایز استفاده میکنند.
در حالی که QwQ عملکرد برتری را در مقایسه با DeepSeek در این آزمایش خاص نشان داد، برخی رفتارهای غیرعادی با مدل 4 بیتی مشاهده شد. در ابتدا، تقریباً دو برابر بیشتر توکنهای “فکر” برای تکمیل تست نیاز داشت. این در ابتدا نشان دهنده ضررهای احتمالی به دلیل کوانتیزاسیون بود. با این حال، بررسیهای بیشتر نشان داد که مدل کوانتیزه شده، در حالت اولیه خود، عملکردی غیربهینه از خود نشان میدهد. تنظیم هایپرپارامترها و اجرای مجدد آزمایشها این مشکل را حل کرد و اهمیت پیکربندی مناسب را نشان داد.
کدنویسی تکشات: یک نقطه قوت بالقوه
QwQ توجه قابل توجهی را به دلیل پتانسیل خود در تولید کد “تک شات” - توانایی تولید کد قابل استفاده در اولین تلاش - به خود جلب کرده است. به نظر میرسد این حوزه خاص یک نقطه قوت قابل توجه برای این مدل باشد.
از این مدل خواسته شد تا چندین بازی نسبتاً ساده را در پایتون با استفاده از کتابخانه pygame بازسازی کند. بازیهای انتخاب شده Pong، Breakout، Asteroids و Flappy Bird بودند.
QwQ بازیهای Pong و Breakout را با سهولت نسبی انجام داد. پس از چند دقیقه پردازش، این مدل نسخههای کاری هر دو بازی را تولید کرد.
با این حال، هنگامی که وظیفه بازسازی Asteroids به QwQ داده شد، با مشکلاتی مواجه شد. اگرچه کد تولید شده اجرا شد، اما گرافیک و مکانیک بازی اغلب مخدوش و دارای اشکال بودند. در مقابل، R1، در اولین تلاش خود، با وفاداری تیرانداز آرکید کلاسیک را بازسازی کرد.
مهم است که دادههای آموزشی این مدلها را در نظر بگیرید. آنها در معرض حجم وسیعی از کد منبع باز در دسترس قرار گرفتهاند، که احتمالاً شامل بازتولید بازیهای کلاسیک است. این سوال را مطرح میکند که آیا مدلها صرفاً اطلاعات آموخته شده را به خاطر میآورند یا به طور مستقل مکانیک بازی را از ابتدا استخراج میکنند. این امر ماهیت اساسی این شبکههای عصبی عظیم را برجسته میکند، جایی که هوش ظاهری اغلب از تشخیص الگوی گسترده ناشی میشود.
حتی با وجود این محدودیتها، عملکرد QwQ در بازسازی بازیهای آرکید کلاسیک، به ویژه با توجه به تعداد پارامترهای آن، چشمگیر است. ممکن است در هر آزمایشی با R1 مطابقت نداشته باشد، اما سطح قابل توجهی از توانایی را نشان میدهد. عبارت “هیچ جایگزینی برای جابجایی وجود ندارد”، که اغلب در دنیای خودرو استفاده میشود، ممکن است در اینجا مرتبط باشد. این میتواند توضیح دهد که چرا علیبابا در حال توسعه نسخه “Max” QwQ است، اگرچه بعید است که به زودی روی سختافزار مصرف کننده قابل اجرا باشد.
در مقایسه با تقطیر Qwen 2.5 32B R1 با اندازه مشابه DeepSeek، تصمیم علیبابا برای ادغام یک سرور اجرای کد در خط لوله یادگیری تقویتی خود ممکن است مزیتی در چالشهای مرتبط با برنامهنویسی ایجاد کرده باشد.
ریاضیات: توانایی با یک هشدار
از لحاظ تاریخی، LLM ها با ریاضیات مشکل داشتهاند، که نتیجه آموزش متمرکز بر زبان آنهاست. در حالی که مدلهای جدیدتر پیشرفتهایی را نشان دادهاند، QwQ همچنان با چالشهایی روبرو است، اگرچه نه لزوماً به دلایلی که ممکن است انتظار داشته باشید.
QwQ تمام مسائل ریاضی را که قبلاً برای R1 مطرح شده بود با موفقیت حل کرد. این نشان میدهد که QwQ میتواند محاسبات اولیه و حتی برخی از جبر را انجام دهد. با این حال، مشکل در کارایی آن نهفته است. استفاده از LLM برای محاسبات ریاضی زمانی که ماشین حسابها و محاسبات مستقیم به راحتی در دسترس هستند و به طور قابل توجهی سریعتر هستند، غیرمنطقی به نظر میرسد.
به عنوان مثال، حل یک معادله ساده مانند 7*43
از QwQ میخواست بیش از 1000 توکن تولید کند که تقریباً 23 ثانیه در RTX 3090 Ti طول کشید. این وظیفهای است که میتوان آن را در کسری از زمان روی یک ماشین حساب جیبی انجام داد.
ناکارآمدی با محاسبات بزرگتر حتی بیشتر میشود. حل 3394*35979
، یک مسئله ضرب فراتر از تواناییهای اکثر مدلهای غیر استدلالی، سه دقیقه و بیش از 5000 توکن برای محاسبه نمونه محلی QwQ طول کشید.
قبل از رفع هایپرپارامتر، همان معادله به نه دقیقه و تقریباً 12000 توکن نیاز داشت.
نکته کلیدی در اینجا این است که در حالی که یک مدل ممکن است بتواند به زور راه خود را به پاسخ صحیح برساند، لزوماً به این معنی نیست که ابزار بهینه برای این کار است. یک رویکرد عملیتر این است که به QwQ دسترسی به یک ماشین حساب پایتون بدهید. این امر از نقاط قوت مدل استفاده میکند در حالی که وظایف محاسباتی فشرده را به ابزاری مناسبتر واگذار میکند.
هنگامی که وظیفه حل همان معادله 3394*35979
با استفاده از ابزار به QwQ داده شد، زمان پاسخ آن به هشت ثانیه کاهش یافت، زیرا ماشین حساب کار سنگین را انجام داد.
شیوع “صبر کنید”: نگاهی اجمالی به فرآیند تفکر
بررسی “افکار” QwQ نشان دهنده تکرار مکرر کلمه “صبر کنید”، به ویژه در طول وظایف پیچیده یا مسائل کلمه ای است. این نشان دهنده فرآیند داخلی مدل برای بررسی کار خود در برابر نتایج جایگزین است.
در حالی که این رفتار در مدلهای استدلالی رایج است، میتواند به ویژه ناامید کننده باشد زمانی که QwQ پاسخی نادرست تولید میکند، حتی پس از نشان دادن درک پاسخ صحیح در طول فرآیند “فکر” خود.
این مشکل در طول آزمایش مکرراً مشاهده شد. یکی از بارزترین نمونهها، اقتباس AutoGen AI از مسئله کلاسیک گرگ، بز و کلم بود. این پازل یک چالش بهینهسازی حمل و نقل را با یک پیچ و تاب ارائه میدهد:
راه حل در اعلان تعبیه شده است: با سه محفظه امن، کشاورز میتواند همه موارد را در یک سفر حمل کند. با این حال، به دلیل شباهت پازل به نسخه کلاسیک، مدلها اغلب محفظهها را نادیده میگیرند.
در آزمایش، QwQ به طور مداوم در حل صحیح این پازل شکست خورد. بررسی فرآیند فکری آن نشان داد که سه محفظه را نادیده نگرفته است. در واقع، آنها را تصدیق کرد اما آنها را به عنوان بسیار ساده رد کرد:
“صبر کنید، اگر کشاورز بتواند هر سه را در یک سفر ببرد، پس میتواند این کار را انجام دهد و تمام شود. اما این باعث میشود که مشکل بیاهمیت شود، که بعید است. بنابراین شاید محفظهها جدا باشند اما قایق فقط بتواند دو مورد را به اضافه کشاورز حمل کند؟”
صرف نظر از اینکه آزمایش روی مدل کامل در ابر یا به صورت محلی اجرا شده باشد، QwQ برای حل این مشکل به طور مداوم تلاش کرد. این یک محدودیت بالقوه در قابلیتهای استدلال آن را برجسته میکند، جایی که ممکن است بیش از حد فکر کند یا محدودیتهای مسئله را اشتباه تفسیر کند.
حساسیت هایپرپارامتر: یک تعادل ظریف
در مقایسه با سایر مدلها، QwQ حساسیت بیشتری نسبت به پیکربندی خود نشان داد. در ابتدا، علیبابا پارامترهای نمونهبرداری خاصی را توصیه کرد:
- Temperature: 0.6
- TopP: 0.95
- TopK: بین 20 و 40
متعاقباً، این توصیهها بهروزرسانی شدند تا شامل موارد زیر شوند:
- MinP: 0
- Presence Penalty: بین 0 و 2
با توجه به یک اشکال ظاهری در مدیریت پارامترهای نمونهبرداری Llama.cpp (Llama.cpp برای اجرای استنتاج روی مدلها استفاده میشود)، همچنین لازم بود که جریمه تکرار با تنظیم آن روی 1 غیرفعال شود.
همانطور که قبلاً ذکر شد، رسیدگی به این مسائل پیکربندی منجر به بهبود قابل توجهی شد، بیش از نیمی از تعداد توکنهای “تفکر” مورد نیاز برای رسیدن به پاسخ را کاهش داد. با این حال، به نظر میرسد این اشکال مختص نسخههای کوانتیزه شده GGUF مدل هنگام اجرا بر روی موتور استنتاج Llama.cpp باشد، که توسط برنامههای محبوبی مانند Ollama و LM Studio استفاده میشود.
برای کاربرانی که قصد استفاده از Llama.cpp را دارند، مشاوره با راهنمای Unsloth برای تصحیح ترتیب نمونهبرداری به شدت توصیه میشود.
شروع به کار با QwQ: یک راهنمای عملی
برای کسانی که علاقهمند به آزمایش با QwQ هستند، راهاندازی آن در Ollama نسبتاً ساده است. با این حال، توجه به این نکته مهم است که به یک GPU با مقدار قابل توجهی vRAM نیاز دارد. این مدل با موفقیت روی یک 3090 Ti 24 گیگابایتی با یک پنجره متنی به اندازه کافی بزرگ برای استفاده عملی اجرا شد.
در حالی که از نظر فنی امکان اجرای مدل بر روی CPU و حافظه سیستم وجود دارد، این احتمالاً منجر به زمان پاسخ بسیار کند میشود، مگر اینکه از یک ایستگاه کاری یا سرور رده بالا استفاده شود.
پیش نیازها:
- دستگاهی که قادر به اجرای LLM های متوسط با کوانتیزاسیون 4 بیتی باشد. یک GPU سازگار با حداقل 24 گیگابایت vRAM توصیه میشود. لیستی از کارتهای پشتیبانی شده را میتوانید در اینجا پیدا کنید.
- برای مکهای سیلیکونی اپل، حداقل 32 گیگابایت حافظه توصیه میشود.
این راهنما آشنایی اولیه با رابط خط فرمان دنیای لینوکس و Ollama را فرض میکند.
نصب Ollama
Ollama یک اجرا کننده مدل محبوب است که فرآیند دانلود و ارائه LLM ها را بر روی سخت افزار مصرف کننده ساده میکند. برای کاربران ویندوز یا macOS، آن را مانند هر برنامه دیگری از ollama.com دانلود و نصب کنید.
برای کاربران لینوکس، Ollama یک خط کد راحت برای نصب ارائه میدهد: