DeepSeek-R1 در بسته 32B؟ بررسی QwQ علی‌بابا

به چالش کشیدن غول‌ها: یک رقیب جمع و جور

QwQ، با وجود داشتن تنها ۳۲ میلیارد پارامتر در مقایسه با ۶۷۱ میلیارد پارامتر ادعا شده DeepSeek R1، به عنوان یک مدل «استدلالی» معرفی شده است. علی‌بابا ادعا می‌کند که این مدل نسبتاً کوچک می‌تواند R1 را در معیارهای خاص، به ویژه در زمینه‌هایی مانند ریاضیات، کدنویسی و فراخوانی تابع، پشت سر بگذارد. این ادعای بلندپروازانه مستلزم نگاهی دقیق‌تر به عملکرد درونی و عملکرد دنیای واقعی QwQ است.

یادگیری تقویتی: کلید مهارت QwQ

مشابه DeepSeek R1، تیم Qwen از یادگیری تقویتی (RL) برای بهبود قابلیت‌های استدلال زنجیره‌ای فکر QwQ استفاده کردند. این روش توانایی مدل را برای تجزیه و تحلیل و شکستن مسائل پیچیده به صورت گام به گام افزایش می‌دهد. رویکرد سنتی در RL شامل پاداش دادن به مدل برای پاسخ‌های صحیح است، بنابراین پاسخ‌های دقیق تقویت می‌شوند.

با این حال، تیم Qwen رویکردی ظریف‌تر با QwQ در پیش گرفت. آنها یک تأیید کننده دقت و یک سرور اجرای کد را ادغام کردند. این افزودنی حیاتی تضمین می‌کند که پاداش‌ها فقط برای راه‌حل‌های صحیح ریاضی و کد کاربردی اعطا می‌شوند. با اجرای این فرآیند تأیید دقیق، تیم قصد دارد مدلی را پرورش دهد که درجه بالاتری از دقت و قابلیت اطمینان را نشان دهد.

ادعاهای عملکرد: بررسی واقعیت

تلاش‌های تیم Qwen، به ادعای آنها، مدلی را تولید کرده است که به طور قابل توجهی بالاتر از کلاس وزنی خود عمل می‌کند. آنها ادعا می‌کنند که QwQ به سطوح عملکردی در حد و در برخی موارد حتی فراتر از مدل‌های بسیار بزرگتر دست می‌یابد.

با این حال، دنیای معیارهای هوش مصنوعی می‌تواند پیچیده باشد. بسیار مهم است که فراتر از ارقام گزارش شده برویم و بررسی کنیم که این ادعاها چگونه به سناریوهای عملی و واقعی تبدیل می‌شوند.

تست عملی: قرار دادن QwQ در معرض آزمایش

برای ارزیابی قابلیت‌های QwQ، مجموعه‌ای از اعلان‌های آزمایشی طراحی شد که طیف وسیعی از حوزه‌ها را در بر می‌گرفت. این موارد شامل دانش عمومی، استدلال فضایی، حل مسئله، ریاضیات و سایر چالش‌هایی بود که حتی برای پیشرفته‌ترین مدل‌های زبان بزرگ (LLM) نیز مشکل‌ساز هستند.

با توجه به نیازهای حافظه قابل توجه مدل کامل، آزمایش در دو پیکربندی اجرا شد. ابتدا، مدل کامل با استفاده از نسخه نمایشی QwQ در Hugging Face ارزیابی شد. این امر امکان ارزیابی پتانسیل کامل آن را فراهم کرد. دوم، یک نسخه کوانتیزه شده 4 بیتی روی یک GPU 24 گیگابایتی (به طور خاص، Nvidia 3090 یا AMD Radeon RX 7900XTX) آزمایش شد. این پیکربندی با هدف سنجش تأثیر کوانتیزاسیون بر دقت مدل، آن را برای کاربرانی با سخت‌افزار کم‌قدرت‌تر در دسترس‌تر می‌کند.

دانش عمومی: حفظ جایگاه خود

در پاسخ به اکثر سوالات دانش عمومی، QwQ عملکردی قابل مقایسه با R1 671 میلیارد پارامتری DeepSeek و سایر مدل‌های استدلالی مانند o3-mini OpenAI نشان داد. این مدل معمولاً چند ثانیه طول می‌کشید تا افکار خود را قبل از ارائه پاسخ به پرس و جو فرموله کند. این رفتار مشخصه مدل‌های استدلالی است که تفکر دقیق را بر پاسخ‌های فوری اولویت می‌دهند.

برتری در پیچیدگی: منطق، کدنویسی و ریاضیات

جایی که QwQ واقعاً شروع به متمایز کردن خود می‌کند، مقابله با چالش‌های پیچیده‌تر شامل منطق، کدنویسی یا ریاضیات است. بیایید به این حوزه‌ها بپردازیم، نقاط قوت آن را برجسته کنیم و به برخی از زمینه‌هایی که در آن کوتاهی می‌کند، بپردازیم.

استدلال فضایی: پیمایش در هزارتو

یک آزمون استدلال فضایی نسبتاً جدید، که توسط Homebrew Research به عنوان بخشی از پروژه AlphaMaze آنها توسعه یافته است، برای ارزیابی QwQ استفاده شد.

هر دو نمونه QwQ میزبانی شده محلی و مدل با اندازه کامل، به طور مداوم این پازل‌ها را با موفقیت حل کردند. با این حال، هر اجرا چند دقیقه طول کشید تا کامل شود. این نشان می‌دهد که در حالی که QwQ می‌تواند استدلال فضایی را به طور موثر انجام دهد، لزوماً سریع‌ترین در آن نیست.

در مقابل، R1 DeepSeek و تقطیر 32B آن رفتارهای متفاوتی از خود نشان دادند. هر دو مدل اولین هزارتو را با موفقیت حل کردند. با این حال، R1 با دومی مشکل داشت، در حالی که تقطیر 32B به میزان موفقیت 90٪ در هزارتوی دوم دست یافت. این تنوع کاملاً غیرمنتظره نیست، با توجه به اینکه R1 و تقطیر از مدل‌های پایه متمایز استفاده می‌کنند.

در حالی که QwQ عملکرد برتری را در مقایسه با DeepSeek در این آزمایش خاص نشان داد، برخی رفتارهای غیرعادی با مدل 4 بیتی مشاهده شد. در ابتدا، تقریباً دو برابر بیشتر توکن‌های “فکر” برای تکمیل تست نیاز داشت. این در ابتدا نشان دهنده ضررهای احتمالی به دلیل کوانتیزاسیون بود. با این حال، بررسی‌های بیشتر نشان داد که مدل کوانتیزه شده، در حالت اولیه خود، عملکردی غیربهینه از خود نشان می‌دهد. تنظیم هایپرپارامترها و اجرای مجدد آزمایش‌ها این مشکل را حل کرد و اهمیت پیکربندی مناسب را نشان داد.

کدنویسی تک‌شات: یک نقطه قوت بالقوه

QwQ توجه قابل توجهی را به دلیل پتانسیل خود در تولید کد “تک شات” - توانایی تولید کد قابل استفاده در اولین تلاش - به خود جلب کرده است. به نظر می‌رسد این حوزه خاص یک نقطه قوت قابل توجه برای این مدل باشد.

از این مدل خواسته شد تا چندین بازی نسبتاً ساده را در پایتون با استفاده از کتابخانه pygame بازسازی کند. بازی‌های انتخاب شده Pong، Breakout، Asteroids و Flappy Bird بودند.

QwQ بازی‌های Pong و Breakout را با سهولت نسبی انجام داد. پس از چند دقیقه پردازش، این مدل نسخه‌های کاری هر دو بازی را تولید کرد.

با این حال، هنگامی که وظیفه بازسازی Asteroids به QwQ داده شد، با مشکلاتی مواجه شد. اگرچه کد تولید شده اجرا شد، اما گرافیک و مکانیک بازی اغلب مخدوش و دارای اشکال بودند. در مقابل، R1، در اولین تلاش خود، با وفاداری تیرانداز آرکید کلاسیک را بازسازی کرد.

مهم است که داده‌های آموزشی این مدل‌ها را در نظر بگیرید. آنها در معرض حجم وسیعی از کد منبع باز در دسترس قرار گرفته‌اند، که احتمالاً شامل بازتولید بازی‌های کلاسیک است. این سوال را مطرح می‌کند که آیا مدل‌ها صرفاً اطلاعات آموخته شده را به خاطر می‌آورند یا به طور مستقل مکانیک بازی را از ابتدا استخراج می‌کنند. این امر ماهیت اساسی این شبکه‌های عصبی عظیم را برجسته می‌کند، جایی که هوش ظاهری اغلب از تشخیص الگوی گسترده ناشی می‌شود.

حتی با وجود این محدودیت‌ها، عملکرد QwQ در بازسازی بازی‌های آرکید کلاسیک، به ویژه با توجه به تعداد پارامترهای آن، چشمگیر است. ممکن است در هر آزمایشی با R1 مطابقت نداشته باشد، اما سطح قابل توجهی از توانایی را نشان می‌دهد. عبارت “هیچ جایگزینی برای جابجایی وجود ندارد”، که اغلب در دنیای خودرو استفاده می‌شود، ممکن است در اینجا مرتبط باشد. این می‌تواند توضیح دهد که چرا علی‌بابا در حال توسعه نسخه “Max” QwQ است، اگرچه بعید است که به زودی روی سخت‌افزار مصرف کننده قابل اجرا باشد.

در مقایسه با تقطیر Qwen 2.5 32B R1 با اندازه مشابه DeepSeek، تصمیم علی‌بابا برای ادغام یک سرور اجرای کد در خط لوله یادگیری تقویتی خود ممکن است مزیتی در چالش‌های مرتبط با برنامه‌نویسی ایجاد کرده باشد.

ریاضیات: توانایی با یک هشدار

از لحاظ تاریخی، LLM ها با ریاضیات مشکل داشته‌اند، که نتیجه آموزش متمرکز بر زبان آنهاست. در حالی که مدل‌های جدیدتر پیشرفت‌هایی را نشان داده‌اند، QwQ همچنان با چالش‌هایی روبرو است، اگرچه نه لزوماً به دلایلی که ممکن است انتظار داشته باشید.

QwQ تمام مسائل ریاضی را که قبلاً برای R1 مطرح شده بود با موفقیت حل کرد. این نشان می‌دهد که QwQ می‌تواند محاسبات اولیه و حتی برخی از جبر را انجام دهد. با این حال، مشکل در کارایی آن نهفته است. استفاده از LLM برای محاسبات ریاضی زمانی که ماشین حساب‌ها و محاسبات مستقیم به راحتی در دسترس هستند و به طور قابل توجهی سریع‌تر هستند، غیرمنطقی به نظر می‌رسد.
به عنوان مثال، حل یک معادله ساده مانند 7*43 از QwQ می‌خواست بیش از 1000 توکن تولید کند که تقریباً 23 ثانیه در RTX 3090 Ti طول کشید. این وظیفه‌ای است که می‌توان آن را در کسری از زمان روی یک ماشین حساب جیبی انجام داد.

ناکارآمدی با محاسبات بزرگتر حتی بیشتر می‌شود. حل 3394*35979، یک مسئله ضرب فراتر از توانایی‌های اکثر مدل‌های غیر استدلالی، سه دقیقه و بیش از 5000 توکن برای محاسبه نمونه محلی QwQ طول کشید.

قبل از رفع هایپرپارامتر، همان معادله به نه دقیقه و تقریباً 12000 توکن نیاز داشت.

نکته کلیدی در اینجا این است که در حالی که یک مدل ممکن است بتواند به زور راه خود را به پاسخ صحیح برساند، لزوماً به این معنی نیست که ابزار بهینه برای این کار است. یک رویکرد عملی‌تر این است که به QwQ دسترسی به یک ماشین حساب پایتون بدهید. این امر از نقاط قوت مدل استفاده می‌کند در حالی که وظایف محاسباتی فشرده را به ابزاری مناسب‌تر واگذار می‌کند.

هنگامی که وظیفه حل همان معادله 3394*35979 با استفاده از ابزار به QwQ داده شد، زمان پاسخ آن به هشت ثانیه کاهش یافت، زیرا ماشین حساب کار سنگین را انجام داد.

شیوع “صبر کنید”: نگاهی اجمالی به فرآیند تفکر

بررسی “افکار” QwQ نشان دهنده تکرار مکرر کلمه “صبر کنید”، به ویژه در طول وظایف پیچیده یا مسائل کلمه ای است. این نشان دهنده فرآیند داخلی مدل برای بررسی کار خود در برابر نتایج جایگزین است.

در حالی که این رفتار در مدل‌های استدلالی رایج است، می‌تواند به ویژه ناامید کننده باشد زمانی که QwQ پاسخی نادرست تولید می‌کند، حتی پس از نشان دادن درک پاسخ صحیح در طول فرآیند “فکر” خود.

این مشکل در طول آزمایش مکرراً مشاهده شد. یکی از بارزترین نمونه‌ها، اقتباس AutoGen AI از مسئله کلاسیک گرگ، بز و کلم بود. این پازل یک چالش بهینه‌سازی حمل و نقل را با یک پیچ و تاب ارائه می‌دهد:

راه حل در اعلان تعبیه شده است: با سه محفظه امن، کشاورز می‌تواند همه موارد را در یک سفر حمل کند. با این حال، به دلیل شباهت پازل به نسخه کلاسیک، مدل‌ها اغلب محفظه‌ها را نادیده می‌گیرند.

در آزمایش، QwQ به طور مداوم در حل صحیح این پازل شکست خورد. بررسی فرآیند فکری آن نشان داد که سه محفظه را نادیده نگرفته است. در واقع، آنها را تصدیق کرد اما آنها را به عنوان بسیار ساده رد کرد:

“صبر کنید، اگر کشاورز بتواند هر سه را در یک سفر ببرد، پس می‌تواند این کار را انجام دهد و تمام شود. اما این باعث می‌شود که مشکل بی‌اهمیت شود، که بعید است. بنابراین شاید محفظه‌ها جدا باشند اما قایق فقط بتواند دو مورد را به اضافه کشاورز حمل کند؟”

صرف نظر از اینکه آزمایش روی مدل کامل در ابر یا به صورت محلی اجرا شده باشد، QwQ برای حل این مشکل به طور مداوم تلاش کرد. این یک محدودیت بالقوه در قابلیت‌های استدلال آن را برجسته می‌کند، جایی که ممکن است بیش از حد فکر کند یا محدودیت‌های مسئله را اشتباه تفسیر کند.

حساسیت هایپرپارامتر: یک تعادل ظریف

در مقایسه با سایر مدل‌ها، QwQ حساسیت بیشتری نسبت به پیکربندی خود نشان داد. در ابتدا، علی‌بابا پارامترهای نمونه‌برداری خاصی را توصیه کرد:

  • Temperature: 0.6
  • TopP: 0.95
  • TopK: بین 20 و 40

متعاقباً، این توصیه‌ها به‌روزرسانی شدند تا شامل موارد زیر شوند:

  • MinP: 0
  • Presence Penalty: بین 0 و 2

با توجه به یک اشکال ظاهری در مدیریت پارامترهای نمونه‌برداری Llama.cpp (Llama.cpp برای اجرای استنتاج روی مدل‌ها استفاده می‌شود)، همچنین لازم بود که جریمه تکرار با تنظیم آن روی 1 غیرفعال شود.

همانطور که قبلاً ذکر شد، رسیدگی به این مسائل پیکربندی منجر به بهبود قابل توجهی شد، بیش از نیمی از تعداد توکن‌های “تفکر” مورد نیاز برای رسیدن به پاسخ را کاهش داد. با این حال، به نظر می‌رسد این اشکال مختص نسخه‌های کوانتیزه شده GGUF مدل هنگام اجرا بر روی موتور استنتاج Llama.cpp باشد، که توسط برنامه‌های محبوبی مانند Ollama و LM Studio استفاده می‌شود.

برای کاربرانی که قصد استفاده از Llama.cpp را دارند، مشاوره با راهنمای Unsloth برای تصحیح ترتیب نمونه‌برداری به شدت توصیه می‌شود.

شروع به کار با QwQ: یک راهنمای عملی

برای کسانی که علاقه‌مند به آزمایش با QwQ هستند، راه‌اندازی آن در Ollama نسبتاً ساده است. با این حال، توجه به این نکته مهم است که به یک GPU با مقدار قابل توجهی vRAM نیاز دارد. این مدل با موفقیت روی یک 3090 Ti 24 گیگابایتی با یک پنجره متنی به اندازه کافی بزرگ برای استفاده عملی اجرا شد.

در حالی که از نظر فنی امکان اجرای مدل بر روی CPU و حافظه سیستم وجود دارد، این احتمالاً منجر به زمان پاسخ بسیار کند می‌شود، مگر اینکه از یک ایستگاه کاری یا سرور رده بالا استفاده شود.

پیش نیازها:

  1. دستگاهی که قادر به اجرای LLM های متوسط با کوانتیزاسیون 4 بیتی باشد. یک GPU سازگار با حداقل 24 گیگابایت vRAM توصیه می‌شود. لیستی از کارت‌های پشتیبانی شده را می‌توانید در اینجا پیدا کنید.
  2. برای مک‌های سیلیکونی اپل، حداقل 32 گیگابایت حافظه توصیه می‌شود.

این راهنما آشنایی اولیه با رابط خط فرمان دنیای لینوکس و Ollama را فرض می‌کند.

نصب Ollama

Ollama یک اجرا کننده مدل محبوب است که فرآیند دانلود و ارائه LLM ها را بر روی سخت افزار مصرف کننده ساده می‌کند. برای کاربران ویندوز یا macOS، آن را مانند هر برنامه دیگری از ollama.com دانلود و نصب کنید.

برای کاربران لینوکس، Ollama یک خط کد راحت برای نصب ارائه می‌دهد: