QWQ-32B علی‌بابا: مکاشفه یادگیری تقویتی

قدرت یادگیری تقویتی

رویکردهای سنتی به توسعه مدل هوش مصنوعی به شدت بر روش‌های پیش‌آموزش و پس‌آموزش متکی بوده‌اند. با این حال، تیم Qwen با ادغام قابلیت‌های عامل به طور مستقیم در مدل استدلال، فراتر از این تکنیک‌های مرسوم رفته است. این ادغام، QwQ-32B را قادر می‌سازد تا در تفکر انتقادی شرکت کند، از ابزارهای خارجی استفاده کند و فرآیند استدلال خود را به صورت پویا بر اساس بازخورد محیط خود تطبیق دهد. این نشان دهنده یک گام مهم رو به جلو در ایجاد سیستم‌های هوش مصنوعی سازگارتر و هوشمندتر است.

تیم Qwen تاکید می‌کند که مقیاس‌بندی RL پتانسیل باز کردن قفل بهبود عملکردی را دارد که از قابلیت‌های روش‌های سنتی فراتر می‌رود. تحقیقات اخیر قبلاً توانایی RL را برای تقویت قابل توجه قابلیت‌های استدلال مدل‌های هوش مصنوعی نشان داده است و QwQ-32B به عنوان یک نمونه قانع کننده از این پتانسیل در عمل عمل می‌کند.

پر کردن شکاف بین اندازه و عملکرد

یکی از برجسته‌ترین جنبه‌های QwQ-32B عملکرد آن نسبت به اندازه آن است. DeepSeek-R1، مدلی که QwQ-32B با آن رقابت می‌کند، دارای 671 میلیارد پارامتر (با 37 میلیارد فعال) است. QwQ-32B، با 32 میلیارد پارامتر نسبتاً متوسط، به عملکردی قابل مقایسه دست می‌یابد، که نشان‌دهنده دستاوردهای چشمگیر کارایی حاصل از اجرای استراتژیک RL است. این دستاورد، این فرض دیرینه را که اندازه مدل تعیین کننده اصلی عملکرد است، به چالش می‌کشد و نشان می‌دهد که تکنیک‌های آموزشی پیچیده می‌توانند شکاف بین اندازه و قابلیت را پر کنند.

محک زدن تعالی

برای ارزیابی دقیق قابلیت‌های QwQ-32B، تیم Qwen این مدل را در معرض مجموعه‌ای جامع از معیارها قرار داد. این معیارها، از جمله AIME24، LiveCodeBench، LiveBench، IFEval و BFCL، به طور خاص برای ارزیابی جنبه‌های مختلف عملکرد هوش مصنوعی، از جمله استدلال ریاضی، مهارت کدنویسی و توانایی‌های حل مسئله عمومی طراحی شده‌اند. نتایج این ارزیابی‌ها تصویر قانع کننده‌ای از نقاط قوت QwQ-32B را ترسیم می‌کند.

در اینجا نگاهی دقیق‌تر به عملکرد QwQ-32B در هر معیار داریم:

  • AIME24: این معیار بر استدلال ریاضی تمرکز دارد. QwQ-32B امتیاز 79.5 را کسب کرد، که کمی از امتیاز 79.8 DeepSeek-R1-671B عقب‌تر است. قابل توجه است که هر دو مدل به طور قابل توجهی از OpenAl-o1-mini که امتیاز 63.6 را کسب کرد و همچنین مدل‌های تقطیر شده، بهتر عمل کردند.

  • LiveCodeBench: این معیار مهارت کدنویسی را ارزیابی می‌کند. QwQ-32B امتیاز 63.4 را کسب کرد که بسیار نزدیک به امتیاز 65.9 DeepSeek-R1-671B است. باز هم، هر دو مدل از عملکرد مدل‌های تقطیر شده و OpenAl-o1-mini (53.8) پیشی گرفتند.

  • LiveBench: LiveBench که برای ارزیابی قابلیت‌های حل مسئله عمومی طراحی شده است، شاهد کسب امتیاز 73.1 توسط QwQ-32B بود که از امتیاز 71.6 DeepSeek-R1-671B بهتر عمل کرد. این نتیجه موقعیت QwQ-32B را به عنوان یک رقیب قوی در وظایف عمومی هوش مصنوعی تثبیت می‌کند.

  • IFEval: این معیار بر پیروی از دستورالعمل و همسویی با ترجیحات انسانی تمرکز دارد. QwQ-32B امتیاز چشمگیر 83.9 را کسب کرد که تقریباً مشابه امتیاز 83.3 DeepSeek-R1-671B است. هر دو مدل به طور قابل توجهی از OpenAl-o1-mini (59.1) و مدل‌های تقطیر شده بهتر عمل کردند.

  • BFCL: این معیار توانایی مدل را برای رسیدگی به سناریوهای پیچیده و واقعی آزمایش می‌کند. QwQ-32B امتیاز 66.4 را کسب کرد که از امتیاز 62.8 DeepSeek-R1-671B پیشی گرفت. این نتیجه پتانسیل QwQ-32B را برای کاربردهای عملی فراتر از معیارهای صرفاً آکادمیک نشان می‌دهد.

این نتایج به طور مداوم توانایی QwQ-32B را برای رقابت با مدل‌های بسیار بزرگتر و در برخی موارد، پیشی گرفتن از آن‌ها نشان می‌دهد. این امر اثربخشی رویکرد تیم Qwen و پتانسیل دگرگون کننده RL را در توسعه هوش مصنوعی برجسته می‌کند.

رویکرد نوآورانه تیم Qwen

موفقیت QwQ-32B را می‌توان به فرآیند RL چند مرحله‌ای نوآورانه تیم Qwen نسبت داد. این فرآیند با یک “شروع سرد” (cold-start) آغاز می‌شود، به این معنی که مدل با یک پایه از پیش آموزش دیده شروع می‌شود، اما سپس به طور قابل توجهی از طریق RL اصلاح می‌شود. فرآیند آموزش توسط پاداش‌های مبتنی بر نتیجه هدایت می‌شود و مدل را تشویق می‌کند تا عملکرد خود را در وظایف خاص بهبود بخشد.

مرحله اولیه آموزش بر مقیاس‌بندی RL برای وظایف ریاضی و کدنویسی تمرکز دارد. این شامل استفاده از تایید کننده‌های دقت و سرورهای اجرای کد برای ارائه بازخورد و هدایت یادگیری مدل است. این مدل با دریافت پاداش برای نتایج موفقیت‌آمیز، یاد می‌گیرد که راه‌حل‌های ریاضی صحیح تولید کند و کد کاربردی بنویسد.

مرحله دوم دامنه آموزش RL را گسترش می‌دهد تا قابلیت‌های عمومی را در بر گیرد. این مرحله پاداش‌هایی را از مدل‌های پاداش عمومی و تایید کننده‌های مبتنی بر قانون ترکیب می‌کند و درک مدل از وظایف و دستورالعمل‌های مختلف را گسترش می‌دهد. این مرحله برای توسعه یک مدل هوش مصنوعی جامع که می‌تواند طیف وسیعی از چالش‌ها را مدیریت کند، بسیار مهم است.

تیم Qwen کشف کرد که این مرحله دوم آموزش RL، حتی با تعداد نسبتاً کمی از مراحل، می‌تواند به طور قابل توجهی عملکرد مدل را در قابلیت‌های عمومی مختلف افزایش دهد. این موارد شامل پیروی از دستورالعمل، همسویی با ترجیحات انسانی و عملکرد کلی عامل است. مهم‌تر از آن، این بهبود در قابلیت‌های عمومی به قیمت عملکرد در ریاضیات و کدنویسی تمام نمی‌شود، که نشان‌دهنده اثربخشی رویکرد چند مرحله‌ای است.

متن‌باز و در دسترس

در اقدامی که همکاری و تحقیقات بیشتر را ترویج می‌کند، تیم Qwen مدل QwQ-32B را متن‌باز کرده است. این بدان معناست که پارامترهای مدل به صورت عمومی در دسترس هستند و به محققان و توسعه دهندگان اجازه می‌دهد تا به کار تیم Qwen دسترسی داشته باشند، آن را مطالعه کنند و بر اساس آن بسازند. این مدل در Hugging Face و ModelScope تحت مجوز Apache 2.0، یک مجوز مجاز که استفاده و اصلاح گسترده را تشویق می‌کند، در دسترس است. علاوه بر این، QwQ-32B از طریق Qwen Chat قابل دسترسی است و یک رابط کاربر پسند برای تعامل با مدل فراهم می‌کند.

گامی به سوی AGI

توسعه QwQ-32B گامی مهم رو به جلو در جهت دستیابی به هوش عمومی مصنوعی (AGI) است. تیم Qwen این مدل را به عنوان یک کاوش اولیه در مقیاس‌بندی RL برای افزایش قابلیت‌های استدلال می‌بیند و آنها قصد دارند به بررسی ادغام عامل‌ها با RL برای استدلال طولانی مدت ادامه دهند. این شامل توسعه سیستم‌های هوش مصنوعی است که می‌توانند وظایف پیچیده را در دوره‌های طولانی برنامه‌ریزی و اجرا کنند، که یک قابلیت حیاتی برای دستیابی به AGI است.

این تیم مطمئن است که ترکیب مدل‌های پایه قوی‌تر با RL، که توسط منابع محاسباتی مقیاس‌بندی شده تقویت می‌شود، یک محرک کلیدی در توسعه AGI خواهد بود. QwQ-32B به عنوان یک نمایش قدرتمند از این پتانسیل عمل می‌کند و دستاوردهای چشمگیر عملکردی را که می‌توان از طریق اجرای استراتژیک RL به دست آورد، به نمایش می‌گذارد. تلاش‌های تحقیق و توسعه مداوم تیم Qwen، همراه با ماهیت متن‌باز QwQ-32B، نوید تسریع پیشرفت در زمینه هوش مصنوعی و نزدیک‌تر شدن ما به تحقق ماشین‌های واقعاً هوشمند را می‌دهد. تمرکز دیگر صرفاً بر ساخت مدل‌های بزرگتر نیست، بلکه بر ایجاد سیستم‌های هوشمندتر و سازگارتر از طریق تکنیک‌های آموزشی نوآورانه است.