قدرت یادگیری تقویتی
رویکردهای سنتی به توسعه مدل هوش مصنوعی به شدت بر روشهای پیشآموزش و پسآموزش متکی بودهاند. با این حال، تیم Qwen با ادغام قابلیتهای عامل به طور مستقیم در مدل استدلال، فراتر از این تکنیکهای مرسوم رفته است. این ادغام، QwQ-32B را قادر میسازد تا در تفکر انتقادی شرکت کند، از ابزارهای خارجی استفاده کند و فرآیند استدلال خود را به صورت پویا بر اساس بازخورد محیط خود تطبیق دهد. این نشان دهنده یک گام مهم رو به جلو در ایجاد سیستمهای هوش مصنوعی سازگارتر و هوشمندتر است.
تیم Qwen تاکید میکند که مقیاسبندی RL پتانسیل باز کردن قفل بهبود عملکردی را دارد که از قابلیتهای روشهای سنتی فراتر میرود. تحقیقات اخیر قبلاً توانایی RL را برای تقویت قابل توجه قابلیتهای استدلال مدلهای هوش مصنوعی نشان داده است و QwQ-32B به عنوان یک نمونه قانع کننده از این پتانسیل در عمل عمل میکند.
پر کردن شکاف بین اندازه و عملکرد
یکی از برجستهترین جنبههای QwQ-32B عملکرد آن نسبت به اندازه آن است. DeepSeek-R1، مدلی که QwQ-32B با آن رقابت میکند، دارای 671 میلیارد پارامتر (با 37 میلیارد فعال) است. QwQ-32B، با 32 میلیارد پارامتر نسبتاً متوسط، به عملکردی قابل مقایسه دست مییابد، که نشاندهنده دستاوردهای چشمگیر کارایی حاصل از اجرای استراتژیک RL است. این دستاورد، این فرض دیرینه را که اندازه مدل تعیین کننده اصلی عملکرد است، به چالش میکشد و نشان میدهد که تکنیکهای آموزشی پیچیده میتوانند شکاف بین اندازه و قابلیت را پر کنند.
محک زدن تعالی
برای ارزیابی دقیق قابلیتهای QwQ-32B، تیم Qwen این مدل را در معرض مجموعهای جامع از معیارها قرار داد. این معیارها، از جمله AIME24، LiveCodeBench، LiveBench، IFEval و BFCL، به طور خاص برای ارزیابی جنبههای مختلف عملکرد هوش مصنوعی، از جمله استدلال ریاضی، مهارت کدنویسی و تواناییهای حل مسئله عمومی طراحی شدهاند. نتایج این ارزیابیها تصویر قانع کنندهای از نقاط قوت QwQ-32B را ترسیم میکند.
در اینجا نگاهی دقیقتر به عملکرد QwQ-32B در هر معیار داریم:
AIME24: این معیار بر استدلال ریاضی تمرکز دارد. QwQ-32B امتیاز 79.5 را کسب کرد، که کمی از امتیاز 79.8 DeepSeek-R1-671B عقبتر است. قابل توجه است که هر دو مدل به طور قابل توجهی از OpenAl-o1-mini که امتیاز 63.6 را کسب کرد و همچنین مدلهای تقطیر شده، بهتر عمل کردند.
LiveCodeBench: این معیار مهارت کدنویسی را ارزیابی میکند. QwQ-32B امتیاز 63.4 را کسب کرد که بسیار نزدیک به امتیاز 65.9 DeepSeek-R1-671B است. باز هم، هر دو مدل از عملکرد مدلهای تقطیر شده و OpenAl-o1-mini (53.8) پیشی گرفتند.
LiveBench: LiveBench که برای ارزیابی قابلیتهای حل مسئله عمومی طراحی شده است، شاهد کسب امتیاز 73.1 توسط QwQ-32B بود که از امتیاز 71.6 DeepSeek-R1-671B بهتر عمل کرد. این نتیجه موقعیت QwQ-32B را به عنوان یک رقیب قوی در وظایف عمومی هوش مصنوعی تثبیت میکند.
IFEval: این معیار بر پیروی از دستورالعمل و همسویی با ترجیحات انسانی تمرکز دارد. QwQ-32B امتیاز چشمگیر 83.9 را کسب کرد که تقریباً مشابه امتیاز 83.3 DeepSeek-R1-671B است. هر دو مدل به طور قابل توجهی از OpenAl-o1-mini (59.1) و مدلهای تقطیر شده بهتر عمل کردند.
BFCL: این معیار توانایی مدل را برای رسیدگی به سناریوهای پیچیده و واقعی آزمایش میکند. QwQ-32B امتیاز 66.4 را کسب کرد که از امتیاز 62.8 DeepSeek-R1-671B پیشی گرفت. این نتیجه پتانسیل QwQ-32B را برای کاربردهای عملی فراتر از معیارهای صرفاً آکادمیک نشان میدهد.
این نتایج به طور مداوم توانایی QwQ-32B را برای رقابت با مدلهای بسیار بزرگتر و در برخی موارد، پیشی گرفتن از آنها نشان میدهد. این امر اثربخشی رویکرد تیم Qwen و پتانسیل دگرگون کننده RL را در توسعه هوش مصنوعی برجسته میکند.
رویکرد نوآورانه تیم Qwen
موفقیت QwQ-32B را میتوان به فرآیند RL چند مرحلهای نوآورانه تیم Qwen نسبت داد. این فرآیند با یک “شروع سرد” (cold-start) آغاز میشود، به این معنی که مدل با یک پایه از پیش آموزش دیده شروع میشود، اما سپس به طور قابل توجهی از طریق RL اصلاح میشود. فرآیند آموزش توسط پاداشهای مبتنی بر نتیجه هدایت میشود و مدل را تشویق میکند تا عملکرد خود را در وظایف خاص بهبود بخشد.
مرحله اولیه آموزش بر مقیاسبندی RL برای وظایف ریاضی و کدنویسی تمرکز دارد. این شامل استفاده از تایید کنندههای دقت و سرورهای اجرای کد برای ارائه بازخورد و هدایت یادگیری مدل است. این مدل با دریافت پاداش برای نتایج موفقیتآمیز، یاد میگیرد که راهحلهای ریاضی صحیح تولید کند و کد کاربردی بنویسد.
مرحله دوم دامنه آموزش RL را گسترش میدهد تا قابلیتهای عمومی را در بر گیرد. این مرحله پاداشهایی را از مدلهای پاداش عمومی و تایید کنندههای مبتنی بر قانون ترکیب میکند و درک مدل از وظایف و دستورالعملهای مختلف را گسترش میدهد. این مرحله برای توسعه یک مدل هوش مصنوعی جامع که میتواند طیف وسیعی از چالشها را مدیریت کند، بسیار مهم است.
تیم Qwen کشف کرد که این مرحله دوم آموزش RL، حتی با تعداد نسبتاً کمی از مراحل، میتواند به طور قابل توجهی عملکرد مدل را در قابلیتهای عمومی مختلف افزایش دهد. این موارد شامل پیروی از دستورالعمل، همسویی با ترجیحات انسانی و عملکرد کلی عامل است. مهمتر از آن، این بهبود در قابلیتهای عمومی به قیمت عملکرد در ریاضیات و کدنویسی تمام نمیشود، که نشاندهنده اثربخشی رویکرد چند مرحلهای است.
متنباز و در دسترس
در اقدامی که همکاری و تحقیقات بیشتر را ترویج میکند، تیم Qwen مدل QwQ-32B را متنباز کرده است. این بدان معناست که پارامترهای مدل به صورت عمومی در دسترس هستند و به محققان و توسعه دهندگان اجازه میدهد تا به کار تیم Qwen دسترسی داشته باشند، آن را مطالعه کنند و بر اساس آن بسازند. این مدل در Hugging Face و ModelScope تحت مجوز Apache 2.0، یک مجوز مجاز که استفاده و اصلاح گسترده را تشویق میکند، در دسترس است. علاوه بر این، QwQ-32B از طریق Qwen Chat قابل دسترسی است و یک رابط کاربر پسند برای تعامل با مدل فراهم میکند.
گامی به سوی AGI
توسعه QwQ-32B گامی مهم رو به جلو در جهت دستیابی به هوش عمومی مصنوعی (AGI) است. تیم Qwen این مدل را به عنوان یک کاوش اولیه در مقیاسبندی RL برای افزایش قابلیتهای استدلال میبیند و آنها قصد دارند به بررسی ادغام عاملها با RL برای استدلال طولانی مدت ادامه دهند. این شامل توسعه سیستمهای هوش مصنوعی است که میتوانند وظایف پیچیده را در دورههای طولانی برنامهریزی و اجرا کنند، که یک قابلیت حیاتی برای دستیابی به AGI است.
این تیم مطمئن است که ترکیب مدلهای پایه قویتر با RL، که توسط منابع محاسباتی مقیاسبندی شده تقویت میشود، یک محرک کلیدی در توسعه AGI خواهد بود. QwQ-32B به عنوان یک نمایش قدرتمند از این پتانسیل عمل میکند و دستاوردهای چشمگیر عملکردی را که میتوان از طریق اجرای استراتژیک RL به دست آورد، به نمایش میگذارد. تلاشهای تحقیق و توسعه مداوم تیم Qwen، همراه با ماهیت متنباز QwQ-32B، نوید تسریع پیشرفت در زمینه هوش مصنوعی و نزدیکتر شدن ما به تحقق ماشینهای واقعاً هوشمند را میدهد. تمرکز دیگر صرفاً بر ساخت مدلهای بزرگتر نیست، بلکه بر ایجاد سیستمهای هوشمندتر و سازگارتر از طریق تکنیکهای آموزشی نوآورانه است.