QWQ-32B علیبابا: مکاشفه یادگیری تقویتی
تیم Qwen در علیبابا، مدل هوش مصنوعی QwQ-32B با ۳۲ میلیارد پارامتر را معرفی کرده است. این مدل با استفاده از یادگیری تقویتی (RL) عملکردی در حد یا حتی بهتر از مدلهای بزرگتر دارد، که نشاندهنده تغییری مهم در توسعه هوش مصنوعی است.