QwQ-32B Alibaba: Terobosan RL
Tim Qwen Alibaba memperkenalkan QwQ-32B, model AI 32 miliar parameter. Model ini menyaingi model yang lebih besar, berkat Reinforcement Learning (RL). QwQ-32B menunjukkan efisiensi pelatihan RL, menantang anggapan bahwa ukuran model adalah penentu utama kinerja. Ini adalah langkah maju yang signifikan dalam menciptakan sistem AI yang lebih mudah beradaptasi.