QwQ-32B Alibaba: Penemuan Pembelajaran Pengukuhan
Model AI 32 bilion parameter Alibaba, QwQ-32B, menyaingi model yang lebih besar melalui Pembelajaran Pengukuhan (RL), menunjukkan kecekapan dan potensi RL dalam pembangunan AI. Ia adalah sumber terbuka dan satu langkah ke arah AGI.