Alibaba Meluncurkan Qwen-32B: Kekuatan Ringkas yang Menantang Model Lebih Besar
Dalam pengumuman larut malam yang mengejutkan, Alibaba telah membuka sumber model penalaran terbarunya, Qwen-32B (QwQ-32B). Dengan 32 miliar parameter, model ini menunjukkan kinerja yang setara dengan DeepSeek-R1 67,1 miliar parameter yang jauh lebih besar dan lengkap.
Pengumuman tim Qwen menyoroti penelitian mereka tentang penskalaan teknik reinforcement learning (RL). Mereka menyatakan, ‘Kami telah menjajaki metode untuk memperluas RL, mencapai beberapa hasil yang mengesankan berdasarkan Qwen2.5-32B kami. Kami menemukan bahwa pelatihan RL dapat terus meningkatkan kinerja, terutama dalam tugas matematika dan pengkodean. Kami mengamati bahwa penskalaan RL yang berkelanjutan dapat membantu model berukuran sedang mencapai kinerja yang sebanding dengan model MoE raksasa. Kami menyambut semua orang untuk mengobrol dengan model baru kami dan memberi kami umpan balik!’
QwQ-32B sekarang tersedia di Hugging Face dan ModelScope di bawah lisensi sumber terbuka Apache 2.0. Pengguna juga dapat berinteraksi dengan model secara langsung melalui Qwen Chat. Alat penerapan lokal yang populer, Ollama, telah mengintegrasikan dukungan, dapat diakses melalui perintah: ollama run qwq
.
Menyertai rilis tersebut, tim Qwen menerbitkan posting blog berjudul ‘QwQ-32B: Harnessing the Power of Reinforcement Learning,’ yang merinci kemajuan terobosan tersebut.
Posting blog tersebut menekankan potensi besar reinforcement learning (RL) skala besar untuk melampaui metode pra-pelatihan dan pasca-pelatihan tradisional dalam meningkatkan kinerja model. Penelitian terbaru, seperti integrasi DeepSeek-R1 dari data cold-start dan pelatihan multi-tahap, menampilkan kemampuan RL untuk secara signifikan meningkatkan kemampuan penalaran, memungkinkan pemikiran yang lebih dalam dan pemecahan masalah yang kompleks.
Eksplorasi tim Qwen berfokus pada pemanfaatan RL skala besar untuk meningkatkan kecerdasan model bahasa besar, yang berpuncak pada pembuatan QwQ-32B. Model 32 miliar parameter ini secara luar biasa menyaingi kinerja DeepSeek-R1 67,1 miliar parameter (dengan 37 miliar diaktifkan). Tim tersebut menekankan, ‘Pencapaian ini menggarisbawahi efektivitas penerapan reinforcement learning pada model dasar yang kuat dan terlatih sebelumnya.’
QwQ-32B juga menggabungkan kemampuan terkait agen, memungkinkannya untuk mengevaluasi tindakannya secara kritis saat menggunakan alat dan mengadaptasi proses penalarannya berdasarkan umpan balik lingkungan. ‘Kami berharap upaya kami menunjukkan bahwa menggabungkan model dasar yang kuat dengan reinforcement learning skala besar mungkin merupakan jalur yang layak menuju Artificial General Intelligence (AGI),’ kata tim tersebut.
Performa Model: Membandingkan QwQ-32B
QwQ-32B menjalani evaluasi ketat di berbagai tolok ukur, yang mencakup penalaran matematika, pemrograman, dan kemampuan umum. Hasilnya menampilkan kinerja QwQ-32B dibandingkan dengan model terkemuka lainnya, termasuk DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini, dan DeepSeek-R1 asli.
Temuannya sangat mencolok. QwQ-32B menunjukkan kinerja yang luar biasa, bahkan sedikit melampaui DeepSeek-R1-67B pada tolok ukur LiveBench, IFEval, dan BFCL. Ini menyoroti efisiensi dan kekuatan pendekatan reinforcement learning yang diadopsi oleh tim Qwen.
Menyelami Lebih Dalam Reinforcement Learning
Pengembangan QwQ-32B memanfaatkan reinforcement learning skala besar yang dibangun di atas fondasi cold-start. Fase awal berkonsentrasi secara khusus pada pelatihan RL untuk tugas matematika dan pemrograman. Tidak seperti pendekatan tradisional yang mengandalkan model hadiah, tim Qwen memberikan umpan balik untuk masalah matematika dengan memverifikasi kebenaran jawaban yang dihasilkan. Untuk tugas pengkodean, umpan balik berasal dari server eksekusi kode, menilai apakah kode yang dihasilkan berhasil melewati kasus uji.
Saat pelatihan berlangsung melalui beberapa iterasi, QwQ-32B menunjukkan peningkatan kinerja yang konsisten di kedua domain. Proses penyempurnaan berulang ini, dipandu oleh umpan balik langsung tentang akurasi solusi, terbukti sangat efektif.
Setelah fase RL awal yang berfokus pada matematika dan pemrograman, fase RL berikutnya diperkenalkan untuk meningkatkan kemampuan umum. Tahap ini menggunakan model hadiah umum dan validator berbasis aturan untuk pelatihan. Hasilnya menunjukkan bahwa bahkan sejumlah kecil langkah dalam RL umum dapat meningkatkan kemampuan keseluruhan tanpa memengaruhi kinerja secara signifikan pada tugas matematika dan pemrograman yang dilatih sebelumnya. Ini menunjukkan kemampuan beradaptasi dan ketahanan model.
Arah Masa Depan: Memperluas Cakrawala AI
Tim Qwen juga membagikan rencana masa depan mereka, dengan menyatakan, ‘Ini adalah langkah pertama Qwen dalam memanfaatkan reinforcement learning (RL) skala besar untuk meningkatkan kemampuan penalaran. Melalui perjalanan ini, kami tidak hanya menyaksikan potensi besar dari penskalaan RL tetapi juga mengakui kemungkinan yang belum dimanfaatkan dalam model bahasa yang telah dilatih sebelumnya. Saat kami berupaya mengembangkan Qwen generasi berikutnya, kami percaya bahwa menggabungkan model dasar yang lebih kuat dengan RL, yang didukung oleh sumber daya komputasi yang diskalakan, akan membawa kita lebih dekat untuk mencapai Artificial General Intelligence (AGI). Lebih lanjut, kami secara aktif menjajaki integrasi agen dengan RL untuk memungkinkan penalaran jangka panjang, yang bertujuan untuk membuka kecerdasan yang lebih besar melalui waktu penalaran yang diperpanjang.’ Komitmen terhadap peningkatan dan eksplorasi berkelanjutan ini menggarisbawahi dedikasi tim untuk mendorong batasan AI.
Penerimaan Komunitas: QwQ-32B Mendapat Pujian Luas
Peluncuran QwQ-32B disambut dengan antusiasme dan umpan balik positif yang luas. Komunitas AI, termasuk banyak pengguna Qwen, sangat menantikan peluncuran model baru ini.
Kegembiraan baru-baru ini seputar DeepSeek menyoroti preferensi komunitas untuk model lengkap karena keterbatasan versi yang disuling. Namun, model lengkap 67,1B parameter menghadirkan tantangan penerapan, terutama untuk perangkat edge dengan sumber daya terbatas. Qwen-32B, dengan ukurannya yang jauh lebih kecil, mengatasi masalah ini, membuka kemungkinan untuk penerapan yang lebih luas.
Seorang pengguna berkomentar, ‘Mungkin masih belum layak di ponsel, tetapi Mac dengan RAM yang cukup mungkin dapat menanganinya.’ Sentimen ini mencerminkan optimisme seputar potensi menjalankan QwQ-32B pada perangkat yang sumber dayanya terbatas.
Pengguna lain secara langsung menyapa Binyuan Hui, seorang ilmuwan di Laboratorium Tongyi Alibaba, mendesak pengembangan model yang lebih kecil. Ini menyoroti permintaan akan model AI yang semakin ringkas dan efisien.
Pengguna juga telah berbagi pengalaman mereka, memuji kecepatan dan daya tanggap model. Seorang pengguna memamerkan demonstrasi, menyoroti kemampuan pemrosesan cepat QwQ-32B.
Awni Hannun, seorang peneliti machine learning di Apple, mengonfirmasi keberhasilan eksekusi QwQ-32B pada M4 Max, mencatat kecepatannya yang mengesankan. Validasi dari peneliti terkemuka ini semakin memperkuat klaim kinerja model.
Tim Qwen juga telah menyediakan versi pratinjau QwQ-32B di antarmuka obrolan resmi mereka, Qwen Chat, mendorong pengguna untuk menguji dan memberikan umpan balik. Pendekatan interaktif ini mendorong keterlibatan komunitas dan memungkinkan evaluasi dunia nyata dari kemampuan model.
Adopsi cepat QwQ-32B oleh komunitas dan integrasinya ke dalam alat populer seperti Ollama menunjukkan signifikansi dan dampak model. Kombinasi kinerja yang kuat, ukuran model yang lebih kecil, dan penggunaan reinforcement learning yang inovatif telah memposisikan QwQ-32B sebagai kemajuan besar di bidang model bahasa besar. Sifat sumber terbuka dari model ini semakin mendorong kolaborasi dan inovasi dalam komunitas AI, membuka jalan bagi terobosan di masa depan. Fokus pada penerapan praktis dan aplikasi dunia nyata menyoroti potensi QwQ-32B untuk memiliki dampak substansial di luar pengaturan penelitian, membawa kemampuan AI canggih ke jangkauan pengguna dan perangkat yang lebih luas. Upaya penelitian dan pengembangan yang sedang berlangsung oleh tim Qwen menjanjikan kemajuan yang lebih menarik dalam mengejar AGI.