Kekuatan Reinforcement Learning
Pendekatan tradisional untuk pengembangan model AI sangat bergantung pada metode pretraining dan post-training. Namun, tim Qwen telah melampaui teknik konvensional ini dengan mengintegrasikan kemampuan agen secara langsung ke dalam model penalaran. Integrasi ini memberdayakan QwQ-32B untuk terlibat dalam pemikiran kritis, memanfaatkan alat eksternal, dan secara dinamis menyesuaikan proses penalarannya berdasarkan umpan balik dari lingkungannya. Ini merupakan langkah maju yang signifikan dalam menciptakan sistem AI yang lebih mudah beradaptasi dan cerdas.
Tim Qwen menekankan bahwa penskalaan RL berpotensi untuk membuka peningkatan kinerja yang melampaui kemampuan metode tradisional. Penelitian terbaru telah menunjukkan kemampuan RL untuk secara signifikan meningkatkan kemampuan penalaran model AI, dan QwQ-32B berfungsi sebagai contoh nyata dari potensi ini.
Menjembatani Kesenjangan Antara Ukuran dan Kinerja
Salah satu aspek paling mencolok dari QwQ-32B adalah kinerjanya relatif terhadap ukurannya. DeepSeek-R1, model yang bersaing dengan QwQ-32B, memiliki 671 miliar parameter (dengan 37 miliar diaktifkan). QwQ-32B, dengan 32 miliar parameter yang relatif sederhana, mencapai kinerja yang sebanding, menyoroti peningkatan efisiensi luar biasa yang dicapai melalui implementasi strategis RL. Pencapaian ini menantang asumsi lama bahwa ukuran model adalah penentu utama kinerja, menunjukkan bahwa teknik pelatihan yang canggih dapat menjembatani kesenjangan antara ukuran dan kemampuan.
Tolok Ukur Keunggulan
Untuk mengevaluasi kemampuan QwQ-32B secara ketat, tim Qwen menguji model tersebut dengan serangkaian tolok ukur yang komprehensif. Tolok ukur ini, termasuk AIME24, LiveCodeBench, LiveBench, IFEval, dan BFCL, dirancang khusus untuk menilai berbagai aspek kinerja AI, termasuk penalaran matematika, kemahiran pengkodean, dan kemampuan pemecahan masalah secara umum. Hasil evaluasi ini memberikan gambaran yang meyakinkan tentang kekuatan QwQ-32B.
Berikut adalah tampilan lebih dekat pada kinerja QwQ-32B pada setiap tolok ukur:
AIME24: Tolok ukur ini berfokus pada penalaran matematika. QwQ-32B mencapai skor 79,5, hanya sedikit di belakang skor DeepSeek-R1-671B sebesar 79,8. Khususnya, kedua model secara signifikan mengungguli OpenAl-o1-mini, yang mencetak skor 63,6, serta model yang disuling.
LiveCodeBench: Tolok ukur ini menilai kemahiran pengkodean. QwQ-32B mencetak skor 63,4, hampir sama dengan skor DeepSeek-R1-671B sebesar 65,9. Sekali lagi, kedua model melampaui kinerja model yang disuling dan OpenAl-o1-mini (53,8).
LiveBench: Dirancang untuk mengevaluasi kemampuan pemecahan masalah secara umum, LiveBench melihat QwQ-32B mencapai skor 73,1, mengungguli skor DeepSeek-R1-671B sebesar 71,6. Hasil ini semakin memperkuat posisi QwQ-32B sebagai pesaing kuat dalam tugas AI umum.
IFEval: Tolok ukur ini berfokus pada mengikuti instruksi dan keselarasan dengan preferensi manusia. QwQ-32B mencetak skor 83,9 yang mengesankan, hampir identik dengan skor DeepSeek-R1-671B sebesar 83,3. Kedua model secara signifikan mengungguli OpenAl-o1-mini (59,1) dan model yang disuling.
BFCL: Tolok ukur ini menguji kemampuan model untuk menangani skenario dunia nyata yang kompleks. QwQ-32B mencapai skor 66,4, melampaui skor DeepSeek-R1-671B sebesar 62,8. Hasil ini menunjukkan potensi QwQ-32B untuk aplikasi praktis di luar tolok ukur akademis.
Hasil ini secara konsisten menunjukkan kemampuan QwQ-32B untuk bersaing dengan, dan dalam beberapa kasus mengungguli, model yang jauh lebih besar. Ini menyoroti efektivitas pendekatan tim Qwen dan potensi transformatif RL dalam pengembangan AI.
Pendekatan Inovatif Tim Qwen
Keberhasilan QwQ-32B dapat dikaitkan dengan proses RL multi-tahap inovatif tim Qwen. Proses ini dimulai dengan ‘cold-start’ checkpoint, yang berarti model dimulai dengan fondasi yang telah dilatih sebelumnya tetapi kemudian secara signifikan disempurnakan melalui RL. Proses pelatihan didorong oleh imbalan berbasis hasil, memberi insentif pada model untuk meningkatkan kinerjanya pada tugas-tugas tertentu.
Tahap awal pelatihan berfokus pada penskalaan RL untuk tugas matematika dan pengkodean. Ini melibatkan pemanfaatan accuracy verifiers dan code execution servers untuk memberikan umpan balik dan memandu pembelajaran model. Model belajar untuk menghasilkan solusi matematika yang benar dan menulis kode fungsional dengan menerima imbalan untuk hasil yang sukses.
Tahap kedua memperluas cakupan pelatihan RL untuk mencakup kemampuan umum. Tahap ini menggabungkan imbalan dari model imbalan umum dan rule-based verifiers, memperluas pemahaman model tentang berbagai tugas dan instruksi. Tahap ini sangat penting untuk mengembangkan model AI yang menyeluruh yang dapat menangani berbagai tantangan.
Tim Qwen menemukan bahwa tahap kedua pelatihan RL ini, bahkan dengan jumlah langkah yang relatif kecil, dapat secara signifikan meningkatkan kinerja model di berbagai kemampuan umum. Ini termasuk mengikuti instruksi, keselarasan dengan preferensi manusia, dan kinerja agen secara keseluruhan. Yang penting, peningkatan kemampuan umum ini tidak mengorbankan kinerja dalam matematika dan pengkodean, menunjukkan efektivitas pendekatan multi-tahap.
Open-Weight dan Dapat Diakses
Dalam sebuah langkah yang mempromosikan kolaborasi dan penelitian lebih lanjut, tim Qwen telah membuat QwQ-32B open-weight. Ini berarti parameter model tersedia untuk umum, memungkinkan para peneliti dan pengembang untuk mengakses, mempelajari, dan membangun di atas pekerjaan tim Qwen. Model ini tersedia di Hugging Face dan ModelScope di bawah lisensi Apache 2.0, lisensi permisif yang mendorong penggunaan dan modifikasi yang luas. Selain itu, QwQ-32B dapat diakses melalui Qwen Chat, menyediakan antarmuka yang mudah digunakan untuk berinteraksi dengan model.
Langkah Menuju AGI
Pengembangan QwQ-32B merupakan langkah maju yang signifikan dalam mengejar Artificial General Intelligence (AGI). Tim Qwen memandang model ini sebagai eksplorasi awal penskalaan RL untuk meningkatkan kemampuan penalaran, dan mereka berencana untuk terus menyelidiki integrasi agen dengan RL untuk penalaran jangka panjang. Ini melibatkan pengembangan sistem AI yang dapat merencanakan dan melaksanakan tugas-tugas kompleks dalam jangka waktu yang lama, kemampuan penting untuk mencapai AGI.
Tim yakin bahwa menggabungkan model fondasi yang lebih kuat dengan RL, yang didukung oleh sumber daya komputasi yang diskalakan, akan menjadi pendorong utama dalam pengembangan AGI. QwQ-32B berfungsi sebagai demonstrasi yang kuat dari potensi ini, menampilkan peningkatan kinerja luar biasa yang dapat dicapai melalui implementasi RL yang strategis. Upaya penelitian dan pengembangan yang sedang berlangsung dari tim Qwen, bersama dengan sifat open-source dari QwQ-32B, menjanjikan untuk mempercepat kemajuan di bidang AI dan membawa kita lebih dekat ke realisasi mesin yang benar-benar cerdas. Fokusnya tidak lagi hanya pada membangun model yang lebih besar, tetapi pada menciptakan sistem yang lebih cerdas dan mudah beradaptasi melalui teknik pelatihan yang inovatif.