QwQ-32B Alibaba: Penemuan Pembelajaran Pengukuhan

Kuasa Pembelajaran Pengukuhan

Pendekatan tradisional untuk pembangunan model AI banyak bergantung pada kaedah pra-latihan dan pasca-latihan. Walau bagaimanapun, pasukan Qwen telah meneroka di luar teknik konvensional ini dengan menyepadukan keupayaan ejen terus ke dalam model penaakulan. Integrasi ini memperkasakan QwQ-32B untuk terlibat dalam pemikiran kritis, menggunakan alat luaran, dan menyesuaikan secara dinamik proses penaakulannya berdasarkan maklum balas daripada persekitarannya. Ini merupakan satu langkah penting ke hadapan dalam mencipta sistem AI yang lebih mudah menyesuaikan diri dan pintar.

Pasukan Qwen menekankan bahawa penskalaan RL berpotensi untuk membuka kunci peningkatan prestasi yang mengatasi keupayaan kaedah tradisional. Penyelidikan baru-baru ini telah menunjukkan keupayaan RL untuk meningkatkan keupayaan penaakulan model AI dengan ketara, dan QwQ-32B berfungsi sebagai contoh yang menarik tentang potensi ini dalam tindakan.

Merapatkan Jurang Antara Saiz dan Prestasi

Salah satu aspek yang paling menarik bagi QwQ-32B ialah prestasinya berbanding saiznya. DeepSeek-R1, model yang ditandingi oleh QwQ-32B, mempunyai 671 bilion parameter yang mengejutkan (dengan 37 bilion diaktifkan). QwQ-32B, dengan 32 bilion parameter yang agak sederhana, mencapai prestasi yang setanding, menyerlahkan keuntungan kecekapan luar biasa yang dicapai melalui pelaksanaan strategik RL. Pencapaian ini mencabar andaian lama bahawa saiz model adalah penentu utama prestasi, menunjukkan bahawa teknik latihan yang canggih boleh merapatkan jurang antara saiz dan keupayaan.

Penanda Aras Kecemerlangan

Untuk menilai keupayaan QwQ-32B dengan teliti, pasukan Qwen menyerahkan model itu kepada set penanda aras yang komprehensif. Penanda aras ini, termasuk AIME24, LiveCodeBench, LiveBench, IFEval, dan BFCL, direka khusus untuk menilai pelbagai aspek prestasi AI, termasuk penaakulan matematik, kecekapan pengekodan, dan kebolehan menyelesaikan masalah am. Keputusan penilaian ini memberikan gambaran yang menarik tentang kekuatan QwQ-32B.

Berikut ialah pandangan yang lebih dekat pada prestasi QwQ-32B pada setiap penanda aras:

  • AIME24: Penanda aras ini memfokuskan pada penaakulan matematik. QwQ-32B mencapai skor 79.5, hanya sedikit di belakang skor DeepSeek-R1-671B iaitu 79.8. Terutama, kedua-dua model mengatasi OpenAl-o1-mini dengan ketara, yang mencatatkan 63.6, serta model yang ditapis.

  • LiveCodeBench: Penanda aras ini menilai kecekapan pengekodan. QwQ-32B mencatatkan 63.4, hampir menyamai skor DeepSeek-R1-671B iaitu 65.9. Sekali lagi, kedua-dua model mengatasi prestasi model yang ditapis dan OpenAl-o1-mini (53.8).

  • LiveBench: Direka untuk menilai keupayaan penyelesaian masalah am, LiveBench menyaksikan QwQ-32B mencapai skor 73.1, mengatasi skor DeepSeek-R1-671B iaitu 71.6. Keputusan ini mengukuhkan lagi kedudukan QwQ-32B sebagai pesaing kuat dalam tugas AI am.

  • IFEval: Penanda aras ini memfokuskan pada mengikuti arahan dan penjajaran dengan keutamaan manusia. QwQ-32B mencatatkan 83.9 yang mengagumkan, hampir sama dengan skor DeepSeek-R1-671B iaitu 83.3. Kedua-dua model mengatasi OpenAl-o1-mini (59.1) dan model yang ditapis dengan ketara.

  • BFCL: Penanda aras ini menguji keupayaan model untuk mengendalikan senario dunia sebenar yang kompleks. QwQ-32B mencapai skor 66.4, mengatasi skor DeepSeek-R1-671B iaitu 62.8. Keputusan ini menunjukkan potensi QwQ-32B untuk aplikasi praktikal di luar penanda aras akademik semata-mata.

Keputusan ini secara konsisten menunjukkan keupayaan QwQ-32B untuk bersaing dengan, dan dalam beberapa kes mengatasi, model yang jauh lebih besar. Ini menyerlahkan keberkesanan pendekatan pasukan Qwen dan potensi transformatif RL dalam pembangunan AI.

Pendekatan Inovatif Pasukan Qwen

Kejayaan QwQ-32B boleh dikaitkan dengan proses RL berbilang peringkat yang inovatif oleh pasukan Qwen. Proses ini bermula dengan ‘cold-start’ checkpoint, bermakna model bermula dengan asas pra-latihan tetapi kemudiannya diperhalusi dengan ketara melalui RL. Proses latihan didorong oleh ganjaran berasaskan hasil, memberi insentif kepada model untuk meningkatkan prestasinya pada tugas tertentu.

Peringkat awal latihan memfokuskan pada penskalaan RL untuk tugas matematik dan pengekodan. Ini melibatkan penggunaan pengesah ketepatan dan pelayan pelaksanaan kod untuk memberikan maklum balas dan membimbing pembelajaran model. Model ini belajar untuk menjana penyelesaian matematik yang betul dan menulis kod berfungsi dengan menerima ganjaran untuk hasil yang berjaya.

Peringkat kedua meluaskan skop latihan RL untuk merangkumi keupayaan am. Peringkat ini menggabungkan ganjaran daripada model ganjaran am dan pengesah berasaskan peraturan, meluaskan pemahaman model tentang pelbagai tugas dan arahan. Peringkat ini adalah penting untuk membangunkan model AI yang serba boleh yang boleh mengendalikan pelbagai cabaran.

Pasukan Qwen mendapati bahawa peringkat kedua latihan RL ini, walaupun dengan bilangan langkah yang agak kecil, boleh meningkatkan prestasi model dengan ketara merentas pelbagai keupayaan am. Ini termasuk mengikuti arahan, penjajaran dengan keutamaan manusia, dan prestasi ejen keseluruhan. Yang penting, peningkatan dalam keupayaan am ini tidak menjejaskan prestasi dalam matematik dan pengekodan, menunjukkan keberkesanan pendekatan berbilang peringkat.

Sumber Terbuka dan Boleh Diakses

Dalam satu langkah yang menggalakkan kerjasama dan penyelidikan lanjut, pasukan Qwen telah menjadikan QwQ-32B sebagai sumber terbuka. Ini bermakna parameter model tersedia secara umum, membolehkan penyelidik dan pembangun mengakses, mengkaji dan membina kerja pasukan Qwen. Model ini tersedia di Hugging Face dan ModelScope di bawah lesen Apache 2.0, lesen permisif yang menggalakkan penggunaan dan pengubahsuaian yang meluas. Selain itu, QwQ-32B boleh diakses melalui Qwen Chat, menyediakan antara muka mesra pengguna untuk berinteraksi dengan model.

Satu Langkah Ke Arah AGI

Pembangunan QwQ-32B merupakan satu langkah penting ke hadapan dalam usaha mencapai Artificial General Intelligence (AGI). Pasukan Qwen melihat model ini sebagai penerokaan awal penskalaan RL untuk meningkatkan keupayaan penaakulan, dan mereka merancang untuk terus menyiasat penyepaduan ejen dengan RL untuk penaakulan jangka panjang. Ini melibatkan pembangunan sistem AI yang boleh merancang dan melaksanakan tugas yang kompleks dalam tempoh yang panjang, keupayaan penting untuk mencapai AGI.

Pasukan itu yakin bahawa menggabungkan model asas yang lebih kukuh dengan RL, dikuasakan oleh sumber pengiraan berskala, akan menjadi pemacu utama dalam pembangunan AGI. QwQ-32B berfungsi sebagai demonstrasi yang kuat tentang potensi ini, mempamerkan keuntungan prestasi luar biasa yang boleh dicapai melalui pelaksanaan RL yang strategik. Usaha penyelidikan dan pembangunan berterusan pasukan Qwen, bersama-sama dengan sifat sumber terbuka QwQ-32B, menjanjikan untuk mempercepatkan kemajuan dalam bidang AI dan membawa kita lebih dekat kepada realisasi mesin yang benar-benar pintar. Tumpuan bukan lagi semata-mata pada membina model yang lebih besar, tetapi pada mencipta sistem yang lebih pintar dan mudah menyesuaikan diri melalui teknik latihan yang inovatif.