Alibaba Lancar Qwen-32B: Pencabar Model Besar

Alibaba Melancarkan Qwen-32B: Kuasa Padat Mencabar Model Lebih Besar

Dalam pengumuman lewat malam yang mengejutkan, Alibaba telah membuka sumber model penaakulan terbarunya, Qwen-32B (QwQ-32B). Dengan 32 bilion parameter, model ini menunjukkan prestasi setanding dengan DeepSeek-R1 67.1 bilion parameter yang lebih besar dan lengkap.

Pengumuman pasukan Qwen menyerlahkan penyelidikan mereka ke dalam teknik penskalaan pembelajaran pengukuhan (RL). Mereka menyatakan, ‘Kami telah meneroka kaedah untuk melanjutkan RL, mencapai beberapa keputusan yang mengagumkan berdasarkan Qwen2.5-32B kami. Kami mendapati bahawa latihan RL boleh terus meningkatkan prestasi, terutamanya dalam tugas matematik dan pengekodan. Kami memerhatikan bahawa penskalaan berterusan RL boleh membantu model bersaiz sederhana mencapai prestasi yang setanding dengan model MoE gergasi. Kami mengalu-alukan semua orang untuk bersembang dengan model baharu kami dan memberi kami maklum balas!’

QwQ-32B kini tersedia di Hugging Face dan ModelScope di bawah lesen sumber terbuka Apache 2.0. Pengguna juga boleh berinteraksi dengan model secara langsung melalui Qwen Chat. Alat penggunaan tempatan yang popular, Ollama, telah pun menyepadukan sokongan, boleh diakses melalui arahan: ollama run qwq.

Bersama dengan keluaran itu, pasukan Qwen menerbitkan catatan blog bertajuk ‘QwQ-32B: Harnessing the Power of Reinforcement Learning,’ yang memperincikan kemajuan terobosan itu.

Catatan blog itu menekankan potensi besar pembelajaran pengukuhan berskala besar (RL) untuk mengatasi kaedah pra-latihan dan pasca latihan tradisional dalam meningkatkan prestasi model. Penyelidikan terkini, seperti penyepaduan data permulaan sejuk dan latihan berbilang peringkat DeepSeek-R1, mempamerkan keupayaan RL untuk meningkatkan keupayaan penaakulan dengan ketara, membolehkan pemikiran yang lebih mendalam dan penyelesaian masalah yang kompleks.

Penerokaan pasukan Qwen tertumpu pada memanfaatkan RL berskala besar untuk meningkatkan kecerdasan model bahasa besar, yang memuncak dalam penciptaan QwQ-32B. Model 32 bilion parameter ini sangat menyaingi prestasi DeepSeek-R1 67.1 bilion parameter (dengan 37 bilion diaktifkan). Pasukan itu menekankan, ‘Pencapaian ini menggariskan keberkesanan menggunakan pembelajaran pengukuhan kepada model asas yang teguh dan terlatih.’

QwQ-32B juga menggabungkan keupayaan berkaitan ejen, membolehkannya menilai tindakannya secara kritis semasa menggunakan alatan dan menyesuaikan proses penaakulannya berdasarkan maklum balas persekitaran. ‘Kami berharap usaha kami menunjukkan bahawa menggabungkan model asas yang berkuasa dengan pembelajaran pengukuhan berskala besar mungkin merupakan laluan yang berdaya maju ke arah Artificial General Intelligence (AGI),’ kata pasukan itu.

Prestasi Model: Penandaarasan QwQ-32B

QwQ-32B menjalani penilaian yang ketat merentasi pelbagai penanda aras, merangkumi penaakulan matematik, pengaturcaraan dan keupayaan umum. Keputusan mempamerkan prestasi QwQ-32B berbanding model terkemuka lain, termasuk DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini, dan DeepSeek-R1 yang asal.

Penemuan itu amat menarik. QwQ-32B menunjukkan prestasi yang luar biasa, malah sedikit mengatasi DeepSeek-R1-67B pada penanda aras LiveBench, IFEval dan BFCL. Ini menyerlahkan kecekapan dan kuasa pendekatan pembelajaran pengukuhan yang diguna pakai oleh pasukan Qwen.

Selami Pembelajaran Pengukuhan

Pembangunan QwQ-32B memanfaatkan pembelajaran pengukuhan berskala besar yang dibina di atas asas permulaan sejuk. Fasa awal tertumpu khusus pada latihan RL untuk tugas matematik dan pengaturcaraan. Tidak seperti pendekatan tradisional yang bergantung pada model ganjaran, pasukan Qwen memberikan maklum balas untuk masalah matematik dengan mengesahkan ketepatan jawapan yang dijana. Untuk tugas pengekodan, maklum balas diperoleh daripada pelayan pelaksanaan kod, menilai sama ada kod yang dijana berjaya melepasi kes ujian.

Apabila latihan berjalan melalui pelbagai lelaran, QwQ-32B mempamerkan peningkatan prestasi yang konsisten dalam kedua-dua domain. Proses penapisan berulang ini, dibimbing oleh maklum balas langsung tentang ketepatan penyelesaian, terbukti sangat berkesan.

Berikutan fasa RL awal yang tertumpu pada matematik dan pengaturcaraan, fasa RL seterusnya diperkenalkan untuk meningkatkan keupayaan umum. Peringkat ini menggunakan model ganjaran umum dan pengesah berasaskan peraturan untuk latihan. Keputusan menunjukkan bahawa walaupun sebilangan kecil langkah dalam RL umum boleh meningkatkan keupayaan keseluruhan tanpa menjejaskan prestasi dengan ketara pada tugas matematik dan pengaturcaraan yang dilatih sebelum ini. Ini menunjukkan kebolehsuaian dan keteguhan model.

Hala Tuju Masa Depan: Meluaskan Cakrawala AI

Pasukan Qwen juga berkongsi rancangan masa depan mereka, dengan menyatakan, ‘Ini adalah langkah pertama Qwen dalam memanfaatkan pembelajaran pengukuhan berskala besar (RL) untuk meningkatkan keupayaan penaakulan. Melalui perjalanan ini, kami bukan sahaja menyaksikan potensi besar penskalaan RL tetapi juga mengiktiraf kemungkinan yang belum diterokai dalam model bahasa pra-terlatih. Sambil kami berusaha ke arah membangunkan generasi Qwen seterusnya, kami percaya bahawa menggabungkan model asas yang lebih berkuasa dengan RL, dikuasakan oleh sumber pengiraan berskala, akan membawa kami lebih dekat untuk mencapai Artificial General Intelligence (AGI). Tambahan pula, kami sedang giat meneroka penyepaduan ejen dengan RL untuk membolehkan penaakulan jangka panjang, bertujuan untuk membuka kunci kecerdasan yang lebih besar melalui masa penaakulan yang dilanjutkan.’ Komitmen terhadap penambahbaikan dan penerokaan berterusan ini menggariskan dedikasi pasukan untuk menolak sempadan AI.

Penerimaan Komuniti: QwQ-32B Mendapat Pujian Meluas

Keluaran QwQ-32B telah disambut dengan semangat dan maklum balas positif yang meluas. Komuniti AI, termasuk ramai pengguna Qwen, tidak sabar-sabar menantikan pelancaran model baharu ini.

Keghairahan baru-baru ini mengenai DeepSeek menyerlahkan keutamaan komuniti untuk model lengkap kerana had versi yang ditapis. Walau bagaimanapun, model lengkap parameter 67.1B membentangkan cabaran penggunaan, terutamanya untuk peranti pinggir dengan sumber terhad. Qwen-32B, dengan saiznya yang dikurangkan dengan ketara, menangani kebimbangan ini, membuka kemungkinan untuk penggunaan yang lebih luas.

Seorang pengguna mengulas, ‘Ia mungkin masih tidak boleh dilaksanakan pada telefon mudah alih, tetapi Mac dengan RAM yang mencukupi mungkin boleh mengendalikannya.’ Sentimen ini mencerminkan keyakinan mengenai potensi untuk menjalankan QwQ-32B pada peranti yang terhad sumber.

Pengguna lain secara langsung সম্বোধন Binyuan Hui, seorang saintis di Makmal Tongyi Alibaba, menggesa pembangunan model yang lebih kecil. Ini menyerlahkan permintaan untuk model AI yang semakin padat dan cekap.

Pengguna juga telah berkongsi pengalaman mereka, memuji kelajuan dan responsif model. Seorang pengguna mempamerkan demonstrasi, menyerlahkan keupayaan pemprosesan pantas QwQ-32B.

Awni Hannun, seorang penyelidik pembelajaran mesin di Apple, mengesahkan pelaksanaan QwQ-32B yang berjaya pada M4 Max, mencatatkan kelajuannya yang mengagumkan. Pengesahan daripada penyelidik terkemuka ini mengukuhkan lagi tuntutan prestasi model.

Pasukan Qwen juga telah menyediakan versi pratonton QwQ-32B pada antara muka sembang rasmi mereka, Qwen Chat, menggalakkan pengguna untuk menguji dan memberikan maklum balas. Pendekatan interaktif ini memupuk penglibatan komuniti dan membolehkan penilaian dunia sebenar keupayaan model.

Penggunaan pantas QwQ-32B oleh komuniti dan penyepaduannya ke dalam alatan popular seperti Ollama menunjukkan kepentingan dan impak model. Gabungan prestasi yang kukuh, saiz model yang lebih kecil, dan penggunaan inovatif pembelajaran pengukuhan telah meletakkan QwQ-32B sebagai kemajuan besar dalam bidang model bahasa besar. Sifat sumber terbuka model ini menggalakkan lagi kerjasama dan inovasi dalam komuniti AI, membuka jalan untuk kejayaan masa depan. Tumpuan pada penggunaan praktikal dan aplikasi dunia sebenar menyerlahkan potensi QwQ-32B untuk memberi impak yang besar di luar tetapan penyelidikan, membawa keupayaan AI lanjutan kepada rangkaian pengguna dan peranti yang lebih luas. Usaha penyelidikan dan pembangunan yang berterusan oleh pasukan Qwen menjanjikan kemajuan yang lebih menarik dalam usaha mencapai AGI.