Berapa banyakkah pembelajaran pengukuhan, yang disokong oleh beberapa pengesahan tambahan, dapat meningkatkan keupayaan model bahasa besar (LLM)? Pasukan Qwen Alibaba sedang dalam usaha untuk mencari jawapannya dengan ciptaan terbaru mereka, QwQ.
QwQ, model ‘penaakulan’, mempunyai 32 bilion parameter yang agak padat. Namun, Alibaba mendakwa ia mengatasi DeepSeek R1, dengan 671 bilion parameternya yang besar, dalam penanda aras khusus yang berkaitan dengan matematik, pengekodan, dan panggilan fungsi.
Pasukan Qwen, serupa dengan pendekatan yang diambil dengan R1, menggunakan pembelajaran pengukuhan untuk memperhalusi penaakulan rantaian pemikiran QwQ. Kaedah ini meningkatkan keupayaan analisis dan pemecahan masalah. Pembelajaran pengukuhan secara tradisinya mengukuhkan penaakulan bertahap dengan memberi ganjaran kepada model untuk jawapan yang betul, sekali gus memupuk respons yang lebih tepat. Walau bagaimanapun, QwQ mengambil langkah lebih jauh dengan menggabungkan pengesah ketepatan dan pelayan pelaksanaan kod. Ini memastikan bahawa ganjaran diberikan secara eksklusif untuk penyelesaian matematik yang tepat dan kod berfungsi.
Pasukan Qwen menegaskan bahawa pendekatan ini menghasilkan model yang mengatasi saiznya, mencapai prestasi yang setanding dengan, dan kadangkala melebihi, model yang jauh lebih besar.
Walau bagaimanapun, penanda aras AI boleh mengelirukan. Oleh itu, mari kita periksa bagaimana dakwaan ini diterjemahkan kepada senario dunia sebenar dan kemudian kami akan membimbing anda tentang cara untuk menyediakan dan menjalankan QwQ secara bebas.
Penilaian Prestasi
Kami menundukkan QwQ kepada satu siri prom ujian, merangkumi pengetahuan am, penaakulan spatial, penyelesaian masalah, matematik, dan pertanyaan lain yang diketahui mencabar walaupun LLM yang paling maju.
Disebabkan oleh keperluan memori model penuh yang besar, kami menjalankan ujian kami dalam dua konfigurasi untuk menampung pengguna dengan kapasiti RAM yang berbeza-beza. Pada mulanya, kami menilai model penuh menggunakan demo QwQ di Hugging Face. Selepas itu, kami menguji versi terkuantisasi 4-bit pada GPU 24 GB (Nvidia 3090 atau AMD Radeon RX 7900XTX) untuk mengukur kesan kuantisasi pada ketepatan.
Untuk kebanyakan soalan pengetahuan am, QwQ mempamerkan prestasi yang serupa dengan R1 671 bilion parameter DeepSeek dan model penaakulan lain seperti o3-mini OpenAI, berhenti seketika untuk merumuskan fikirannya sebelum memberikan jawapan.
Kekuatan model, mungkin tidak menghairankan, menjadi jelas apabila menangani cabaran logik, pengekodan, atau matematik yang lebih rumit. Mari kita mendalami bidang ini sebelum menangani beberapa batasannya.
Kehebatan Penaakulan Spatial
Kami mulakan dengan ujian penaakulan spatial yang agak novel yang direka oleh Homebrew Research sebagai sebahagian daripada projek AlphaMaze mereka.
Ujian membentangkan model dengan maze dalam format teks, seperti yang ditunjukkan di bawah. Tugas model adalah untuk menavigasi dari asal ‘O’ ke sasaran ‘T’.