Berapa banyak reinforcement learning, yang didukung oleh beberapa verifikasi tambahan, dapat meningkatkan kemampuan model bahasa besar (LLMs)? Tim Qwen Alibaba sedang dalam upaya untuk mencari tahu dengan kreasi terbaru mereka, QwQ.
QwQ, model ‘penalaran’, memiliki 32 miliar parameter yang relatif ringkas. Namun, Alibaba mengklaim bahwa model ini melampaui DeepSeek R1, dengan 671 miliar parameternya yang masif, dalam benchmark khusus yang terkait dengan matematika, pengkodean, dan pemanggilan fungsi.
Tim Qwen, mirip dengan pendekatan yang diambil dengan R1, menggunakan reinforcement learning untuk menyempurnakan penalaran chain-of-thought QwQ. Metode ini meningkatkan kemampuan analisis dan pemecahan masalah. Reinforcement learning secara tradisional memperkuat penalaran bertahap dengan memberi penghargaan kepada model untuk jawaban yang benar, sehingga mendorong respons yang lebih akurat. Namun, QwQ mengambil langkah lebih jauh dengan menggabungkan pemverifikasi akurasi dan server eksekusi kode. Ini memastikan bahwa hadiah diberikan secara eksklusif untuk solusi matematika yang akurat dan kode fungsional.
Tim Qwen menegaskan bahwa pendekatan ini menghasilkan model yang mengungguli ukurannya, mencapai kinerja yang sebanding dengan, dan terkadang bahkan melebihi, model yang jauh lebih besar.
Namun, tolok ukur AI bisa menipu. Jadi, mari kita periksa bagaimana klaim ini diterjemahkan ke dalam skenario dunia nyata dan kemudian kami akan memandu Anda tentang cara menjalankan QwQ secara independen.
Evaluasi Performa
Kami menguji QwQ dengan serangkaian prompt pengujian, yang mencakup pengetahuan umum, penalaran spasial, pemecahan masalah, matematika, dan pertanyaan lain yang diketahui menantang bahkan LLM tercanggih sekalipun.
Karena persyaratan memori model lengkap yang substansial, kami melakukan pengujian kami dalam dua konfigurasi untuk melayani pengguna dengan kapasitas RAM yang berbeda-beda. Awalnya, kami menilai model lengkap menggunakan demo QwQ di Hugging Face. Selanjutnya, kami menguji versi kuantisasi 4-bit pada GPU 24 GB (Nvidia 3090 atau AMD Radeon RX 7900XTX) untuk mengukur dampak kuantisasi pada akurasi.
Untuk sebagian besar pertanyaan pengetahuan umum, QwQ menunjukkan kinerja yang mirip dengan R1 671 miliar parameter DeepSeek dan model penalaran lainnya seperti o3-mini OpenAI, berhenti sejenak untuk merumuskan pemikirannya sebelum memberikan jawaban.
Kekuatan model, mungkin tidak mengherankan, menjadi jelas ketika menangani logika, pengkodean, atau tantangan matematika yang lebih rumit. Mari kita selidiki area ini sebelum membahas beberapa keterbatasannya.
Kemampuan Penalaran Spasial
Kami memulai dengan tes penalaran spasial yang relatif baru yang dirancang oleh Homebrew Research sebagai bagian dari proyek AlphaMaze mereka.
Tes menyajikan model dengan labirin dalam format teks, seperti yang ditunjukkan di bawah ini. Tugas model adalah menavigasi dari titik asal ‘O’ ke target ‘T’.