Menantang Para Raksasa: Penantang Ringkas
Tim Qwen Alibaba telah memasuki arena dengan kreasi terbaru mereka, QwQ, sebuah model yang bertujuan untuk menantang kinerja model-model yang lebih besar sambil mempertahankan footprint yang sangat ringkas. QwQ, meskipun hanya memiliki 32 miliar parameter dibandingkan dengan klaim DeepSeek R1 yang mencapai 671 miliar, diposisikan sebagai model “penalaran”. Alibaba menegaskan bahwa model yang relatif kecil ini dapat melampaui R1 dalam tolok ukur tertentu, terutama di bidang-bidang seperti matematika, pengkodean, dan pemanggilan fungsi. Klaim ambisius ini memerlukan pengamatan lebih dekat pada cara kerja internal dan kinerja dunia nyata QwQ.
Reinforcement Learning: Kunci Kehebatan QwQ
Mirip dengan DeepSeek R1, tim Qwen menggunakan reinforcement learning (RL) untuk menyempurnakan kemampuan penalaran chain-of-thought QwQ. Metode ini meningkatkan kemampuan model untuk menganalisis dan menguraikan masalah kompleks langkah demi langkah. Pendekatan tradisional dalam RL melibatkan pemberian reward kepada model untuk jawaban yang benar, sehingga memperkuat respons yang akurat.
Namun, tim Qwen mengambil pendekatan yang lebih bernuansa dengan QwQ. Mereka mengintegrasikan verifikator akurasi dan server eksekusi kode. Penambahan penting ini memastikan bahwa reward hanya diberikan untuk solusi yang benar secara matematis dan kode yang fungsional. Dengan menerapkan proses verifikasi yang ketat ini, tim bertujuan untuk mengembangkan model yang menunjukkan tingkat presisi dan keandalan yang lebih tinggi.
Klaim Performa: Pemeriksaan Realitas
Upaya tim Qwen, klaim mereka, telah menghasilkan model yang secara signifikan melampaui kelas beratnya. Mereka menegaskan bahwa QwQ mencapai tingkat kinerja yang setara dengan, dan dalam beberapa kasus bahkan melebihi, model yang jauh lebih besar.
Namun, dunia tolok ukur AI bisa menjadi rumit. Sangat penting untuk melampaui angka yang dilaporkan dan memeriksa bagaimana klaim ini diterjemahkan ke dalam skenario praktis di dunia nyata.
Pengujian Langsung: Menjalankan QwQ Melalui Langkahnya
Untuk menilai kemampuan QwQ, serangkaian prompt pengujian dirancang, yang mencakup berbagai domain. Ini termasuk pengetahuan umum, penalaran spasial, pemecahan masalah, matematika, dan tantangan lain yang diketahui menimbulkan kesulitan bahkan untuk model bahasa besar (LLM) yang paling canggih sekalipun.
Karena kebutuhan memori yang substansial dari model lengkap, pengujian dijalankan dalam dua konfigurasi. Pertama, model lengkap dievaluasi menggunakan demo QwQ di Hugging Face. Ini memungkinkan penilaian potensi penuhnya. Kedua, versi terkuantisasi 4-bit diuji pada GPU 24GB (khususnya, Nvidia 3090 atau AMD Radeon RX 7900XTX). Konfigurasi ini bertujuan untuk mengukur dampak kuantisasi pada akurasi model, membuatnya lebih mudah diakses oleh pengguna dengan perangkat keras yang kurang kuat.
Pengetahuan Umum: Mempertahankan Posisinya
Sebagai tanggapan atas sebagian besar pertanyaan pengetahuan umum, QwQ menunjukkan kinerja yang sebanding dengan R1 671 miliar parameter DeepSeek dan model penalaran lainnya seperti o3-mini OpenAI. Model biasanya membutuhkan waktu beberapa detik untuk merumuskan pemikirannya sebelum memberikan jawaban atas pertanyaan tersebut. Perilaku ini merupakan ciri khas model penalaran, yang memprioritaskan pertimbangan yang cermat daripada respons langsung.
Unggul dalam Kompleksitas: Logika, Pengkodean, dan Matematika
Di mana QwQ benar-benar mulai membedakan dirinya adalah dalam mengatasi tantangan yang lebih rumit yang melibatkan logika, pengkodean, atau matematika. Mari kita selidiki area ini, menyoroti kekuatannya dan mengatasi beberapa area di mana ia gagal.
Penalaran Spasial: Menavigasi Labirin
Tes penalaran spasial yang relatif baru, yang dikembangkan oleh Homebrew Research sebagai bagian dari proyek AlphaMaze mereka, digunakan untuk mengevaluasi QwQ.
Baik instance QwQ yang dihosting secara lokal maupun model berukuran penuh secara konsisten berhasil memecahkan teka-teki ini. Namun, setiap proses memang membutuhkan waktu beberapa menit untuk menyelesaikannya. Ini menunjukkan bahwa meskipun QwQ dapat menangani penalaran spasial secara efektif, ia tidak selalu yang tercepat dalam melakukannya.
Sebaliknya, R1 DeepSeek dan distilasi 32B-nya menunjukkan perilaku yang berbeda. Kedua model berhasil memecahkan labirin pertama. Namun, R1 kesulitan dengan yang kedua, sedangkan distilasi 32B mencapai tingkat keberhasilan 90% pada labirin kedua. Variabilitas ini tidak sepenuhnya tidak terduga, mengingat R1 dan distilasi menggunakan model dasar yang berbeda.
Sementara QwQ menunjukkan kinerja yang unggul dibandingkan dengan DeepSeek dalam tes khusus ini, beberapa perilaku tidak biasa diamati dengan model 4-bit. Awalnya, dibutuhkan hampir dua kali lebih banyak token ‘pemikiran’ untuk menyelesaikan tes. Ini awalnya menyarankan potensi kerugian karena kuantisasi. Namun, penyelidikan lebih lanjut mengungkapkan bahwa model terkuantisasi, dalam keadaan awalnya, menunjukkan kinerja yang kurang optimal. Menyesuaikan hyperparameter dan menjalankan kembali tes menyelesaikan masalah ini, menunjukkan pentingnya konfigurasi yang tepat.
Pengkodean Satu Kali: Kekuatan Potensial
QwQ telah menarik perhatian yang cukup besar karena potensinya dalam pembuatan kode ‘satu kali’ – kemampuan untuk menghasilkan kode yang dapat digunakan pada percobaan pertama. Area khusus ini tampaknya menjadi kekuatan yang signifikan untuk model tersebut.
Model tersebut ditugaskan untuk membuat ulang beberapa game yang relatif sederhana di Python menggunakan library pygame. Game yang dipilih adalah Pong, Breakout, Asteroids, dan Flappy Bird.
QwQ menangani Pong dan Breakout dengan relatif mudah. Setelah beberapa menit pemrosesan, model menghasilkan versi kerja dari kedua game.
Namun, ketika ditugaskan untuk membuat ulang Asteroids, QwQ mengalami kesulitan. Meskipun kode yang dihasilkan berjalan, grafik dan mekanisme permainan sering kali terdistorsi dan buggy. Sebaliknya, R1, pada percobaan pertamanya, dengan setia menciptakan kembali penembak arcade klasik.
Penting untuk mempertimbangkan data pelatihan untuk model-model ini. Mereka telah terpapar sejumlah besar kode sumber yang tersedia secara terbuka, kemungkinan termasuk reproduksi game klasik. Ini menimbulkan pertanyaan apakah model hanya mengingat informasi yang dipelajari daripada secara independen menurunkan mekanisme permainan dari awal. Ini menggarisbawahi sifat fundamental dari jaringan saraf masif ini, di mana kecerdasan yang tampak sering kali berasal dari pengenalan pola yang ekstensif.
Bahkan dengan keterbatasan ini, kinerja QwQ dalam menciptakan kembali game arcade klasik sangat mengesankan, terutama mengingat jumlah parameternya. Ini mungkin tidak cocok dengan R1 di setiap tes, tetapi ini menunjukkan tingkat kemampuan yang luar biasa. Ungkapan ‘tidak ada pengganti untuk perpindahan’, yang sering digunakan di dunia otomotif, mungkin relevan di sini. Ini bisa menjelaskan mengapa Alibaba sedang mengembangkan versi ‘Max’ dari QwQ, meskipun tidak mungkin dapat dijalankan pada perangkat keras konsumen dalam waktu dekat.
Dibandingkan dengan distilasi Qwen 2.5 32B R1 DeepSeek yang berukuran sama, keputusan Alibaba untuk mengintegrasikan server eksekusi kode ke dalam pipeline reinforcement learning-nya mungkin telah memberikan keuntungan dalam tantangan terkait pemrograman.
Matematika: Kemampuan dengan Peringatan
Secara historis, LLM telah berjuang dengan matematika, konsekuensi dari pelatihan yang berfokus pada bahasa. Sementara model yang lebih baru telah menunjukkan peningkatan, QwQ masih menghadapi tantangan, meskipun tidak selalu karena alasan yang mungkin diharapkan.
QwQ berhasil memecahkan semua soal matematika yang sebelumnya diajukan ke R1. Ini menunjukkan bahwa QwQ dapat menangani aritmatika dasar dan bahkan beberapa aljabar. Namun, masalahnya terletak pada efisiensinya. Melibatkan LLM untuk perhitungan matematis tampaknya kontra-intuitif ketika kalkulator dan komputasi langsung tetap tersedia dan jauh lebih cepat.
Misalnya, memecahkan persamaan sederhana seperti 7*43
mengharuskan QwQ untuk menghasilkan lebih dari 1.000 token, membutuhkan waktu sekitar 23 detik pada RTX 3090 Ti. Ini adalah tugas yang dapat diselesaikan pada kalkulator saku dalam waktu yang jauh lebih singkat.
Inefisiensi menjadi lebih jelas dengan perhitungan yang lebih besar. Memecahkan 3394*35979
, masalah perkalian di luar kemampuan sebagian besar model non-penalaran, membutuhkan instance lokal QwQ tiga menit dan lebih dari 5.000 token untuk dihitung.
Sebelum perbaikan hyperparameter, persamaan yang sama membutuhkan waktu sembilan menit dan hampir 12.000 token.
Kunci utama di sini adalah bahwa meskipun sebuah model mungkin mampu memaksakan jalannya ke jawaban yang benar, itu tidak berarti bahwa itu adalah alat yang optimal untuk pekerjaan itu. Pendekatan yang lebih praktis adalah dengan memberi QwQ akses ke kalkulator Python. Ini memanfaatkan kekuatan model sambil memindahkan tugas-tugas intensif komputasi ke alat yang lebih sesuai.
Ketika ditugaskan untuk memecahkan persamaan 3394*35979
yang sama menggunakan perkakas, waktu respons QwQ turun menjadi delapan detik, karena kalkulator menangani pekerjaan berat.
Prevalensi ‘Tunggu’: Sekilas tentang Proses Berpikir
Memeriksa ‘pemikiran’ QwQ mengungkapkan seringnya kemunculan kata ‘tunggu’, terutama selama tugas-tugas kompleks atau soal cerita. Ini mencerminkan proses internal model untuk memeriksa pekerjaannya terhadap hasil alternatif.
Meskipun perilaku ini umum dalam model penalaran, hal itu bisa sangat frustasi ketika QwQ menghasilkan jawaban yang salah, bahkan setelah menunjukkan pemahaman tentang jawaban yang benar selama proses ‘pemikiran’-nya.
Masalah ini sering ditemui selama pengujian. Salah satu contoh yang paling ilustratif adalah adaptasi AutoGen AI dari masalah serigala, kambing, dan kubis klasik. Teka-teki ini menyajikan tantangan optimasi transportasi dengan twist:
Solusinya tertanam dalam prompt: dengan tiga kompartemen aman, petani dapat mengangkut semua barang dalam satu perjalanan. Namun, karena kemiripan teka-teki dengan versi klasik, model sering mengabaikan kompartemen.
Dalam pengujian, QwQ secara konsisten gagal memecahkan teka-teki ini dengan benar. Memeriksa proses pemikirannya mengungkapkan bahwa ia tidak mengabaikan tiga kompartemen. Bahkan, ia mengakui mereka tetapi mengabaikan mereka karena terlalu sederhana:
‘Tunggu, jika petani dapat mengambil ketiganya dalam satu perjalanan, maka dia bisa melakukan itu dan selesai. Tapi itu akan membuat masalah menjadi sepele, yang tidak mungkin. Jadi mungkin kompartemennya terpisah tetapi perahu hanya dapat membawa dua barang ditambah petani?’
Terlepas dari apakah tes dijalankan pada model lengkap di cloud atau secara lokal, QwQ berjuang untuk memecahkan ini secara konsisten. Ini menyoroti potensi keterbatasan dalam kemampuan penalarannya, di mana ia mungkin terlalu banyak berpikir atau salah menafsirkan batasan masalah.
Sensitivitas Hyperparameter: Keseimbangan yang Halus
Dibandingkan dengan model lain, QwQ menunjukkan sensitivitas yang meningkat terhadap konfigurasinya. Awalnya, Alibaba merekomendasikan parameter sampling tertentu:
- Temperature: 0.6
- TopP: 0.95
- TopK: antara 20 dan 40
Selanjutnya, rekomendasi ini diperbarui untuk menyertakan:
- MinP: 0
- Presence Penalty: antara 0 dan 2
Karena bug yang jelas dalam penanganan parameter sampling Llama.cpp (Llama.cpp digunakan untuk menjalankan inferensi pada model), juga perlu untuk menonaktifkan penalti pengulangan dengan mengaturnya ke 1.
Seperti yang disebutkan sebelumnya, mengatasi masalah konfigurasi ini menghasilkan peningkatan yang signifikan, lebih dari separuh jumlah token ‘berpikir’ yang diperlukan untuk sampai pada jawaban. Namun, bug ini tampaknya spesifik untuk versi model terkuantisasi GGUF saat berjalan pada mesin inferensi Llama.cpp, yang digunakan oleh aplikasi populer seperti Ollama dan LM Studio.
Untuk pengguna yang berencana untuk menggunakan Llama.cpp, berkonsultasi dengan panduan Unsloth untuk mengoreksi urutan sampling sangat disarankan.
Memulai dengan QwQ: Panduan Praktis
Bagi mereka yang tertarik untuk bereksperimen dengan QwQ, menyiapkannya di Ollama relatif mudah. Namun, penting untuk dicatat bahwa itu memang membutuhkan GPU dengan vRAM dalam jumlah yang substansial. Model ini berhasil dijalankan pada 3090 Ti 24GB dengan jendela konteks yang cukup besar untuk penggunaan praktis.
Meskipun secara teknis layak untuk menjalankan model pada CPU dan memori sistem, ini kemungkinan akan menghasilkan waktu respons yang sangat lambat kecuali menggunakan workstation atau server kelas atas.
Prasyarat:
- Mesin yang mampu menjalankan LLM berukuran sedang pada kuantisasi 4-bit. GPU yang kompatibel dengan setidaknya 24GB vRAM direkomendasikan. Daftar kartu yang didukung dapat ditemukan di sini.
- Untuk Mac Apple Silicon, disarankan minimal 32GB memori.
Panduan ini mengasumsikan keakraban dasar dengan antarmuka baris perintah dunia Linux dan Ollama.
Menginstal Ollama
Ollama adalah model runner populer yang menyederhanakan proses pengunduhan dan penyajian LLM pada perangkat keras konsumen. Untuk pengguna Windows atau macOS, unduh dan instal seperti aplikasi lain dari ollama.com.
Untuk pengguna Linux, Ollama menyediakan one-liner yang nyaman untuk instalasi: