DeepSeek-R1 dalam pakej 32B? El Reg uji QwQ Alibaba

Pasukan Qwen Alibaba telah menyertai persaingan dengan ciptaan terbaru mereka, QwQ, sebuah model yang bertujuan untuk mencabar prestasi model yang lebih besar sambil mengekalkan jejak yang sangat padat.

Mencabar Gergasi: Pesaing Padat

QwQ, walaupun hanya mempunyai 32 bilion parameter berbanding dengan DeepSeek R1 yang didakwa mempunyai 671 bilion, diposisikan sebagai model “penaakulan”. Alibaba menegaskan bahawa model yang agak kecil ini boleh mengatasi R1 dalam penanda aras tertentu, terutamanya dalam bidang seperti matematik, pengekodan, dan panggilan fungsi. Dakwaan bercita-cita tinggi ini memerlukan penelitian yang lebih mendalam tentang cara kerja dalaman dan prestasi dunia sebenar QwQ.

Pembelajaran Pengukuhan: Kunci kepada Kehebatan QwQ

Sama seperti DeepSeek R1, pasukan Qwen menggunakan pembelajaran pengukuhan (RL) untuk memperhalusi keupayaan penaakulan rantaian pemikiran QwQ. Kaedah ini meningkatkan keupayaan model untuk menganalisis dan memecahkan masalah kompleks langkah demi langkah. Pendekatan tradisional dalam RL melibatkan pemberian ganjaran kepada model untuk jawapan yang betul, dengan itu mengukuhkan respons yang tepat.

Walau bagaimanapun, pasukan Qwen mengambil pendekatan yang lebih bernuansa dengan QwQ. Mereka menyepadukan pengesah ketepatan dan pelayan pelaksanaan kod. Penambahan penting ini memastikan bahawa ganjaran hanya diberikan untuk penyelesaian yang kukuh dari segi matematik dan kod yang berfungsi. Dengan melaksanakan proses pengesahan yang ketat ini, pasukan itu bertujuan untuk memupuk model yang mempamerkan tahap ketepatan dan kebolehpercayaan yang lebih tinggi.

Dakwaan Prestasi: Semakan Realiti

Usaha pasukan Qwen, dakwa mereka, telah menghasilkan model yang berprestasi jauh melebihi kelas beratnya. Mereka menegaskan bahawa QwQ mencapai tahap prestasi yang setanding dengan, dan dalam beberapa keadaan malah melebihi, model yang jauh lebih besar.

Walau bagaimanapun, dunia penanda aras AI boleh menjadi rumit. Adalah penting untuk melangkaui angka yang dilaporkan dan memeriksa bagaimana dakwaan ini diterjemahkan ke dalam senario praktikal dan dunia sebenar.

Ujian Amali: Menguji QwQ

Untuk menilai keupayaan QwQ, satu siri gesaan ujian telah direka, merangkumi pelbagai domain. Ini termasuk pengetahuan am, penaakulan spatial, penyelesaian masalah, matematik, dan cabaran lain yang diketahui menimbulkan kesukaran walaupun untuk model bahasa besar (LLM) yang paling maju.

Oleh kerana keperluan memori yang besar bagi model penuh, ujian telah dilaksanakan dalam dua konfigurasi. Pertama, model lengkap dinilai menggunakan demo QwQ di Hugging Face. Ini membolehkan penilaian potensi penuhnya. Kedua, versi terkuantisasi 4-bit telah diuji pada GPU 24GB (khususnya, Nvidia 3090 atau AMD Radeon RX 7900XTX). Konfigurasi ini bertujuan untuk mengukur kesan kuantisasi pada ketepatan model, menjadikannya lebih mudah diakses oleh pengguna dengan perkakasan yang kurang berkuasa.

Pengetahuan Am: Mengekalkan Kedudukannya

Sebagai tindak balas kepada kebanyakan soalan pengetahuan am, QwQ menunjukkan prestasi yang setanding dengan R1 671 bilion parameter DeepSeek dan model penaakulan lain seperti o3-mini OpenAI. Model itu biasanya mengambil masa beberapa saat untuk merumuskan fikirannya sebelum memberikan jawapan kepada pertanyaan itu. Tingkah laku ini adalah ciri model penaakulan, yang mengutamakan pertimbangan yang teliti berbanding respons segera.

Cemerlang dalam Kerumitan: Logik, Pengekodan, dan Matematik

Di mana QwQ benar-benar mula membezakan dirinya adalah dalam menangani cabaran yang lebih rumit yang melibatkan logik, pengekodan, atau matematik. Mari kita mendalami bidang ini, menyerlahkan kekuatannya dan menangani beberapa bidang di mana ia kurang.

Penaakulan Spatial: Menavigasi Labirin

Ujian penaakulan spatial yang agak baharu, yang dibangunkan oleh Homebrew Research sebagai sebahagian daripada projek AlphaMaze mereka, telah digunakan untuk menilai QwQ.

Kedua-dua contoh QwQ yang dihoskan secara tempatan dan model bersaiz penuh secara konsisten menyelesaikan teka-teki ini dengan jayanya. Walau bagaimanapun, setiap larian memerlukan beberapa minit untuk diselesaikan. Ini menunjukkan bahawa walaupun QwQ boleh mengendalikan penaakulan spatial dengan berkesan, ia tidak semestinya yang terpantas.

Sebaliknya, R1 DeepSeek dan penyulingan 32Bnya mempamerkan tingkah laku yang berbeza. Kedua-dua model berjaya menyelesaikan labirin pertama. Walau bagaimanapun, R1 bergelut dengan yang kedua, manakala penyulingan 32B mencapai kadar kejayaan 90% pada labirin kedua. Kebolehubahan ini tidak sepenuhnya tidak dijangka, memandangkan R1 dan penyulingan menggunakan model asas yang berbeza.

Walaupun QwQ menunjukkan prestasi yang unggul berbanding DeepSeek dalam ujian khusus ini, beberapa tingkah laku luar biasa diperhatikan dengan model 4-bit. Pada mulanya, ia memerlukan hampir dua kali lebih banyak token ‘pemikiran’ untuk menyelesaikan ujian. Ini pada mulanya mencadangkan potensi kerugian disebabkan oleh kuantisasi. Walau bagaimanapun, siasatan lanjut mendedahkan bahawa model terkuantisasi, dalam keadaan awalnya, mempamerkan prestasi yang kurang optimum. Melaraskan hiperparameter dan menjalankan semula ujian menyelesaikan isu ini, menunjukkan kepentingan konfigurasi yang betul.

Pengekodan Satu Tangkapan: Kekuatan Potensi

QwQ telah menarik perhatian yang besar kerana potensinya dalam penjanaan kod ‘satu tangkapan’ – keupayaan untuk menghasilkan kod yang boleh digunakan pada percubaan pertama. Bidang khusus ini nampaknya menjadi kekuatan yang ketara bagi model itu.

Model itu ditugaskan untuk mencipta semula beberapa permainan yang agak mudah dalam Python menggunakan perpustakaan pygame. Permainan yang dipilih ialah Pong, Breakout, Asteroids, dan Flappy Bird.

QwQ mengendalikan Pong dan Breakout dengan agak mudah. Selepas beberapa minit pemprosesan, model itu menjana versi kerja kedua-dua permainan.

Walau bagaimanapun, apabila ditugaskan untuk mencipta semula Asteroids, QwQ menghadapi kesukaran. Walaupun kod yang dijana berjalan, grafik dan mekanik permainan kerap diputarbelitkan dan bermasalah. Sebaliknya, R1, pada percubaan pertamanya, mencipta semula penembak arked klasik dengan setia.

Adalah penting untuk mempertimbangkan data latihan untuk model ini. Mereka telah didedahkan kepada sejumlah besar kod sumber yang tersedia secara terbuka, berkemungkinan termasuk pengeluaran semula permainan klasik. Ini menimbulkan persoalan sama ada model itu hanya mengingati maklumat yang dipelajari dan bukannya memperoleh mekanik permainan secara bebas dari awal. Ini menggariskan sifat asas rangkaian neural yang besar ini, di mana kecerdasan yang jelas sering berpunca daripada pengecaman corak yang meluas.

Walaupun dengan batasan ini, prestasi QwQ dalam mencipta semula permainan arked klasik adalah mengagumkan, terutamanya memandangkan kiraan parameternya. Ia mungkin tidak sepadan dengan R1 dalam setiap ujian, tetapi ia menunjukkan tahap keupayaan yang luar biasa. Ungkapan ‘tiada pengganti untuk anjakan’, yang sering digunakan dalam dunia automotif, mungkin relevan di sini. Ini boleh menjelaskan mengapa Alibaba sedang membangunkan versi ‘Max’ QwQ, walaupun ia tidak mungkin boleh dijalankan pada perkakasan pengguna dalam masa terdekat.

Berbanding dengan penyulingan Qwen 2.5 32B R1 DeepSeek yang bersaiz sama, keputusan Alibaba untuk menyepadukan pelayan pelaksanaan kod ke dalam saluran pembelajaran pengukuhannya mungkin telah memberikan kelebihan dalam cabaran berkaitan pengaturcaraan.

Matematik: Keupayaan dengan Kaveat

Dari segi sejarah, LLM telah bergelut dengan matematik, akibat daripada latihan berfokuskan bahasa mereka. Walaupun model yang lebih baharu telah menunjukkan peningkatan, QwQ masih menghadapi cabaran, walaupun tidak semestinya atas sebab yang mungkin dijangkakan.

QwQ berjaya menyelesaikan semua masalah matematik yang sebelum ini ditimbulkan kepada R1. Ini menunjukkan bahawa QwQ boleh mengendalikan aritmetik asas dan juga beberapa algebra. Walau bagaimanapun, isunya terletak pada kecekapannya. Melibatkan LLM untuk pengiraan matematik nampaknya tidak intuitif apabila kalkulator dan pengiraan langsung kekal tersedia dan jauh lebih pantas.
Sebagai contoh, menyelesaikan persamaan mudah seperti 7*43 memerlukan QwQ menjana lebih 1,000 token, mengambil masa kira-kira 23 saat pada RTX 3090 Ti. Ini adalah tugas yang boleh diselesaikan pada kalkulator poket dalam sebahagian kecil daripada masa.

Ketidakcekapan menjadi lebih ketara dengan pengiraan yang lebih besar. Menyelesaikan 3394*35979, masalah pendaraban di luar keupayaan kebanyakan model bukan penaakulan, mengambil masa tiga minit dan lebih 5,000 token untuk dikira oleh contoh tempatan QwQ.

Sebelum pembetulan hiperparameter, persamaan yang sama memerlukan sembilan minit yang mengejutkan dan hampir 12,000 token.

Perkara utama di sini ialah walaupun model mungkin mampu memaksa jawapan yang betul, ia tidak semestinya bermakna ia adalah alat yang optimum untuk tugas itu. Pendekatan yang lebih praktikal ialah menyediakan QwQ dengan akses kepada kalkulator Python. Ini memanfaatkan kekuatan model sambil memindahkan tugas intensif pengiraan kepada alat yang lebih sesuai.

Apabila ditugaskan untuk menyelesaikan persamaan 3394*35979 yang sama menggunakan perkakas, masa tindak balas QwQ menjunam kepada lapan saat, kerana kalkulator mengendalikan tugas berat.

Kelaziman ‘Tunggu’: Sekilas Pandang ke dalam Proses Pemikiran

Memeriksa ‘pemikiran’ QwQ mendedahkan kekerapan perkataan ‘tunggu’, terutamanya semasa tugas yang kompleks atau masalah perkataan. Ini mencerminkan proses dalaman model untuk menyemak kerjanya terhadap hasil alternatif.

Walaupun tingkah laku ini adalah perkara biasa dalam model penaakulan, ia boleh menjadi sangat mengecewakan apabila QwQ menjana jawapan yang salah, walaupun selepas menunjukkan pemahaman tentang jawapan yang betul semasa proses ‘pemikiran’nya.

Isu ini sering ditemui semasa ujian. Salah satu contoh yang paling jelas ialah penyesuaian AutoGen AI bagi masalah serigala, kambing, dan kubis klasik. Teka-teki ini membentangkan cabaran pengoptimuman pengangkutan dengan kelainan:

Penyelesaiannya dibenamkan dalam gesaan: dengan tiga petak selamat, petani boleh mengangkut semua barang dalam satu perjalanan. Walau bagaimanapun, disebabkan persamaan teka-teki dengan versi klasik, model sering terlepas pandang petak.

Dalam ujian, QwQ secara konsisten gagal menyelesaikan teka-teki ini dengan betul. Memeriksa proses pemikirannya mendedahkan bahawa ia tidak terlepas pandang tiga petak. Malah, ia mengakui mereka tetapi menolaknya sebagai terlalu mudah:

“Tunggu, jika petani boleh mengambil ketiga-tiga dalam satu perjalanan, maka dia boleh berbuat demikian dan selesai. Tetapi itu akan menjadikan masalah itu remeh, yang tidak mungkin. Jadi mungkin petak itu berasingan tetapi bot hanya boleh membawa dua barang ditambah petani?”

Tidak kira sama ada ujian dijalankan pada model penuh dalam awan atau secara tempatan, QwQ bergelut untuk menyelesaikan ini secara konsisten. Ini menyerlahkan potensi batasan dalam keupayaan penaakulannya, di mana ia mungkin terlalu berfikir atau salah tafsir kekangan masalah.

Kepekaan Hiperparameter: Keseimbangan Halus

Berbanding dengan model lain, QwQ mempamerkan kepekaan yang tinggi terhadap konfigurasinya. Pada mulanya, Alibaba mengesyorkan parameter pensampelan khusus:

  • Suhu: 0.6
  • TopP: 0.95
  • TopK: antara 20 dan 40

Selepas itu, cadangan ini telah dikemas kini untuk memasukkan:

  • MinP: 0
  • Penalti Kehadiran: antara 0 dan 2

Disebabkan oleh pepijat yang jelas dalam pengendalian parameter pensampelan Llama.cpp (Llama.cpp digunakan untuk menjalankan inferens pada model), ia juga perlu untuk melumpuhkan penalti ulangan dengan menetapkannya kepada 1.

Seperti yang dinyatakan sebelum ini, menangani isu konfigurasi ini menghasilkan peningkatan yang ketara, lebih daripada separuh bilangan token ‘berfikir’ yang diperlukan untuk mencapai jawapan. Walau bagaimanapun, pepijat ini nampaknya khusus untuk versi model terkuantisasi GGUF apabila dijalankan pada enjin inferens Llama.cpp, yang digunakan oleh aplikasi popular seperti Ollama dan LM Studio.

Bagi pengguna yang merancang untuk menggunakan Llama.cpp, merujuk panduan Unsloth untuk membetulkan susunan pensampelan amat disyorkan.

Bermula dengan QwQ: Panduan Praktikal

Bagi mereka yang berminat untuk bereksperimen dengan QwQ, menyediakannya dalam Ollama agak mudah. Walau bagaimanapun, adalah penting untuk ambil perhatian bahawa ia memerlukan GPU dengan jumlah vRAM yang besar. Model itu berjaya dijalankan pada 3090 Ti 24GB dengan tetingkap konteks yang cukup besar untuk kegunaan praktikal.

Walaupun secara teknikalnya boleh dilaksanakan untuk menjalankan model pada CPU dan memori sistem, ini berkemungkinan akan mengakibatkan masa tindak balas yang sangat perlahan melainkan menggunakan stesen kerja atau pelayan mewah.

Prasyarat:

  1. Mesin yang mampu menjalankan LLM bersaiz sederhana pada kuantisasi 4-bit. GPU yang serasi dengan sekurang-kurangnya 24GB vRAM disyorkan. Senarai kad yang disokong boleh didapati di sini.
  2. Untuk Mac Apple Silicon, sekurang-kurangnya 32GB memori disyorkan.

Panduan ini menganggap kebiasaan asas dengan antara muka baris arahan dunia Linux dan Ollama.

Memasang Ollama

Ollama ialah pelari model popular yang memudahkan proses memuat turun dan menghidangkan LLM pada perkakasan pengguna. Untuk pengguna Windows atau macOS, muat turun dan pasangkannya seperti mana-mana aplikasi lain dari ollama.com.

Untuk pengguna Linux, Ollama menyediakan satu baris yang mudah untuk pemasangan: