Pencarian kecerdasan buatan (AI) yang benar-benar boleh bersebab telah lama menjadi usaha utama dalam bidang ini. Kegembiraan awal mengenai model “o1” OpenAI mencetuskan minat yang meluas dalam memanfaatkan teknik pembelajaran pengukuhan (RL) berskala besar untuk membina sistem yang mampu penaakulan yang canggih. Berikutan ini, keputusan DeepSeek-R1 untuk mengeluarkan modelnya sebagai sumber terbuka menyemarakkan lagi semangat dan memperkasakan komuniti AI untuk bersungguh-sungguh meneruskan pembangunan model penaakulan yang canggih.
Walau bagaimanapun, ledakan aktiviti awal ini segera dilemahkan oleh halangan yang ketara. Butiran teknikal penting, yang amat penting untuk replikasi yang berjaya – khususnya, strategi tepat yang digunakan untuk kurasi data dan resipi rumit yang mengawal latihan RL – tidak kelihatan daripada laporan asal DeepSeek-R1. Peninggalan ini menyebabkan para penyelidik berada dalam keadaan kekecewaan yang ketara, bergelut dengan cabaran mencipta semula kejayaan yang dilaporkan. Akibatnya ialah landskap penyelidikan yang agak berpecah-belah, dengan pelbagai usaha bebas meneroka saiz model yang berbeza, pelbagai titik pemeriksaan awal, dan pelbagai domain sasaran. Walaupun aktiviti yang sengit ini, resipi latihan yang komprehensif dan berkesan secara konsisten kekal sukar difahami.
Pendekatan tradisional untuk melatih model bahasa untuk penaakulan terutamanya tertumpu pada domain matematik dan kod komputer. Metodologi ini secara amnya bergantung pada gabungan pra-latihan pada dataset besar dan penalaan halus yang diselia untuk mengkhususkan model untuk tugas tertentu ini. Percubaan awal untuk memasukkan pembelajaran pengukuhan ke dalam proses ini, biasanya dengan menggunakan model ganjaran khusus domain, hanya menghasilkan keuntungan yang terhad. Ini berpunca daripada cabaran yang wujud yang berkaitan dengan tugas matematik dan pengekodan, di mana kesilapan halus boleh membawa kepada hasil yang sangat tidak betul.
Penyiasatan yang lebih baru-baru ini, didorong oleh keluaran DeepSeek-R1, telah meneroka penggunaan kaedah pengesahan berasaskan peraturan. Dalam bidang matematik, kaedah ini selalunya melibatkan keperluan format output tertentu yang membolehkan pengesahan penyelesaian yang tepat dan automatik. Begitu juga, dalam konteks kod, para penyelidik telah memanfaatkan mekanisme maklum balas yang wujud dalam penyusunan dan pelaksanaan untuk membimbing proses pembelajaran. Walau bagaimanapun, pendekatan ini secara amnya tertumpu sempit pada domain individu, kekurangan keupayaan untuk mengendalikan gesaan heterogen yang mencampurkan masalah matematik dan pengekodan dengan berkesan. Tambahan pula, penilaian sering kali terhad kepada penanda aras tertentu seperti AIME dan LiveCodeBench, yang mengehadkan keumuman penemuan. Akhir sekali, ketidakstabilan latihan terus menjadi isu yang berterusan, selalunya memerlukan penggunaan teknik kompleks seperti peningkatan panjang respons progresif dan pengurangan keruntuhan entropi.
Kini, penyelidik di NVIDIA mengubah permainan, kerana mereka menunjukkan potensi besar pembelajaran pengukuhan berskala besar untuk meningkatkan secara dramatik keupayaan penaakulan model bersaiz kecil dan sederhana. Kaedah mereka mencapai tahap prestasi yang mengatasi pendekatan terkini berdasarkan teknik penyulingan. Pendekatan NVIDIA menggunakan strategi latihan berurutan: pertama, melakukan latihan RL secara eksklusif pada gesaan berkaitan matematik, dan kemudian bertukar kepada gesaan yang tertumpu semata-mata pada kod.
Kaedah Berurutan untuk Penaakulan yang Dipertingkat
Apakah penemuannya? Latihan RL awal mengenai masalah matematik bukan sahaja meningkatkan prestasi secara mendadak pada penanda aras matematik tetapi, yang menghairankan, juga menjana peningkatan yang ketara dalam keupayaan penaakulan kod. Tambahan pula, lelaran lanjutan latihan RL yang tertumpu khusus pada kod selanjutnya meningkatkan prestasi kod dengan hanya kemerosotan minimum dalam prestasi matematik. Pendekatan ini menyoroti satu perkara penting: latihan matematik boleh bertindak sebagai asas yang kukuh untuk tugas penaakulan yang lebih kompleks seperti pengekodan.
Kamiran kepada kejayaan pendekatan NVIDIA ialah talian paip kurasi data yang teguh. Talian paip ini direka dengan teliti untuk mengumpul gesaan yang mencabar yang dicirikan oleh kesukaran yang tinggi dan ketersediaan jawapan dan kes ujian yang berkualiti tinggi dan boleh disahkan. Ini membolehkan RL berasaskan pengesahan digunakan dengan berkesan merentas domain matematik dan pengekodan.
Kurasi Data untuk Matematik dan Kod
Metodologi kurasi data yang digunakan oleh penyelidik NVIDIA berhati-hati membezakan antara keperluan untuk RL khusus matematik dan RL khusus kod.
RL Khusus Matematik: Penciptaan data latihan untuk RL khusus matematik melibatkan penggabungan data daripada dataset DeepScaler dan NuminaMath. Dataset ini merangkumi pelbagai topik matematik, termasuk algebra, kombinatorik, teori nombor dan geometri. Untuk mengekalkan integriti data, proses penapisan yang rapi digunakan, menggunakan penapis 9-gram untuk mengalih keluar kandungan yang berlebihan atau tidak sesuai dan melaksanakan peraturan pengecualian yang ketat untuk menghapuskan entri yang berpotensi bermasalah. Model DeepSeek-R1 kemudian memainkan peranan penting dalam mengesahkan kualiti soalan. Setiap soalan tertakluk kepada lapan percubaan bebas oleh model, dan hanya penyelesaian yang menerima undi majoriti ketepatan melalui pengesahan berasaskan peraturan yang dikekalkan untuk dimasukkan ke dalam dataset akhir.
RL Khusus Kod: Dataset untuk RL khusus kod dibina menggunakan data yang diperoleh daripada platform pengaturcaraan kompetitif moden. Platform ini menyediakan sumber yang kaya dengan masalah pengekodan yang merangkumi pelbagai topik algoritma. Masalah diformatkan untuk menjajarkan dengan konvensyen panggilan fungsi dan input/output standard (stdin/stdout) yang biasa digunakan dalam persekitaran ini. Para penyelidik menjalankan proses penapisan yang teliti untuk menghapuskan masalah yang tidak serasi dan menyusun dengan teliti kes ujian yang komprehensif yang direka untuk meliputi kes tepi dan syarat sempadan. Tambahan pula, setiap masalah diberikan skor kesukaran yang ditentukan melalui penilaian oleh model DeepSeek-R1-671B. Proses yang rapi ini menghasilkan dataset berkualiti tinggi yang terdiri daripada 8,520 masalah pengekodan yang disahkan.
AceReason-Nemotron: Keputusan dan Penanda Aras
Keputusan penyelidikan NVIDIA amat meyakinkan. Model AceReason-Nemotron-7B mencapai peningkatan ketepatan ketara sebanyak 14.5% dan 14.6% pada pertandingan AIME 2024 dan 2025 yang mencabar, masing-masing, berbanding dengan model SFT awal. Tambahan pula, ia menunjukkan peningkatan besar sebanyak 14.2% dan 8% pada penanda aras LiveCodeBench v5 dan v6, masing-masing. Varian model 14B yang lebih besar mempamerkan prestasi yang lebih hebat, mengatasi model yang lebih besar seperti DeepSeek-R1-Distill-Qwen-32B dan DeepSeek-R1-Distill-Llama-70B. Ini mencapai hasil terbaik dalam kelas antara model penalaran berasaskan RL terbuka.
Berbanding dengan model berasaskan penyulingan terkini, AceReason-Nemotron-14B mengatasi OpenMath-14B/32B sebanyak 2.1%/4.4% pada penanda aras AIME dan OpenCodeReasoning-14B sebanyak 1.7%/0.8% pada LiveCodeBench. Ini dengan meyakinkan menunjukkan bahawa RL boleh mencapai had atas prestasi yang lebih tinggi daripada pendekatan penyulingan sambil mengekalkan prestasi yang kompetitif berbanding dengan model sempadan lanjutan seperti QWQ-32B dan o3-mini.
Implikasi keputusan ini adalah ketara. Ia mencadangkan bahawa RL berskala besar berpotensi untuk membuka kunci tahap baharu keupayaan penaakulan dalam model AI, mengatasi batasan pendekatan tradisional. Strategi latihan khusus domain berurutan, digabungkan dengan talian paip kurasi data yang teguh, menyediakan pelan tindakan untuk penyelidikan masa depan dalam bidang ini.
Pembelajaran Pengukuhan Memacu Had Penaakulan
Penyelidikan ini menggariskan potensi besar pembelajaran pengukuhan untuk menolak sempadan keupayaan penaakulan model. Dengan menggunakan latihan khusus domain secara strategik dan menyusun data berkualiti tinggi dengan teliti, ini membolehkan model AI menyelesaikan masalah yang sebelum ini sukar diselesaikan dan mewujudkan penanda aras baharu untuk pembangunan model penaakulan dan akhirnya membawa kepada generasi baharu sistem AI yang mampu menangani cabaran dunia sebenar dengan ketepatan dan kecekapan yang belum pernah terjadi sebelumnya. Keupayaan untuk berfikir secara berkesan adalah asas kecerdasan, dan kemajuan yang dicapai oleh NVIDIA mewakili langkah utama ke arah merealisasikan potensi penuh kecerdasan buatan. Penyelidikan masa depan mungkin akan memberi tumpuan kepada penskalaan teknik ini kepada model yang lebih besar dan meneroka strategi kurasi data baharu untuk meningkatkan lagi prestasi penaakulan. Pembangunan fungsi ganjaran dan strategi penerokaan yang lebih canggih juga akan menjadi penting untuk mengatasi cabaran yang berkaitan dengan melatih model AI untuk tugas penaakulan yang kompleks. Akhirnya, matlamatnya adalah untuk mencipta sistem AI yang boleh menaakul, belajar dan menyesuaikan diri dengan cara yang serupa dengan manusia, membolehkan mereka menyelesaikan masalah yang kompleks dan membuat keputusan termaklum merentas pelbagai domain.
Selain itu, penggunaan RL menawarkan kelebihan melangkaui ketepatan mentah. Ejen RL boleh belajar untuk mengoptimumkan pelbagai objektif, seperti kecekapan, keteguhan dan kebolehtafsiran. Sebagai contoh, Ejen RL boleh dilatih untuk menjana kod yang bukan sahaja betul tetapi juga cekap dan mudah difahami. Keupayaan ini amat penting dalam aplikasi kritikal keselamatan, di mana adalah penting untuk memastikan bahawa sistem AI adalah boleh dipercayai dan boleh diramal.
Kerja oleh NVIDIA menyerlahkan kepentingan kurasi data yang semakin meningkat dalam penyelidikan AI. Kualiti data latihan mempunyai impak yang ketara terhadap prestasi model AI, dan dataset yang disusun dengan teliti adalah penting untuk mencapai hasil terkini. Talian paip kurasi data yang dibangunkan oleh NVIDIA ialah sumber yang berharga untuk penyelidik yang mengusahakan model penaakulan, dan ia boleh disesuaikan untuk digunakan dalam domain lain juga.
Gabungan RL berskala besar, latihan khusus domain dan kurasi data yang teguh telah terbukti sebagai formula yang berjaya untuk meningkatkan keupayaan penaakulan model AI. Memandangkan teknik ini terus berkembang, kita boleh menjangkakan untuk melihat kemajuan yang lebih mengagumkan dalam bidang AI, dan kami berharap untuk melihat kemajuan berterusan model AI dalam masa terdekat.