NVIDIA AI Luncurkan AceReason-Nemotron

Ketertarikan pada kecerdasan buatan (AI) yang benar-benar dapat bernalar telah lama menjadi fokus utama di bidang ini. Semangat awal seputar model "o1" OpenAI memicu minat luas dalam memanfaatkan teknik pembelajaran penguatan (RL) berskala besar untuk membangun sistem yang mampu melakukan penalaran yang canggih. Setelah itu, keputusan DeepSeek-R1 untuk merilis modelnya sebagai sumber terbuka semakin memicu antusiasme dan memberdayakan komunitas AI untuk dengan giat mengejar pengembangan model penalaran mutakhir.

Namun, ledakan aktivitas awal ini dengan cepat diredam oleh hambatan yang signifikan. Detail teknis penting, yang sangat penting untuk replikasi yang berhasil - khususnya, strategi yang tepat yang digunakan untuk kurasi data dan resep rumit yang mengatur pelatihan RL - secara mencolok tidak ada dalam laporan asli DeepSeek-R1. Kelalaian ini membuat para peneliti berada dalam kondisi frustrasi yang cukup besar, bergumul dengan tantangan untuk menciptakan kembali keberhasilan yang dilaporkan. Konsekuensinya adalah lanskap penelitian yang agak terfragmentasi, dengan banyak upaya independen yang mengeksplorasi berbagai ukuran model, berbagai pos pemeriksaan awal, dan beragam domain target. Terlepas dari aktivitas yang intens ini, resep pelatihan yang komprehensif dan efektif secara konsisten tetap sulit dipahami.

Pendekatan tradisional untuk melatih model bahasa untuk penalaran terutama berkonsentrasi pada domain matematika dan kode komputer. Metodologi ini umumnya mengandalkan kombinasi pra-pelatihan pada kumpulan data besar dan penyetelan halus yang diawasi untuk mengkhususkan model untuk tugas-tugas tertentu ini. Upaya awal untuk memasukkan pembelajaran penguatan ke dalam proses ini, biasanya dengan memanfaatkan model hadiah khusus domain, hanya menghasilkan keuntungan terbatas. Ini berasal dari tantangan inheren yang terkait dengan tugas matematika dan pengkodean, di mana kesalahan halus dapat menyebabkan hasil yang sangat salah.

Investigasi yang lebih baru, yang didorong oleh rilis DeepSeek-R1, telah mengeksplorasi penggunaan metode verifikasi berbasis aturan. Dalam bidang matematika, metode ini seringkali melibatkan persyaratan format keluaran tertentu yang memungkinkan verifikasi solusi yang tepat dan otomatis. Demikian pula, dalam konteks kode, para peneliti telah memanfaatkan mekanisme umpan balik inheren dari kompilasi dan eksekusi untuk memandu proses pembelajaran. Namun, pendekatan ini umumnya difokuskan secara sempit pada domain individual, kurang mampu menangani perintah heterogen yang mencampur masalah matematika dan pengkodean. Selain itu, evaluasi seringkali dibatasi pada tolok ukur khusus seperti AIME dan LiveCodeBench, yang membatasi generalisasi temuan. Akhirnya, ketidakstabilan pelatihan terus menjadi masalah yang persisten, seringkali membutuhkan penggunaan teknik kompleks seperti peningkatan panjang respons progresif dan mitigasi keruntuhan entropi.

Sekarang, para peneliti di NVIDIA mengubah permainan, karena mereka menunjukkan potensi signifikan dari pembelajaran penguatan skala besar untuk secara dramatis meningkatkan kemampuan penalaran model berukuran relatif kecil dan menengah. Metode mereka mencapai tingkat kinerja yang melampaui pendekatan tercanggih berdasarkan teknik distilasi. Pendekatan NVIDIA menggunakan strategi pelatihan sekuensial: pertama, melakukan pelatihan RL secara eksklusif pada perintah terkait matematika, dan selanjutnya beralih ke perintah yang berfokus hanya pada kode.

Metode Sekuensial untuk Penalaran yang Ditingkatkan

Temuan? Pelatihan RL awal pada masalah matematika tidak hanya secara dramatis meningkatkan kinerja pada tolok ukur matematika tetapi, yang mengejutkan, juga menghasilkan peningkatan signifikan dalam kemampuan penalaran kode. Selain itu, iterasi pelatihan RL yang diperluas yang berfokus secara khusus pada kode selanjutnya meningkatkan kinerja kode dengan hanya degradasi minimal dalam kinerja matematika. Pendekatan ini menyoroti poin penting: pelatihan matematika dapat bertindak sebagai fondasi yang kuat untuk tugas penalaran yang lebih kompleks seperti pengkodean.

Integral untuk keberhasilan pendekatan NVIDIA adalah saluran kurasi data yang kuat. Saluran ini dirancang dengan cermat untuk mengumpulkan perintah yang menantang yang ditandai oleh kesulitan tinggi dan ketersediaan jawaban dan kasus uji berkualitas tinggi dan dapat diverifikasi. Ini memungkinkan RL berbasis verifikasi diterapkan secara efektif di seluruh domain matematika dan pengkodean.

Kurasi Data untuk Matematika dan Kode

Metodologi kurasi data yang digunakan oleh para peneliti NVIDIA dengan hati-hati membedakan antara persyaratan untuk RL khusus matematika dan RL khusus kode.

RL Khusus Matematika: Pembuatan data pelatihan untuk RL khusus matematika melibatkan penggabungan data dari kumpulan data DeepScaler dan NuminaMath. Kumpulan data ini mencakup berbagai topik matematika, termasuk aljabar, kombinatorika, teori bilangan, dan geometri. Untuk menjaga integritas data, proses pemfilteran yang ketat diterapkan, menggunakan filter 9-gram untuk menghapus konten yang berlebihan atau tidak sesuai dan menerapkan aturan pengecualian yang ketat untuk menghilangkan entri yang berpotensi bermasalah. Model DeepSeek-R1 kemudian memainkan peran penting dalam memvalidasi kualitas pertanyaan. Setiap pertanyaan dikenakan delapan upaya independen oleh model, dan hanya solusi yang menerima suara mayoritas kebenaran melalui verifikasi berbasis aturan yang dipertahankan untuk dimasukkan dalam kumpulan data akhir.

RL Khusus Kode: Kumpulan data untuk RL khusus kode dibangun menggunakan data yang bersumber dari platform pemrograman kompetitif modern. Platform ini menyediakan sumber masalah pengkodean yang kaya yang mencakup beragam topik algoritmik. Masalah diformat untuk diselaraskan dengan konvensi pemanggilan fungsi dan input/output standar (stdin/stdout) yang umum digunakan di lingkungan ini. Para peneliti melakukan proses pemfilteran yang cermat untuk menghilangkan masalah yang tidak kompatibel dan dengan cermat menyusun kasus uji komprehensif yang dirancang untuk mencakup kasus tepi dan kondisi batas. Selain itu, setiap masalah diberi skor kesulitan yang ditentukan melalui evaluasi oleh model DeepSeek-R1-671B. Proses yang ketat ini menghasilkan kumpulan data berkualitas tinggi yang terdiri dari 8.520 masalah pengkodean yang diverifikasi.

AceReason-Nemotron: Hasil dan Tolok Ukur

Hasil penelitian NVIDIA sangat menarik. Model AceReason-Nemotron-7B mencapai peningkatan akurasi yang signifikan sebesar 14,5% dan 14,6% pada kompetisi AIME 2024 dan 2025 yang menantang, masing-masing, jika dibandingkan dengan model SFT awal. Selain itu, ini menunjukkan peningkatan substansial sebesar 14,2% dan 8% pada tolok ukur LiveCodeBench v5 dan v6, masing-masing. Varian model 14B yang lebih besar menunjukkan kinerja yang lebih besar lagi, mengungguli model yang lebih besar seperti DeepSeek-R1-Distill-Qwen-32B dan DeepSeek-R1-Distill-Llama-70B. Ini mencapai hasil terbaik di kelasnya di antara model penalaran berbasis RL terbuka.

Dibandingkan dengan model berbasis distilasi tercanggih, AceReason-Nemotron-14B mengungguli OpenMath-14B/32B sebesar 2,1%/4,4% pada tolok ukur AIME dan OpenCodeReasoning-14B sebesar 1,7%/0,8% pada LiveCodeBench. Ini dengan meyakinkan menunjukkan bahwa RL dapat mencapai batas atas kinerja yang lebih tinggi daripada pendekatan distilasi sambil mempertahankan kinerja kompetitif terhadap model frontier canggih seperti QWQ-32B dan o3-mini.

Implikasi dari hasil ini sangat signifikan. Mereka menunjukkan bahwa RL skala besar memiliki potensi untuk membuka tingkat kemampuan penalaran baru dalam model AI, melampaui keterbatasan pendekatan tradisional. Strategi pelatihan khusus domain sekuensial, dikombinasikan dengan saluran kurasi data yang kuat, memberikan cetak biru untuk penelitian di masa depan di bidang ini.

Pembelajaran Penguatan Mendorong Batas Penalaran

Penelitian ini menggarisbawahi potensi signifikan dari pembelajaran penguatan untuk mendorong batas kemampuan penalaran model. Dengan secara strategis menggunakan pelatihan khusus domain dan dengan cermat menyusun data berkualitas tinggi, ini memungkinkan model AI untuk memecahkan masalah yang sebelumnya tidak dapat diatasi dan menetapkan tolok ukur baru untuk pengembangan model penalaran dan pada akhirnya mengarah pada generasi baru sistem AI yang mampu mengatasi tantangan dunia nyata dengan akurasi dan efisiensi yang belum pernah terjadi sebelumnya. Kemampuan untuk bernalar secara efektif adalah landasan kecerdasan, dan kemajuan yang dicapai oleh NVIDIA merupakan langkah besar menuju mewujudkan potensi penuh kecerdasan buatan. Penelitian di masa depan kemungkinan akan fokus pada penskalaan teknik ini ke model yang lebih besar dan mengeksplorasi strategi kurasi data baru untuk lebih meningkatkan kinerja penalaran. Pengembangan fungsi hadiah dan strategi eksplorasi yang lebih canggih juga akan sangat penting untuk mengatasi tantangan yang terkait dengan pelatihan model AI untuk tugas penalaran yang kompleks. Pada akhirnya, tujuannya adalah untuk menciptakan sistem AI yang dapat bernalar, belajar, dan beradaptasi dengan cara yang mirip dengan manusia, memungkinkan mereka untuk memecahkan masalah yang kompleks dan membuat keputusan yang tepat di berbagai domain.

Selain itu, penggunaan RL menawarkan keuntungan di luar akurasi mentah. Agen RL dapat belajar untuk mengoptimalkan berbagai tujuan, seperti efisiensi, ketahanan, dan interpretasi. Misalnya, agen RL dapat dilatih untuk menghasilkan kode yang tidak hanya benar tetapi juga efisien dan mudah dipahami. Kemampuan ini sangat penting dalam aplikasi yang kritis terhadap keselamatan, di mana penting untuk memastikan bahwa sistem AI dapat diandalkan dan dapat diprediksi.

Pekerjaan oleh NVIDIA menyoroti semakin pentingnya kurasi data dalam penelitian AI. Kualitas data pelatihan memiliki dampak yang signifikan pada kinerja model AI, dan kumpulan data yang dikurasi dengan cermat sangat penting untuk mencapai hasil tercanggih. Saluran kurasi data yang dikembangkan oleh NVIDIA adalah sumber daya yang berharga bagi para peneliti yang mengerjakan model penalaran, dan itu dapat diadaptasi untuk digunakan di domain lain juga.

Kombinasi RL skala besar, pelatihan khusus domain, dan kurasi data yang kuat telah terbukti menjadi formula kemenangan untuk meningkatkan kemampuan penalaran model AI. Karena teknik ini terus berkembang, kita dapat berharap untuk melihat kemajuan yang lebih mengesankan di bidang AI, dan kami berharap untuk melihat kemajuan berkelanjutan model AI dalam waktu dekat