Model Open-Source Nvidia Ungguli DeepSeek-R1

Model seri Llama-Nemotron dari Nvidia secara resmi telah melampaui DeepSeek-R1, dan detail pelatihannya telah diungkapkan sepenuhnya, menawarkan wawasan tentang bagaimana model-model ini dikembangkan untuk mencapai kinerja yang superior.

Model-model ini sekarang sepenuhnya open-source, menandai kemajuan signifikan dalam teknologi AI yang mudah diakses. Ini berarti bahwa serangkaian model inferensi yang secara signifikan mengungguli DeepSeek-R1 dalam hal throughput inferensi dan efisiensi memori kini tersedia untuk digunakan dan dimodifikasi oleh siapa pun.

Mengungkap Rahasia di Balik Kesuksesan Model

Jadi, bagaimana tepatnya model-model ini, yang melampaui DeepSeek-R1, dibuat? Laporan teknis Nvidia mengungkapkan elemen-elemen penting dari proses pelatihan mereka:

  • Fine-Tuning Terawasi dengan Data Sintetis + Reinforcement Learning: Kombinasi ini secara signifikan meningkatkan kemampuan penalaran model.
  • Proses Pasca-Pelatihan Komprehensif: Proses pasca-pelatihan yang kuat dan dirancang dengan baik sangat penting untuk mengoptimalkan kinerja model.

Bulan lalu, Nvidia secara resmi mengumumkan Llama-Nemotron 253B, yang dengan cepat membayangi Llama 4 (yang baru berusia tiga hari dan menghadapi "krisis integritas" karena manipulasi papan peringkat). Rilis seri model ini menyebabkan kehebohan di industri.

Menurut Artificial Analysis Intelligence Index, Llama-Nemotron-Ultra saat ini dianggap sebagai model open-source "paling cerdas" pada April 2025.

Nvidia meluncurkan tiga model dalam seri Llama-Nemotron: LN-Nano 8B, LN-Super 49B, dan LN-Ultra 253B.

Khususnya, LN-Ultra tidak hanya mengungguli DeepSeek-R1 dalam kinerja tetapi juga berjalan pada satu node 8xH100, memberikan throughput inferensi yang lebih tinggi.

Model-model ini dioptimalkan untuk inferensi throughput tinggi sambil mempertahankan kemampuan penalaran yang kuat dan panjang konteks hingga 128K.

Selain itu, Nvidia telah memperkenalkan fitur peralihan inferensi yang inovatif dalam komunitas open-source AI global. Pengguna dapat secara dinamis beralih antara mode obrolan standar dan mode penalaran menggunakan prompt sistem "detailed thinking on/off."

Desain ini memungkinkan model untuk memenuhi kebutuhan sehari-hari umum dan menangani tugas penalaran multi-langkah yang kompleks tanpa memerlukan model atau arsitektur yang berbeda.

Proses Konstruksi: Pendekatan Lima Tahap

Konstruksi model Llama-Nemotron dibagi menjadi lima tahap yang berbeda:

Tahap 1: Optimalisasi efisiensi penalaran menggunakan pencarian arsitektur neural (NAS) berdasarkan model seri Llama 3, dengan pengenalan Feedforward Network Fusion (FFN Fusion).

Tahap 2: Pemulihan kinerja model melalui distilasi pengetahuan dan pra-pelatihan lanjutan.

Tahap 3: Fine-tuning terawasi (SFT), yang menggabungkan data instruksi standar dengan proses penalaran dari model guru yang kuat seperti DeepSeek-R1, memungkinkan model untuk melakukan penalaran multi-langkah.

Tahap 4: Reinforcement learning skala besar pada dataset matematika dan STEM yang kompleks, yang sangat penting bagi model siswa untuk melampaui kemampuan model guru. Untuk LN-Ultra, tahap ini secara signifikan meningkatkan kinerja pada benchmark GPQA-D, menjadikannya model terkuat untuk penalaran ilmiah di domain open-source.

Untuk mendukung pelatihan reinforcement learning skala besar seperti itu, tim mengembangkan kerangka pelatihan baru dengan beberapa tindakan optimasi, yang paling penting mendukung kemampuan generasi presisi FP8.

Tahap 5: Pelatihan penyelarasan singkat yang berfokus pada mengikuti instruksi dan mematuhi preferensi manusia.

Arsitektur Inovatif untuk Efisiensi Inferensi yang Dioptimalkan

LN-Super dan LN-Ultra memanfaatkan kerangka Puzzle untuk pencarian arsitektur neural untuk mengoptimalkan efisiensi inferensi model.

Puzzle mengubah model bahasa besar menjadi versi efisien yang diadaptasi oleh perangkat keras, dioptimalkan untuk penyebaran.

Melalui "distilasi lokal blok demi blok," pengembang membangun perpustakaan modul Transformer alternatif menggunakan Llama 3 Instruct.

Dalam proses ini, setiap modul dilatih secara independen dan paralel, mendekati fungsionalitas modul asli sambil mengoptimalkan kinerja komputasi.

Setiap modul alternatif memiliki trade-off "presisi-efisiensi" tertentu. Beberapa modul lebih efisien tetapi dapat menghasilkan penurunan kualitas tertentu, menciptakan trade-off yang jelas antara biaya komputasi dan akurasi model.

Variasi modul ini meliputi:

Penghapusan Mekanisme Perhatian: Beberapa modul sepenuhnya menghilangkan mekanisme perhatian, mengurangi jumlah komputasi dan konsumsi memori cache KV.

Dimensi FFN Variabel: Dimensi perantara dari jaringan feedforward disesuaikan, memungkinkan kompresi model pada granularitas yang berbeda.

Setelah membangun perpustakaan modul, Puzzle memilih modul dari setiap lapisan untuk merakit model lengkap.

Proses pemilihan ini dikendalikan oleh pemecah pemrograman bilangan bulat campuran (MIP), yang menemukan konfigurasi optimal berdasarkan batasan seperti kompatibilitas perangkat keras, latensi maksimum yang diizinkan, anggaran memori, atau throughput inferensi yang diinginkan.

Kompresi Vertikal dan FFN Fusion

Dalam model LN-Ultra, peneliti memperkenalkan FFN Fusion (Feedforward Network Fusion), teknik kompresi tambahan untuk mengurangi kedalaman urutan model dan meningkatkan efisiensi latensi penalaran.

Penghapusan Puzzle atas beberapa lapisan perhatian menghasilkan struktur yang unik: beberapa blok FFN kontinu sering muncul dalam struktur model.

FFN Fusion mengidentifikasi struktur kontinu ini dan menggantinya dengan lapisan FFN yang lebih sedikit tetapi lebih lebar dan dapat dieksekusi secara paralel.

Metode penggantian ini mengurangi langkah-langkah perhitungan sekuensial tanpa mengorbankan daya ekspresif model, secara signifikan meningkatkan pemanfaatan sumber daya komputasi - terutama di lingkungan multi-GPU, di mana overhead komunikasi lintas lapisan signifikan.

Model LN-Ultra secara konsisten mengungguli DeepSeek-R1 dan Llama-3.1-405B dalam hal akurasi dan efisiensi, mencapai keseimbangan optimal.

Pelatihan Pasca-NAS: Distilasi Pengetahuan dan Pra-pelatihan Lanjutan

Setelah fase pencarian arsitektur neural (NAS), LN-Super dan LN-Ultra menjalani pelatihan tambahan untuk meningkatkan kompatibilitas antara modul dan memulihkan setiap kehilangan kualitas yang mungkin terjadi selama penggantian modul.

  • LN-Super dilatih pada dataset Distillation Mix untuk 40 miliar token di bawah tujuan distilasi pengetahuan.
  • LN-Ultra awalnya dilatih pada dataset distilasi yang sama untuk 65 miliar token, diikuti oleh pelatihan lanjutan pada dataset pra-pelatihan tahap keempat Nemotron-H untuk 88 miliar token.

Langkah pra-pelatihan akhir ini memungkinkan LN-Ultra untuk tidak hanya mengejar model referensi, Llama 3.1-405B-Instruct, tetapi juga melampauinya dalam tes benchmark utama.

Ini menunjukkan bahwa distilasi dan pra-pelatihan singkat dapat mencapai kompatibilitas antara optimasi arsitektur agresif dan kinerja model yang tinggi.

Fine-Tuning Terawasi: Memperbaiki Kecakapan Penalaran

Fine-Tuning Terawasi (SFT) bertindak sebagai "pelatih pribadi" untuk model Llama-Nemotron, secara khusus menargetkan langkah-langkah penalaran untuk tugas-tugas tertentu dan mempelajari teknik inferensi dari model "siswa bintang" seperti DeepSeek-R1.

Untuk menanamkan keterampilan penalaran yang tulus, data pelatihan penalaran berkualitas tinggi skala besar sangat penting.

Data Sintetis: Disesuaikan untuk Penalaran

Peneliti dengan hati-hati menyusun sampel data yang berisi data penalaran dan non-penalaran untuk fine-tuning terawasi.

Untuk sampel penalaran, mereka menambahkan "detailed thinking on" ke instruksi sistem, sementara untuk sampel non-penalaran, mereka menggunakan "detailed thinking off."

Pengaturan ini memungkinkan model untuk mengalihkan perilaku penalaran berdasarkan prompt selama fase penalaran.

Data sintetis untuk penalaran disiapkan dalam bidang matematika, pengkodean, dan bidang terkait.

Untuk melatih model agar mengikuti instruksi "saklar penalaran", peneliti membangun dataset berpasangan, di mana setiap prompt sesuai dengan respons dengan penalaran dan satu tanpa penalaran.

Pemasangan ini memungkinkan model untuk belajar menyesuaikan perilaku penalarannya berdasarkan instruksi sistem.

Penyaringan selanjutnya dari respons ini dilakukan berdasarkan jawaban standar atau model hadiah.

Proses Fine-Tuning

Semua model dilatih pada data fine-tuning instruksi menggunakan kerugian cross-entropy tingkat token.

Dalam sebagian besar pengaturan pelatihan, data penalaran dan non-penalaran dicampur untuk membentuk batch pelatihan, di mana setiap prompt dipasangkan dengan respons yang sesuai berdasarkan instruksi sistem "detailed thinking on/off."

Memperluas pelatihan ke beberapa putaran dapat meningkatkan kinerja, terutama untuk model yang lebih kecil.

NeMo-Aligner digunakan untuk pelatihan reinforcement learning, mendukung GRPO dan pelatihan model heterogen.

vLLM digunakan untuk fase generasi, dan Megatron-LM digunakan untuk fase pelatihan.

Fase pelatihan dan penalaran berbagi batch GPU yang sama, diselesaikan pada perangkat yang sama.

Seluruh proses pelatihan menggunakan 72 node, masing-masing dilengkapi dengan 8 GPU H100.

Fase generasi menggunakan presisi FP8, fase pelatihan menggunakan presisi BF16, dan status pengoptimal menggunakan FP32.

Setiap fase mempertahankan bobot model independen, yang disinkronkan pada awal setiap langkah.

Reinforcement Learning: Kunci untuk Melampaui Kemampuan Penalaran R1

Fine-tuning terawasi (SFT) memungkinkan model untuk mengekstrak pengetahuan dari model guru yang kuat, mencapai kemampuan yang sangat baik.

Namun, distilasi pengetahuan secara inheren menetapkan batas pada kinerja model siswa, terutama ketika kemampuan model dasar dari model siswa tidak melebihi kemampuan model guru.

Melalui fine-tuning terawasi, kinerja LN-Ultra dapat mendekati DeepSeek-R1 tetapi tidak dapat melampauinya.

Reinforcement learning (RL) skala besar adalah metode yang layak untuk memungkinkan model siswa melampaui model guru karena memungkinkan model untuk terus mengeksplorasi kemungkinan-kemungkinan baru dan belajar mandiri.

Karena keterbatasan sumber daya, peneliti hanya menerapkan penalaran RL ke LN-Ultra, menghasilkan model siswa yang melampaui model guru.

Sepanjang proses pelatihan reinforcement learning penalaran, akurasi LN-Ultra pada dataset GPQA-Diamond meningkat.

Proses Pelatihan: Fokus pada Penalaran Ilmiah

Untuk LN-Ultra, peneliti meningkatkan kemampuan penalaran ilmiahnya melalui reinforcement learning (RL) skala besar, menggunakan algoritma Grouped Relative Policy Optimization (GRPO), yang sama dengan yang digunakan oleh DeepSeek-R1.

Seluruh proses pelatihan membutuhkan sekitar 140.000 jam H100, terus-menerus melatih model sampai model tersebut berkonvergensi pada tugas-tugas penalaran.

Desain mekanisme hadiah mencakup dua kategori:

  • Hadiah Akurasi: Berdasarkan jawaban standar (numerik/kalimat/paragraf), memanggil model Llama-3.3-70B-Instruct menilai tingkat pencocokan hasil prediksi.
  • Hadiah Format: Mengikuti skema DeepSeek-AI, model dipaksa untuk membungkus proses penalaran dengan tag <think\> dalam mode "detailed thinking", dan kemunculan tag semacam itu dilarang dalam mode non-detailed thinking.

Tim peneliti juga melakukan pra-pemrosesan data, termasuk penyaringan data dan pelatihan kurikulum.

  • Penyaringan Data: LN-Super digunakan terlebih dahulu untuk menghasilkan 8 respons untuk setiap pertanyaan, dan sampel sederhana dengan tingkat kelulusan ≥ 75% dihapus.
  • Pelatihan Kurikulum: Alokasi batch progresif berdasarkan tingkat kelulusan diadopsi.

Distribusi Dinamis: Memodelkan kesulitan batch dengan fungsi Gaussian, awalnya berfokus pada sampel dengan tingkat kelulusan tinggi (sederhana) dan kemudian beralih ke sampel dengan tingkat kelulusan rendah (sulit).

Logika Padding: Sampel dialokasikan sesuai dengan distribusi target terlebih dahulu, dan kapasitas yang tersisa ditambahkan dari kumpulan sampel yang tersisa terbesar.

Pemrosesan Intra-Batch: Sampel dalam batch yang sama dikocok secara acak untuk menjaga keragaman.

Reinforcement Learning untuk Optimasi Preferensi

Setelah menyelesaikan pelatihan penalaran ilmiah, peneliti melakukan fase reinforcement learning singkat untuk model LN-Super dan LN-Ultra, yang berfokus pada peningkatan kemampuan mengikuti instruksi mereka.

Peneliti juga menggunakan RLHF untuk mengoptimalkan kemampuan bantuan umum dan kinerja obrolan model sambil mempertahankan kemampuan model di bidang matematika, sains, dan bidang lainnya.

LN-Super mencapai skor tinggi 88,3 dalam tes Arena Hard, melampaui model berpemilik seperti Claude 3.5 Sonnet dan GPT-4o-2024-05-13, dan juga lebih baik daripada model open-source yang lebih besar.

Untuk mencapai hasil ini, mereka mengadopsi metode "OnLine Reward-Policy Optimization", memaksimalkan hadiah prediksi model pada dataset HelpSteer2. Model hadiah yang digunakan adalah Llama-3.1-Nemotron-70B-Reward.

Dua putaran pelatihan RPO online meningkatkan skor Arena Hard dari 69,1 menjadi 88,1.

Untuk LN-Ultra, mereka menggunakan proses yang serupa tetapi mengadopsi GRPO.

Untuk LN-Nano, mereka melakukan dua putaran pelatihan RPO offline, menggunakan data pelatihan yang dihasilkan oleh kebijakan.

Putaran pertama menggabungkan data penalaran dan non-penalaran dengan prompt sistem yang sesuai untuk mengoptimalkan kemampuan kontrol penalaran model. Putaran kedua berfokus pada peningkatan kemampuan mengikuti instruksi.

Hasil Evaluasi: Penilaian Komprehensif

Peneliti mengevaluasi kinerja semua model Llama-Nemotron pada dua kategori benchmark: tugas penalaran dan tugas non-penalaran.

Benchmark penalaran meliputi: AIME24 dan AIME25, GPQA-Diamond, LiveCodeBench, dan MATH500.

Benchmark non-penalaran meliputi: IFEval untuk evaluasi mengikuti instruksi, BFCL V2 Live untuk evaluasi penggunaan alat panggilan fungsi, dan Arena-Hard untuk mengevaluasi penyelarasan dengan preferensi percakapan manusia.

LN-Nano mencapai kinerja yang sangat baik di semua benchmark penalaran, meskipun ukurannya kecil.

Ini menunjukkan bahwa proses fine-tuning terawasi dan dataset penalaran yang dikurasi dengan baik efektif dalam mentransfer kemampuan penalaran terstruktur ke model yang lebih kecil.

LN-Super menunjukkan daya saing yang kuat dalam tugas penalaran dan non-penalaran jika dibandingkan dengan model lain dengan skala parameter serupa.

Dalam mode "reasoning off", kinerja LN-Super sebanding dengan model sumber yang didistilasi, Llama-3.3-70B; dalam mode "reasoning on", ia melampaui model pesaing lainnya, seperti DeepSeek-R1-Distilled-Llama-70B, menunjukkan kemampuan penalaran yang kuat sambil mempertahankan kemampuan mengikuti instruksi yang baik.

Hasil ini menunjukkan bahwa LN-Super adalah model serbaguna yang menggabungkan keuntungan dari model yang dioptimalkan untuk penalaran dan model non-penalaran, sehingga cocok untuk tugas asisten harian dan tugas penalaran terstruktur.

LN-Ultra berkinerja setara dengan atau lebih baik daripada semua model bobot open-source yang ada dalam benchmark penalaran dan non-penalaran. Ia mencapai tingkat paling maju dalam model open-source di GPQA, yang sepenuhnya menunjukkan efektivitas metode pelatihan reinforcement learning skala besar para peneliti Nvidia.

Tidak seperti DeepSeek-R1, yang membutuhkan konfigurasi perangkat keras 8×H200, LN-Ultra dioptimalkan untuk berjalan secara efisien pada satu node 8×H100, memberikan throughput penalaran dan efisiensi penyebaran yang lebih tinggi.

Fase SFT LN-Ultra telah mendekati atau mencapai kinerja DeepSeek-R1 pada beberapa benchmark penalaran (termasuk GPQA dan AIME).

Selain kemampuan penalaran dan dialog yang awalnya dilatih untuk model, mereka juga menguji model pada tugas distribusi.

Secara khusus, model diuji pada dataset JudgeBench, yang mengharuskannya untuk membedakan antara jawaban berkualitas tinggi dan berkualitas rendah.

Model baru mengungguli model berpemilik dan open-source teratas saat ini pada tugas ini.

LN-Ultra menjadi model open-source dengan kinerja terbaik, secara signifikan melebihi DeepSeek-R1, hanya kalah dari model berpemilik o3-mini(high).

Selain itu, kinerja LN-Super juga melampaui o1-mini, yang menunjukkan bahwa model baru memiliki kemampuan generalisasi yang kuat dalam berbagai tugas.