Model Sumber Terbuka Nvidia Atasi DeepSeek-R1

Model siri Llama-Nemotron Nvidia secara rasmi telah melampaui DeepSeek-R1, dan butiran latihannya telah didedahkan sepenuhnya, menawarkan pandangan tentang bagaimana model ini dibangunkan untuk mencapai prestasi yang unggul.

Model ini kini sumber terbuka sepenuhnya, menandakan kemajuan ketara dalam teknologi AI yang mudah diakses. Ini bermakna bahawa satu siri model inferens yang secara signifikan mengatasi DeepSeek-R1 dari segi daya pemprosesan inferens dan kecekapan memori kini tersedia untuk sesiapa sahaja untuk digunakan dan diubah suai.

Mendedahkan Rahsia Di Sebalik Kejayaan Model

Jadi, bagaimana sebenarnya model ini, yang mengatasi DeepSeek-R1, dicipta? Laporan teknikal Nvidia mendedahkan elemen kritikal proses latihan mereka:

  • Penalaan Halus Diselia dengan Data Sintetik + Pembelajaran Pengukuhan: Gabungan ini meningkatkan keupayaan penaakulan model dengan ketara.
  • Proses Pasca Latihan Komprehensif: Proses pasca latihan yang mantap dan direka dengan baik adalah penting untuk mengoptimumkan prestasi model.

Bulan lepas, Nvidia secara rasmi mengumumkan Llama-Nemotron 253B, yang dengan cepat membayangi Llama 4 (yang hanya berusia tiga hari dan menghadapi "krisis integriti" kerana manipulasi papan pendahulu). Pelancaran siri model ini mencetuskan sedikit kekecohan dalam industri.

Menurut Indeks Kecerdasan Analisis Buatan, Llama-Nemotron-Ultra kini dianggap sebagai model sumber terbuka "paling pintar" pada April 2025.

Nvidia melancarkan tiga model dalam siri Llama-Nemotron: LN-Nano 8B, LN-Super 49B, dan LN-Ultra 253B.

Terutamanya, LN-Ultra bukan sahaja mengatasi DeepSeek-R1 dalam prestasi tetapi juga berjalan pada nod 8xH100 tunggal, memberikan daya pemprosesan inferens yang lebih tinggi.

Model ini dioptimumkan untuk inferens daya pemprosesan tinggi sambil mengekalkan keupayaan penaakulan yang kukuh dan panjang konteks sehingga 128K.

Selain itu, Nvidia telah memperkenalkan ciri suis inferens yang terobosan dalam komuniti sumber terbuka AI global. Pengguna boleh bertukar secara dinamik antara mod sembang standard dan mod penaakulan menggunakan gesaan sistem "pemikiran terperinci hidup/mati."

Reka bentuk ini membolehkan model memenuhi keperluan harian umum dan mengendalikan tugas penaakulan berbilang langkah yang kompleks tanpa memerlukan model atau seni bina yang berbeza.

Proses Pembinaan: Pendekatan Lima Peringkat

Pembinaan model Llama-Nemotron dibahagikan kepada lima peringkat yang berbeza:

Peringkat 1: Pengoptimuman kecekapan penaakulan menggunakan carian seni bina saraf (NAS) berdasarkan model siri Llama 3, dengan pengenalan Gabungan Rangkaian Suapan Ke Hadapan (Gabungan FFN).

Peringkat 2: Pemulihan prestasi model melalui penyulingan pengetahuan dan pra-latihan berterusan.

Peringkat 3: Penalaan halus diselia (SFT), yang menggabungkan data arahan standard dengan proses penaakulan daripada model guru yang berkuasa seperti DeepSeek-R1, membolehkan model melakukan penaakulan berbilang langkah.

Peringkat 4: Pembelajaran pengukuhan berskala besar pada set data matematik dan STEM yang kompleks, yang penting untuk model pelajar mengatasi keupayaan model guru. Untuk LN-Ultra, peringkat ini meningkatkan prestasi dengan ketara pada tanda aras GPQA-D, menjadikannya model terkuat untuk penaakulan saintifik dalam domain sumber terbuka.

Untuk menyokong latihan pembelajaran pengukuhan berskala besar sedemikian, pasukan membangunkan rangka kerja latihan baharu dengan pelbagai langkah pengoptimuman, yang paling penting menyokong keupayaan penjanaan ketepatan FP8.

Peringkat 5: Latihan penjajaran ringkas yang memfokuskan pada mengikuti arahan dan mematuhi pilihan manusia.

Seni Bina Inovatif untuk Kecekapan Inferens yang Dioptimumkan

LN-Super dan LN-Ultra memanfaatkan rangka kerja Teka-teki untuk carian seni bina saraf untuk mengoptimumkan kecekapan inferens model.

Teka-teki mengubah model bahasa yang besar menjadi versi cekap yang disesuaikan dengan perkakasan, dioptimumkan untuk penggunaan.

Melalui "penyulingan tempatan blok demi blok," pembangun membina perpustakaan modul Transformer alternatif menggunakan Llama 3 Instruct.

Dalam proses ini, setiap modul dilatih secara bebas dan selari, menghampiri fungsi modul asal sambil mengoptimumkan prestasi pengiraan.

Setiap modul alternatif mempunyai pertukaran "ketepatan-kecekapan" tertentu. Sesetengah modul lebih cekap tetapi boleh mengakibatkan penurunan kualiti tertentu, mewujudkan pertukaran yang jelas antara kos pengiraan dan ketepatan model.

Variasi modul ini termasuk:

Pengalihan Mekanisme Perhatian: Sesetengah modul menghilangkan sepenuhnya mekanisme perhatian, mengurangkan jumlah pengiraan dan penggunaan memori cache KV.

Dimensi FFN Boleh Ubah: Dimensi perantaraan rangkaian suapan ke hadapan dilaraskan, membenarkan pemampatan model pada granulariti yang berbeza.

Selepas membina perpustakaan modul, Teka-teki memilih modul daripada setiap lapisan untuk memasang model yang lengkap.

Proses pemilihan ini dikawal oleh penyelesai pengaturcaraan integer campuran (MIP), yang mencari konfigurasi optimum berdasarkan kekangan seperti keserasian perkakasan, kependaman maksimum yang dibenarkan, belanjawan memori atau daya pemprosesan inferens yang diingini.

Pemampatan Menegak dan Gabungan FFN

Dalam model LN-Ultra, penyelidik memperkenalkan Gabungan FFN (Gabungan Rangkaian Suapan Ke Hadapan), teknik pemampatan tambahan untuk mengurangkan kedalaman jujukan model dan meningkatkan kecekapan kependaman penaakulan.

Pengalihan Teka-teki bagi beberapa lapisan perhatian menghasilkan struktur yang unik: berbilang blok FFN berterusan kerap muncul dalam struktur model.

Gabungan FFN mengenal pasti struktur berterusan ini dan menggantikannya dengan lapisan FFN yang lebih sedikit tetapi lebih lebar dan boleh dilaksanakan secara selari.

Kaedah penggantian ini mengurangkan langkah pengiraan berurutan tanpa mengorbankan ekspresi model, dengan ketara meningkatkan penggunaan sumber pengiraan - terutamanya dalam persekitaran berbilang GPU, di mana overhed komunikasi merentas lapisan adalah ketara.

Model LN-Ultra secara konsisten mengatasi DeepSeek-R1 dan Llama-3.1-405B dari segi ketepatan dan kecekapan, mencapai keseimbangan optimum.

Latihan Pasca NAS: Penyulingan Pengetahuan dan Pra-latihan Berterusan

Selepas fasa carian seni bina saraf (NAS), kedua-dua LN-Super dan LN-Ultra menjalani latihan tambahan untuk meningkatkan keserasian antara modul dan memulihkan sebarang kehilangan kualiti yang mungkin berlaku semasa penggantian modul.

  • LN-Super dilatih pada set data Campuran Penyulingan untuk 40 bilion token di bawah objektif penyulingan pengetahuan.
  • LN-Ultra pada mulanya dilatih pada set data penyulingan yang sama untuk 65 bilion token, diikuti dengan latihan berterusan pada set data pra-latihan peringkat keempat Nemotron-H untuk 88 bilion token.

Langkah pra-latihan terakhir ini membolehkan LN-Ultra bukan sahaja mengejar model rujukan, Llama 3.1-405B-Instruct, tetapi juga melampauinya dalam ujian tanda aras utama.

Ini menunjukkan bahawa penyulingan dan pra-latihan ringkas boleh mencapai keserasian antara pengoptimuman seni bina yang agresif dan prestasi model yang tinggi.

Penalaan Halus Diselia: Memperhalusi Kehebatan Penaakulan

Penalaan Halus Diselia (SFT) bertindak sebagai "jurulatih peribadi" untuk model Llama-Nemotron, secara khusus menyasarkan langkah penaakulan untuk tugas tertentu dan mempelajari teknik inferens daripada model "pelajar bintang" seperti DeepSeek-R1.

Untuk menanamkan kemahiran penaakulan yang tulen, data latihan penaakulan berskala besar dan berkualiti tinggi adalah penting.

Data Sintetik: Disesuaikan untuk Penaakulan

Penyelidik menyusun dengan teliti sampel data yang mengandungi kedua-dua data penaakulan dan bukan penaakulan untuk penalaan halus diselia.

Untuk sampel penaakulan, mereka menambahkan "pemikiran terperinci dihidupkan" pada arahan sistem, manakala untuk sampel bukan penaakulan, mereka menggunakan "pemikiran terperinci dimatikan."

Tetapan ini membolehkan model menukar tingkah laku penaakulan berdasarkan gesaan semasa fasa penaakulan.

Data sintetik untuk penaakulan disediakan dalam matematik, pengekodan dan bidang berkaitan.

Untuk melatih model untuk mengikuti arahan "suis penaakulan", penyelidik membina set data berpasangan, di mana setiap gesaan sepadan dengan respons dengan penaakulan dan satu tanpa penaakulan.

Pemasangan ini membolehkan model belajar untuk melaraskan tingkah laku penaakulannya berdasarkan arahan sistem.

Penapisan seterusnya bagi respons ini dilakukan berdasarkan jawapan standard atau model ganjaran.

Proses Penalaan Halus

Semua model dilatih pada data penalaan halus arahan menggunakan kehilangan entropi silang peringkat token.

Dalam kebanyakan tetapan latihan, data penaakulan dan bukan penaakulan dicampur untuk membentuk kelompok latihan, di mana setiap gesaan dipasangkan dengan respons yang sepadan berdasarkan arahan sistem "pemikiran terperinci dihidupkan/dimatikan".

Melanjutkan latihan ke berbilang pusingan boleh meningkatkan prestasi, terutamanya untuk model yang lebih kecil.

NeMo-Aligner digunakan untuk latihan pembelajaran pengukuhan, menyokong GRPO dan latihan model heterogen.

vLLM digunakan untuk fasa penjanaan, dan Megatron-LM digunakan untuk fasa latihan.

Fasa latihan dan penaakulan berkongsi kelompok GPU yang sama, diselesaikan pada peranti yang sama.

Seluruh proses latihan menggunakan 72 nod, setiap satu dilengkapi dengan 8 GPU H100.

Fasa penjanaan menggunakan ketepatan FP8, fasa latihan menggunakan ketepatan BF16, dan keadaan pengoptimum menggunakan FP32.

Setiap fasa mengekalkan berat model yang bebas, yang disegerakkan pada permulaan setiap langkah.

Pembelajaran Pengukuhan: Kunci untuk Mengatasi Keupayaan Penaakulan R1

Penalaan halus diselia (SFT) membolehkan model mengekstrak pengetahuan daripada model guru yang berkuasa, mencapai keupayaan yang sangat baik.

Walau bagaimanapun, penyulingan pengetahuan secara semula jadi menetapkan had pada prestasi model pelajar, terutamanya apabila keupayaan model asas model pelajar tidak melebihi model guru.

Melalui penalaan halus diselia, prestasi LN-Ultra boleh menghampiri DeepSeek-R1 tetapi tidak boleh melampauinya.

Pembelajaran pengukuhan (RL) berskala besar ialah kaedah yang berdaya maju untuk membolehkan model pelajar mengatasi model guru kerana ia membenarkan model untuk terus meneroka kemungkinan baharu dan belajar sendiri.

Oleh kerana kekangan sumber, penyelidik hanya menggunakan RL penaakulan pada LN-Ultra, menghasilkan model pelajar yang mengatasi model guru.

Sepanjang proses latihan pembelajaran pengukuhan penaakulan, ketepatan LN-Ultra pada set data GPQA-Diamond bertambah baik.

Proses Latihan: Tumpuan pada Penaakulan Saintifik

Untuk LN-Ultra, penyelidik meningkatkan keupayaan penaakulan saintifiknya melalui pembelajaran pengukuhan (RL) berskala besar, menggunakan algoritma Pengoptimuman Dasar Relatif Berkumpulan (GRPO), yang sama digunakan oleh DeepSeek-R1.

Seluruh proses latihan memerlukan kira-kira 140,000 jam H100, melatih model secara berterusan sehingga ia menumpu pada tugas penaakulan.

Reka bentuk mekanisme ganjaran termasuk dua kategori:

  • Ganjaran Ketepatan: Berdasarkan jawapan standard (angka/ayat/perenggan), memanggil model Llama-3.3-70B-Instruct menilai tahap padanan hasil ramalan.
  • Ganjaran Format: Mengikuti skim DeepSeek-AI, model dipaksa untuk membungkus proses penaakulan dengan tag <think\> dalam mod "pemikiran terperinci", dan penampilan tag sedemikian dilarang dalam mod pemikiran tidak terperinci.

Pasukan penyelidik juga memprat memproses data, termasuk penapisan data dan latihan kurikulum.

  • Penyaringan Data: LN-Super digunakan terlebih dahulu untuk menjana 8 respons untuk setiap soalan, dan sampel mudah dengan kadar lulus ≥ 75% dialihkan.
  • Latihan Kurikulum: Peruntukan kelompok progresif berdasarkan kadar lulus diterima pakai.

Pengedaran Dinamik: Memodelkan kesukaran kelompok dengan fungsi Gaussian, pada mulanya memfokuskan pada sampel kadar lulus tinggi (mudah) dan kemudian beralih ke sampel kadar lulus rendah (sukar).

Logik Pelapik: Sampel diperuntukkan mengikut pengedaran sasaran dahulu, dan kapasiti yang tinggal ditambah daripada kelompok sampel yang tinggal terbesar.

Pemprosesan Dalam Kelompok: Sampel dalam kelompok yang sama dikocok secara rawak untuk mengekalkan kepelbagaian.

Pembelajaran Pengukuhan untuk Pengoptimuman Keutamaan

Selepas menyelesaikan latihan penaakulan saintifik, penyelidik menjalankan fasa pembelajaran pengukuhan ringkas untuk model LN-Super dan LN-Ultra, memfokuskan pada peningkatan keupayaan mengikuti arahan mereka.

Penyelidik juga menggunakan RLHF untuk mengoptimumkan keupayaan bantuan umum dan prestasi sembang model sambil mengekalkan keupayaan model dalam matematik, sains dan bidang lain.

LN-Super mencapai skor tinggi 88.3 dalam ujian Arena Hard, mengatasi model proprietari seperti Claude 3.5 Sonnet dan GPT-4o-2024-05-13, dan juga lebih baik daripada model sumber terbuka yang lebih besar.

Untuk mencapai hasil ini, mereka menerima pakai kaedah "Pengoptimuman Dasar Ganjaran Dalam Talian", memaksimumkan ganjaran ramalan model pada set data HelpSteer2. Model ganjaran yang digunakan ialah Llama-3.1-Nemotron-70B-Reward.

Dua pusingan latihan RPO dalam talian meningkatkan skor Arena Hard daripada 69.1 kepada 88.1.

Untuk LN-Ultra, mereka menggunakan proses yang serupa tetapi menerima pakai GRPO.

Untuk LN-Nano, mereka menjalankan dua pusingan latihan RPO luar talian, menggunakan data latihan yang dijana dasar.

Pusingan pertama menggabungkan data penaakulan dan bukan penaakulan dengan gesaan sistem yang sesuai untuk mengoptimumkan keupayaan kawalan penaakulan model. Pusingan kedua memfokuskan pada meningkatkan keupayaan mengikuti arahan.

Keputusan Penilaian: Penilaian Komprehensif

Penyelidik menilai prestasi semua model Llama-Nemotron pada dua kategori tanda aras: tugas penaakulan dan tugas bukan penaakulan.

Tanda aras penaakulan termasuk: AIME24 dan AIME25, GPQA-Diamond, LiveCodeBench dan MATH500.

Tanda aras bukan penaakulan termasuk: IFEval untuk penilaian berikut arahan, BFCL V2 Live untuk penilaian penggunaan alat panggilan fungsi dan Arena-Hard untuk menilai penjajaran dengan keutamaan perbualan manusia.

LN-Nano mencapai prestasi yang sangat baik dalam semua tanda aras penaakulan, walaupun saiznya kecil.

Ini menunjukkan bahawa proses penalaan halus diselia dan set data penaakulan yang disusun dengan baik berkesan dalam memindahkan keupayaan penaakulan berstruktur kepada model yang lebih kecil.

LN-Super menunjukkan daya saing yang kukuh dalam kedua-dua tugas penaakulan dan bukan penaakulan apabila dibandingkan dengan model lain dengan skala parameter yang serupa.

Dalam mod "penaakulan dimatikan", prestasi LN-Super setanding dengan model sumber sulingannya, Llama-3.3-70B; dalam mod "penaakulan dihidupkan", ia mengatasi model bersaing yang lain, seperti DeepSeek-R1-Distilled-Llama-70B, menunjukkan keupayaan penaakulan yang kukuh sambil mengekalkan keupayaan berikut arahan yang baik.

Keputusan ini menunjukkan bahawa LN-Super ialah model serba boleh yang menggabungkan kelebihan model yang dioptimumkan penaakulan dan model bukan penaakulan, menjadikannya sesuai untuk tugas pembantu harian dan tugas penaakulan berstruktur.

LN-Ultra berprestasi setanding dengan atau lebih baik daripada semua model berat sumber terbuka sedia ada dalam tanda aras penaakulan dan bukan penaakulan. Ia mencapai tahap paling maju dalam model sumber terbuka pada GPQA, yang menunjukkan sepenuhnya keberkesanan kaedah latihan pembelajaran pengukuhan berskala besar penyelidik Nvidia.

Tidak seperti DeepSeek-R1, yang memerlukan konfigurasi perkakasan 8×H200, LN-Ultra dioptimumkan untuk berjalan dengan cekap pada nod 8×H100 tunggal, memberikan daya pemprosesan penaakulan dan kecekapan penggunaan yang lebih tinggi.

Fasa SFT LN-Ultra telah menghampiri atau mencapai prestasi DeepSeek-R1 pada berbilang tanda aras penaakulan (termasuk GPQA dan AIME).

Sebagai tambahan kepada keupayaan penaakulan dan dialog yang pada asalnya model itu dilatih, mereka juga menguji model pada tugas pengedaran.

Khususnya, model itu diuji pada set data JudgeBench, yang memerlukannya untuk membezakan antara jawapan berkualiti tinggi dan berkualiti rendah.

Model baharu mengatasi model proprietari dan sumber terbuka teratas semasa pada tugas ini.

LN-Ultra menjadi model sumber terbuka yang berprestasi terbaik, yang jauh melebihi DeepSeek-R1, kedua hanya kepada model proprietari o3-mini(high).

Selain itu, prestasi LN-Super juga melebihi o1-mini, menunjukkan bahawa model baharu mempunyai keupayaan generalisasi yang kukuh dalam pelbagai tugas.