Nvidia'nın Yeni Modeli: DeepSeek-R1'i Aştı

Nvidia’nın Llama-Nemotron serisi modelleri resmi olarak DeepSeek-R1’i geride bıraktı ve bu modellerin üstün performans elde etmek için nasıl geliştirildiğine dair ayrıntıları tam olarak açıklandı.

Bu modeller artık tamamen açık kaynaklıdır ve erişilebilir yapay zeka teknolojisinde önemli bir ilerleme kaydetmektedir. Bu, çıkarım verimi ve bellek verimliliği açısından DeepSeek-R1’i önemli ölçüde geride bırakan bir dizi çıkarım modelinin artık herkesin kullanımına ve değiştirilmesine açık olduğu anlamına gelir.

Modelin Başarısının Sırları

Peki, DeepSeek-R1’i aşan bu modeller tam olarak nasıl oluşturuldu? Nvidia’nın teknik raporu, eğitim süreçlerinin kritik unsurlarını ortaya koyuyor:

  • Sentetik Verilerle Denetimli İnce Ayar + Pekiştirme Öğrenimi: Bu kombinasyon, modelin muhakeme yeteneklerini önemli ölçüde artırır.
  • Kapsamlı Eğitim Sonrası Süreç: Modelin performansını optimize etmek için sağlam ve iyi tasarlanmış bir eğitim sonrası süreç çok önemlidir.

Geçtiğimiz ay Nvidia, Llama 4’ü (liderlik tablosu manipülasyonu nedeniyle yalnızca üç günlüktü ve "bütünlük krizi" ile karşı karşıyaydı) hızla gölgede bırakan Llama-Nemotron 253B’yi resmi olarak duyurdu. Bu model serisinin piyasaya sürülmesi sektörde oldukça yankı uyandırdı.

Artificial Analysis Intelligence Index’e göre Llama-Nemotron-Ultra, Nisan 2025 itibarıyla "en zeki" açık kaynaklı model olarak kabul ediliyor.

Nvidia, Llama-Nemotron serisinde üç model piyasaya sürdü: LN-Nano 8B, LN-Super 49B ve LN-Ultra 253B.

Özellikle LN-Ultra, performansta DeepSeek-R1’i aşmakla kalmıyor, aynı zamanda tek bir 8xH100 düğümünde çalışarak daha yüksek çıkarım verimi sağlıyor.

Bu modeller, güçlü muhakeme yeteneklerini ve 128K’ya kadar bir bağlam uzunluğunu korurken yüksek verimli çıkarım için optimize edilmiştir.

Ayrıca Nvidia, küresel AI açık kaynak topluluğunda çığır açan bir çıkarım anahtarı özelliği tanıttı. Kullanıcılar, "ayrıntılı düşünme açık/kapalı" sistem istemini kullanarak standart sohbet modu ve muhakeme modu arasında dinamik olarak geçiş yapabilir.

Bu tasarım, modelin farklı modellere veya mimarilere ihtiyaç duymadan genel günlük ihtiyaçları karşılamasına ve karmaşık, çok adımlı muhakeme görevlerini ele almasına olanak tanır.

Yapım Süreci: Beş Aşamalı Yaklaşım

Llama-Nemotron modellerinin yapımı beş ayrı aşamaya ayrılmıştır:

Aşama 1: Llama 3 serisi modellere dayalı olarak sinirsel mimari arama (NAS) kullanılarak muhakeme verimliliğinin optimizasyonu ve İleri Beslemeli Ağ Füzyonu (FFN Fusion) tanıtımı.

Aşama 2: Bilgi damıtma ve devamlı ön eğitim yoluyla model performansının kurtarılması.

Aşama 3: Denetimli ince ayar (SFT), standart talimat verilerini DeepSeek-R1 gibi güçlü öğretmen modellerden gelen muhakeme süreçleriyle birleştirerek modelin çok adımlı muhakeme gerçekleştirmesini sağlar.

Aşama 4: Öğrenci modelinin öğretmen modelin yeteneklerini aşması için çok önemli olan karmaşık matematiksel ve STEM veri kümelerinde büyük ölçekli pekiştirme öğrenimi. LN-Ultra için bu aşama, GPQA-D kıyaslamasında performansı önemli ölçüde artırarak açık kaynak alanında bilimsel muhakeme için en güçlü model olarak konumunu sağlamlaştırır.

Bu kadar büyük ölçekli pekiştirme öğrenimi eğitimini desteklemek için ekip, en önemlisi FP8 hassasiyet üretimi yeteneğini destekleyen birden fazla optimizasyon önlemine sahip yeni bir eğitim çerçevesi geliştirdi.

Aşama 5: Talimatları takip etmeye ve insan tercihlerine uymaya odaklanan kısa bir hizalama eğitimi.

Optimize Edilmiş Çıkarım Verimliliği için Yenilikçi Mimari

LN-Super ve LN-Ultra, model çıkarım verimliliğini optimize etmek için sinirsel mimari arama için Puzzle çerçevesinden yararlanır.

Puzzle, büyük dil modellerini donanıma uyarlanmış, dağıtım için optimize edilmiş verimli sürümlere dönüştürür.

"Blok blok yerel damıtma" yoluyla geliştiriciler, Llama 3 Instruct’ı kullanarak alternatif Transformer modüllerinden oluşan bir kitaplık oluşturdu.

Bu süreçte, her modül bağımsız ve paralel olarak eğitilir ve hesaplama performansını optimize ederken orijinal modülün işlevselliğine yaklaşır.

Her alternatif modülün belirli "hassasiyet-verimlilik" ödünleşimleri vardır. Bazı modüller daha verimlidir ancak belirli bir kalite düşüşüne neden olabilir ve hesaplama maliyeti ile model doğruluğu arasında net bir ödünleşim yaratır.

Bu modül varyasyonları şunları içerir:

Dikkat Mekanizmasının Kaldırılması: Bazı modüller, hesaplama miktarını ve KV önbellek bellek tüketimini azaltarak dikkat mekanizmasını tamamen ortadan kaldırır.

Değişken FFN Boyutları: İleri beslemeli ağların ara boyutları ayarlanarak modelin farklı tanecikliklerde sıkıştırılmasına olanak sağlanır.

Modül kitaplığı oluşturulduktan sonra Puzzle, eksiksiz bir model oluşturmak için her katmandan bir modül seçer.

Bu seçim süreci, donanım uyumluluğu, izin verilen maksimum gecikme, bellek bütçesi veya istenen çıkarım verimi gibi kısıtlamalara göre en uygun yapılandırmayı bulan bir karma tamsayı programlama (MIP) çözücüsü tarafından kontrol edilir.

Dikey Sıkıştırma ve FFN Füzyonu

LN-Ultra modelinde araştırmacılar, modelin dizi derinliğini azaltmak ve muhakeme gecikmesi verimliliğini artırmak için ek bir sıkıştırma tekniği olan FFN Füzyon (İleri Beslemeli Ağ Füzyonu) tanıttı.

Puzzle’ın bazı dikkat katmanlarını kaldırması benzersiz bir yapıya neden olur: model yapısında birden fazla sürekli FFN bloğu sıklıkla görünür.

FFN Füzyonu, bu sürekli yapıları tanımlar ve bunları daha az ancak daha geniş, paralel olarak yürütülebilir FFN katmanlarıyla değiştirir.

Bu değiştirme yöntemi, model ifade gücünden ödün vermeden sıralı hesaplama adımlarını azaltır, özellikle katmanlar arası iletişim yükünün önemli olduğu çoklu GPU ortamlarında bilgi işlem kaynaklarının kullanımını önemli ölçüde iyileştirir.

LN-Ultra modeli, doğruluk ve verimlilik açısından DeepSeek-R1 ve Llama-3.1-405B’den sürekli olarak daha iyi performans göstererek optimum bir denge sağlar.

NAS Sonrası Eğitim: Bilgi Damıtma ve Devamlı Ön Eğitim

Sinirsel mimari arama (NAS) aşamasından sonra hem LN-Super hem de LN-Ultra, modüller arasındaki uyumluluğu artırmak ve modül değiştirme sırasında meydana gelmiş olabilecek herhangi bir kalite kaybını gidermek için ek eğitime tabi tutuldu.

  • LN-Super, bilgi damıtma hedefi altında 40 milyar token için Distillation Mix veri kümesi üzerinde eğitildi.
  • LN-Ultra, başlangıçta aynı damıtma veri kümesi üzerinde 65 milyar token için eğitildi, ardından Nemotron-H dördüncü aşama ön eğitim veri kümesi üzerinde 88 milyar token için devamlı eğitim aldı.

Bu son ön eğitim adımı, LN-Ultra’nın yalnızca referans model Llama 3.1-405B-Instruct’a yetişmesini değil, aynı zamanda temel kıyaslama testlerinde onu aşmasını sağladı.

Bu, kısa damıtma ve ön eğitimin, agresif mimari optimizasyon ve yüksek model performansı arasında uyumluluk sağlayabileceğini gösteriyor.

Denetimli İnce Ayar: Muhakeme Yeteneğinin Geliştirilmesi

Denetimli İnce Ayar (SFT), Llama-Nemotron modelleri için "kişisel eğitmen" görevi görerek özellikle belirli görevler için muhakeme adımlarını hedefler ve DeepSeek-R1 gibi "yıldız öğrenci" modellerden çıkarım tekniklerini öğrenir.

Gerçek muhakeme becerileri kazandırmak için büyük ölçekli, yüksek kaliteli muhakeme eğitim verileri çok önemlidir.

Sentetik Veriler: Muhakeme için Özel Olarak Tasarlandı

Araştırmacılar, denetimli ince ayar için hem muhakeme hem de muhakeme dışı veriler içeren veri örneklerini özenle hazırladılar.

Muhakeme örnekleri için sistem talimatlarına "ayrıntılı düşünme açık" eklediler, muhakeme dışı örnekler için ise "ayrıntılı düşünme kapalı" kullandılar.

Bu ayar, modelin muhakeme aşamasında istemlere göre muhakeme davranışını değiştirmesine olanak tanır.

Muhakeme için sentetik veriler matematik, kodlama ve ilgili alanlarda hazırlandı.

Modeli "muhakeme anahtarı" talimatlarını izlemesi için eğitmek amacıyla araştırmacılar, her istemin muhakeme içeren ve muhakeme içermeyen bir yanıtla eşleştiği eşleştirilmiş veri kümeleri oluşturdu.

Bu eşleştirme, modelin sistem talimatlarına göre muhakeme davranışını ayarlamayı öğrenmesini sağlar.

Bu yanıtların sonraki filtrelenmesi standart yanıtlara veya ödül modellerine göre gerçekleştirilir.

İnce Ayar Süreci

Tüm modeller, token düzeyinde çapraz entropi kaybı kullanılarak talimat ince ayar verileri üzerinde eğitildi.

Çoğu eğitim ayarında, muhakeme ve muhakeme dışı veriler, her istemin "ayrıntılı düşünme açık/kapalı" sistem talimatlarına göre karşılık gelen bir yanıtla eşleştirildiği eğitim kümeleri oluşturmak için karıştırılır.

Eğitimi birden çok tura uzatmak, özellikle daha küçük modeller için performansı artırabilir.

NeMo-Aligner, GRPO’yu ve heterojen modellerin eğitimini destekleyerek pekiştirme öğrenimi eğitimi için kullanıldı.

vLLM oluşturma aşaması için ve Megatron-LM eğitim aşaması için kullanıldı.

Eğitim ve muhakeme aşamaları aynı GPU kümesini paylaştı ve aynı cihazda tamamlandı.

Tüm eğitim süreci 8 H100 GPU ile donatılmış 72 düğüm kullandı.

Oluşturma aşaması FP8 hassasiyeti, eğitim aşaması BF16 hassasiyeti ve optimize edici durumu FP32 kullandı.

Her aşama, her adımın başında senkronize edilen bağımsız bir model ağırlığı korudu.

Pekiştirme Öğrenimi: R1’in Muhakeme Yeteneğini Aşmanın Anahtarı

Denetimli ince ayar (SFT), modelin güçlü öğretmen modellerden bilgi çıkarmasını sağlayarak mükemmel yetenekler elde etmesini sağlar.

Ancak, bilgi damıtma, özellikle öğrenci modelin temel model yeteneği öğretmen modelinkini aşmadığında, öğrenci modelin performansına doğası gereği bir sınır koyar.

Denetimli ince ayar yoluyla LN-Ultra’nın performansı DeepSeek-R1’e yaklaşabilir ancak onu aşamaz.

Büyük ölçekli pekiştirme öğrenimi (RL), modelin sürekli olarak yeni olasılıklar keşfetmesine ve kendi kendine öğrenmesine olanak sağladığı için öğrenci modelin öğretmen modeli aşmasını sağlamak için uygulanabilir bir yöntemdir.

Kaynak kısıtlamaları nedeniyle araştırmacılar, muhakeme RL’sini yalnızca LN-Ultra’ya uygulayarak öğretmen modeli aşan bir öğrenci modeli elde ettiler.

Muhakeme pekiştirme öğrenimi eğitim süreci boyunca LN-Ultra’nın GPQA-Diamond veri kümesindeki doğruluğu arttı.

Eğitim Süreci: Bilimsel Muhakemeye Odaklanma

LN-Ultra için araştırmacılar, bilimsel muhakeme yeteneğini büyük ölçekli pekiştirme öğrenimi (RL) yoluyla, DeepSeek-R1 tarafından kullanılanla aynı olanGrouped Relative Policy Optimization (GRPO) algoritmasını kullanarak geliştirdiler.

Tüm eğitim süreci yaklaşık 140.000 H100 saat gerektirdi ve model sürekli olarak muhakeme görevlerinde yakınlaşana kadar eğitildi.

Ödül mekanizması tasarımı iki kategori içeriyordu:

  • Doğruluk Ödülü: Standart yanıtlara (sayısal/cümle/paragraf) dayalı olarak Llama-3.3-70B-Instruct modelini çağırmak, tahmin sonuçlarının eşleşme derecesini değerlendirir.
  • Biçim Ödülü: DeepSeek-AI’nın şemasına göre model, muhakeme sürecini "ayrıntılı düşünme" modunda <think\> etiketleriyle sarmalamaya zorlanır ve bu tür etiketlerin görünümü, ayrıntılı olmayan düşünme modunda yasaktır.

Araştırma ekibi ayrıca veri filtreleme ve müfredat eğitimi dahil olmak üzere verileri önceden işledi.

  • Veri Taraması: LN-Super, her soru için önceden 8 yanıt oluşturmak için kullanılır ve geçme oranı ≥ %75 olan basit örnekler kaldırılır.
  • Müfredat Eğitimi: Geçme oranına göre aşamalı toplu iş tahsisi benimsenmiştir.

Dinamik Dağılım: Toplu iş zorluğunu bir Gauss fonksiyonuyla modelleme, başlangıçta yüksek geçme oranlı (basit) örneklere odaklanma ve daha sonra düşük geçme oranlı (zor) örneklere geçme.

Dolgu Mantığı: Örnekler önce hedef dağılıma göre tahsis edilir ve kalan kapasite en büyük kalan örnek havuzundan tamamlanır.

Toplu İçi İşleme: Aynı toplu işteki örnekler çeşitliliği korumak için rastgele karıştırılır.

Tercih Optimizasyonu için Pekiştirme Öğrenimi

Bilimsel muhakeme eğitimini tamamladıktan sonra araştırmacılar, LN-Super ve LN-Ultra modelleri için talimatları takip etme yeteneklerini geliştirmeye odaklanarak kısa bir pekiştirme öğrenimi aşaması gerçekleştirdiler.

Araştırmacılar ayrıca, modellerin matematik, bilim ve diğer alanlardaki yeteneklerini korurken modellerin genel yardım yeteneklerini ve sohbet performansını optimize etmek için RLHF’yi kullandılar.

LN-Super, Arena Hard testinde 88,3 gibi yüksek bir puan elde ederek Claude 3.5 Sonnet ve GPT-4o-2024-05-13 gibi tescilli modelleri geride bıraktı ve ayrıca daha büyük açık kaynaklı modellerden daha iyi performans gösterdi.

Bu sonucu elde etmek için, modelin HelpSteer2 veri kümesindeki tahmin ödülünü en üst düzeye çıkaran "Çevrimiçi Ödül-Politika Optimizasyonu" yöntemini benimsediler. Kullanılan ödül modeli Llama-3.1-Nemotron-70B-Reward’dı.

İki tur çevrimiçi RPO eğitimi Arena Hard puanını 69,1’den 88,1’e yükseltti.

LN-Ultra için benzer bir süreç kullandılar ancak GRPO‘yu benimsediler.

LN-Nano için politika tarafından oluşturulan eğitim verilerini kullanarak iki tur çevrimdışı RPO eğitimi gerçekleştirdiler.

İlk tur, modelin muhakeme kontrol yeteneğini optimize etmek için uygun sistem istemleriyle muhakeme ve muhakeme dışı verileri birleştirdi. İkinci tur, talimatları takip etme yeteneklerini geliştirmeye odaklandı.

Değerlendirme Sonuçları: Kapsamlı Bir Değerlendirme

Araştırmacılar, tüm Llama-Nemotron modellerinin performansını iki kıyaslama kategorisinde değerlendirdi: muhakeme görevleri ve muhakeme dışı görevler.

Muhakeme kıyaslamaları şunları içeriyordu: AIME24 ve AIME25, GPQA-Diamond, LiveCodeBench ve MATH500.

Muhakeme dışı kıyaslamalar şunları içeriyordu: talimatları takip etme değerlendirmesi için IFEval, işlev çağrısı aracı kullanım değerlendirmesi için BFCL V2 Live ve insan konuşma tercihlerine uyumu değerlendirmek için Arena-Hard.

LN-Nano, küçük boyutuna rağmen tüm muhakeme kıyaslamalarında mükemmel performans gösterdi.

Bu, denetimli ince ayar süreçlerinin ve iyi yönetilen muhakeme veri kümelerinin yapılandırılmış muhakeme yeteneklerini daha küçük modellere aktarmada etkili olduğunu gösterir.

LN-Super, benzer parametre ölçeğine sahip diğer modellerle karşılaştırıldığında hem muhakeme hem de muhakeme dışı görevlerde güçlü bir rekabet gücü gösterdi.

"Muhakeme kapalı" modunda LN-Super’ın performansı, damıtılmış kaynak modeli Llama-3.3-70B ile karşılaştırılabilirdi; "muhakeme açık" modunda ise DeepSeek-R1-Distilled-Llama-70B gibi diğer rakip modelleri aşarak iyi talimatları takip etme yeteneğini korurken güçlü muhakeme yeteneği sergiledi.

Bu sonuçlar, LN-Super’ın muhakeme için optimize edilmiş modellerin ve muhakeme dışı modellerin avantajlarını birleştiren çok yönlü bir model olduğunu ve bu da onu günlük yardımcı görevler ve yapılandırılmış muhakeme görevleri için uygun hale getirdiğini gösteriyor.

LN-Ultra, muhakeme ve muhakeme dışı kıyaslamalarda mevcut tüm açık kaynaklı ağırlık modelleriyle aynı seviyede veya daha iyi performans gösterdi. GPQA’da açık kaynaklı modellerde en gelişmiş seviyeye ulaşarak Nvidia araştırmacılarının büyük ölçekli pekiştirme öğrenimi eğitim yöntemlerinin etkinliğini tam olarak gösterdi.

8×H200 donanım yapılandırması gerektiren DeepSeek-R1’in aksine LN-Ultra, tek bir 8×H100 düğümünde verimli bir şekilde çalışacak şekilde optimize edilmiştir ve daha yüksek muhakeme verimi ve dağıtım verimliliği sağlar.

LN-Ultra’nın SFT aşaması, birden çok muhakeme kıyaslamasında (GPQA ve AIME dahil) DeepSeek-R1’in performansına yaklaşmış veya ulaşmıştır.

Modelin başlangıçta eğitildiği muhakeme ve diyalog yeteneklerine ek olarak modeli bir dağıtım görevi üzerinde de test ettiler.

Özellikle model, onu yüksek kaliteli ve düşük kaliteli yanıtlar arasında ayrım yapmasını gerektiren JudgeBench veri kümesinde test edildi.

Yeni model, bu görevde mevcut en iyi tescilli ve açık kaynaklı modellerden daha iyi performans gösterdi.

LN-Ultra, en iyi performans gösteren açık kaynaklı model haline gelerek, DeepSeek-R1’i önemli ölçüde geride bıraktı ve yalnızca tescilli model o3-mini(high)’dan sonra ikinci oldu.

Ek olarak, LN-Super’ın performansı da o1-mini’yi aştı, bu da yeni modelin çeşitli görevlerde güçlü genelleme yeteneğine sahip olduğunu gösteriyor.