NVIDIA'dan Yenilikler: Llama Nemotron Ultra ve Parakeet

NVIDIA’dan Joey Conway ile yapılan özel bir röportajda, şirketin açık kaynaklı geniş dil modelleri (LLM’ler) ve otomatik konuşma tanıma (ASR) alanındaki en son gelişmelerine derinlemesine bir bakış sunuluyor. Tartışma, NVIDIA’nın AI teknolojisinin sınırlarını zorlama konusundaki kararlılığını sergileyen iki çığır açan proje olan Llama Nemotron Ultra ve Parakeet üzerine odaklanıyor.

NVIDIA’nın Açık Kaynak Stratejisi

NVIDIA, açık kaynaklı AI arenasında hızla önemli bir güç olarak ortaya çıkıyor. Llama Nemotron Ultra ve Parakeet TDT gibi gelişmiş modellerin piyasaya sürülmesi, AI teknolojisini demokratikleştirmeye ve topluluk içinde inovasyonu teşvik etmeye yönelik stratejik bir hareketi gösteriyor. NVIDIA, bu son teknoloji araçları kullanıma sunarak, çeşitli endüstrilerde AI çözümlerinin araştırma, geliştirme ve dağıtımını hızlandırmayı amaçlıyor.

Llama Nemotron Ultra: Verimliliği ve Performansı Yeniden Tanımlıyor

253 milyar parametreli bir model olan Llama Nemotron Ultra, NVIDIA’nın mühendislik becerisinin bir kanıtıdır. Onu diğerlerinden ayıran şey, Llama 405B ve DeepSeek R1 gibi iki katı büyüklüğündeki modellere kıyasla performans sunabilmesidir. Bu olağanüstü başarı, tek bir 8x H100 düğümünde konuşlandırılmasını sağlayarak daha geniş bir kullanıcı yelpazesine erişilebilir hale getiriyor.

Gizli Sos: FFN Füzyonu

Llama Nemotron Ultra’nın etkileyici verimliliği büyük ölçüde FFN (İleri Besleme Ağı) füzyonu adı verilen yenilikçi bir tekniğe bağlanıyor. NVIDIA’nın Puzzle sinirsel mimari araması yoluyla keşfedilen bu optimizasyon stratejisi, yedekli dikkat katmanlarını azaltarak modelin mimarisini kolaylaştırıyor.

FFN katmanlarını bir sırayla hizalayarak teknik, GPU’larda daha fazla paralel hesaplamayı mümkün kılıyor. Kalan katmanların birleştirilmesi veya kaynaştırılması, özellikle Meta’nın Llama 3.1 - 405B tabanlı daha büyük modeller için verimliliği en üst düzeye çıkarıyor. FFN füzyonunun faydaları iki yönlüdür: 3 ila 5 kat aralığında hızlanma sağlayan verimi önemli ölçüde artırır ve modelin bellek ayak izini azaltır. Azaltılmış boyut, daha büyük bir KV önbelleğinin kullanılmasını sağlayarak modelin daha büyük bağlam uzunluklarını işlemesini sağlıyor.

Talep Üzerine Akıl Yürütme: Oyunu Değiştiren Bir Özellik

Llama Nemotron Ultra’nın en benzersiz ve değerli özelliklerinden biri "akıl yürütme açık/kapalı" özelliğidir. Bu, modelin akıl yürütme süreci üzerinde benzersiz bir kontrol sağlayarak üretim dağıtımları ve maliyet optimizasyonu için önemli avantajlar sunuyor.

Sistem istemi yoluyla akıl yürütmeyi açıp kapatma yeteneği, işletmelere doğruluğu gecikme süresi ve maliyetle dengeleme esnekliği sağlıyor. Akıl yürütme, karmaşık sorunları çözmek için çok önemli olsa da, daha fazla belirteç üreterek daha yüksek gecikme süresine ve maliyete yol açıyor. NVIDIA, açık kontrol sağlayarak, kullanıcılara akıl yürütmeyi ne zaman kullanacakları konusunda bilinçli kararlar verme ve böylece performansı ve kaynak kullanımını optimize etme olanağı tanıyor.

Bu özelliği uygulamak için NVIDIA, denetimli ince ayar aşamasında modele ne zaman akıl yürüteceğini ve ne zaman akıl yürütmeyeceğini açıkça öğretti. Bu, aynı soruyu iki farklı cevapla sunmayı içeriyordu: biri ayrıntılı akıl yürütmeyle ve diğeri onsuz, esasen bu özel amaç için veri kümesini ikiye katlıyordu. Sonuç, kullanıcıların istemde sadece "ayrıntılı düşünmeyi aç" veya "ayrıntılı düşünmeyi kapat" ifadesini ekleyerek akıl yürütme sürecini kontrol edebilecekleri tek bir modeldir.

Parakeet TDT ile Konuşma Tanımında Devrim Yaratmak

NVIDIA’nın son teknoloji ASR modeli olan Parakeet TDT, konuşma tanımada hız ve doğruluk için ölçütleri yeniden tanımladı. Sadece bir saniyede bir saatlik sesi olağanüstü bir %6 kelime hata oranıyla çözebiliyor - diğer açık kaynaklı alternatiflerden 50 kat daha hızlı.

Mimari Yenilikler: Parakeet’in Performansının "Nasılı"

Parakeet TDT’nin etkileyici performansı, mimari seçimlerin ve belirli optimizasyonların bir kombinasyonunun sonucudur. Derinlemesine ayrılabilir evrişimli alt örnekleme ve sınırlı bağlam dikkati gibi tekniklerle geliştirilmiş bir Hızlı Uyumlulaştırıcı mimarisine dayanmaktadır.

Giriş aşamasındaki derinlemesine ayrılabilir evrişim alt örneklemesi, işlem için gereken hesaplama maliyetini ve bellek gereksinimlerini önemli ölçüde azaltır. Sınırlı bağlam dikkati, daha küçük, örtüşen ses parçalarına odaklanarak işlemde hızlanma sağlarken doğruluğu korur. Kodlayıcı tarafında, kayan pencere dikkat tekniği, modelin daha uzun ses dosyalarını daha kısa segmentlere ayırmadan işlemesine olanak tanır; bu, uzun biçimli sesleri işlemek için çok önemlidir.

Belirteç Süresi Dönüştürücü (TDT): Hızın Anahtarı

Uyumlulaştırıcı mimarisinin ötesinde, Parakeet TDT bir Belirteç ve Süre Dönüştürücü (TDT) içerir. Geleneksel Tekrarlayan Sinir Ağı (RNN) dönüştürücü teknolojisi, sesleri kare kare işler. TDT, modelin hem belirteçleri hem de bu belirteçlerin beklenen süresini tahmin etmesini sağlayarak gereksiz kareleri atlamasını ve transkripsiyon sürecini önemli ölçüde hızlandırmasını sağlar.

Bu TDT yeniliği tek başına yaklaşık 1,5 ila 2 kat hızlanmaya katkıda bulunuyor. Ek olarak, bir etiket döngü algoritması, toplu çıkarım sırasında farklı örnekler için belirteçlerin bağımsız olarak ilerlemesini sağlayarak kod çözme işlemini daha da hızlandırır. Kod çözücü tarafındaki bazı hesaplamaları CUDA grafiklerine taşımak başka bir 3 kat hız artışı sağlıyor. Bu yenilikler, Parakeet TDT’nin yüksek doğruluğu korurken, hızlarıyla bilinen Bağlantıcı Zamansal Sınıflandırma (CTC) kod çözücülerine benzer hızlara ulaşmasını sağlıyor.

Açık Veri ile AI’yı Demokratikleştirmek

NVIDIA’nın açık kaynak topluluğuna olan bağlılığı, model yayınlarının ötesine geçerek hem dil hem de konuşma için büyük, yüksek kaliteli veri kümelerinin paylaşımını da içeriyor. Şirketin veri kürasyonuna yaklaşımı, veri, teknikler ve araçları hakkında mümkün olduğunca çok şey paylaşarak topluluğun bunları anlaması ve kullanması hedefiyle, şeffaflığı ve açıklığı vurguluyor.

Llama Nemotron Ultra için Veri Kürasyonu

Llama Nemotron Ultra için veri kürasyonunun temel amacı, matematik ve kodlama gibi akıl yürütme görevlerinin yanı sıra araç çağırma, talimatları takip etme ve sohbet gibi akıl yürütme dışı görevler dahil olmak üzere çeşitli önemli alanlarda doğruluğu artırmaktı.

Strateji, bu alanlarda performansı artırmak için belirli veri kümelerini düzenlemeyi içeriyordu. Denetimli ince ayar sürecinde NVIDIA, "akıl yürütme açık" ve "akıl yürütme kapalı" senaryoları arasında ayrım yaptı. Topluluktan gelen yüksek kaliteli modeller, belirli alanlarda "uzman" olarak kullanıldı. Örneğin, DeepSeek R-1, akıl yürütme yoğun matematik ve kodlama görevleri için yoğun bir şekilde kullanılırken, Llama ve Qwen gibi modeller temel matematik, kodlama, sohbet ve araç çağırma gibi akıl yürütme dışı görevler için kullanıldı. Yaklaşık 30 milyon soru-cevap çiftinden oluşan bu küratörlü veri kümesi, Hugging Face’te kamuya açık hale getirildi.

Veri Kalitesini Sağlamak: Çok Katmanlı Bir Yaklaşım

Verilerin önemli bir bölümünün diğer modeller kullanılarak oluşturulması nedeniyle NVIDIA, titiz bir çok katmanlı kalite güvence süreci uyguladı. Bu şunları içeriyordu:

  • Her uzman modeli kullanarak aynı istem için birden fazla aday yanıtı oluşturma.
  • Bu adayları doğruluk, tutarlılık ve isteme uygunluk temelinde değerlendirmek için ayrı bir "eleştirmen" model kümesi kullanma.
  • Oluşturulan her soru-cevap çiftinin eleştirmen modelinin değerlendirmesine göre bir kalite puanı aldığı bir puanlama mekanizması uygulama ve kabul için yüksek bir eşik belirleme.
  • Veri bilimcileri ve mühendislerin oluşturulan verilerin örneklerini manuel olarak inceleyerek sistematik hataları, önyargıları veya halüsinasyon örneklerini belirlemesiyle çeşitli aşamalarda insan incelemesini entegre etme.
  • Her alan içinde çok çeşitli örnekler sağlamak için oluşturulan verilerin çeşitliliğine odaklanma.
  • Bu derlenmiş veriler üzerinde Llama Nemotron Ultra’yı eğittikten sonra kıyaslama veri kümelerine ve gerçek dünya kullanım durumlarına karşı kapsamlı değerlendirmeler yapma.

Parakeet TDT için Bir Konuşma Veri Kümesini Açık Kaynak Kodlu Hale Getirme

NVIDIA, yaklaşık 100.000 saatlik önemli bir konuşma veri kümesini açık kaynaklı hale getirmeyi planlıyor ve bu, gerçek dünya çeşitliliğini yansıtacak şekilde titizlikle düzenlendi. Bu veri kümesi, ses seviyelerindeki, sinyal-gürültü oranlarındaki, arka plan gürültüsü türlerindeki ve hatta çağrı merkezleri için geçerli olan telefon ses formatlarındaki varyasyonları içerecektir. Amaç, topluluğa, modellerin çok çeşitli gerçek dünya senaryolarında iyi performans göstermesini sağlayan yüksek kaliteli, çeşitli veriler sağlamaktır.

Gelecek Yönler: Daha Küçük Modeller, Çok Dilli Destek ve Gerçek Zamanlı Akış

NVIDIA’nın gelecek vizyonu, çok dilli desteğin daha da geliştirilmesini, daha da küçük uç nokta için optimize edilmiş modelleri ve konuşma tanıma için gerçek zamanlı akışta iyileştirmeler içeriyor.

Çok Dilli Yetenekler

Birden çok dili desteklemek, büyük işletmeler için çok önemlidir. NVIDIA, birkaç temel dile odaklanmayı ve bunlar içinde akıl yürütme, araç çağırma ve sohbet için dünya standartlarında doğruluk sağlamayı amaçlıyor. Bu muhtemelen bir sonraki büyük genişleme alanı.

Uç Nokta için Optimize Edilmiş Modeller

NVIDIA, gürültülü ortamlarda robotlar için gerçek zamanlı ses işlemeyi etkinleştirmek gibi daha küçük bir ayak izinin gerekli olduğu uç noktadaki kullanım durumlarını ele almak için yaklaşık 50 milyon parametreye kadar olan modelleri değerlendiriyor.

Parakeet TDT için Gerçek Zamanlı Akış

Teknolojik olarak NVIDIA, gerçek zamanlı, canlı transkripsiyonu etkinleştirmek için TDT için akış yetenekleri üzerinde çalışmayı planlıyor.

Üretim için Hazır AI: Gerçek Dünya Dağıtımı için Tasarım

Hem Llama Nemotron Ultra hem de Parakeet TDT, doğruluk, verimlilik ve maliyet etkinliğine odaklanarak gerçek dünya dağıtım zorlukları göz önünde bulundurularak tasarlanmıştır.

Ölçeklenebilirlik ve Maliyet Verimliliği için Akıl Yürütme Açık/Kapalı

Aşırı akıl yürütme, üretim ortamlarında ölçeklenebilirlik sorunlarına ve artan gecikmeye yol açabilir. Llama Nemotron Ultra’da tanıtılan akıl yürütme açık/kapalı özelliği, sorgu başına akıl yürütmeyi kontrol etme esnekliği sağlayarak çok sayıda üretim kullanım durumunu mümkün kılıyor.

Doğruluk ve Verimliliği Dengeleme

Doğruluk ve verimliliği dengelemek sürekli bir zorluktur. NVIDIA’nın yaklaşımı, eğitim sırasında her beceri için dönem sayısını dikkatlice değerlendirmeyi ve doğruluğu sürekli olarak ölçmeyi içeriyor. Amaç, tüm önemli alanlarda performansı artırmaktır.

NVIDIA Modellerinin Açık Kaynak Ekosistemindeki Rolü

NVIDIA, Llama Nemotron Ultra ve Parakeet TDT’nin daha geniş açık kaynak ve LLM ekosistemindeki rolünü, mevcut temeller üzerine inşa etmek ve önemli değer katmak için belirli alanlara dar bir şekilde odaklanmak olarak görüyor. Şirket, katkıda bulunabileceği belirli alanları belirlemeye devam etmeyi hedeflerken, diğerleri kurumsal üretime uygun mükemmel genel amaçlı modeller oluşturmaya devam ediyor.

Temel Çıkarımlar: Açık Kaynak, Hızlı, Yüksek Verim, Maliyet Verimli

NVIDIA’nın Llama Nemotron Ultra ve Parakeet TDT üzerindeki çalışmalarından elde edilen temel çıkarımlar, her şeyi açık kaynak yapma, son teknoloji doğruluğu elde etme, gecikme süresi ve verim açısından verimli GPU kullanımı için ayak izlerini optimize etme ve topluluğu güçlendirme konusundaki kararlılıktır.

Tüm modeller ve veri kümeleri Hugging Face’te mevcuttur. Bunları çalıştırmak için gereken yazılım yığını NVIDIA’dan geliyor ve içerik deposu olan NGC’de bulunuyor. Temel yazılımların çoğu da açık kaynaklıdır ve GitHub’da bulunabilir. Nemo çerçevesi, bu yazılım yığınının çoğu için merkezi merkezdir.