Innowacje NVIDIA: Llama, Nemotron, Parakeet

W rozmowie pełnej szczegółów, Joey Conway z NVIDIA dogłębnie omawia najnowsze osiągnięcia firmy w dziedzinie otwartych, dużych modeli językowych (LLM) i automatycznego rozpoznawania mowy (ASR). Dyskusja koncentruje się na Llama Nemotron Ultra i Parakeet, dwóch przełomowych projektach, które pokazują zaangażowanie NVIDIA w przesuwanie granic technologii AI.

Strategia Open Source NVIDIA

NVIDIA szybko staje się znaczącą siłą na arenie AI typu open source. Udostępnianie zaawansowanych modeli, takich jak Llama Nemotron Ultra i Parakeet TDT, to strategiczny krok w kierunku demokratyzacji technologii AI i wspierania innowacji w społeczności. Udostępniając te najnowocześniejsze narzędzia, NVIDIA ma na celu przyspieszenie badań, rozwoju i wdrażania rozwiązań AI w różnych branżach.

Llama Nemotron Ultra: Definiowanie na Nowo Wydajności

Llama Nemotron Ultra, model z 253 miliardami parametrów, jest dowodem inżynieryjnej sprawności NVIDIA. Wyróżnia go zdolność do zapewniania wydajności porównywalnej z modelami dwa razy większymi, takimi jak Llama 405B i DeepSeek R1. To niezwykłe osiągnięcie pozwala na wdrożenie go na pojedynczym węźle 8x H100, dzięki czemu jest dostępny dla szerszego grona użytkowników.

Sekretny Sos: Fuzja FFN

Imponująca wydajność Llama Nemotron Ultra wynika w dużej mierze z innowacyjnej techniki zwanej fuzją FFN (Feed-Forward Network). Ta strategia optymalizacji, odkryta dzięki wyszukiwaniu architektury neuronowej Puzzle firmy NVIDIA, usprawnia architekturę modelu poprzez redukcję zbędnych warstw uwagi.

Ustawiając warstwy FFN w sekwencji, technika ta umożliwia większe obliczenia równoległe na GPU. Scalanie lub łączenie pozostałych warstw maksymalizuje wydajność, szczególnie korzystne dla większych modeli opartych na Llama 3.1 - 405B firmy Meta. Korzyści z fuzji FFN są dwojakie: znacznie poprawia przepustowość, osiągając przyspieszenie w zakresie od 3 do 5x, i zmniejsza zajętość pamięci przez model. Zmniejszony rozmiar pozwala na wykorzystanie większej pamięci podręcznej KV, umożliwiając modelowi obsługę większych długości kontekstu.

Rozumowanie na Żądanie: Funkcja Zmieniająca Zasady Gry

Jedną z najbardziej unikalnych i cennych cech Llama Nemotron Ultra jest jego zdolność „włączania/wyłączania rozumowania”. Pozwala to na bezprecedensową kontrolę nad procesem rozumowania modelu, oferując znaczące korzyści dla wdrożeń produkcyjnych i optymalizacji kosztów.

Możliwość włączania i wyłączania rozumowania za pomocą monitu systemowego daje przedsiębiorstwom elastyczność w balansowaniu dokładności z opóźnieniami i kosztami. Rozumowanie, choć kluczowe dla rozwiązywania złożonych problemów, generuje więcej tokenów, co prowadzi do większych opóźnień i kosztów. Zapewniając wyraźną kontrolę, NVIDIA umożliwia użytkownikom podejmowanie świadomych decyzji o tym, kiedy korzystać z rozumowania, optymalizując w ten sposób wydajność i wykorzystanie zasobów.

Aby wdrożyć tę funkcję, NVIDIA wyraźnie nauczyła model, kiedy rozumować, a kiedy nie, podczas etapu nadzorowanego dostrajania. Obejmowało to przedstawianie tego samego pytania z dwiema różnymi odpowiedziami: jedną ze szczegółowym rozumowaniem, a drugą bez, co w zasadzie podwajało zbiór danych do tego konkretnego celu. Rezultatem jest pojedynczy model, w którym użytkownicy mogą kontrolować proces rozumowania, po prostu dołączając „use detailed thinking on” lub „use detailed thinking off” w monicie.

Rewolucjonizowanie Rozpoznawania Mowy dzięki Parakeet TDT

Parakeet TDT, najnowocześniejszy model ASR firmy NVIDIA, na nowo zdefiniował benchmarki prędkości i dokładności w rozpoznawaniu mowy. Potrafi transkrybować jedną godzinę dźwięku w zaledwie jedną sekundę z niezwykłym 6% współczynnikiem błędów słów – 50 razy szybciej niż inne alternatywy typu open source.

Innowacje Architektoniczne: „Jak” Działa Parakeet

Imponująca wydajność Parakeet TDT jest wynikiem połączenia wyborów architektonicznych i konkretnych optymalizacji. Opiera się na architekturze Fast Conformer, udoskonalonej dzięki technikom takim jak głęboko rozdzielne próbkowanie w dół konwolucji i ograniczona atencja kontekstowa.

Głęboko rozdzielne próbkowanie w dół konwolucji na etapie wejściowym znacznie zmniejsza koszt obliczeniowy i wymagania pamięciowe dotyczące przetwarzania. Ograniczona atencja kontekstowa, koncentrując się na mniejszych, nakładających się fragmentach dźwięku, zachowuje dokładność, jednocześnie przyspieszając przetwarzanie. Po stronie enkodera technika atencji z ruchomym oknem pozwala modelowi przetwarzać dłuższe pliki audio bez dzielenia ich na krótsze segmenty, co jest kluczowe przy obsłudze długich form audio.

Token Duration Transducer (TDT): Klucz do Szybkości

Oprócz architektury Conformer, Parakeet TDT zawiera Token and Duration Transducer (TDT). Tradycyjna technologia przetworników rekurencyjnych sieci neuronowych (RNN) przetwarza ramka po ramce dźwięku. TDT umożliwia modelowi przewidywanie zarówno tokenów, jak i oczekiwanego czasu trwania tych tokenów, co pozwala mu pomijać zbędne ramki i znacznie przyspiesza proces transkrypcji.

Ta innowacja TDT sama w sobie przyczynia się do około 1,5 do 2x przyspieszenia. Dodatkowo, algorytm pętli etykiet umożliwia niezależny postęp tokenów dla różnych próbek podczas wnioskowania wsadowego, co jeszcze bardziej przyspiesza proces dekodowania. Przeniesienie części obliczeń po stronie dekodera do wykresów CUDA zapewnia kolejne 3x przyspieszenie. Te innowacje umożliwiają Parakeet TDT osiągnięcie prędkości porównywalnych z dekoderami Connectionist Temporal Classification (CTC), znanymi ze swojej szybkości, przy zachowaniu wysokiej dokładności.

Demokratyzacja AI dzięki Otwartym Danym

Zaangażowanie NVIDIA w społeczność open source wykracza poza udostępnianie modeli i obejmuje udostępnianie ogromnych, wysokiej jakości zbiorów danych zarówno dla języka, jak i mowy. Podejście firmy do kuratorowania danych podkreśla przejrzystość i otwartość, mając na celu udostępnienie jak największej ilości informacji o jej danych, technikach i narzędziach, aby społeczność mogła je zrozumieć i wykorzystać.

Kuratorowanie Danych dla Llama Nemotron Ultra

Głównym celem kuratorowania danych dla Llama Nemotron Ultra było poprawienie dokładności w kilku kluczowych obszarach, w tym w zadaniach rozumowania, takich jak matematyka i kodowanie, a także w zadaniach nierozumowania, takich jak wywoływanie narzędzi, wykonywanie instrukcji i czat.

Strategia obejmowała kuratorowanie konkretnych zbiorów danych w celu zwiększenia wydajności w tych obszarach. W procesie nadzorowanego dostrajania NVIDIA rozróżniała scenariusze „rozumowania włączone” i „rozumowania wyłączone”. Wysokiej jakości modele ze społeczności zostały wykorzystane jako „eksperci” w określonych domenach. Na przykład DeepSeek R-1 był szeroko stosowany do zadań matematycznych i kodowania wymagających intensywnego rozumowania, podczas gdy modele takie jak Llama i Qwen były wykorzystywane do zadań nierozumowania, takich jak podstawowa matematyka, kodowanie, czat i wywoływanie narzędzi. Ten kuratorowany zbiór danych, składający się z około 30 milionów par pytań i odpowiedzi, został publicznie udostępniony na Hugging Face.

Zapewnienie Jakości Danych: Podejście Wielowarstwowe

Biorąc pod uwagę, że znaczna część danych została wygenerowana przy użyciu innych modeli, NVIDIA wdrożyła rygorystyczny, wielowarstwowy proces zapewniania jakości. Obejmowało to:

  • Generowanie wielu odpowiedzi kandydujących na ten sam monit przy użyciu każdego modelu eksperckiego.
  • Wykorzystywanie oddzielnego zestawu modeli „krytyków” do oceny tych kandydatów na podstawie poprawności, spójności i zgodności z monitem.
  • Wdrażanie mechanizmu punktacji, w którym każda wygenerowana para pytań i odpowiedzi otrzymywała ocenę jakości na podstawie oceny modelu krytycznego, z ustalonym wysokim progiem akceptacji.
  • Integrowanie przeglądu ludzkiego na różnych etapach, z udziałem naukowców danych i inżynierów ręcznie sprawdzających próbki wygenerowanych danych w celu zidentyfikowania wszelkich systematycznych błędów, uprzedzeń lub przypadków halucynacji.
  • Koncentrowanie się na różnorodności generowanych danych w celu zapewnienia szerokiego zakresu przykładów w każdej domenie.
  • Przeprowadzanie szeroko zakrojonych ocen na podstawie zbiorów danych porównawczych i w rzeczywistych przypadkach użycia po przeszkoleniu Llama Nemotron Ultra na tych kuratorowanych danych.

Otwieranie Zbioru Danych Mowy dla Parakeet TDT

NVIDIA planuje otworzyć obszerny zbiór danych mowy, liczący około 100 000 godzin, starannie wyselekcjonowany, aby odzwierciedlał różnorodność w świecie rzeczywistym. Ten zbiór danych będzie zawierał zmiany w poziomach dźwięku, stosunkach sygnału do szumu, rodzajach szumów tła, a nawet formatach dźwięku telefonicznego istotnych dla call center. Celem jest zapewnienie społeczności wysokiej jakości, różnorodnych danych, które umożliwią modelom dobre działanie w szerokim zakresie rzeczywistych scenariuszy.

Przyszłe Kierunki: Mniejsze Modele, Obsługa Wielu Języków i Transmisja Strumieniowa w Czasie Rzeczywistym

Wizja NVIDIA na przyszłość obejmuje dalsze postępy w obsłudze wielu języków, jeszcze mniejsze modele zoptymalizowane pod kątem brzegów sieci i ulepszenia w transmisji strumieniowej w czasie rzeczywistym dla rozpoznawania mowy.

Możliwości Wielojęzyczne

Obsługa wielu języków ma kluczowe znaczenie dla dużych przedsiębiorstw. NVIDIA zamierza skupić się na kilku kluczowych językach i zapewnić światowej klasy dokładność rozumowania, wywoływania narzędzi i czatu w ich obrębie. Jest to prawdopodobnie kolejny główny obszar ekspansji.

Modele Zoptymalizowane pod Kątem Brzegów Sieci

NVIDIA rozważa modele o parametrach aż do około 50 milionów, aby rozwiązać przypadki użycia na brzegu sieci, gdzie konieczny jest mniejszy rozmiar, takie jak umożliwienie przetwarzania dźwięku w czasie rzeczywistym dla robotów w hałaśliwym otoczeniu.

Transmisja Strumieniowa w Czasie Rzeczywistym dla Parakeet TDT

Technologicznie NVIDIA planuje pracować nad możliwościami przesyłania strumieniowego dla TDT, aby umożliwić transkrypcję na żywo w czasie rzeczywistym.

AI Gotowa do Produkcji: Projektowanie z Myślą o Wdrożeniach w Świecie Rzeczywistym

Zarówno Llama Nemotron Ultra, jak i Parakeet TDT zostały zaprojektowane z myślą o wyzwaniach związanych z wdrożeniami w świecie rzeczywistym, koncentrując się na dokładności, wydajności i opłacalności.

Rozumowanie Włączone/Wyłączone dla Skalowalności i Efektywności Kosztowej

Nadmierne rozumowanie może prowadzić do problemów ze skalowalnością i zwiększonego opóźnienia w środowiskach produkcyjnych. Funkcja włączania/wyłączania rozumowania wprowadzona w Llama Nemotron Ultra zapewnia elastyczność sterowania rozumowaniem dla każdego zapytania, umożliwiając liczne przypadki użycia w produkcji.

Równoważenie Dokładności i Wydajności

Równoważenie dokładności i wydajności jest ciągłym wyzwaniem. Podejście NVIDIA polega na starannym rozważeniu liczby epok dla każdej umiejętności podczas treningu i ciągłym mierzeniu dokładności. Celem jest poprawa wydajności we wszystkich kluczowych obszarach.

Rola Modeli NVIDIA w Ekosystemie Open Source

NVIDIA postrzega rolę Llama Nemotron Ultra i Parakeet TDT w szerszym ekosystemie open source i LLM jako budowanie na istniejących fundamentach i wąskie skupianie się na konkretnych obszarach w celu dodania znaczącej wartości. Firma zamierza nadal identyfikować konkretne obszary, w których może wnosić swój wkład, podczas gdy inni będą nadal budować doskonałe modele ogólnego przeznaczenia odpowiednie do produkcji w przedsiębiorstwach.

Kluczowe wnioski: Open Source, Szybko, Wysoka Przepustowość, Opłacalnie

Kluczowe wnioski z pracy NVIDIA nad Llama Nemotron Ultra i Parakeet TDT to zaangażowanie w otwieranie wszystkiego na zasadach open source, osiąganie najnowocześniejszej dokładności, optymalizowanie rozmiarów dla wydajnego wykorzystania GPU pod względem opóźnień i przepustowości oraz wzmacnianie społeczności.

Wszystkie modele i zbiory danych są dostępne na Hugging Face. Stos oprogramowania do ich uruchamiania pochodzi od NVIDIA i jest dostępny na NGC, jej repozytorium treści. Znaczna część podstawowego oprogramowania jest również otwarta i można ją znaleźć na GitHub. Framework Nemo jest centralnym węzłem dla znacznej części tego stosu oprogramowania.