NVIDIA's Innovaties: Llama Nemotron & Parakeet

In een onthullend gesprek geeft Joey Conway van NVIDIA een diepgaand inzicht in de nieuwste ontwikkelingen van het bedrijf op het gebied van open-source grote taalmodellen (LLM’s) en automatische spraakherkenning (ASR). De discussie concentreert zich op Llama Nemotron Ultra en Parakeet, twee baanbrekende projecten die NVIDIA’s toewijding aantonen om de grenzen van AI-technologie te verleggen.

NVIDIA’s Open Source Strategie

NVIDIA ontpopt zich snel als een belangrijke speler in de open-source AI-arena. De release van geavanceerde modellen zoals Llama Nemotron Ultra en Parakeet TDT toont een strategische zet om AI-technologie te democratiseren en innovatie binnen de community te bevorderen. Door deze geavanceerde tools beschikbaar te stellen, wil NVIDIA onderzoek, ontwikkeling en implementatie van AI-oplossingen in verschillende industrieën versnellen.

Llama Nemotron Ultra: Efficiëntie en Prestaties Herdefiniëren

Llama Nemotron Ultra, een model met 253 miljard parameters, is een bewijs van NVIDIA’s technische bekwaamheid. Wat het onderscheidt, is het vermogen om prestaties te leveren die vergelijkbaar zijn met modellen die twee keer zo groot zijn, zoals Llama 405B en DeepSeek R1. Dankzij deze opmerkelijke prestatie kan het worden ingezet op een enkele 8x H100-node, waardoor het toegankelijk wordt voor een breder scala aan gebruikers.

De Geheime Saus: FFN-Fusie

De indrukwekkende efficiëntie van Llama Nemotron Ultra is grotendeels te danken aan een innovatieve techniek genaamd FFN (Feed-Forward Network) fusie. Deze optimalisatiestrategie, ontdekt via NVIDIA’s Puzzle neurale architectuur zoeken, stroomlijnt de architectuur van het model door redundante aandachtslagen te verminderen.

Door FFN-lagen in een reeks uit te lijnen, maakt de techniek grotere parallelle berekeningen op GPU’s mogelijk. Het samenvoegen of fuseren van de overige lagen maximaliseert de efficiëntie, wat vooral gunstig is voor grotere modellen op basis van Meta’s Llama 3.1 - 405B. De voordelen van FFN-fusie zijn tweeledig: het verbetert de doorvoer aanzienlijk, met snelheden in het bereik van 3 tot 5x, en vermindert de geheugenvoetafdruk van het model. Door de kleinere omvang kan een grotere KV-cache worden gebruikt, waardoor het model grotere contextlengtes kan verwerken.

Redeneren Op Aanvraag: Een Spelveranderende Functie

Een van de meest unieke en waardevolle functies van Llama Nemotron Ultra is de "redeneren aan/uit"-mogelijkheid. Dit maakt ongekende controle over het redeneerproces van het model mogelijk en biedt aanzienlijke voordelen voor productie-implementaties en kostenoptimalisatie.

De mogelijkheid om redeneren aan en uit te schakelen via de systeemprompt geeft bedrijven de flexibiliteit om nauwkeurigheid in evenwicht te brengen met latentie en kosten. Redeneren, hoewel cruciaal voor het oplossen van complexe problemen, genereert meer tokens, wat leidt tot hogere latentie en kosten. Door expliciete controle te bieden, stelt NVIDIA gebruikers in staat om weloverwogen beslissingen te nemen over wanneer ze redeneren moeten gebruiken, waardoor de prestaties en het gebruik van resources worden geoptimaliseerd.

Om deze functie te implementeren, heeft NVIDIA het model expliciet geleerd wanneer te redeneren en wanneer niet tijdens de fase van supervised fine-tuning. Dit omvatte het presenteren van dezelfde vraag met twee verschillende antwoorden: een met gedetailleerde redenering en een zonder redenering, waardoor de dataset voor dit specifieke doel in wezen werd verdubbeld. Het resultaat is een enkel model waarbij gebruikers het redeneerproces kunnen beheersen door simpelweg "use detailed thinking on" of "use detailed thinking off" in de prompt op te nemen.

Spraakherkenning Revolutioneren Met Parakeet TDT

Parakeet TDT, NVIDIA’s state-of-the-art ASR-model, heeft de benchmarks voor snelheid en nauwkeurigheid in spraakherkenning opnieuw gedefinieerd. Het kan één uur audio transcriberen in slechts één seconde met een opmerkelijk foutpercentage van 6% – 50 keer sneller dan andere open-source alternatieven.

Architecturale Innovaties: Het “Hoe” van Parakeet’s Prestaties

De indrukwekkende prestaties van Parakeet TDT zijn het resultaat van een combinatie van architecturale keuzes en specifieke optimalisaties. Het is gebaseerd op een Fast Conformer-architectuur, verbeterd met technieken zoals depth-wise separable convolutional downsampling en limited context attention.

De depth-wise separable convolution downsampling in de inputfase vermindert de rekenkosten en geheugenvereisten voor verwerking aanzienlijk. Limited context attention, door zich te concentreren op kleinere, overlappende stukjes audio, behoudt de nauwkeurigheid en realiseert tegelijkertijd een versnelling in de verwerking. Aan de encoder-kant stelt een sliding window attentiontechniek het model in staat langere audiobestanden te verwerken zonder ze in kortere segmenten te splitsen, wat cruciaal is voor het verwerken van long-form audio.

Token Duration Transducer (TDT): De Sleutel Tot Snelheid

Naast de Conformer-architectuur bevat Parakeet TDT een Token and Duration Transducer (TDT). Traditionele Recurrent Neural Network (RNN) transducer-technologie verwerkt audio frame voor frame. De TDT stelt het model in staat om zowel de tokens als de verwachte duur van die tokens te voorspellen, waardoor het redundante frames kan overslaan en het transcriptieproces aanzienlijk kan versnellen.

Deze TDT-innovatie draagt ​​op zichzelf al bij aan een versnelling van ongeveer 1,5 tot 2x. Bovendien zorgt een label looping-algoritme voor onafhankelijke voortgang van tokens voor verschillende samples tijdens batch inference, waardoor het decoderingsproces verder wordt versneld. Het verplaatsen van een deel van de berekening aan de decoder-kant naar CUDA-grafieken zorgt voor nog eens een boost van 3x. Dankzij deze innovaties kan Parakeet TDT snelheden bereiken die vergelijkbaar zijn met Connectionist Temporal Classification (CTC)-decoders, bekend om hun snelheid, met behoud van een hoge nauwkeurigheid.

AI Democratiseren Met Open Data

NVIDIA’s toewijding aan de open-source community gaat verder dan modelreleases en omvat het delen van enorme, kwalitatief hoogwaardige datasets voor zowel taal als spraak. NVIDIA’s benadering van datacuratie benadrukt transparantie en openheid, met als doel zoveel mogelijk te delen over de data, technieken en tooling, zodat de community ze kan begrijpen en gebruiken.

Datacuratie Voor Llama Nemotron Ultra

Het primaire doel van datacuratie voor Llama Nemotron Ultra was het verbeteren van de nauwkeurigheid in verschillende belangrijke domeinen, waaronder redeneertaken zoals wiskunde en codering, evenals niet-redeneertaken zoals tool calling, instruction following en chat.

De strategie omvatte het cureren van specifieke datasets om de prestaties op deze gebieden te verbeteren. Binnen het supervised fine-tuning proces maakte NVIDIA onderscheid tussen “redeneren aan” en “redeneren uit” scenario’s. Hoogwaardige modellen uit de community werden ingezet als “experts” in specifieke domeinen. DeepSeek R-1 werd bijvoorbeeld uitgebreid gebruikt voor redeneerintensieve wiskunde- en codeertaken, terwijl modellen zoals Llama en Qwen werden gebruikt voor niet-redeneertaken zoals basiswiskunde, codering, chat en tool calling. Deze gecureerde dataset, bestaande uit ongeveer 30 miljoen vraag-antwoordparen, is publiekelijk beschikbaar gesteld op Hugging Face.

Datakwaliteit Waarborgen: Een Meerlaagse Aanpak

Aangezien een aanzienlijk deel van de data is gegenereerd met behulp van andere modellen, heeft NVIDIA een rigoureus en meerlaags kwaliteitsborgingsproces geïmplementeerd. Dit omvatte:

  • Het genereren van meerdere kandidaat-antwoorden voor dezelfde prompt met behulp van elk expertmodel.
  • Het inzetten van een aparte set “criticus”-modellen om deze kandidaten te evalueren op basis van correctheid, samenhang en naleving van de prompt.
  • Het implementeren van een scoringsmechanisme waarbij elk gegenereerd vraag-antwoordpaar een kwaliteitsscore ontving op basis van de evaluatie van het criticusmodel, met een hoge drempel voor acceptatie.
  • Het integreren van menselijke beoordeling in verschillende stadia, waarbij datascientists en engineers handmatig samples van de gegenereerde data inspecteerden om systematische fouten, biases of gevallen van hallucinatie te identificeren.
  • Het focussen op de diversiteit van de gegenereerde data om een breed scala aan voorbeelden binnen elk domein te garanderen.
  • Het uitvoeren van uitgebreide evaluaties aan de hand van benchmarkdatasets en in real-world use cases na het trainen van Llama Nemotron Ultra op deze gecureerde data.

Open-Sourcing van een Spraakdataset voor Parakeet TDT

NVIDIA is van plan een aanzienlijke spraakdataset, van ongeveer 100.000 uur, open source te maken, die zorgvuldig is samengesteld om de diversiteit van de echte wereld weer te geven. Deze dataset bevat variaties in geluidsniveaus, signaal-ruisverhoudingen, achtergrondgeluidstypen en zelfs audioformaten voor telefoons die relevant zijn voor callcenters. Het doel is om de community te voorzien van hoogwaardige, diverse data waarmee modellen goed kunnen presteren in een breed scala aan real-world scenario’s.

Toekomstige Richtingen: Kleinere Modellen, Meertalige Ondersteuning en Real-Time Streaming

NVIDIA’s visie voor de toekomst omvat verdere verbeteringen in meertalige ondersteuning, nog kleinere, voor edge geoptimaliseerde modellen en verbeteringen in real-time streaming voor spraakherkenning.

Meertalige Mogelijkheden

Ondersteuning van meerdere talen is cruciaal voor grote bedrijven. NVIDIA streeft ernaar zich op enkele belangrijke talen te concentreren en een nauwkeurigheid van wereldklasse te garanderen voor redeneren, tool calling en chat. Dit is waarschijnlijk het volgende grote uitbreidingsgebied.

Edge-Geoptimaliseerde Modellen

NVIDIA overweegt modellen tot ongeveer 50 miljoen parameters om use cases aan te pakken aan de edge, waar een kleinere footprint nodig is, zoals het mogelijk maken van real-time audioverwerking voor robots in lawaaierige omgevingen.

Real-Time Streaming voor Parakeet TDT

Technologisch gezien is NVIDIA van plan om te werken aan streamingmogelijkheden voor TDT om real-time, live transcriptie mogelijk te maken.

Productieklare AI: Ontwerpen Voor Real-World Implementatie

Zowel Llama Nemotron Ultra als Parakeet TDT zijn ontworpen met de uitdagingen van real-world implementatie in gedachten, met een focus op nauwkeurigheid, efficiëntie en kosteneffectiviteit.

Redeneren Aan/Uit voor Schaalbaarheid en Kostenefficiëntie

Overmatig redeneren kan leiden tot schaalbaarheidsproblemen en een verhoogde latentie in productieomgevingen. De redeneren aan/uit-functie die is geïntroduceerd in Llama Nemotron Ultra biedt de flexibiliteit om het redeneren per query te regelen, waardoor tal van productie-use cases mogelijk worden.

Nauwkeurigheid en Efficiëntie in Evenwicht Brengen

Nauwkeurigheid en efficiëntie in evenwicht brengen is een constante uitdaging. NVIDIA’s aanpak omvat het zorgvuldig overwegen van het aantal epochs voor elke vaardigheid tijdens de training en het continu meten van de nauwkeurigheid. Het doel is om de prestaties op alle belangrijke gebieden te verbeteren.

De Rol van NVIDIA’s Modellen in het Open-Source Ecosysteem

NVIDIA beschouwt de rol van Llama Nemotron Ultra en Parakeet TDT binnen het bredere open-source en LLM-ecosysteem als het voortbouwen op bestaande fundamenten en het zich nauw richten op specifieke gebieden om aanzienlijke waarde toe te voegen. Het bedrijf streeft ernaar specifieke gebieden te blijven identificeren waar het kan bijdragen, terwijl anderen uitstekende general-purpose modellen blijven bouwen die geschikt zijn voor enterprise productie.

Belangrijkste Uitgangspunten: Open Source, Snel, Hoge Doorvoer, Kostenefficiënt

De belangrijkste uitgangspunten van NVIDIA’s werk aan Llama Nemotron Ultra en Parakeet TDT zijn een toewijding aan het open-sourcen