NVIDIAs Innovationen: Llama Nemotron Ultra & Parakeet

In einem aufschlussreichen Gespräch gibt Joey Conway von NVIDIA einen detaillierten Einblick in die neuesten Fortschritte des Unternehmens im Bereich Large Language Models (LLMs) und Automatic Speech Recognition (ASR) mit offenem Quellcode. Im Mittelpunkt der Diskussion stehen Llama Nemotron Ultra und Parakeet, zwei bahnbrechende Projekte, die NVIDIAs Engagement für das Vorantreiben der Grenzen der KI-Technologie unterstreichen.

NVIDIAs Open-Source-Strategie

NVIDIA entwickelt sich rasant zu einer bedeutenden Kraft im Open-Source-KI-Bereich. Die Veröffentlichung fortschrittlicher Modelle wie Llama Nemotron Ultra und Parakeet TDT demonstriert einen strategischen Schritt zur Demokratisierung der KI-Technologie und zur Förderung von Innovationen innerhalb der Community. Durch die Bereitstellung dieser hochmodernen Tools zielt NVIDIA darauf ab, Forschung, Entwicklung und Bereitstellung von KI-Lösungen in verschiedenen Branchen zu beschleunigen. NVIDIA glaubt, dass Open Source der beste Weg ist, um Innovationen zu fördern und die Einführung von KI zu beschleunigen. Durch die Bereitstellung seiner Technologie für die Community hofft NVIDIA, andere dazu zu inspirieren, auf seinen Fortschritten aufzubauen und neue und aufregende Anwendungen für KI zu entwickeln.

Die Open-Source-Strategie von NVIDIA geht über die bloße Veröffentlichung von Code hinaus. Das Unternehmen engagiert sich auch aktiv in der Open-Source-Community, indem es zu bestehenden Projekten beiträgt und neue Tools und Ressourcen erstellt. NVIDIA ist davon überzeugt, dass dieser kollaborative Ansatz für die Beschleunigung des Fortschritts der KI unerlässlich ist.

Llama Nemotron Ultra: Effizienz und Leistung neu definiert

Llama Nemotron Ultra, ein Modell mit 253 Milliarden Parametern, ist ein Beweis für NVIDIAs Engineering-Können. Was es auszeichnet, ist seine Fähigkeit, eine Leistung zu liefern, die mit Modellen vergleichbar ist, die doppelt so groß sind, wie Llama 405B und DeepSeek R1. Diese bemerkenswerte Leistung ermöglicht den Einsatz auf einem einzigen 8x H100-Knoten, wodurch sie einem breiteren Benutzerkreis zugänglich wird. Die kleinere Größe und der geringere Ressourcenbedarf machen es zu einer attraktiven Option für Unternehmen mit begrenzten Ressourcen oder Rechenkapazitäten.

Das Geheimnis: FFN-Fusion

Die beeindruckende Effizienz von Llama Nemotron Ultra ist größtenteils einer innovativen Technik namens FFN-Fusion (Feed-Forward Network) zu verdanken. Diese Optimierungsstrategie, die durch NVIDIAs Puzzle Neural Architecture Search entdeckt wurde, optimiert die Architektur des Modells, indem redundante Aufmerksemschichten reduziert werden. Die FFN-Fusion ermöglicht es dem Modell, mit weniger Parametern die gleiche oder sogar eine bessere Leistung zu erzielen. Dies führt zu schnelleren Inferenzzeiten, geringerem Speicherbedarf und geringeren Kosten.

Durch die Ausrichtung von FFN-Schichten in einer Sequenz ermöglicht die Technik eine größere parallele Berechnung auf GPUs. Das Zusammenführen oder Verschmelzen der verbleibenden Schichten maximiert die Effizienz, was besonders für größere Modelle auf Basis von Metas Llama 3.1 - 405B von Vorteil ist. Die Vorteile der FFN-Fusion sind zweifach: Sie verbessert den Durchsatz erheblich, wodurch Beschleunigungen im Bereich von 3 bis 5x erreicht werden, und reduziert den Speicherbedarf des Modells. Die geringere Größe ermöglicht die Nutzung eines größeren KV-Cache, wodurch das Modell größere Kontextlängen verarbeiten kann. Dies ist besonders wichtig für Aufgaben wie die Verarbeitung langer Dokumente oder das Führen von Gesprächen mit längeren Verläufen. Die FFN-Fusion ist ein Paradebeispiel für NVIDIAs Engagement für Innovation und sein Bestreben, die Grenzen dessen zu erweitern, was mit KI möglich ist.

Reasoning on Demand: Eine bahnbrechende Funktion

Eine der einzigartigsten und wertvollsten Funktionen von Llama Nemotron Ultra ist seine “Reasoning on/off”-Funktion. Dies ermöglicht eine beispiellose Kontrolle über den Denkprozess des Modells und bietet erhebliche Vorteile für Produktionsbereitstellungen und Kostenoptimierung. Diese Funktion ist besonders nützlich für Unternehmen, die das richtige Gleichgewicht zwischen Genauigkeit und Kosten finden müssen.

Die Möglichkeit, die Argumentation über die Systemeingabeaufforderung ein- und auszuschalten, gibt Unternehmen die Flexibilität, Genauigkeit mit Latenz und Kosten in Einklang zu bringen. Die Argumentation ist zwar entscheidend für die Lösung komplexer Probleme, generiert aber mehr Token, was zu höherer Latenz und höheren Kosten führt. Durch die Bereitstellung expliziter Kontrolle ermöglicht NVIDIA den Benutzern, fundierte Entscheidungen darüber zu treffen, wann die Argumentation eingesetzt werden soll, und optimiert so die Leistung und Ressourcennutzung. Die Benutzer können die Argumentationsfähigkeiten des Modells an die spezifischen Anforderungen der jeweiligen Aufgabe anpassen.

Um diese Funktion zu implementieren, hat NVIDIA dem Modell während des überwachten Feinabstimmungsprozesses explizit beigebracht, wann es argumentieren soll und wann nicht. Dies beinhaltete die Präsentation derselben Frage mit zwei verschiedenen Antworten: eine mit detaillierter Argumentation und eine ohne, wodurch der Datensatz für diesen spezifischen Zweck im Wesentlichen verdoppelt wurde. Das Ergebnis ist ein einzelnes Modell, bei dem Benutzer den Argumentationsprozess steuern können, indem sie einfach “use detailed thinking on” oder “use detailed thinking off” in die Eingabeaufforderung einfügen. Dieser innovative Ansatz ermöglicht es Unternehmen, die Argumentationsfähigkeiten des Modells an ihre spezifischen Bedürfnisse anzupassen und so Leistung und Kosten zu optimieren. Die “Reasoning on/off”-Funktion von Llama Nemotron Ultra ist ein Beweis für NVIDIAs Engagement für die Bereitstellung flexibler und anpassbarer KI-Lösungen für Unternehmen.

Revolutionierung der Spracherkennung mit Parakeet TDT

Parakeet TDT, NVIDIAs hochmodernes ASR-Modell, hat die Maßstäbe für Geschwindigkeit und Genauigkeit bei der Spracherkennung neu definiert. Es kann eine Stunde Audio in nur einer Sekunde mit einer bemerkenswerten Fehlerrate von 6 % transkribieren – 50-mal schneller als andere Open-Source-Alternativen. Diese Geschwindigkeit und Genauigkeit machen es zu einer idealen Lösung für eine Vielzahl von Anwendungen, wie z. B. die Echtzeittranskription von Anrufen, die automatische Untertitelung von Videos und die sprachgesteuerte Steuerung von Geräten.

Architektonische Innovationen: Das “Wie” der Parakeet-Leistung

Die beeindruckende Leistung von Parakeet TDT ist das Ergebnis einer Kombination aus architektonischen Entscheidungen und spezifischen Optimierungen. Es basiert auf einer Fast Conformer-Architektur, die mit Techniken wie tiefenweise trennbarer Faltungs-Downsampling und begrenzter Kontextaufmerksamkeit verbessert wurde. Diese Innovationen ermöglichen es dem Modell, Audio schnell und genau zu verarbeiten.

Das tiefenweise trennbare Faltungs-Downsampling in der Eingangsphase reduziert die Rechenkosten und den Speicherbedarf für die Verarbeitung erheblich. Die begrenzte Kontextaufmerksamkeit, die sich auf kleinere, überlappende Audio-Chunks konzentriert, erhält die Genauigkeit aufrecht und erzielt gleichzeitig eine schnellere Verarbeitung. Auf der Encoder-Seite ermöglicht eine Technik mit gleitendem Fenster dem Modell, längere Audiodateien zu verarbeiten, ohne sie in kürzere Segmente aufzuteilen, was für die Verarbeitung von Audio in Langform unerlässlich ist. Dies ist besonders wichtig für Anwendungen wie die Transkription von Vorträgen oder Podcasts. Die Architektur von Parakeet TDT ist sowohl auf Geschwindigkeit als auch auf Genauigkeit ausgelegt.

Token Duration Transducer (TDT): Der Schlüssel zur Geschwindigkeit

Über die Conformer-Architektur hinaus verfügt Parakeet TDT über einen Token and Duration Transducer (TDT). Die herkömmliche Recurrent Neural Network (RNN) Transducer-Technologie verarbeitet Audio Frame für Frame. Der TDT ermöglicht es dem Modell, sowohl die Token als auch die erwartete Dauer dieser Token vorherzusagen, wodurch redundante Frames übersprungen und der Transkriptionsprozess erheblich beschleunigt werden kann. Dies ist ein wesentlicher Vorteil gegenüber herkömmlichen ASR-Modellen.

Diese TDT-Innovation allein trägt zu einer etwa 1,5- bis 2-fachen Beschleunigung bei. Darüber hinaus ermöglicht ein Label-Looping-Algorithmus die unabhängige Weiterentwicklung von Token für verschiedene Samples während der Batch-Inferenz, wodurch der Dekodierungsprozess weiter beschleunigt wird. Die Verlagerung einiger Berechnungen auf der Decoder-Seite in CUDA-Graphen bietet einen weiteren 3-fachen Geschwindigkeitsschub. Diese Innovationen ermöglichen es Parakeet TDT, Geschwindigkeiten zu erreichen, die mit Connectionist Temporal Classification (CTC) Decodern vergleichbar sind, die für ihre Geschwindigkeit bekannt sind, und gleichzeitig eine hohe Genauigkeit beizubehalten. Der TDT ist ein wichtiger Schritt nach vorn in der ASR-Technologie und ermöglicht es Parakeet TDT, eine Geschwindigkeit und Genauigkeit zu erreichen, die bisher unmöglich waren.

Demokratisierung von KI mit offenen Daten

NVIDIAs Engagement für die Open-Source-Community geht über die Modellfreigaben hinaus und umfasst auch die gemeinsame Nutzung massiver, hochwertiger Datensätze sowohl für Sprache als auch für Sprache. Der Ansatz des Unternehmens zur Datenkuration betont Transparenz und Offenheit, mit dem Ziel, so viel wie möglich über seine Daten, Techniken und Tools zu teilen, damit die Community sie verstehen und verwenden kann. NVIDIA glaubt, dass das Teilen von Daten und Ressourcen für die Beschleunigung des Fortschritts der KI unerlässlich ist.

Datenkuration für Llama Nemotron Ultra

Das primäre Ziel der Datenkuration für Llama Nemotron Ultra war die Verbesserung der Genauigkeit in mehreren Schlüsselbereichen, darunter Argumentationsaufgaben wie Mathematik und Programmierung sowie Nicht-Argumentationsaufgaben wie das Aufrufen von Tools, das Befolgen von Anweisungen und der Chat. NVIDIA hat erkannt, dass Datenqualität und -vielfalt für die Leistung von LLMs entscheidend sind.

Die Strategie beinhaltete die Kuration spezifischer Datensätze, um die Leistung in diesen Bereichen zu verbessern. Innerhalb des überwachten Feinabstimmungsprozesses unterschied NVIDIA zwischen “Reasoning on”- und “Reasoning off”-Szenarien. Hochwertige Modelle aus der Community wurden als “Experten” in bestimmten Bereichen genutzt. So wurde beispielsweise DeepSeek R-1 intensiv für argumentationsintensive Mathematik- und Programmieraufgaben eingesetzt, während Modelle wie Llama und Qwen für Nicht-Argumentationsaufgaben wie grundlegende Mathematik, Programmierung, Chat und das Aufrufen von Tools verwendet wurden. Dieser kuratierte Datensatz, der aus rund 30 Millionen Frage-Antwort-Paaren besteht, wurde auf Hugging Face öffentlich zugänglich gemacht. NVIDIA hofft, dass dieser Datensatz der Community helfen wird, leistungsfähigere und genauere LLMs zu entwickeln.

Sicherstellung der Datenqualität: Ein mehrschichtiger Ansatz

Da ein erheblicher Teil der Daten mit anderen Modellen generiert wurde, implementierte NVIDIA einen strengen mehrschichtigen Qualitätssicherungsprozess. Dies beinhaltete: NVIDIA ist sich bewusst, dass die durch Modelle generierten Daten verzerrt oder ungenau sein können.

  • Generierung mehrerer Kandidatenantworten für dieselbe Eingabeaufforderung mit jedem Expertenmodell. Dies trägt dazu bei, die Vielfalt der Daten zu gewährleisten und die Wahrscheinlichkeit zu verringern, dass das Modell von einer Quelle verzerrt wird.
  • Einsatz eines separaten Satzes von “Kritiker”-Modellen zur Bewertung dieser Kandidaten anhand von Korrektheit, Kohärenz und Einhaltung der Eingabeaufforderung. Diese Modelle sind so trainiert, dass sie Fehler und Ungenauigkeiten in den generierten Daten erkennen.
  • Implementierung eines Bewertungssystems, bei dem jedes generierte Frage-Antwort-Paar eine Qualitätsbewertung basierend auf der Bewertung des Kritiker-Modells erhielt, wobei ein hoher Schwellenwert für die Akzeptanz festgelegt wurde. Dies trägt dazu bei, sicherzustellen, dass nur die hochwertigsten Daten zum Trainieren des Modells verwendet werden.
  • Integration der menschlichen Überprüfung in verschiedenen Phasen, wobei Datenwissenschaftler und Ingenieure Stichproben der generierten Daten manuell untersuchen, um systematische Fehler, Verzerrungen oder Fälle von Halluzination zu identifizieren. Dies bietet einen zusätzlichen Schutzwall gegen Fehler und Ungenauigkeiten.
  • Fokus auf die Vielfalt der generierten Daten, um eine breite Palette von Beispielen innerhalb jedes Bereichs sicherzustellen. Dies trägt dazu bei, das Modell zu trainieren, in einer Vielzahl von Szenarien gut zu funktionieren.
  • Durchführung umfangreicher Auswertungen anhand von Benchmark-Datensätzen und in realen Anwendungsfällen nach dem Training von Llama Nemotron Ultra anhand dieser kuratierten Daten. Dies trägt dazu bei, sicherzustellen, dass das Modell in realen Anwendungen gut funktioniert.

Open-Sourcing eines Sprachdatensatzes für Parakeet TDT

NVIDIA plant, einen umfangreichen Sprachdatensatz mit rund 100.000 Stunden Open-Source zu veröffentlichen, der sorgfältig kuratiert wurde, um die Vielfalt der realen Welt widerzuspiegeln. Dieser Datensatz enthält Variationen der Schallpegel, Signal-Rausch-Verhältnisse, Hintergrundgeräuschtypen