Dans une conversation révélatrice, Joey Conway de NVIDIA offre un aperçu approfondi des dernières avancées de l’entreprise dans les grands modèles de langage open-source (LLM) et la reconnaissance vocale automatique (ASR). La discussion se concentre sur Llama Nemotron Ultra et Parakeet, deux projets révolutionnaires qui mettent en évidence l’engagement de NVIDIA à repousser les limites de la technologie de l’IA.
La Stratégie Open Source de NVIDIA
NVIDIA émerge rapidement comme une force significative dans l’arène de l’IA open-source. La publication de modèles avancés comme Llama Nemotron Ultra et Parakeet TDT démontre une démarche stratégique visant à démocratiser la technologie de l’IA et à encourager l’innovation au sein de la communauté. En rendant ces outils de pointe disponibles, NVIDIA vise à accélérer la recherche, le développement et le déploiement de solutions d’IA dans divers secteurs.
Llama Nemotron Ultra : Redéfinir l’Efficacité et la Performance
Llama Nemotron Ultra, un modèle de 253 milliards de paramètres, témoigne de la prouesse technique de NVIDIA. Ce qui le distingue, c’est sa capacité à offrir des performances comparables à des modèles deux fois plus grands, tels que Llama 405B et DeepSeek R1. Cette réalisation remarquable lui permet d’être déployé sur un seul nœud 8x H100, le rendant accessible à un plus large éventail d’utilisateurs.
Le Secret : La Fusion FFN
L’efficacité impressionnante de Llama Nemotron Ultra est largement attribuée à une technique innovante appelée fusion FFN (Feed-Forward Network ou réseau de neurones à propagation directe). Cette stratégie d’optimisation, découverte grâce à la recherche d’architecture neuronale Puzzle de NVIDIA, rationalise l’architecture du modèle en réduisant les couches d’attention redondantes.
En alignant les couches FFN dans une séquence, la technique permet un plus grand calcul parallèle sur les GPU. La fusion des couches restantes optimise l’efficacité, ce qui est particulièrement avantageux pour les modèles plus grands basés sur Llama 3.1 - 405B de Meta. Les avantages de la fusion FFN sont doubles : elle améliore considérablement le débit, en réalisant des accélérations de l’ordre de 3 à 5x, et réduit l’encombrement mémoire du modèle. La taille réduite permet l’utilisation d’un cache KV plus grand, permettant au modèle de gérer des longueurs de contexte plus importantes.
Raisonnement à la Demande : Une Fonctionnalité Révolutionnaire
L’une des caractéristiques les plus uniques et les plus précieuses de Llama Nemotron Ultra est sa capacité de « raisonnement activé/désactivé ». Cela permet un contrôle sans précédent sur le processus de raisonnement du modèle, offrant des avantages significatifs pour les déploiements en production et l’optimisation des coûts.
La possibilité d’activer et de désactiver le raisonnement via l’invite système donne aux entreprises la flexibilité nécessaire pour équilibrer la précision avec la latence et les coûts. Le raisonnement, bien que crucial pour résoudre des problèmes complexes, génère plus de tokens, ce qui entraîne une latence et des coûts plus élevés. En fournissant un contrôle explicite, NVIDIA permet aux utilisateurs de prendre des décisions éclairées sur le moment où employer le raisonnement, optimisant ainsi les performances et l’utilisation des ressources.
Pour mettre en œuvre cette fonctionnalité, NVIDIA a explicitement enseigné au modèle quand raisonner et quand ne pas raisonner pendant l’étape de fine-tuning supervisé. Cela impliquait de présenter la même question avec deux réponses différentes : une avec un raisonnement détaillé et une sans, doublant essentiellement l’ensemble de données à cette fin spécifique. Le résultat est un modèle unique où les utilisateurs peuvent contrôler le processus de raisonnement en incluant simplement « use detailed thinking on » ou « use detailed thinking off » dans l’invite.
Révolutionner la Reconnaissance Vocale avec Parakeet TDT
Parakeet TDT, le modèle ASR de pointe de NVIDIA, a redéfini les références en matière de vitesse et de précision dans la reconnaissance vocale. Il peut transcrire une heure d’audio en seulement une seconde avec un taux d’erreur de mots remarquable de 6 % – 50 fois plus rapidement que d’autres alternatives open-source.
Innovations Architecturales : Le « Comment » de la Performance de Parakeet
Les performances impressionnantes de Parakeet TDT sont le résultat d’une combinaison de choix architecturaux et d’optimisations spécifiques. Il est basé sur une architecture Fast Conformer, améliorée par des techniques telles que le sous-échantillonnage convolutionnel séparable en profondeur et l’attention contextuelle limitée.
Le sous-échantillonnage de convolution séparable en profondeur à l’étape d’entrée réduit considérablement le coût de calcul et les besoins en mémoire pour le traitement. L’attention contextuelle limitée, en se concentrant sur des blocs audio plus petits qui se chevauchent, maintient la précision tout en obtenant une accélération du traitement. Du côté de l’encodeur, une technique d’attention à fenêtre glissante permet au modèle de traiter des fichiers audio plus longs sans les diviser en segments plus courts, ce qui est crucial pour la gestion de l’audio de longue durée.
Token Duration Transducer (TDT) : La Clé de la Vitesse
Au-delà de l’architecture Conformer, Parakeet TDT intègre un Token and Duration Transducer (TDT). La technologie traditionnelle de transducteur de réseau neuronal récurrent (RNN) traite l’audio image par image. Le TDT permet au modèle de prédire à la fois les tokens et la durée prévue de ces tokens, ce qui lui permet de sauter les images redondantes et d’accélérer considérablement le processus de transcription.
Cette innovation TDT contribue à elle seule à une accélération d’environ 1,5 à 2x. De plus, un algorithme de boucle d’étiquette permet l’avancement indépendant des tokens pour différents échantillons pendant l’inférence par lots, ce qui accélère encore le processus de décodage. Le déplacement d’une partie du calcul du côté du décodeur dans des graphiques CUDA offre une autre une autre accélération de 3x. Ces innovations permettent à Parakeet TDT d’atteindre des vitesses comparables aux décodeurs Connectionist Temporal Classification (CTC), connus pour leur vitesse, tout en maintenant une grande précision.
Démocratiser l’IA avec des Données Ouvertes
L’engagement de NVIDIA envers la communauté open-source s’étend au-delà des publications de modèles pour inclure le partage d’ensembles de données massifs et de haute qualité pour le langage et la parole. L’approche de l’entreprise en matière de curation de données met l’accent sur la transparence et l’ouverture, dans le but de partager autant que possible sur ses données, ses techniques et ses outils afin que la communauté puisse les comprendre et les utiliser.
Curation des Données pour Llama Nemotron Ultra
L’objectif principal de la curation des données pour Llama Nemotron Ultra était d’améliorer la précision dans plusieurs domaines clés, y compris les tâches de raisonnement comme les mathématiques et le codage, ainsi que les tâches de non-raisonnement comme l’appel d’outils, le suivi d’instructions et le chat.
La stratégie impliquait la curation d’ensembles de données spécifiques pour améliorer les performances dans ces domaines. Dans le processus de fine-tuning supervisé, NVIDIA a fait la distinction entre les scénarios « raisonnement activé » et « raisonnement désactivé ». Des modèles de haute qualité de la communauté ont été utilisés comme « experts » dans des domaines spécifiques. Par exemple, DeepSeek R-1 a été largement utilisé pour les tâches de mathématiques et de codage à forte intensité de raisonnement, tandis que des modèles comme Llama et Qwen ont été utilisés pour les tâches de non-raisonnement comme les mathématiques de base, le codage, le chat et l’appel d’outils. Cet ensemble de données curaté, composé d’environ 30 millions de paires question-réponse, a été rendu public sur Hugging Face.
Assurer la Qualité des Données : Une Approche Multicouche
Étant donné qu’une partie importante des données a été générée à l’aide d’autres modèles, NVIDIA a mis en œuvre un processus rigoureux d’assurance qualité multicouche. Cela impliquait :
- La génération de plusieurs réponses candidates pour la même invite en utilisant chaque modèle expert.
- L’emploi d’un ensemble distinct de modèles « critiques » pour évaluer ces candidats en fonction de l’exactitude, de la cohérence et du respect de l’invite.
- La mise en œuvre d’un mécanisme de notation où chaque paire question-réponse générée recevait une note de qualité basée sur l’évaluation du modèle critique, avec un seuil élevé fixé pour l’acceptation.
- L’intégration d’un examen humain à différentes étapes, avec des scientifiques des données et des ingénieurs inspectant manuellement des échantillons des données générées pour identifier toute erreur systématique, tout biais ou tout cas d’hallucination.
- L’accent mis sur la diversité des données générées pour garantir un large éventail d’exemples dans chaque domaine.
- La réalisation d’évaluations approfondies par rapport aux ensembles de données de référence et dans des cas d’utilisation réels après l’entraînement de Llama Nemotron Ultra sur ces données organisées.
Open-Sourcing un Ensemble de Données Vocales pour Parakeet TDT
NVIDIA prévoit d’ouvrir la source d’un ensemble de données vocales important, d’environ 100 000 heures, méticuleusement organisé pour refléter la diversité du monde réel. Cet ensemble de données comprendra des variations dans les niveaux sonores, les rapports signal sur bruit, les types de bruit de fond, et même les formats audio téléphoniques pertinents pour les centres d’appels. L’objectif est de fournir à la communauté des données diversifiées et de haute qualité qui permettent aux modèles de bien performer dans un large éventail de scénarios réels.
Orientations Futures : Modèles Plus Petits, Support Multilingue et Streaming en Temps Réel
La vision de NVIDIA pour l’avenir comprend d’autres avancées dans le support multilingue, des modèles encore plus petits optimisés pour la périphérie et des améliorations du streaming en temps réel pour la reconnaissance vocale.
Capacités Multilingues
La prise en charge de plusieurs langues est cruciale pour les grandes entreprises. NVIDIA vise à se concentrer sur quelques langues clés et à assurer une précision de classe mondiale pour le raisonnement, l’appel d’outils et le chat au sein de celles-ci. C’est probablement le prochain grand domaine d’expansion.
Modèles Optimisés pour la Périphérie
NVIDIA envisage des modèles allant jusqu’à environ 50 millions de paramètres pour traiter les cas d’utilisation en périphérie où un encombrement plus petit est nécessaire, comme l’activation du traitement audio en temps réel pour les robots dans des environnements bruyants.
Streaming en Temps Réel pour Parakeet TDT
Technologiquement, NVIDIA prévoit de travailler sur les capacités de streaming pour TDT afin de permettre une transcription en direct et en temps réel.
IA Prête pour la Production : Conception pour le Déploiement dans le Monde Réel
Llama Nemotron Ultra et Parakeet TDT sont tous deux conçus en tenant compte des défis du déploiement dans le monde réel, en se concentrant sur la précision, l’efficacité et la rentabilité.
Raisonnement Activé/Désactivé pour l’Évolutivité et l’Efficacité des Coûts
Un raisonnement excessif peut entraîner des problèmes d’évolutivité et une latence accrue dans les environnements de production. La fonction d’activation/désactivation du raisonnement introduite dans Llama Nemotron Ultra offre la flexibilité de contrôler le raisonnement requête par requête, ce qui permet de nombreux cas d’utilisation en production.
Équilibrer Précision et Efficacité
L’équilibre entre la précision et l’efficacité est un défi constant. L’approche de NVIDIA consiste à examiner attentivement le nombre d’époques pour chaque compétence pendant l’entraînement et à mesurer continuellement la précision. L’objectif est d’améliorer les performances dans tous les domaines clés.
Le Rôle des Modèles de NVIDIA dans l’Écosystème Open Source
NVIDIA considère le rôle de Llama Nemotron Ultra et de Parakeet TDT dans l’écosystème open-source et LLM plus large comme s’appuyant sur les fondations existantes et se concentrant étroitement sur des domaines spécifiques pour ajouter une valeur significative. L’entreprise vise à continuer d’identifier des domaines spécifiques où elle peut contribuer, tandis que d’autres continuent de créer d’excellents modèles à usage général adaptés à la production à l’échelle de l’entreprise.
Principaux Points à Retenir : Open Source, Rapide, à Haut Débit, Rentable
Les principaux points à retenir du travail de NVIDIA sur Llama Nemotron Ultra et Parakeet TDT sont un engagement à tout ouvrir, à atteindre une précision de pointe, à optimiser l’encombrement pour une utilisation efficace du GPU en termes de latence et de débit, et à responsabiliser la communauté.
Tous les modèles et ensembles de données sont disponibles sur Hugging Face. La pile logicielle pour les exécuter provient de NVIDIA et est disponible sur NGC, son référentiel de contenu. Une grande partie du logiciel sous-jacent est également open-source et peut être trouvée sur GitHub. Le framework Nemo est la plaque tournante centrale pour une grande partie de cette pile logicielle.