Estrategia de Código Abierto de NVIDIA
NVIDIA está emergiendo rápidamente como una fuerza significativa en el ámbito de la IA de código abierto. El lanzamiento de modelos avanzados como Llama Nemotron Ultra y Parakeet TDT demuestra un movimiento estratégico para democratizar la tecnología de IA y fomentar la innovación dentro de la comunidad. Al poner a disposición estas herramientas de vanguardia, NVIDIA tiene como objetivo acelerar la investigación, el desarrollo y la implementación de soluciones de IA en diversas industrias.
Llama Nemotron Ultra: Redefiniendo la Eficiencia y el Rendimiento
Llama Nemotron Ultra, un modelo de 253 mil millones de parámetros, es un testimonio de la destreza en ingeniería de NVIDIA. Lo que lo distingue es su capacidad para ofrecer un rendimiento comparable a modelos dos veces más grandes, como Llama 405B y DeepSeek R1. Este notable logro permite que se implemente en un solo nodo 8x H100, lo que lo hace accesible a una gama más amplia de usuarios.
El Ingrediente Secreto: Fusión FFN
La impresionante eficiencia de Llama Nemotron Ultra se atribuye en gran medida a una técnica innovadora llamada fusión FFN (Feed-Forward Network). Esta estrategia de optimización, descubierta a través de la búsqueda de arquitectura neuronal Puzzle de NVIDIA, optimiza la arquitectura del modelo al reducir las capas de atención redundantes.
Al alinear las capas FFN en una secuencia, la técnica permite una mayor computación paralela en las GPU. La fusión de las capas restantes maximiza la eficiencia, lo que es particularmente beneficioso para los modelos más grandes basados en Llama 3.1 - 405B de Meta. Los beneficios de la fusión FFN son dobles: mejora significativamente el rendimiento, logrando aceleraciones en el rango de 3 a 5x, y reduce la huella de memoria del modelo. El tamaño reducido permite la utilización de una caché KV más grande, lo que permite que el modelo maneje longitudes de contexto más grandes.
Razonamiento a Demanda: Una Característica Revolucionaria
Una de las características más singulares y valiosas de Llama Nemotron Ultra es su capacidad de “razonamiento on/off”. Esto permite un control sin precedentes sobre el proceso de razonamiento del modelo, lo que ofrece importantes ventajas para las implementaciones de producción y la optimización de costos.
La capacidad de activar y desactivar el razonamiento a través del mensaje del sistema brinda a las empresas la flexibilidad de equilibrar la precisión con la latencia y el costo. El razonamiento, si bien es crucial para resolver problemas complejos, genera más tokens, lo que genera una mayor latencia y costo. Al proporcionar un control explícito, NVIDIA permite a los usuarios tomar decisiones informadas sobre cuándo emplear el razonamiento, optimizando así el rendimiento y la utilización de recursos.
Para implementar esta característica, NVIDIA enseñó explícitamente al modelo cuándo razonar y cuándo no durante la etapa de ajuste fino supervisado. Esto implicó presentar la misma pregunta con dos respuestas diferentes: una con razonamiento detallado y otra sin él, esencialmente duplicando el conjunto de datos para este propósito específico. El resultado es un único modelo donde los usuarios pueden controlar el proceso de razonamiento simplemente incluyendo “use detailed thinking on” o “use detailed thinking off” en el prompt.
Revolucionando el Reconocimiento de Voz con Parakeet TDT
Parakeet TDT, el modelo ASR de última generación de NVIDIA, ha redefinido los puntos de referencia de velocidad y precisión en el reconocimiento de voz. Puede transcribir una hora de audio en solo un segundo con una notable tasa de error de palabra del 6%, 50 veces más rápido que otras alternativas de código abierto.
Innovaciones Arquitectónicas: El “Cómo” del Rendimiento de Parakeet
El impresionante rendimiento de Parakeet TDT es el resultado de una combinación de opciones arquitectónicas y optimizaciones específicas. Se basa en una arquitectura Fast Conformer, mejorada con técnicas como el submuestreo convolucional separable en profundidad y la atención de contexto limitada.
El submuestreo de convolución separable en profundidad en la etapa de entrada reduce significativamente el costo computacional y los requisitos de memoria para el procesamiento. La atención de contexto limitada, al centrarse en fragmentos de audio más pequeños y superpuestos, mantiene la precisión al tiempo que logra una aceleración en el procesamiento. En el lado del codificador, una técnica de atención de ventana deslizante permite que el modelo procese archivos de audio más largos sin dividirlos en segmentos más cortos, lo cual es crucial para manejar audio de formato largo.
Transductor de Duración de Tokens (TDT): La Clave de la Velocidad
Más allá de la arquitectura Conformer, Parakeet TDT incorpora un Transductor de Tokens y Duración (TDT). La tecnología tradicional de transductores de redes neuronales recurrentes (RNN) procesa el audio fotograma a fotograma. El TDT permite que el modelo prediga tanto los tokens como la duración esperada de esos tokens, lo que le permite omitir fotogramas redundantes y acelerar significativamente el proceso de transcripción.
Esta innovación TDT por sí sola contribuye a una aceleración de alrededor de 1.5 a 2x. Además, un algoritmo de bucle de etiquetas permite el avance independiente de tokens para diferentes muestras durante la inferencia por lotes, lo que acelera aún más el proceso de decodificación. Mover parte de la computación en el lado del decodificador a los gráficos de CUDA proporciona otro aumento de velocidad de 3x. Estas innovaciones permiten que Parakeet TDT alcance velocidades comparables a los decodificadores de Clasificación Temporal Conexionista (CTC), conocidos por su velocidad, al tiempo que mantienen una alta precisión.
Democratizando la IA con Datos Abiertos
El compromiso de NVIDIA con la comunidad de código abierto se extiende más allá de los lanzamientos de modelos para incluir el intercambio de conjuntos de datos masivos y de alta calidad tanto para lenguaje como para voz. El enfoque de la empresa para la curación de datos enfatiza la transparencia y la apertura, con el objetivo de compartir la mayor cantidad posible sobre sus datos, técnicas y herramientas para que la comunidad pueda comprenderlos y utilizarlos.
Curación de Datos para Llama Nemotron Ultra
El objetivo principal de la curación de datos para Llama Nemotron Ultra era mejorar la precisión en varios dominios clave, incluidas las tareas de razonamiento como matemáticas y codificación, así como las tareas de no razonamiento como la llamada a herramientas, el seguimiento de instrucciones y el chat.
La estrategia implicó la curación de conjuntos de datos específicos para mejorar el rendimiento en estas áreas. Dentro del proceso de ajuste fino supervisado, NVIDIA diferenció entre los escenarios de “razonamiento activado” y “razonamiento desactivado”. Los modelos de alta calidad de la comunidad se aprovecharon como “expertos” en dominios específicos. Por ejemplo, DeepSeek R-1 se utilizó ampliamente para tareas de matemáticas y codificación intensivas en razonamiento, mientras que modelos como Llama y Qwen se utilizaron para tareas de no razonamiento como matemáticas básicas, codificación, chat y llamada a herramientas. Este conjunto de datos curado, que consta de alrededor de 30 millones de pares de preguntas y respuestas, se ha puesto a disposición del público en Hugging Face.
Garantizar la Calidad de los Datos: Un Enfoque de Múltiples Capas
Dado que una parte significativa de los datos se generó utilizando otros modelos, NVIDIA implementó un riguroso proceso de garantía de calidad de múltiples capas. Esto involucró:
- Generar múltiples respuestas candidatas para el mismo prompt utilizando cada modelo experto.
- Emplear un conjunto separado de modelos “críticos” para evaluar estos candidatos en función de la corrección, la coherencia y la adherencia al prompt.
- Implementar un mecanismo de puntuación donde cada par de preguntas y respuestas generadas recibió una puntuación de calidad basada en la evaluación del modelo crítico, con un umbral alto establecido para la aceptación.
- Integrar la revisión humana en varias etapas, con científicos de datos e ingenieros inspeccionando manualmente muestras de los datos generados para identificar cualquier error sistemático, sesgo o instancia de alucinación.
- Centrarse en la diversidad de los datos generados para garantizar una amplia gama de ejemplos dentro de cada dominio.
- Realizar amplias evaluaciones con conjuntos de datos de referencia y en casos de uso del mundo real después de entrenar a Llama Nemotron Ultra con estos datos seleccionados.
Abrir el Código Fuente de un Conjunto de Datos de Voz para Parakeet TDT
NVIDIA planea abrir el código fuente de un importante conjunto de datos de voz, alrededor de 100,000 horas, meticulosamente seleccionado para reflejar la diversidad del mundo real. Este conjunto de datos incluirá variaciones en los niveles de sonido, las relaciones señal/ruido, los tipos de ruido de fondo e incluso los formatos de audio telefónico relevantes para los centros de llamadas. El objetivo es proporcionar a la comunidad datos diversos y de alta calidad que permitan que los modelos funcionen bien en una amplia gama de escenarios del mundo real.
Direcciones Futuras: Modelos Más Pequeños, Soporte Multilingüe y Transmisión en Tiempo Real
La visión de NVIDIA para el futuro incluye más avances en el soporte multilingüe, modelos aún más pequeños optimizados para el borde y mejoras en la transmisión en tiempo real para el reconocimiento de voz.
Capacidades Multilingües
Admitir varios idiomas es crucial para las grandes empresas. NVIDIA tiene como objetivo centrarse en algunos idiomas clave y garantizar una precisión de clase mundial para el razonamiento, la llamada a herramientas y el chat dentro de esos idiomas. Es probable que esta sea la próxima área principal de expansión.
Modelos Optimizados para el Borde
NVIDIA está considerando modelos de hasta alrededor de 50 millones de parámetros para abordar casos de uso en el borde donde es necesaria una huella más pequeña, como habilitar el procesamiento de audio en tiempo real para robots en entornos ruidosos.
Transmisión en Tiempo Real para Parakeet TDT
Tecnológicamente, NVIDIA planea trabajar en capacidades de transmisión para TDT para habilitar la transcripción en vivo en tiempo real.
IA Lista para la Producción: Diseñando para la Implementación en el Mundo Real
Tanto Llama Nemotron Ultra como Parakeet TDT están diseñados teniendo en cuenta los desafíos de la implementación en el mundo real, centrándose en la precisión, la eficiencia y la rentabilidad.
Razonamiento On/Off para la Escalabilidad y la Eficiencia de Costos
El razonamiento excesivo puede provocar problemas de escalabilidad y una mayor latencia en los entornos de producción. La función de razonamiento on/off introducida en Llama Nemotron Ultra proporciona la flexibilidad de controlar el razonamiento por consulta, lo que permite numerosos casos de uso de producción.
Equilibrar Precisión y Eficiencia
Equilibrar la precisión y la eficiencia es un desafío constante. El enfoque de NVIDIA implica considerar cuidadosamente el número de épocas para cada habilidad durante el entrenamiento y medir continuamente la precisión. El objetivo es mejorar el rendimiento en todas las áreas clave.
El Papel de los Modelos de NVIDIA en el Ecosistema de Código Abierto
NVIDIA considera el papel de Llama Nemotron Ultra y Parakeet TDT dentro del ecosistema más amplio de código abierto y LLM como una base sobre los cimientos existentes y un enfoque limitado en áreas específicas para agregar un valor significativo. La empresa tiene como objetivo continuar identificando áreas específicas donde puede contribuir, mientras que otros continúan construyendo excelentes modelos de propósito general adecuados para la producción empresarial.
Conclusiones Clave: Código Abierto, Rápido, de Alto Rendimiento, Rentable
Las conclusiones clave del trabajo de NVIDIA en Llama Nemotron Ultra y Parakeet TDT son un compromiso de abrir el código fuente de todo, lograr una precisión de última generación, optimizar las huellas para una utilización eficiente de la GPU en términos de latencia y rendimiento, y empoderar a la comunidad.
Todos los modelos y conjuntos de datos están disponibles en Hugging Face. La pila de software para ejecutarlos proviene de NVIDIA y está disponible en NGC, su repositorio de contenido. Gran parte del software subyacente también es de código abierto y se puede encontrar en GitHub. El marco Nemo es el centro central de gran parte de esta pila de software.