Em uma conversa reveladora, Joey Conway da NVIDIA oferece um olhar aprofundado sobre os mais recentes avanços da empresa em modelos de linguagem grandes de código aberto (LLMs) e reconhecimento automático de fala (ASR). A discussão centra-se em Llama Nemotron Ultra e Parakeet, dois projetos inovadores que mostram o compromisso da NVIDIA em ultrapassar os limites da tecnologia de IA.
Estratégia de Código Aberto da NVIDIA
A NVIDIA está a emergir rapidamente como uma força significativa na arena de IA de código aberto. O lançamento de modelos avançados como Llama Nemotron Ultra e Parakeet TDT demonstra um movimento estratégico para democratizar a tecnologia de IA e fomentar a inovação dentro da comunidade. Ao tornar estas ferramentas de ponta disponíveis, a NVIDIA pretende acelerar a investigação, o desenvolvimento e a implementação de soluções de IA em vários setores.
Llama Nemotron Ultra: Redefinindo Eficiência e Desempenho
Llama Nemotron Ultra, um modelo de 253 mil milhões de parâmetros, é um testemunho da proeza de engenharia da NVIDIA. O que o diferencia é a sua capacidade de fornecer um desempenho comparável ao de modelos com o dobro do seu tamanho, como Llama 405B e DeepSeek R1. Esta conquista notável permite que seja implementado num único nó 8x H100, tornando-o acessível a uma gama mais ampla de utilizadores.
O Segredo: Fusão FFN
A impressionante eficiência do Llama Nemotron Ultra é amplamente atribuída a uma técnica inovadora chamada fusão FFN (Feed-Forward Network). Esta estratégia de otimização, descoberta através da pesquisa de arquitetura neural Puzzle da NVIDIA, simplifica a arquitetura do modelo, reduzindo camadas de atenção redundantes.
Ao alinhar as camadas FFN numa sequência, a técnica permite maior computação paralela em GPUs. A fusão ou junção das camadas restantes maximiza a eficiência, particularmente benéfica para modelos maiores baseados no Llama 3.1 - 405B da Meta. Os benefícios da fusão FFN são duplos: melhora significativamente o rendimento, alcançando acelerações na faixa de 3 a 5x, e reduz a pegada de memória do modelo. O tamanho reduzido permite a utilização de uma cache KV maior, permitindo que o modelo lide com comprimentos de contexto maiores.
Raciocínio Sob Demanda: Um Recurso Que Muda o Jogo
Um dos recursos mais exclusivos e valiosos do Llama Nemotron Ultra é a sua capacidade de “raciocínio ligado/desligado”. Isso permite um controlo sem precedentes sobre o processo de raciocínio do modelo, oferecendo vantagens significativas para implementações de produção e otimização de custos.
A capacidade de ativar e desativar o raciocínio através do prompt do sistema dá às empresas a flexibilidade de equilibrar a precisão com a latência e o custo. O raciocínio, embora crucial para resolver problemas complexos, gera mais tokens, levando a maior latência e custo. Ao fornecer controlo explícito, a NVIDIA capacita os utilizadores a tomar decisões informadas sobre quando empregar o raciocínio, otimizando assim o desempenho e a utilização de recursos.
Para implementar este recurso, a NVIDIA ensinou explicitamente ao modelo quando raciocinar e quando não raciocinar durante a fase de ajuste fino supervisionado. Isso envolveu a apresentação da mesma questão com duas respostas diferentes: uma com raciocínio detalhado e outra sem, essencialmente dobrando o conjunto de dados para este propósito específico. O resultado é um único modelo onde os utilizadores podem controlar o processo de raciocínio simplesmente incluindo “use raciocínio detalhado ligado” ou “use raciocínio detalhado desligado” no prompt.
Revolucionando o Reconhecimento de Fala com o Parakeet TDT
O Parakeet TDT, o modelo ASR de última geração da NVIDIA, redefiniu os benchmarks de velocidade e precisão no reconhecimento de fala. Ele pode transcrever uma hora de áudio em apenas um segundo com uma notável taxa de erro de palavras de 6% - 50 vezes mais rápido do que outras alternativas de código aberto.
Inovações Arquiteturais: O “Como” do Desempenho do Parakeet
O desempenho impressionante do Parakeet TDT é resultado de uma combinação de escolhas arquiteturais e otimizações específicas. É baseado numa arquitetura Fast Conformer, aprimorada com técnicas como downsampling convolucional separável em profundidade e atenção de contexto limitada.
O downsampling convolucional separável em profundidade no estágio de entrada reduz significativamente o custo computacional e os requisitos de memória para processamento. A atenção de contexto limitada, ao focar-se em pedaços menores e sobrepostos de áudio, mantém a precisão enquanto obtém uma aceleração no processamento. No lado do codificador, uma técnica de atenção de janela deslizante permite que o modelo processe arquivos de áudio mais longos sem dividi-los em segmentos mais curtos, crucial para lidar com áudio de formato longo.
Token Duration Transducer (TDT): A Chave para a Velocidade
Além da arquitetura Conformer, o Parakeet TDT incorpora um Token and Duration Transducer (TDT). A tecnologia tradicional de transdutor de rede neural recorrente (RNN) processa áudio quadro a quadro. O TDT permite que o modelo preveja tanto os tokens quanto a duração esperada desses tokens, permitindo que ele pule quadros redundantes e acelere significativamente o processo de transcrição.
Esta inovação TDT contribui sozinha para cerca de 1,5 a 2x de aceleração. Além disso, um algoritmo de looping de rótulos permite o avanço independente de tokens para diferentes amostras durante a inferência em lote, acelerando ainda mais o processo de decodificação. Mover parte da computação no lado do decodificador para gráficos CUDA fornece outro aumento de velocidade de 3x. Essas inovações permitem que o Parakeet TDT atinja velocidades comparáveis aos decodificadores Connectionist Temporal Classification (CTC), conhecidos por sua velocidade, mantendo alta precisão.
Democratizando a IA com Dados Abertos
O compromisso da NVIDIA com a comunidade de código aberto se estende além dos lançamentos de modelos para incluir o compartilhamento de conjuntos de dados massivos e de alta qualidade para linguagem e fala. A abordagem da empresa à curadoria de dados enfatiza a transparência e a abertura, com o objetivo de compartilhar o máximo possível sobre seus dados, técnicas e ferramentas para que a comunidade possa entender e usá-los.
Curadoria de Dados para Llama Nemotron Ultra
O principal objetivo da curadoria de dados para Llama Nemotron Ultra era melhorar a precisão em vários domínios-chave, incluindo tarefas de raciocínio como matemática e codificação, bem como tarefas de não raciocínio como chamada de ferramentas, seguimento de instruções e chat.
A estratégia envolveu a curadoria de conjuntos de dados específicos para melhorar o desempenho nessas áreas. Dentro do processo de ajuste fino supervisionado, a NVIDIA diferenciou entre cenários de “raciocínio ligado” e “raciocínio desligado”. Modelos de alta qualidade da comunidade foram aproveitados como “especialistas” em domínios específicos. Por exemplo, o DeepSeek R-1 foi amplamente utilizado para tarefas de matemática e codificação intensivas em raciocínio, enquanto modelos como Llama e Qwen foram utilizados para tarefas de não raciocínio como matemática básica, codificação, chat e chamada de ferramentas. Este conjunto de dados curado, consistindo em cerca de 30 milhões de pares de perguntas e respostas, foi tornado publicamente disponível no Hugging Face.
Garantindo a Qualidade dos Dados: Uma Abordagem Multicamadas
Dado que uma parte significativa dos dados foi gerada usando outros modelos, a NVIDIA implementou um rigoroso processo de garantia de qualidade multicamadas. Isso envolveu:
- Gerar várias respostas candidatas para o mesmo prompt usando cada modelo especialista.
- Empregar um conjunto separado de modelos de “crítico” para avaliar esses candidatos com base na correção, coerência e adesão ao prompt.
- Implementar um mecanismo de pontuação onde cada par de perguntas e respostas gerado recebeu uma pontuação de qualidade com base na avaliação do modelo crítico, com um limite alto definido para aceitação.
- Integrar a revisão humana em vários estágios, com cientistas de dados e engenheiros a inspecionar manualmente amostras dos dados gerados para identificar quaisquer erros sistemáticos, preconceitos ou instâncias de alucinação.
- Focar na diversidade dos dados gerados para garantir uma ampla gama de exemplos dentro de cada domínio.
- Realizar avaliações extensivas em relação a conjuntos de dados de referência e em casos de uso do mundo real após treinar Llama Nemotron Ultra nesses dados curados.
Código Aberto de um Conjunto de Dados de Fala para Parakeet TDT
A NVIDIA planeja abrir o código fonte de um conjunto de dados de fala substancial, em torno de 100.000 horas, meticulosamente curado para refletir a diversidade do mundo real. Este conjunto de dados incluirá variações nos níveis de som, relações sinal-ruído, tipos de ruído de fundo e até mesmo formatos de áudio de telefone relevantes para call centers. O objetivo é fornecer à comunidade dados diversos e de alta qualidade que permitam que os modelos tenham um bom desempenho em uma ampla gama de cenários do mundo real.
Direções Futuras: Modelos Menores, Suporte Multilíngue e Streaming em Tempo Real
A visão da NVIDIA para o futuro inclui mais avanços no suporte multilíngue, modelos otimizados para borda ainda menores e melhorias no streaming em tempo real para reconhecimento de fala.
Capacidades Multilíngues
Suportar vários idiomas é crucial para grandes empresas. A NVIDIA pretende concentrar-se em alguns idiomas-chave e garantir uma precisão de classe mundial para raciocínio, chamada de ferramentas e chat dentro deles. Esta é provavelmente a próxima grande área de expansão.
Modelos Otimizados para Borda
A NVIDIA está a considerar modelos com até cerca de 50 milhões de parâmetros para abordar casos de uso na borda, onde uma pegada menor é necessária, como permitir o processamento de áudio em tempo real para robôs em ambientes ruidosos.
Streaming em Tempo Real para Parakeet TDT
Tecnologicamente, a NVIDIA planeja trabalhar em recursos de streaming para TDT para permitir transcrição ao vivo em tempo real.
IA Pronta para Produção: Projetando para Implementação no Mundo Real
Tanto o Llama Nemotron Ultra quanto o Parakeet TDT são projetados com os desafios de implementação do mundo real em mente, focando na precisão, eficiência e relação custo-benefício.
Raciocínio Ligado/Desligado para Escalabilidade e Eficiência de Custo
O raciocínio excessivo pode levar a problemas de escalabilidade e aumento da latência em ambientes de produção. O recurso de raciocínio ligado/desligado introduzido no Llama Nemotron Ultra oferece a flexibilidade de controlar o raciocínio numa base por consulta, permitindo inúmeros casos de uso de produção.
Equilibrando Precisão e Eficiência
Equilibrar a precisão e a eficiência é um desafio constante. A abordagem da NVIDIA envolve considerar cuidadosamente o número de épocas para cada habilidade durante o treinamento e medir continuamente a precisão. O objetivo é melhorar o desempenho em todas as áreas-chave.
O Papel dos Modelos da NVIDIA no Ecossistema de Código Aberto
A NVIDIA vê o papel do Llama Nemotron Ultra e do Parakeet TDT dentro do ecossistema de código aberto e LLM mais amplo como construindo sobre fundações existentes e focando estreitamente em áreas específicas para agregar valor significativo. A empresa pretende continuar a identificar áreas específicas onde pode contribuir, enquanto outros continuam a construir excelentes modelos de uso geral adequados para produção empresarial.
Principais Conclusões: Código Aberto, Rápido, Alto Rendimento, Eficiente em Custo
As principais conclusões do trabalho da NVIDIA em Llama Nemotron Ultra e Parakeet TDT são um compromisso de código aberto de tudo, alcançar precisão de última geração, otimizar pegadas para utilização eficiente de GPU em termos de latência e rendimento e capacitar a comunidade.
Todos os modelos e conjuntos de dados estão disponíveis no Hugging Face. A pilha de software para executá-los vem da NVIDIA e está disponível no NGC, seu repositório de conteúdo. Grande parte do software subjacente também é de código aberto e pode ser encontrado no GitHub. O framework Nemo é o hub central para grande parte desta pilha de software.