在一次深入的对话中,来自 NVIDIA 的 Joey Conway 详细介绍了该公司在开源大型语言模型 (LLMs) 和自动语音识别 (ASR) 方面的最新进展。讨论的重点是 Llama Nemotron Ultra 和 Parakeet,这两个开创性的项目展示了 NVIDIA 致力于推动 AI 技术边界的决心。
NVIDIA 的开源战略
NVIDIA 正迅速崛起为开源 AI 领域的一支重要力量。诸如 Llama Nemotron Ultra 和 Parakeet TDT 等先进模型的发布,标志着一项具有战略意义的举措,旨在实现 AI 技术的民主化并促进社区内的创新。通过提供这些尖端工具,NVIDIA 旨在加速 AI 解决方案在各个行业中的研究、开发和部署。
Llama Nemotron Ultra:重新定义效率和性能
Llama Nemotron Ultra 是一个拥有 2530 亿参数的模型,证明了 NVIDIA 的工程实力。它与众不同之处在于,它能够提供与规模是其两倍的模型(例如 Llama 405B 和 DeepSeek R1)相媲美的性能。这一卓越的成就使其能够部署在单个 8x H100 节点上,从而使其可供更广泛的用户使用。
秘密武器:FFN 融合
Llama Nemotron Ultra 令人印象深刻的效率主要归功于一项名为 FFN(前馈网络)融合的创新技术。这种优化策略通过 NVIDIA 的 Puzzle 神经架构搜索发现,通过减少冗余的注意力层来简化模型的架构。
通过按顺序排列 FFN 层,该技术可以实现 GPU 上更大的并行计算。合并或融合剩余层最大限度地提高了效率,这对于基于 Meta 的 Llama 3.1 - 405B 的更大模型尤其有益。FFN 融合的优点是双重的:它显着提高了吞吐量,实现了 3 到 5 倍的速度提升,并减少了模型的内存占用。尺寸的减小允许使用更大的 KV 缓存,从而使模型能够处理更大的上下文长度。
按需推理:一项改变游戏规则的功能
Llama Nemotron Ultra 最独特和最有价值的功能之一是其“推理开启/关闭”功能。这使得能够对模型的推理过程进行前所未有的控制,为生产部署和成本优化提供了显着的优势。
通过系统提示打开和关闭推理的功能,使企业能够灵活地平衡准确性与延迟和成本。推理虽然对于解决复杂问题至关重要,但会生成更多的 token,从而导致更高的延迟和成本。通过提供显式控制,NVIDIA 使使用者能够就何时使用推理做出明智的决策,从而优化性能和资源利用率。
为了实现此功能,NVIDIA 在监督微调阶段明确地教会了模型何时推理以及何时不推理。这涉及呈现具有两个不同答案的相同问题:一个具有详细的推理,另一个没有,基本上使此特定目的的数据集翻了一番。结果是一个单一的模型,使用者只需在提示中包含“使用详细思考开启”或“使用详细思考关闭”即可控制推理过程。
用 Parakeet TDT 彻底改变语音识别
Parakeet TDT 是 NVIDIA 最先进的 ASR 模型,它重新定义了语音识别的速度和准确性基准。它只需一秒钟即可转录一小时的音频,且单词错误率仅为 6%——比其他开源替代方案的速度快 50 倍。
架构创新:Parakeet 性能的“秘诀”
Parakeet TDT 令人印象深刻的性能是架构选择和特定优化相结合的结果。它基于 Fast Conformer 架构,并采用诸如深度可分离卷积下采样和有限上下文注意力等技术进行了增强。
输入阶段的深度可分离卷积下采样显着降低了处理的计算成本和内存需求。有限上下文注意力通过专注于较小的、重叠的音频块,在保持准确性的同时实现了处理速度的提升。在编码器端,滑动窗口注意力技术使模型能够处理更长的音频文件而无需将其拆分为较短的片段,这对于处理长篇音频至关重要。
Token Duration Transducer (TDT):速度的关键
除了 Conformer 架构之外,Parakeet TDT 还集成了 Token and Duration Transducer (TDT)。传统的循环神经网络 (RNN) transducer 技术逐帧处理音频。TDT 使模型能够预测 token 和这些 token 的预期持续时间,从而使其能够跳过冗余帧并显着加快转录过程。
仅此 TDT 创新就贡献了大约 1.5 到 2 倍的速度提升。此外,标签循环算法允许在批量推理期间独立推进不同样本的 token,从而进一步加快了解码过程。将解码器端的一些计算转移到 CUDA 图中可提供另外 3 倍的速度提升。这些创新使 Parakeet TDT 能够实现与连接时序分类 (CTC) 解码器(以其速度而闻名)相当的速度,同时保持高精度。
通过开放数据实现 AI 民主化
NVIDIA 对开源社区的承诺不仅限于模型发布,还包括共享大量高质量的语言和语音数据集。该公司的数据管理方法强调透明度和开放性,其目标是尽可能多地共享关于其数据、技术和工具的信息,以便社区可以理解和使用它们。
Llama Nemotron Ultra 的数据管理
Llama Nemotron Ultra 数据管理的主要目标是提高几个关键领域的准确性,包括诸如数学和编码之类的推理任务,以及诸如工具调用、指令遵循和聊天之类的非推理任务。
该策略涉及管理特定的数据集以增强这些领域的性能。在监督微调过程中,NVIDIA 区分了“推理开启”和“推理关闭”两种情况。来自社区的高质量模型被用作特定领域的“专家”。例如,DeepSeek R-1 被广泛用于推理密集的数学和编码任务,而诸如 Llama 和 Qwen 之类的模型则用于诸如基本数学、编码、聊天和工具调用之类的非推理任务。这个包含大约 3000 万个问答对的管理数据集已在 Hugging Face 上公开发布。
确保数据质量:一种多层方法
鉴于大部分数据是使用其他模型生成的,NVIDIA 实施了严格的多层质量保证流程。这包括:
- 使用每个专家模型为相同的提示生成多个候选响应。
- 使用一组单独的“评论”模型来评估这些候选者,评估标准包括正确性、连贯性和对提示的遵守情况。
- 实施一种评分机制,其中每个生成的问答都收到一个基于评论模型评估的质量得分,并为接受设置了一个高阈值。
- 在各个阶段整合人工审查,由数据科学家和工程师手动检查生成的数据样本,以识别任何系统性错误、偏差或幻觉实例。
- 关注生成数据的多样性,以确保每个领域内都有广泛的示例。
- 在使用该管理的数据训练 Llama Nemotron Ultra 后,针对基准数据集和真实用例进行广泛的评估。
开源 Parakeet TDT 的语音数据集
NVIDIA 计划开源一个庞大的语音数据集,大约 100,000 小时,该数据集经过精心管理以反映真实世界的多样性。该数据集将包括声级、信噪比、背景噪声类型甚至与呼叫中心相关的电话音频格式的变化。其目标是为社区提供高质量、多样化的数据,使模型能够在各种真实场景中表现良好。
未来方向:更小的模型、多语言支持和实时流式传输
NVIDIA 对未来的愿景包括在多语言支持、更小的边缘优化模型以及改进语音识别的实时流式传输方面取得进一步的进展。
多语言能力
支持多种语言对大型企业至关重要。NVIDIA 旨在专注于一些关键语言,并确保在这些语言中进行推理、工具调用和聊天时获得世界一流的准确性。这可能是下一个主要的扩展领域。
边缘优化模型
NVIDIA 正在考虑降至大约 5000 万参数的模型,以解决边缘需要更小占用空间的用例,例如为嘈杂环境中的机器人启用实时音频处理。
Parakeet TDT 的实时流式传输
在技术上,NVIDIA 计划致力于 TDT 的流式传输功能,以实现实时、实时转录。
生产就绪的 AI:为现实世界部署而设计
Llama Nemotron Ultra 和 Parakeet TDT 的设计都考虑到了现实世界部署的挑战,重点关注准确性、效率和成本效益。
用于可扩展性和成本效率的推理开启/关闭
过多的推理会导致生产环境中的可扩展性问题和延迟增加。Llama Nemotron Ultra 中引入的推理开启/关闭功能提供了在每个查询的基础上控制推理的灵活性,从而实现了大量的生产用例。
平衡准确性和效率
平衡准确性和效率是一项持续的挑战。NVIDIA 的方法包括在训练期间仔细考虑每项技能的 epoch 数量并不断测量准确性。其目标是提高所有关键领域的性能。
NVIDIA 模型在开源生态系统中的作用
NVIDIA 将 Llama Nemotron Ultra 和 Parakeet TDT 在更广泛的开源和 LLM 生态系统中的作用视为在现有基础上构建,并 narrowly 专注于特定领域来增加显着价值。该公司旨在继续识别它可以做出贡献的特定领域,而其他人则继续构建适用于企业生产的出色的通用模型。
主要收获:开源、快速、高吞吐量、经济高效
从 NVIDIA 在 Llama Nemotron Ultra 和 Parakeet TDT 方面所做的工作中得出的主要结论是:致力于开源所有内容、实现最先进的准确性、优化占用空间以实现 GPU 的高效利用(在延迟和吞吐量方面),以及增强社区的能力。
所有模型和数据集都可以在 Hugging Face 上找到。运行它们的软件栈来自 NVIDIA,可以在其内容存储库 NGC 上找到。许多底层软件也是开源的,可以在 GitHub 上找到。Nemo 框架是该软件栈的中心枢纽。