NVIDIA의 혁신: Llama Nemotron Ultra 및 Parakeet

NVIDIA의 오픈 소스 전략

NVIDIA는 오픈 소스 AI 분야에서 빠르게 중요한 세력으로 부상하고 있습니다. Llama Nemotron Ultra 및 Parakeet TDT와 같은 고급 모델의 공개는 AI 기술을 민주화하고 커뮤니티 내에서 혁신을 촉진하려는 전략적 움직임을 보여줍니다. 이러한 최첨단 도구를 사용할 수 있도록 함으로써 NVIDIA는 다양한 산업 분야에서 AI 솔루션의 연구, 개발 및 배포를 가속화하는 것을 목표로 합니다.

Llama Nemotron Ultra: 효율성과 성능의 재정의

2530억 개의 파라미터를 가진 모델인 Llama Nemotron Ultra는 NVIDIA의 엔지니어링 능력을 입증합니다. 이 모델의 특징은 Llama 405B 및 DeepSeek R1과 같이 크기가 두 배인 모델과 비슷한 성능을 제공할 수 있다는 것입니다. 이러한 놀라운 성과 덕분에 8x H100 노드 하나에 배포할 수 있으므로 더 많은 사용자가 액세스할 수 있습니다.

비법: FFN 융합

Llama Nemotron Ultra의 인상적인 효율성은 주로 FFN(Feed-Forward Network) 융합이라고 하는 혁신적인 기술 덕분입니다. NVIDIA의 Puzzle 신경 아키텍처 검색을 통해 발견된 이 최적화 전략은 중복된 어텐션 레이어를 줄여 모델 아키텍처를 간소화합니다.

FFN 레이어를 시퀀스에 정렬함으로써 이 기술은 GPU에서 더 큰 병렬 계산을 가능하게 합니다. 나머지 레이어를 병합하거나 융합하면 특히 Meta의 Llama 3.1 - 405B를 기반으로 하는 더 큰 모델에 매우 유용하여 효율성이 극대화됩니다. FFN 융합의 이점은 3~5배 범위의 속도 향상을 달성하여 처리량을 크게 개선하고 모델의 메모리 공간을 줄이는 두 가지입니다. 크기가 줄어들면 더 큰 KV 캐시를 활용할 수 있어 모델이 더 큰 컨텍스트 길이를 처리할 수 있습니다.

주문형 추론: 판도를 바꾸는 기능

Llama Nemotron Ultra의 가장 독특하고 가치 있는 기능 중 하나는 “추론 켜기/끄기” 기능입니다. 이를 통해 모델의 추론 프로세스를 전례 없이 제어할 수 있으므로 생산 배포 및 비용 최적화에 상당한 이점을 제공합니다.

시스템 프롬프트를 통해 추론을 켜고 끌 수 있는 기능을 사용하면 기업은 정확도와 대기 시간 및 비용 간의 균형을 유연하게 맞출 수 있습니다. 추론은 복잡한 문제를 해결하는 데 매우 중요하지만 더 많은 토큰을 생성하므로 대기 시간과 비용이 증가합니다. 명시적인 제어를 제공함으로써 NVIDIA는 사용자가 추론을 사용하는 시기에 대해 정보에 입각한 결정을 내릴 수 있도록 하여 성능 및 리소스 활용률을 최적화합니다.

이 기능을 구현하기 위해 NVIDIA는 지도 세분화 조정 단계에서 언제 추론해야 하고 언제 추론하지 않아야 하는지 명시적으로 가르쳤습니다. 여기에는 자세한 추론이 있는 답변과 없는 답변의 두 가지 다른 답변으로 동일한 질문을 제시하여 이 특정 목적을 위해 데이터 세트를 효과적으로 두 배로 늘리는 것이 포함되었습니다. 그 결과 사용자가 프롬프트에 “자세한 생각 사용” 또는 “자세한 생각 사용 안 함”을 포함하기만 하면 추론 프로세스를 제어할 수 있는 단일 모델이 됩니다.

Parakeet TDT로 음성 인식 혁신

NVIDIA의 최첨단 ASR 모델인 Parakeet TDT는 음성 인식의 속도와 정확성에 대한 벤치마크를 재정의했습니다. 단 1초 만에 1시간 분량의 오디오를 놀라운 6% 단어 오류율로 전사할 수 있으며, 이는 다른 오픈 소스 대안보다 50배 빠릅니다.

아키텍처 혁신: Parakeet 성능의 “원리”

Parakeet TDT의 인상적인 성능은 아키텍처 선택과 특정 최적화의 조합의 결과입니다. 깊이 분리 가능한 컨볼루션 다운샘플링 및 제한된 컨텍스트 주의와 같은 기술로 향상된 빠른 Conformers 아키텍처를 기반으로 합니다.

입력 단계에서 깊이 분리 가능한 컨볼루션 다운샘플링은 처리의 계산 비용과 메모리 요구 사항을 크게 줄입니다. 제한된 컨텍스트 주의는 더 작고 겹치는 오디오 청크에 집중하여 처리 속도를 높이는 동시에 정확도를 유지합니다. 인코더 측에서는 슬라이딩 윈도우 주의 기술을 통해 모델이 오디오 파일을 더 짧은 세그먼트로 분할하지 않고도 더 긴 오디오 파일을 처리할 수 있으며, 이는 긴 형식의 오디오를 처리하는 데 매우 중요합니다.

토큰 지속 시간 변환기(TDT): 속도의 핵심

Conformers 아키텍처 외에도 Parakeet TDT는 토큰 및 지속 시간 변환기(TDT)를 통합합니다. 기존 RNN(Recurrent Neural Network) 변환기 기술은 오디오 프레임을 프레임 단위로 처리합니다. TDT를 사용하면 모델이 토큰과 이러한 토큰의 예상 지속 시간을 모두 예측할 수 있으므로 중복 프레임을 건너뛰고 전사 프로세스 속도를 크게 높일 수 있습니다.

이 TDT 혁신만으로도 약 1.5~2배의 속도 향상에 기여합니다. 또한 레이블 루핑 알고리즘을 사용하면 배치 추론 중에 서로 다른 샘플에 대한 토큰을 독립적으로 진행할 수 있어 디코딩 프로세스 속도가 더욱 빨라집니다. 디코더 측에서 일부 계산을 CUDA 그래프로 이동하면 3배 더 빠른 속도 향상을 얻을 수 있습니다. 이러한 혁신을 통해 Parakeet TDT는 빠른 속도로 알려진 CTC(Connectionist Temporal Classification) 디코더와 비슷한 속도를 유지하면서 높은 정확도를 유지할 수 있습니다.

오픈 데이터로 AI 민주화

오픈 소스 커뮤니티에 대한 NVIDIA의 노력은 모델 공개를 넘어 언어와 스피치 모두에 대한 대규모 고품질 데이터 세트를 공유하는 데까지 확장됩니다. 데이터 큐레이션에 대한 회사의 접근 방식은 투명성과 개방성을 강조하며, 커뮤니티가 데이터를 이해하고 사용할 수 있도록 데이터, 기술 및 도구에 대해 최대한 많이 공유하는 것을 목표로 합니다.

Llama Nemotron Ultra용 데이터 큐레이션

Llama Nemotron Ultra에 대한 데이터 큐레이션의 주요 목표는 수학 및 코딩과 같은 추론 작업과 도구 호출, 지침 따르기 및 채팅과 같은 비추론 작업 등 여러 주요 영역에서 정확도를 개선하는 것이었습니다.

이 전략에는 이러한 영역에서 성능을 향상시키기 위해 특정 데이터 세트를 큐레이션하는 것이 포함되었습니다. 감독 세분화 조정 프로세스 내에서 NVIDIA는 “추론 켜기”와 “추론 끄기” 시나리오를 구별했습니다. 커뮤니티의 고품질 모델은 특정 영역의 “전문가”로 활용되었습니다. 예를 들어 DeepSeek R-1은 추론 집약적인 수학 및 코딩 작업에 광범위하게 사용되었고, Llama 및 Qwen과 같은 모델은 기본 수학, 코딩, 채팅 및 도구 호출과 같은 비추론 작업에 활용되었습니다. 약 3천만 개의 질의응답 쌍으로 구성된 이 선별된 데이터 세트는 Hugging Face에서 공개적으로 사용할 수 있습니다.

데이터 품질 보장: 다단계 접근 방식

데이터의 상당 부분이 다른 모델을 사용하여 생성되었으므로 NVIDIA는 엄격한 다단계 품질 보증 프로세스를 구현했습니다. 여기에는 다음이 포함되었습니다.

  • 각 전문가 모델을 사용하여 동일한 프롬프트에 대해 여러 후보 응답을 생성합니다.
  • 정확성, 일관성 및 프롬프트 준수를 기준으로 이러한 후보를 평가하기 위해 별도의 “비평가” 모델 세트를 사용합니다.
  • 각 생성된 질의응답 쌍이 비평가 모델의 평가를 기반으로 품질 점수를 받고 수락에 대한 높은 임계값이 설정되는 점수 메커니즘을 구현합니다.
  • 다양한 단계에서 인간 검토를 통합하고, 데이터 과학자와 엔지니어가 생성된 데이터 샘플을 수동으로 검사하여 체계적인 오류, 편향 또는 환상 사례를 식별합니다.
  • 각 도메인 내에서 광범위한 예제를 보장하기 위해 생성된 데이터의 다양성에 중점을 둡니다.
  • 이 큐레이션된 데이터에 대해 Llama Nemotron Ultra를 훈련한 후 벤치마크 데이터 세트 및 실제 사용 사례에 대해 광범위한 평가를 수행합니다.

Parakeet TDT용 스피치 데이터 세트 오픈 소싱

NVIDIA는 실제 다양성을 반영하도록 세심하게 큐레이션된 약 100,000시간 분량의 상당한 규모의 스피치 데이터 세트를 오픈 소싱할 계획입니다. 이 데이터 세트에는 사운드 레벨, 신호 대 잡음비, 배경 소음 유형, 심지어 콜센터와 관련된 전화 오디오 형식의 변화가 포함됩니다. 목표는 커뮤니티에 광범위한 실제 시나리오에서 모델이 잘 작동할 수 있도록 하는 고품질의 다양한 데이터를 제공하는 것입니다.

향후 방향: 더 작은 모델, 다국어 지원 및 실시간 스트리밍

NVIDIA의 미래 비전에는 다국어 지원, 훨씬 더 작은 엣지 최적화 모델, 음성 인식을 위한 실시간 스트리밍 개선이 포함됩니다.

다국어 기능

여러 언어를 지원하는 것은 대기업에 매우 중요합니다. NVIDIA는 몇 가지 주요 언어에 집중하고 해당 언어 내에서 추론, 도구 호출 및 채팅에 대한 세계 최고 수준의 정확도를 보장하는 것을 목표로 합니다. 이것이 아마도 다음 주요 확장 영역일 것입니다.

엣지 최적화 모델

NVIDIA는 소음이 심한 환경에서 로봇의 실시간 오디오 처리 활성화와 같이 더 작은 공간이 필요한 엣지에서의 사용 사례를 해결하기 위해 약 5천만 개의 파라미터까지 모델을 고려하고 있습니다.

Parakeet TDT용 실시간 스트리밍

기술적으로 NVIDIA는 실시간 라이브 전사를 가능하게 하기 위해 TDT용 스트리밍 기능에 대한 작업을 계획하고 있습니다.

생산 준비 AI: 실제 배포를 위한 설계

Llama Nemotron Ultra 및 Parakeet TDT는 모두 실제 배포 문제를 염두에 두고 설계되었으며 정확성, 효율성 및 비용 효율성에 중점을 둡니다.

확장성 및 비용 효율성을 위한 추론 켜기/끄기

과도한 추론은 생산 환경에서 확장성 문제와 대기 시간 증가로 이어질 수 있습니다. Llama Nemotron Ultra에 도입된 추론 켜기/끄기 기능은 쿼리별로 추론을 제어할 수 있는 유연성을 제공하여 수많은 생산 사용 사례를 가능하게 합니다.

정확도와 효율성의 균형

정확도와 효율성의 균형을 맞추는 것은 끊임없는 과제입니다. NVIDIA의 접근 방식에는 교육 중에 각 기술에 대한 에포크 수를 신중하게 고려하고 정확도를 지속적으로 측정하는 것이 포함됩니다. 목표는 모든 주요 영역에서 성능을 개선하는 것입니다.

오픈 소스 생태계에서 NVIDIA 모델의 역할

NVIDIA는 광범위한 오픈 소스 및 LLM 생태계 내에서 Llama Nemotron Ultra 및 Parakeet TDT의 역할을 기존 기반을 기반으로 구축하고 특정 영역에 집중하여 상당한 가치를 추가하는 것으로 간주합니다. 회사는 다른 사람들이 엔터프라이즈 생산에 적합한 훌륭한 범용 모델을 계속 구축하는 동안 계속해서 기여할 수 있는 특정 영역을 식별하는 것을 목표로 합니다.

주요 내용: 오픈 소스, 빠른 속도, 높은 처리량, 비용 효율성

Llama Nemotron Ultra 및 Parakeet TDT에 대한 NVIDIA 작업의 주요 내용은 모든 것을 오픈 소싱하고, 최첨단 정확도를 달성하고, 대기 시간과 처리량 측면에서 효율적인 GPU 활용을 위해 공간을 최적화하고, 커뮤니티에 권한을 부여하겠다는 약속입니다.

모든 모델과 데이터 세트는 Hugging Face에서 사용할 수 있습니다. 이를 실행하는 소프트웨어 스택은 NVIDIA에서 제공하며 콘텐츠 저장소인 NGC에서 사용할 수 있습니다. 기본 소프트웨어의 대부분은 오픈 소스이며 GitHub에서 찾을 수 있습니다. Nemo 프레임워크는 이 소프트웨어 스택의 중심 허브입니다.