Nvidia Nemotron, DeepSeek-R1 능가 모델

Nvidia의 Llama-Nemotron 시리즈 모델이 공식적으로 DeepSeek-R1을 능가했으며, 이 모델들이 어떻게 개발되어 우수한 성능을 달성했는지에 대한 자세한 내용이 완전히 공개되었습니다.

이제 이 모델들은 완전히 오픈 소스화되어 접근 가능한 AI 기술에서 중요한 발전을 이루었습니다. 즉, 추론 처리량과 메모리 효율성 측면에서 DeepSeek-R1을 크게 능가하는 일련의 추론 모델을 누구나 사용하고 수정할 수 있게 되었습니다.

모델 성공의 비결 공개

그렇다면 DeepSeek-R1을 능가하는 이 모델들은 정확히 어떻게 만들어졌을까요? Nvidia의 기술 보고서는 훈련 과정의 핵심 요소를 밝히고 있습니다:

  • 합성 데이터를 사용한 지도 학습 미세 조정 + 강화 학습: 이 조합은 모델의 추론 능력을 크게 향상시킵니다.
  • 종합적인 사후 훈련 과정: 모델의 성능을 최적화하는 데 필수적인 강력하고 잘 설계된 사후 훈련 과정입니다.

지난달 Nvidia는 Llama-Nemotron 253B를 공식적으로 발표했는데, 이는 Llama 4(리더보드 조작으로 인해 “무결성 위기”에 직면한 지 불과 3일 밖에 되지 않았음)를 빠르게 압도했습니다. 이 시리즈 모델의 출시로 업계는 상당한 반향을 일으켰습니다.

Artificial Analysis Intelligence Index에 따르면, Llama-Nemotron-Ultra는 현재 2025년 4월 기준으로 “가장 지능적인” 오픈 소스 모델로 간주됩니다.

Nvidia는 Llama-Nemotron 시리즈에서 세 가지 모델, 즉 LN-Nano 8B, LN-Super 49B, LN-Ultra 253B를 출시했습니다.

특히 LN-Ultra는 성능 면에서 DeepSeek-R1을 능가할 뿐만 아니라 단일 8xH100 노드에서 실행되어 더 높은 추론 처리량을 제공합니다.

이 모델들은 강력한 추론 능력과 최대 128K의 컨텍스트 길이를 유지하면서 높은 처리량의 추론에 최적화되어 있습니다.

또한 Nvidia는 글로벌 AI 오픈 소스 커뮤니티에 획기적인 추론 전환 기능을 도입했습니다. 사용자는 시스템 프롬프트 "detailed thinking on/off"를 사용하여 표준 채팅 모드와 추론 모드 간에 동적으로 전환할 수 있습니다.

이 디자인은 모델이 서로 다른 모델이나 아키텍처 없이도 일반적인 일상 요구 사항을 충족하고 복잡한 다단계 추론 작업을 처리할 수 있도록 합니다.

구축 과정: 5단계 접근 방식

Llama-Nemotron 모델의 구축은 5개의 개별 단계로 나뉩니다:

1단계: Llama 3 시리즈 모델을 기반으로 신경 아키텍처 검색 (NAS)을 사용하여 추론 효율성을 최적화하고 Feedforward Network Fusion (FFN Fusion)을 도입합니다.

2단계: 지식 증류 및 지속적인 사전 훈련을 통해 모델 성능을 복구합니다.

3단계: 지도 학습 미세 조정 (SFT)으로, 표준 지시 데이터와 DeepSeek-R1과 같은 강력한 교사 모델의 추론 프로세스를 결합하여 모델이 다단계 추론을 수행할 수 있도록 합니다.

4단계: 복잡한 수학 및 STEM 데이터 세트에 대한 대규모 강화 학습으로, 학생 모델이 교사 모델의 능력을 능가하는 데 중요합니다. LN-Ultra의 경우 이 단계는 GPQA-D 벤치마크에서 성능을 크게 향상시켜 오픈 소스 도메인에서 과학적 추론을 위한 가장 강력한 모델로 자리매김합니다.

이러한 대규모 강화 학습 훈련을 지원하기 위해 팀은 여러 최적화 방안을 갖춘 새로운 훈련 프레임워크를 개발했으며, 가장 중요한 것은 FP8 정밀도 생성 기능을 지원하는 것입니다.

5단계: 지시 사항 준수 및 인간 선호도 준수에 초점을 맞춘 간단한 정렬 훈련입니다.

최적화된 추론 효율성을 위한 혁신적인 아키텍처

LN-Super 및 LN-Ultra는 모델 추론 효율성을 최적화하기 위해 신경 아키텍처 검색을 위한 Puzzle 프레임워크를 활용합니다.

Puzzle은 대규모 언어 모델을 배포에 최적화된 하드웨어에 적합한 효율적인 버전으로 변환합니다.

**"블록 단위 로컬 증류"**를 통해 개발자는 Llama 3 Instruct를 사용하여 대체 Transformer 모듈 라이브러리를 구축했습니다.

이 과정에서 각 모듈은 독립적이고 병렬적으로 훈련되어 계산 성능을 최적화하면서 원래 모듈의 기능을 근사화합니다.

각 대체 모듈에는 특정 "정밀도-효율성" 절충점이 있습니다. 일부 모듈은 더 효율적이지만 특정 품질 저하를 초래할 수 있으므로 계산 비용과 모델 정확도 간에 명확한 절충점이 생성됩니다.

이러한 모듈 변형에는 다음이 포함됩니다:

주의 메커니즘 제거: 일부 모듈은 주의 메커니즘을 완전히 생략하여 계산량과 KV 캐시 메모리 소비를 줄입니다.

가변 FFN 차원: 피드포워드 네트워크의 중간 차원을 조정하여 다양한 세분성으로 모델 압축이 가능합니다.

모듈 라이브러리를 구축한 후 Puzzle은 각 레이어에서 모듈을 선택하여 완전한 모델을 조립합니다.

이 선택 과정은 하드웨어 호환성, 최대 허용 지연 시간, 메모리 예산 또는 원하는 추론 처리량과 같은 제약 조건에 따라 최적의 구성을 찾는 혼합 정수 프로그래밍 (MIP) 솔버에 의해 제어됩니다.

수직 압축 및 FFN 융합

LN-Ultra 모델에서 연구원들은 모델의 시퀀스 깊이를 줄이고 추론 지연 시간 효율성을 개선하기 위한 추가 압축 기술인 **FFN Fusion (Feedforward Network Fusion)**을 도입했습니다.

Puzzle이 일부 주의 레이어를 제거한 결과 여러 개의 연속적인 FFN 블록이 모델 구조에 자주 나타나는 고유한 구조가 나타납니다.

FFN Fusion은 이러한 연속적인 구조를 식별하고 더 적지만 더 넓고 병렬 실행 가능한 FFN 레이어로 대체합니다.

이 대체 방법은 모델 표현력을 희생하지 않고 순차적 계산 단계를 줄여 특히 다중 GPU 환경에서 계산 리소스 활용률을 크게 향상시킵니다. 여기서 레이어 간 통신 오버헤드가 상당합니다.

LN-Ultra 모델은 정확도와 효율성 측면에서 DeepSeek-R1 및 Llama-3.1-405B를 지속적으로 능가하여 최적의 균형을 달성합니다.

사후 NAS 훈련: 지식 증류 및 지속적인 사전 훈련

신경 아키텍처 검색 (NAS) 단계 후 LN-Super와 LN-Ultra 모두 모듈 간의 호환성을 개선하고 모듈 교체 중에 발생했을 수 있는 품질 손실을 복구하기 위해 추가 훈련을 받았습니다.

  • LN-Super는 지식 증류 목표 하에 Distillation Mix 데이터 세트에서 400억 개의 토큰에 대해 훈련되었습니다.
  • LN-Ultra는 처음에는 동일한 증류 데이터 세트에서 650억 개의 토큰에 대해 훈련된 후 Nemotron-H 4단계 사전 훈련 데이터 세트에서 880억 개의 토큰에 대해 지속적으로 훈련되었습니다.

이 최종 사전 훈련 단계를 통해 LN-Ultra는 참조 모델인 Llama 3.1-405B-Instruct를 따라잡을 뿐만 아니라 주요 벤치마크 테스트에서 이를 능가할 수 있었습니다.

이는 간단한 증류 및 사전 훈련을 통해 공격적인 아키텍처 최적화와 높은 모델 성능 간의 호환성을 달성할 수 있음을 보여줍니다.

지도 학습 미세 조정: 추론 능력 개선

지도 학습 미세 조정 (SFT)은 Llama-Nemotron 모델을 위한 "개인 트레이너" 역할을 하여 특정 작업에 대한 추론 단계를 구체적으로 목표로 삼고 DeepSeek-R1과 같은 "스타 학생" 모델에서 추론 기술을 학습합니다.

진정한 추론 기술을 주입하려면 대규모의 고품질 추론 훈련 데이터가 필수적입니다.

합성 데이터: 추론에 맞게 조정됨

연구원들은 지도 학습 미세 조정을 위해 추론 및 비추론 데이터가 모두 포함된 데이터 샘플을 신중하게 선별했습니다.

추론 샘플의 경우 시스템 지침에 "detailed thinking on"을 추가했고, 비추론 샘플의 경우 "detailed thinking off"를 사용했습니다.

이 설정을 통해 모델은 추론 단계에서 프롬프트를 기반으로 추론 동작을 전환할 수 있습니다.

추론을 위한 합성 데이터는 수학, 코딩 및 관련 분야에서 준비되었습니다.

모델이 "추론 전환" 지침을 따르도록 훈련하기 위해 연구원들은 쌍을 이룬 데이터 세트를 구축했습니다. 여기서 각 프롬프트는 추론이 있는 응답과 추론이 없는 응답에 해당합니다.

이 페어링을 통해 모델은 시스템 지침에 따라 추론 동작을 조정하는 방법을 학습할 수 있습니다.

이러한 응답에 대한 후속 필터링은 표준 답변 또는 보상 모델을 기반으로 수행됩니다.

미세 조정 과정

모든 모델은 토큰 수준 교차 엔트로피 손실을 사용하여 지시 미세 조정 데이터에서 훈련되었습니다.

대부분의 훈련 설정에서 추론 및 비추론 데이터는 훈련 배치를 형성하기 위해 혼합됩니다. 여기서 각 프롬프트는 "detailed thinking on/off" 시스템 지침에 따라 해당 응답과 쌍을 이룹니다.

훈련을 여러 라운드로 확장하면 특히 더 작은 모델의 경우 성능을 향상시킬 수 있습니다.

NeMo-Aligner는 강화 학습 훈련에 사용되어 GRPO와 이기종 모델 훈련을 지원했습니다.

vLLM은 생성 단계에 사용되었고 Megatron-LM은 훈련 단계에 사용되었습니다.

훈련 및 추론 단계는 동일한 배치의 GPU를 공유하여 동일한 장치에서 완료되었습니다.

전체 훈련 과정은 8개의 H100 GPU가 장착된 72개의 노드를 사용했습니다.

생성 단계는 FP8 정밀도를 사용했고, 훈련 단계는 BF16 정밀도를 사용했으며, 옵티마이저 상태는 FP32를 사용했습니다.

각 단계는 독립적인 모델 가중치를 유지했으며, 각 단계의 시작 부분에서 동기화되었습니다.

강화 학습: R1의 추론 능력을 능가하는 열쇠

지도 학습 미세 조정 (SFT)을 통해 모델은 강력한 교사 모델에서 지식을 추출하여 뛰어난 능력을 달성할 수 있습니다.

그러나 지식 증류는 본질적으로 학생 모델의 성능에 제한을 둡니다. 특히 학생 모델의 기본 모델 능력이 교사 모델의 능력을 초과하지 않는 경우에 그렇습니다.

지도 학습 미세 조정을 통해 LN-Ultra의 성능은 DeepSeek-R1에 접근할 수 있지만 능가할 수는 없습니다.

대규모 강화 학습 (RL)은 모델이 새로운 가능성을 지속적으로 탐색하고 자가 학습할 수 있도록 하기 때문에 학생 모델이 교사 모델을 능가할 수 있도록 하는 실행 가능한 방법입니다.

리소스 제약으로 인해 연구원들은 추론 RL을 LN-Ultra에만 적용하여 교사 모델을 능가하는 학생 모델을 만들었습니다.

추론 강화 학습 훈련 과정 전반에 걸쳐 LN-Ultra의 GPQA-Diamond 데이터 세트의 정확도가 향상되었습니다.

훈련 과정: 과학적 추론에 초점

LN-Ultra의 경우 연구원들은 DeepSeek-R1에서 사용된 것과 동일한 Grouped Relative Policy Optimization (GRPO) 알고리즘을 사용하여 대규모 강화 학습 (RL)을 통해 과학적 추론 능력을 향상시켰습니다.

전체 훈련 과정에는 약 140,000 H100 시간이 필요했으며, 추론 작업에서 수렴될 때까지 모델을 지속적으로 훈련했습니다.

보상 메커니즘 설계에는 두 가지 범주가 포함되었습니다:

  • 정확도 보상: 표준 답변 (숫자/문장/단락)을 기반으로 Llama-3.3-70B-Instruct 모델을 호출하여 예측 결과의 일치 정도를 판단합니다.
  • 형식 보상: DeepSeek-AI의 체계를 따라 모델은 "detailed thinking" 모드에서 <think\> 태그로 추론 과정을 래핑해야 하며, 이러한 태그의 모양은 비상세 사고 모드에서 금지됩니다.

연구팀은 데이터 필터링 및 커리큘럼 훈련을 포함하여 데이터도 사전 처리했습니다.

  • 데이터 스크리닝: LN-Super는 각 질문에 대해 8개의 응답을 미리 생성하는 데 사용되며, 합격률이 ≥ 75%인 간단한 샘플은 제거됩니다.
  • 커리큘럼 훈련: 합격률을 기반으로 점진적인 배치 할당이 채택됩니다.

동적 배포: Gaussian 함수로 배치 난이도를 모델링하여 처음에는 합격률이 높은 (간단한) 샘플에 집중하고 나중에 합격률이 낮은 (어려운) 샘플로 이동합니다.

패딩 논리: 샘플은 먼저 목표 배포에 따라 할당되고, 나머지 용량은 가장 큰 나머지 샘플 풀에서 보충됩니다.

배치 내 처리: 다양성을 유지하기 위해 동일한 배치의 샘플이 무작위로 섞입니다.

선호도 최적화를 위한 강화 학습

과학적 추론 훈련을 완료한 후 연구원들은 LN-Super 및 LN-Ultra 모델에 대해 간단한 강화 학습 단계를 수행하여 지시 사항 준수 능력을 개선하는 데 집중했습니다.

연구원들은 또한 RLHF를 사용하여 모델의 일반적인 도움말 기능 및 채팅 성능을 최적화하면서 수학, 과학 및 기타 분야에서 모델의 기능을 유지했습니다.

LN-Super는 Arena Hard 테스트에서 88.3점의 높은 점수를 달성하여 Claude 3.5 Sonnet 및 GPT-4o-2024-05-13과 같은 독점 모델을 능가했으며 더 큰 오픈 소스 모델보다도 더 나은 성능을 보였습니다.

이 결과를 달성하기 위해 그들은 HelpSteer2 데이터 세트에서 모델의 예측 보상을 최대화하는 "OnLine Reward-Policy Optimization" 방법을 채택했습니다. 사용된 보상 모델은 Llama-3.1-Nemotron-70B-Reward였습니다.

두 라운드의 온라인 RPO 훈련은 Arena Hard 점수를 69.1에서 88.1로 높였습니다.

LN-Ultra의 경우 유사한 프로세스를 사용했지만 GRPO를 채택했습니다.

LN-Nano의 경우 정책 생성 훈련 데이터를 사용하여 두 라운드의 오프라인 RPO 훈련을 수행했습니다.

첫 번째 라운드는 모델의 추론 제어 능력을 최적화하기 위해 적절한 시스템 프롬프트와 함께 추론 및 비추론 데이터를 결합했습니다. 두 번째 라운드는 지시 사항 준수 능력을 개선하는 데 집중했습니다.

평가 결과: 종합적인 평가

연구원들은 Llama-Nemotron 모델의 성능을 추론 작업과 비추론 작업의 두 가지 벤치마크 범주에서 평가했습니다.

추론 벤치마크에는 AIME24 및 AIME25, GPQA-Diamond, LiveCodeBench 및 MATH500이 포함되었습니다.

비추론 벤치마크에는 지시 사항 준수 평가를 위한 IFEval, 함수 호출 도구 사용 평가를 위한 BFCL V2 Live, 인간 대화 선호도에 대한 정렬 평가를 위한 Arena-Hard가 포함되었습니다.

LN-Nano는 작은 크기에도 불구하고 모든 추론 벤치마크에서 뛰어난 성능을 달성했습니다.

이는 지도 학습 미세 조정 과정과 잘 선별된 추론 데이터 세트가 구조화된 추론 능력을 더 작은 모델로 이전하는 데 효과적임을 보여줍니다.

LN-Super는 유사한 매개변수 규모의 다른 모델과 비교할 때 추론 및 비추론 작업 모두에서 강력한 경쟁력을 보였습니다.

"reasoning off" 모드에서 LN-Super의 성능은 증류 소스 모델인 Llama-3.3-70B와 비슷했습니다. "reasoning on" 모드에서는 DeepSeek-R1-Distilled-Llama-70B와 같은 다른 경쟁 모델을 능가하여 좋은 지시 사항 준수 능력을 유지하면서 강력한 추론 능력을 입증했습니다.

이러한 결과는 LN-Super가 추론에 최적화된 모델과 비추론 모델의 장점을 결합하여 일상적인 도우미 작업과 구조화된 추론 작업에 적합한 다재다능한 모델임을 나타냅니다.

LN-Ultra는 추론 및 비추론 벤치마크에서 기존의 모든 오픈 소스 가중치 모델과 동등하거나 더 나은 성능을 보였습니다. GPQA에서 오픈 소스 모델에서 가장 진보된 수준을 달성하여 Nvidia 연구원의 대규모 강화 학습 훈련 방법의 효과를 완전히 입증했습니다.

8×H200 하드웨어 구성이 필요한 DeepSeek-R1과 달리 LN-Ultra는 단일 8×H100 노드에서 효율적으로 실행되도록 최적화되어 더 높은 추론 처리량과 배포 효율성을 제공합니다.

LN-Ultra의 SFT 단계는 여러 추론 벤치마크 (GPQA 및 AIME 포함)에서 DeepSeek-R1의 성능에 접근하거나 도달했습니다.

모델이 원래 훈련된 추론 및 대화 기능 외에도 배포 작업에서도 모델을 테스트했습니다.

특히 모델은 JudgeBench 데이터 세트에서 테스트하여 고품질 답변과 저품질 답변을 구별하도록 했습니다.

새로운 모델은 이 작업에서 현재 최고의 독점 및 오픈 소스 모델보다 뛰어난 성능을 보였습니다.

LN-Ultra는 최고의 성능을 자랑하는 오픈 소스 모델이 되어 DeepSeek-R1을 크게 능가했으며 독점 모델인 o3-mini(high)에 이어 두 번째였습니다.

또한 LN-Super의 성능도 o1-mini를 초과하여 새로운 모델이 다양한 작업에서 강력한 일반화 능력을 가지고 있음을 나타냅니다.