Новая модель Nvidia превзошла DeepSeek-R1

Модели серии Llama-Nemotron от Nvidia официально превзошли DeepSeek-R1, и детали их обучения были полностью раскрыты, предлагая понимание того, как эти модели были разработаны для достижения превосходной производительности.

Эти модели теперь полностью с открытым исходным кодом, что знаменует собой значительный прогресс в доступной технологии AI. Это означает, что серия моделей вывода, которые значительно превосходят DeepSeek-R1 с точки зрения пропускной способности вывода и эффективности памяти, теперь доступны для любого, чтобы использовать и изменять.

Раскрытие секретов успеха модели

Итак, как именно были созданы эти модели, которые превосходят DeepSeek-R1? Технический отчет Nvidia раскрывает критические элементы их процесса обучения:

  • Supervised Fine-Tuning с синтетическими данными + Reinforcement Learning: эта комбинация значительно улучшает возможности рассуждения модели.
  • Комплексный процесс Post-Training: надежный и хорошо разработанный процесс post-training имеет решающее значение для оптимизации производительности модели.

В прошлом месяце Nvidia официально объявила о Llama-Nemotron 253B, которая быстро затмила Llama 4 (которой было всего три дня и столкнулась с "кризисом целостности" из-за манипулирования leaderboard). Выпуск этой серии моделей вызвал большой ажиотаж в отрасли.

Согласно индексу Artificial Analysis Intelligence, Llama-Nemotron-Ultra в настоящее время считается "самой интеллектуальной" моделью с открытым исходным кодом по состоянию на апрель 2025 года.

Nvidia запустила три модели в серии Llama-Nemotron: LN-Nano 8B, LN-Super 49B и LN-Ultra 253B.

Примечательно, что LN-Ultra не только превосходит DeepSeek-R1 по производительности, но и работает на одном узле 8xH100, обеспечивая более высокую пропускную способность вывода.

Эти модели оптимизированы для высокопроизводительного вывода, сохраняя при этом сильные возможности рассуждения и длину контекста до 128K.

Кроме того, Nvidia представила новаторскую функцию переключения вывода в глобальном AI сообществе с открытым исходным кодом. Пользователи могут динамически переключаться между стандартным режимом чата и режимом рассуждения, используя системную подсказку "detailed thinking on/off."

Эта конструкция позволяет модели удовлетворять общие повседневные потребности и обрабатывать сложные многоступенчатые задачи рассуждения без необходимости использования различных моделей или архитектур.

Процесс строительства: пятиэтапный подход

Конструкция моделей Llama-Nemotron разделена на пять различных этапов:

Этап 1: Оптимизация эффективности рассуждений с использованием neural architecture search (NAS) на основе моделей серии Llama 3, с внедрением Feedforward Network Fusion (FFN Fusion).

Этап 2: Восстановление производительности модели посредством knowledge distillation и continued pre-training.

Этап 3: Supervised fine-tuning (SFT), которая сочетает в себе стандартные данные инструкций с процессами рассуждений от мощных моделей-учителей, таких как DeepSeek-R1, позволяя модели выполнять многоступенчатые рассуждения.

Этап 4: Масштабное reinforcement learning на сложных математических и STEM наборах данных, что имеет решающее значение для того, чтобы модель-ученик превзошла возможности модели-учителя. Для LN-Ultra этот этап значительно улучшает производительность на benchmark GPQA-D, устанавливая его в качестве сильнейшей модели для научного рассуждения в области открытого исходного кода.

Чтобы поддержать такое масштабное обучение reinforcement learning, команда разработала новую структуру обучения с несколькими мерами оптимизации, наиболее важной из которых является поддержка возможности генерации точности FP8.

Этап 5: Краткое alignment training, ориентированное на следование инструкциям и соблюдение предпочтений человека.

Инновационная архитектура для оптимизированной эффективности вывода

LN-Super и LN-Ultra используют Puzzle framework для neural architecture search, чтобы оптимизировать эффективность вывода модели.

Puzzle преобразует большие языковые модели в hardware-adapted, эффективные версии, оптимизированные для развертывания.

Через "block-by-block local distillation," разработчики построили библиотеку альтернативных Transformer modules с использованием Llama 3 Instruct.

В этом процессе каждый модуль обучается независимо и параллельно, аппроксимируя функциональность исходного модуля при оптимизации вычислительной производительности.

Каждый альтернативный модуль имеет определенные компромиссы "precision-efficiency". Некоторые модули более эффективны, но могут привести к определенному снижению качества, создавая четкий компромисс между вычислительными затратами и точностью модели.

Эти вариации модулей включают:

Attention Mechanism Removal: Некоторые модули полностью опускают механизм внимания, уменьшая объем вычислений и потребление памяти KV cache.

Variable FFN Dimensions: Промежуточные размеры feedforward networks настраиваются, что позволяет сжимать модель с различной степенью детализации.

После создания библиотеки модулей Puzzle выбирает модуль из каждого слоя для сборки полной модели.

Этот процесс выбора контролируется mixed-integer programming (MIP) solver, который находит оптимальную конфигурацию на основе ограничений, таких как hardware compatibility, максимально допустимая задержка, бюджет памяти или желаемая пропускная способность вывода.

Vertical Compression и FFN Fusion

В модели LN-Ultra исследователи представили FFN Fusion (Feedforward Network Fusion), дополнительный метод сжатия для уменьшения глубины последовательности модели и улучшения эффективности задержки рассуждений.

Удаление Puzzle некоторых attention layers приводит к уникальной структуре: в структуре модели часто появляются несколько непрерывных FFN blocks.

FFN Fusion идентифицирует эти непрерывные структуры и заменяет их меньшим количеством, но более широкими, параллельно исполняемыми FFN layers.

Этот метод замены уменьшает количество шагов последовательного вычисления без жертвования выразительностью модели, значительно улучшая использование вычислительных ресурсов - особенно в много-GPU средах, где накладные расходы на межслойную связь значительны.

Модель LN-Ultra стабильно превосходит DeepSeek-R1 и Llama-3.1-405B с точки зрения точности и эффективности, достигая оптимального баланса.

Post-NAS Training: Knowledge Distillation и Continued Pre-training

После neural architecture search (NAS) фазы, как LN-Super, так и LN-Ultra прошли дополнительное обучение для улучшения совместимости между модулями и восстановления любой потери качества, которая могла произойти во время замены модуля.

  • LN-Super был обучен на наборе данных Distillation Mix для 40 миллиардов tokens в соответствии с objective knowledge distillation.
  • LN-Ultra был первоначально обучен на том же наборе данных distillation для 65 миллиардов tokens, а затем продолжил обучение на наборе данных pre-training Nemotron-H четвертой стадии для 88 миллиардов tokens.

Этот заключительный этап pre-training позволил LN-Ultra не только догнать reference model, Llama 3.1-405B-Instruct, но и превзойти ее в ключевых benchmark тестах.

Это показывает, что краткая distillation и pre-training могут обеспечить совместимость между агрессивной архитектурной оптимизацией и высокой производительностью модели.

Supervised Fine-Tuning: Улучшение мастерства рассуждений

Supervised Fine-Tuning (SFT) действует как "личный тренер" для моделей Llama-Nemotron, специально ориентируясь на этапы рассуждений для конкретных задач и изучая методы вывода от моделей "звездных учеников", таких как DeepSeek-R1.

Чтобы привить подлинные навыки рассуждения, необходимы крупномасштабные высококачественные данные для обучения рассуждению.

Synthetic Data: Создано для рассуждений

Исследователи тщательно курировали образцы данных, содержащие как рассуждения, так и нерассуждения данные для supervised fine-tuning.

Для образцов рассуждений они добавили "detailed thinking on" в системные инструкции, а для образцов без рассуждений они использовали "detailed thinking off."

Эта настройка позволяет модели переключать поведение рассуждений на основе подсказок во время фазы рассуждений.

Synthetic data для рассуждений был подготовлен в математике, кодировании и смежных областях.

Чтобы обучить модель следовать инструкциям "reasoning switch", исследователи создали парные наборы данных, где каждая подсказка соответствует ответу с рассуждениями и одному без рассуждений.

Это сопряжение позволяет модели научиться корректировать свое поведение рассуждений на основе системных инструкций.

Последующая фильтрация этих ответов выполняется на основе стандартных ответов или reward models.

Fine-Tuning Process

Все модели были обучены на данных fine-tuning инструкций с использованием token-level cross-entropy loss.

В большинстве настроек обучения данные рассуждений и нерассуждений смешиваются для формирования пакетов обучения, где каждая подсказка сопряжена с соответствующим ответом на основе системных инструкций "detailed thinking on/off."

Расширение обучения до нескольких раундов может улучшить производительность, особенно для небольших моделей.

NeMo-Aligner использовался для reinforcement learning training, поддерживая GRPO и обучение гетерогенных моделей.

vLLM использовался для этапа генерации, а Megatron-LM использовался для этапа обучения.

Этапы обучения и рассуждений использовали один и тот же пакет GPUs, завершенный на одном устройстве.

Весь процесс обучения использовал 72 узла, каждый из которых оснащен 8 H100 GPUs.

Этап генерации использовал точность FP8, этап обучения использовал точность BF16, а optimizer state использовал FP32.

Каждый этап поддерживал независимый model weight, который синхронизировался в начале каждого шага.

Reinforcement Learning: Ключ к превосходству способности рассуждений R1

Supervised fine-tuning (SFT) позволяет модели извлекать знания из мощных моделей-учителей, достигая отличных возможностей.

Однако knowledge distillation по своей сути устанавливает предел производительности модели-ученика, особенно когда базовая возможность модели-ученика не превышает возможности модели-учителя.

Через supervised fine-tuning производительность LN-Ultra может приблизиться к DeepSeek-R1, но не может превзойти ее.

Крупномасштабное reinforcement learning (RL) является жизнеспособным методом, позволяющим модели-ученику превзойти модель-учителя, потому что оно позволяет модели постоянно исследовать новые возможности и самостоятельно учиться.

Из-за ограничений ресурсов исследователи применили RL рассуждений только к LN-Ultra, что привело к тому, что модель-ученик превзошла модель-учителя.

На протяжении всего процесса обучения reinforcement learning рассуждений точность LN-Ultra на наборе данных GPQA-Diamond улучшилась.

Training Process: Акцент на научном рассуждении

Для LN-Ultra исследователи улучшили ее способность научного рассуждения посредством крупномасштабного reinforcement learning (RL), используя алгоритм Grouped Relative Policy Optimization (GRPO), тот же, что и DeepSeek-R1.

Весь процесс обучения потребовал примерно 140 000 H100 часов, непрерывно обучая модель, пока она не сошлась в задачах рассуждения.

Конструкция механизма reward включала две категории:

  • Accuracy Reward: На основе стандартных ответов (numerical/sentence/paragraph) вызов модели Llama-3.3-70B-Instruct судит о степени соответствия результатов прогнозирования.
  • Format Reward: Следуя схеме DeepSeek-AI, модель вынуждена оборачивать процесс рассуждений тегами <think\> в режиме "detailed thinking", и появление таких тегов запрещено в режиме без detailed thinking.

Исследовательская группа также предварительно обработала данные, включая фильтрацию данных и curriculum training.

  • Data Screening: LN-Super используется заранее для генерации 8 ответов на каждый вопрос, и простые образцы с частотой прохождения ≥ 75% удаляются.
  • Curriculum Training: Принято прогрессивное распределение пакетов на основе частоты прохождения.

Dynamic Distribution: Моделирование сложности пакета с помощью гауссовой функции, первоначально сосредоточенной на образцах с высокой частотой прохождения (простые) и позже переходящей к образцам с низкой частотой прохождения (сложные).

Padding Logic: Образцы распределяются сначала в соответствии с целевым распределением, а оставшаяся емкость дополняется из самого большого оставшегося пула образцов.

Intra-Batch Processing: Образцы в одном пакете случайным образом перемешиваются для поддержания разнообразия.

Reinforcement Learning для оптимизации предпочтений

После завершения обучения научному рассуждению исследователи провели короткую фазу reinforcement learning для моделей LN-Super и LN-Ultra, сосредоточившись на улучшении их способностей следовать инструкциям.

Исследователи также использовали RLHF для оптимизации общих возможностей помощи и производительности чата моделей, сохраняя при этом возможности моделей в математике, науке и других областях.

LN-Super достиг высокого балла 88,3 в тесте Arena Hard, превзойдя собственные модели, такие как Claude 3.5 Sonnet и GPT-4o-2024-05-13, а также лучше, чем более крупные модели с открытым исходным кодом.

Чтобы добиться этого результата, они приняли метод "OnLine Reward-Policy Optimization", максимизируя reward прогнозирования модели на наборе данных HelpSteer2. reward model использовался Llama-3.1-Nemotron-70B-Reward.

Два раунда онлайн RPO training увеличили балл Arena Hard с 69,1 до 88,1.

Для LN-Ultra они использовали аналогичный процесс, но приняли GRPO.

Для LN-Nano они провели два раунда offline RPO training, используя данные обучения, сгенерированные политикой.

Первый раунд объединил данные рассуждений и нерассуждений с соответствующими системными подсказками для оптимизации способности управления рассуждениями модели. Второй раунд был сосредоточен на улучшении способностей следовать инструкциям.

Результаты оценки: Комплексная оценка

Исследователи оценили производительность всех моделей Llama-Nemotron по двум категориям benchmark: задачи рассуждения и задачи без рассуждений.

Benchmarks рассуждений включали: AIME24 и AIME25, GPQA-Diamond, LiveCodeBench и MATH500.

Benchmarks без рассуждений включали: IFEval для оценки следования инструкциям, BFCL V2 Live для оценки использования инструментов вызова функций и Arena-Hard для оценки соответствия предпочтениям человеческого разговора.

LN-Nano достиг отличной производительности во всех benchmarks рассуждений, несмотря на свой небольшой размер.

Это демонстрирует, что процессы supervised fine-tuning и хорошо курированные наборы данных рассуждений эффективны для передачи структурированных способностей рассуждений небольшим моделям.

LN-Super показал сильную конкурентоспособность как в задачах рассуждений, так и в задачах без рассуждений по сравнению с другими моделями аналогичного масштаба параметров.

В режиме "reasoning off" производительность LN-Super была сопоставима с производительностью ее distilled source model, Llama-3.3-70B; в режиме "reasoning on" она превзошла другие конкурирующие модели, такие как DeepSeek-R1-Distilled-Llama-70B, демонстрируя сильную способность рассуждений, сохраняя при этом хорошую способность следовать инструкциям.

Эти результаты показывают, что LN-Super - это универсальная модель, которая сочетает в себе преимущества моделей, оптимизированных для рассуждений, и моделей без рассуждений, что делает ее подходящей для повседневных задач помощника и структурированных задач рассуждения.

LN-Ultra работал на уровне или лучше, чем все существующие модели weight с открытым исходным кодом, в benchmarks рассуждений и без рассуждений. Он достиг самого продвинутого уровня в моделях с открытым исходным кодом на GPQA, полностью демонстрируя эффективность методов обучения крупномасштабному reinforcement learning исследователей Nvidia.

В отличие от DeepSeek-R1, для которого требуется аппаратная конфигурация 8×H200, LN-Ultra оптимизирован для эффективной работы на одном узле 8×H100, обеспечивая более высокую пропускную способность рассуждений и эффективность развертывания.

Фаза SFT LN-Ultra приблизилась или достигла производительности DeepSeek-R1 на нескольких benchmarks рассуждений (включая GPQA и AIME).

В дополнение к возможностям рассуждения и диалога, для которых модель была первоначально обучена, они также протестировали модель на задаче распределения.

В частности, модель была протестирована на наборе данных JudgeBench, требующем от нее различать высококачественные и низкокачественные ответы.

Новая модель превзошла текущие ведущие собственные и open-source models в этой задаче.

LN-Ultra стала самой эффективной моделью open-source, значительно превзойдя DeepSeek-R1, уступая только собственной модели o3-mini(high).

Кроме того, производительность LN-Super также превзошла o1-mini, что указывает на то, что новая модель обладает сильной способностью к обобщению в различных задачах.