Модели серии Llama-Nemotron от Nvidia официально превзошли DeepSeek-R1, и детали их обучения были полностью раскрыты, предлагая понимание того, как эти модели были разработаны для достижения превосходной производительности.
Эти модели теперь полностью с открытым исходным кодом, что знаменует собой значительный прогресс в доступной технологии AI. Это означает, что серия моделей вывода, которые значительно превосходят DeepSeek-R1 с точки зрения пропускной способности вывода и эффективности памяти, теперь доступны для любого, чтобы использовать и изменять.
Раскрытие секретов успеха модели
Итак, как именно были созданы эти модели, которые превосходят DeepSeek-R1? Технический отчет Nvidia раскрывает критические элементы их процесса обучения:
- Supervised Fine-Tuning с синтетическими данными + Reinforcement Learning: эта комбинация значительно улучшает возможности рассуждения модели.
- Комплексный процесс Post-Training: надежный и хорошо разработанный процесс post-training имеет решающее значение для оптимизации производительности модели.
В прошлом месяце Nvidia официально объявила о Llama-Nemotron 253B, которая быстро затмила Llama 4 (которой было всего три дня и столкнулась с "кризисом целостности" из-за манипулирования leaderboard). Выпуск этой серии моделей вызвал большой ажиотаж в отрасли.
Согласно индексу Artificial Analysis Intelligence, Llama-Nemotron-Ultra в настоящее время считается "самой интеллектуальной" моделью с открытым исходным кодом по состоянию на апрель 2025 года.
Nvidia запустила три модели в серии Llama-Nemotron: LN-Nano 8B, LN-Super 49B и LN-Ultra 253B.
Примечательно, что LN-Ultra не только превосходит DeepSeek-R1 по производительности, но и работает на одном узле 8xH100, обеспечивая более высокую пропускную способность вывода.
Эти модели оптимизированы для высокопроизводительного вывода, сохраняя при этом сильные возможности рассуждения и длину контекста до 128K.
Кроме того, Nvidia представила новаторскую функцию переключения вывода в глобальном AI сообществе с открытым исходным кодом. Пользователи могут динамически переключаться между стандартным режимом чата и режимом рассуждения, используя системную подсказку "detailed thinking on/off."
Эта конструкция позволяет модели удовлетворять общие повседневные потребности и обрабатывать сложные многоступенчатые задачи рассуждения без необходимости использования различных моделей или архитектур.
Процесс строительства: пятиэтапный подход
Конструкция моделей Llama-Nemotron разделена на пять различных этапов:
Этап 1: Оптимизация эффективности рассуждений с использованием neural architecture search (NAS) на основе моделей серии Llama 3, с внедрением Feedforward Network Fusion (FFN Fusion).
Этап 2: Восстановление производительности модели посредством knowledge distillation и continued pre-training.
Этап 3: Supervised fine-tuning (SFT), которая сочетает в себе стандартные данные инструкций с процессами рассуждений от мощных моделей-учителей, таких как DeepSeek-R1, позволяя модели выполнять многоступенчатые рассуждения.
Этап 4: Масштабное reinforcement learning на сложных математических и STEM наборах данных, что имеет решающее значение для того, чтобы модель-ученик превзошла возможности модели-учителя. Для LN-Ultra этот этап значительно улучшает производительность на benchmark GPQA-D, устанавливая его в качестве сильнейшей модели для научного рассуждения в области открытого исходного кода.
Чтобы поддержать такое масштабное обучение reinforcement learning, команда разработала новую структуру обучения с несколькими мерами оптимизации, наиболее важной из которых является поддержка возможности генерации точности FP8.
Этап 5: Краткое alignment training, ориентированное на следование инструкциям и соблюдение предпочтений человека.
Инновационная архитектура для оптимизированной эффективности вывода
LN-Super и LN-Ultra используют Puzzle framework для neural architecture search, чтобы оптимизировать эффективность вывода модели.
Puzzle преобразует большие языковые модели в hardware-adapted, эффективные версии, оптимизированные для развертывания.
Через "block-by-block local distillation," разработчики построили библиотеку альтернативных Transformer modules с использованием Llama 3 Instruct.
В этом процессе каждый модуль обучается независимо и параллельно, аппроксимируя функциональность исходного модуля при оптимизации вычислительной производительности.
Каждый альтернативный модуль имеет определенные компромиссы "precision-efficiency". Некоторые модули более эффективны, но могут привести к определенному снижению качества, создавая четкий компромисс между вычислительными затратами и точностью модели.
Эти вариации модулей включают:
Attention Mechanism Removal: Некоторые модули полностью опускают механизм внимания, уменьшая объем вычислений и потребление памяти KV cache.
Variable FFN Dimensions: Промежуточные размеры feedforward networks настраиваются, что позволяет сжимать модель с различной степенью детализации.
После создания библиотеки модулей Puzzle выбирает модуль из каждого слоя для сборки полной модели.
Этот процесс выбора контролируется mixed-integer programming (MIP) solver, который находит оптимальную конфигурацию на основе ограничений, таких как hardware compatibility, максимально допустимая задержка, бюджет памяти или желаемая пропускная способность вывода.
Vertical Compression и FFN Fusion
В модели LN-Ultra исследователи представили FFN Fusion (Feedforward Network Fusion), дополнительный метод сжатия для уменьшения глубины последовательности модели и улучшения эффективности задержки рассуждений.
Удаление Puzzle некоторых attention layers приводит к уникальной структуре: в структуре модели часто появляются несколько непрерывных FFN blocks.
FFN Fusion идентифицирует эти непрерывные структуры и заменяет их меньшим количеством, но более широкими, параллельно исполняемыми FFN layers.
Этот метод замены уменьшает количество шагов последовательного вычисления без жертвования выразительностью модели, значительно улучшая использование вычислительных ресурсов - особенно в много-GPU средах, где накладные расходы на межслойную связь значительны.
Модель LN-Ultra стабильно превосходит DeepSeek-R1 и Llama-3.1-405B с точки зрения точности и эффективности, достигая оптимального баланса.
Post-NAS Training: Knowledge Distillation и Continued Pre-training
После neural architecture search (NAS) фазы, как LN-Super, так и LN-Ultra прошли дополнительное обучение для улучшения совместимости между модулями и восстановления любой потери качества, которая могла произойти во время замены модуля.
- LN-Super был обучен на наборе данных Distillation Mix для 40 миллиардов tokens в соответствии с objective knowledge distillation.
- LN-Ultra был первоначально обучен на том же наборе данных distillation для 65 миллиардов tokens, а затем продолжил обучение на наборе данных pre-training Nemotron-H четвертой стадии для 88 миллиардов tokens.
Этот заключительный этап pre-training позволил LN-Ultra не только догнать reference model, Llama 3.1-405B-Instruct, но и превзойти ее в ключевых benchmark тестах.
Это показывает, что краткая distillation и pre-training могут обеспечить совместимость между агрессивной архитектурной оптимизацией и высокой производительностью модели.
Supervised Fine-Tuning: Улучшение мастерства рассуждений
Supervised Fine-Tuning (SFT) действует как "личный тренер" для моделей Llama-Nemotron, специально ориентируясь на этапы рассуждений для конкретных задач и изучая методы вывода от моделей "звездных учеников", таких как DeepSeek-R1.
Чтобы привить подлинные навыки рассуждения, необходимы крупномасштабные высококачественные данные для обучения рассуждению.
Synthetic Data: Создано для рассуждений
Исследователи тщательно курировали образцы данных, содержащие как рассуждения, так и нерассуждения данные для supervised fine-tuning.
Для образцов рассуждений они добавили "detailed thinking on" в системные инструкции, а для образцов без рассуждений они использовали "detailed thinking off."
Эта настройка позволяет модели переключать поведение рассуждений на основе подсказок во время фазы рассуждений.
Synthetic data для рассуждений был подготовлен в математике, кодировании и смежных областях.
Чтобы обучить модель следовать инструкциям "reasoning switch", исследователи создали парные наборы данных, где каждая подсказка соответствует ответу с рассуждениями и одному без рассуждений.
Это сопряжение позволяет модели научиться корректировать свое поведение рассуждений на основе системных инструкций.
Последующая фильтрация этих ответов выполняется на основе стандартных ответов или reward models.
Fine-Tuning Process
Все модели были обучены на данных fine-tuning инструкций с использованием token-level cross-entropy loss.
В большинстве настроек обучения данные рассуждений и нерассуждений смешиваются для формирования пакетов обучения, где каждая подсказка сопряжена с соответствующим ответом на основе системных инструкций "detailed thinking on/off."
Расширение обучения до нескольких раундов может улучшить производительность, особенно для небольших моделей.
NeMo-Aligner использовался для reinforcement learning training, поддерживая GRPO и обучение гетерогенных моделей.
vLLM использовался для этапа генерации, а Megatron-LM использовался для этапа обучения.
Этапы обучения и рассуждений использовали один и тот же пакет GPUs, завершенный на одном устройстве.
Весь процесс обучения использовал 72 узла, каждый из которых оснащен 8 H100 GPUs.
Этап генерации использовал точность FP8, этап обучения использовал точность BF16, а optimizer state использовал FP32.
Каждый этап поддерживал независимый model weight, который синхронизировался в начале каждого шага.
Reinforcement Learning: Ключ к превосходству способности рассуждений R1
Supervised fine-tuning (SFT) позволяет модели извлекать знания из мощных моделей-учителей, достигая отличных возможностей.
Однако knowledge distillation по своей сути устанавливает предел производительности модели-ученика, особенно когда базовая возможность модели-ученика не превышает возможности модели-учителя.
Через supervised fine-tuning производительность LN-Ultra может приблизиться к DeepSeek-R1, но не может превзойти ее.
Крупномасштабное reinforcement learning (RL) является жизнеспособным методом, позволяющим модели-ученику превзойти модель-учителя, потому что оно позволяет модели постоянно исследовать новые возможности и самостоятельно учиться.
Из-за ограничений ресурсов исследователи применили RL рассуждений только к LN-Ultra, что привело к тому, что модель-ученик превзошла модель-учителя.
На протяжении всего процесса обучения reinforcement learning рассуждений точность LN-Ultra на наборе данных GPQA-Diamond улучшилась.
Training Process: Акцент на научном рассуждении
Для LN-Ultra исследователи улучшили ее способность научного рассуждения посредством крупномасштабного reinforcement learning (RL), используя алгоритм Grouped Relative Policy Optimization (GRPO), тот же, что и DeepSeek-R1.
Весь процесс обучения потребовал примерно 140 000 H100 часов, непрерывно обучая модель, пока она не сошлась в задачах рассуждения.
Конструкция механизма reward включала две категории:
- Accuracy Reward: На основе стандартных ответов (numerical/sentence/paragraph) вызов модели Llama-3.3-70B-Instruct судит о степени соответствия результатов прогнозирования.
- Format Reward: Следуя схеме DeepSeek-AI, модель вынуждена оборачивать процесс рассуждений тегами <think\> в режиме "detailed thinking", и появление таких тегов запрещено в режиме без detailed thinking.
Исследовательская группа также предварительно обработала данные, включая фильтрацию данных и curriculum training.
- Data Screening: LN-Super используется заранее для генерации 8 ответов на каждый вопрос, и простые образцы с частотой прохождения ≥ 75% удаляются.
- Curriculum Training: Принято прогрессивное распределение пакетов на основе частоты прохождения.
Dynamic Distribution: Моделирование сложности пакета с помощью гауссовой функции, первоначально сосредоточенной на образцах с высокой частотой прохождения (простые) и позже переходящей к образцам с низкой частотой прохождения (сложные).
Padding Logic: Образцы распределяются сначала в соответствии с целевым распределением, а оставшаяся емкость дополняется из самого большого оставшегося пула образцов.
Intra-Batch Processing: Образцы в одном пакете случайным образом перемешиваются для поддержания разнообразия.
Reinforcement Learning для оптимизации предпочтений
После завершения обучения научному рассуждению исследователи провели короткую фазу reinforcement learning для моделей LN-Super и LN-Ultra, сосредоточившись на улучшении их способностей следовать инструкциям.
Исследователи также использовали RLHF для оптимизации общих возможностей помощи и производительности чата моделей, сохраняя при этом возможности моделей в математике, науке и других областях.
LN-Super достиг высокого балла 88,3 в тесте Arena Hard, превзойдя собственные модели, такие как Claude 3.5 Sonnet и GPT-4o-2024-05-13, а также лучше, чем более крупные модели с открытым исходным кодом.
Чтобы добиться этого результата, они приняли метод "OnLine Reward-Policy Optimization", максимизируя reward прогнозирования модели на наборе данных HelpSteer2. reward model использовался Llama-3.1-Nemotron-70B-Reward.
Два раунда онлайн RPO training увеличили балл Arena Hard с 69,1 до 88,1.
Для LN-Ultra они использовали аналогичный процесс, но приняли GRPO.
Для LN-Nano они провели два раунда offline RPO training, используя данные обучения, сгенерированные политикой.
Первый раунд объединил данные рассуждений и нерассуждений с соответствующими системными подсказками для оптимизации способности управления рассуждениями модели. Второй раунд был сосредоточен на улучшении способностей следовать инструкциям.
Результаты оценки: Комплексная оценка
Исследователи оценили производительность всех моделей Llama-Nemotron по двум категориям benchmark: задачи рассуждения и задачи без рассуждений.
Benchmarks рассуждений включали: AIME24 и AIME25, GPQA-Diamond, LiveCodeBench и MATH500.
Benchmarks без рассуждений включали: IFEval для оценки следования инструкциям, BFCL V2 Live для оценки использования инструментов вызова функций и Arena-Hard для оценки соответствия предпочтениям человеческого разговора.
LN-Nano достиг отличной производительности во всех benchmarks рассуждений, несмотря на свой небольшой размер.
Это демонстрирует, что процессы supervised fine-tuning и хорошо курированные наборы данных рассуждений эффективны для передачи структурированных способностей рассуждений небольшим моделям.
LN-Super показал сильную конкурентоспособность как в задачах рассуждений, так и в задачах без рассуждений по сравнению с другими моделями аналогичного масштаба параметров.
В режиме "reasoning off" производительность LN-Super была сопоставима с производительностью ее distilled source model, Llama-3.3-70B; в режиме "reasoning on" она превзошла другие конкурирующие модели, такие как DeepSeek-R1-Distilled-Llama-70B, демонстрируя сильную способность рассуждений, сохраняя при этом хорошую способность следовать инструкциям.
Эти результаты показывают, что LN-Super - это универсальная модель, которая сочетает в себе преимущества моделей, оптимизированных для рассуждений, и моделей без рассуждений, что делает ее подходящей для повседневных задач помощника и структурированных задач рассуждения.
LN-Ultra работал на уровне или лучше, чем все существующие модели weight с открытым исходным кодом, в benchmarks рассуждений и без рассуждений. Он достиг самого продвинутого уровня в моделях с открытым исходным кодом на GPQA, полностью демонстрируя эффективность методов обучения крупномасштабному reinforcement learning исследователей Nvidia.
В отличие от DeepSeek-R1, для которого требуется аппаратная конфигурация 8×H200, LN-Ultra оптимизирован для эффективной работы на одном узле 8×H100, обеспечивая более высокую пропускную способность рассуждений и эффективность развертывания.
Фаза SFT LN-Ultra приблизилась или достигла производительности DeepSeek-R1 на нескольких benchmarks рассуждений (включая GPQA и AIME).
В дополнение к возможностям рассуждения и диалога, для которых модель была первоначально обучена, они также протестировали модель на задаче распределения.
В частности, модель была протестирована на наборе данных JudgeBench, требующем от нее различать высококачественные и низкокачественные ответы.
Новая модель превзошла текущие ведущие собственные и open-source models в этой задаче.
LN-Ultra стала самой эффективной моделью open-source, значительно превзойдя DeepSeek-R1, уступая только собственной модели o3-mini(high).
Кроме того, производительность LN-Super также превзошла o1-mini, что указывает на то, что новая модель обладает сильной способностью к обобщению в различных задачах.