Разкриване на тайните зад успеха на модела
Как точно бяха създадени тези модели, които превъзхождат DeepSeek-R1? Техническият доклад на Nvidia разкрива критичните елементи на техния тренировъчен процес:
- Supervised Fine-Tuning със синтетични данни + Reinforcement Learning: Тази комбинация значително подобрява възможностите на модела за разсъждение.
- Comprehensive Post-Training Process: Здравият и добре проектиран процес след обучение е от решаващо значение за оптимизиране на производителността на модела.
Миналия месец Nvidia официално обяви Llama-Nemotron 253B, който бързо засенчи Llama 4 (който беше само на три дни и беше изправен пред „криза на почтеността“ поради манипулиране на класацията). Пускането на тази серия от модели предизвика доста вълнение в индустрията.
Според Artificial Analysis Intelligence Index, Llama-Nemotron-Ultra в момента се счита за „най-интелигентния“ модел с отворен код към април 2025 г.
Nvidia пусна три модела от серията Llama-Nemotron: LN-Nano 8B, LN-Super 49B и LN-Ultra 253B.
По-специално, LN-Ultra не само надминава DeepSeek-R1 в производителността, но също така работи на един възел 8xH100, осигурявайки по-висока пропускателна способност на изводите.
Тези модели са оптимизирани за висока пропускателна способност на изводите, като същевременно поддържат силни възможности за разсъждение и дължина на контекста до 128K.
Освен това, Nvidia въведе новаторска функция за превключване на изводите в глобалната общност с отворен код за изкуствен интелект. Потребителите могат динамично да превключват между стандартен режим на чат и режим на разсъждение, използвайки системния подкана "detailed thinking on/off."
Този дизайн позволява на модела да отговори на общите ежедневни нужди и да се справи със сложни задачи за разсъждение в много стъпки, без да са необходими различни модели или архитектури.
Процесът на конструиране: Петстъпков подход
Конструирането на моделите Llama-Nemotron е разделено на пет отделни етапа:
Етап 1: Оптимизиране на ефективността на разсъжденията с помощта на neural architecture search (NAS) въз основа на моделите от серията Llama 3, с въвеждането на Feedforward Network Fusion (FFN Fusion).
Етап 2: Възстановяване на производителността на модела чрез knowledge distillation и продължаващо предварително обучение.
Етап 3: Supervised fine-tuning (SFT), което комбинира стандартни данни за инструкции с процеси на разсъждение от мощни teacher models като DeepSeek-R1, което позволява на модела да извършва многостъпкови разсъждения.
Етап 4: Мащабно reinforcement learning върху сложни математически и STEM набори от данни, което е от решаващо значение за ученическия модел да надмине възможностите на teacher model. За LN-Ultra този етап значително подобрява производителността на бенчмарка GPQA-D, утвърждавайки го като най-силния модел за научно разсъждение в областта на отворения код.
За да подкрепи такова мащабно обучение с reinforcement learning, екипът разработи нова рамка за обучение с множество мерки за оптимизация, най-важното е подкрепата на FP8 precision generation capability.
Етап 5: Кратко alignment training, фокусирано върху следване на инструкции и придържане към човешките предпочитания.
Иновативна архитектура за оптимизирана ефективност на изводите
LN-Super и LN-Ultra използват рамката Puzzle за neural architecture search, за да оптимизират ефективността на изводите на модела.
Puzzle превръща големитеезикови модели в хардуерно адаптирани, ефективни версии, оптимизирани за внедряване.
Чрез "block-by-block local distillation," разработчиците изградиха библиотека от алтернативни Transformer modules, използвайки Llama 3 Instruct.
В този процес всеки модул се обучава независимо и паралелно, приближавайки функционалността на оригиналния модул, като същевременно оптимизира изчислителната производителност.
Всеки алтернативен модул има специфични компромиси между "precision-efficiency". Някои модули са по-ефективни, но могат да доведат до определен спад на качеството, създавайки ясен компромис между изчислителните разходи и точността на модела.
Тези варианти на модули включват:
Attention Mechanism Removal: Някои модули напълно пропускат механизма за внимание, намалявайки количеството на изчисленията и консумацията на памет на KV cache.
Variable FFN Dimensions: Междинните размери на feedforward networks се регулират, което позволява компресия на модела при различни гранули.
След изграждането на библиотеката с модули, Puzzle избира модул от всеки слой, за да сглоби цялостен модел.
Този процес на подбор се контролира от mixed-integer programming (MIP) solver, който намира оптималната конфигурация въз основа на ограничения като хардуерна съвместимост, максимално допустимо забавяне, бюджет за памет или желана пропускателна способност на изводите.
Vertical Compression и FFN Fusion
В модела LN-Ultra изследователите въведоха FFN Fusion (Feedforward Network Fusion), допълнителна техника за компресия за намаляване на дълбочината на последователността на модела и подобряване на ефективността на латентността на разсъжденията.
Премахването на някои attention layers от Puzzle води до уникална структура: множество непрекъснати FFN blocks често се появяват в структурата на модела.
FFN Fusion идентифицира тези непрекъснати структури и ги заменя с по-малко, но по-широки, паралелно изпълними FFN layers.
Този метод на замяна намалява стъпките на последователно изчисление без да жертва изразителността на модела, значително подобрявайки използването на изчислителните ресурси - особено в multi-GPU среди, където режийните разходи за комуникация между слоевете са значителни.
Моделът LN-Ultra последователно надминава DeepSeek-R1 и Llama-3.1-405B по отношение на точност и ефективност, постигайки оптимален баланс.
Post-NAS Training: Knowledge Distillation и Continued Pre-training
След фазата на neural architecture search (NAS), LN-Super и LN-Ultra преминаха допълнително обучение, за да подобрят съвместимостта между модулите и да възстановят всяка загуба на качество, която може да е настъпила по време на замяната на модули.
- LN-Super беше обучен върху набора от данни Distillation Mix за 40 милиарда токена при целта за knowledge distillation.
- LN-Ultra първоначално беше обучен върху същия набор от данни за distillation за 65 милиарда токена, последвано от продължаващо обучение върху набора от данни за предварително обучение Nemotron-H четвърти етап за 88 милиарда токена.
Тази последна стъпка на предварително обучение позволи на LN-Ultra не само да настигне референтния модел, Llama 3.1-405B-Instruct, но и да го надмине в ключови benchmark тестове.
Това показва, че кратката distillation и предварителното обучение могат да постигнат съвместимост между агресивната архитектурна оптимизация и високата производителност на модела.
Supervised Fine-Tuning: Refining Reasoning Prowess
Supervised Fine-Tuning (SFT) действа като "personal trainer" за моделите Llama-Nemotron, специално насочени към стъпките на разсъждение за конкретни задачи и изучаване на техники за изводи от "star student" модели като DeepSeek-R1.
За да се внушат истински умения за разсъждение, са от съществено значение мащабни, висококачествени данни за обучение за разсъждение.
###Синтетични данни: Създадени за разсъждение
Изследователите внимателно подбраха проби от данни, съдържащи както reasoning, така и non-reasoning данни за supervised fine-tuning.
За reasoning samples те добавиха "detailed thinking on" към инструкциите на системата, докато за non-reasoning samples те използваха "detailed thinking off."
Тази настройка позволява на модела да превключва поведението на разсъждение въз основа на prompts по време на фазата на разсъждение.
Синтетични данни за разсъждение бяха подготвени в математиката, програмирането и свързаните с тях области.
За да обучат модела да следва инструкциите "reasoning switch", изследователите изградиха paired datasets, където всеки prompt съответства на отговор с разсъждение и един без разсъждение.
Това pairing позволява на модела да се научи да коригира поведението си на разсъждение въз основа на инструкциите на системата.
Последващото филтриране на тези отговори се извършва въз основа на стандартни отговори или reward models.
Fine-Tuning Process
Всички модели бяха обучени върху instruction fine-tuning data, използвайки token-level cross-entropy loss.
В повечето настройки за обучение reasoning и non-reasoning data се смесват, за да образуват training batches, където всеки prompt е paired със съответния отговор въз основа на системните инструкции "detailed thinking on/off."
Разширяването на обучението до множество рундове може да подобри производителността, особено за по-малки модели.
NeMo-Aligner беше използван за reinforcement learning training, поддържащ GRPO и обучение на хетерогенни модели.
vLLM беше използван за generation phase, а Megatron-LM беше използван за training phase.
Training и reasoning phases споделят един и същ batch от GPUs, завършен на едно и също устройство.
Целият тренировъчен процес използва 72 nodes, всеки оборудван с 8 H100 GPUs.
Generation phase използва FP8 precision, training phase използва BF16 precision, а optimizer state използва FP32.
Всяка фаза поддържаше independent model weight, което беше синхронизирано в началото на всяка стъпка.
Reinforcement Learning: Ключът към надминаването на способността за разсъждение на R1
Supervised fine-tuning (SFT) позволява на модела да извлича знания от мощни teacher models, постигайки отлични възможности.
Обаче, knowledge distillation по същество поставя ограничение върху производителността на ученическия модел, особено когато базовата възможност на модела на ученика не надвишава тази на teacher model.
Чрез supervised fine-tuning, производителността на LN-Ultra може да се приближи до DeepSeek-R1, но не може да го надмине.
Мащабното reinforcement learning (RL) е жизнеспособен метод, който позволява на ученическия модел да надмине teacher model, защото позволява на модела непрекъснато да изследва нови възможности и да се самообучава.
Поради ограничения в ресурсите, изследователите приложиха reasoning RL само към LN-Ultra, което доведе до ученически модел, който надмина teacher model.
През целия процес на обучение с reasoning reinforcement learning, точността на LN-Ultra върху набора от данни GPQA-Diamond се подобри.
Training Process: Фокус върху научното разсъждение
За LN-Ultra изследователите подобриха способността му за научно разсъждение чрез мащабно reinforcement learning (RL), използвайки алгоритъма Grouped Relative Policy Optimization (GRPO), същият, използван от DeepSeek-R1.
Целият тренировъчен процес изискваше приблизително 140,000 H100 hours, непрекъснато обучение на модела, докато не се сближи върху задачите за разсъждение.
Механизмът за награда включваше две категории:
- Accuracy Reward: Въз основа на стандартните отговори (числени/изречение/параграф), извикването на модела Llama-3.3-70B-Instruct преценява степента на съвпадение на резултатите от прогнозите.
- Format Reward: Следвайки схемата на DeepSeek-AI, моделът е принуден да обвива процеса на разсъждение с <think\> tags в режим "detailed thinking", а появата на такива tags е забранена в non-detailed thinking mode.
Изследователският екип също така предварително обработи данните, включително филтриране на данни и curriculum training.
- Data Screening: LN-Super се използва предварително, за да генерира 8 отговора за всеки въпрос, а simple samples с pass rate ≥ 75% се премахват.
- Curriculum Training: Приема се прогресивно разпределение на batches въз основа на pass rate.
Dynamic Distribution: Моделиране на трудността на batches с Gaussian function, първоначално фокусирано върху high-pass-rate (simple) samples и по-късно преминаване към low-pass-rate (difficult) samples.
Padding Logic: Samples се разпределят първо според целевото разпределение, а оставащият капацитет се допълва от най-големия оставащ sample pool.
Intra-Batch Processing: Samples в един и същ batch се размесват на случаен принцип, за да се поддържа разнообразие.
Reinforcement Learning за оптимизиране на предпочитанията
След завършване на scientific reasoning training, изследователите проведоха кратка фаза на reinforcement learning за моделите LN-Super и LN-Ultra, като се фокусираха върху подобряване на техните instruction-following abilities.
Изследователите също така използваха RLHF, за да оптимизират общите help capabilities и чат производителност на моделите, като същевременно запазиха способностите на моделите в математиката, науката и други области.
LN-Super постигна висок резултат от 88.3 в теста Arena Hard, надминавайки собствени модели като Claude 3.5 Sonnet и GPT-4o-2024-05-13, и също така по-добър от по-големи модели с отворен код.
За да постигнат този резултат, те приеха метода "OnLine Reward-Policy Optimization", максимизирайки наградата за прогнозиране на модела върху набора от данни HelpSteer2. Reward model, използван беше Llama-3.1-Nemotron-70B-Reward.
Два рунда на online RPO training увеличиха резултата Arena Hard от 69.1 на 88.1.
За LN-Ultra те използваха подобен процес, но приеха GRPO.
За LN-Nano те проведоха два рунда на offline RPO training, използвайки policy-generated training data.
Първият рунд комбинира reasoning и non-reasoning data с подходящи системни prompts, за да оптимизира способността на модела за reasoning control. Вторият рунд се фокусира върху подобряване на instruction-following abilities.
Evaluation Results: Изчерпателна оценка
Изследователите оцениха производителността на всички модели Llama-Nemotron в две категории benchmark: reasoning tasks и non-reasoning tasks.
Reasoning benchmarks включваха: AIME24 и AIME25, GPQA-Diamond, LiveCodeBench и MATH500.
Non-reasoning benchmarks включваха: IFEval за instruction following evaluation, BFCL V2 Live за function call tool usage evaluation и Arena-Hard за оценка на alignment с човешки conversational preferences.
LN-Nano постигна отлична производителност във всички reasoning benchmarks, въпреки малкия си размер.
Това демонстрира, че supervised fine-tuning processes и добре подбрани reasoning datasets са ефективни при прехвърлянето на structured reasoning abilities към по-малки модели.
LN-Super показа силна конкурентоспособност както в reasoning, така и в non-reasoning tasks, в сравнение с други модели с подобен параметричен мащаб.
В режим "reasoning off", производителността на LN-Super беше сравнима с неговия distilled source model, Llama-3.3-70B; в режим "reasoning on", той надмина други конкуриращи се модели, като DeepSeek-R1-Distilled-Llama-70B, демонстрирайки силна reasoning ability, като същевременно поддържа добра instruction-following ability.
Тези резултати показват, че LN-Super е versatile model, който комбинира предимствата на reasoning-optimized models и non-reasoning models, което го прави подходящ за ежедневни assistant tasks и structured reasoning tasks.
LN-Ultra се представи наравно или по-добре от всички съществуващи open-source weight models в reasoning и non-reasoning benchmarks. Той постигна най-напредналото ниво в open-source models на GPQA, демонстрирайки напълно ефективността на мащабните reinforcement learning training methods на изследователите на Nvidia.
За разлика от DeepSeek-R1, който изисква хардуерна конфигурация 8×H200, LN-Ultra е оптимизиран да работи ефективно на single 8×H100 node, осигурявайки по-висока reasoning throughput и deployment efficiency.
SFT phase на LN-Ultra се е приближила или е достигнала производителността на DeepSeek-R1 на множество reasoning benchmarks (включително GPQA и AIME).
В допълнение към reasoning и dialogue capabilities, за които моделът първоначално е обучен, те също така тестваха модела на distribution task.
По-конкретно, моделът беше тестван върху набора от данни JudgeBench, което изисква от него да разграничава между high-quality и low-quality answers.
Новият модел надмина настоящите водещи собствени и open-source модели на тази задача.
LN-Ultra стана best-performing open-source model, значително надминавайки DeepSeek-R1, на второ място след proprietary model o3-mini(high).
В допълнение, производителността на LN-Super също надмина o1-mini, което показва, че новият модел има силна generalization ability в различни задачи.