Търсенето на изкуствен интелект, който наистина може да разсъждава, отдавна е централен стремеж в тази област. Първите вълнения около модела “o1” на OpenAI предизвикаха широк интерес към използването на широкомащабни техники за подсилващо обучение (RL) за изграждане на системи, способни на сложно разсъждение. След това решението на DeepSeek-R1 да пусне модела си като с отворен код подхрани допълнителен ентусиазъм и даде възможност на AI общността енергично да преследва развитието на авангардни модели за разсъждение.
Този първоначален изблик на активност обаче бързо беше смекчен от значителна пречка. Критични технически подробности, жизненоважни за успешното повторение – по-специално, прецизните стратегии, използвани за подбор на данни и сложните рецепти, ръководещи RL обучението – очевидно липсваха в оригиналния доклад на DeepSeek-R1. Това пропусне остави изследователите в състояние на значително разочарование, борещи се с предизвикателството да пресъздадат съобщените успехи. Последицата беше донякъде фрагментиран пейзаж на изследвания, с множество независими усилия за проучване на различни размери на моделите, различни първоначални контролни точки и разнообразна гама от целеви домейни. Въпреки тази интензивна активност, всеобхватна и последователно ефективна рецепта за обучение остана неуловима.
Традиционните подходи за обучение на езикови модели за разсъждение са концентрирани главно в математиката и компютърния код. Тези методологии обикновено разчитат на комбинация от предварително обучение върху големи набори от данни и контролирано фино настройване за специализиране на моделите за тези конкретни задачи. Ранните опити за включване на подсилващо обучение в този процес, обикновено чрез използване на специфични за домейна модели за възнаграждение, дадоха само ограничени печалби. Това произтича от присъщите предизвикателства, свързани с математическите и кодиращите задачи, където фините грешки могат да доведат до драстично неправилни резултати.
По-скорошни изследвания, стимулирани от пускането на DeepSeek-R1, проучиха използването на базирани на правила методи за проверка. В областта на математиката тези методи често включват изискване на специфични формати на изходните данни, които позволяват прецизна и автоматизирана проверка на решението. По същия начин, в контекста на кода, изследователите са използвали присъщите механизми за обратна връзка на компилацията и изпълнението, за да ръководят процеса на обучение. Тези подходи обаче обикновено са тясно фокусирани върху отделни домейни, като им липсва способността ефективно да обработват хетерогенни подкани, които смесват математически и програмни проблеми. Освен това, оценките често са били ограничени до специфични бенчмаркове като AIME и LiveCodeBench, ограничавайки обобщаемостта на констатациите. И накрая, нестабилността на обучението продължава да бъде постоянен проблем, често налагащ използването на сложни техники като прогресивно увеличаване на дължината на отговорите и смекчаване на колапса на ентропията.
Сега изследователи от NVIDIA променят играта, тъй като демонстрират значителния потенциал на широкомащабното подсилващо обучение за драстично подобряване на възможностите за разсъждение на сравнително малки и средни модели. Техните методи постигат нива на производителност, които надминават най-съвременните подходи, базирани на техники за дестилация. Подходът NVIDIA използва последователна стратегия за обучение: първо, извършване на RL обучение изключително върху подкани, свързани с математиката, и впоследствие превключване към подкани, фокусирани единствено върху кода.
Последователен метод за подобрено разсъждение
Резултатите? Първоначалното RL обучение по математически задачи не само драстично подобрява производителността на математическите бенчмаркове, но, изненадващо, генерира и значително увеличение на възможностите за разсъждение при кодиране. Освен това разширените итерации на RL обучение, фокусирани специално върху кода, допълнително увеличават производителността на кода само с минимално влошаване на математическата производителност. Този подход подчертава една важна точка: математическото обучение може да действа като силна основа за по-сложни задачи за разсъждение като кодиране.
Неразделна част от успеха на подхода NVIDIA е стабилен канал за подбор на данни. Този канал е щателно проектиран да събира сложни подкани, характеризиращи се както с висока трудност, така и с наличието на висококачествени, проверими отговори и тестови случаи. Това позволява ефективно прилагане на RL, базирано на проверка, както в математическите, така и в кодиращите домейни.
Подбор на данни за математика и код
Методологията за подбор на данни, използвана от изследователите на NVIDIA, внимателно разграничава изискванията за RL само за математика и RL само за код.
RL само за математика: Създаването на данни за обучение за RL само за математика включва обединяване на данни от наборите от данни DeepScaler и NuminaMath. Тези набори от данни обхващат широк спектър от математически теми, включително алгебра, комбинаторика, теория на числата и геометрия. За да се поддържа целостта на данните, се прилага строг процес на филтриране, като се използва 9-грамов филтър за премахване на излишно или неподходящо съдържание и се прилагат строги правила за изключване за елиминиране на потенциално проблематични записи. След това моделът DeepSeek-R1 играе решаваща роля във валидирането на качеството на въпросите. Всеки въпрос се подлага на осем независими опита от модела и само тези решения, които получават мнозинство от гласовете за коректност чрез проверка, базирана на правила, се запазват за включване в окончателния набор от данни.
RL само за код: Наборът от данни за RL само за код е конструиран с помощта на данни, получени от съвременни платформи за състезателно програмиране. Тези платформи предоставят богат източник на проблеми с кодирането, обхващащи разнообразен набор от алгоритмични теми. Проблемите са форматирани, за да се приведат в съответствие с конвенциите за извикване на функции и стандартен вход/изход (stdin/stdout), които обикновено се използват в тези среди. Изследователите предприемат щателен процес на филтриране, за да елиминират несъвместими проблеми и щателно подбират изчерпателни тестови случаи, предназначени да покрият гранични случаи и гранични условия. Освен това на всеки проблем се присвоява резултат за трудност, определен чрез оценка от модела DeepSeek-R1-671B. Този строг процес води до висококачествен набор от данни, състоящ се от 8 520 проверени проблема с кодирането.
AceReason-Nemotron: Резултати и бенчмаркове
Резултатите от изследването на NVIDIA са убедителни. Моделът AceReason-Nemotron-7B постига значителни подобрения в точността от 14,5% и 14,6% в трудните състезания AIME 2024 и 2025, съответно, в сравнение с първоначалните SFT модели. Освен това, той демонстрира значителни печалби от 14,2% и 8% на бенчмарковете LiveCodeBench v5 и v6, съответно. По-големият 14B вариант на модела демонстрира още по-голяма производителност, надминавайки по-големи модели като DeepSeek-R1-Distill-Qwen-32B и DeepSeek-R1-Distill-Llama-70B. Това постига най-добри в класа резултати сред отворените RL-базирани модели за разсъждение.
В сравнение с авангардните модели, базирани на дестилация, AceReason-Nemotron-14B надминава OpenMath-14B/32B с 2,1%/4,4% на AIME бенчмарковете и OpenCodeReasoning-14B с 1,7%/0,8% на LiveCodeBench. Това убедително демонстрира, че RL може да постигне по-високи горни граници на производителност от подходите за дестилация, като същевременно поддържа конкурентна производителност спрямо усъвършенствани модели като QWQ-32B и o3-mini.
Последиците от тези резултати са значителни. Те предполагат, че широкомащабният RL има потенциала да отключи нови нива на възможности за разсъждение в AI моделите, надминавайки ограниченията на традиционните подходи. Последователната специфична за домейна стратегия за обучение, комбинирана със стабилен канал за подбор на данни, предоставя план за бъдещи изследвания в тази област.
Подсилващото обучение засилва границите на разсъждението
Това изследване подчертава значителния потенциал на подсилващото обучение да разшири границите на възможностите за разсъждение на моделите. Чрез стратегическо използване на специфично за домейна обучение и щателно подбиране на висококачествени данни, това позволява на AI моделите да решават проблеми, които преди това са били неразрешими, и установява нови бенчмаркове за развитието на модели за разсъждение и в крайна сметка води до ново поколение AI системи, способни да се справят с предизвикателствата на реалния свят с безпрецедентна точност и ефикасност. Способността за ефективно разсъждение е крайъгълен камък на интелигентността и напредъкът, постигнат от NVIDIA, представлява голяма стъпка към реализиране на пълния потенциал на изкуствения интелект. Бъдещите изследвания вероятно ще се фокусират върху мащабирането на тези техники до още по-големи модели и проучване на нови стратегии за подбор на данни за допълнително подобряване на производителността на разсъждението. Разработването на по-усъвършенствани функции за възнаграждение и стратегии за проучване също ще бъде от решаващо значение за преодоляване на предизвикателствата, свързани с обучението на AI модели за сложни задачи за разсъждение. В крайна сметка, целта е да се създадат AI системи, които могат да разсъждават, да учат и да се адаптират по начин, подобен на хората, което им позволява да решават сложни проблеми и да вземат информирани решения в широк кръг от домейни.
Освен това, използването на RL предлага предимства отвъд обикновената точност. RL агентите могат да се научат да оптимизират за различни цели, като ефективност, устойчивост и интерпретирумост. Например, RL агент може да бъде обучен да генерира код, който е не само правилен, но и ефективен и лесен за разбиране. Тази способност е особено важна в критични за безопасността приложения, където е от съществено значение да се гарантира, че AI системите са надеждни и предвидими.
Работата на NVIDIA подчертава нарастващото значение на подбора на данни в AI изследванията. Качеството на данните за обучение оказва значително влияние върху производителността на AI моделите и внимателно подбраните набори от данни са от съществено значение за постигане на най-съвременни резултати. Каналът за подбор на данни, разработен от NVIDIA, е ценен ресурс за изследователи, работещи по модели за разсъждение, и може да бъде адаптиран за използване и в други домейни.
Комбинацията от широкомащабен RL, специфично за домейна обучение и стабилен подбор на данни се оказа успешна формула за подобряване на възможностите за разсъждение на AI моделите. Тъй като тези техники продължават да се развиват, можем да очакваме да видим още по-впечатляващ напредък в областта на AI и се надяваме да видим постоянен напредък на AI моделите в близко бъдеще.