Tencent: Hunyuan-T1 - новый рубеж ИИ на базе Mamba

Эволюционирующий ландшафт оптимизации больших языковых моделей

Арена искусственного интеллекта переживает смену парадигмы, особенно на этапах доработки после первоначального обучения больших языковых моделей (LLM). Обучение с подкреплением (RL), сложная техника, при которой модели учатся методом проб и ошибок, руководствуясь вознаграждениями, стало мощной силой, обеспечивающей значительный прирост производительности. Этот подход превратился из академического любопытства в краеугольную стратегию для ведущих разработчиков ИИ. Впечатляющие возможности, продемонстрированные такими моделями, как O-series от OpenAI и примечательная DeepSeek R1, служат убедительным доказательством, подчеркивая ключевую функцию обучения с подкреплением в оттачивании выходных данных модели, улучшении навыков решения проблем и более тесном согласовании поведения ИИ с человеческими ожиданиями и предпочтениями. Этот этап пост-обучения больше не сводится к простой тонкой настройке; речь идет о фундаментальном улучшении когнитивных способностей модели.

Представляем Hunyuan-T1: скачок в возможностях глубокого мышления

На фоне этого быстрого прогресса команда Hunyuan из Tencent достигла значительной вехи. Ранее в этом году, в середине февраля, команда представила предварительный обзор своего прогресса с Hunyuan T1-Preview (Hunyuan-Thinker-1-Preview). Интегрированная в приложение Tencent Yuanbao, эта первоначальная модель рассуждений, построенная на базе среднемасштабной основы Hunyuan, дала пользователям возможность ощутить быстрые и глубокие аналитические возможности.

Опираясь на этот фундамент, мы с гордостью объявляем об официальном запуске Hunyuan-T1, полностью реализованной версии модели глубокого мышления в семействе больших моделей Hunyuan. Это не просто инкрементальное обновление; оно представляет собой существенную эволюцию. Hunyuan-T1 использует TurboS, базу быстрого мышления, новаторскую архитектуру, представленную Tencent в начале марта. Что делает TurboS особенно примечательным, так это его отличие как первой в мире сверхкрупномасштабной большой модели Hybrid-Transformer-Mamba Mixture of Experts (MoE). Эта инновационная гибридная структура сочетает в себе сильные стороны устоявшихся архитектур Transformer с эффективностью и мастерством обработки последовательностей новой модели пространства состояний Mamba. Благодаря обширному и тщательно разработанному режиму пост-обучения, способности Hunyuan-T1 к рассуждению были значительно усилены, а ее согласованность с тонкими человеческими предпочтениями была существенно улучшена. По сравнению со своим предшественником в предварительной версии, официальная Hunyuan-T1 демонстрирует заметные улучшения по всем направлениям, позиционируя себя как грозного конкурента среди передовых, высокопроизводительных больших моделей отрасли.

Архитектурные преимущества: мощь TurboS и Mamba

Выбор TurboS в качестве основы для Hunyuan-T1 дает явные преимущества, особенно при решении задач, требующих глубоких, многоэтапных рассуждений. Критическое узкое место во многих больших языковых моделях возникает при работе с обширными документами или длительными беседами. Информация, представленная на раннем этапе, может размыться или полностью потеряться по мере обработки моделью последующего текста, что приводит к так называемой потере контекста. Кроме того, установление связей между точками, разделенными большими участками текста – зависимость от информации на больших расстояниях – представляет собой серьезную вычислительную проблему.

Архитектура, лежащая в основе Hunyuan-T1, унаследованная от TurboS, напрямую решает эти ограничения. Ее внутренняя конструкция отдает приоритет надежному захвату длинного текста, гарантируя, что модель сохраняет более твердое понимание всего входного материала, тем самым смягчая потерю контекста и более надежно выявляя критические взаимосвязи в расширенных последовательностях. Эта возможность имеет решающее значение для сложных задач рассуждения, которые часто требуют синтеза информации, разбросанной по большому корпусу текста.

Центральное место в этой расширенной возможности занимает компонент архитектуры Mamba. Mamba представляет собой отход от чисто механизмов внимания, доминирующих во многих моделях Transformer. Она использует подход модели пространства состояний (SSM), специально оптимизированный для обработки длинных последовательностей с поразительной эффективностью. Ключевые преимущества включают:

  • Линейная временная сложность: В отличие от квадратичной сложности стандартных механизмов внимания относительно длины последовательности, Mamba масштабируется линейно. Это делает обработку чрезвычайно длинных текстов вычислительно осуществимой без непомерных требований к ресурсам.
  • Эффективные вычисления: Дизайн Mamba позволяет выполнять распараллеливаемые вычисления во время обучения и эффективные рекуррентные операции во время вывода. Это напрямую приводит к увеличению скорости обработки.
  • Избирательное управление состоянием: Модели Mamba могут избирательно сохранять или забывать информацию по мере обработки последовательности, имитируя более сфокусированный подход к управлению контекстом, что жизненно важно для поддержания релевантной информации на больших расстояниях.

Следовательно, TurboS, а вместе с ним и Hunyuan-T1, могут эффективно анализировать длинные входные данные, потребляя при этом значительно меньше вычислительных ресурсов по сравнению с традиционными моделями Transformer аналогичного масштаба. Внутренние тесты показывают, что в одинаковых условиях развертывания Hunyuan-T1 достигает скорости декодирования в два раза выше, чем сопоставимые модели без оптимизации Mamba, что является решающим фактором для реальных приложений, требующих своевременных ответов.

Испытание пост-обучением: формирование способности к рассуждению с помощью обучения с подкреплением

Переход от базовой модели TurboS к высокопроизводительной Hunyuan-T1 включал масштабный и стратегически сфокусированный этап пост-обучения. Признавая критическую роль передовых методов обучения, Tencent выделила 96,7% вычислительных ресурсов, предназначенных для этого этапа, специально на обучение с подкреплением (RL). Эти огромные инвестиции подчеркивают четкий стратегический приоритет: повышение чистых способностей модели к рассуждению и тщательное согласование ее выходных данных со сложными человеческими суждениями и предпочтениями.

Речь шла не просто о том, чтобы накормить модель большим количеством данных; речь шла о том, чтобы научить ее как мыслить более эффективно. Основные цели этого интенсивного этапа RL были двоякими:

  1. Усиление чистого рассуждения: Расширить границы способности модели выполнять логические выводы, математические вычисления, причинно-следственные связи и решать сложные проблемы в различных областях.
  2. Оптимизация согласованности с человеком: Обеспечить, чтобы ответы модели были не только точными, но и полезными, безвредными, честными и нюансированными таким образом, чтобы они находили отклик у пользователей-людей. Это включает понимание неявных намерений, генерацию связных и контекстуально уместных выходных данных и соблюдение правил безопасности.

Для обеспечения этого требовательного процесса обучения был тщательно отобран обширный и разнообразный набор данных. Эта коллекция включала мировые научные и логические задачи, охватывающие широкий спектр дисциплин:

  • Математика: От фундаментальной арифметики и алгебры до исчисления, теории чисел и задач продвинутого соревновательного уровня.
  • Логическое рассуждение: Головоломки, задачи на дедуктивное рассуждение, задачи на критическое мышление и задачи формальной логики.
  • Наука: Вопросы и задачи, охватывающие физику, химию, биологию и другие научные области, часто требующие многоэтапного рассуждения и применения принципов.
  • Программирование: Разработка алгоритмов, генерация кода, отладка и понимание сложной логики программирования на различных языках.

Критически важно, что эти данные были объединены с реальной обратной связью. Эта петля обратной связи необходима для обучения с подкреплением, предоставляя сигнал, необходимый модели для понимания того, какие пути рассуждения ведут к правильным или предпочтительным результатам. Эта строгая основа гарантирует, что Hunyuan-T1 развивает демонстрируемую компетентность при столкновении с широким спектром сложных задач рассуждения, встречающихся в реальных сценариях.

Продвинутые методологии обучения

Огромный масштаб вычислительных инвестиций и сбора данных сочетался с продвинутыми стратегиями обучения, разработанными для максимизации эффективности обучения и стабильности модели.

  • Обучение по учебному плану (Curriculum Learning): Вместо того, чтобы сразу перегружать модель самыми сложными проблемами, был принят подход обучения по учебному плану. Обучение начиналось с более простых задач и постепенно вводились более сложные проблемы. Одновременно постепенно расширялась эффективная длина контекста модели. Этот поэтапный подход позволяет модели развивать базовые навыки рассуждения перед решением более сложных задач, способствуя более стабильному и эффективному обучению. Он также обучает модель разумно использовать свою емкость токенов для эффективного рассуждения, развивая форму вычислительной эффективности в своем мыслительном процессе.
  • Продвинутые техники обучения с подкреплением: Для обеспечения надежного и последовательного прогресса во время длительного обучения RL использовались классические, но мощные стратегии. Были интегрированы такие методы, как повторное использование данных (повторное использование прошлого опыта для усиления обучения) и периодический сброс политики (иногда возврат к более ранним, стабильным состояниям модели для предотвращения расхождения). Эти методы оказались высокоэффективными, значительно повысив долгосрочную стабильность процесса обучения модели более чем на 50%, смягчая такие проблемы, как катастрофическое забывание или коллапс политики, которые могут преследовать крупномасштабные проекты RL.
  • Единая система вознаграждений: Согласование модели с человеческими предпочтениями — сложная задача. Hunyuan-T1 использовала новую единую систему вознаграждений. Эта система интегрировала обратную связь из двух источников:
    • Самовознаграждение: Более ранняя версия модели T1-preview использовалась в качестве автоматического судьи для всесторонней оценки и выставления оценок выходным данным обучаемой модели. Это позволяет быстро генерировать крупномасштабную обратную связь на основе предопределенных критериев.
    • Модель вознаграждения: Отдельная модель, специально обученная предсказывать человеческие предпочтения, обеспечивала дополнительный уровень руководства, улавливая более тонкие аспекты качества, полезности и безопасности.
      Этот комбинированный механизм обратной связи направлял модель через процесс самосовершенствования, поощряя выходные данные, характеризующиеся более богатыми деталями контента, более эффективной доставкой информации и лучшим общим соответствием желаемым характеристикам ответа.

Показатели производительности: наравне с элитой

Окончательной мерой большой языковой модели является ее производительность. Hunyuan-T1 была тщательно оценена с использованием набора общедоступных бенчмарков и внутренних наборов данных, демонстрируя возможности, которые прочно ставят ее в высший эшелон современных моделей ИИ.

При сравнении с DeepSeek R1, другой высоко ценимой моделью, ориентированной на рассуждения, Hunyuan-T1 достигает сопоставимых или немного превосходящих результатов по нескольким ключевым общедоступным бенчмаркам, оценивающим знания и рассуждения на разных языках и в разных областях:

  • MMLU-pro: Сложный бенчмарк, предназначенный для оценки всесторонних знаний и рассуждений по различным профессиональным и академическим предметам.
  • CEval: Мультидисциплинарный набор для оценки на китайском языке.
  • AIME: Сосредоточен на математических задачах соревновательного уровня, требующих сложного рассуждения.
  • Zebra Logic: Бенчмарк, специально нацеленный на сложные логические головоломки.

Помимо этих конкретных тестов, внутренние наборы данных для оценки человеком дают дополнительное представление. Показывая результаты наравне с R1 во многих областях, Hunyuan-T1 демонстрирует небольшое преимущество в задачах, связанных с:

  • Следование инструкциям в культурной и творческой сферах: Генерация творческих текстовых форматов, адаптация к конкретным стилистическим запросам с культурными нюансами.
  • Суммаризация текста: Создание кратких и точных резюме длинных документов с сохранением ключевой информации.
  • Возможности агента: Демонстрация компетентности в задачах, требующих планирования, использования инструментов и взаимодействия с внешними системами.

Рассматривая комплексные метрики оценки, предназначенные для измерения общей способности, Hunyuan-T1 укрепляет свои позиции среди элитных моделей для вывода.

  • На MMLU-PRO T1 достиг выдающегося результата 87.2, уступив на момент оценки только модели O1 от OpenAI. Этот бенчмарк охватывает 14 областей, включая гуманитарные, социальные науки и предметы STEM, проверяя как широту знаний, так и понимание.
  • Производительность на GPQA-diamond также заслуживает внимания. Этот бенчмарк концентрируется на знаниях экспертного уровня и сложном научном рассуждении, включая задачи докторского уровня, в основном по физике, химии и биологии. Hunyuan-T1 достиг результата 69.3, что указывает на сильные способности в обработке узкоспециализированных и сложных научных вопросов.

Превосходство в науке, инженерии и согласованности

Дальнейшие оценки были сосредоточены на конкретных областях, требующих надежных способностей к рассуждению:

  • Программирование: В оценке кода LiveCodeBench, которая проверяет практическое решение задач программирования, T1 достиг результата 64.9, демонстрируя солидную логику программирования и навыки генерации кода.
  • Математика: Модель демонстрирует исключительную силу в математике. Ее производительность на MATH-500, наборе данных сложных математических задач, дала выдающийся результат 96.2. Этот результат ставит ее вровень с DeepSeek R1, подчеркивая глубокую способность Hunyuan-T1 справляться со сложными математическими рассуждениями.
  • Согласованность и следование инструкциям: Помимо чистого решения проблем, T1 демонстрирует надежную адаптивность в различных задачах согласования. Она превосходно справляется со сценариями следования инструкциям и демонстрирует компетентность в использовании инструментов при необходимости. Например, в задаче ArenaHard, предназначенной для оценки производительности на сложных, сгенерированных пользователями запросах, T1 достиг высокого результата 91.9.

Эти результаты в совокупности рисуют картину высокопроизводительной, универсальной и хорошо согласованной большой языковой модели. Стратегическая интеграция архитектуры Hybrid-Transformer-Mamba в сочетании с интенсивным, ориентированным на RL режимом пост-обучения привела к созданию Hunyuan-T1 – модели, демонстрирующей исключительные способности к рассуждению, особенно в сложных сценариях с длинным контекстом и в требовательных научных и математических областях.