Microsoft Phi 4: Малая языковая модель для сложных математических рассуждений

Компания Microsoft Research представила Phi-4, малую языковую модель с 14 миллиардами параметров, нацеленную на продвижение возможностей в области математических рассуждений. Эта модель, изначально доступная на Azure AI Foundry, недавно была открыта на Hugging Face под лицензией MIT.

Инновации Phi-4

По данным Microsoft, Phi-4 превосходит аналогичные и более крупные модели в математических рассуждениях благодаря нескольким инновационным методам, использованным в процессе обучения, включая:

  • Предварительное и промежуточное обучение на синтетических данных: Использование синтетических данных для предварительного и промежуточного обучения обеспечивает более структурированный путь обучения для модели.
  • Органическое управление данными: Тщательная курация и отбор органических данных гарантируют качество обучающих данных.
  • Новая схема постобработки: Применение новых методов постобработки для дальнейшего улучшения производительности модели.

Эти инновации позволили Phi-4 превзойти свою учительскую модель GPT-4o по возможностям ответов на вопросы, ориентированные на STEM, что демонстрирует, что методы генерации данных и постобработки Microsoft — это не просто дистилляция знаний.

Уникальные преимущества синтетических данных

Использование синтетических данных не является новым в обучении больших языковых моделей (LLM), и модели Phi уже использовали этот подход. Microsoft отмечает, что синтетические данные — это не просто дешевая замена, а они превосходят органические данные в следующих аспектах:

  • Более постепенный путь обучения: Синтетические данные могут направлять LLM к постепенному обучению, начиная с исходной формулировки задачи и заканчивая конечным решением, что облегчает понимание процесса рассуждения.
  • Лучшее соответствие среде рассуждения: В отличие от органических данных, которые содержат формулировку задачи и конечное решение, синтетические данные могут предоставить более подробный процесс рассуждения шаг за шагом, что лучше соответствует реальным сценариям рассуждения.

Тщательно отобранные органические данные

В дополнение к синтетическим данным, Microsoft также использовала тщательно отобранные органические данные, включая десятки миллионов высококачественных математических задач и решений, собранных с общедоступных веб-сайтов и внешних наборов данных. Для случаев, когда точные решения не были предоставлены, они синтезировали решения с помощью метода голосования большинством для повышения точности. Кроме того, они собрали академические статьи, образовательные форумы и учебные пособия по программированию.

Microsoft подчеркнула ключевую роль высококачественных естественных данных в генерации синтетических данных, отметив, что даже небольшие ошибки могут привести к серьезному снижению качества производных синтетических документов. Поэтому они вложили значительные усилия в совершенствование управления веб-данными.

Этап постобработки Phi-4

Этап постобработки Phi-4 предназначен для превращения модели в надежного AI-помощника. Этот этап включает в себя следующие шаги:

  1. Тонкая настройка: Тонкая настройка модели с использованием высококачественных данных, сгенерированных из различных областей, таких как математика, кодирование, рассуждения, диалог, идентичность модели и безопасность.
  2. Прямая оптимизация предпочтений (DPO): Выполнение двух шагов DPO для лучшего соответствия модели человеческим предпочтениям и устранения нежелательного поведения.
    • Поиск ключевых токенов: На первом шаге Microsoft использует новую технологию под названием Pivotal Token Search для генерации пар желаемых/нежелательных результатов.
    • GPT-4o в качестве оценщика: На втором шаге они используют GPT-4o в качестве оценщика для маркировки каждой пары результатов положительной или отрицательной меткой.

Оценка Phi-4

Phi-4 оценивалась с использованием фреймворка SIMPLE-EVALS от OpenAI и превзошла Llama-3.1-405B в нескольких тестах. Кроме того, она также превзошла свою учительскую модель GPT-4o в тестах GPQA (вопросы и ответы по STEM на уровне аспирантуры) и MATH (математические соревнования).

Подробности об обучающих данных Phi-4

Microsoft использовала тщательно разработанную стратегию данных при обучении модели Phi-4, которая в основном строится на синтетических данных и тщательно отобранных реальных данных. Этот комбинированный подход предназначен для оптимизации процесса обучения модели и обеспечения ее превосходства в математических рассуждениях.

Генерация синтетических данных

Синтетические данные играют важную роль в обучении Phi-4. Команда Microsoft не рассматривала синтетические данные как простую замену реальным данным, а скорее как инструмент, способный направлять модель к постепенному обучению. Процесс генерации синтетических данных обычно состоит из следующих шагов:

  1. Создание задач: Сначала на основе предопределенных правил и шаблонов генерируются различные математические задачи. Эти задачи охватывают различные области математики и уровни сложности, чтобы обеспечить всестороннее обучение модели.
  2. Пошаговые решения: Для каждой сгенерированной задачи создается пошаговое решение, подробно объясняющее процесс рассуждения от постановки задачи до конечного ответа. Это пошаговое решение включает не только конечный ответ, но и промежуточные шаги и логику рассуждения, что помогает модели понять процесс решения задачи.
  3. Расширение данных: Для увеличения разнообразия данных синтетические данные также расширяются, например, путем изменения формулировки задач, корректировки чисел или использования различных методов решения.

Тщательно отобранные реальные данные

Помимо синтетических данных, в обучении Phi-4 также использовалось большое количество тщательно отобранных реальных данных. Эти данные получены из различных общедоступных веб-сайтов, научных работ, образовательных форумов и учебных пособий по программированию, включая следующие типы:

  • Математические задачи и решения: С общедоступных веб-сайтов и внешних наборов данных были собраны миллионы высококачественных математических задач и их решений. Эти задачи охватывают различные области математики и уровни сложности.
  • Академические статьи: Для повышения способности модели к пониманию и рассуждению также было собрано большое количество научных работ, в которых представлены углубленные математические концепции и теории.
  • Образовательные форумы: С образовательных форумов были собраны вопросы, заданные студентами, и ответы, предоставленные экспертами, что позволило модели понять математические задачи с разных точек зрения.
  • Учебные пособия по программированию: Для повышения навыков программирования модели также было собрано большое количество учебных пособий по программированию, охватывающих различные языки программирования и алгоритмы.

Контроль качества данных

Microsoft вложила значительные усилия в контроль качества данных, чтобы обеспечить точность и согласованность обучающих данных. Были приняты следующие меры:

  • Ручная проверка: Для некоторых ключевых наборов данных проводится ручная проверка для обеспечения точности и качества данных.
  • Голосование большинством: Для задач, для которых не было предоставлено точного решения, решения генерировались с использованием метода голосования большинством, что повышало точность.
  • Очистка данных: Все данные очищаются для удаления повторяющихся, ошибочных и нерелевантных данных.

Подробный анализ стратегии постобработки

Этап постобработки Phi-4 предназначен для превращения модели в надежного AI-помощника и состоит в основном из тонкой настройки и прямой оптимизации предпочтений (DPO).

Этап тонкой настройки

Целью этапа тонкой настройки является адаптация модели к различным задачам и областям. На этом этапе Microsoft использовала высококачественные данные, сгенерированные из следующих областей:

  • Математика: Включает различные математические задачи и решения, предназначенные для улучшения способности модели к математическим рассуждениям.
  • Кодирование: Включает различные задачи и решения по программированию, предназначенные для улучшения способности модели генерировать и понимать код.
  • Рассуждение: Включает различные задачи логического рассуждения, предназначенные для улучшения способности модели к логическому мышлению.
  • Диалог: Включает различные данные диалога, предназначенные для улучшения способности модели к пониманию и генерации естественного языка.
  • Идентичность модели: Включает различные описания идентичности модели, предназначенные для улучшения понимания моделью своих возможностей.
  • Безопасность: Включает различные вопросы и ответы по безопасности, предназначенные для повышения безопасности модели.

Этап прямой оптимизации предпочтений (DPO)

Целью этапа прямой оптимизации предпочтений (DPO) является лучшее согласование поведения модели с предпочтениями человека и устранение нежелательного поведения. Этот этап включает два шага:

  1. Поиск ключевых токенов: На первом шаге Microsoft использует новую технологию под названием Pivotal Token Search для генерации пар желаемых/нежелательных результатов. Эта технология ищет в выходном пространстве модели ключевые токены, которые могут отличить желаемое поведение от нежелательного.
  2. GPT-4o в качестве оценщика: На втором шаге они используют GPT-4o в качестве оценщика для маркировки каждой пары результатов положительной или отрицательной меткой. GPT-4o может оценивать выходные данные модели на основе предпочтений человека, помогая модели лучше изучить человеческие предпочтения.

Оценка производительности Phi-4

Для оценки производительности Phi-4 Microsoft использовала фреймворк SIMPLE-EVALS от OpenAI, который включает в себя различные тесты, позволяющие оценить производительность модели в различных задачах.

Тесты

Phi-4 показала отличные результаты в следующих тестах:

  • GPQA (вопросы и ответы по STEM на уровне аспирантуры): В этом тесте Phi-4 превзошла свою учительскую модель GPT-4o, что доказывает ее очень сильные возможности в области STEM.
  • MATH (математические соревнования): В этом тесте Phi-4 также превзошла свою учительскую модель GPT-4o, что доказывает ее отличные возможности в решении сложных математических задач.
  • Сравнение с другими моделями: В нескольких тестах Phi-4 превзошла Llama-3.1-405B, что доказывает ее очень сильную общую производительность.

Анализ производительности

На основе оценки производительности Phi-4 можно сделать следующие выводы:

  • Сильные возможности математических рассуждений: Phi-4 демонстрирует отличные результаты в математических рассуждениях благодаря инновационным методам, использованным в процессе обучения, включая синтетические данные, тщательно отобранные реальные данные и стратегии постобработки.
  • Превосходит учительскую модель: В нескольких тестах Phi-4 превзошла свою учительскую модель GPT-4o, что доказывает, что ее производительность не является простой дистилляцией знаний.
  • Сравнение с другими моделями: Phi-4 превзошла Llama-3.1-405B в нескольких тестах, что доказывает ее очень сильную общую производительность.

Перспективы применения Phi-4

Phi-4, как малая языковая модель, разработанная специально для сложных математических рассуждений, имеет широкие перспективы применения. Ее можно использовать в следующих областях:

  • Образование: Может использоваться в качестве инструмента для обучения математике, помогая учащимся решать математические задачи и предоставляя индивидуальный опыт обучения.
  • Научные исследования: Может использоваться в качестве инструмента для научных исследований, помогая исследователям в математическом моделировании и анализе данных.
  • Инженерия: Может использоваться в качестве инженерного инструмента, помогая инженерам в проектировании и анализе.
  • Финансы: Может использоваться в качестве финансового инструмента, помогая финансовым аналитикам в оценке рисков и принятии инвестиционных решений.
  • Другие области: Также может применяться в других областях, требующих сложных математических рассуждений, таких как медицина, логистика и производство.

Заключение

Появление Microsoft Phi-4 знаменует собой значительный прогресс в области математических рассуждений для малых языковых моделей. Ее уникальная стратегия обучения данным и методы постобработки позволили ей превзойти аналогичные и более крупные модели по производительности и обеспечили новые идеи для будущего развития ИИ. Благодаря открытому исходному коду Phi-4 на Hugging Face, она, несомненно, принесет пользу большему количеству исследователей и разработчиков и будет способствовать применению технологий ИИ в различных областях.