Компания Microsoft Research представила Phi-4, малую языковую модель с 14 миллиардами параметров, нацеленную на продвижение возможностей в области математических рассуждений. Эта модель, изначально доступная на Azure AI Foundry, недавно была открыта на Hugging Face под лицензией MIT.
Инновации Phi-4
По данным Microsoft, Phi-4 превосходит аналогичные и более крупные модели в математических рассуждениях благодаря нескольким инновационным методам, использованным в процессе обучения, включая:
- Предварительное и промежуточное обучение на синтетических данных: Использование синтетических данных для предварительного и промежуточного обучения обеспечивает более структурированный путь обучения для модели.
- Органическое управление данными: Тщательная курация и отбор органических данных гарантируют качество обучающих данных.
- Новая схема постобработки: Применение новых методов постобработки для дальнейшего улучшения производительности модели.
Эти инновации позволили Phi-4 превзойти свою учительскую модель GPT-4o по возможностям ответов на вопросы, ориентированные на STEM, что демонстрирует, что методы генерации данных и постобработки Microsoft — это не просто дистилляция знаний.
Уникальные преимущества синтетических данных
Использование синтетических данных не является новым в обучении больших языковых моделей (LLM), и модели Phi уже использовали этот подход. Microsoft отмечает, что синтетические данные — это не просто дешевая замена, а они превосходят органические данные в следующих аспектах:
- Более постепенный путь обучения: Синтетические данные могут направлять LLM к постепенному обучению, начиная с исходной формулировки задачи и заканчивая конечным решением, что облегчает понимание процесса рассуждения.
- Лучшее соответствие среде рассуждения: В отличие от органических данных, которые содержат формулировку задачи и конечное решение, синтетические данные могут предоставить более подробный процесс рассуждения шаг за шагом, что лучше соответствует реальным сценариям рассуждения.
Тщательно отобранные органические данные
В дополнение к синтетическим данным, Microsoft также использовала тщательно отобранные органические данные, включая десятки миллионов высококачественных математических задач и решений, собранных с общедоступных веб-сайтов и внешних наборов данных. Для случаев, когда точные решения не были предоставлены, они синтезировали решения с помощью метода голосования большинством для повышения точности. Кроме того, они собрали академические статьи, образовательные форумы и учебные пособия по программированию.
Microsoft подчеркнула ключевую роль высококачественных естественных данных в генерации синтетических данных, отметив, что даже небольшие ошибки могут привести к серьезному снижению качества производных синтетических документов. Поэтому они вложили значительные усилия в совершенствование управления веб-данными.
Этап постобработки Phi-4
Этап постобработки Phi-4 предназначен для превращения модели в надежного AI-помощника. Этот этап включает в себя следующие шаги:
- Тонкая настройка: Тонкая настройка модели с использованием высококачественных данных, сгенерированных из различных областей, таких как математика, кодирование, рассуждения, диалог, идентичность модели и безопасность.
- Прямая оптимизация предпочтений (DPO): Выполнение двух шагов DPO для лучшего соответствия модели человеческим предпочтениям и устранения нежелательного поведения.
- Поиск ключевых токенов: На первом шаге Microsoft использует новую технологию под названием Pivotal Token Search для генерации пар желаемых/нежелательных результатов.
- GPT-4o в качестве оценщика: На втором шаге они используют GPT-4o в качестве оценщика для маркировки каждой пары результатов положительной или отрицательной меткой.
Оценка Phi-4
Phi-4 оценивалась с использованием фреймворка SIMPLE-EVALS от OpenAI и превзошла Llama-3.1-405B в нескольких тестах. Кроме того, она также превзошла свою учительскую модель GPT-4o в тестах GPQA (вопросы и ответы по STEM на уровне аспирантуры) и MATH (математические соревнования).
Подробности об обучающих данных Phi-4
Microsoft использовала тщательно разработанную стратегию данных при обучении модели Phi-4, которая в основном строится на синтетических данных и тщательно отобранных реальных данных. Этот комбинированный подход предназначен для оптимизации процесса обучения модели и обеспечения ее превосходства в математических рассуждениях.
Генерация синтетических данных
Синтетические данные играют важную роль в обучении Phi-4. Команда Microsoft не рассматривала синтетические данные как простую замену реальным данным, а скорее как инструмент, способный направлять модель к постепенному обучению. Процесс генерации синтетических данных обычно состоит из следующих шагов:
- Создание задач: Сначала на основе предопределенных правил и шаблонов генерируются различные математические задачи. Эти задачи охватывают различные области математики и уровни сложности, чтобы обеспечить всестороннее обучение модели.
- Пошаговые решения: Для каждой сгенерированной задачи создается пошаговое решение, подробно объясняющее процесс рассуждения от постановки задачи до конечного ответа. Это пошаговое решение включает не только конечный ответ, но и промежуточные шаги и логику рассуждения, что помогает модели понять процесс решения задачи.
- Расширение данных: Для увеличения разнообразия данных синтетические данные также расширяются, например, путем изменения формулировки задач, корректировки чисел или использования различных методов решения.
Тщательно отобранные реальные данные
Помимо синтетических данных, в обучении Phi-4 также использовалось большое количество тщательно отобранных реальных данных. Эти данные получены из различных общедоступных веб-сайтов, научных работ, образовательных форумов и учебных пособий по программированию, включая следующие типы:
- Математические задачи и решения: С общедоступных веб-сайтов и внешних наборов данных были собраны миллионы высококачественных математических задач и их решений. Эти задачи охватывают различные области математики и уровни сложности.
- Академические статьи: Для повышения способности модели к пониманию и рассуждению также было собрано большое количество научных работ, в которых представлены углубленные математические концепции и теории.
- Образовательные форумы: С образовательных форумов были собраны вопросы, заданные студентами, и ответы, предоставленные экспертами, что позволило модели понять математические задачи с разных точек зрения.
- Учебные пособия по программированию: Для повышения навыков программирования модели также было собрано большое количество учебных пособий по программированию, охватывающих различные языки программирования и алгоритмы.
Контроль качества данных
Microsoft вложила значительные усилия в контроль качества данных, чтобы обеспечить точность и согласованность обучающих данных. Были приняты следующие меры:
- Ручная проверка: Для некоторых ключевых наборов данных проводится ручная проверка для обеспечения точности и качества данных.
- Голосование большинством: Для задач, для которых не было предоставлено точного решения, решения генерировались с использованием метода голосования большинством, что повышало точность.
- Очистка данных: Все данные очищаются для удаления повторяющихся, ошибочных и нерелевантных данных.
Подробный анализ стратегии постобработки
Этап постобработки Phi-4 предназначен для превращения модели в надежного AI-помощника и состоит в основном из тонкой настройки и прямой оптимизации предпочтений (DPO).
Этап тонкой настройки
Целью этапа тонкой настройки является адаптация модели к различным задачам и областям. На этом этапе Microsoft использовала высококачественные данные, сгенерированные из следующих областей:
- Математика: Включает различные математические задачи и решения, предназначенные для улучшения способности модели к математическим рассуждениям.
- Кодирование: Включает различные задачи и решения по программированию, предназначенные для улучшения способности модели генерировать и понимать код.
- Рассуждение: Включает различные задачи логического рассуждения, предназначенные для улучшения способности модели к логическому мышлению.
- Диалог: Включает различные данные диалога, предназначенные для улучшения способности модели к пониманию и генерации естественного языка.
- Идентичность модели: Включает различные описания идентичности модели, предназначенные для улучшения понимания моделью своих возможностей.
- Безопасность: Включает различные вопросы и ответы по безопасности, предназначенные для повышения безопасности модели.
Этап прямой оптимизации предпочтений (DPO)
Целью этапа прямой оптимизации предпочтений (DPO) является лучшее согласование поведения модели с предпочтениями человека и устранение нежелательного поведения. Этот этап включает два шага:
- Поиск ключевых токенов: На первом шаге Microsoft использует новую технологию под названием Pivotal Token Search для генерации пар желаемых/нежелательных результатов. Эта технология ищет в выходном пространстве модели ключевые токены, которые могут отличить желаемое поведение от нежелательного.
- GPT-4o в качестве оценщика: На втором шаге они используют GPT-4o в качестве оценщика для маркировки каждой пары результатов положительной или отрицательной меткой. GPT-4o может оценивать выходные данные модели на основе предпочтений человека, помогая модели лучше изучить человеческие предпочтения.
Оценка производительности Phi-4
Для оценки производительности Phi-4 Microsoft использовала фреймворк SIMPLE-EVALS от OpenAI, который включает в себя различные тесты, позволяющие оценить производительность модели в различных задачах.
Тесты
Phi-4 показала отличные результаты в следующих тестах:
- GPQA (вопросы и ответы по STEM на уровне аспирантуры): В этом тесте Phi-4 превзошла свою учительскую модель GPT-4o, что доказывает ее очень сильные возможности в области STEM.
- MATH (математические соревнования): В этом тесте Phi-4 также превзошла свою учительскую модель GPT-4o, что доказывает ее отличные возможности в решении сложных математических задач.
- Сравнение с другими моделями: В нескольких тестах Phi-4 превзошла Llama-3.1-405B, что доказывает ее очень сильную общую производительность.
Анализ производительности
На основе оценки производительности Phi-4 можно сделать следующие выводы:
- Сильные возможности математических рассуждений: Phi-4 демонстрирует отличные результаты в математических рассуждениях благодаря инновационным методам, использованным в процессе обучения, включая синтетические данные, тщательно отобранные реальные данные и стратегии постобработки.
- Превосходит учительскую модель: В нескольких тестах Phi-4 превзошла свою учительскую модель GPT-4o, что доказывает, что ее производительность не является простой дистилляцией знаний.
- Сравнение с другими моделями: Phi-4 превзошла Llama-3.1-405B в нескольких тестах, что доказывает ее очень сильную общую производительность.
Перспективы применения Phi-4
Phi-4, как малая языковая модель, разработанная специально для сложных математических рассуждений, имеет широкие перспективы применения. Ее можно использовать в следующих областях:
- Образование: Может использоваться в качестве инструмента для обучения математике, помогая учащимся решать математические задачи и предоставляя индивидуальный опыт обучения.
- Научные исследования: Может использоваться в качестве инструмента для научных исследований, помогая исследователям в математическом моделировании и анализе данных.
- Инженерия: Может использоваться в качестве инженерного инструмента, помогая инженерам в проектировании и анализе.
- Финансы: Может использоваться в качестве финансового инструмента, помогая финансовым аналитикам в оценке рисков и принятии инвестиционных решений.
- Другие области: Также может применяться в других областях, требующих сложных математических рассуждений, таких как медицина, логистика и производство.
Заключение
Появление Microsoft Phi-4 знаменует собой значительный прогресс в области математических рассуждений для малых языковых моделей. Ее уникальная стратегия обучения данным и методы постобработки позволили ей превзойти аналогичные и более крупные модели по производительности и обеспечили новые идеи для будущего развития ИИ. Благодаря открытому исходному коду Phi-4 на Hugging Face, она, несомненно, принесет пользу большему количеству исследователей и разработчиков и будет способствовать применению технологий ИИ в различных областях.