Microsoft Phi 4 Малък езиков модел за сложно математическо разсъждение

Microsoft Research представи Phi-4, малък езиков модел с 14 милиарда параметри, насочен към напредък в областта на математическите разсъждения. Първоначално достъпен в Azure AI Foundry, моделът наскоро беше отворен за достъп в Hugging Face под лиценз MIT.

Иновациите на Phi-4

Според Microsoft, Phi-4 превъзхожда своите аналози и по-големи модели в математическите разсъждения, благодарение на няколко иновативни техники, използвани в обучението му, включително:

  • Предварително и междинно обучение със синтетични данни: Използването на синтетични данни за предварително и междинно обучение осигурява по-структуриран път за обучение на модела.
  • Органично управление на данни: Внимателно подбрани и филтрирани органични данни, за да се гарантира качеството на данните за обучение.
  • Нова схема за пост-обучение: Използване на нови методи за пост-обучение, които допълнително подобряват производителността на модела.

Тези иновации позволяват на Phi-4 да надмине своя учителски модел GPT-4o в способностите за въпроси и отговори, фокусирани върху STEM, което доказва, че генерирането на данни и техниките за пост-обучение на Microsoft не са просто дестилация на знания.

Уникалните предимства на синтетичните данни

Използването на синтетични данни не е новост в обучението на големи езикови модели (LLM), като моделите Phi са го използвали и преди. Microsoft отбелязва, че синтетичните данни не са евтина алтернатива, а превъзхождат органичните данни в следните аспекти:

  • По-постепенен път за обучение: Синтетичните данни могат да насочват LLM постепенно да учи, от първоначалното формулиране на проблема до крайното решение, което улеснява разбирането на процеса на разсъждение.
  • По-добро съответствие с средата за разсъждение: За разлика от органичните данни, които съдържат формулировка на проблема и крайно решение, синтетичните данни могат да предоставят по-детайлен процес на разсъждение стъпка по стъпка, който е по-близък до реалните сценарии за разсъждение.

Внимателно подбрани органични данни

Освен синтетичните данни, Microsoft използва и внимателно подбрани органични данни, включително десетки милиони висококачествени математически задачи и решения, събрани от публични уебсайтове и външни набори от данни. За случаите, където не са предоставени точни решения, те използват метод на гласуване с мнозинство за синтетично генериране на решения, за да повишат точността. Освен това, те събират научни статии, образователни форуми и уроци по програмиране.

Microsoft подчертава ключовата роля на висококачествените естествени данни в генерирането на синтетични данни, като посочва, че дори малки грешки могат да доведат до сериозно влошаване на качеството на производните синтетични документи. Ето защо те инвестират значителни усилия в подобряването на управлението на уеб данните.

Фазата на пост-обучение на Phi-4

Фазата на пост-обучение на Phi-4 има за цел да го превърне в надежден AI асистент. Тази фаза включва следните стъпки:

  1. Фина настройка: Моделът се фино настройва с помощта на висококачествени данни, генерирани от различни области като математика, кодиране, разсъждения, диалог, идентичност на модела и сигурност.
  2. Оптимизация на директни предпочитания (DPO): Извършват се две DPO стъпки, за да се приведе моделът по-добре в съответствие с човешките предпочитания и да се премахне нежеланото поведение.
    • Pivotal Token Search: В първата стъпка Microsoft използва нова технология, наречена Pivotal Token Search, за да генерира двойки желани/нежелани резултати.
    • GPT-4o като оценяващ: Във втората стъпка те използват GPT-4o като оценяващ, за да маркират всяка двойка резултати с положителен или отрицателен етикет.

Оценка на Phi-4

Phi-4 се оценява с помощта на рамката SIMPLE-EVALS на OpenAI и превъзхожда Llama-3.1-405B в няколко бенчмарка. Освен това, той надминава своя учителски модел GPT-4o в бенчмарковете GPQA (въпроси и отговори на ниво STEM за завършили) и MATH (математически състезания).

Подробности за данните за обучение на модела Phi-4

Microsoft използва внимателно проектирана стратегия за данни при обучението на модела Phi-4, която се върти около синтетични данни и подбрани реални данни. Този комбиниран подход има за цел да оптимизира процеса на обучение на модела и да го накара да се отличи в математическите разсъждения.

Генериране на синтетични данни

Синтетичните данни играят решаваща роля в обучението на Phi-4. Екипът на Microsoft не разглежда синтетичните данни като обикновена алтернатива на реалните данни, а по-скоро като инструмент, който може да ръководи модела стъпка по стъпка в процеса на обучение. Процесът на генериране на синтетични данни обикновено следва следните стъпки:

  1. Създаване на проблеми: Първо, се генерират различни математически задачи според предварително дефинирани правила и шаблони. Тези задачи обхващат различни математически области и нива на трудност, за да се гарантира цялостно обучение на модела.
  2. Постепенни решения: За всяка генерирана задача се създава решение стъпка по стъпка, което подробно обяснява процеса на разсъждение от формулирането на проблема до крайния отговор. Това решение стъпка по стъпка включва не само крайния отговор, но и междинните стъпки и логиката на разсъждение, като по този начин помага на модела да разбере процеса на решаване на проблема.
  3. Увеличаване на данните: За да се увеличи разнообразието на данните, синтетичните данни също се увеличават, например чрез промяна на формулировката на проблема, коригиране на числа или използване на различни методи за решаване.

Подбрани реални данни

Освен синтетичните данни, обучението на Phi-4 използва и голям брой подбрани реални данни. Тези данни идват от различни публични уебсайтове, научни статии, образователни форуми и уроци по програмиране, включително следните типове:

  • Математически задачи и решения: Събрани са милиони висококачествени математически задачи и техните решения от публични уебсайтове и външни набори от данни. Тези задачи обхващат различни математически области и нива на трудност.
  • Научни статии: За да се подобри способността на модела за разбиране и разсъждение, са събрани и голям брой научни статии, които предоставят задълбочени математически концепции и теории.
  • Образователни форуми: От образователни форуми са събрани въпроси, зададени от студенти, и отговори, предоставени от експерти, което позволява на модела да разбере математическите задачи от различни гледни точки.
  • Уроци по програмиране: За да се подобри способността на модела за програмиране, са събрани и голям брой уроци по програмиране, които обхващат различни езици за програмиране и алгоритми.

Контрол на качеството на данните

Microsoft инвестира значителни усилия в контрола на качеството на данните, за да гарантира точността и последователността на данните за обучение. Те предприемат следните мерки:

  • Ръчна проверка: За някои ключови набори от данни се извършва ръчна проверка, за да се гарантира точността и качеството на данните.
  • Гласуване с мнозинство: За задачи, които не предоставят точни решения, се използва метод на гласуване с мнозинство за генериране на решения, като по този начин се подобрява точността.
  • Почистване на данните: Всички данни се почистват, за да се премахнат дублиращи се данни, грешни данни и нерелевантни данни.

Подробен анализ на стратегиите за пост-обучение

Фазата на пост-обучение на Phi-4 има за цел да го превърне в надежден AI асистент и се състои основно от фина настройка и оптимизация на директни предпочитания (DPO).

Фаза на фина настройка

Целта на фазата на фина настройка е да адаптира модела към различни задачи и области. На този етап Microsoft използва висококачествени данни, генерирани от следните области:

  • Математика: Включва различни математически задачи и решения, предназначени да подобрят способността на модела за математическо разсъждение.
  • Кодиране: Включва различни задачи и решения за програмиране, предназначени да подобрят способността на модела за генериране и разбиране на код.
  • Разсъждение: Включва различни задачи за логическо разсъждение, предназначени да подобрят способността на модела за логическо мислене.
  • Диалог: Включва различни данни за диалог, предназначени да подобрят способността на модела за разбиране и генериране на естествен език.
  • Идентичност на модела: Включва различни описания на идентичността на модела, предназначени да подобрят разбирането на модела за собствените му способности.
  • Сигурност: Включва различни въпроси и отговори за сигурност, предназначени да подобрят сигурността на модела.

Фаза на оптимизация на директни предпочитания (DPO)

Целта на фазата на оптимизация на директни предпочитания (DPO) е да приведе поведението на модела по-добре в съответствие с човешките предпочитания и да премахне нежеланото поведение. Тази фаза включва две стъпки:

  1. Pivotal Token Search: В първата стъпка Microsoft използва нова технология, наречена Pivotal Token Search, за да генерира двойки желани/нежелани резултати. Тази технология търси в изходното пространство на модела, за да намери ключовите маркери, които могат да разграничат желаното от нежеланото поведение.
  2. GPT-4o като оценяващ: Във втората стъпка те използват GPT-4o като оценяващ, за да маркират всяка двойка резултати с положителен или отрицателен етикет. GPT-4o е в състояние да оцени изхода на модела въз основа на човешките предпочитания, като по този начин помага на модела да се научи по-добре на човешките предпочитания.

Оценка на производителността на Phi-4

За да оцени производителността на Phi-4, Microsoft използва рамката SIMPLE-EVALS на OpenAI, която съдържа различни бенчмаркове, които могат да оценят представянето на модела при различни задачи.

Бенчмаркове

Phi-4 се представя отлично в следните бенчмаркове:

  • GPQA (въпроси и отговори на ниво STEM за завършили): В този бенчмарк Phi-4 надминава своя учителски модел GPT-4o, което доказва, че способностите му за въпроси и отговори в областта на STEM са много силни.
  • MATH (математически състезания): В този бенчмарк Phi-4 също надминава своя учителски модел GPT-4o, което доказва, че способността му да решава сложни математически задачи е много добра.
  • Сравнение с други модели: В няколко бенчмарка Phi-4 надминава Llama-3.1-405B, което доказва, че цялостната му производителност е много силна.

Анализ на производителността

Чрез оценката на производителността на Phi-4 могат да се направят следните заключения:

  • Силна способност за математическо разсъждение: Phi-4 се представя много добре в математическите разсъждения, благодарение на иновативните методи, използвани в обучението му, включително синтетични данни, подбрани реални данни и стратегии за пост-обучение.
  • Надминава учителския модел: В няколко бенчмарка Phi-4 надминава своя учителски модел GPT-4o, което доказва, че производителността му не е просто дестилация на знания.
  • Сравнение с други модели: Phi-4 надминава Llama-3.1-405B в няколко бенчмарка, което доказва, че цялостната му производителност е много силна.

Перспективи за приложение на Phi-4

Phi-4, като малък езиков модел, специално проектиран за сложно математическо разсъждение, има широки перспективи за приложение. Може да се прилага в следните области:

  • Образование: Може да се използва като инструмент за математически уроци, за да помага на учениците да решават математически задачи и да предоставя персонализирано обучение.
  • Научни изследвания: Може да се използва като инструмент за научни изследвания, за да помага на изследователите в математическото моделиране и анализа на данни.
  • Инженерство: Може да се използва като инженерски инструмент, за да помага на инженерите при проектирането и анализа.
  • Финанси: Може да се използва като финансов инструмент, за да помага на финансовите анализатори при оценката на риска и инвестиционните решения.
  • Други области: Може да се прилага и в други области, които изискват сложно математическо разсъждение, като медицина, логистика и производство.

Заключение

Появата на Microsoft Phi-4 бележи значителен напредък в областта на малките езикови модели за математически разсъждения. Неговата уникална стратегия за обучение на данни и методите за пост-обучение го карат да надмине своите аналози и по-големи модели в производителността и предоставят нови идеи за бъдещото развитие на AI. С отварянето на Phi-4 в Hugging Face, се смята, че той ще донесе удобство на повече изследователи и разработчици и ще насърчи прилагането на AI технологии в различни области.