Phi-4 추론 모델의 부상
AI 세계는 현재 추론 모델에 매료되어 있으며, 마이크로소프트는 최근 Phi-4 계열의 추론 모델을 소개했습니다. 여기에는 Phi-4-reasoning, Phi-4-reasoning-plus, 그리고 Phi-4-mini-reasoning이 포함됩니다. 특히 주목할 만한 점은 이러한 모델 중 가장 큰 모델조차도 140억 개의 파라미터만을 가지고 있으며, 고성능 노트북에서 원활하게 실행될 수 있다는 것입니다. 게다가 38억 개의 파라미터를 가진 Phi-4-mini-reasoning은 수학적 추론에서 80억 개의 파라미터를 가진 DeepSeek-R1 증류 모델을 능가하며, 추론 작업에서 작은 모델의 힘을 강조합니다.
4월에 2세대 DeepSeek-R2 추론 모델이 출시되기를 기다리는 대신, 마이크로소프트는 새로운 시리즈의 Phi-4 추론 모델을 공개했습니다. 이 모델들은 수학적 추론에서 뛰어난 성능을 보여주며, Phi-4-Mini-Reasoning이 더 작은 파라미터 규모를 가지고 있음에도 불구하고 DeepSeek-R1 증류 모델을 능가합니다.
마이크로소프트 AI Frontiers 연구소의 파트너 연구 관리자인 Ahmed Awadallah는 Phi-4-reasoning을 설명하고 새로운 모델의 특징을 요약했습니다.
- 이 모델은 지도 학습(신중하게 선택된 추론 예제 데이터 세트 사용) 및 강화 학습으로 훈련됩니다.
- 추론 벤치마크에서 뛰어난 성능을 보이며 DeepSeek R1과 같은 더 큰 상위 모델과 견줄 만합니다.
- 새로운 테스트(예: AIME 2025, HMMT)에서도 강력한 성능을 유지합니다.
- 추론 능력은 강력한 전이성/일반화 능력을 가지고 있으며, 지도 학습만으로도 새로운 작업(예: k-SAT, 수학 방정식 풀이, 스케줄링 등)에 적응할 수 있습니다.
- 일반적인 기능(예: 명령어 이해 및 실행)을 유지하고 크게 향상시킵니다.
그는 Phi-4에는 여전히 개선해야 할 몇 가지 측면, 특히 컨텍스트 길이, 인코딩 능력 및 도구 통합이 있다고 언급했습니다.
모델 자체 외에도 마이크로소프트는 모델의 훈련 및 평가 프로세스에 대한 심층 분석을 제공하는 자세한 기술 보고서를 공유했습니다.
X에서 마이크로소프트 Research AI Frontiers 연구소의 수석 연구원이자 위스콘신 대학교의 부교수인 Dimitris Papailiopoulos는 Phi-4 추론 모델에 대한 더 많은 정보를 소개했습니다.
그는 Phi-4-reasoning이 완전히 대학원 수준에 도달했으며 로컬 PC에서 실행할 수 있다고 믿습니다.
이는 AI 개발에 대한 그의 기대를 뛰어넘었습니다.
새로운 모델은 파라미터는 적지만 강력한 성능을 가지고 있습니다.
성능 강자
작은 크기에도 불구하고 이 모델은 AIME, HMMT, OmniMath와 같은 수학 벤치마크에서 뛰어난 성능을 보입니다. QwQ-32B, R1-70B, R1과 같은 더 큰 오픈 웨이트 모델과 o1-mini 및 sonnet 3.7과 같은 폐쇄 모델과 동등하거나 능가하는 성능을 보입니다.
이 모델은 크기가 작아 고성능 노트북에서 원활하게 실행하기에 적합합니다.
동시에 더 큰 비추론 모델과 일부 추론 모델조차도 해결할 수 없는 많은 퍼즐을 풀 수 있습니다.
DimitrisEval 테스트도 통과했습니다!
놀랍게도 추론은 지도 학습 SFT를 통해서도 배울 수 있는 진정한 전이 가능한 ‘메타-스킬’인 것 같습니다!
증거 1: 비추론 작업에 대한 특별한 훈련이 없더라도 연구자들은 IFEval, FlenQA 및 내부 PhiBench에서 상당한 성능 향상을 관찰했습니다(10점 이상 증가!).
또한 SFT 단계에서 코딩과 관련된 데이터는 거의 없지만(RL 단계에서는 전혀 없음), 모델은 이와 관련하여 여전히 뛰어난 성능을 보입니다.
또한 Dimitris Papailiopoulos는 프로그래밍이 후속 버전의 주요 초점이라고 밝혔습니다.
증거 2: 여행하는 세일즈맨 문제, 미로 해결, k-SAT, 제약 계획 등 명시적으로 훈련되지 않은 특정 문제의 경우(SFT 또는 RL 단계), 모델은 이러한 작업에서 매우 뛰어난 성능을 보입니다!
그리고 Phi-4(심지어 GPT-4)는 이를 수행할 수 없습니다.
이는 추론 능력이 실제로 기술로 전이될 수 있음을 완전히 보여줍니다!
매우 짧은 강화 학습 라운드 후(SFT의 경우 140만 개의 예제와 비교하여 6,000개의 샘플만 사용), 모델의 추론 메커니즘이 ‘잠긴’ 것처럼 보입니다.
이는 Dimitris Papailiopoulos에게 특히 충격적이었습니다.
그는 강화 학습이 모델에게 ‘자신만의 언어’로 추론하도록 가르친 것 같다고 느끼며, AIME 및 HMMT에서 정확도를 약 10% 높이고 어려운 문제에서 평균 답변 길이를 50% 늘립니다.
강화 학습은 정말 효과적입니다!!
추론 메커니즘이 ‘잠긴’ 현상은 일반적으로 모델의 출력 분포를 더 집중시키고 정확도도 더 높입니다.
강화 학습이 모델의 기능을 크게 향상시킬 수 있다는 사실은 마이크로소프트의 이전 연구에서도 반영되었습니다.
강화 학습 단계에서 새로운 모델은 데이터에 대해 특별히 최적화되지 않았습니다. 6,000개의 질문은 더 큰 데이터 세트 선택에서 무작위로 선택되었습니다.
그렇다면 왜 마이크로소프트는 더 많은 강화 학습 훈련을 수행하지 않았을까요?
모델이 32k 컨텍스트 길이(모델이 훈련되지 않은 길이)를 초과하는 질문에 대한 답변을 생성했기 때문에 이를 잘라낼 수밖에 없었습니다.
또한 병렬 추론 계산(예: Maj@N)의 도움으로 새로운 추론 모델은 AIME 2025에서 거의 성능 제한에 도달했으며, 심지어 교사 모델(o3-mini)의 pass@1 성능을 능가했습니다.
그리고 2025년 2월 전에 모든 데이터 수집을 완료했으며 HMMT도 마찬가지입니다.
다른 작업에서도 연구자들은 OmniMath 및 Calendar Planning 작업과 같이 ‘교사를 능가하는’ 현상을 관찰했습니다.
SFT 단계의 프롬프트 설계는 후속 강화 학습 프로세스와 결합되어 모델에 교사 모델에서 제공하는 지식 범위를 초과하는 ‘자체 개선’ 기능을 제공한 것으로 보입니다.
아래 그림에서 마젠타색은 o3-mini를 나타내고 녹색은 Phi를 나타냅니다.
흥미로운 현상은 응답 길이가 상위 25%에 속하는 긴 텍스트는 종종 잘못된 답변과 강력한 상관 관계가 있습니다!
그러나 반면에 대부분의 평가에서 전반적인 평균 답변 길이는 더 길고 정확도는 더 높습니다.
다시 말해, 테스트 중에 컴퓨팅 리소스를 늘리는 것이 도움이 되지만 모델이 ‘막혔을 때’ ‘횡설수설’하기 쉽습니다.
모델의 제한 사항에 대해서도 주의해야 할 몇 가지 사항이 있습니다.
- 32k를 초과하는 컨텍스트 길이를 처리하는 기능이 완전히 확장되거나 테스트되지 않았습니다.
- 모델은 간단한 문제를 처리할 때 ‘과도하게 생각’하기 쉽고 자체 평가에서 너무 장황하게 보일 수 있습니다.
- 다중 턴 대화 기능은 광범위하게 테스트되지 않았습니다.
물론 발견해야 할 더 많은 ‘사각 지대’가 있지만 전반적으로 연구팀은 올바른 방향으로 나아가고 있다고 느낍니다!
훈련 서프라이즈
마이크로소프트 Research의 수석 연구 관리자이자 Phi 시리즈 모델 개발을 담당하는 ‘AGI Physics’ 팀에 속한 Suriya Gunasekar는 작업의 핵심 원칙을 소개하는 데 중점을 두었습니다.
이번에 마이크로소프트 Phi 팀은 사후 훈련 단계에 집중하고 Phi-4-reasoning(SFT만 사용) 및 Phi-4-reasoning-plus(SFT+ 소량의 RL)를 출시했습니다.
둘 다 14B 모델이며 추론 및 일반 작업 벤치마크에서 강력한 기능을 입증했습니다.
이 작업의 핵심은 프롬프트 선택과 전이 가능하고 자체 개선적인 추론 기술에 대한 실험적 탐구에 있습니다.
훈련 과정에서 두 가지 놀라운 발견이 있었습니다.
첫째, 몇 개의 도메인 훈련된 긴 체인 추론(CoT) 궤적이 사용되는 한 Phi-4는 스케줄링, 미로 해결(시각적 입력 없음), IFEva, FlenQA, KITAB(룩업 기반 질문 응답) 및 내부 PhiBench와 같은 여러 작업에서 상당한 성능 향상을 달성할 수 있습니다.
둘째, 6,000개의 수학 예제만 사용하여 최소한의 RL 훈련을 하더라도 모델의 성능은 일부 벤치마크에서 크게 향상되었으며, 가장 높은 향상은 10%에 달하고(그러나 토큰 사용량은 약 1.5배 증가) RL 단계에서 기술의 교차 도메인 전이도 관찰되었습니다.
다시 말해, OpenAI 및 Google과 같은 주요 경쟁업체와 비교하여 마이크로소프트 Phi-4 추론 시리즈는 새로운 가능성을 보여줍니다. 소규모 모델은 고품질 데이터와 정교한 훈련 전략을 사용하여 특정 작업에서 대규모 모델과 일치하거나 능가할 수 있습니다.
핵심 방법
추론 모델 Phi-4-reasoning은 140억 개의 파라미터를 가지고 있으며 복잡한 추론 작업에서 강력한 성능을 보입니다.
이 모델은 Phi-4를 기반으로 감독 학습 훈련을 위해, 적절한 복잡성과 다양성을 모두 갖춘 신중하게 선택된 ‘가르칠 수 있는’ 프롬프트 세트를 사용합니다. o3-mini에서 생성된 추론 예제는 훈련 과정에서 참조로 사용됩니다.
Phi-4-reasoning은 자세한 추론 체인을 생성하고 추론 과정에서 컴퓨팅 리소스를 최대한 활용할 수 있습니다.
이를 바탕으로 마이크로소프트는 Phi-4-reasoning-plus를 추가로 개발했습니다.
원래 모델을 기반으로 결과 기반 강화 학습의 작은 단계를 통해 향상되었으며 더 길고 강력한 추론 체인을 생성합니다.
연구에 따르면 잘 설계된 SFT 데이터 세트는 추론 언어 모델의 효과를 크게 향상시킬 수 있으며 강화 학습(RL)은 이를 기반으로 이러한 개선을 더욱 증폭시킬 수 있습니다.
SFT 실험에서 이 비교적 간단한 생성 설정에서도 시드 문제의 신중한 선택과 엄격한 필터링은 모델 성공의 핵심입니다.
그들은 널리 사용되는 추론 또는 일반 벤치마크 질문(이 보고서에 언급되지 않은 일부 벤치마크 포함)과 높은 중복성을 갖는 데이터가 포함되지 않도록 전체 훈련 데이터 세트에 대한 엄격한 오염 제거 프로세스를 거쳤습니다.
오염 제거된 벤치마크 테스트의 전체 목록은 다음과 같습니다.
- 수학 및 추론: AIME-2024, MATH, GPQA, OmniMATH, GSM8k
- 프로그래밍: LiveCodeBench, Codeforces, HumanEval, MBPP
- 질문 응답 및 일반 지식: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
- 기타 평가 작업: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench
140억 개의 파라미터를 가진 Phi-4 모델의 지도 학습(SFT)을 통해 연구자들은 그 전에 강화 학습 없이 Phi-4-reasoning을 얻었습니다.
SFT 목표는 기본 모델에 포함된 구조화된 추론 능력을 개선하는 것입니다.
Phi-4-reasoning의 아키텍처는 Phi-4 모델과 동일하지만 두 가지 주요 수정 사항이 있습니다.
- 추론 토큰: 기본 모델의 두 개의 자리 표시자 토큰은 및 토큰으로 재사용되며 추론(“생각”) 프로세스의 시작과 끝을 표시하는 데 사용됩니다.
- 토큰 길이 증가: 기본 모델(Phi-4)에서 처음에 지원되는 최대 토큰 길이는 16K였습니다. 추가 추론 토큰을 수용하기 위해 RoPE의 기본 주파수가 두 배로 늘어났고 모델은 최대 토큰 길이 32K에서 훈련되었습니다.
그들은 합성 방법을 사용하여 많은 chain-of-thought 추론 예제를 생성했습니다.
사용된 SFT 데이터 세트에는 140만 개 이상의 프롬프트-응답 쌍이 포함되어 있으며 총 83억 개의 고유한 토큰이 포함되어 있으며 수학 및 프로그래밍과 같은 추론 필드와 안전하고 책임감 있는 AI에 대한 정렬 데이터를 다룹니다.
그림 4a는 SFT 반복 프로세스 전반에 걸쳐 주요 지표의 변화를 보여줍니다.
훈련 초기에 모델은 명시적 “생각” 토큰을 사용하기 시작했는데, 이는 모델이 이 얕은 구조화된 형식을 빠르게 학습했음을 나타냅니다.
그러나 그림 4a에서 볼 수 있듯이 chain-of-thought 모듈의 효과와 모델의 추론 능력은 훈련 과정 전반에 걸쳐 개선되고 있는데, 이는 모델이 형식을 복사하는 것이 아니라 실제로 추론 기술을 배우고 있음을 나타냅니다.
흥미롭게도 강화 학습과 달리 연구자들은 SFT 과정에서 응답 길이의 증가를 보지 못했습니다.
사실 그림 4b에서 볼 수 있듯이 평균 응답 길이는 약간 감소했습니다.
이는 훈련이 진행됨에 따라 모델이 토큰 예산을 더 효과적으로 사용하는 방법을 배우고 있음을 보여줍니다.
다양한 훈련 전략을 체계적으로 평가하기 위해 그들은 고정 벤치마크인 AIME 2024 및 GPQA 다이아몬드를 진행 상황의 지표로 사용했습니다.
전반적으로 실험 방법은 탐색과 확장이라는 두 단계로 나눌 수 있습니다.
탐색 단계에서 연구자들은 더 짧은 훈련 주기와 제한된 데이터 소스 및 필드를 사용하여 강력한 훈련 방법을 빠르게 반복하고 추출했습니다.
이후 확장 단계에서 연구자들은 초기 위험 감소 실험 결과를 요약하고 SFT 설정을 완료했습니다.
그림 5는 이 진행 상황을 요약하고 몇 가지 주요 설계 선택에 대한 제거 실험을 강조합니다.
그림 5는 몇 가지 예제 실험을 사용하여 표현하는 Phi-4-reasoning 감독 학습(SFT) 실험 주기의 고급 개요를 보여줍니다. 각 점 클러스터는 특정 훈련 설계 선택의 실험 결과를 나타냅니다.
그림 7은 GRPO 훈련 과정에서 Phi-4-reasoning-plus 모델의 주요 결과를 보여줍니다.
감독 학습(SFT) 기본 모델 Phi-4-reasoning부터 시작하여 GRPO 훈련 90단계만으로 AIME 성능이 10% 이상 향상되었습니다(그림 7a).
훈련 단계를 계속 늘려도 추가 이점은 없었는데, 이는 강력한 SFT 모델의 잠재력이 성능 상한에 가깝다는 것을 나타냅니다. GRPO 훈련의 출력이 31k 토큰 이내로 제한되어 GRPO의 최적화 공간을 객관적으로 제한한다는 점에 유의해야 합니다.
그림 7c에서 볼 수 있듯이 응답 길이는 AIME 성능과 강력한 상관 관계가 있는 반면 보상 점수와 AIME 점수 간의 상관 관계는 약합니다. 이 응답 길이 증가 효과는 GRPO 훈련의 예상 효과입니다. 모델은 “생각 시간”을 늘려 추론 능력을 향상시킵니다.
그림 7d는 보상 모델의 설계로 인해 잘못된 답변의 생성 길이가 올바른 답변보다 훨씬 빠르게 증가한다는 것을 추가로 보여줍니다(모델의 현재 답변이 잘못된 경우 시스템은 모델이 더 오래 생각하도록 권장합니다).
사실 응답 길이(특히 중앙값을 훨씬 초과하는 긴 응답)를 기반으로 거부 샘플링을 수행하면 GRPO 성능이 더욱 향상될 수 있습니다.
그림 7d에서 볼 수 있듯이 훈련 과정에서 더 짧은 응답(하위 25% 분위수에 위치한 길이)의 성장 추세는 올바른 답변의 평균 길이와 유사한 반면 잘못된 답변의 길이는 전체 응답 길이의 75% 분위수에 더 가깝습니다.
이러한 차별화 현상은 길이 기반 거부 샘플링이 지나치게 긴 잘못된 출력을 억제하여 모델 효율성을 향상시킬 수 있음을 나타냅니다.