Microsoft Phi-4: 강화 학습의 성공 사례

Microsoft의 오픈 소스 AI 모델 Phi 제품군은 OpenAI 투자만큼 널리 알려지지는 않았지만 꾸준히 성장하고 있습니다. 특히 Phi-4 Reasoning Plus는 강화 학습(RL)을 통해 벤치마크 테스트에서 뛰어난 결과를 보여줍니다.

Phi 시리즈는 적은 계산 능력과 저장 공간을 소비하도록 설계되었습니다. 꼼꼼한 연구와 최적화 기술을 통해 이 모델들은 기대치를 뛰어넘어 경쟁 모델보다 우수한 성능을 보이고 더 큰 모델에 도전합니다.

140억 개의 파라미터를 가진 Phi-4 Reasoning 모델은 기본 Phi-4 모델에 지도 학습 미세 조정(SFT) 알고리즘을 적용하여 만들어졌습니다. 연구자들은 여기서 더 나아가 Phi-4 Reasoning 기반에 강화 학습(RL)을 활용하여 Phi-4 Reasoning Plus 모델을 개발했습니다.

놀랍게도 Phi-4 Reasoning 및 Phi-4 Reasoning Plus 모델은 700억 개의 파라미터를 가진 DeepSeek R1과 같은 훨씬 더 큰 모델보다 우수한 성능을 보였습니다. 이러한 성과는 코딩, 수학 문제 해결, 대학원 수준의 고급 과학 작업에서 특히 두드러집니다. 모델의 성능은 6,710억 개의 파라미터를 가진 DeepSeek R1 모델에 근접합니다.

Microsoft 연구원들은 모델의 성공 요인을 고품질 학습 데이터 세트 활용에 있다고 밝혔습니다. 이는 회사가 이전 모델에서 꾸준히 사용해 온 전략입니다. 이 데이터 세트는 다양한 코딩 및 STEM(과학, 기술, 엔지니어링, 수학) 분야에 걸쳐 신중하게 큐레이션된 140만 개 이상의 프롬프트로 구성됩니다. 각 프롬프트에는 OpenAI의 o3-mini 모델에서 생성된 광범위한 추론 과정이 포함된 정교하게 작성된 답변이 함께 제공됩니다.

학습 과정을 최적화하기 위해 연구자들은 기본 Phi-4 모델의 기능을 최대한 활용하는 프롬프트를 전략적으로 타겟팅했습니다. 여기에는 개선의 여지가 많은 프롬프트만 유지하도록 학습 데이터 세트를 필터링하는 작업이 포함됩니다.

강화 학습의 효과에 대한 추론

Phi-4 Reasoning Plus 개발은 두 단계로 진행되었습니다. 먼저 기본 Phi-4 모델의 지도 학습 미세 조정(SFT)을 통해 Phi-4 Reasoning을 도출한 다음 강화 학습(RL) 단계를 거쳤습니다. Phi-4 Reasoning Plus의 RL 구성 요소에 대한 더 깊은 통찰력을 얻기 위해 이 프로젝트에서 중요한 역할을 한 Microsoft 연구원 Harkirat Behl과의 직접적인 소통이 중요했습니다.

강화 학습(RL)은 AI 시스템이 실험을 통해 학습하는 고유한 학습 방법입니다. AI는 행동을 취하고 보상 또는 벌칙의 형태로 피드백을 받으며 장기적으로 바람직한 결과를 최대화하기 위해 의사 결정 과정을 반복적으로 개선합니다. 이 접근 방식은 AI 모델이 “추론”해야 하는 작업에 특히 유용합니다. 왜냐하면 엄격하고 미리 정의된 프로세스를 고수하는 것보다 원하는 결과를 달성하는 것을 우선시하기 때문입니다.

다음 단어를 예측하는 데만 집중하고 각 부정확성에 대해 모델에 벌칙을 주는 기존 모델과 달리 RL은 답변을 도출하는 방법에 더 큰 유연성을 제공합니다. 이 유연성을 통해 모델은 여러 잠재적 솔루션 경로가 있는 복잡한 문제를 탐색하고 궁극적으로 올바른 결론에 도달할 수 있습니다.

Behl에 따르면 RL은 모델이 “매우 긴 답변과 다양한 답변을 생성”할 수 있도록 하며 최종 결과의 정확성에 중점을 둡니다. 특정 단계를 따르는 것보다 결과에 중점을 두는 것은 인간이 문제 해결에 접근하는 방식과 유사합니다. 올바른 답으로 이어지기만 한다면 다양한 사고 과정이 허용됩니다.

Microsoft 모델에서 RL 단계는 수학적 추론에 초점을 맞추었습니다. 보상 시스템은 정확성을 장려하는 동시에 반복, 과도한 길이 및 부적절한 응답 형식에 대해 벌칙을 부과했습니다.

Behl은 연구자들이 주어진 질문에 대해 모델이 여러 답변을 생성하도록 허용했다고 설명했습니다. 그런 다음 각 답변은 생성된 답변 그룹 내의 평균 점수와 비교하여 점수가 매겨졌습니다.

이러한 상대적 점수는 모델이 일관되게 높은 점수를 받는 답변을 선호하도록 안내하는 피드백 메커니즘 역할을 합니다. 시간이 지남에 따라 이 프로세스는 모델이 원하는 보상 신호에 더 가깝게 응답하도록 훈련합니다.

연구자들은 제한된 6,400개의 문제 세트에 RL을 적용했을 때 다양한 수학 및 추론 평가에서 정확성이 크게 향상되었다는 것을 관찰했습니다.

“Phi-1, Phi-2, Phi-3 및 Phi-4를 구축한 결과, RL은 SFT 학습보다 훨씬 적은 데이터가 필요하다는 것을 알게 되었습니다.”라고 Behl은 말했습니다.

그는 RL이 모델에 완전히 새로운 기술을 처음부터 가르치는 것이 아니라 모델이 기존 기술을 효과적으로 결합하고 활용하여 더 나은 결과를 얻도록 안내하는 것이기 때문이라고 설명했습니다.

강화 학습을 통한 Microsoft의 성공은 다른 많은 AI 회사의 경험과 일치합니다. 추론 모델 개발의 선구자인 OpenAI는 반복적으로 RL이 프로젝트에 미치는 긍정적인 영향을 강조했습니다.

흥미롭게도 작년에 AI 환경을 파괴한 중국 모델인 DeepSeek R1도 RL 적용 덕분에 성공했다고 밝혔습니다. 또한 OpenAI의 여러 연구원과 엔지니어는 심층 연구 이니셔티브의 성공에서 RL의 중요한 역할을 공개적으로 인정했습니다.

최근에는 Alibaba의 Qwen 모델도 강화 학습을 지지하며 추론 모델에 미치는 중요한 영향을 강조했습니다. 블로그 게시물에서 회사는 “더 강력한 기반 모델과 확장된 계산 리소스에 의해 구동되는 RL을 결합하면 인공 일반 지능(AGI) 달성에 더 가까워질 것이라고 확신합니다.”라고 밝혔습니다.

그러나 Phi-4 Reasoning, Phi-4 Reasoning Plus 및 기타 여러 추론 모델의 성공에도 불구하고 이 분야는 여전히 몇 가지 과제에 직면해 있습니다.

지속적인 개선 노력

최근 몇 달 동안 많은 연구 논문에서 추론 모델의 기존 한계와 잠재적인 함정을 강조했습니다. 예를 들어 Phi-4 Reasoning에 대한 연구 논문에서 Microsoft 연구원들은 시간과 리소스의 과도한 소비, 느린 응답 시간, 가장 눈에 띄는 문제인 모델의 응답이 이전 추론 단계와 모순되는 문제와 계속 씨름하고 있다고 인정했습니다.

또 다른 중요한 발전으로 Anthropic은 추론 체인(종종 chain-of-thoughts 또는 CoT라고 함)이 모델의 실제 추론 과정을 일관되게 반영하지 않을 수 있다는 연구 결과를 발표했습니다. 연구자들은 모델이 올바른 답변으로 안내하기 위해 프롬프트에 삽입된 명시적 단서와 같은 외부 힌트를 자주 활용하지만 명시적인 추론 단계 내에서 이러한 힌트를 거의 인정하거나 구두로 표현하지 않는다는 사실을 발견했습니다. 모델의 내부 동작과 외부 설명 간의 이러한 불일치는 CoT를 모델 해석 가능성을 위한 신뢰할 수 있는 도구로 사용하고 안전을 보장하는 데 대한 우려를 제기합니다.

OpenAI조차도 고급 추론 모델이 “보상 해킹”에 참여하는 경향을 강조하는 연구 보고서를 발표했습니다. 보상 해킹은 AI 에이전트가 원래 의도하거나 원하는 방식으로 보상을 극대화하기 위해 정의된 목표 내에서 예측할 수 없는 허점이나 의도하지 않은 결과를 활용하는 상황을 의미합니다. OpenAI는 이 문제를 완화하기 위한 전략을 모색해 왔습니다. 예를 들어 o3-Mini와 같은 더 강력한 모델을 모니터링하기 위해 덜 강력한 모델(GPT-4o)을 사용하는 것입니다. 물론 이는 자체적인 복잡성과 잠재적 편향을 야기합니다.

OpenAI의 기술진인 Nat McAleese는 “대규모 추론 모델은 보상 해킹에 매우 능숙하다”라며 이 점을 설명하기 위해 보고서에서 직접 선택한 예를 인용했습니다.

“추론 체인에는 많은 중복이 있고 스스로 모순되며 답변되지 않은 질문이 많습니다.”라고 Behl은 말했습니다. “그러나 이는 진화하는 공간입니다. 우리 커뮤니티가 이 문제를 해결하고 모델이 어떻게 생각하는지 이해할 수 있다면 많은 이점이 있을 것입니다.” 추론 모델의 미래는 AI 커뮤니티 내에서 지속적인 연구와 협력을 통해 이러한 문제를 해결하는 데 달려 있습니다.