Microsoft는 Azure AI Foundry에서 Phi-3 출시 후 1년 만에 차세대 모델인 Phi-4-reasoning, Phi-4-reasoning-plus, Phi-4-mini-reasoning을 공개했습니다. 이러한 혁신은 SLM의 전환점을 맞이하며, 컴팩트하고 효율적인 AI로 달성할 수 있는 것을 재정의합니다.
Phi-Reasoning 모델의 등장
새로운 Phi-reasoning 모델은 다단계 분해와 내부 성찰을 요구하는 복잡한 작업을 위해 추론 시간 확장을 활용하도록 설계되었습니다. 이러한 모델은 수학적 추론에서 뛰어난 능력을 보여주며 복잡하고 다면적인 작업을 처리하는 에이전트와 같은 애플리케이션의 기반으로 자리 잡았습니다. 역사적으로 이러한 기능은 훨씬 더 큰 모델에만 국한되었습니다. Phi-reasoning 모델은 증류, 강화 학습 및 고품질 데이터를 활용하여 크기와 성능 간의 균형을 유지하는 새로운 범주의 SLM을 소개합니다. 컴팩트한 크기로 인해 대기 시간이 짧은 환경에 적합하며, 강력한 추론 능력은 훨씬 더 큰 모델에 필적합니다. 이러한 효율성과 기능의 조화 덕분에 리소스가 제한된 장치에서도 복잡한 추론 작업을 효과적으로 실행할 수 있습니다.
Phi-4-Reasoning 및 Phi-4-Reasoning-Plus: 더 깊이 살펴보기
Phi-4-Reasoning: 오픈 웨이트 추론 모델
Phi-4-reasoning은 140억 개의 매개변수를 가진 오픈 웨이트 추론 모델로 두드러집니다. 복잡한 추론 작업에서 훨씬 더 큰 모델과 경쟁하도록 설계되었습니다. 이 모델은 OpenAI의 o3-mini에서 파생된 세심하게 선별된 추론 예제에 대한 Phi-4의 지도 학습을 통해 훈련되었습니다. Phi-4-reasoning은 자세한 추론 체인을 생성하여 추론 중에 추가 계산 시간을 효과적으로 활용합니다. 이 성과는 정확한 데이터 큐레이션과 고품질 합성 데이터 세트가 어떻게 더 작은 모델이 더 큰 모델에 필적할 수 있게 하는지 강조합니다.
Phi-4-Reasoning-Plus: 강화 학습을 통한 추론 향상
Phi-4-reasoning의 기능을 기반으로 구축된 Phi-4-reasoning-plus는 추론 중에 추가 계산 시간을 활용하기 위해 강화 학습을 통해 추가 훈련을 거칩니다. Phi-4-reasoning보다 1.5배 더 많은 토큰을 처리하여 정확도가 향상되었습니다.
성능 벤치마크
크기가 훨씬 작음에도 불구하고 Phi-4-reasoning과 Phi-4-reasoning-plus는 수학적 추론 및 박사 수준의 과학적 문의를 포함한 다양한 벤치마크에서 OpenAI의 o1-mini 및 DeepSeek-R1-Distill-Llama-70B보다 성능이 뛰어납니다. 인상적으로는 2025년 미국 수학 올림피아드 예선 경쟁인 AIME 2025 테스트에서 전체 DeepSeek-R1 모델(6710억 개의 매개변수)까지 능가합니다. 두 모델 모두 Azure AI Foundry 및 Hugging Face에서 쉽게 액세스할 수 있습니다.
Phi-4-Mini-Reasoning: 제한된 환경을 위한 컴팩트 파워하우스
Phi-4-mini-reasoning은 컴팩트한 추론 모델에 대한 수요를 해결하기 위해 특별히 설계되었습니다. 이 트랜스포머 기반 언어 모델은 수학적 추론에 최적화되어 있으며 컴퓨팅 성능 또는 대기 시간이 제한된 환경에서 고품질의 단계별 문제 해결 기능을 제공합니다. Deepseek-R1 모델에서 생성된 합성 데이터를 사용하여 미세 조정되어 효율성과 고급 추론 기능의 균형을 효과적으로 유지합니다. 따라서 교육 애플리케이션, 내장형 튜터링 시스템 및 에지 또는 모바일 시스템에 대한 경량 배포에 이상적입니다. 이 모델은 중학교에서 박사 수준까지의 난이도를 가진 백만 개 이상의 다양한 수학 문제에 대해 훈련되어 광범위한 교육 컨텍스트에서 다양성과 효율성을 보장합니다.
Phi의 활약: 지평 확장
지난 1년 동안 Phi의 진화는 다양한 요구 사항에 맞는 새로운 기능을 포함하도록 제품군이 확장됨에 따라 크기에 비해 품질의 경계를 꾸준히 넓혀 왔습니다. 이러한 모델은 다양한 Windows 11 장치에서 CPU와 GPU 모두에서 로컬로 실행할 수 있으므로 다양한 하드웨어 구성을 가진 사용자에게 유연성과 접근성을 제공합니다.
Copilot+ PC와의 통합: AI 기반 컴퓨팅의 새로운 시대
Phi 모델은 NPU에 최적화된 Phi Silica 변형을 활용하여 Copilot+ PC의 필수적인 부분을 형성합니다. 운영 체제에서 관리하는 이 고효율 버전의 Phi는 메모리에 미리 로드되도록 설계되어 빠른 응답 시간과 에너지 효율적인 토큰 처리량을 제공합니다. 따라서 PC의 다른 애플리케이션과 동시에 호출하여 멀티태스킹 기능과 전체 시스템 성능을 향상시킬 수 있습니다.
실제 애플리케이션
Phi 모델은 화면의 모든 콘텐츠에 대한 지능형 텍스트 도구를 제공하는 Click to Do와 같은 핵심 경험에서 이미 활용되고 있습니다. 또한 애플리케이션에 원활하게 통합할 수 있는 개발자 API로도 제공됩니다. 이 모델은 현재 Outlook과 같은 다양한 생산성 애플리케이션에서 사용되어 오프라인 Copilot 요약 기능을 제공합니다. Phi-4-reasoning 및 Phi-4-mini-reasoning 모델은 Phi Silica에 대한 저비트 최적화를 활용하며 곧 Copilot+ PC NPU에서 실행할 수 있게 될 것입니다.
Microsoft의 책임감 있는 AI 및 안전에 대한 약속
Microsoft에서 책임감 있는 AI는 Phi 모델을 포함한 AI 시스템의 개발 및 배포를 안내하는 기본 원칙입니다. Phi 모델은 책임성, 투명성, 공정성, 신뢰성 및 안전, 개인 정보 보호 및 보안, 포용성이라는 Microsoft AI 원칙에 따라 개발됩니다. Phi 모델 제품군은 지도 학습 미세 조정(SFT), 직접 선호도 최적화(DPO) 및 인간 피드백 강화 학습(RLHF) 기술의 조합을 활용하여 책임감 있고 윤리적인 사용을 보장하는 강력한 사후 훈련 안전 접근 방식을 사용합니다.
Phi 모델의 기술적 기반: 상세 검토
Microsoft의 Phi 모델은 특히 비교적 적은 매개변수로 복잡한 추론 작업을 수행하는 능력 면에서 소형 언어 모델 분야에서 상당한 발전을 나타냅니다. 이 섹션에서는 이러한 모델이 어떻게 그렇게 인상적인 성능을 달성할 수 있는지 가능하게 하는 기술적 세부 사항을 자세히 살펴봅니다.
아키텍처 혁신
Phi 모델은 자연어 처리에서 혁명을 일으킨 딥 러닝 모델인 트랜스포머 아키텍처를 기반으로 합니다. 트랜스포머는 텍스트에서 장거리 종속성을 캡처하는 데 탁월하여 모델이 언어의 컨텍스트와 뉘앙스를 이해할 수 있도록 합니다.
어텐션 메커니즘: 트랜스포머 아키텍처의 핵심은 모델이 출력을 생성할 때 입력의 가장 관련성이 높은 부분에 집중할 수 있도록 하는 어텐션 메커니즘입니다. 이는 모델이 올바른 결론에 도달하기 위해 핵심 정보와 관계를 식별해야 하는 추론 작업에 특히 중요합니다.
스케일링된 점곱 어텐션: Phi 모델은 점곱이 너무 커지는 것을 방지하기 위해 스케일링 요소를 포함하는 어텐션 메커니즘의 세련된 버전인 스케일링된 점곱 어텐션을 활용합니다. 이는 훈련 중에 불안정을 초래할 수 있습니다.
멀티 헤드 어텐션: 입력의 다양한 측면을 캡처하기 위해 Phi 모델은 여러 어텐션 메커니즘이 병렬로 작동하는 멀티 헤드 어텐션을 사용합니다. 각 헤드는 입력의 다른 하위 집합에 초점을 맞춰 모델이 더 복잡한 표현을 학습할 수 있도록 합니다.
피드 포워드 네트워크: 어텐션 계층 후 트랜스포머 아키텍처에는 정보를 추가로 처리하는 피드 포워드 네트워크가 포함됩니다. 이러한 네트워크는 어텐션 출력에서 특징을 추출하는 방법을 배우는 여러 계층의 뉴런으로 구성됩니다.
훈련 방법론: 다각적인 접근 방식
Phi 모델의 훈련에는 지도 학습 미세 조정, 강화 학습 및 데이터 증류를 포함한 다양한 기술이 포함됩니다.
지도 학습 미세 조정 (SFT): 지도 학습 미세 조정은 입력이 질문 또는 문제이고 출력이 올바른 답변 또는 솔루션인 레이블이 지정된 데이터 세트에서 모델을 훈련하는 것을 포함합니다. 이는 모델이 특정 입력을 해당 출력과 연결하는 방법을 배우는 데 도움이 됩니다.
강화 학습 (RL): 강화 학습은 모델이 환경과 상호 작용하고 해당 작업에 대한 보상 또는 페널티를 받음으로써 결정을 내리는 방법을 배우는 기술입니다. 언어 모델의 컨텍스트에서 환경은 규칙 또는 제약 조건 집합일 수 있으며 보상은 모델 응답의 정확성을 기반으로 할 수 있습니다.
데이터 증류: 데이터 증류는 더 작고 더 복잡한 모델의 동작을 모방하도록 더 작은 모델을 훈련하는 기술입니다. 이를 통해 더 작은 모델은 더 적은 리소스를 필요로 하면서 더 큰 모델과 비슷한 성능을 달성할 수 있습니다.
데이터 큐레이션: 성능의 초석
Phi 모델의 성능은 훈련에 사용되는 데이터의 품질에 크게 의존합니다. Microsoft는 특히 추론 작업을 위해 설계된 고품질 데이터 세트를 큐레이션하는 데 상당한 노력을 투자했습니다.
합성 데이터 생성: 사용 가능한 데이터를 늘리기 위해 Microsoft는 실제 데이터의 특성을 모방하는 합성 데이터를 생성하는 기술을 개발했습니다. 이를 통해 모델을 더 크고 다양한 데이터 세트에서 훈련할 수 있으며 일반화 능력이 향상됩니다.
데이터 필터링: Microsoft는 훈련 데이터 세트에서 노이즈가 많거나 관련성이 없는 데이터를 제거하기 위해 엄격한 데이터 필터링 기술을 사용합니다. 이를 통해 모델이 깨끗하고 정확한 데이터로 훈련되어 더 나은 성능을 얻을 수 있습니다.
데이터 증강: 데이터 증강 기술은 기존 데이터에 변환을 적용하여 훈련 데이터 세트의 다양성을 높이는 데 사용됩니다. 이는 모델이 입력의 변동에 더 강력하도록 돕습니다.
최적화 기술: 효율성과 정확성의 균형
Phi 모델은 효율성과 정확성을 모두 위해 최적화되어 리소스가 제한된 장치에서 성능을 저하시키지 않고 실행할 수 있습니다.
양자화: 양자화는 모델 매개변수의 정밀도를 줄이는 기술로, 모델의 메모리 공간과 계산 요구 사항을 줄입니다.
가지치기: 가지치기는 모델에서 중요하지 않은 연결을 제거하는 기술로, 모델의 크기와 복잡성을 줄입니다.
지식 증류: 지식 증류는 더 크고 더 복잡한 모델에서 더 작은 모델로 지식을 전송하는 것을 포함합니다. 이를 통해 더 작은 모델은 더 적은 리소스를 필요로 하면서 더 큰 모델과 비슷한 성능을 달성할 수 있습니다.
Phi Silica NPU: 하드웨어-소프트웨어 시너지 접근 방식
Microsoft의 Phi 모델은 딥 러닝 워크로드에 최적화된 특수 하드웨어 가속기인 Phi Silica NPU (Neural Processing Unit)와 긴밀하게 통합되도록 설계되었습니다.
저비트 최적화: Phi Silica NPU는 저비트 최적화를 지원하므로 모델이 정밀도를 줄여서 실행할 수 있어 메모리 공간과 계산 요구 사항을 더욱 줄일 수 있습니다.
메모리에 미리 로드: Phi 모델은 메모리에 미리 로드되도록 설계되어 빠르고 효율적으로 호출할 수 있습니다.
운영 체제 관리: Phi Silica NPU는 운영 체제에서 관리하므로 사용자 경험에 원활하게 통합될 수 있습니다.
요약하자면 Microsoft의 Phi 모델은 소형 언어 모델 분야에서 상당한 성과를 나타냅니다. Microsoft는 혁신적인 아키텍처 설계, 엄격한 훈련 방법론, 신중한 데이터 큐레이션 및 하드웨어-소프트웨어 공동 설계를 결합하여 강력하고 효율적인 모델 제품군을 만들어 광범위한 AI 기반 애플리케이션을 지원합니다.