마이크로소프트 연구소는 수학 추론 분야에서 고급 수준을 끌어올리기 위해 140억 개의 매개변수를 가진 소형 언어 모델인 Phi-4를 발표했습니다. 이 모델은 원래 Azure AI Foundry에서 제공되었으며 최근 MIT 라이선스로 Hugging Face에서 개방되었습니다.
Phi-4의 혁신적인 특징
마이크로소프트에 따르면 Phi-4는 수학적 추론에서 동급 및 더 큰 모델보다 뛰어난 성능을 보입니다. 이는 훈련 과정에서 다음과 같은 여러 혁신적인 기술을 채택한 결과입니다.
- 합성 데이터 사전 훈련 및 중간 훈련: 합성 데이터를 사용하여 사전 훈련 및 중간 훈련을 수행하여 모델에 더 구조화된 학습 경로를 제공합니다.
- 유기 데이터 관리: 유기 데이터를 신중하게 관리하고 선별하여 훈련 데이터의 품질을 보장합니다.
- 새로운 후처리 계획: 모델 성능을 더욱 향상시키기 위해 새로운 후처리 방법을 사용합니다.
이러한 혁신을 통해 Phi-4는 STEM 중심의 질의응답 능력에서 교사 모델인 GPT-4o를 능가했으며, 마이크로소프트의 데이터 생성 및 후처리 기술이 단순히 지식 증류가 아님을 입증했습니다.
합성 데이터의 독특한 장점
대형 언어 모델(LLM) 훈련에서 합성 데이터의 사용은 새로운 것이 아니며 Phi 모델도 이 방법을 사용했습니다. 마이크로소프트는 합성 데이터가 저렴한 대체품이 아니며 다음과 같은 점에서 유기 데이터보다 우수하다고 지적했습니다.
- 더 점진적인 학습 경로: 합성 데이터는 LLM이 초기 문제 설명부터 최종 솔루션까지 점진적으로 학습하도록 안내하여 추론 과정을 더 쉽게 이해할 수 있도록 합니다.
- 추론 환경과의 더 나은 정렬: 문제 설명과 최종 솔루션이 포함된 유기 데이터와 달리 합성 데이터는 실제 추론 시나리오에 더 적합한 자세한 단계별 추론 프로세스를 제공할 수 있습니다.
신중하게 관리된 유기 데이터
합성 데이터 외에도 마이크로소프트는 공공 웹사이트 및 외부 데이터세트에서 수집한 수천만 개의 고품질 수학 문제와 솔루션을 포함하여 신중하게 관리된 유기 데이터를 사용했습니다. 정확한 솔루션이 제공되지 않은 경우에는 다수결 투표 방법을 사용하여 솔루션을 합성 생성하여 정확성을 높였습니다. 또한 학술 논문, 교육 포럼 및 프로그래밍 튜토리얼도 수집했습니다.
마이크로소프트는 합성 데이터 생성에서 고품질 자연 데이터의 중요한 역할을 강조하며, 작은 오류라도 파생 합성 문서의 품질을 심각하게 저하시킬 수 있다고 지적했습니다. 따라서 웹 데이터 관리를 개선하는 데 많은 노력을 기울였습니다.
Phi-4의 후처리 단계
Phi-4의 후처리 단계는 이를 신뢰할 수 있는 AI 도우미로 전환하는 것을 목표로 합니다. 이 단계에는 다음 단계가 포함됩니다.
- 미세 조정: 수학, 코딩, 추론, 대화, 모델 정체성 및 보안과 같은 다양한 영역에서 생성된 고품질 데이터를 사용하여 모델을 미세 조정합니다.
- 직접 선호도 최적화(DPO): 모델을 인간의 선호도에 더 잘 맞추고 바람직하지 않은 동작을 제거하기 위해 두 가지 DPO 단계를 수행합니다.
- Pivotal Token Search: 첫 번째 단계에서 마이크로소프트는 Pivotal Token Search라는 새로운 기술을 사용하여 필요한 결과/불필요한 결과 쌍을 생성합니다.
- GPT-4o를 평가자로 사용: 두 번째 단계에서는 GPT-4o를 평가자로 사용하여 각 결과 쌍에 긍정적 또는 부정적 레이블을 지정합니다.
Phi-4의 평가
Phi-4는 OpenAI의 SIMPLE-EVALS 프레임워크를 사용하여 평가되었으며 여러 벤치마크에서 Llama-3.1-405B를 능가했습니다. 또한 GPQA(대학원 수준 STEM 질의응답) 및 MATH(수학 경시대회) 벤치마크에서도 교사 모델인 GPT-4o를 능가했습니다.
Phi-4 모델의 훈련 데이터 상세 분석
마이크로소프트는 Phi-4 모델을 훈련할 때 합성 데이터와 엄선된 실제 데이터를 중심으로 신중하게 설계된 데이터 전략을 사용했습니다. 이러한 조합 방식은 모델의 학습 과정을 최적화하고 수학적 추론에서 뛰어난 성능을 발휘하도록 하는 것을 목표로 합니다.
합성 데이터 생성
합성 데이터는 Phi-4 훈련에서 중요한 역할을 합니다. 마이크로소프트 팀은 합성 데이터를 실제 데이터의 단순한 대체품으로 여기지 않고 모델이 점진적으로 학습하도록 안내할 수 있는 도구로 간주했습니다. 합성 데이터 생성 과정은 일반적으로 다음 단계를 따릅니다.
- 문제 생성: 먼저 미리 정의된 규칙과 템플릿에 따라 다양한 수학 문제를 생성합니다. 이러한 문제는 모델의 포괄적인 학습을 보장하기 위해 다양한 수학 분야와 난이도 수준을 다룹니다.
- 단계별 솔루션: 생성된 각 문제에 대해 문제 설명부터 최종 답변까지의 추론 과정을 자세히 설명하는 단계별 솔루션을 만듭니다. 이러한 단계별 솔루션에는 최종 답변뿐만 아니라 중간 단계와 추론 논리가 포함되어 모델이 문제 해결 과정을 이해하는 데 도움이 됩니다.
- 데이터 증강: 데이터의 다양성을 높이기 위해 합성 데이터를 문제의 어구 변경, 숫자 조정 또는 다른 해결 방법 사용과 같은 방식으로 증강합니다.
엄선된 실제 데이터
합성 데이터 외에도 Phi-4 훈련에는 엄선된 대량의 실제 데이터가 사용되었습니다. 이 데이터는 다양한 공공 웹사이트, 학술 논문, 교육 포럼 및 프로그래밍 튜토리얼에서 가져왔으며 다음 유형을 포함합니다.
- 수학 문제 및 해답: 공공 웹사이트 및 외부 데이터세트에서 수백만 개의 고품질 수학 문제와 그 해답을 수집했습니다. 이러한 문제는 다양한 수학 분야와 난이도 수준을 다룹니다.
- 학술 논문: 모델의 이해 능력과 추론 능력을 향상시키기 위해 심층적인 수학 개념과 이론을 제공하는 대량의 학술 논문을 수집했습니다.
- 교육 포럼: 교육 포럼에서 학생들이 제기한 질문과 전문가가 제공한 해답을 수집하여 모델이 다양한 관점에서 수학 문제를 이해할 수 있도록 했습니다.
- 프로그래밍 튜토리얼: 모델의 프로그래밍 능력을 향상시키기 위해 다양한 프로그래밍 언어와 알고리즘을 다루는 대량의 프로그래밍 튜토리얼을 수집했습니다.
데이터 품질 관리
마이크로소프트는 훈련 데이터의 정확성과 일관성을 보장하기 위해 데이터 품질 관리에 많은 노력을 기울였습니다. 다음 조치를 취했습니다.
- 수동 검토: 일부 주요 데이터세트에 대해 데이터의 정확성과 품질을 보장하기 위해 수동 검토를 수행합니다.
- 다수결 투표: 정확한 솔루션이 제공되지 않은 문제에 대해서는 다수결 투표 방법을 사용하여 솔루션을 생성하여 정확성을 높입니다.
- 데이터 정리: 모든 데이터를 정리하여 중복 데이터, 오류 데이터 및 관련 없는 데이터를 제거합니다.
후처리 전략 상세 분석
Phi-4의 후처리 단계는 이를 신뢰할 수 있는 AI 도우미로 전환하는 것을 목표로 하며, 이 단계는 주로 미세 조정과 직접 선호도 최적화(DPO)로 구성됩니다.
미세 조정 단계
미세 조정 단계의 목표는 모델이 다양한 작업과 영역에 적응하도록 하는 것입니다. 이 단계에서 마이크로소프트는 다음 영역에서 생성된 고품질 데이터를 사용했습니다.
- 수학: 모델의 수학적 추론 능력을 향상시키기 위한 다양한 수학 문제와 해답이 포함됩니다.
- 코딩: 모델의 코드 생성 및 이해 능력을 향상시키기 위한 다양한 프로그래밍 문제와 해답이 포함됩니다.
- 추론: 모델의 논리적 사고 능력을 향상시키기 위한 다양한 논리적 추론 문제가 포함됩니다.
- 대화: 모델의 자연어 이해 및 생성 능력을 향상시키기 위한 다양한 대화 데이터가 포함됩니다.
- 모델 정체성: 모델의 자체 능력에 대한 이해를 높이기 위한 다양한 모델 정체성 설명이 포함됩니다.
- 보안: 모델의 보안을 높이기 위한 다양한 보안 문제 및 해답이 포함됩니다.
직접 선호도 최적화(DPO) 단계
직접 선호도 최적화(DPO) 단계의 목표는 모델 동작을 인간의 선호도에 더 잘 맞추고 바람직하지 않은 동작을 제거하는 것입니다. 이 단계에는 두 가지 단계가 포함됩니다.
- Pivotal Token Search: 첫 번째 단계에서 마이크로소프트는 Pivotal Token Search라는 새로운 기술을 사용하여 필요한 결과/불필요한 결과 쌍을 생성합니다. 이 기술은 모델의 출력 공간을 검색하여 필요한 동작과 불필요한 동작을 구별할 수 있는 핵심 토큰을 찾습니다.
- GPT-4o를 평가자로 사용: 두 번째 단계에서는 GPT-4o를 평가자로 사용하여 각 결과 쌍에 긍정적 또는 부정적 레이블을 지정합니다. GPT-4o는 인간의 선호도에 따라 모델 출력을 평가할 수 있어 모델이 인간의 선호도를 더 잘 학습하는 데 도움이 됩니다.
Phi-4의 성능 평가
Phi-4의 성능을 평가하기 위해 마이크로소프트는 다양한 작업에서 모델의 성능을 평가할 수 있는 다양한 벤치마크를 포함하는 OpenAI의 SIMPLE-EVALS 프레임워크를 사용했습니다.
벤치마크 테스트
Phi-4는 다음 벤치마크 테스트에서 뛰어난 성능을 보였습니다.
- GPQA(대학원 수준 STEM 질의응답): 이 벤치마크 테스트에서 Phi-4는 교사 모델인 GPT-4o를 능가하여 STEM 분야에서 매우 강력한 질의응답 능력을 입증했습니다.
- MATH(수학 경시대회): 이 벤치마크 테스트에서도 Phi-4는 교사 모델인 GPT-4o를 능가하여 복잡한 수학 문제 해결 능력이 매우 뛰어남을 입증했습니다.
- 다른 모델과의 비교: 여러 벤치마크 테스트에서 Phi-4는 Llama-3.1-405B를 능가하여 전반적인 성능이 매우 강력함을 입증했습니다.
성능 분석
Phi-4의 성능 평가를 통해 다음과 같은 결론을 내릴 수 있습니다.
- 강력한 수학적 추론 능력: Phi-4는 수학적 추론에서 매우 뛰어난 성능을 보여줍니다. 이는 합성 데이터, 엄선된 실제 데이터, 후처리 전략을 포함하여 훈련 과정에서 채택한 혁신적인 방법 덕분입니다.
- 교사 모델 능가: 여러 벤치마크 테스트에서 Phi-4는 교사 모델인 GPT-4o를 능가하여 성능이 단순히 지식 증류가 아님을 입증했습니다.
- 다른 모델과의 비교: Phi-4는 여러 벤치마크 테스트에서 Llama-3.1-405B를 능가하여 전반적인 성능이 매우 강력함을 입증했습니다.
Phi-4의 응용 전망
복잡한 수학적 추론을 위해 특별히 설계된 소형 언어 모델인 Phi-4는 광범위한 응용 전망을 가지고 있습니다. 다음 분야에 적용할 수 있습니다.
- 교육: 수학 튜터링 도구로 사용되어 학생들이 수학 문제를 해결하고 맞춤형 학습 경험을 제공하는 데 도움이 될 수 있습니다.
- 연구: 연구자들이 수학적 모델링 및 데이터 분석을 수행하는 데 도움이 되는 연구 도구로 사용할 수 있습니다.
- 엔지니어링: 엔지니어가 설계 및 분석을 수행하는 데 도움이 되는 엔지니어링 도구로 사용할 수 있습니다.
- 금융: 금융 분석가가 위험 평가 및 투자 결정을 내리는 데 도움이 되는 금융 도구로 사용할 수 있습니다.
- 기타 분야: 의료, 물류 및 제조와 같이 복잡한 수학적 추론이 필요한 다른 분야에도 적용할 수 있습니다.
결론
마이크로소프트 Phi-4의 출시는 소형 언어 모델이 수학적 추론 분야에서 상당한 진전을 이루었음을 나타냅니다. 고유한 데이터 훈련 전략과 후처리 방법은 성능 면에서 동급 및 더 큰 모델을 능가했으며 미래 AI 개발에 대한 새로운 아이디어를 제공했습니다. Hugging Face에서 Phi-4가 오픈 소스로 공개됨에 따라 더 많은 연구원과 개발자에게 편의를 제공하고 모든 분야에서 AI 기술의 적용을 촉진할 것으로 믿습니다.