Phi-4-Multimodal: 멀티모달 AI를 위한 통합 접근 방식
Phi-4-multimodal은 마이크로소프트가 멀티모달 언어 모델 영역에 처음으로 진출한 선구적인 모델입니다. 56억 개의 매개변수를 가진 이 획기적인 모델은 음성, 시각 및 텍스트 처리를 단일하고 응집력 있는 아키텍처 내에서 원활하게 통합합니다. 이러한 혁신적인 접근 방식은 귀중한 고객 피드백에서 직접 비롯되었으며, 지속적인 개선과 사용자 요구에 대한 대응을 위한 마이크로소프트의 노력을 반영합니다.
Phi-4-multimodal의 개발은 고급 교차 모달 학습 기술을 활용합니다. 이를 통해 모델은 보다 자연스럽고 상황을 인식하는 상호 작용을 촉진할 수 있습니다. Phi-4-multimodal이 장착된 장치는 다양한 입력 양식을 동시에 이해하고 추론할 수 있습니다. 음성 언어 해석, 이미지 분석, 텍스트 정보 처리에 탁월합니다. 또한, 온디바이스 실행에 최적화되어 계산 오버헤드를 최소화하면서 매우 효율적이고 짧은 대기 시간의 추론을 제공합니다.
Phi-4-multimodal의 정의 기능 중 하나는 통합 아키텍처입니다. 서로 다른 양식에 대해 복잡한 파이프라인이나 별도의 모델에 의존하는 기존 접근 방식과 달리 Phi-4-multimodal은 단일 엔터티로 작동합니다. 동일한 표현 공간 내에서 텍스트, 오디오 및 시각적 입력을 능숙하게 처리합니다. 이 간소화된 디자인은 효율성을 높이고 개발 프로세스를 단순화합니다.
Phi-4-multimodal의 아키텍처는 성능과 다양성을 향상시키기 위해 몇 가지 개선 사항을 통합합니다. 여기에는 다음이 포함됩니다.
- 더 큰 어휘: 향상된 처리 기능을 용이하게 합니다.
- 다국어 지원: 다양한 언어 컨텍스트에서 모델의 적용 가능성을 확장합니다.
- 통합 언어 추론: 언어 이해와 멀티모달 입력을 결합합니다.
이러한 발전은 장치 및 에지 컴퓨팅 플랫폼에 배포하기에 이상적인 작고 매우 효율적인 모델 내에서 달성됩니다. Phi-4-multimodal의 확장된 기능과 적응성은 혁신적인 방식으로 AI를 활용하려는 애플리케이션 개발자, 기업 및 산업에 다양한 가능성을 열어줍니다.
음성 관련 작업 영역에서 Phi-4-multimodal은 개방형 모델 중 선두 주자로 부상하면서 탁월한 기량을 입증했습니다. 특히 자동 음성 인식(ASR) 및 음성 번역(ST) 모두에서 WhisperV3 및 SeamlessM4T-v2-Large와 같은 특수 모델을 능가합니다. HuggingFace OpenASR 리더보드에서 1위를 차지했으며, 2025년 2월 현재 이전 최고치인 6.5%를 능가하는 6.14%의 인상적인 단어 오류율을 달성했습니다. 또한 GPT-4o 모델과 비슷한 성능 수준을 달성하면서 음성 요약을 성공적으로 구현할 수 있는 몇 안 되는 개방형 모델 중 하나입니다.
Phi-4-multimodal은 음성 질의응답(QA) 작업에서 Gemini-2.0-Flash 및 GPT-4o-realtime-preview와 같은 모델에 비해 약간의 차이를 보이지만, 이는 주로 크기가 작고 그에 따른 사실적 QA 지식 유지의 한계 때문이며, 향후 반복에서 이 기능을 향상시키기 위한 노력이 진행 중입니다.
음성 외에도 Phi-4-multimodal은 다양한 벤치마크에서 놀라운 시각적 기능을 보여줍니다. 특히 수학적 및 과학적 추론에서 강력한 성능을 달성합니다. 컴팩트한 크기에도 불구하고 이 모델은 다음을 포함한 일반적인 멀티모달 작업에서 경쟁력 있는 성능을 유지합니다.
- 문서 및 차트 이해
- 광학 문자 인식(OCR)
- 시각 과학 추론
Gemini-2-Flash-lite-preview 및 Claude-3.5-Sonnet과 같은 유사한 모델의 성능과 비슷하거나 능가합니다.
Phi-4-Mini: 텍스트 기반 작업을 위한 소형 파워하우스
Phi-4-multimodal을 보완하는 Phi-4-mini는 텍스트 기반 작업에서 속도와 효율성을 위해 설계된 38억 개의 매개변수 모델입니다. 이 밀도가 높은 디코더 전용 트랜스포머는 다음을 특징으로 합니다.
- 그룹화된 쿼리 어텐션
- 200,000단어 어휘
- 공유된 입력-출력 임베딩
작은 크기에도 불구하고 Phi-4-mini는 다음을 포함한 다양한 텍스트 기반 작업에서 더 큰 모델보다 지속적으로 우수한 성능을 보입니다.
- 추론
- 수학
- 코딩
- 지시 따르기
- 함수 호출
최대 128,000개의 토큰 시퀀스를 지원하여 탁월한 정확성과 확장성을 제공합니다. 이를 통해 텍스트 처리에서 고성능을 요구하는 고급 AI 애플리케이션을 위한 강력한 솔루션이 됩니다.
함수 호출, 지시 따르기, 긴 컨텍스트 처리 및 추론은 모두 Phi-4-mini와 같은 소형 언어 모델이 외부 지식 및 기능에 액세스할 수 있도록 하여 작은 크기로 인한 한계를 효과적으로 극복할 수 있는 강력한 기능입니다. 표준화된 프로토콜을 통해 함수 호출은 모델이 구조화된 프로그래밍 인터페이스와 원활하게 통합될 수 있도록 합니다.
사용자 요청이 있을 때 Phi-4-mini는 다음을 수행할 수 있습니다.
- 쿼리를 통해 추론합니다.
- 적절한 매개변수를 사용하여 관련 함수를 식별하고 호출합니다.
- 함수 출력을 수신합니다.
- 이러한 결과를 응답에 통합합니다.
이를 통해 모델의 기능이 잘 정의된 함수 인터페이스를 통해 외부 도구, 애플리케이션 프로그래밍 인터페이스(API) 및 데이터 소스에 연결하여 확장될 수 있는 확장 가능한 에이전트 기반 시스템이 생성됩니다. 대표적인 예는 Phi-4-mini로 구동되는 스마트 홈 제어 에이전트로, 다양한 장치와 기능을 원활하게 관리합니다.
Phi-4-mini와 Phi-4-multimodal의 작은 설치 공간은 컴퓨팅 제약이 있는 추론 환경에 매우 적합합니다. 이러한 모델은 특히 크로스 플랫폼 가용성을 위해 ONNX Runtime으로 추가 최적화된 경우 온디바이스 배포에 특히 유리합니다. 계산 요구 사항이 감소하면 비용이 절감되고 대기 시간이 크게 개선됩니다. 확장된 컨텍스트 창을 통해 모델은 문서, 웹 페이지, 코드 등을 포함한 광범위한 텍스트 콘텐츠를 처리하고 추론할 수 있습니다. Phi-4-mini와 Phi-4-multimodal은 모두 강력한 추론 및 논리 기능을 보여 분석 작업에 강력한 경쟁자로 자리매김합니다. 또한 작은 크기로 인해 미세 조정 또는 사용자 정의 비용이 단순화되고 절감됩니다.
실제 애플리케이션: 산업 혁신
이러한 모델의 설계는 복잡한 작업을 효율적으로 처리할 수 있도록 하여 에지 컴퓨팅 시나리오 및 제한된 계산 리소스가 있는 환경에 이상적입니다. Phi-4-multimodal 및 Phi-4-mini의 확장된 기능은 다양한 산업 분야에서 Phi의 애플리케이션 범위를 넓히고 있습니다. 이러한 모델은 AI 에코시스템에 통합되고 있으며 광범위한 사용 사례를 탐색하는 데 사용되고 있습니다.
다음은 몇 가지 흥미로운 예입니다.
Windows에 통합: 언어 모델은 강력한 추론 엔진 역할을 합니다. Phi와 같은 소형 언어 모델을 Windows에 통합하면 효율적인 컴퓨팅 기능을 유지할 수 있으며 모든 애플리케이션 및 사용자 경험에 원활하게 통합된 지속적인 인텔리전스의 미래를 위한 길을 열 수 있습니다. Copilot+ PC는 Phi-4-multimodal의 기능을 활용하여 과도한 에너지 소비 없이 Microsoft의 고급 SLM의 성능을 제공합니다. 이러한 통합은 생산성, 창의성 및 교육 경험을 향상시켜 개발자 플랫폼의 새로운 표준을 수립합니다.
스마트 장치: 스마트폰 제조업체가 Phi-4-multimodal을 장치에 직접 내장한다고 상상해 보십시오. 이를 통해 스마트폰은 음성 명령을 처리 및 이해하고, 이미지를 인식하고, 텍스트를 원활하게 해석할 수 있습니다. 사용자는 실시간 언어 번역, 향상된 사진 및 비디오 분석, 복잡한 쿼리를 이해하고 응답할 수 있는 지능형 개인 비서와 같은 고급 기능을 활용할 수 있습니다. 이를 통해 장치에서 직접 강력한 AI 기능을 제공하여 짧은 대기 시간과 높은 효율성을 보장함으로써 사용자 경험을 크게 향상시킬 수 있습니다.
자동차 산업: 자동차 회사가 Phi-4-multimodal을 차량 내 보조 시스템에 통합한다고 가정해 보겠습니다. 이 모델을 통해 차량은 음성 명령을 이해하고 응답하고, 운전자 제스처를 인식하고, 카메라의 시각적 입력을 분석할 수 있습니다. 예를 들어, 얼굴 인식을 통해 졸음을 감지하고 실시간 경고를 제공하여 운전자 안전을 향상시킬 수 있습니다. 또한 원활한 내비게이션 지원을 제공하고, 도로 표지판을 해석하고, 상황 정보를 제공하여 클라우드에 연결되어 있을 때와 연결이 불가능한 오프라인 상태 모두에서 보다 직관적이고 안전한 운전 경험을 제공할 수 있습니다.
다국어 금융 서비스: 금융 서비스 회사가 Phi-4-mini를 활용하여 복잡한 재무 계산을 자동화하고, 자세한 보고서를 생성하고, 재무 문서를 여러 언어로 번역한다고 상상해 보십시오. 이 모델은 위험 평가, 포트폴리오 관리 및 재무 예측에 중요한 복잡한 수학적 계산을 수행하여 분석가를 지원할 수 있습니다. 또한 재무 제표, 규제 문서 및 고객 커뮤니케이션을 다양한 언어로 번역하여 글로벌 고객 관계를 강화할 수 있습니다.
안전 및 보안 보장
Azure AI Foundry는 조직이 AI 개발 수명 주기 전반에 걸쳐 AI 위험을 측정, 완화 및 관리하는 데 도움이 되는 강력한 기능 모음을 사용자에게 제공합니다. 이는 기존 머신 러닝 및 생성 AI 애플리케이션 모두에 적용됩니다. AI Foundry 내의 Azure AI 평가는 개발자가 내장 및 사용자 정의 메트릭을 모두 활용하여 모델 및 애플리케이션의 품질과 안전성을 반복적으로 평가하여 완화 전략을 알릴 수 있도록 합니다.
Phi-4-multimodal 및 Phi-4-mini는 모두 내부 및 외부 보안 전문가가 수행한 엄격한 보안 및 안전 테스트를 거쳤습니다. 이러한 전문가는 Microsoft AI Red Team(AIRT)에서 만든 전략을 사용했습니다. 이전 Phi 모델에서 개선된 이러한 방법론은 지원되는 모든 언어의 원어민과 글로벌 관점을 통합합니다. 여기에는 다음을 포함한 광범위한 영역이 포함됩니다.
- 사이버 보안
- 국가 안보
- 공정성
- 폭력
이러한 평가는 다국어 프로빙을 통해 현재 추세를 해결합니다. AIRT의 오픈 소스 Python Risk Identification Toolkit(PyRIT) 및 수동 프로빙을 활용하여 레드 팀원은 단일 턴 및 다중 턴 공격을 모두 수행했습니다. 개발 팀과 독립적으로 운영되는 AIRT는 모델 팀과 지속적으로 통찰력을 공유했습니다. 이 접근 방식은 최신 Phi 모델에서 도입된 새로운 AI 보안 및 안전 환경을 철저히 평가하여 고품질의 안전한 기능을 제공합니다.
Phi-4-multimodal 및 Phi-4-mini에 대한 포괄적인 모델 카드와 함께 제공되는 기술 문서는 이러한 모델의 권장 사용 및 제한 사항에 대한 자세한 개요를 제공합니다. 이러한 투명성은 책임감 있는 AI 개발 및 배포에 대한 Microsoft의 노력을 강조합니다. 이러한 모델은 AI 개발에 큰 영향을 미칠 것입니다.