Phi 제품군 확장: 멀티모달 기능 소개
Microsoft는 급성장하는 SLM 분야에 Phi 제품군을 통해 기여하고 있습니다. Phi의 4세대 모델은 처음에 12월에 소개되었으며, 이제 Microsoft는 Phi-4-multimodal 및 Phi-4-mini라는 두 가지 중요한 추가 기능을 통해 라인업을 강화하고 있습니다. 이러한 새 모델은 이전 모델과 마찬가지로 Azure AI Foundry, Hugging Face 및 Nvidia API Catalog를 통해 MIT 라이선스로 쉽게 액세스할 수 있습니다.
특히 Phi-4-multimodal은 주목할 만합니다. 이 모델은 56억 개의 매개변수를 가진 모델로, ‘mixture-of-LoRAs’ (Low-Rank Adaptations)라는 정교한 기술을 활용합니다. 이 접근 방식은 모델이 음성, 시각적 입력 및 텍스트 데이터를 동시에 처리할 수 있도록 합니다. LoRA는 모든 매개변수에 대한 광범위한 미세 조정 없이 특정 작업에서 대규모 언어 모델의 성능을 향상시키는 새로운 방법을 나타냅니다. 대신 LoRA를 사용하는 개발자는 전략적으로 더 적은 수의 새로운 가중치를 모델에 삽입합니다. 새로 도입된 이러한 가중치만 학습을 거치므로 훨씬 빠르고 메모리 효율적인 프로세스가 가능합니다. 그 결과 훨씬 가볍고 저장, 공유 및 배포가 용이한 모델 모음이 생성됩니다.
이러한 효율성의 의미는 상당합니다. Phi-4-multimodal은 낮은 대기 시간 추론을 달성합니다. 즉, 정보를 처리하고 매우 빠르게 응답을 제공할 수 있으며, 온디바이스 실행에 최적화되어 있습니다. 이는 계산 오버헤드를 획기적으로 줄여 이전에는 필요한 처리 능력이 부족했던 장치에서 정교한 AI 애플리케이션을 실행할 수 있게 합니다.
잠재적 사용 사례: 스마트폰에서 금융 서비스까지
Phi-4-multimodal의 잠재적 응용 분야는 다양하고 광범위합니다. 스마트폰에서 원활하게 작동하여 차량 내 고급 기능을 지원하거나 경량 엔터프라이즈 애플리케이션을 구동하는 모델을 상상해 보십시오. 다국어 금융 서비스 애플리케이션은 사용자의 장치에서 효율적으로 작동하면서 다양한 언어로 된 사용자 쿼리를 이해하고 응답하며 문서와 같은 시각적 데이터를 처리할 수 있는 매력적인 예입니다.
업계 분석가들은 Phi-4-multimodal의 혁신적인 잠재력을 인식하고 있습니다. 특히 모바일 장치나 컴퓨팅 리소스가 제한된 환경을 위한 AI 기반 애플리케이션을 만드는 데 주력하는 개발자에게 중요한 진전으로 여겨집니다.
Forrester의 부사장이자 수석 분석가인 Charlie Dai는 텍스트, 이미지 및 오디오 처리를 강력한 추론 기능과 통합하는 모델의 능력을 강조합니다. 그는 이러한 조합이 AI 애플리케이션을 향상시켜 개발자와 기업에 “다재다능하고 효율적이며 확장 가능한 솔루션”을 제공한다고 강조합니다.
Everest Group의 파트너인 Yugal Joshi는 컴퓨팅 제약 환경에 배포하기 위한 모델의 적합성을 인정합니다. 그는 모바일 장치가 모든 생성 AI 사용 사례에 이상적인 플랫폼이 아닐 수 있다고 지적하면서도, 새로운 SLM이 대규모 컴퓨팅 인프라에 대한 의존도를 최소화하는 데 중점을 둔 또 다른 이니셔티브인 DeepSeek에서 Microsoft가 영감을 얻은 것으로 보고 있습니다.
벤치마킹 성능: 강점 및 성장 분야
벤치마크 성능과 관련하여 Phi-4-multimodal은 특히 음성 질문 응답(QA) 작업에서 Gemini-2.0-Flash 및 GPT-4o-realtime-preview와 같은 모델에 비해 성능 격차를 보입니다. Microsoft는 Phi-4 모델의 크기가 작기 때문에 질문 응답을 위한 사실적 지식을 유지하는 능력이 본질적으로 제한된다는 점을 인정합니다. 그러나 회사는 향후 모델 반복에서 이 기능을 향상시키기 위한 지속적인 노력을 강조합니다.
그럼에도 불구하고 Phi-4-multimodal은 다른 영역에서 인상적인 강점을 보여줍니다. 특히 수학 및 과학 추론, 광학 문자 인식(OCR) 및 시각 과학 추론과 관련된 작업에서 Gemini-2.0-Flash Lite 및 Claude-3.5-Sonnet을 포함한 여러 인기 LLM보다 뛰어난 성능을 보입니다. 이는 교육용 소프트웨어에서 과학 연구 도구에 이르기까지 광범위한 응용 분야에 중요한 기능입니다.
Phi-4-mini: 컴팩트한 크기, 인상적인 성능
Phi-4-multimodal과 함께 Microsoft는 Phi-4-mini도 도입했습니다. 이 모델은 38억 개의 매개변수를 자랑하는 더욱 컴팩트한 모델입니다. 밀도가 높은 디코더 전용 트랜스포머 아키텍처를 기반으로 하며 최대 128,000개의 토큰 시퀀스를 지원합니다.
Microsoft의 생성 AI 담당 부사장인 Weizhu Chen은 Phi-4-mini의 작은 크기에도 불구하고 놀라운 성능을 강조합니다. 새 모델에 대한 자세한 블로그 게시물에서 그는 Phi-4-mini가 “추론, 수학, 코딩, 지시 따르기 및 함수 호출을 포함한 텍스트 기반 작업에서 더 큰 모델을 계속 능가한다”고 언급합니다. 이는 더 작은 모델이 특정 응용 분야에서 상당한 가치를 제공할 수 있는 잠재력을 강조합니다.
IBM의 Granite 업데이트: 추론 기능 향상
SLM의 발전은 Microsoft에만 국한되지 않습니다. IBM은 또한 Granite 3.2 2B 및 8B 모델을 도입하여 Granite 기반 모델 제품군에 대한 업데이트를 발표했습니다. 이러한 새 모델은 향상된 추론 능력의 중요한 측면인 개선된 ‘사고 사슬(chain of thought)’ 기능을 제공합니다. 이러한 개선을 통해 모델은 이전 모델에 비해 우수한 성능을 달성할 수 있습니다.
또한 IBM은 문서 이해 작업을 위해 특별히 설계된 새로운 VLM(Vision Language Model)을 공개했습니다. 이 VLM은 DocVQA, ChartQA, AI2D 및 OCRBench1과 같은 벤치마크에서 Llama 3.2 11B 및 Pixtral 12B와 같이 훨씬 더 큰 모델의 성능과 일치하거나 능가하는 성능을 보여줍니다. 이는 특정 영역에서 경쟁력 있는 성능을 제공하는 더 작고 전문화된 모델의 증가 추세를 강조합니다.
온디바이스 AI의 미래: 패러다임 전환
Phi-4-multimodal 및 Phi-4-mini의 도입과 IBM의 Granite 업데이트는 강력한 AI 기능이 다양한 장치에서 쉽게 사용 가능한 미래를 향한 중요한 단계를 나타냅니다. 이러한 변화는 다양한 산업 및 응용 분야에 심오한 영향을 미칩니다.
- AI의 민주화: 더 작고 효율적인 모델은 대규모 컴퓨팅 리소스에 액세스할 수 있는 사용자뿐만 아니라 광범위한 개발자와 사용자가 AI에 액세스할 수 있도록 합니다.
- 향상된 개인 정보 보호 및 보안: 온디바이스 처리는 민감한 데이터를 클라우드로 전송할 필요성을 줄여 개인 정보 보호 및 보안을 강화합니다.
- 향상된 응답성 및 대기 시간: 로컬 처리는 클라우드 기반 AI와 관련된 지연을 제거하여 응답 시간을 단축하고 보다 원활한 사용자 경험을 제공합니다.
- 오프라인 기능: 온디바이스 AI는 인터넷 연결 없이도 작동할 수 있으므로 원격 또는 연결성이 낮은 환경에서 애플리케이션에 대한 새로운 가능성을 열어줍니다.
- 에너지 소비 감소: 더 작은 모델은 작동하는 데 더 적은 에너지를 필요로 하므로 모바일 장치의 배터리 수명을 연장하고 환경에 미치는 영향을 줄이는 데 기여합니다.
- 엣지 컴퓨팅 애플리케이션: 여기에는 자율 주행, 스마트 제조, 원격 의료와 같은 분야가 포함됩니다.
SLM의 발전은 AI 환경의 패러다임 전환을 주도하고 있습니다. 대규모 언어 모델은 계속해서 중요한 역할을 하지만 Phi 제품군과 같이 작고 효율적인 모델의 부상은 AI가 더욱 보편화되고 접근 가능하며 일상 생활에 통합되는 미래를 위한 길을 열어주고 있습니다. 초점은 단순한 크기에서 효율성, 전문화, 그리고 우리가 매일 사용하는 장치에서 직접 강력한 AI 기능을 제공하는 능력으로 이동하고 있습니다. 이러한 추세는 가속화되어 더욱 혁신적인 애플리케이션과 다양한 분야에서 AI의 광범위한 채택으로 이어질 가능성이 높습니다. 리소스가 제한된 장치에서 다중 모드 입력을 이해하는 것과 같은 복잡한 작업을 수행하는 기능은 인공 지능 발전의 새로운 장을 엽니다.
점점 더 지능적이고 유능한 SLM을 만들기 위한 경쟁이 진행 중이며 Microsoft의 새로운 제안은 큰 진전입니다.