프랑스 스타트업 Mistral AI가 최근 최신 멀티모달 모델인 Mistral Medium 3를 발표하며 업계의 큰 관심을 불러일으켰습니다. Mistral은 이 모델의 성능이 Claude Sonnet 3.7의 90%에 필적하거나 능가할 수 있으며, DeepSeek V3보다 비용이 저렴하여 가성비가 뛰어나다고 주장합니다. 그러나 실제 테스트 결과는 공식 홍보와 다소 차이가 있어 모델 성능의 진실성에 대한 논쟁을 불러일으켰습니다.
Mistral Medium 3의 핵심 특징
Mistral은 공식 블로그에서 Mistral Medium 3의 몇 가지 핵심 특징을 다음과 같이 제시했습니다.
- 성능과 비용의 균형: Mistral Medium 3는 최고의 성능을 제공하는 동시에 비용을 1/8로 줄이고 배포 프로세스를 간소화하여 기업 애플리케이션을 가속화하는 것을 목표로 합니다.
- 전문 애플리케이션 시나리오에서 뛰어난 성능: 이 모델은 코드 작성 및 멀티모달 이해와 같은 전문 애플리케이션 시나리오에서 뛰어난 성능을 보여줍니다.
- 엔터프라이즈급 기능: Mistral Medium 3는 하이브리드 클라우드 배포, 로컬 배포 및 VPC 내부 배포, 맞춤형 사후 학습, 엔터프라이즈 도구 및 시스템 통합을 포함한 다양한 엔터프라이즈급 기능을 제공합니다.
Mistral Medium 3 API는 현재 Mistral La Plateforme 및 Amazon Sagemaker에서 사용할 수 있으며, 곧 IBM WatsonX, NVIDIA NIM, Azure AI Foundry 및 Google Cloud Vertex에도 출시될 예정입니다.
성능과 비용의 균형
Mistral Medium 3의 가장 큰 장점은 뛰어난 성능을 제공하면서도 비용을 크게 절감했다는 점입니다. 공식 데이터에 따르면, Mistral Medium 3는 다양한 벤치마크 테스트에서 Claude Sonnet 3.7의 90% 이상의 성능을 달성하거나 능가하지만 비용은 현저히 낮습니다 (백만 토큰당 입력 비용은 0.4달러, 출력 비용은 2달러).
또한 Mistral Medium 3의 성능은 Llama 4 Maverick 및 Cohere Command A와 같은 선도적인 오픈 소스 모델을 능가합니다. API 또는 자체 배포 여부에 관계없이 Mistral Medium 3의 비용은 DeepSeek V3보다 저렴합니다.
Mistral Medium 3는 4개 이상의 GPU를 포함한 자체 호스팅 환경을 포함하여 모든 클라우드에 배포할 수 있어 기업에 더 큰 유연성을 제공합니다.
최고의 성능 추구
Mistral은 Mistral Medium 3의 목표가 특히 코딩 및 STEM 작업에서 뛰어난 성능을 보이는 최고의 모델이 되는 것이라고 밝혔습니다. 성능은 규모가 더 크고 속도가 느린 경쟁업체에 필적합니다.
Mistral에서 제공하는 표에 따르면 Mistral Medium 3의 성능은 이미 Llama 4 Maverick 및 GPT-4o를 거의 능가했으며 Claude Sonnet 3.7 및 DeepSeek 3.1 수준에 가깝습니다. 그러나 이러한 데이터는 주로 학술 벤치마크 테스트에서 얻은 것이며 실제 애플리케이션에서의 모델 성능을 완전히 반영하지 못할 수 있습니다.
인공 평가의 보완
Mistral Medium 3의 성능을 보다 포괄적으로 평가하기 위해 Mistral은 타사 인공 평가 결과도 발표했습니다. 인공 평가는 실제 사용 사례를 더 잘 나타내며 학술 벤치마크 테스트의 단점을 보완할 수 있습니다.
인공 평가 결과에 따르면 Mistral Medium 3는 코딩 분야에서 뛰어난 성능을 보였으며 모든 측면에서 다른 경쟁업체보다 더 나은 성능을 제공했습니다. 이는 Mistral Medium 3가 실제 애플리케이션에서 특정 이점을 가질 수 있음을 시사합니다.
엔터프라이즈급 애플리케이션을 위한 설계
Mistral Medium 3는 엔터프라이즈 환경에 적응하는 능력 측면에서 다른 SOTA 모델보다 우수합니다. 기업이 API를 통해 미세 조정을 수행하거나 처음부터 자체 배포하고 모델 동작을 사용자 정의하는 어려운 선택에 직면했을 때 Mistral Medium 3는 인텔리전스를 엔터프라이즈 시스템에 완전히 통합할 수 있는 방법을 제공합니다.
기업의 요구 사항을 더욱 충족하기 위해 Mistral은 Mistral Medium 3 모델로 구동되는 기업용 챗봇 서비스인 Le Chat Enterprise도 출시했습니다. Le Chat Enterprise는 AI 지능형 에이전트 구축 도구를 제공하고 Mistral 모델을 Gmail, Google Drive 및 SharePoint와 같은 타사 서비스와 통합하여 도구 파편화, 안전하지 않은 지식 통합, 경직된 모델 및 느린 투자 수익률과 같은 기업이 직면한 AI 문제를 해결하는 것을 목표로 합니다. 모든 조직 작업에 통합 AI 플랫폼을 제공합니다.
Le Chat Enterprise는 곧 Anthropic에서 제안한 AI와 데이터 시스템 및 소프트웨어를 연결하는 표준인 MCP 프로토콜을 지원할 예정입니다.
Mistral의 미래 전망
Mistral은 블로그에서 Mistral Small 및 Mistral Medium이 출시되었지만 앞으로 몇 주 안에 “큰” 계획, 즉 Mistral Large가 있다고 밝혔습니다. 그들은 방금 출시된 Mistral Medium의 성능이 이미 Llama 4 Maverick과 같은 최고의 오픈 소스 모델보다 훨씬 뛰어나며 Mistral Large의 성능은 더욱 기대할 가치가 있다고 말했습니다.
Mistral Large의 출시는 의심할 여지 없이 AI 분야에서 Mistral의 경쟁력을 더욱 높이고 사용자에게 더 많은 선택권을 제공할 것입니다.
실제 테스트의 차이
Mistral은 Mistral Medium 3의 성능에 자신감을 갖고 있으며 Claude Sonnet 3.7의 90%를 능가한다고 주장했지만 실제 테스트 결과 일부 문제가 드러났습니다.
언론과 네티즌들은 빠르게 Mistral Medium 3의 실제 테스트를 수행했지만 결과는 실망스러웠습니다. <뉴욕 타임스> Connections 칼럼의 어휘 분류 문제를 기반으로 한 평가에서 Medium 3는 최하위에 머물렀고 거의 찾아볼 수 없었습니다. 새로운 100문제 평가에서 Medium 3는 상위 모델에 포함되지 않았습니다.
Medium 3를 테스트한 사용자는 Medium 3의 글쓰기 능력이 여전히 이전과 같으며 눈에 띄는 개선이 없다고 말했습니다. 그러나 LLM 평가에서 Medium 3는 Pareto 최적점에 있습니다.
Zhu Liang의 테스트 결과에 따르면 Mistral Medium 3는 코드 작성 및 텍스트 생성 측면에서 모두 견고한 성능을 보였으며 두 평가 모두에서 상위 5위에 올랐습니다.
간단한 코딩 작업 (Next.js TODO 애플리케이션)에서:
- 간결하고 명확한 응답을 생성했습니다.
- Gemini 2.5 Pro, Claude 3.5 Sonnet과 비슷한 점수를 받았습니다.
- DeepSeek V3 (신규) 및 GPT-4.1보다 열등했습니다.
복잡한 코딩 작업 (벤치마크 테스트 시각화)에서:
- Gemini 2.5 Pro 및 DeepSeek V3 (신규)와 유사한 평균 결과를 생성했습니다.
- GPT-4.1, o3 및 Claude 3.7 Sonnet보다 열등했습니다.
글쓰기에서:
- 대부분의 요점을 다루었지만 형식이 잘못되었습니다.
- DeepSeek V3 (신규) 및 Claude 3.7 Sonnet과 비슷한 점수를 받았습니다.
- GPT-4.1 및 Gemini 2.5 Pro보다 열등했습니다.
유명한 전문가인 “karminski-치과의사”는 실제 테스트 후 Mistral Medium 3의 성능이 공식 홍보만큼 강력하지 않으며 트래픽과 하드 디스크 공간을 낭비하지 않도록 다운로드하지 않는 것이 좋다고 제안했습니다.
결론
Mistral Medium 3는 유럽 AI 분야의 혁신적인 시도로서 성능과 비용 간의 균형을 추구하고 엔터프라이즈급 애플리케이션에 최적화되었습니다. 그러나 실제 테스트 결과는 공식 홍보와 다소 차이가 있어 Mistral이 모델 성능 측면에서 과장된 홍보를 했을 가능성이 있습니다.
그럼에도 불구하고 Mistral Medium 3는 특히 코딩 및 텍스트 생성과 같은 분야에서 여전히 특정 잠재력을 가지고 있습니다. 앞으로 Mistral은 모델 성능을 더욱 개선하고 실제 애플리케이션 테스트를 강화하여 사용자의 신뢰를 얻어야 합니다. 또한 Mistral Large의 출시도 기대할 가치가 있으며 Mistral Medium 3의 단점을 보완하고 사용자에게 더 나은 경험을 제공할 수 있습니다.
결론적으로 Mistral Medium 3의 출시는 AI 분야에서 유럽의 적극적인 탐구와 혁신 정신을 반영합니다. 실제 성능이 예상과 다르더라도 Mistral은 여전히 주목할 가치가 있으며 미래의 발전이 기대됩니다.