Mistral Medium 3: AI 도전과 현실의 괴리

프랑스 스타트업 Mistral AI가 최근 다중 모달 모델인 Mistral Medium 3를 발표하며 Claude Sonnet 3.7과 비슷한 성능을 제공하면서 DeepSeek V3보다 저렴하다고 주장했습니다. 이 소식은 즉시 기술 업계의 광범위한 관심을 끌었습니다. 그러나 사용자들은 실제 테스트 후 모델의 성능이 공식 홍보와 큰 차이가 있음을 발견했으며, 심지어 일부 사용자는 시간과 리소스를 낭비하지 않도록 다운로드하지 말라고 조언했습니다.

Mistral Medium 3 공식 홍보

Mistral AI는 공식 블로그에서 Mistral Medium 3의 몇 가지 핵심 하이라이트를 강조했습니다.

  • 성능과 비용의 균형: Mistral Medium 3는 최고 수준의 성능을 제공하면서 비용을 기존의 8분의 1로 줄여 기업 애플리케이션을 가속화하는 것을 목표로 합니다.
  • 전문 애플리케이션 시나리오의 강점: 이 모델은 코드 작성 및 다중 모달 이해와 같은 전문 분야에서 뛰어난 성능을 보입니다.
  • 엔터프라이즈급 기능: Mistral Medium 3는 하이브리드 클라우드 배포, 로컬 배포 및 VPC 내부 배포 지원, 맞춤형 후행 훈련, 기업 도구 및 시스템 통합을 포함한 다양한 엔터프라이즈급 기능을 제공합니다.

Mistral Medium 3 API는 Mistral La Plateforme 및 Amazon Sagemaker에서 이미 출시되었으며 곧 IBM WatsonX, NVIDIA NIM, Azure AI Foundry 및 Google Cloud Vertex에 출시될 예정입니다.

성능 지표 비교

Mistral AI는 Mistral Medium 3의 성능이 다양한 벤치마크 테스트에서 Claude Sonnet 3.7의 90% 이상에 도달하거나 초과하지만 비용은 크게 절감된다고 주장했습니다. 구체적으로 Mistral Medium 3는 백만 토큰당 입력 비용이 0.4달러이고 출력 비용이 2달러입니다.

또한 Mistral Medium 3의 성능은 Llama 4 Maverick 및 Cohere Command A와 같은 선도적인 오픈 소스 모델을 능가한다고 알려졌습니다. API를 통하든 자체 배포를 통하든 Mistral Medium 3의 비용은 DeepSeek V3보다 저렴합니다. 이 모델은 4개 이상의 GPU가 있는 자체 호스팅 환경을 포함하여 모든 클라우드에 배포할 수도 있습니다.

엔터프라이즈급 애플리케이션 집중

Mistral AI는 Mistral Medium 3의 목표는 특히 코딩 및 STEM 작업에서 뛰어난 성능을 발휘하여 더 크고 느린 경쟁 모델에 근접한 최고 성능의 모델이 되는 것이라고 강조합니다.

공식적으로 발표된 데이터에 따르면 Mistral Medium 3의 성능은 기본적으로 Llama 4 Maverick 및 GPT-4o를 능가하고 Claude Sonnet 3.7 및 DeepSeek 3.1 수준에 근접합니다.

모델 성능을 추가로 검증하기 위해 Mistral AI는 실제 사용 사례를 더 잘 나타내는 타사 인적 평가 결과도 발표했습니다. 결과에 따르면 Mistral Medium 3는 코딩 분야에서 뛰어난 성능을 보였으며 모든 측면에서 다른 경쟁 제품보다 더 나은 성능을 제공했습니다.

Mistral Medium 3는 기업 환경에 적응하는 능력에서도 다른 SOTA 모델보다 뛰어납니다. 기업이 지능을 기업 시스템에 완전히 통합할 수 있는 경로를 제공하여 API 미세 조정 및 모델 사용자 정의와 관련된 기업의 문제를 해결합니다.

Le Chat Enterprise

Mistral AI는 또한 Mistral Medium 3 모델로 구동되는 엔터프라이즈용 챗봇 서비스인 Le Chat Enterprise를 출시했습니다. AI 에이전트 구축 도구를 제공하고 Mistral의 모델을 Gmail, Google Drive 및 SharePoint와 같은 타사 서비스와 통합합니다.

Le Chat Enterprise는 도구 조각화, 안전하지 않은 지식 통합, 경직된 모델 및 느린 투자 수익률과 같은 기업이 직면한 AI 문제를 해결하고 모든 조직 작업에 통합된 AI 플랫폼을 제공하는 것을 목표로 합니다.

Le Chat Enterprise는 곧 Anthropic에서 제안한 AI와 데이터 시스템 및 소프트웨어를 연결하는 표준인 MCP 프로토콜을 지원할 예정입니다.

Mistral Large 전망

Mistral AI는 또한 블로그에서 Mistral Small 및 Mistral Medium이 이미 출시되었지만 앞으로 몇 주 안에 Mistral Large라는 “큰” 계획이 있다고 밝혔습니다. 그들은 방금 출시된 Mistral Medium의 성능이 Llama 4 Maverick과 같은 최고 수준의 오픈 소스 모델을 이미 능가했으며 Mistral Large의 성능은 훨씬 더 기대할 만하다고 말했습니다.

사용자 실측의 실제 상황

그러나 Mistral AI가 Mistral Medium 3의 강력한 성능을 크게 홍보한 후 언론과 사용자는 신속하게 실제 테스트를 수행했지만 결과는 실망스러웠습니다.

성능 테스트의 낙차

《뉴욕 타임즈》 Connections 칼럼의 어휘 분류 문제에 기반한 평가에서 Mistral Medium 3의 성능은 실망스러웠으며 거의 찾아볼 수 없었습니다. 새로운 100문제 평가에서는 상위권 모델에도 들지 못했습니다.

일부 사용자들은 테스트 후 Mistral Medium 3의 글쓰기 능력이 눈에 띄게 향상되지 않았다고 말했습니다. 그러나 LLM 평가에서는 파레토 프론티어에 있었습니다.

Zhu Liang의 테스트에 따르면 Mistral Medium 3는 코드 작성 및 텍스트 생성에서 모두 견고한 성능을 보였으며 두 평가 모두 상위 5위에 올랐습니다.

코딩 작업의 성능

간단한 코딩 작업(Next.js TODO 애플리케이션)에서 Mistral Medium 3는 간결하고 명확한 응답을 생성하여 Gemini 2.5 Pro, Claude 3.5 Sonnet과 비슷한 점수를 받았지만 DeepSeek V3(신규) 및 GPT-4.1보다 떨어졌습니다.

복잡한 코딩 작업(벤치마크 시각화)에서 Mistral Medium 3는 Gemini 2.5 Pro 및 DeepSeek V3(신규)와 유사한 평균 결과를 생성했지만 GPT-4.1, o3 및 Claude 3.7 Sonnet보다 좋지 않았습니다.

작문 능력 평가

작문의 경우 Mistral Medium 3는 대부분의 요점을 다루었지만 형식이 잘못되어 DeepSeek V3(신규) 및 Claude 3.7 Sonnet과 비슷한 점수를 받았으며 GPT-4.1 및 Gemini 2.5 Pro보다 좋지 않았습니다.

유명 인사인 “karminski-치과의사”도 실제 테스트 후 Mistral Medium 3의 성능이 공식적으로 광고한 것만큼 강력하지 않다고 말하며 사용자가 트래픽과 하드 드라이브 공간을 낭비하지 않도록 다운로드하지 않는 것이 좋다고 조언했습니다.

비교와 반성

Mistral Medium 3의 사례는 AI 모델의 성능을 평가할 때 공식 홍보 및 벤치마크 테스트 결과에만 의존하지 말고 사용자의 실제 경험과 타사 평가를 더욱 중요시해야 한다는 점을 다시 한번 상기시켜 줍니다.

공식 홍보는 종종 모델의 강점을 선택적으로 보여주고 단점을 무시합니다. 벤치마크 테스트는 어느 정도 참고 가치를 제공할 수 있지만 모델이 실제 세계에서 수행하는 방식을 완전히 반영하지는 않습니다. 사용자의 실제 경험과 타사 평가는 더욱 객관적이고 포괄적이며 모델의 장단점을 보다 정확하게 이해하는 데 도움이 될 수 있습니다.

또한 AI 모델의 성능은 훈련 데이터, 모델 아키텍처, 최적화 알고리즘 등 다양한 요인의 영향을 받습니다. 서로 다른 모델은 서로 다른 작업에서 서로 다른 강점과 약점을 보일 수 있습니다. 따라서 AI 모델을 선택할 때는 구체적인 애플리케이션 시나리오와 요구 사항에 따라 종합적으로 고려해야 합니다.

Mistral Medium 3의 발표와 사용자 실측 결과 간의 큰 차이는 AI 모델 평가 기준에 대한 논의도 불러일으켰습니다. 보다 과학적이고 객관적이며 포괄적인 AI 모델 평가 시스템을 구축하는 방법은 심도 있게 논의할 가치가 있는 문제입니다.

업계 영향

Mistral Medium 3 사건은 전체 AI 산업에도 어느 정도 영향을 미쳤습니다. 한편으로는 AI 회사가 사용자 경험에 더 집중하고 과도한 홍보와 허위 광고를 피하도록 상기시켜 줍니다. 다른 한편으로는 AI 분야의 종사자들이 AI 모델 평가 기준의 제정 및 개선에 더 관심을 갖도록 촉구합니다.

미래에는 AI 기술이 지속적으로 발전함에 따라 AI 모델의 성능이 지속적으로 향상되고 애플리케이션 시나리오도 지속적으로 확장될 것입니다. 우리는 AI 기술을 더욱 합리적이고 객관적인 태도로 바라보고 그 막대한 잠재력을 확인하는 동시에 그 한계를 인식해야 합니다. 그래야만 AI 기술을 인간 사회에 가치를 창출하는 데 더 잘 활용할 수 있습니다.

요약하면 Mistral Medium 3의 사례는 AI 모델을 평가할 때 비판적 사고를 유지하고 공식 홍보를 맹목적으로 믿지 말고 실제 경험과 타사 평가를 결합하여 합리적인 판단을 내려야 함을 상기시켜 주는 경고입니다.