Công ty khởi nghiệp của Pháp, Mistral AI, gần đây đã phát hành mô hình đa phương thức mới nhất của mình, Mistral Medium 3, đã thu hút sự chú ý rộng rãi trong ngành. Mistral tuyên bố rằng hiệu suất của mô hình này có thể sánh ngang hoặc thậm chí vượt qua 90% của Claude Sonnet 3.7, đồng thời chi phí thấp hơn DeepSeek V3, điều này có thể được mô tả là một lựa chọn hiệu quả về chi phí. Tuy nhiên, kết quả thử nghiệm thực tế cho thấy sự khác biệt nhất định so với quảng cáo chính thức, làm dấy lên các cuộc thảo luận về tính xác thực của hiệu suất mô hình.
Điểm nổi bật chính của Mistral Medium 3
Mistral đã liệt kê một số điểm nổi bật chính của Mistral Medium 3 trong blog chính thức của mình:
- Sự cân bằng giữa hiệu suất và chi phí: Mistral Medium 3 nhằm mục đích đạt được hiệu suất hàng đầu đồng thời giảm chi phí xuống còn một phần tám so với trước đây và đơn giản hóa quy trình triển khai, do đó đẩy nhanh các ứng dụng doanh nghiệp.
- Hiệu suất tuyệt vời trong các tình huống ứng dụng chuyên nghiệp: Mô hình này vượt trội trong các tình huống ứng dụng chuyên nghiệp như viết mã và hiểu đa phương thức.
- Các tính năng cấp doanh nghiệp: Mistral Medium 3 cung cấp một loạt các tính năng cấp doanh nghiệp, bao gồm hỗ trợ triển khai đám mây hỗn hợp, triển khai tại chỗ và triển khai bên trong VPC, đào tạo tùy chỉnh và tích hợp vào các công cụ và hệ thống doanh nghiệp.
Mistral Medium 3 API hiện đã có trên Mistral La Plateforme và Amazon Sagemaker, và sẽ sớm có mặt trên IBM WatsonX, NVIDIA NIM, Azure AI Foundry và Google Cloud Vertex.
Sự đánh đổi giữa hiệu suất và chi phí
Một trong những điểm bán hàng lớn của Mistral Medium 3 là nó đạt được hiệu suất hàng đầu đồng thời giảm chi phí đáng kể. Dữ liệu chính thức cho thấy rằng trong các chuẩn mực khác nhau, hiệu suất của Mistral Medium 3 đạt hoặc thậm chí vượt quá 90% của Claude Sonnet 3.7, nhưng chi phí thấp hơn đáng kể (chi phí đầu vào là 0,4 đô la cho mỗi triệu mã thông báo và chi phí đầu ra là 2 đô la).
Ngoài ra, hiệu suất của Mistral Medium 3 vượt trội hơn các mô hình nguồn mở hàng đầu như Llama 4 Maverick và Cohere Command A. Cho dù là API hay triển khai tự trị, chi phí của Mistral Medium 3 thấp hơn DeepSeek V3.
Mistral Medium 3 cũng có thể được triển khai trên bất kỳ đám mây nào, bao gồm môi trường tự lưu trữ với bốn GPU trở lên, mang lại sự linh hoạt hơn cho các doanh nghiệp.
Theo đuổi hiệu suất hàng đầu
Mistral tuyên bố rằng mục tiêu của Mistral Medium 3 là trở thành một mô hình có hiệu suất hàng đầu, đặc biệt là xuất sắc trong các nhiệm vụ mã hóa và STEM, với hiệu suất gần với các đối thủ cạnh tranh lớn hơn và chậm hơn.
Bảng do Mistral cung cấp cho thấy hiệu suất của Mistral Medium 3 về cơ bản đã vượt qua Llama 4 Maverick và GPT-4o, và gần với cấp độ của Claude Sonnet 3.7 và DeepSeek 3.1. Tuy nhiên, dữ liệu này chủ yếu đến từ các chuẩn mực học thuật và có thể không phản ánh đầy đủ hiệu suất của mô hình trong các ứng dụng thực tế.
Bổ sung đánh giá thủ công
Để đánh giá toàn diện hơn về hiệu suất của Mistral Medium 3, Mistral cũng đã công bố kết quả đánh giá thủ công của bên thứ ba. Đánh giá thủ công có thể đại diện tốt hơn cho các trường hợp sử dụng trong thế giới thực và có thể bù đắp cho sự thiếu hụt của các chuẩn mực học thuật.
Từ kết quả đánh giá thủ công, Mistral Medium 3 hoạt động xuất sắc trong lĩnh vực mã hóa và cung cấp hiệu suất tốt hơn so với các đối thủ cạnh tranh khác về mọi mặt. Điều này cho thấy rằng Mistral Medium 3 có thể có những lợi thế nhất định trong các ứng dụng thực tế.
Thiết kế cho các ứng dụng cấp doanh nghiệp
Mistral Medium 3 vượt trội hơn các mô hình SOTA khác về khả năng thích ứng với môi trường doanh nghiệp. Khi các doanh nghiệp phải đối mặt với sự lựa chọn khó khăn là tinh chỉnh thông qua API hoặc tự triển khai và tùy chỉnh hành vi của mô hình từ đầu, Mistral Medium 3 cung cấp một con đường để tích hợp toàn diện trí thông minh vào các hệ thống doanh nghiệp.
Để đáp ứng hơn nữa nhu cầu của doanh nghiệp, Mistral cũng đã ra mắt Le Chat Enterprise, một dịch vụ chatbot hướng đến doanh nghiệp được cung cấp bởi mô hình Mistral Medium 3. Le Chat Enterprise cung cấp một công cụ xây dựng tác nhân AI thông minh và tích hợp các mô hình của Mistral với các dịch vụ của bên thứ ba như Gmail, Google Drive và SharePoint, nhằm giải quyết các thách thức AI mà doanh nghiệp phải đối mặt, chẳng hạn như phân mảnh công cụ, tích hợp kiến thức không an toàn, mô hình cứng nhắc và lợi tức đầu tư chậm chạp, đồng thời cung cấp một nền tảng AI thống nhất cho tất cả các công việc của tổ chức.
Le Chat Enterprise sẽ sớm hỗ trợ giao thức MCP, đây là một tiêu chuẩn được đề xuất bởi Anthropic để kết nối AI với các hệ thống dữ liệu và phần mềm.
Triển vọng tương lai của Mistral
Mistral tiết lộ trong blog của mình rằng mặc dù Mistral Small và Mistral Medium đã được phát hành, nhưng trong những tuần tới, họ có một kế hoạch "lớn", đó là Mistral Large. Họ nói rằng hiệu suất của Mistral Medium vừa được phát hành đã vượt xa các mô hình nguồn mở hàng đầu như Llama 4 Maverick, và hiệu suất của Mistral Large thậm chí còn đáng mong đợi hơn.
Việc phát hành Mistral Large chắc chắn sẽ nâng cao hơn nữa khả năng cạnh tranh của Mistral trong lĩnh vực AI và cung cấp cho người dùng nhiều lựa chọn hơn.
Sự khác biệt trong các bài kiểm tra thực tế
Mặc dù Mistral tự tin vào hiệu suất của Mistral Medium 3 và tuyên bố rằng nó vượt quá 90% của Claude Sonnet 3.7, nhưng kết quả thử nghiệm thực tế đã bộc lộ một số vấn đề.
Các phương tiện truyền thông và cư dân mạng đã nhanh chóng tiến hành các bài kiểm tra thực tế trên Mistral Medium 3, nhưng kết quả lại gây thất vọng. Trong đánh giá dựa trên các câu hỏi phân loại từ vựng trong cột Connections của The New York Times, Medium 3 ở vị trí cuối cùng và hầu như không thể tìm thấy nó. Trong một bài kiểm tra mới gồm 100 câu hỏi, nó cũng không thể lọt vào hàng ngũ các mô hình hàng đầu.
Một người dùng đã thử nghiệm Medium 3 và cho biết khả năng viết của nó vẫn như cũ và không có sự cải thiện đáng kể. Tuy nhiên, trong đánh giá LLM, nó ở vị trí hàng đầu của Pareto.
Kết quả thử nghiệm của Zhu Liang cho thấy Mistral Medium 3 hoạt động vững chắc về khả năng viết mã và tạo văn bản, cả hai đều nằm trong top 5 trong các đánh giá này.
Trong một nhiệm vụ mã hóa đơn giản (ứng dụng Next.js TODO):
- Nó tạo ra các phản hồi ngắn gọn và rõ ràng
- Điểm số tương đương với Gemini 2.5 Pro và Claude 3.5 Sonnet
- Kém hơn DeepSeek V3 (mới) và GPT-4.1
Trong một nhiệm vụ mã hóa phức tạp (trực quan hóa điểm chuẩn):
- Tạo ra kết quả trung bình tương tự như Gemini 2.5 Pro và DeepSeek V3 (mới)
- Kém hơn GPT-4.1, o3 và Claude 3.7 Sonnet
Về khả năng viết:
- Nó bao gồm hầu hết các điểm chính, nhưng định dạng không chính xác
- Điểm số gần với DeepSeek V3 (mới) và Claude 3.7 Sonnet
- Kém hơn GPT-4.1 và Gemini 2.5 Pro
Một nhân vật nổi tiếng, "karminski-nha sĩ", sau khi thử nghiệm thực tế, phát hiện ra rằng hiệu suất của Mistral Medium 3 không mạnh mẽ như quảng cáo chính thức và thậm chí còn khuyên người dùng không nên tải xuống để tránh lãng phí lưu lượng và dung lượng ổ cứng.
Kết luận
Mistral Medium 3, với tư cách là một nỗ lực đổi mới trong lĩnh vực AI của châu Âu, tìm cách cân bằng giữa hiệu suất và chi phí, đồng thời tối ưu hóa cho các ứng dụng cấp doanh nghiệp. Tuy nhiên, kết quả thử nghiệm thực tế cho thấy sự khác biệt nhất định so với quảng cáo chính thức, cho thấy rằng Mistral có thể đã phóng đại trong việc quảng cáo hiệu suất mô hình.
Mặc dù vậy, Mistral Medium 3 vẫn có tiềm năng nhất định, đặc biệt là trong các lĩnh vực như mã hóa và tạo văn bản. Trong tương lai, Mistral cần cải thiện hơn nữa hiệu suất của mô hình và tăng cường thử nghiệm ứng dụng thực tế để giành được sự tin tưởng của người dùng. Đồng thời, việc phát hành Mistral Large cũng rất đáng mong đợi, có thể bù đắp cho những thiếu sót của Mistral Medium 3 và mang lại trải nghiệm tốt hơn cho người dùng.
Tóm lại, việc phát hành Mistral Medium 3 phản ánh sự khám phá và tinh thần đổi mới tích cực của châu Âu trong lĩnh vực AI. Mặc dù hiệu suất thực tế khác với mong đợi, nhưng Mistral vẫn đáng được chú ý và sự phát triển trong tương lai của nó rất đáng mong đợi.