Công ty khởi nghiệp Mistral AI của Pháp gần đây đã phát hành mô hình đa phương thức mới nhất của mình, Mistral Medium 3, tuyên bố rằng hiệu suất của nó có thể so sánh với Claude Sonnet 3.7 mạnh mẽ và chi phí thấp hơn DeepSeek V3. Tin tức này ngay lập tức thu hút sự chú ý rộng rãi trong giới công nghệ. Tuy nhiên, sau khi thử nghiệm thực tế, người dùng đã phát hiện ra rằng hiệu suất của mô hình này khác biệt đáng kể so với quảng cáo chính thức, và một số người thậm chí còn khuyên người dùng không nên lãng phí thời gian và tài nguyên để tải xuống.
Quảng cáo chính thức về Mistral Medium 3
Mistral AI nhấn mạnh một số điểm nổi bật cốt lõi của Mistral Medium 3 trong blog chính thức của mình:
- Cân bằng hiệu suất và chi phí: Mistral Medium 3 được thiết kế để cung cấp hiệu suất hàng đầu đồng thời giảm chi phí xuống còn một phần tám so với trước đây, do đó đẩy nhanh các ứng dụng doanh nghiệp.
- Ưu điểm trong các kịch bản ứng dụng chuyên nghiệp: Mô hình này hoạt động xuất sắc trong các lĩnh vực chuyên nghiệp như viết mã và hiểu đa phương thức.
- Các tính năng cấp doanh nghiệp: Mistral Medium 3 cung cấp một loạt các tính năng cấp doanh nghiệp, bao gồm hỗ trợ triển khai đám mây kết hợp, triển khai cục bộ và triển khai bên trong VPC, cũng như tùy chỉnh sau đào tạo và tích hợp vào các công cụ và hệ thống doanh nghiệp.
Mistral Medium 3 API đã được ra mắt trên Mistral La Plateforme và Amazon Sagemaker, và dự kiến sẽ sớm ra mắt trên IBM WatsonX, NVIDIA NIM, Azure AI Foundry và Google Cloud Vertex.
So sánh các chỉ số hiệu suất
Mistral AI tuyên bố rằng trong các bài kiểm tra chuẩn khác nhau, hiệu suất của Mistral Medium 3 đạt hoặc thậm chí vượt quá 90% của Claude Sonnet 3.7, nhưng chi phí đã giảm đáng kể. Cụ thể, chi phí đầu vào của Mistral Medium 3 là 0,4 đô la cho mỗi triệu token và chi phí đầu ra là 2 đô la.
Ngoài ra, hiệu suất của Mistral Medium 3 được cho là vượt trội so với các mô hình nguồn mở hàng đầu như Llama 4 Maverick và Cohere Command A. Cho dù thông qua API hay triển khai tự chủ, chi phí của Mistral Medium 3 thấp hơn DeepSeek V3. Mô hình này cũng có thể được triển khai trên bất kỳ đám mây nào, bao gồm cả môi trường tự lưu trữ với bốn GPU trở lên.
Tập trung vào các ứng dụng cấp doanh nghiệp
Mistral AI nhấn mạnh rằng mục tiêu của Mistral Medium 3 là trở thành một mô hình có hiệu suất hàng đầu, đặc biệt là trong các nhiệm vụ mã hóa và STEM, với hiệu suất gần với các đối thủ cạnh tranh lớn hơn và chậm hơn.
Dữ liệu chính thức cho thấy rằng hiệu suất của Mistral Medium 3 về cơ bản vượt trội so với Llama 4 Maverick và GPT-4o, gần với Claude Sonnet 3.7 và DeepSeek 3.1.
Để xác minh thêm hiệu suất của mô hình, Mistral AI cũng đã công bố kết quả đánh giá thủ công của bên thứ ba, đại diện tốt hơn cho các trường hợp sử dụng trong thế giới thực. Kết quả cho thấy Mistral Medium 3 hoạt động xuất sắc trong lĩnh vực mã hóa và cung cấp hiệu suất tốt hơn so với các đối thủ cạnh tranh khác về mọi mặt.
Mistral Medium 3 cũng vượt trội so với các mô hình SOTA khác về khả năng thích ứng với môi trường doanh nghiệp. Nó cung cấp cho các doanh nghiệp một con đường để tích hợp đầy đủ trí thông minh vào các hệ thống doanh nghiệp, giải quyết những khó khăn mà các doanh nghiệp gặp phải trong việc điều chỉnh API và tùy chỉnh mô hình.
Le Chat Enterprise
Mistral AI cũng đã ra mắt Le Chat Enterprise, một dịch vụ chatbot hướng đến doanh nghiệp được cung cấp bởi mô hình Mistral Medium 3. Nó cung cấp một công cụ xây dựng tác nhân AI thông minh và tích hợp các mô hình của Mistral với các dịch vụ của bên thứ ba như Gmail, Google Drive và SharePoint.
Le Chat Enterprise được thiết kế để giải quyết những thách thức về AI mà các doanh nghiệp phải đối mặt, chẳng hạn như phân mảnh công cụ, tích hợp kiến thức không an toàn, các mô hình cứng nhắc và lợi tức đầu tư chậm, đồng thời cung cấp một nền tảng AI thống nhất cho tất cả các công việc của tổ chức.
Le Chat Enterprise sẽ sớm hỗ trợ giao thức MCP, đây là tiêu chuẩn do Anthropic đề xuất để kết nối AI với các hệ thống và phần mềm dữ liệu.
Triển vọng của Mistral Large
Mistral AI cũng tiết lộ trong một bài đăng trên blog rằng mặc dù Mistral Small và Mistral Medium đã được phát hành, nhưng trong vài tuần tới, họ có một kế hoạch “lớn”, đó là Mistral Large. Họ nói rằng hiệu suất của Mistral Medium mới phát hành đã vượt xa các mô hình nguồn mở hàng đầu như Llama 4 Maverick, và hiệu suất của Mistral Large thậm chí còn đáng mong đợi hơn.
Tình hình thực tế của người dùng
Tuy nhiên, sau khi Mistral AI quảng bá rầm rộ hiệu suất mạnh mẽ của Mistral Medium 3, giới truyền thông và người dùng đã nhanh chóng tiến hành các thử nghiệm thực tế, và kết quả thật đáng thất vọng.
Khoảng cách về hiệu suất thử nghiệm
Trong đánh giá dựa trên câu hỏi phân loại từ vựng của chuyên mục Connections của tờ The New York Times, màn trình diễn của Mistral Medium 3 thật đáng thất vọng, hầu như không thể tìm thấy bóng dáng của nó. Trong bài đánh giá mới với 100 câu hỏi, nó cũng không đứng đầu trong số các mô hình hàng đầu.
Một số người dùng sau khi thử nghiệm cho biết khả năng viết của Mistral Medium 3 không có sự cải thiện đáng kể. Tuy nhiên, trong đánh giá LLM, nó nằm ở ranh giới Pareto.
Thử nghiệm của Zhu Liang cho thấy Mistral Medium 3 hoạt động rất tốt trong việc viết mã và tạo văn bản, nằm trong top 5 trong cả hai đánh giá.
Hiệu suất của nhiệm vụ mã hóa
Trong một nhiệm vụ mã hóa đơn giản (ứng dụng Next.js TODO), Mistral Medium 3 đã tạo ra các phản hồi ngắn gọn và rõ ràng, với điểm số tương đương với Gemini 2.5 Pro và Claude 3.5 Sonnet, nhưng kém hơn DeepSeek V3 (mới) và GPT-4.1.
Trong một nhiệm vụ mã hóa phức tạp (trực quan hóa điểm chuẩn), kết quả trung bình được tạo ra bởi Mistral Medium 3 tương tự như Gemini 2.5 Pro và DeepSeek V3 (mới), nhưng không tốt bằng GPT-4.1, o3 và Claude 3.7 Sonnet.
Đánh giá khả năng viết
Về khả năng viết, Mistral Medium 3 bao gồm hầu hết các điểm chính, nhưng định dạng không chính xác, với điểm số tương đương với DeepSeek V3 (mới) và Claude 3.7 Sonnet, không tốt bằng GPT-4.1 và Gemini 2.5 Pro.
Nhân vật nổi tiếng “karminski-nha sĩ” sau khi thử nghiệm thực tế cũng cho biết hiệu suất của Mistral Medium 3 không mạnh mẽ như quảng cáo chính thức, và khuyên người dùng không nên tải xuống để tránh lãng phí lưu lượng truy cập và dung lượng ổ cứng.
So sánh và suy ngẫm
Trường hợp của Mistral Medium 3 một lần nữa nhắc nhở chúng ta rằng khi đánh giá hiệu suất của các mô hình AI, chúng ta không chỉ nên dựa vào quảng cáo chính thức và kết quả kiểm tra chuẩn, mà còn phải chú trọng đến trải nghiệm thực tế của người dùng và đánh giá của bên thứ ba.
Quảng cáo chính thức thường sẽ chọn lọc để hiển thị những ưu điểm của mô hình, đồng thời bỏ qua những thiếu sót của nó. Mặc dù kiểm tra chuẩn có thể cung cấp một số giá trị tham khảo, nhưng nó không thể phản ánh đầy đủ hiệu suất của mô hình trong thế giới thực. Trải nghiệm thực tế của người dùng và đánh giá của bên thứ ba thì khách quan và toàn diện hơn, có thể giúp chúng ta hiểu chính xác hơn về ưu điểm và nhược điểm của mô hình.
Ngoài ra, hiệu suất của mô hình AI cũng bị ảnh hưởng bởi nhiều yếu tố, bao gồm dữ liệu đào tạo, kiến trúc mô hình, thuật toán tối ưu hóa, v.v. Các mô hình khác nhau có thể thể hiện những ưu điểm và nhược điểm khác nhau trong các nhiệm vụ khác nhau. Do đó, khi lựa chọn mô hình AI, cần phải xem xét toàn diện dựa trên các kịch bản ứng dụng và nhu cầu cụ thể.
Sự khác biệt lớn giữa việc phát hành Mistral Medium 3 và kết quả thử nghiệm thực tế của người dùng cũng đã gây ra các cuộc thảo luận về các tiêu chuẩn đánh giá mô hình AI. Làm thế nào để xây dựng một hệ thống đánh giá mô hình AI khoa học, khách quan và toàn diện hơn là một vấn đề đáng được khám phá sâu sắc.
Ảnh hưởng của ngành
Sự kiện Mistral Medium 3 cũng đã có một tác động nhất định đến toàn bộ ngành công nghiệp AI. Một mặt, nó nhắc nhở các công ty AI chú trọng hơn đến trải nghiệm người dùng và tránh quảng cáo quá mức và tuyên truyền sai sự thật. Mặt khác, nó cũng thúc đẩy những người hành nghề trong lĩnh vực AI chú ý hơn đến việc xây dựng và cải thiện các tiêu chuẩn đánh giá mô hình AI.
Trong tương lai, với sự phát triển không ngừng của công nghệ AI, hiệu suất của các mô hình AI sẽ không ngừng được cải thiện và các kịch bản ứng dụng cũng sẽ không ngừng được mở rộng. Chúng ta cần có một thái độ lý trí và khách quan hơn đối với công nghệ AI, vừa thấy được tiềm năng to lớn của nó, vừa nhận thức được những hạn chế của nó. Chỉ bằng cách này chúng ta mới có thể sử dụng tốt hơn công nghệ AI để tạo ra giá trị cho xã hội loài người.
Tóm lại, trường hợp của Mistral Medium 3 là một lời cảnh báo, nhắc nhở chúng ta phải duy trì tư duy phản biện khi đánh giá các mô hình AI, không mù quáng tin vào quảng cáo chính thức mà phải kết hợp trải nghiệm thực tế và đánh giá của bên thứ ba để đưa ra những đánh giá hợp lý.
Mistral Medium 3: Thách Thức Của AI Châu Âu và Sự Tương Phản Về Hiệu Suất Thực Tế
Công ty khởi nghiệp Pháp Mistral AI gần đây đã phát hành mô hình đa phương tiện mới nhất của mình, Mistral Medium 3, tuyên bố rằng hiệu suất của nó có thể so sánh với Claude Sonnet 3.7 mạnh mẽ và chi phí thấp hơn DeepSeek V3. Thông báo này ngay lập tức thu hút sự chú ý rộng rãi trong giới công nghệ. Tuy nhiên, người dùng đã phát hiện ra rằng hiệu suất của mô hình này khác biệt đáng kể so với quảng cáo chính thức, thậm chí một số người còn khuyên người dùng không nên lãng phí thời gian và tài nguyên để tải xuống sau khi thử nghiệm thực tế.
Quảng Cáo Chính Thức Về Mistral Medium 3
Mistral AI nhấn mạnh một số điểm nổi bật cốt lõi của Mistral Medium 3 trong blog chính thức của mình:
- Cân bằng hiệu suất và chi phí: Mistral Medium 3 được thiết kế để cung cấp hiệu suất hàng đầu đồng thời giảm chi phí xuống còn một phần tám so với trước đây, do đó đẩy nhanh các ứng dụng doanh nghiệp.
- Ưu điểm trong các kịch bản ứng dụng chuyên nghiệp: Mô hình này hoạt động xuất sắc trong các lĩnh vực chuyên nghiệp như viết mã và hiểu đa phương thức.
- Các tính năng cấp doanh nghiệp: Mistral Medium 3 cung cấp một loạt các tính năng cấp doanh nghiệp, bao gồm hỗ trợ triển khai đám mây kết hợp, triển khai cục bộ và triển khai bên trong VPC, cũng như tùy chỉnh sau đào tạo và tích hợp vào các công cụ và hệ thống doanh nghiệp.
Mistral Medium 3 API đã được ra mắt trên Mistral La Plateforme và Amazon Sagemaker, và dự kiến sẽ sớm ra mắt trên IBM WatsonX, NVIDIA NIM, Azure AI Foundry và Google Cloud Vertex.
So Sánh Các Chỉ Số Hiệu Suất
Mistral AI tuyên bố rằng trong các bài kiểm tra chuẩn khác nhau, hiệu suất của Mistral Medium 3 đạt hoặc thậm chí vượt quá 90% của Claude Sonnet 3.7, nhưng chi phí đã giảm đáng kể. Cụ thể, chi phí đầu vào của Mistral Medium 3 là 0,4 đô la cho mỗi triệu token và chi phí đầu ra là 2 đô la.
Ngoài ra, hiệu suất của Mistral Medium 3 được cho là vượt trội so với các mô hình nguồn mở hàng đầu như Llama 4 Maverick và Cohere Command A. Cho dù thông qua API hay triển khai tự chủ, chi phí của Mistral Medium 3 thấp hơn DeepSeek V3. Mô hình này cũng có thể được triển khai trên bất kỳ đám mây nào, bao gồm cả môi trường tự lưu trữ với bốn GPU trở lên.
Tập Trung Vào Các Ứng Dụng Cấp Doanh Nghiệp
Mistral AI nhấn mạnh rằng mục tiêu của Mistral Medium 3 là trở thành một mô hình có hiệu suất hàng đầu, đặc biệt là trong các nhiệm vụ mã hóa và STEM, với hiệu suất gần với các đối thủ cạnh tranh lớn hơn và chậm hơn.
Dữ liệu chính thức cho thấy rằng hiệu suất của Mistral Medium 3 về cơ bản vượt trội so với Llama 4 Maverick và GPT-4o, gần với Claude Sonnet 3.7 và DeepSeek 3.1.
Để xác minh thêm hiệu suất của mô hình, Mistral AI cũng đã công bố kết quả đánh giá thủ công của bên thứ ba, đại diện tốt hơn cho các trường hợp sử dụng trong thế giới thực. Kết quả cho thấy Mistral Medium 3 hoạt động xuất sắc trong lĩnh vực mã hóa và cung cấp hiệu suất tốt hơn so với các đối thủ cạnh tranh khác về mọi mặt.
Mistral Medium 3 cũng vượt trội so với các mô hình SOTA khác về khả năng thích ứng với môi trường doanh nghiệp. Nó cung cấp cho các doanh nghiệp một con đường để tích hợp đầy đủ trí thông minh vào các hệ thống doanh nghiệp, giải quyết những khó khăn mà các doanh nghiệp gặp phải trong việc điều chỉnh API và tùy chỉnh mô hình.
Le Chat Enterprise
Mistral AI cũng đã ra mắt Le Chat Enterprise, một dịch vụ chatbot hướng đến doanh nghiệp được cung cấp bởi mô hình Mistral Medium 3. Nó cung cấp một công cụ xây dựng tác nhân AI thông minh và tích hợp các mô hình của Mistral với các dịch vụ của bên thứ ba như Gmail, Google Drive và SharePoint.
Le Chat Enterprise được thiết kế để giải quyết những thách thức về AI mà các doanh nghiệp phải đối mặt, chẳng hạn như phân mảnh công cụ, tích hợp kiến thức không an toàn, các mô hình cứng nhắc và lợi tức đầu tư chậm, đồng thời cung cấp một nền tảng AI thống nhất cho tất cả các công việc của tổ chức.
Le Chat Enterprise sẽ sớm hỗ trợ giao thức MCP, đây là tiêu chuẩn do Anthropic đề xuất để kết nối AI với các hệ thống và phần mềm dữ liệu.
Triển Vọng Của Mistral Large
Mistral AI cũng tiết lộ trong một bài đăng trên blog rằng mặc dù Mistral Small và Mistral Medium đã được phát hành, nhưng trong vài tuần tới, họ có một kế hoạch “lớn”, đó là Mistral Large. Họ nói rằng hiệu suất của Mistral Medium mới phát hành đã vượt xa các mô hình nguồn mở hàng đầu như Llama 4 Maverick, và hiệu suất của Mistral Large thậm chí còn đáng mong đợi hơn.
Tình Hình Thực Tế Của Người Dùng
Tuy nhiên, sau khi Mistral AI quảng bá rầm rộ hiệu suất mạnh mẽ của Mistral Medium 3, giới truyền thông và người dùng đã nhanh chóng tiến hành các thử nghiệm thực tế, và kết quả thật đáng thất vọng.
Khoảng Cách Về Hiệu Suất Thử Nghiệm
Trong đánh giá dựa trên câu hỏi phân loại từ vựng của chuyên mục Connections của tờ The New York Times, màn trình diễn của Mistral Medium 3 thật đáng thất vọng, hầu như không thể tìm thấy bóng dáng của nó. Trong bài đánh giá mới với 100 câu hỏi, nó cũng không đứng đầu trong số các mô hình hàng đầu.
Một số người dùng sau khi thử nghiệm cho biết khả năng viết của Mistral Medium 3 không có sự cải thiện đáng kể. Tuy nhiên, trong đánh giá LLM, nó nằm ở ranh giới Pareto.
Thử nghiệm của Zhu Liang cho thấy Mistral Medium 3 hoạt động rất tốt trong việc viết mã và tạo văn bản, nằm trong top 5 trong cả hai đánh giá.
Hiệu Suất Của Nhiệm Vụ Mã Hóa
Trong một nhiệm vụ mã hóa đơn giản (ứng dụng Next.js TODO), Mistral Medium 3 đã tạo ra các phản hồi ngắn gọn và rõ ràng, với điểm số tương đương với Gemini 2.5 Pro và Claude 3.5 Sonnet, nhưng kém hơn DeepSeek V3 (mới) và GPT-4.1.
Trong một nhiệm vụ mã hóa phức tạp (trực quan hóa điểm chuẩn), kết quả trung bình được tạo ra bởi Mistral Medium 3 tương tự như Gemini 2.5 Pro và DeepSeek V3 (mới), nhưng không tốt bằng GPT-4.1, o3 và Claude 3.7 Sonnet.
Đánh Giá Khả Năng Viết
Về khả năng viết, Mistral Medium 3 bao gồm hầu hết các điểm chính, nhưng định dạng không chính xác, với điểm số tương đương với DeepSeek V3 (mới) và Claude 3.7 Sonnet, không tốt bằng GPT-4.1 và Gemini 2.5 Pro.
Nhân vật nổi tiếng “karminski-nha sĩ” sau khi thử nghiệm thực tế cũng cho biết hiệu suất của Mistral Medium 3 không mạnh mẽ như quảng cáo chính thức, và khuyên người dùng không nên tải xuống để tránh lãng phí lưu lượng truy cập và dung lượng ổ cứng.
So Sánh Và Suy Ngẫm
Trường hợp của Mistral Medium 3 một lần nữa nhắc nhở chúng ta rằng khi đánh giá hiệu suất của các mô hình AI, chúng ta không chỉ nên dựa vào quảng cáo chính thức và kết quả kiểm tra chuẩn, mà còn phải chú trọng đến trải nghiệm thực tế của người dùng và đánh giá của bên thứ ba.
Quảng cáo chính thức thường sẽ chọn lọc để hiển thị những ưu điểm của mô hình, đồng thời bỏ qua những thiếu sót của nó. Mặc dù kiểm tra chuẩn có thể cung cấp một số giá trị tham khảo, nhưng nó không thể phản ánh đầy đủ hiệu suất của mô hình trong thế giới thực. Trải nghiệm thực tế của người dùng và đánh giá của bên thứ ba thì khách quan và toàn diện hơn, có thể giúp chúng ta hiểu chính xác hơn về ưu điểm và nhược điểm của mô hình.
Ngoài ra, hiệu suất của mô hình AI cũng bị ảnh hưởng bởi nhiều yếu tố, bao gồm dữ liệu đào tạo, kiến trúc mô hình, thuật toán tối ưu hóa, v.v. Các mô hình khác nhau có thể thể hiện những ưu điểm và nhược điểm khác nhau trong các nhiệm vụ khác nhau. Do đó, khi lựa chọn mô hình AI, cần phải xem xét toàn diện dựa trên các kịch bản ứng dụng và nhu cầu cụ thể.
Sự khác biệt lớn giữa việc phát hành Mistral Medium 3 và kết quả thử nghiệm thực tế của người dùng cũng đã gây ra các cuộc thảo luận về các tiêu chuẩn đánh giá mô hình AI. Làm thế nào để xây dựng một hệ thống đánh giá mô hình AI khoa học, khách quan và toàn diện hơn là một vấn đề đáng được khám phá sâu sắc.
Ảnh Hưởng Của Ngành
Sự kiện Mistral Medium 3 cũng đã có một tác động nhất định đến toàn bộ ngành công nghiệp AI. Một mặt, nó nhắc nhở các công ty AI chú trọng hơn đến trải nghiệm người dùng và tránh quảng cáo quá mức và tuyên truyền sai sự thật. Mặt khác, nó cũng thúc đẩy những người hành nghề trong lĩnh vực AI chú ý hơn đến việc xây dựng và cải thiện các tiêu chuẩn đánh giá mô hình AI.
Trong tương lai, với sự phát triển không ngừng của công nghệ AI, hiệu suất của các mô hình AI sẽ không ngừng được cải thiện và các kịch bản ứng dụng cũng sẽ không ngừng được mở rộng. Chúng ta cần có một thái độ lý trí và khách quan hơn đối với công nghệ AI, vừa thấy được tiềm năng to lớn của nó, vừa nhận thức được những hạn chế của nó. Chỉ bằng cách này chúng ta mới có thể sử dụng tốt hơn công nghệ AI để tạo ra giá trị cho xã hội loài người.
Tóm lại, trường hợp của Mistral Medium 3 là một lời cảnh báo, nhắc nhở chúng ta phải duy trì tư duy phản biện khi đánh giá các mô hình AI, không mù quáng tin vào quảng cáo chính thức mà phải kết hợp trải nghiệm thực tế và đánh giá của bên thứ ba để đưa ra những đánh giá hợp lý.