Syarikat permulaan Perancis, Mistral AI, baru-baru ini melancarkan model multimodal terbaharunya, Mistral Medium 3, yang telah menarik perhatian meluas dalam industri. Mistral mendakwa bahawa prestasi model ini dapat menandingi atau bahkan melampaui 90% daripada Claude Sonnet 3.7, sementara kosnya lebih rendah daripada DeepSeek V3, menjadikannya pilihan yang menjimatkan kos. Walau bagaimanapun, hasil ujian sebenar menunjukkan perbezaan tertentu daripada promosi rasmi, yang mencetuskan perbincangan mengenai kebenaran prestasi model.
Sorotan Utama Mistral Medium 3
Dalam blog rasminya, Mistral menyenaraikan beberapa sorotan utama Mistral Medium 3:
- Keseimbangan Prestasi dan Kos: Mistral Medium 3 bertujuan untuk mencapai prestasi terbaik sambil mengurangkan kos kepada satu per lapan daripada sebelumnya dan memudahkan proses penggunaan, dengan itu mempercepatkan aplikasi perusahaan.
- Prestasi Cemerlang dalam Senario Aplikasi Profesional: Model ini cemerlang dalam senario aplikasi profesional seperti pengekodan dan pemahaman multimodal.
- Ciri-ciri Gred Perusahaan: Mistral Medium 3 menyediakan pelbagai ciri gred perusahaan, termasuk sokongan untuk penggunaan awan hibrid, penggunaan tempatan, penggunaan dalam VPC, latihan selepas penyesuaian, dan integrasi ke dalam alat dan sistem perusahaan.
Mistral Medium 3 API kini tersedia di Mistral La Plateforme dan Amazon Sagemaker, dan tidak lama lagi akan dilancarkan di IBM WatsonX, NVIDIA NIM, Azure AI Foundry dan Google Cloud Vertex.
Pertukaran antara Prestasi dan Kos
Salah satu nilai jualan utama Mistral Medium 3 ialah pengurangan kos yang ketara sambil menyediakan prestasi yang canggih. Data rasmi menunjukkan bahawa dalam pelbagai ujian penanda aras, prestasi Mistral Medium 3 mencapai atau bahkan melebihi 90% daripada Claude Sonnet 3.7, tetapi kosnya dikurangkan dengan ketara (kos input ialah $0.4 setiap juta token, dan kos output ialah $2).
Selain itu, prestasi Mistral Medium 3 juga mengatasi model sumber terbuka terkemuka seperti Llama 4 Maverick dan Cohere Command A. Sama ada API atau penggunaan autonomi, kos Mistral Medium 3 lebih rendah daripada DeepSeek V3.
Mistral Medium 3 juga boleh digunakan di mana-mana awan, termasuk persekitaran yang dihoskan sendiri dengan empat GPU atau lebih, memberikan perusahaan fleksibiliti yang lebih besar.
Mengejar Prestasi Tertinggi
Mistral mendakwa bahawa matlamat Mistral Medium 3 adalah untuk menjadi model berprestasi tinggi, terutamanya cemerlang dalam tugas pengekodan dan STEM, dengan prestasi yang menghampiri pesaing yang lebih besar dan lebih perlahan.
Jadual yang disediakan oleh Mistral menunjukkan bahawa prestasi Mistral Medium 3 pada dasarnya telah melampaui Llama 4 Maverick dan GPT-4o, menghampiri tahap Claude Sonnet 3.7 dan DeepSeek 3.1. Walau bagaimanapun, data ini kebanyakannya datang daripada ujian penanda aras akademik dan mungkin tidak mencerminkan sepenuhnya prestasi model dalam aplikasi praktikal.
Tambahan Penilaian Manusia
Untuk menilai prestasi Mistral Medium 3 dengan lebih komprehensif, Mistral juga menerbitkan hasil penilaian manusia pihak ketiga. Penilaian manusia lebih mewakili kes penggunaan dunia sebenar dan boleh mengimbangi kekurangan ujian penanda aras akademik.
Daripada hasil penilaian manusia, Mistral Medium 3 cemerlang dalam bidang pengekodan dan memberikan prestasi yang lebih baik daripada pesaing lain dalam semua aspek. Ini menunjukkan bahawa Mistral Medium 3 mungkin mempunyai kelebihan tertentu dalam aplikasi praktikal.
Reka Bentuk untuk Aplikasi Gred Perusahaan
Mistral Medium 3 lebih baik daripada model SOTA yang lain dalam keupayaan untuk menyesuaikan diri dengan persekitaran perusahaan. Apabila perusahaan menghadapi pilihan sukar untuk memperhalusi melalui API atau menggunakan dan menyesuaikan tingkah laku model sendiri dari awal, Mistral Medium 3 menyediakan laluan untuk mengintegrasikan kecerdasan secara komprehensif ke dalam sistem perusahaan.
Untuk memenuhi lagi keperluan perusahaan, Mistral juga melancarkan Le Chat Enterprise, perkhidmatan chatbot yang dikuasakan oleh model Mistral Medium 3, untuk perusahaan. Le Chat Enterprise menyediakan alat pembinaan ejen AI dan mengintegrasikan model Mistral dengan perkhidmatan pihak ketiga seperti Gmail, Google Drive dan SharePoint, yang bertujuan untuk menyelesaikan cabaran AI yang dihadapi oleh perusahaan, seperti fragmentasi alat, integrasi pengetahuan yang tidak selamat, model tegar dan pulangan pelaburan yang perlahan, dan menyediakan platform AI yang bersatu untuk semua kerja organisasi.
Le Chat Enterprise akan segera menyokong protokol MCP, standard yang dicadangkan oleh Anthropic untuk menghubungkan AI dengan sistem data dan perisian.
Prospek Masa Depan Mistral
Mistral mendedahkan dalam blog bahawa walaupun Mistral Small dan Mistral Medium telah dikeluarkan, mereka mempunyai rancangan “besar” dalam beberapa minggu akan datang, iaitu Mistral Large. Mereka berkata bahawa prestasi Mistral Medium yang baru dikeluarkan telah jauh melebihi model sumber terbuka terkemuka seperti Llama 4 Maverick, dan prestasi Mistral Large lebih menjanjikan.
Pelancaran Mistral Large pasti akan meningkatkan lagi daya saing Mistral dalam bidang AI dan memberikan pengguna lebih banyak pilihan.
Jurang dalam Ujian Sebenar
Walaupun Mistral yakin dengan prestasi Mistral Medium 3 dan mendakwa ia melebihi 90% daripada Claude Sonnet 3.7, hasil ujian sebenar mendedahkan beberapa masalah.
Media dan netizen dengan cepat menjalankan ujian sebenar Mistral Medium 3, tetapi hasilnya mengecewakan. Dalam penilaian berdasarkan soalan klasifikasi perbendaharaan kata lajur Connections The New York Times, Medium 3 berada di kedudukan terbawah dan hampir tidak dapat dijumpai. Dalam penilaian 100 soalan baharu, ia juga tidak berada di barisan hadapan model.
Seorang pengguna yang menguji Medium 3 berkata bahawa keupayaan menulisnya masih sama seperti sebelumnya, tanpa peningkatan yang ketara. Walau bagaimanapun, dalam penilaian LLM, ia berada di barisan hadapan Pareto.
Hasil ujian Zhu Liang menunjukkan bahawa Mistral Medium 3 berprestasi dengan baik dalam pengekodan dan penjanaan teks, dan menduduki tempat lima teratas dalam kedua-dua penilaian.
Dalam tugas pengekodan mudah (aplikasi Next.js TODO):
- Ia menghasilkan respons yang ringkas dan jelas
- Markah adalah serupa dengan Gemini 2.5 Pro dan Claude 3.5 Sonnet
- Lebih rendah daripada DeepSeek V3 (baharu) dan GPT-4.1
Dalam tugas pengekodan yang kompleks (visualisasi penanda aras):
- Menghasilkan keputusan purata yang serupa dengan Gemini 2.5 Pro dan DeepSeek V3 (baharu)
- Lebih rendah daripada GPT-4.1, o3 dan Claude 3.7 Sonnet
Dalam penulisan:
- Kandungannya meliputi kebanyakan perkara penting, tetapi formatnya tidak betul
- Markah adalah serupa dengan DeepSeek V3 (baharu) dan Claude 3.7 Sonnet
- Lebih rendah daripada GPT-4.1 dan Gemini 2.5 Pro
Tokoh terkenal “karminski-dentist” mendapati selepas ujian sebenar bahawa prestasi Mistral Medium 3 tidak sekuat seperti yang diuar-uarkan secara rasmi, dan juga mencadangkan pengguna untuk tidak memuat turunnya untuk mengelakkan pembaziran trafik dan ruang cakera keras.
Kesimpulan
Mistral Medium 3, sebagai percubaan inovatif dalam bidang AI Eropah, berusaha untuk keseimbangan antara prestasi dan kos serta dioptimumkan untuk aplikasi gred perusahaan. Walau bagaimanapun, hasil ujian sebenar menunjukkan perbezaan daripada promosi rasmi, menunjukkan bahawa Mistral mungkin telah membesar-besarkan prestasi model.
Walaupun begitu, Mistral Medium 3 masih mempunyai potensi tertentu, terutamanya dalam bidang pengekodan dan penjanaan teks. Pada masa hadapan, Mistral perlu terus meningkatkan prestasi model dan mengukuhkan ujian aplikasi praktikal untuk mendapatkan kepercayaan pengguna. Pada masa yang sama, pelancaran Mistral Large juga patut dinantikan, yang mungkin dapat mengimbangi kekurangan Mistral Medium 3 dan membawa pengalaman yang lebih baik kepada pengguna.
Ringkasnya, pelancaran Mistral Medium 3 mencerminkan penerokaan dan semangat inovasi aktif Eropah dalam bidang AI. Walaupun terdapat jurang antara prestasi sebenar dan jangkaan, Mistral masih patut diberi perhatian, dan pembangunan masa depannya patut dinantikan.