Mistral Medium 3: Tantangan AI dan Realitas Kinerja

Perusahaan rintisan Prancis, Mistral AI, baru-baru ini meluncurkan model multimodal terbarunya, Mistral Medium 3, yang diklaim memiliki kinerja sebanding dengan Claude Sonnet 3.7 yang kuat, dan dengan biaya lebih rendah daripada DeepSeek V3. Berita ini segera memicu perhatian luas di kalangan teknologi. Namun, pengguna setelah pengujian aktual menemukan bahwa kinerja model ini memiliki kesenjangan yang signifikan dengan promosi resmi, bahkan beberapa orang menyarankan agar pengguna tidak membuang waktu dan sumber daya untuk mengunduh.

Promosi Resmi Mistral Medium 3

Mistral AI dalam blog resminya menekankan beberapa sorotan utama dari Mistral Medium 3:

  • Keseimbangan antara Kinerja dan Biaya: Mistral Medium 3 bertujuan untuk memberikan kinerja terbaik sambil mengurangi biaya menjadi seperdelapan dari aslinya, sehingga mempercepat aplikasi perusahaan.
  • Keunggulan dalam Skenario Aplikasi Profesional: Model ini berkinerja sangat baik dalam bidang profesional seperti penulisan kode dan pemahaman multimodal.
  • Fitur Tingkat Perusahaan: Mistral Medium 3 menyediakan serangkaian fitur tingkat perusahaan, termasuk dukungan untuk penerapan cloud hybrid, penerapan lokal, dan penerapan di dalam VPC, serta pelatihan pasca-kustomisasi dan integrasi ke dalam alat dan sistem perusahaan.

Mistral Medium 3 API telah diluncurkan di Mistral La Plateforme dan Amazon Sagemaker, dan rencananya akan segera mendarat di IBM WatsonX, NVIDIA NIM, Azure AI Foundry, dan Google Cloud Vertex.

Perbandingan Indikator Kinerja

Mistral AI mengklaim bahwa dalam berbagai tolok ukur, kinerja Mistral Medium 3 mencapai atau bahkan melampaui 90% dari Claude Sonnet 3.7, tetapi biayanya berkurang secara signifikan. Secara khusus, biaya input Mistral Medium 3 adalah $0,4 per juta token, dan biaya output adalah $2.

Selain itu, kinerja Mistral Medium 3 dikabarkan melampaui model sumber terbuka terkemuka seperti Llama 4 Maverick dan Cohere Command A. Baik melalui API atau penyebaran mandiri, biaya Mistral Medium 3 lebih rendah daripada DeepSeek V3. Model ini juga dapat diterapkan di cloud mana pun, termasuk lingkungan yang dihosting sendiri dengan empat GPU atau lebih.

Fokus pada Aplikasi Tingkat Perusahaan

Mistral AI menekankan bahwa tujuan Mistral Medium 3 adalah menjadi model dengan kinerja terbaik, terutama dalam tugas pengkodean dan STEM, dengan kinerja yang mendekati pesaing yang lebih besar dan lebih lambat.

Data resmi menunjukkan bahwa kinerja Mistral Medium 3 pada dasarnya melampaui Llama 4 Maverick dan GPT-4o, mendekati Claude Sonnet 3.7 dan level DeepSeek 3.1.

Untuk memvalidasi lebih lanjut kinerja model, Mistral AI juga merilis hasil evaluasi manual pihak ketiga, yang lebih mewakili kasus penggunaan dunia nyata. Hasilnya menunjukkan bahwa Mistral Medium 3 berkinerja sangat baik di bidang pengkodean, dan memberikan kinerja yang lebih baik daripada pesaing lainnya di semua aspek.

Mistral Medium 3 juga unggul dari model SOTA lainnya dalam kemampuan beradaptasi dengan lingkungan perusahaan. Ini memberi perusahaan cara untuk mengintegrasikan kecerdasan secara komprehensif ke dalam sistem perusahaan, memecahkan masalah yang dihadapi perusahaan dalam penyetelan halus API dan penyesuaian model.

Le Chat Enterprise

Mistral AI juga meluncurkan Le Chat Enterprise yang didukung oleh model Mistral Medium 3, layanan chatbot untuk perusahaan. Ini menyediakan alat pembuatan agen AI cerdas, dan mengintegrasikan model Mistral dengan layanan pihak ketiga seperti Gmail, Google Drive, dan SharePoint.

Le Chat Enterprise bertujuan untuk mengatasi tantangan AI yang dihadapi perusahaan, seperti fragmentasi alat, integrasi pengetahuan yang tidak aman, model yang kaku, dan ROI yang lambat, menyediakan platform AI terpadu untuk semua pekerjaan organisasi.

Le Chat Enterprise akan segera mendukung protokol MCP, standar yang diajukan oleh Anthropic untuk menghubungkan AI dengan sistem data dan perangkat lunak.

Prospek Mistral Large

Mistral AI juga mengungkapkan di blog bahwa meskipun Mistral Small dan Mistral Medium telah dirilis, dalam beberapa minggu mendatang, mereka memiliki rencana “besar”, yaitu Mistral Large. Mereka mengatakan bahwa kinerja Mistral Medium yang baru dirilis telah jauh lebih unggul daripada model sumber terbuka terkemuka seperti Llama 4 Maverick, dan kinerja Mistral Large lebih layak untuk dinantikan.

Situasi Nyata Uji Pengguna

Namun, setelah Mistral AI secara luas mempromosikan kinerja Mistral Medium 3 yang kuat, media dan pengguna dengan cepat melakukan pengujian aktual, tetapi hasilnya mengejutkan.

Kesenjangan Uji Kinerja

Dalam evaluasi berdasarkan soal klasifikasi kosakata kolom Connections The New York Times, kinerja Mistral Medium 3 mengecewakan, hampir tidak dapat ditemukan. Dalam evaluasi 100 soal baru, itu tidak berada di peringkat atas di antara model barisan depan.

Beberapa pengguna setelah pengujian mengatakan bahwa kemampuan menulis Mistral Medium 3 tidak menunjukkan kemajuan yang signifikan. Namun, dalam evaluasi LLM, ia berada di garis depan Pareto.

Pengujian Zhu Liang menemukan bahwa Mistral Medium 3 berkinerja solid dalam penulisan kode dan pembuatan teks, keduanya masuk dalam lima besar dalam evaluasi ini.

Kinerja Tugas Pengkodean

Dalam tugas pengkodean sederhana (aplikasi Next.js TODO), Mistral Medium 3 menghasilkan respons yang ringkas dan jelas, skornya mirip dengan Gemini 2.5 Pro dan Claude 3.5 Sonnet, tetapi lebih rendah dari DeepSeek V3 (baru) dan GPT-4.1.

Dalam tugas pengkodean kompleks (visualisasi tolok ukur), Mistral Medium 3 menghasilkan hasil rata-rata yang mirip dengan Gemini 2.5 Pro dan DeepSeek V3 (baru), tetapi tidak sebaik GPT-4.1, o3, dan Claude 3.7 Sonnet.

Evaluasi Kemampuan Menulis

Dalam hal menulis, Mistral Medium 3 mencakup sebagian besar poin penting, tetapi formatnya salah, skornya mirip dengan DeepSeek V3 (baru) dan Claude 3.7 Sonnet, tidak sebaik GPT-4.1 dan Gemini 2.5 Pro.

Tokoh terkenal "karminski-dokter gigi" setelah pengujian aktual juga menyatakan bahwa kinerja Mistral Medium 3 tidak sekuat yang dibanggakan secara resmi, menyarankan pengguna untuk tidak mengunduh, agar tidak membuang lalu lintas dan ruang hard disk.

Perbandingan dan Refleksi

Kasus Mistral Medium 3 sekali lagi mengingatkan kita bahwa dalam mengevaluasi kinerja model AI, kita tidak dapat hanya bergantung pada promosi resmi dan hasil uji tolok ukur, tetapi lebih menghargai pengalaman aktual pengguna dan evaluasi pihak ketiga.

Promosi resmi sering kali secara selektif menampilkan keunggulan model, sambil mengabaikan kekurangannya. Meskipun uji tolok ukur dapat memberikan nilai referensi tertentu, mereka tidak dapat sepenuhnya mencerminkan kinerja model di dunia nyata. Pengalaman aktual pengguna dan evaluasi pihak ketiga lebih objektif dan komprehensif, dan dapat membantu kita lebih akurat memahami kelebihan dan kekurangan model.

Selain itu, kinerja model AI juga dipengaruhi oleh berbagai faktor, termasuk data pelatihan, arsitektur model, algoritma optimasi, dll. Model yang berbeda mungkin menunjukkan kelebihan dan kekurangan yang berbeda pada tugas yang berbeda. Oleh karena itu, dalam memilih model AI, kita perlu mempertimbangkan secara komprehensif berdasarkan skenario dan kebutuhan aplikasi tertentu.

Kesenjangan besar antara peluncuran Mistral Medium 3 dan hasil uji pengguna juga memicu diskusi tentang standar evaluasi model AI. Bagaimana membangun sistem evaluasi model AI yang lebih ilmiah, objektif, dan komprehensif adalah masalah yang perlu dieksplorasi secara mendalam.

Dampak Industri

Peristiwa Mistral Medium 3 juga memiliki dampak tertentu pada seluruh industri AI. Di satu sisi, ini mengingatkan perusahaan AI untuk lebih memperhatikan pengalaman pengguna, dan menghindari promosi yang berlebihan dan promosi palsu. Di sisi lain, ini juga mendorong praktisi di bidang AI untuk lebih memperhatikan perumusan dan peningkatan standar evaluasi model AI.

Di masa depan, dengan perkembangan teknologi AI yang berkelanjutan, kinerja model AI akan terus meningkat, dan skenario aplikasi juga akan terus berkembang. Kita perlu melihat teknologi AI dengan sikap yang lebih rasional dan objektif, baik melihat potensi besarnya maupun menyadari keterbatasannya. Hanya dengan cara ini kita dapat lebih baik menggunakan teknologi AI untuk menciptakan nilai bagi masyarakat manusia.

Singkatnya, kasus Mistral Medium 3 adalah peringatan, mengingatkan kita untuk mempertahankan pemikiran kritis saat mengevaluasi model AI, tidak boleh secara membabi buta mempercayai promosi resmi, tetapi harus menggabungkan pengalaman aktual dan evaluasi pihak ketiga untuk membuat penilaian yang rasional.

Tantangan Mistral Medium 3: Antara Klaim dan Realita

Perusahaan rintisan asal Prancis, Mistral AI, baru-baru ini meluncurkan model multimodal terbarunya, Mistral Medium 3. Mereka mengklaim bahwa kinerja model ini setara dengan Claude Sonnet 3.7, bahkan lebih murah daripada DeepSeek V3. Namun, setelah diuji oleh pengguna, ternyata performanya jauh berbeda dari yang diiklankan. Mari kita telusuri lebih dalam mengenai klaim, hasil uji, dan implikasinya.

Klaim Muluk dari Mistral Medium 3

Mistral AI mempromosikan Mistral Medium 3 dengan beberapa keunggulan utama:

  • Keseimbangan Kinerja dan Biaya: Dijanjikan performa tinggi dengan biaya yang lebih rendah, ideal untuk aplikasi bisnis.
  • Keunggulan di Bidang Profesional: Diklaim unggul dalam coding dan pemahaman multimodal.
  • Fitur Kelas Enterprise: Mendukung berbagai opsi deployment, termasuk cloud hybrid, on-premise, dan VPC. Selain itu, juga mendukung custom training dan integrasi dengan alat perusahaan.

API Mistral Medium 3 sudah tersedia di Mistral La Plateforme dan Amazon Sagemaker, dan akan segera hadir di IBM WatsonX, NVIDIA NIM, Azure AI Foundry, dan Google Cloud Vertex.

Data Tolok Ukur yang Menjanjikan

Mistral AI mengklaim bahwa Mistral Medium 3 mampu mencapai atau bahkan melampaui 90% performa Claude Sonnet 3.7 dalam berbagai tolok ukur, tetapi dengan biaya yang jauh lebih rendah. Secara spesifik, biaya input adalah $0.4 per juta token, dan biaya output adalah $2.

Lebih lanjut, Mistral Medium 3 diklaim mengungguli model open-source terkemuka seperti Llama 4 Maverick dan Cohere Command A. Baik melalui API maupun self-deployment, biaya Mistral Medium 3 lebih rendah daripada DeepSeek V3. Model ini juga fleksibel untuk di-deploy di berbagai cloud, bahkan di lingkungan self-hosted dengan minimal empat GPU.

Fokus pada Penggunaan Enterprise

Mistral AI menekankan bahwa Mistral Medium 3 dirancang untuk menjadi model performa tinggi, terutama dalam tugas coding dan STEM, mendekati performa model yang lebih besar dan lebih lambat.

Data yang dipublikasikan secara resmi menunjukkan bahwa Mistral Medium 3 melampaui Llama 4 Maverick dan GPT-4o, serta mendekati level Claude Sonnet 3.7 dan DeepSeek 3.1.

Untuk validasi lebih lanjut, Mistral AI juga menyertakan hasil evaluasi manual dari pihak ketiga, yang diklaim lebih relevan dengan skenario penggunaan di dunia nyata. Hasilnya menunjukkan keunggulan Mistral Medium 3 dalam coding dan performa yang lebih baik secara keseluruhan dibandingkan kompetitor.

Kemampuan Mistral Medium 3 untuk beradaptasi dengan lingkungan enterprise juga diklaim lebih baik dibandingkan model SOTA lainnya. Model ini menjanjikan integrasi kecerdasan buatan yang komprehensif ke dalam sistem perusahaan, mengatasi tantangan dalam fine-tuning API dan kustomisasi model.

Le Chat Enterprise: Solusi AI untuk Bisnis

Mistral AI juga memperkenalkan Le Chat Enterprise, sebuah chatbot berbasis Mistral Medium 3 yang dirancang untuk perusahaan. Layanan ini menawarkan alat untuk membangun agen AI cerdas, serta integrasi dengan layanan pihak ketiga seperti Gmail, Google Drive, dan SharePoint.

Le Chat Enterprise bertujuan untuk mengatasi masalah umum dalam implementasi AI di perusahaan, seperti fragmentasi alat, integrasi pengetahuan yang tidak aman, model yang kaku, dan ROI yang lambat, dengan menyediakan platform AI terpadu untuk seluruh organisasi.

Le Chat Enterprise akan segera mendukung protokol MCP, sebuah standar yang diusulkan oleh Anthropic untuk menghubungkan AI dengan sistem data dan software.

Menantikan Mistral Large

Selain Mistral Small dan Medium, Mistral AI juga mengisyaratkan kehadiran Mistral Large dalam beberapa minggu mendatang. Mereka mengklaim bahwa Mistral Medium sudah melampaui model open-source terkemuka seperti Llama 4 Maverick, sehingga performa Mistral Large sangat dinantikan.

Uji Coba Pengguna: Realita yang Berbeda

Namun, setelah promosi besar-besaran dari Mistral AI, media dan pengguna mulai melakukan pengujian independen, dan hasilnya tidak sesuai dengan ekspektasi.

Kesenjangan dalam Hasil Uji

Dalam pengujian menggunakan soal klasifikasi kosakata dari kolom “Connections” di The New York Times, Mistral Medium 3 menunjukkan performa yang mengecewakan. Dalam pengujian 100 soal baru, model ini tidak berada di peringkat atas.

Beberapa pengguna melaporkan bahwa kemampuan menulis Mistral Medium 3 tidak mengalami peningkatan signifikan. Namun, dalam evaluasi LLM secara umum, model ini menunjukkan performa yang baik.

Pengujian oleh Zhu Liang menemukan bahwa Mistral Medium 3 solid dalam coding dan pembuatan teks, dengan keduanya masuk dalam lima besar.

Performa dalam Tugas Coding

Dalam tugas coding sederhana (aplikasi Next.js TODO), Mistral Medium 3 menghasilkan respons yang jelas dan ringkas, dengan skor yang mirip dengan Gemini 2.5 Pro dan Claude 3.5 Sonnet, tetapi lebih rendah daripada DeepSeek V3 (baru) dan GPT-4.1.

Dalam tugas coding yang lebih kompleks (visualisasi tolok ukur), Mistral Medium 3 menghasilkan hasil yang sebanding dengan Gemini 2.5 Pro dan DeepSeek V3 (baru), tetapi tidak sebaik GPT-4.1, o3, dan Claude 3.7 Sonnet.

Evaluasi Kemampuan Menulis

Dalam hal menulis, Mistral Medium 3 mencakup sebagian besar poin penting, tetapi formatnya kurang tepat. Skornya sebanding dengan DeepSeek V3 (baru) dan Claude 3.7 Sonnet, tetapi tidak sebaik GPT-4.1 dan Gemini 2.5 Pro.

Seorang pengguna dengan nama panggilan “karminski-dokter gigi” juga menyarankan untuk tidak mengunduh Mistral Medium 3 karena performanya tidak sesuai dengan klaim dan hanya akan membuang bandwidth dan ruang penyimpanan.

Analisis dan Refleksi

Kasus Mistral Medium 3 menggarisbawahi pentingnya skeptisisme terhadap klaim performa model AI. Evaluasi yang komprehensif harus mempertimbangkan pengalaman pengguna dan evaluasi pihak ketiga, selain data tolok ukur resmi.

Promosi resmi seringkali berfokus pada kelebihan model dan mengabaikan kekurangannya. Tolok ukur memang memberikan indikasi performa, tetapi tidak selalu mencerminkan performa di dunia nyata. Pengalaman pengguna dan evaluasi pihak ketiga memberikan perspektif yang lebih objektif dan menyeluruh.

Performa model AI dipengaruhi oleh berbagai faktor, termasuk data pelatihan, arsitektur model, dan algoritma optimasi. Model yang berbeda mungkin memiliki keunggulan dan kelemahan yang berbeda dalam tugas yang berbeda. Oleh karena itu, penting untuk mempertimbangkan kebutuhan aplikasi spesifik dalam memilih model AI.

Kesenjangan antara klaim Mistral Medium 3 dan hasil uji pengguna memicu diskusi mengenai standar evaluasi model AI. Penting untuk mengembangkan sistem evaluasi yang lebih ilmiah, objektif, dan komprehensif.

Implikasi Industri

Kasus Mistral Medium 3 berdampak pada industri AI secara keseluruhan. Ini mengingatkan perusahaan AI untuk memprioritaskan pengalaman pengguna dan menghindari over-promising. Selain itu, kasus ini juga mendorong pengembangan standar evaluasi model AI yang lebih baik.

Seiring dengan perkembangan teknologi AI, performa model AI akan terus meningkat dan aplikasi akan terus berkembang. Kita perlu bersikap rasional dan objektif terhadap teknologi AI, mengakui potensi dan keterbatasannya. Hanya dengan begitu kita dapat memanfaatkan AI untuk menciptakan nilai bagi masyarakat.

Kesimpulannya, kasus Mistral Medium 3 adalah peringatan. Kita perlu mempertahankan pemikiran kritis dalam mengevaluasi model AI, dan tidak hanya mengandalkan klaim resmi. Kombinasikan pengalaman pengguna dan evaluasi pihak ketiga untuk membuat keputusan yang rasional.

Masa Depan Evaluasi Model AI

Kejadian Mistral Medium 3 memberikan pelajaran berharga tentang bagaimana kita mendekati dan mengevaluasi model kecerdasan buatan (AI). Penting untuk mengembangkan metode evaluasi yang lebih komprehensif dan realistis yang melampaui tolok ukur standar. Beberapa area yang perlu diperhatikan dalam evaluasi model AI di masa depan meliputi:

Diversifikasi Tolok Ukur

Meskipun tolok ukur memberikan metrik kuantitatif yang berguna, penting untuk menggunakan berbagai tolok ukur yang mencerminkan berbagai kasus penggunaan dan skenario dunia nyata. Ini termasuk tolok ukur yang mengevaluasi kemampuan seperti penalaran logis, pemecahan masalah kreatif, pemahaman bahasa alami, dan kemampuan untuk beradaptasi dengan tugas-tugas baru.

Evaluasi Subjektif oleh Manusia

Evaluasi oleh manusia tetap menjadi bagian penting dari proses evaluasi. Evaluasi subjektif dapat memberikan wawasan tentang kualitas respons model, relevansi, keakuratan, dan kegunaan dalam konteks tertentu. Melibatkan pengguna dan ahli di bidang terkait dalam proses evaluasi dapat membantu mengidentifikasi kekuatan dan kelemahan model yang mungkin tidak terungkap oleh tolok ukur kuantitatif.

Pertimbangan Etis dan Dampak Sosial

Selain performa teknis, evaluasi model AI juga harus mempertimbangkan implikasi etis dan sosial. Ini termasuk mengevaluasi potensi bias dalam model, dampak pada privasi, potensi untuk penyalahgunaan, dan dampaknya terhadap pekerjaan dan masyarakat secara umum. Penting untuk mengembangkan model AI yang adil, transparan, dan bertanggung jawab.

Kemampuan Adaptasi dan Pembelajaran Berkelanjutan

Model AI harus dievaluasi berdasarkan kemampuannya untuk beradaptasi dengan perubahan data, tugas, dan lingkungan. Model yang mampu belajar secara berkelanjutan dan meningkatkan performa seiring waktu lebih berharga daripada model yang statis dan tidak fleksibel. Evaluasi kemampuan adaptasi dan pembelajaran berkelanjutan memerlukan pengujian model dalam berbagai skenario dan dengan data yang berbeda.

Transparansi dan Akuntabilitas

Penting untuk meningkatkan transparansi dalam pengembangan dan evaluasi model AI. Ini termasuk mengungkapkan data pelatihan yang digunakan, arsitektur model, algoritma optimasi, dan metrik evaluasi. Transparansi membantu membangun kepercayaan dan memungkinkan pemangku kepentingan untuk memahami bagaimana model bekerja dan membuat keputusan. Akuntabilitas juga penting, dan perusahaan dan pengembang harus bertanggung jawab atas kinerja dan dampak model mereka.

Peran Regulasi

Selain upaya industri untuk meningkatkan evaluasi model AI, regulasi juga dapat memainkan peran penting. Pemerintah dan badan pengatur dapat menetapkan standar untuk evaluasi model AI, mewajibkan transparansi, dan memastikan akuntabilitas. Regulasi dapat membantu mencegah penyalahgunaan model AI dan melindungi hak-hak individu dan masyarakat.

Kesimpulan

Evaluasi model AI adalah proses yang kompleks dan terus berkembang. Penting untuk menggunakan metode evaluasi yang komprehensif, mempertimbangkan implikasi etis dan sosial, dan mendorong transparansi dan akuntabilitas. Dengan melakukan itu, kita dapat memastikan bahwa model AI dikembangkan dan digunakan secara bertanggung jawab dan memberikan manfaat yang maksimal bagi masyarakat.