Ambisi AI Mistral Medium 3: Realita vs Harapan

Perusahaan rintisan Prancis, Mistral AI, baru-baru ini meluncurkan model multimodal terbarunya, Mistral Medium 3, yang telah memicu perhatian luas di industri. Mistral mengklaim bahwa kinerja model ini sebanding atau bahkan melampaui 90% dari Claude Sonnet 3.7, sementara biayanya lebih rendah dari DeepSeek V3, menjadikannya pilihan yang hemat biaya. Namun, hasil pengujian aktual menunjukkan perbedaan dengan promosi resmi, memicu diskusi tentang kebenaran kinerja model.

Keunggulan Utama Mistral Medium 3

Mistral dalam blog resminya mencantumkan beberapa keunggulan utama Mistral Medium 3:

  • Keseimbangan antara Kinerja dan Biaya: Mistral Medium 3 bertujuan untuk mencapai kinerja terbaik sekaligus mengurangi biaya hingga seperdelapan dari sebelumnya dan menyederhanakan proses penyebaran, sehingga mempercepat aplikasi perusahaan.
  • Kinerja Luar Biasa dalam Skenario Aplikasi Profesional: Model ini unggul dalam skenario aplikasi profesional seperti penulisan kode dan pemahaman multimodal.
  • Fitur Tingkat Perusahaan: Mistral Medium 3 menawarkan serangkaian fitur tingkat perusahaan, termasuk dukungan untuk penyebaran cloud hybrid, penyebaran lokal, dan penyebaran di dalam VPC, pelatihan pasca-kustomisasi, dan integrasi ke dalam alat dan sistem perusahaan.

Mistral Medium 3 API sekarang tersedia di Mistral La Plateforme dan Amazon Sagemaker, dan akan segera hadir di IBM WatsonX, NVIDIA NIM, Azure AI Foundry, dan Google Cloud Vertex.

Pertukaran Kinerja dan Biaya

Salah satu nilai jual utama Mistral Medium 3 adalah pengurangan biaya yang signifikan sambil memberikan kinerja mutakhir. Data resmi menunjukkan bahwa dalam berbagai tolok ukur, kinerja Mistral Medium 3 mencapai atau bahkan melampaui 90% dari Claude Sonnet 3.7, tetapi biayanya jauh lebih rendah (biaya input per juta token adalah $0,4, dan biaya output adalah $2).

Selain itu, kinerja Mistral Medium 3 juga melampaui model open source terkemuka seperti Llama 4 Maverick dan Cohere Command A. Baik API maupun penyebaran mandiri, biaya Mistral Medium 3 lebih rendah daripada DeepSeek V3.

Mistral Medium 3 juga dapat disebarkan di cloud mana pun, termasuk lingkungan yang dihosting sendiri dengan empat GPU atau lebih, memberikan fleksibilitas yang lebih besar bagi perusahaan.

Mengejar Kinerja Terbaik

Mistral mengklaim bahwa tujuan Mistral Medium 3 adalah untuk menjadi model dengan kinerja terbaik, terutama dalam tugas pengkodean dan STEM, dengan kinerja yang mendekati pesaing yang lebih besar dan lebih lambat.

Tabel yang disediakan oleh Mistral menunjukkan bahwa kinerja Mistral Medium 3 pada dasarnya telah melampaui Llama 4 Maverick dan GPT-4o, mendekati level Claude Sonnet 3.7 dan DeepSeek 3.1. Namun, data ini sebagian besar berasal dari tolok ukur akademik dan mungkin tidak sepenuhnya mencerminkan kinerja model dalam aplikasi praktis.

Suplemen Penilaian Manual

Untuk mengevaluasi kinerja Mistral Medium 3 secara lebih komprehensif, Mistral juga menerbitkan hasil penilaian manual pihak ketiga. Penilaian manual lebih representatif dari kasus penggunaan dunia nyata dan dapat mengimbangi kekurangan tolok ukur akademik.

Dari hasil penilaian manual, Mistral Medium 3 menunjukkan kinerja yang sangat baik di bidang pengkodean dan memberikan kinerja yang lebih baik daripada pesaing lain di semua aspek. Ini menunjukkan bahwa Mistral Medium 3 mungkin memiliki keunggulan tertentu dalam aplikasi praktis.

Desain untuk Aplikasi Tingkat Perusahaan

Mistral Medium 3 lebih unggul daripada model SOTA lainnya dalam kemampuannya untuk beradaptasi dengan lingkungan perusahaan. Ketika perusahaan menghadapi pilihan sulit untuk menyempurnakan melalui API, atau menyebarkan sendiri dan menyesuaikan perilaku model dari awal, Mistral Medium 3 menyediakan jalur untuk mengintegrasikan kecerdasan secara komprehensif ke dalam sistem perusahaan.

Untuk lebih memenuhi kebutuhan perusahaan, Mistral juga meluncurkan Le Chat Enterprise, layanan chatbot untuk perusahaan yang didukung oleh model Mistral Medium 3. Le Chat Enterprise menyediakan alat pembuatan agen AI dan mengintegrasikan model Mistral dengan layanan pihak ketiga seperti Gmail, Google Drive, dan SharePoint. Hal ini bertujuan untuk mengatasi tantangan AI yang dihadapi perusahaan, seperti fragmentasi alat, integrasi pengetahuan yang tidak aman, model yang kaku, dan pengembalian investasi yang lambat, serta menyediakan platform AI terpadu untuk semua pekerjaan organisasi.

Le Chat Enterprise akan segera mendukung protokol MCP, standar yang diusulkan oleh Anthropic untuk menghubungkan AI dengan sistem data dan perangkat lunak.

Prospek Masa Depan Mistral

Mistral mengungkapkan dalam blog bahwa meskipun Mistral Small dan Mistral Medium telah dirilis, mereka memiliki rencana “besar” dalam beberapa minggu mendatang, yaitu Mistral Large. Mereka menyatakan bahwa kinerja Mistral Medium yang baru dirilis telah jauh lebih baik daripada model open source terkemuka seperti Llama 4 Maverick, dan kinerja Mistral Large bahkan lebih patut dinantikan.

Peluncuran Mistral Large pasti akan semakin meningkatkan daya saing Mistral di bidang AI dan memberikan lebih banyak pilihan kepada pengguna.

Perbedaan dalam Pengujian Aktual

Meskipun Mistral penuh keyakinan tentang kinerja Mistral Medium 3 dan mengklaim bahwa itu melampaui 90% dari Claude Sonnet 3.7, hasil pengujian aktual mengungkapkan beberapa masalah.

Media dan netizen dengan cepat melakukan pengujian aktual Mistral Medium 3, tetapi hasilnya mengecewakan. Dalam evaluasi berdasarkan soal klasifikasi kosakata kolom Connections The New York Times, Medium 3 berada di posisi terbawah, hampir tidak ditemukan. Dalam evaluasi 100 soal baru, ia juga tidak termasuk dalam model barisan depan.

Beberapa pengguna menguji Medium 3 dan mengatakan bahwa kemampuan menulisnya masih sama dan tidak ada peningkatan yang signifikan. Namun, dalam evaluasi LLM, ia berada di perbatasan Pareto.

Hasil pengujian Zhu Liang menunjukkan bahwa Mistral Medium 3 menunjukkan kinerja yang solid dalam penulisan kode dan pembuatan teks, dan keduanya termasuk dalam lima besar dalam evaluasi ini.

Dalam tugas pengkodean sederhana (aplikasi Next.js TODO):

  • Itu menghasilkan tanggapan yang ringkas dan jelas
  • Skornya mirip dengan Gemini 2.5 Pro dan Claude 3.5 Sonnet
  • Lebih rendah dari DeepSeek V3 (baru) dan GPT-4.1

Dalam tugas pengkodean yang kompleks (visualisasi tolok ukur):

  • Menghasilkan hasil rata-rata yang mirip dengan Gemini 2.5 Pro dan DeepSeek V3 (baru)
  • Tidak sebaik GPT-4.1, o3, dan Claude 3.7 Sonnet

Dalam hal menulis:

  • Isinya mencakup sebagian besar poin utama, tetapi formatnya salah
  • Skornya mirip dengan DeepSeek V3 (baru) dan Claude 3.7 Sonnet
  • Tidak sebaik GPT-4.1 dan Gemini 2.5 Pro

Tokoh terkenal "karminski-dokter gigi" menemukan setelah pengujian aktual bahwa kinerja Mistral Medium 3 tidak sekuat yang dibesar-besarkan secara resmi, dan bahkan menyarankan pengguna untuk tidak mengunduhnya agar tidak membuang-buang lalu lintas dan ruang hard disk.

Kesimpulan

Mistral Medium 3, sebagai upaya inovatif di bidang AI Eropa, berusaha untuk menyeimbangkan kinerja dan biaya, dan dioptimalkan untuk aplikasi tingkat perusahaan. Namun, hasil pengujian aktual menunjukkan perbedaan dengan promosi resmi, menunjukkan bahwa Mistral mungkin telah melebih-lebihkan kinerja model.

Meskipun demikian, Mistral Medium 3 masih memiliki potensi tertentu, terutama di bidang pengkodean dan pembuatan teks. Di masa depan, Mistral perlu lebih meningkatkan kinerja model dan memperkuat pengujian aplikasi praktis untuk mendapatkan kepercayaan pengguna. Pada saat yang sama, peluncuran Mistral Large juga patut dinantikan, mungkin dapat menutupi kekurangan Mistral Medium 3 dan menghadirkan pengalaman yang lebih baik bagi pengguna.

Singkatnya, peluncuran Mistral Medium 3 mencerminkan eksplorasi aktif dan semangat inovasi Eropa di bidang AI. Meskipun ada perbedaan antara kinerja aktual dan harapan, Mistral masih patut diperhatikan, dan perkembangan masa depannya patut dinantikan.