Mistral Medium 3: Cabaran AI dan Realiti Berbeza
Syarikat permulaan Perancis, Mistral AI, baru-baru ini melancarkan model multimodal terbaharu mereka, Mistral Medium 3, yang didakwa mempunyai prestasi yang setanding dengan Claude Sonnet 3.7 yang hebat, dan kos yang lebih rendah daripada DeepSeek V3. Berita ini serta-merta mencetuskan perhatian meluas dalam dunia teknologi. Walau bagaimanapun, pengguna mendapati selepas ujian praktikal bahawa prestasi model ini mempunyai jurang yang besar daripada promosi rasmi, dan ada yang mencadangkan agar pengguna tidak membuang masa dan sumber untuk memuat turunnya.
Promosi Rasmi Mistral Medium 3
Mistral AI dalam blog rasminya menekankan beberapa sorotan utama Mistral Medium 3:
- Keseimbangan prestasi dan kos: Mistral Medium 3 bertujuan untuk menyediakan prestasi terkemuka sambil mengurangkan kos kepada satu perlapan daripada yang asal, dengan itu mempercepatkan aplikasi perusahaan.
- Kelebihan senario aplikasi profesional: Model ini cemerlang dalam bidang profesional seperti pengekodan dan pemahaman multimodal.
- Fungsi peringkat perusahaan: Mistral Medium 3 menyediakan pelbagai fungsi peringkat perusahaan, termasuk sokongan untuk penggunaan awan hibrid, penggunaan tempatan dan penggunaan dalam VPC, serta latihan pasca penyesuaian dan integrasi ke dalam alat dan sistem perusahaan.
Mistral Medium 3 API telah dilancarkan di Mistral La Plateforme dan Amazon Sagemaker, dan merancang untuk mendarat di IBM WatsonX, NVIDIA NIM, Azure AI Foundry dan Google Cloud Vertex tidak lama lagi.
Perbandingan Metrik Prestasi
Mistral AI mendakwa bahawa dalam pelbagai ujian penanda aras, prestasi Mistral Medium 3 mencapai atau melebihi 90% daripada Claude Sonnet 3.7, tetapi kosnya dikurangkan dengan ketara. Khususnya, kos input Mistral Medium 3 ialah $0.4 setiap juta token, dan kos output ialah $2.
Selain itu, prestasi Mistral Medium 3 dikatakan melebihi model sumber terbuka terkemuka seperti Llama 4 Maverick dan Cohere Command A. Sama ada melalui API atau penggunaan autonomi, kos Mistral Medium 3 adalah lebih rendah daripada DeepSeek V3. Model ini juga boleh digunakan di mana-mana awan, termasuk persekitaran yang dihoskan sendiri dengan empat GPU atau lebih.
Fokus pada Aplikasi Peringkat Perusahaan
Mistral AI menekankan bahawa matlamat Mistral Medium 3 adalah untuk menjadi model dengan prestasi terkemuka, terutamanya dalam pengekodan dan tugas STEM, dengan prestasi yang menghampiri pesaing yang lebih besar dan lebih perlahan.
Data rasmi yang dikeluarkan menunjukkan bahawa prestasi Mistral Medium 3 pada dasarnya melebihi Llama 4 Maverick dan GPT-4o, menghampiri tahap Claude Sonnet 3.7 dan DeepSeek 3.1.
Untuk mengesahkan lagi prestasi model, Mistral AI juga mengeluarkan hasil penilaian manusia pihak ketiga, yang lebih mewakili kes penggunaan dunia sebenar. Hasilnya menunjukkan bahawa Mistral Medium 3 cemerlang dalam pengekodan, dan menyediakan prestasi yang lebih baik daripada pesaing lain dalam semua aspek.
Mistral Medium 3 juga lebih baik daripada model SOTA lain dalam keupayaan untuk menyesuaikan diri dengan persekitaran perusahaan. Ia menyediakan perusahaan dengan cara untuk mengintegrasikan kecerdasan sepenuhnya ke dalam sistem perusahaan, menyelesaikan cabaran yang dihadapi oleh perusahaan dalam penalaan halus API dan penyesuaian model.
Le Chat Enterprise
Mistral AI juga melancarkan Le Chat Enterprise yang dikuasakan oleh model Mistral Medium 3, perkhidmatan chatbot untuk perusahaan. Ia menyediakan alat pembinaan ejen pintar AI, dan mengintegrasikan model Mistral dengan perkhidmatan pihak ketiga seperti Gmail, Google Drive dan SharePoint.
Le Chat Enterprise bertujuan untuk menyelesaikan cabaran AI yang dihadapi oleh perusahaan, seperti pemecahan alat, integrasi pengetahuan yang tidak selamat, model tegar dan pulangan pelaburan yang perlahan, menyediakan platform AI yang bersatu untuk semua kerja organisasi.
Le Chat Enterprise akan menyokong protokol MCP tidak lama lagi, standard yang dicadangkan oleh Anthropic untuk menghubungkan AI dengan sistem data dan perisian.
Prospek Mistral Large
Mistral AI juga mendedahkan dalam blog bahawa walaupun Mistral Small dan Mistral Medium telah dikeluarkan, mereka mempunyai rancangan “besar” dalam beberapa minggu akan datang, iaitu Mistral Large. Mereka berkata bahawa prestasi Mistral Medium yang baru dikeluarkan telah jauh lebih baik daripada model sumber terbuka terkemuka seperti Llama 4 Maverick, dan prestasi Mistral Large lebih bernilai untuk dinantikan.
Situasi Sebenar Ujian Pengguna
Walau bagaimanapun, selepas Mistral AI mempromosikan prestasi hebat Mistral Medium 3 secara meluas, media dan pengguna dengan cepat menjalankan ujian praktikal, tetapi hasilnya mengecewakan.
Perbezaan dalam Ujian Prestasi
Dalam penilaian berdasarkan teka-teki klasifikasi perbendaharaan kata lajur Connections The New York Times, prestasi Mistral Medium 3 mengecewakan, dan ia hampir tidak dapat ditemui. Dalam penilaian 100 soalan baharu, ia juga tidak berada di barisan hadapan model.
Sesetengah pengguna berkata selepas ujian bahawa tiada peningkatan ketara dalam keupayaan menulis Mistral Medium 3. Walau bagaimanapun, dalam penilaian LLM, ia berada di hadapan Pareto.
Ujian Zhu Liang mendapati bahawa Mistral Medium 3 mempunyai prestasi yang kukuh dalam pengekodan dan penjanaan teks, menduduki tempat lima teratas dalam kedua-dua penilaian.
Prestasi Tugas Pengekodan
Dalam tugas pengekodan mudah (aplikasi Next.js TODO), Mistral Medium 3 menjana respons yang ringkas dan jelas, dengan skor yang hampir sama dengan Gemini 2.5 Pro dan Claude 3.5 Sonnet, tetapi lebih rendah daripada DeepSeek V3 (baharu) dan GPT-4.1.
Dalam tugas pengekodan yang kompleks (visualisasi penanda aras), hasil purata yang dihasilkan oleh Mistral Medium 3 adalah serupa dengan Gemini 2.5 Pro dan DeepSeek V3 (baharu), tetapi tidak sebaik GPT-4.1, o3 dan Claude 3.7 Sonnet.
Penilaian Keupayaan Menulis
Dari segi penulisan, Mistral Medium 3 meliputi kebanyakan perkara penting, tetapi formatnya tidak betul, dan skornya hampir sama dengan DeepSeek V3 (baharu) dan Claude 3.7 Sonnet, tidak sebaik GPT-4.1 dan Gemini 2.5 Pro.
Tokoh terkenal “karminski-dentist” juga berkata selepas ujian praktikal bahawa prestasi Mistral Medium 3 tidak sekuat yang didakwa secara rasmi, dan mencadangkan agar pengguna tidak memuat turunnya untuk mengelakkan pembaziran trafik dan ruang cakera.
Perbandingan dan Refleksi
Kes Mistral Medium 3 sekali lagi mengingatkan kita bahawa apabila menilai prestasi model AI, kita tidak boleh hanya bergantung pada promosi rasmi dan hasil ujian penanda aras, tetapi memberi lebih perhatian kepada pengalaman sebenar pengguna dan penilaian pihak ketiga.
Promosi rasmi sering memilih untuk menunjukkan kekuatan model, sambil mengabaikan kekurangannya. Walaupun ujian penanda aras boleh memberikan nilai rujukan tertentu, ia tidak dapat mencerminkan sepenuhnya prestasi model dalam dunia sebenar. Pengalaman sebenar pengguna dan penilaian pihak ketiga adalah lebih objektif dan komprehensif, dan boleh membantu kita memahami kekuatan dan kelemahan model dengan lebih tepat.
Selain itu, prestasi model AI juga dipengaruhi oleh pelbagai faktor, termasuk data latihan, seni bina model, algoritma pengoptimuman, dll. Model yang berbeza mungkin menunjukkan kekuatan dan kelemahan yang berbeza pada tugas yang berbeza. Oleh itu, apabila memilih model AI, kita perlu mempertimbangkan secara komprehensif berdasarkan senario dan keperluan aplikasi khusus.
Perbezaan besar antara pelancaran Mistral Medium 3 dan hasil ujian pengguna juga telah mencetuskan perbincangan tentang piawaian penilaian model AI. Cara untuk mewujudkan sistem penilaian model AI yang lebih saintifik, objektif dan komprehensif adalah isu yang patut diterokai dengan mendalam.
Kesan Industri
Peristiwa Mistral Medium 3 juga mempunyai kesan tertentu ke atas keseluruhan industri AI. Di satu pihak, ia mengingatkan syarikat AI untuk memberi lebih perhatian kepada pengalaman pengguna dan mengelakkan promosi yang berlebihan dan promosi palsu. Sebaliknya, ia juga mendorong pengamal dalam bidang AI untuk memberi lebih perhatian kepada perumusan dan penambahbaikan piawaian penilaian model AI.
Pada masa hadapan, dengan perkembangan teknologi AI yang berterusan, prestasi model AI akan terus bertambah baik, dan senario aplikasi akan terus berkembang. Kita perlu melihat teknologi AI dengan sikap yang lebih rasional dan objektif, bukan sahaja untuk melihat potensi besarnya, tetapi juga untuk menyedari hadnya. Hanya dengan cara ini kita dapat menggunakan teknologi AI dengan lebih baik untuk mencipta nilai untuk masyarakat manusia.
Ringkasnya, kes Mistral Medium 3 adalah amaran, mengingatkan kita untuk mengekalkan pemikiran kritis apabila menilai model AI, untuk tidak mempercayai promosi rasmi secara membuta tuli, tetapi untuk membuat pertimbangan rasional berdasarkan pengalaman sebenar dan penilaian pihak ketiga.