Mistral Medium 3: ความทะเยอทะยาน AI ของยุโรป

บริษัทสตาร์ทอัพจากฝรั่งเศส Mistral AI ได้เปิดตัวโมเดล Multimodal ใหม่ล่าสุด Mistral Medium 3 ซึ่งก่อให้เกิดความสนใจอย่างกว้างขวางในอุตสาหกรรม Mistral อ้างว่าประสิทธิภาพของโมเดลนี้สามารถเทียบเคียงได้ หรือเหนือกว่า Claude Sonnet 3.7 ถึง 90% ในขณะที่ต้นทุนต่ำกว่า DeepSeek V3 ซึ่งถือว่าเป็นตัวเลือกที่คุ้มค่า อย่างไรก็ตาม ผลการทดสอบจริงกลับมีความแตกต่างจากโฆษณาอย่างเป็นทางการ ซึ่งก่อให้เกิดการอภิปรายเกี่ยวกับความถูกต้องของประสิทธิภาพของโมเดล

จุดเด่นหลักของ Mistral Medium 3

Mistral ได้ระบุจุดเด่นหลักหลายประการของ Mistral Medium 3 ในบล็อกอย่างเป็นทางการ:

  • ความสมดุลระหว่างประสิทธิภาพและต้นทุน: Mistral Medium 3 มีเป้าหมายที่จะบรรลุประสิทธิภาพสูงสุดในขณะที่ลดต้นทุนลงเหลือหนึ่งในแปดของต้นทุนเดิม และลดความซับซ้อนของกระบวนการปรับใช้ เพื่อเร่งการใช้งานในองค์กร
  • ประสิทธิภาพที่โดดเด่นในสถานการณ์การใช้งานระดับมืออาชีพ: โมเดลนี้แสดงให้เห็นถึงประสิทธิภาพที่โดดเด่นในสถานการณ์การใช้งานระดับมืออาชีพ เช่น การเขียนโค้ดและความเข้าใจ Multimodal
  • ฟังก์ชันระดับองค์กร: Mistral Medium 3 มีชุดฟังก์ชันระดับองค์กร รวมถึงการรองรับการปรับใช้ Hybrid Cloud, การปรับใช้ในองค์กร และการปรับใช้ภายใน VPC, การฝึกอบรมหลังการปรับแต่ง และการรวมเข้ากับเครื่องมือและระบบขององค์กร

Mistral Medium 3 API พร้อมใช้งานแล้วบน Mistral La Plateforme และ Amazon Sagemaker และจะเปิดตัวเร็ว ๆ นี้บน IBM WatsonX, NVIDIA NIM, Azure AI Foundry และ Google Cloud Vertex

การประนีประนอมระหว่างประสิทธิภาพและต้นทุน

จุดขายที่สำคัญอย่างหนึ่งของ Mistral Medium 3 คือการลดต้นทุนลงอย่างมาก ในขณะที่ยังคงให้ประสิทธิภาพที่ล้ำสมัย ข้อมูลอย่างเป็นทางการแสดงให้เห็นว่าในเกณฑ์มาตรฐานต่าง ๆ ประสิทธิภาพของ Mistral Medium 3 นั้นสูงถึง หรือเกิน 90% ของ Claude Sonnet 3.7 แต่ต้นทุนลดลงอย่างเห็นได้ชัด (ต้นทุนอินพุตต่อล้าน Token คือ 0.4 ดอลลาร์สหรัฐ และต้นทุนเอาต์พุตคือ 2 ดอลลาร์สหรัฐ)

นอกจากนี้ ประสิทธิภาพของ Mistral Medium 3 ยังเหนือกว่าโมเดลโอเพนซอร์สชั้นนำ เช่น Llama 4 Maverick และ Cohere Command A ไม่ว่าจะเป็น API หรือการปรับใช้ด้วยตนเอง ต้นทุนของ Mistral Medium 3 จะต่ำกว่า DeepSeek V3

Mistral Medium 3 ยังสามารถปรับใช้บนคลาวด์ใดก็ได้ รวมถึงสภาพแวดล้อมที่โฮสต์ด้วยตนเองที่มี GPU สี่ตัวขึ้นไป ซึ่งให้ความยืดหยุ่นมากขึ้นสำหรับองค์กร

การแสวงหาประสิทธิภาพสูงสุด

Mistral ประกาศว่าเป้าหมายของ Mistral Medium 3 คือการเป็นโมเดลที่มีประสิทธิภาพสูงสุด โดยเฉพาะอย่างยิ่งในด้านการเขียนโค้ดและงาน STEM ซึ่งมีประสิทธิภาพใกล้เคียงกับคู่แข่งที่มีขนาดใหญ่กว่าและช้ากว่า

ตารางที่ Mistral จัดทำขึ้นแสดงให้เห็นว่าประสิทธิภาพของ Mistral Medium 3 นั้นโดยพื้นฐานแล้วเหนือกว่า Llama 4 Maverick และ GPT-4o และใกล้เคียงกับระดับของ Claude Sonnet 3.7 และ DeepSeek 3.1 อย่างไรก็ตาม ข้อมูลเหล่านี้ส่วนใหญ่มาจากเกณฑ์มาตรฐานทางวิชาการ ซึ่งอาจไม่สามารถสะท้อนถึงประสิทธิภาพของโมเดลในการใช้งานจริงได้อย่างสมบูรณ์

การประเมินผลด้วยมนุษย์เพิ่มเติม

เพื่อประเมินประสิทธิภาพของ Mistral Medium 3 อย่างครอบคลุมยิ่งขึ้น Mistral ยังได้เผยแพร่ผลการประเมินผลด้วยมนุษย์จากบุคคลที่สาม การประเมินผลด้วยมนุษย์สามารถแสดงถึงกรณีการใช้งานในโลกแห่งความเป็นจริงได้ดีกว่า และสามารถชดเชยข้อบกพร่องของเกณฑ์มาตรฐานทางวิชาการได้

จากผลการประเมินผลด้วยมนุษย์ Mistral Medium 3 แสดงให้เห็นถึงประสิทธิภาพที่โดดเด่นในด้านการเขียนโค้ด และให้ประสิทธิภาพที่ดีกว่าคู่แข่งรายอื่นในทุกด้าน ซึ่งบ่งชี้ว่า Mistral Medium 3อาจมีข้อได้เปรียบในการใช้งานจริง

การออกแบบสำหรับแอปพลิเคชันระดับองค์กร

Mistral Medium 3 มีความสามารถในการปรับตัวเข้ากับสภาพแวดล้อมขององค์กรได้ดีกว่าโมเดล SOTA อื่น ๆ ในขณะที่องค์กรต้องเผชิญกับทางเลือกระหว่างการปรับแต่งผ่าน API หรือการปรับใช้ด้วยตนเองตั้งแต่เริ่มต้น และปรับแต่งลักษณะการทำงานของโมเดล Mistral Medium 3 เสนอเส้นทางในการรวม Intelligence เข้ากับระบบองค์กรอย่างสมบูรณ์

เพื่อตอบสนองความต้องการขององค์กร Mistral ยังได้เปิดตัว Le Chat Enterprise ซึ่งเป็นบริการแชทบอทสำหรับองค์กรที่ขับเคลื่อนโดยโมเดล Mistral Medium 3 Le Chat Enterprise มีเครื่องมือสร้าง AI Intelligent Agent และรวมโมเดลของ Mistral เข้ากับบริการของบุคคลที่สาม เช่น Gmail, Google Drive และ SharePoint โดยมีเป้าหมายเพื่อแก้ไขปัญหา AI ที่องค์กรต้องเผชิญ เช่น เครื่องมือที่กระจัดกระจาย การรวมความรู้ที่ไม่ปลอดภัย โมเดลที่แข็งทื่อ และผลตอบแทนจากการลงทุนที่ล่าช้า โดยนำเสนอแพลตฟอร์ม AI ที่เป็นหนึ่งเดียวสำหรับการทำงานขององค์กรทั้งหมด

Le Chat Enterprise จะรองรับโปรโตคอล MCP ในเร็ว ๆ นี้ ซึ่งเป็นมาตรฐานที่ Anthropic เสนอเพื่อเชื่อมต่อ AI กับระบบข้อมูลและซอฟต์แวร์

อนาคตของ Mistral

Mistral เปิดเผยในบล็อกว่าถึงแม้ Mistral Small และ Mistral Medium จะได้รับการเผยแพร่แล้ว แต่ในอีกไม่กี่สัปดาห์ข้างหน้า พวกเขามีแผน “ใหญ่” นั่นคือ Mistral Large พวกเขากล่าวว่าประสิทธิภาพของ Mistral Medium ที่เพิ่งเปิดตัวนั้นเหนือกว่าโมเดลโอเพนซอร์สชั้นนำ เช่น Llama 4 Maverick อย่างมาก และประสิทธิภาพของ Mistral Large นั้นคุ้มค่าแก่การรอคอย

การเปิดตัว Mistral Large จะช่วยเพิ่มความสามารถในการแข่งขันของ Mistral ในด้าน AI และมอบตัวเลือกเพิ่มเติมให้กับผู้ใช้อย่างไม่ต้องสงสัย

ความแตกต่างในการทดสอบจริง

ถึงแม้ Mistral จะมีความมั่นใจในประสิทธิภาพของ Mistral Medium 3 และอ้างว่าเหนือกว่า Claude Sonnet 3.7 ถึง 90% แต่ผลการทดสอบจริงกลับเผยให้เห็นปัญหาบางประการ

สื่อและชาวเน็ตต่างรีบทำการทดสอบ Mistral Medium 3 ในทางปฏิบัติ แต่ผลลัพธ์ที่ได้กลับน่าผิดหวัง ในการประเมินผลตามคำถามการจัดหมวดหมู่คำศัพท์ของคอลัมน์ Connections ของ The New York Times Medium 3 อยู่ในตำแหน่งสุดท้าย และแทบจะไม่พบเลย ในการประเมินใหม่ 100 ข้อ มันไม่ได้อยู่ในอันดับต้น ๆ ของโมเดลแถวหน้า

ผู้ใช้บางรายทดสอบ Medium 3 แล้วแสดงความคิดเห็นว่าความสามารถในการเขียนยังคงเหมือนเดิม โดยไม่มีการปรับปรุงที่เห็นได้ชัด อย่างไรก็ตาม ในการประเมิน LLM มันกลับอยู่ในแนวหน้าของ Pareto

ผลการทดสอบของ Zhu Liang แสดงให้เห็นว่า Mistral Medium 3 มีประสิทธิภาพที่แข็งแกร่งในด้านการเขียนโค้ดและการสร้างข้อความ โดยติดอันดับท็อป 5 ในการประเมินทั้งสองรายการ

ในงานการเขียนโค้ดอย่างง่าย (แอปพลิเคชัน Next.js TODO):

  • มันสร้างการตอบกลับที่กระชับและชัดเจน
  • คะแนนใกล้เคียงกับ Gemini 2.5 Pro และ Claude 3.5 Sonnet
  • ด้อยกว่า DeepSeek V3 (ใหม่) และ GPT-4.1

ในงานการเขียนโค้ดที่ซับซ้อน (การแสดงภาพเกณฑ์มาตรฐาน):

  • สร้างผลลัพธ์เฉลี่ยที่คล้ายคลึงกับ Gemini 2.5 Pro และ DeepSeek V3 (ใหม่)
  • ด้อยกว่า GPT-4.1, o3 และ Claude 3.7 Sonnet

ในการเขียน:

  • เนื้อหาครอบคลุมประเด็นส่วนใหญ่ แต่รูปแบบไม่ถูกต้อง
  • คะแนนใกล้เคียงกับ DeepSeek V3 (ใหม่) และ Claude 3.7 Sonnet
  • ด้อยกว่า GPT-4.1 และ Gemini 2.5 Pro

“Karminski-dentist” ผู้มีชื่อเสียงพบว่าหลังจากทดสอบจริงแล้ว ประสิทธิภาพของ Mistral Medium 3 ไม่ได้แข็งแกร่งอย่างที่โฆษณาไว้ และยังแนะนำให้ผู้ใช้ไม่ต้องดาวน์โหลด เพื่อหลีกเลี่ยงการสิ้นเปลืองปริมาณการใช้งานและพื้นที่ดิสก์

สรุป

Mistral Medium 3 ในฐานะที่เป็นความพยายามในการสร้างสรรค์นวัตกรรมในด้าน AI ของยุโรป แสวงหาความสมดุลระหว่างประสิทธิภาพและต้นทุน และได้รับการปรับให้เหมาะสมสำหรับการใช้งานระดับองค์กร อย่างไรก็ตาม ผลการทดสอบจริงมีความแตกต่างจากโฆษณาอย่างเป็นทางการ ซึ่งบ่งชี้ว่า Mistral อาจมีการโฆษณาเกินจริงเกี่ยวกับประสิทธิภาพของโมเดล

ถึงกระนั้น Mistral Medium 3 ยังคงมีศักยภาพอยู่บ้าง โดยเฉพาะอย่างยิ่งในด้านการเขียนโค้ดและการสร้างข้อความ ในอนาคต Mistral จำเป็นต้องปรับปรุงประสิทธิภาพของโมเดล และเสริมสร้างการทดสอบการใช้งานจริง เพื่อสร้างความไว้วางใจให้กับผู้ใช้ นอกจากนี้ การเปิดตัว Mistral Large ก็คุ้มค่าแก่การรอคอย ซึ่งอาจสามารถชดเชยข้อบกพร่องของ Mistral Medium 3 และมอบประสบการณ์ที่ดีกว่าให้กับผู้ใช้

โดยสรุป การเปิดตัว Mistral Medium 3 สะท้อนให้เห็นถึงการสำรวจและการสร้างสรรค์นวัตกรรมอย่างกระตือรือร้นของยุโรปในด้าน AI ถึงแม้ประสิทธิภาพที่แท้จริงจะแตกต่างจากที่คาดการณ์ไว้ Mistral ก็ยังคงคุ้มค่าแก่การติดตาม และการพัฒนาในอนาคตก็คุ้มค่าแก่การรอคอย