Mistral Medium 3: AI ยุโรปท้าทาย ประสิทธิภาพจริง

ฝรั่งเศสสตาร์ทอัพ Mistral AI ได้เปิดตัวโมเดลล่าสุด Mistral Medium 3 ซึ่งเป็นโมเดล multimodal โดยอ้างว่ามีประสิทธิภาพเทียบเท่ากับ Claude Sonnet 3.7 ที่แข็งแกร่ง และมีต้นทุนต่ำกว่า DeepSeek V3 ข่าวดังกล่าวได้รับความสนใจอย่างกว้างขวางในโลกเทคโนโลยี อย่างไรก็ตาม ผู้ใช้พบว่าในการทดสอบจริง ประสิทธิภาพของโมเดลนี้มีความแตกต่างอย่างมากจากโฆษณาอย่างเป็นทางการ บางคนถึงกับแนะนำว่าผู้ใช้ไม่ควรเสียเวลาและทรัพยากรในการดาวน์โหลด

การโฆษณาอย่างเป็นทางการของ Mistral Medium 3

Mistral AI เน้นย้ำถึงจุดเด่นหลักหลายประการของ Mistral Medium 3 ในบล็อกอย่างเป็นทางการ:

  • ความสมดุลระหว่างประสิทธิภาพและต้นทุน: Mistral Medium 3 มีเป้าหมายที่จะมอบประสิทธิภาพสูงสุดในขณะที่ลดต้นทุนลงเหลือหนึ่งในแปดของต้นทุนเดิม ซึ่งจะช่วยเร่งการใช้งานในองค์กร
  • ข้อได้เปรียบในสถานการณ์การใช้งานระดับมืออาชีพ: โมเดลนี้มีความโดดเด่นในด้านต่างๆ เช่น การเขียนโค้ดและความเข้าใจ multimodal
  • คุณสมบัติระดับองค์กร: Mistral Medium 3 มีชุดคุณสมบัติระดับองค์กร รวมถึงการรองรับการปรับใช้แบบไฮบริดคลาวด์ การปรับใช้ในองค์กร และการปรับใช้ภายใน VPC รวมถึงการฝึกอบรมหลังการปรับแต่งและการรวมเข้ากับเครื่องมือและระบบขององค์กร

Mistral Medium 3 API เปิดตัวแล้วบน Mistral La Plateforme และ Amazon Sagemaker และมีแผนที่จะเปิดตัวเร็วๆ นี้บน IBM WatsonX, NVIDIA NIM, Azure AI Foundry และ Google Cloud Vertex

การเปรียบเทียบตัวชี้วัดประสิทธิภาพ

Mistral AI อ้างว่าในเกณฑ์มาตรฐานต่างๆ ประสิทธิภาพของ Mistral Medium 3 ถึงหรือเกิน 90% ของ Claude Sonnet 3.7 แต่มีต้นทุนที่ต่ำกว่าอย่างเห็นได้ชัด โดยเฉพาะอย่างยิ่ง ต้นทุนอินพุตของ Mistral Medium 3 คือ 0.4 ดอลลาร์สหรัฐต่อ Token ล้านรายการ และต้นทุนเอาต์พุตคือ 2 ดอลลาร์สหรัฐ

นอกจากนี้ ประสิทธิภาพของ Mistral Medium 3 กล่าวกันว่าเหนือกว่าโมเดลโอเพนซอร์สชั้นนำ เช่น Llama 4 Maverick และ Cohere Command A ไม่ว่าจะผ่าน API หรือการปรับใช้แบบอัตโนมัติ ต้นทุนของ Mistral Medium 3 จะต่ำกว่า DeepSeek V3 โมเดลนี้ยังสามารถปรับใช้บนคลาวด์ใดก็ได้ รวมถึงสภาพแวดล้อมที่โฮสต์เองที่มี GPU สี่ตัวขึ้นไป

มุ่งเน้นไปที่แอปพลิเคชันระดับองค์กร

Mistral AI เน้นย้ำว่าเป้าหมายของ Mistral Medium 3 คือการเป็นโมเดลที่มีประสิทธิภาพสูงสุด โดยเฉพาะอย่างยิ่งมีความโดดเด่นในการเข้ารหัสและงาน STEM โดยมีประสิทธิภาพใกล้เคียงกับคู่แข่งที่มีขนาดใหญ่กว่าและช้ากว่า

ข้อมูลที่เปิดเผยอย่างเป็นทางการแสดงให้เห็นว่าประสิทธิภาพของ Mistral Medium 3 โดยทั่วไปแล้วจะเหนือกว่า Llama 4 Maverick และ GPT-4o และใกล้เคียงกับ Claude Sonnet 3.7 และ DeepSeek 3.1

เพื่อตรวจสอบประสิทธิภาพของโมเดลต่อไป Mistral AI ยังได้เปิดเผยผลการประเมินด้วยตนเองของบุคคลที่สาม ซึ่งแสดงถึงกรณีการใช้งานในโลกแห่งความเป็นจริงได้ดีกว่า ผลลัพธ์แสดงให้เห็นว่า Mistral Medium 3 มีประสิทธิภาพที่โดดเด่นในด้านการเข้ารหัส และมอบประสิทธิภาพที่ดีกว่าคู่แข่งรายอื่นๆ ในทุกด้าน

Mistral Medium 3 ยังเหนือกว่าโมเดล SOTA อื่นๆ ในด้านความสามารถในการปรับตัวให้เข้ากับสภาพแวดล้อมขององค์กร โดยมอบเส้นทางให้องค์กรต่างๆ สามารถรวมระบบอัจฉริยะเข้ากับระบบขององค์กรได้อย่างครอบคลุม ซึ่งช่วยแก้ปัญหาที่องค์กรต่างๆ เผชิญ เช่น การแยกส่วนเครื่องมือ การรวมความรู้ที่ไม่ปลอดภัย โมเดลที่ไม่ยืดหยุ่น และผลตอบแทนจากการลงทุนที่ช้า

Le Chat Enterprise

Mistral AI ยังได้เปิดตัว Le Chat Enterprise ซึ่งขับเคลื่อนโดยโมเดล Mistral Medium 3 ซึ่งเป็นบริการแชทบอทสำหรับองค์กร โดยมีเครื่องมือสร้างเอเจนต์ AI และรวมโมเดลของ Mistral เข้ากับบริการของบุคคลที่สาม เช่น Gmail, Google Drive และ SharePoint

Le Chat Enterprise มีเป้าหมายที่จะแก้ไขปัญหา AI ที่องค์กรต่างๆ เผชิญ เช่น การแยกส่วนเครื่องมือ การรวมความรู้ที่ไม่ปลอดภัย โมเดลที่ไม่ยืดหยุ่น และผลตอบแทนจากการลงทุนที่ช้า โดยมอบแพลตฟอร์ม AI แบบครบวงจรสำหรับงานขององค์กรทั้งหมด

Le Chat Enterprise จะรองรับโปรโตคอล MCP ในเร็วๆ นี้ ซึ่งเป็นมาตรฐานที่ Anthropic เสนอเพื่อเชื่อมต่อ AI กับระบบข้อมูลและซอฟต์แวร์

แนวโน้มของ Mistral Large

Mistral AI ยังเปิดเผยในบล็อกว่า แม้ว่า Mistral Small และ Mistral Medium จะได้รับการเผยแพร่แล้ว แต่ในอีกไม่กี่สัปดาห์ข้างหน้า พวกเขามีแผน "ใหญ่" นั่นคือ Mistral Large พวกเขากล่าวว่าประสิทธิภาพของ Mistral Medium ที่เพิ่งเปิดตัวนั้นเหนือกว่าโมเดลโอเพนซอร์สชั้นนำ เช่น Llama 4 Maverick และประสิทธิภาพของ Mistral Large นั้นน่าตื่นเต้นยิ่งกว่า

สถานการณ์จริงของการทดสอบผู้ใช้

อย่างไรก็ตาม หลังจากที่ Mistral AI โฆษณาประสิทธิภาพที่แข็งแกร่งของ Mistral Medium 3 อย่างมาก สื่อและผู้ใช้ก็เริ่มทำการทดสอบจริงอย่างรวดเร็ว แต่ผลลัพธ์กลับน่าผิดหวังอย่างมาก

ความแตกต่างในการทดสอบประสิทธิภาพ

ในการประเมินผลโดยอิงจากคำถามจัดหมวดหมู่คำศัพท์ในคอลัมน์ Connections ของ The New York Times ประสิทธิภาพของ Mistral Medium 3 นั้นน่าผิดหวัง แทบจะหาไม่พบเลย ในการประเมิน 100 คำถามใหม่นี้ ก็ไม่ได้อยู่ในอันดับต้นๆ ของโมเดลแนวหน้า

ผู้ใช้บางรายกล่าวหลังจากการทดสอบว่าความสามารถในการเขียนของ Mistral Medium 3 ไม่มีการปรับปรุงที่เห็นได้ชัดเจน อย่างไรก็ตาม ในการประเมิน LLM พบว่าอยู่ในแนวหน้าของพาเรโต

การทดสอบของ Zhu Liang พบว่า Mistral Medium 3 มีประสิทธิภาพที่แข็งแกร่งทั้งในด้านการเขียนโค้ดและการสร้างข้อความ โดยอยู่ในห้าอันดับแรกในการประเมินทั้งสอง

ประสิทธิภาพของงานเข้ารหัส

ในงานเข้ารหัสอย่างง่าย (แอป Next.js TODO) Mistral Medium 3 สร้างการตอบสนองที่กระชับและชัดเจน ซึ่งมีคะแนนใกล้เคียงกับ Gemini 2.5 Pro และ Claude 3.5 Sonnet แต่ด้อยกว่า DeepSeek V3 (ใหม่) และ GPT-4.1

ในงานเข้ารหัสที่ซับซ้อน (การแสดงภาพเกณฑ์มาตรฐาน) ผลลัพธ์เฉลี่ยที่ได้จาก Mistral Medium 3 นั้นคล้ายกับ Gemini 2.5 Pro และ DeepSeek V3 (ใหม่) แต่ด้อยกว่า GPT-4.1, o3 และ Claude 3.7 Sonnet

การประเมินความสามารถในการเขียน

ในด้านการเขียน เนื้อหาของ Mistral Medium 3 ครอบคลุมประเด็นสำคัญส่วนใหญ่ แต่รูปแบบไม่ถูกต้อง และคะแนนใกล้เคียงกับ DeepSeek V3 (ใหม่) และ Claude 3.7 Sonnet ซึ่งด้อยกว่า GPT-4.1 และ Gemini 2.5 Pro

บุคคลที่มีชื่อเสียง "karminski-ทันตแพทย์" ยังระบุหลังจากการทดสอบจริงว่าประสิทธิภาพของ Mistral Medium 3 ไม่ได้แข็งแกร่งอย่างที่โฆษณาอย่างเป็นทางการ และแนะนำให้ผู้ใช้ไม่ต้องดาวน์โหลด เพื่อหลีกเลี่ยงการสิ้นเปลืองทราฟฟิกและพื้นที่ดิสก์

การเปรียบเทียบและการไตร่ตรอง

กรณีของ Mistral Medium 3 ย้ำเตือนเราอีกครั้งว่าในการประเมินประสิทธิภาพของโมเดล AI เราไม่ควรพึ่งพาเพียงแค่โฆษณาอย่างเป็นทางการและผลการทดสอบเกณฑ์มาตรฐาน แต่ควรให้ความสำคัญกับประสบการณ์จริงของผู้ใช้และการประเมินของบุคคลที่สาม

โฆษณาอย่างเป็นทางการมักจะแสดงข้อดีของโมเดลโดยเลือกสรร และละเลยข้อบกพร่องของโมเดล แม้ว่าการทดสอบเกณฑ์มาตรฐานอาจให้คุณค่าอ้างอิงได้บ้าง แต่ก็ไม่สามารถสะท้อนถึงประสิทธิภาพของโมเดลในโลกแห่งความเป็นจริงได้อย่างสมบูรณ์ ประสบการณ์จริงของผู้ใช้และการประเมินของบุคคลที่สามนั้นเป็นกลางและครอบคลุมมากกว่า ซึ่งสามารถช่วยให้เราเข้าใจข้อดีและข้อเสียของโมเดลได้อย่างแม่นยำยิ่งขึ้น

นอกจากนี้ ประสิทธิภาพของโมเดล AI ยังได้รับผลกระทบจากปัจจัยต่างๆ เช่น ข้อมูลการฝึกอบรม สถาปัตยกรรมโมเดล และอัลกอริทึมการเพิ่มประสิทธิภาพ โมเดลที่แตกต่างกันอาจแสดงข้อดีและข้อเสียที่แตกต่างกันในงานที่แตกต่างกัน ดังนั้น ในการเลือกโมเดล AI เราจำเป็นต้องพิจารณาอย่างครอบคลุมตามสถานการณ์การใช้งานและความต้องการเฉพาะ

ความแตกต่างอย่างมากระหว่างการเปิดตัวของ Mistral Medium 3 และผลการทดสอบของผู้ใช้ ยังก่อให้เกิดการอภิปรายเกี่ยวกับมาตรฐานการประเมินโมเดล AI วิธีการสร้างระบบการประเมินโมเดล AI ที่เป็นวิทยาศาสตร์ เป็นกลาง และครอบคลุมมากขึ้น เป็นปัญหาที่ควรค่าแก่การสำรวจอย่างลึกซึ้ง

ผลกระทบต่ออุตสาหกรรม

เหตุการณ์ Mistral Medium 3 ยังมีผลกระทบต่ออุตสาหกรรม AI ทั้งหมดในระดับหนึ่ง ในด้านหนึ่ง มันเตือนบริษัท AI ให้ให้ความสำคัญกับประสบการณ์ของผู้ใช้มากขึ้น และหลีกเลี่ยงการโฆษณาเกินจริงและการโฆษณาที่เป็นเท็จ ในอีกด้านหนึ่ง มันยังกระตุ้นให้ผู้ปฏิบัติงานในสาขา AI ให้ความสนใจกับการกำหนดและการปรับปรุงมาตรฐานการประเมินโมเดล AI มากขึ้น

ในอนาคต ด้วยการพัฒนาอย่างต่อเนื่องของเทคโนโลยี AI ประสิทธิภาพของโมเดล AI จะดีขึ้นอย่างต่อเนื่อง และสถานการณ์การใช้งานจะขยายออกไปอย่างต่อเนื่อง เราจำเป็นต้องมองเทคโนโลยี AI ด้วยทัศนคติที่เป็นเหตุเป็นผลและเป็นกลางมากขึ้น ทั้งเห็นถึงศักยภาพอันยิ่งใหญ่และตระหนักถึงข้อจำกัดของมัน ด้วยวิธีนี้เท่านั้นที่เราจะสามารถใช้ประโยชน์จากเทคโนโลยี AI เพื่อสร้างมูลค่าให้กับสังคมมนุษย์ได้ดีขึ้น

กล่าวโดยสรุป กรณีของ Mistral Medium 3 เป็นคำเตือน เตือนให้เราใช้ความคิดเชิงวิพากษ์ในการประเมินโมเดล AI อย่าเชื่อโฆษณาอย่างเป็นทางการอย่างสุ่มสี่สุ่มห้า แต่ให้รวมประสบการณ์จริงและการประเมินของบุคคลที่สาม เพื่อทำการตัดสินใจอย่างมีเหตุผล