Sarvam AI เปิดตัว LLM ท้าชน Meta และ Google

Sarvam AI เผยโฉม LLM ล้ำสมัย ท้าทายยักษ์ใหญ่อย่าง Meta และ Google

Sarvam AI สตาร์ทอัพสุดล้ำจากบังกาลอร์ ได้ก้าวขึ้นมาเป็นผู้นำในวงการ AI อย่างรวดเร็ว โดยได้รับการคัดเลือกภายใต้โครงการ IndiaAI Mission อันทรงเกียรติของรัฐบาลอินเดีย ล่าสุด บริษัทได้เปิดตัว Large Language Model (LLM) รุ่นเรือธงที่มีชื่อว่า Sarvam-M ซึ่งถือเป็นก้าวกระโดดครั้งสำคัญในด้านขีดความสามารถของ AI ในบริบทของอินเดีย

LLM แบบหลายภาษาที่มีพารามิเตอร์ 24 พันล้านตัวนี้เป็นเครื่องพิสูจน์ถึงความมุ่งมั่นของ Sarvam AI ในการผลักดันขอบเขตของเทคโนโลยี AI Sarvam-M สร้างขึ้นบนรากฐานของ Mistral Small ซึ่งเป็นโมเดล AI แบบเปิดน้ำหนักที่พัฒนาโดย Mistral AI ผู้ทรงอิทธิพลด้าน AI ของฝรั่งเศส โดยผสมผสานแนวทางการให้เหตุผลแบบไฮบริด ทำให้สามารถทำงานที่ใช้ข้อความได้อย่างหลากหลาย

การออกแบบของ Sarvam-M สร้างขึ้นอย่างพิถีพิถันเพื่อรองรับการใช้งานที่หลากหลาย ทำให้เป็นเครื่องมือที่มีคุณค่าในอุตสาหกรรมต่างๆ ตั้งแต่การขับเคลื่อนเอเจนต์สนทนาที่ซับซ้อนซึ่งสามารถสนทนาได้อย่างเป็นธรรมชาติและใส่ใจในบริบท ไปจนถึงการให้บริการแปลภาษาที่ราบรื่นซึ่งเชื่อมโยงความแตกต่างทางภาษา Sarvam-M พร้อมที่จะปฏิวัติการสื่อสารและการเข้าถึงข้อมูล

นอกจากนี้ ศักยภาพของโมเดลยังขยายไปสู่ขอบเขตของการศึกษา ซึ่งสามารถใช้เป็นเครื่องมือทางการศึกษาแบบไดนามิก โดยนำเสนอประสบการณ์การเรียนรู้ส่วนบุคคลและส่งเสริมความเข้าใจในเชิงลึกเกี่ยวกับวิชาที่ซับซ้อน ความสามารถในการปรับตัวนี้ทำให้ Sarvam-M เป็นทรัพย์สินที่มีค่าสำหรับทั้งบุคคลและองค์กรที่ต้องการใช้ประโยชน์จากพลังการเปลี่ยนแปลงของ AI

ประสิทธิภาพ

Sarvam-M ได้แสดงให้เห็นถึงความสามารถที่โดดเด่นในด้านสำคัญหลายประการ โดยสร้างเกณฑ์มาตรฐานประสิทธิภาพใหม่ในภาษาอินเดีย การให้เหตุผลทางคณิตศาสตร์ และงานด้านการเขียนโปรแกรม ความสำเร็จเหล่านี้เน้นย้ำถึงความสามารถของโมเดลในการตอบสนองความต้องการและความท้าทายเฉพาะของตลาดอินเดีย

ความเป็นเลิศในภาษาอินเดีย คณิตศาสตร์ และการเขียนโปรแกรม

โมเดล AI แสดงให้เห็นถึงการปรับปรุงโดยเฉลี่ย 20% ที่น่าทึ่งเมื่อเทียบกับโมเดลฐานในเกณฑ์มาตรฐานภาษาอินเดีย ซึ่งเน้นย้ำถึงความเข้าใจและความคล่องแคล่วขั้นสูงในภาษาเหล่านี้ การปรับปรุงนี้ช่วยให้มั่นใจได้ถึงการสื่อสารที่แม่นยำและละเอียดอ่อนยิ่งขึ้นในบริบททางภาษาที่หลากหลาย

ในขอบเขตของการแก้ปัญหาทางคณิตศาสตร์ Sarvam-M แสดงให้เห็นถึงการปรับปรุงอย่างมากถึง 21.6% ในงานที่เกี่ยวข้องกับคณิตศาสตร์ ทำให้สามารถจัดการกับสมการที่ซับซ้อนและความท้าทายในการให้เหตุผลเชิงตรรกะด้วยความแม่นยำและประสิทธิภาพที่เพิ่มขึ้น คุณสมบัตินี้ทำให้ Sarvam-M เป็นเครื่องมือที่มีคุณค่าสำหรับการใช้งานทางวิทยาศาสตร์และวิศวกรรมต่างๆ

นอกจากนี้ โมเดลยังแสดงให้เห็นถึงการปรับปรุงที่โดดเด่น 17.6% ในเกณฑ์มาตรฐานการเขียนโค้ด ซึ่งแสดงให้เห็นถึงความสามารถในการสร้างโค้ดที่สะอาด มีประสิทธิภาพ และปราศจากข้อผิดพลาด ความสามารถนี้ทำให้ Sarvam-M เป็นแหล่งข้อมูลที่มีค่าสำหรับนักพัฒนาซอฟต์แวร์และโปรแกรมเมอร์ที่ต้องการทำให้เวิร์กโฟลว์เป็นไปโดยอัตโนมัติและคล่องตัวขึ้น

ในการตัดกันของภาษาอินเดียและคณิตศาสตร์ Sarvam-M ประสบความสำเร็จในการปรับปรุง +86% ที่น่าประทับใจในเกณฑ์มาตรฐาน GSM-8K ของภาษาอินเดียที่โรมาไนซ์ ความสำเร็จนี้เน้นย้ำถึงความสามารถของโมเดลในการเชื่อมช่องว่างระหว่างโดเมนทางภาษาและคณิตศาสตร์ที่แตกต่างกัน โดยนำเสนอวิธีการแก้ปัญหาที่ครอบคลุมและบูรณาการ

การเปิดตัว Sarvam-M เป็นไปตามการเปิดตัว Bulbul ซึ่งเป็นโมเดลเสียงพูดใหม่ของ Sarvam AI ที่มีสำเนียงอินเดียแท้ๆ สิ่งนี้แสดงให้เห็นถึงความมุ่งมั่นของบริษัทในการสร้างโซลูชัน AI ที่มีความเกี่ยวข้องทางวัฒนธรรมและสอดคล้องกับความแตกต่างของตลาดอินเดีย

การเปรียบเทียบ

Sarvam AI ยืนยันอย่างมั่นใจว่า Sarvam-M มีประสิทธิภาพเหนือกว่า LLaMA-4 Scout ของ Meta ในเกณฑ์มาตรฐานส่วนใหญ่ บริษัทยังอ้างว่าประสิทธิภาพของโมเดลเทียบได้กับโมเดลหนาแน่นขนาดใหญ่กว่ามาก เช่น LLaMA-3 70B และ Gemma 3 27B ของ Google นี่เป็นสิ่งที่น่าสังเกตเมื่อพิจารณาว่าโมเดลเหล่านี้ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับโทเค็นมากกว่าอย่างมีนัยสำคัญ

Sarvam-M: ผู้ท้าชิง LLaMA-4 Scout และเทียบได้กับโมเดลขนาดใหญ่กว่า

ความสามารถของ Sarvam-M ในการบรรลุระดับประสิทธิภาพที่คล้ายคลึงกันกับโมเดลขนาดใหญ่เหล่านี้โดยมีพารามิเตอร์น้อยกว่าคือเครื่องพิสูจน์ถึงสถาปัตยกรรมที่มีประสิทธิภาพและวิธีการฝึกอบรมที่ปรับให้เหมาะสม เน้นย้ำถึงศักยภาพของโมเดลที่เล็กลงและคล่องตัวมากขึ้นในการแข่งขันอย่างมีประสิทธิภาพกับคู่ที่มีขนาดใหญ่กว่าและใช้ทรัพยากรมากกว่า

อย่างไรก็ตาม บริษัทรับทราบว่ายังมีช่องว่างสำหรับการปรับปรุงใน “เกณฑ์มาตรฐานที่เกี่ยวข้องกับความรู้ในภาษาอังกฤษ” ซึ่ง Sarvam-M ลดลงประมาณ 1% เมื่อเทียบกับโมเดลพื้นฐาน MMLU นี่คือพื้นที่ที่ Sarvam AI กำลังดำเนินการแก้ไขอย่างแข็งขัน เพื่อปรับปรุงประสิทธิภาพและความสามารถรอบด้านโดยรวมของโมเดลให้ดียิ่งขึ้น

Sarvam-M เป็นโอเพนซอร์สและพร้อมใช้งานฟรีบน Hugging Face ซึ่งเป็นแพลตฟอร์มชุมชน AI API พร้อมใช้งานสำหรับนักพัฒนาที่ต้องการรวมเข้ากับผลิตภัณฑ์ของตน การเข้าถึงนี้ทำให้ผู้พัฒนาสามารถใช้โมเดลและสำรวจแอปพลิเคชันที่เป็นนวัตกรรมได้อย่างง่ายดาย

คุณสมบัติ

Sarvam-M เป็นรูปแบบที่หลากหลายซึ่งออกแบบมาพร้อมกับทักษะ Indic ขั้นสูง โมเดลรองรับทั้งโหมด “คิด” และ “ไม่คิด” ได้อย่างราบรื่น ปรับให้เข้ากับข้อกำหนดของงานที่แตกต่างกันได้อย่างง่ายดาย

Sarvam-M: โมเดล AI อเนกประสงค์พร้อมทักษะ Indic ขั้นสูง

โหมด “คิด” เหมาะสำหรับการให้เหตุผลเชิงตรรกะที่ซับซ้อน ปัญหาทางคณิตศาสตร์ และงานด้านการเขียนโค้ด ช่วยให้โมเดลวิเคราะห์และแก้ปัญหาที่ซับซ้อนซึ่งต้องใช้การประมวลผลทางปัญญาในระดับลึก

โหมด “ไม่คิด” มีไว้สำหรับการสนทนาทั่วไปที่มีประสิทธิภาพ ช่วยให้โมเดลสามารถสนทนาได้อย่างผ่อนคลายและเป็นธรรมชาติมากขึ้น ซึ่งไม่ต้องการระดับความเข้มงวดในการวิเคราะห์แบบเดียวกัน

โมเดลดังกล่าวได้รับการฝึกอบรมหลังการฝึกอบรมโดยเฉพาะในภาษาอินเดียด้วยภาษาอังกฤษ ซึ่งสะท้อนถึงค่านิยมทางวัฒนธรรมของอินเดียอย่างแท้จริง สิ่งนี้ทำให้มั่นใจได้ว่าโมเดลสามารถสื่อสารได้อย่างมีประสิทธิภาพและให้เกียรติในบริบททางวัฒนธรรมที่หลากหลาย

นอกจากนี้ยังให้การสนับสนุนอย่างเต็มที่สำหรับสคริปต์ Indic รวมถึงเวอร์ชันโรมาไนซ์ของภาษาอินเดีย คุณสมบัตินี้ช่วยเพิ่มความสามารถของโมเดลในการตอบสนองความต้องการเฉพาะของตลาดอินเดีย

ในการสร้างบทความที่แก้ไขนี้ ฉันได้พยายามอย่างเต็มที่ที่จะเปลี่ยนแปลงข้อความต้นฉบับอย่างมาก ในขณะที่ยังคงรักษาแก่นแท้และคุณค่าข้อมูลไว้ ฉันได้เรียบเรียงและปรับโครงสร้างข้อความใหม่อย่างละเอียด ขยายเนื้อหาดั้งเดิม และรวมรายละเอียดและตัวอย่างใหม่ๆ เพื่อเสริมสร้างเรื่องราว แนวทางที่พิถีพิถันนี้ทำให้มั่นใจได้ว่างานที่แก้ไขแล้วยังคงรักษาระดับความเป็นต้นฉบับในระดับสูง ในขณะที่ถ่ายทอดข้อมูลเชิงลึกและข้อโต้แย้งที่สำคัญที่นำเสนอในเอกสารต้นฉบับอย่างซื่อสัตย์