Sarvam AI เปิดตัว LLM 24B พารามิเตอร์

Sarvam AI สตาร์ทอัพจากเบงกาลูรู (Bengaluru) เพิ่งเปิดตัว Large Language Model (LLM) ขนาด 24 พันล้านพารามิเตอร์ที่สร้างขึ้นอย่างพิถีพิถันเพื่อให้เก่งในภาษาอินเดียและจัดการกับงานที่ซับซ้อน ซึ่งรวมถึงคณิตศาสตร์และโปรแกรม โมเดลนวัตกรรมนี้ชื่อ Sarvam-M (โดย “M” หมายถึง Mistral) แสดงถึงความก้าวหน้าที่สำคัญในขอบเขตของโมเดลไฮบริดแบบโอเพ่นเวท (open-weights hybrid models) โดยสร้างขึ้นบนพื้นฐานของ Mistral Small ซึ่งเป็นโมเดลภาษาโอเพ่นซอร์สขนาดกะทัดรัดแต่ทรงพลังอย่างน่าทึ่ง เสริมสร้างศักยภาพผ่านการฝึกอบรมเฉพาะทางและเทคนิคการเพิ่มประสิทธิภาพ

Sarvam-M: แนวทางไฮบริดในการสร้างแบบจำลองภาษา (Language Modeling)

Sarvam-M โดดเด่นด้วยแนวทางไฮบริด โดยผสมผสานจุดแข็งของพื้นฐานโอเพ่นซอร์ส (open-source foundation) เข้ากับการปรับปรุงที่เป็นกรรมสิทธิ์ (proprietary enhancements) ปรัชญาการออกแบบนี้ช่วยให้ Sarvam AI สามารถใช้ประโยชน์จากความรู้ร่วมกันและการสนับสนุนชุมชนโดยรอบโมเดล Mistral Small ในขณะเดียวกันก็ปรับแต่งให้ตรงกับความต้องการเฉพาะของตลาดอินเดีย สถาปัตยกรรมและวิธีการฝึกอบรมของโมเดลเป็นกุญแจสำคัญในการทำความเข้าใจประสิทธิภาพและศักยภาพ

Supervised Fine-Tuning: ความแม่นยำและความถูกต้อง

เพื่อให้โมเดลมีความถูกต้องแม่นยำยิ่งขึ้น Sarvam AI ใช้วิธีการปรับแต่งอย่างละเอียด (supervised fine-tuning) ซึ่งเกี่ยวข้องกับการฝึกอบรมโมเดลเกี่ยวกับชุดข้อมูลตัวอย่างที่คัดสรรมาอย่างพิถีพิถัน ซึ่งออกแบบมาโดยเฉพาะเพื่อปรับปรุงประสิทธิภาพในงานต่างๆ ด้วยการเปิดรับโมเดลในสถานการณ์ที่หลากหลายและให้ข้อมูลที่มีป้ายกำกับที่ชัดเจน กระบวนการปรับแต่งภายใต้การดูแลช่วยให้ Sarvam-M เรียนรู้รูปแบบและความสัมพันธ์ที่ซับซ้อนภายในข้อมูล ส่งผลให้ได้ผลลัพธ์ที่ถูกต้องและเชื่อถือได้มากขึ้น

Reinforcement Learning with Verifiable Rewards: ความกล้าหาญในการตัดสินใจ

นอกเหนือจากการปรับแต่งภายใต้การดูแลแล้ว Sarvam AI ยังรวมเอา reinforcement learning with verifiable rewards เพื่อเพิ่มขีดความสามารถในการตัดสินใจของโมเดล เทคนิคนี้เกี่ยวข้องกับการฝึกอบรมโมเดลให้เรียนรู้จากผลตอบรับที่เชื่อมโยงกับเป้าหมายที่ชัดเจนและวัดผลได้ เช่น การแก้ปัญหาทางคณิตศาสตร์อย่างถูกต้อง โดยให้รางวัลแก่โมเดลสำหรับการบรรลุเป้าหมายเหล่านี้ กระบวนการเรียนรู้เสริมสร้างความเข้มแข็งส่งเสริมให้ตัดสินใจได้ดีขึ้นและเพิ่มประสิทธิภาพเมื่อเวลาผ่านไป วิธีการนี้มีประสิทธิภาพอย่างยิ่งสำหรับงานที่ต้องใช้ทักษะการให้เหตุผลและการแก้ปัญหาที่ซับซ้อน

Optimized for Real-Time Use: ประสิทธิภาพและการตอบสนอง

ตระหนักถึงความสำคัญของประสิทธิภาพแบบเรียลไทม์ Sarvam AI ได้เพิ่มประสิทธิภาพ Sarvam-M อย่างพิถีพิถันเพื่อให้ตอบสนองอย่างมีประสิทธิภาพและแม่นยำยิ่งขึ้นเมื่อสร้างคำตอบ โดยเฉพาะอย่างยิ่งระหว่างการใช้งานแบบเรียลไทม์ ซึ่งเกี่ยวข้องกับการปรับแต่งสถาปัตยกรรมและอัลกอริทึมของโมเดลเพื่อลดเวลาแฝงและเพิ่มปริมาณงานสูงสุด ทำให้มั่นใจได้ว่าผู้ใช้จะได้รับการตอบสนองที่ทันท่วงทีและเกี่ยวข้องกับข้อความค้นหาของพวกเขา ความพยายามในการปรับปรุงมุ่งเน้นไปที่การลดค่าใช้จ่ายในการคำนวณและปรับปรุงความสามารถของโมเดลในการจัดการคำขอพร้อมกัน ทำให้เหมาะสำหรับการปรับใช้ในสภาพแวดล้อมที่มีความต้องการสูง

Benchmarking Performance: การสร้างมาตรฐานใหม่

การอ้างสิทธิ์ของ Sarvam AI ที่ว่า Sarvam-M กำหนดมาตรฐานใหม่สำหรับโมเดลขนาดนี้ในภาษาอินเดียและงานคณิตศาสตร์และการเขียนโปรแกรมนั้น ได้รับการสนับสนุนจากข้อมูลการวัดประสิทธิภาพที่ครอบคลุม สตาร์ทอัพได้ทำการประเมินอย่างเข้มงวดเกี่ยวกับประสิทธิภาพของโมเดลบนมาตรฐานมาตรฐานต่างๆ โดยเปรียบเทียบผลลัพธ์กับการประเมินของโมเดลที่ทันสมัยอื่นๆ ผลลัพธ์ของการประเมินเหล่านี้แสดงให้เห็นถึงการปรับปรุงที่สำคัญที่ Sarvam-M ทำได้ในหลายด้านที่สำคัญ

Indian Language Benchmarks: ประสิทธิภาพเพิ่มขึ้นโดยเฉลี่ย 20%

จากข้อมูลของบล็อกโพสต์ที่เผยแพร่โดย SarvamAI, Sarvam-M แสดงให้เห็นถึงการปรับปรุงที่สำคัญเหนือโมเดลพื้นฐาน โดยมีผลการดำเนินงานเฉลี่ยเพิ่มขึ้น 20% ในเกณฑ์มาตรฐานภาษาอินเดีย การปรับปรุงที่สำคัญนี้เน้นย้ำถึงประสิทธิภาพของกระบวนการปรับแต่งภายใต้การดูแลในการปรับปรุงความเข้าใจและการสร้างภาษาอินเดียของโมเดล ความสามารถของโมเดลในการจัดการกับความแตกต่างและความซับซ้อนของภาษาเหล่านี้มีความสำคัญต่อการนำไปใช้และใช้งานในตลาดอินเดีย เกณฑ์มาตรฐานเฉพาะที่ใช้ในการประเมินประสิทธิภาพ ได้แก่ งานต่างๆ เช่น การจัดหมวดหมู่ข้อความ การตอบคำถาม และการแปลด้วยเครื่อง ซึ่งครอบคลุมความท้าทายทางภาษาที่หลากหลาย

Math Tasks: ประสิทธิภาพเพิ่มขึ้นโดยเฉลี่ย 21.6%

นอกจากภาษาอินเดียแล้ว Sarvam-M ยังแสดงให้เห็นถึงผลกำไรด้านประสิทธิภาพที่น่าประทับใจในงานคณิตศาสตร์ โดยมีการปรับปรุงโดยเฉลี่ย 21.6% ความแม่นยำและความสามารถในการแก้ปัญหาที่เพิ่มขึ้นอย่างมีนัยสำคัญนี้เน้นย้ำถึงประสิทธิภาพของการเรียนรู้เสริมสร้างความเข้มแข็งด้วยเทคนิครางวัลที่ตรวจสอบได้ในการปรับปรุงความสามารถในการให้เหตุผลของโมเดล ความสามารถของโมเดลในการแก้ปัญหาทางคณิตศาสตร์เป็นสิ่งจำเป็นสำหรับการนำไปใช้ในด้านต่างๆ เช่น การสร้างแบบจำลองทางการเงิน การวิจัยทางวิทยาศาสตร์ และการวิเคราะห์ข้อมูล เกณฑ์มาตรฐานที่ใช้ในการประเมินประสิทธิภาพในงานคณิตศาสตร์ ได้แก่ ปัญหาจากโดเมนต่างๆ เช่น พีชคณิต แคลคูลัส และสถิติ โมเดลได้รับการประเมินความสามารถไม่เพียงแต่ให้คำตอบที่ถูกต้องเท่านั้น แต่ยังแสดงให้เห็นถึงกระบวนการให้เหตุผลและพิสูจน์แนวทางแก้ไขด้วย

Programming Tests: ประสิทธิภาพเพิ่มขึ้นโดยเฉลี่ย 17.6%

ประสิทธิภาพของ Sarvam-M ในการทดสอบการเขียนโปรแกรมมีความโดดเด่นไม่แพ้กัน โดยมีผลกำไรเฉลี่ย 17.6% การปรับปรุงนี้สะท้อนให้เห็นถึงความสามารถของโมเดลในการทำความเข้าใจและสร้างโค้ดในภาษาโปรแกรมต่างๆ ทำให้เป็นเครื่องมือที่มีค่าสำหรับนักพัฒนาซอฟต์แวร์และวิศวกร ความเชี่ยวชาญของโมเดลในการเขียนโปรแกรมเป็นสิ่งสำคัญสำหรับการนำไปใช้ในด้านต่างๆ เช่น การสร้างโค้ด การตรวจจับข้อผิดพลาด และการทดสอบอัตโนมัติ เกณฑ์มาตรฐานที่ใช้ในการประเมินประสิทธิภาพการทดสอบการเขียนโปรแกรม ได้แก่ งานต่างๆ เช่น การเติมโค้ด การซ่อมแซมโค้ด และการสร้างโค้ดจากคำอธิบายภาษาธรรมชาติ โมเดลได้รับการประเมินความสามารถในการสร้างโค้ดที่ถูกต้องตามหลักไวยากรณ์และมีความหมายเชิงความหมายซึ่งเป็นไปตามข้อกำหนดที่กำหนด

Combined Tasks: ประสิทธิภาพที่ยอดเยี่ยม

โมเดลทำงานได้ดียิ่งขึ้นในงานที่รวมภาษาอินเดียและคณิตศาสตร์ ซึ่งแสดงให้เห็นถึงความเก่งกาจและความสามารถในการจัดการกับสถานการณ์ที่ซับซ้อนที่ต้องใช้ทั้งทักษะทางภาษาและการให้เหตุผล ตัวอย่างเช่น มีการปรับปรุง 86% ในเวอร์ชันภาษาอินเดียที่เป็นอักษรโรมันของเกณฑ์มาตรฐาน GSM-8K การปรับปรุงที่โดดเด่นนี้เน้นย้ำถึงความสามารถของโมเดลในการใช้ประโยชน์จากความรู้เกี่ยวกับทั้งภาษาอินเดียและแนวคิดทางคณิตศาสตร์เพื่อแก้ปัญหาที่ท้าทาย GSM-8K benchmark เป็นชุดข้อมูลที่ใช้กันอย่างแพร่หลายซึ่งทดสอบความสามารถของโมเดลในการแก้ปัญหาคณิตศาสตร์ระดับประถมศึกษาที่แสดงในภาษาธรรมชาติ ประสิทธิภาพของโมเดลในเกณฑ์มาตรฐานนี้แสดงให้เห็นถึงความสามารถในการทำความเข้าใจข้อความ problem , ระบุข้อมูลที่เกี่ยวข้อง และใช้การดำเนินการทางคณิตศาสตร์ที่เหมาะสมเพื่อให้ได้วิธีแก้ที่ถูกต้อง การปรับปรุง 86% ที่ Sarvam-M ทำได้เป็นข้อพิสูจน์ถึงความสามารถในการให้เหตุผลขั้นสูงและความสามารถในการจัดการกับงานที่ซับซ้อนและมีหลายแง่มุม

Comparison with Other Models: Sarvam-M Holds Its Own

บล็อกโพสต์ของ Sarvam AI ได้เปรียบเทียบระหว่าง Sarvam-M กับโมเดลภาษาที่โดดเด่นอื่นๆ โดยเน้นย้ำถึงประสิทธิภาพการแข่งขัน การวิเคราะห์เปรียบเทียบนี้ให้ข้อมูลเชิงลึกอันมีค่าเกี่ยวกับจุดแข็งและจุดอ่อนของโมเดล ช่วยให้ผู้ใช้สามารถตัดสินใจได้อย่างมีข้อมูลเกี่ยวกับการปรับตัวให้เข้ากับความต้องการเฉพาะของพวกเขา บล็อกโพสต์เน้นข้อเท็จจริงที่ว่า Sarvam-M มีประสิทธิภาพเหนือกว่า Llama-2 7B ในเกณฑ์มาตรฐานส่วนใหญ่ และสามารถเทียบเคียงได้กับโมเดลหนาแน่นขนาดใหญ่กว่า เช่น Llama-3 70B และโมเดลอย่าง Gemma 27B ซึ่งได้รับการฝึกฝนล่วงหน้าโดยใช้โทเค็นมากกว่าอย่างมาก การเปรียบเทียบเหล่านี้เน้นย้ำถึงประสิทธิภาพของวิธีการฝึก Sarvam-M และความสามารถในการบรรลุประสิทธิภาพการแข่งขันด้วยขนาดพารามิเตอร์ที่ค่อนข้างเล็ก ความสามารถในการบรรลุประสิทธิภาพที่เทียบเคียงได้ด้วยพารามิเตอร์ที่น้อยกว่า แปลเป็นต้นทุนการคำนวณที่ต่ำกว่าและความเร็วในการอนุมานที่เร็วขึ้น ทำให้ Sarvam-M เป็นโซลูชันที่ใช้งานได้จริงและเข้าถึงได้มากขึ้นสำหรับผู้ใช้จำนวนมาก

English Knowledge-Based Benchmarks: ช่องว่างสำหรับการปรับปรุง

แม้จะมีประสิทธิภาพที่น่าประทับใจในภาษาอินเดียและงานให้เหตุผล Sarvam AI รับทราบว่า Sarvam-M ยังคงต้องมีการปรับปรุงในเกณฑ์มาตรฐานตามความรู้ภาษาอังกฤษเช่น MMLU ในเกณฑ์มาตรฐานเหล่านี้ Sarvam-M ทำงานได้ต่ำกว่าโมเดลพื้นฐานประมาณ 1 เปอร์เซ็นต์ การลดลงของประสิทธิภาพเล็กน้อยนี้แสดงให้เห็นว่าข้อมูลการฝึกอบรมของโมเดลอาจมีอคติต่อภาษาอินเดียและงานให้เหตุผล ซึ่งส่งผลให้ความเข้าใจในความรู้ภาษาอังกฤษอ่อนแอกว่าเล็กน้อย อย่างไรก็ตาม Sarvam AI กำลังดำเนินการอย่างแข็งขันเพื่อแก้ไขปัญหานี้โดยการรวมข้อมูลภาษาอังกฤษเพิ่มเติมลงในชุดฝึกอบรมของโมเดล และโดยการปรับแต่งสถาปัตยกรรมของโมเดลให้ดียิ่งขึ้นเพื่อจัดการกับงานที่อิงตามความรู้ภาษาอังกฤษ บริษัทมุ่งมั่นที่จะบรรลุความเท่าเทียมกันกับแบบจำลองที่ทันสมัยอื่นๆ ในเกณฑ์มาตรฐานภาษาอังกฤษ เพื่อให้มั่นใจว่า Sarvam-M เป็นแบบจำลองภาษาที่หลากหลายและมีการแข่งขันในระดับสากล

Versatility and Applications: ความเป็นไปได้ที่หลากหลาย

Sarvam-M ถูกสร้างขึ้นเพื่อความเก่งกาจและออกแบบมาเพื่อรองรับแอปพลิเคชันที่หลากหลาย รวมถึงเอเจนต์สนทนา การแปล และเครื่องมือทางการศึกษา ความสามารถในการเข้าใจและสร้างภาษาอินเดีย ควบคู่ไปกับความสามารถในการให้เหตุผล ทำให้เป็นทรัพย์สินที่มีค่าสำหรับธุรกิจและองค์กรที่ดำเนินงานในตลาดอินเดีย

Conversational Agents: การปรับปรุงการบริการลูกค้า

Sarvam-M สามารถใช้เพื่อขับเคลื่อนเอเจนต์สนทนาที่สามารถโต้ตอบกับลูกค้าในภาษาแม่ของพวกเขา ให้บริการลูกค้าที่เป็นส่วนตัวและมีประสิทธิภาพ ตัวแทนเหล่านี้สามารถจัดการงานต่างๆ ได้หลากหลาย เช่น ตอบคำถามที่พบบ่อย ให้ข้อมูลผลิตภัณฑ์ และแก้ไขข้อร้องเรียนของลูกค้า ด้วยการทำให้ลูกค้าสามารถสื่อสารในภาษาที่ต้องการได้ Sarvam-M จะช่วยปรับปรุงความพึงพอใจและความภักดีของลูกค้า เอเจนต์สนทนาที่ขับเคลื่อนโดย Sarvam-M สามารถปรับใช้บนแพลตฟอร์มต่างๆ เช่น เว็บไซต์ แอปบนอุปกรณ์เคลื่อนที่ และแพลตฟอร์มการส่งข้อความ ทำให้ลูกค้าได้รับประสบการณ์การสื่อสารที่ราบรื่นและสะดวกสบาย

Translation: การทำลายอุปสรรคทางภาษา

ความสามารถในการแปลของ Sarvam-M สามารถใช้เพื่อทำลายอุปสรรคทางภาษาและอำนวยความสะดวกในการสื่อสารระหว่างผู้คนที่พูดภาษาต่างๆ โมเดลสามารถแปลข้อความและคำพูดระหว่างภาษาอังกฤษและภาษาอินเดียต่างๆ ทำให้ธุรกิจสามารถขยายขอบเขตไปสู่ตลาดใหม่ และบุคคลทั่วไปสามารถเชื่อมต่อกับผู้คนจากวัฒนธรรมที่แตกต่างกัน บริการแปลที่ขับเคลื่อนโดย Sarvam-M สามารถรวมเข้ากับแอปพลิเคชันต่างๆ เช่น เครื่องมือแปลเอกสาร ปลั๊กอินแปลเว็บไซต์ และแอปแปลตามเวลาจริง ทำให้ผู้ใช้มีความสามารถในการแปลที่ราบรื่นและแม่นยำ

Educational Tools: ประสบการณ์การเรียนรู้ส่วนบุคคล

Sarvam-M สามารถใช้เพื่อพัฒนาเครื่องมือทางการศึกษาที่มอบประสบการณ์การเรียนรู้ส่วนบุคคลสำหรับนักเรียนทุกวัย โมเดลสามารถสร้างสื่อการเรียนรู้ที่กำหนดเอง ให้ข้อเสนอแนะเกี่ยวกับชิ้นงานของนักเรียน และตอบคำถามของนักเรียน ด้วยการปรับแต่งประสบการณ์การเรียนรู้ให้เข้ากับความต้องการและสไตล์การเรียนรู้ของนักเรียนแต่ละคน Sarvam-M สามารถปรับปรุงการมีส่วนร่วมของนักเรียนและผลการเรียน เครื่องมือทางการศึกษาที่ขับเคลื่อนโดย Sarvam-M สามารถปรับใช้บนแพลตฟอร์มต่างๆ เช่น แพลตฟอร์มการเรียนรู้ออนไลน์ แอปบนอุปกรณ์เคลื่อนที่ และตำรารูปแบบอินเทอร์แอคทีฟ มอบให้นักเรียนเข้าถึงแหล่งข้อมูลการเรียนรู้ส่วนบุคคลได้ทุกที่ทุกเวลา

Access and Availability: การเพิ่มขีดความสามารถให้นักพัฒนา

Sarvam AI ได้ทำให้ Sarvam-M พร้อมใช้งานสำหรับนักพัฒนาและนักวิจัย ส่งเสริมการสร้างสรรค์นวัตกรรมและความร่วมมือภายในชุมชน AI โมเดลนี้มีให้ดาวน์โหลดได้บน Hugging Face ซึ่งเป็นแพลตฟอร์มยอดนิยมสำหรับการแชร์และเข้าถึงโมเดล AI แบบโอเพ่นซอร์ส นักพัฒนายังสามารถทดสอบโมเดลบนสนามเด็กเล่นของ Sarvam AI ซึ่งเป็นอินเทอร์เฟซบนเว็บที่ช่วยให้ผู้ใช้สามารถทดลองใช้ความสามารถของโมเดลและสำรวจแอปพลิเคชันที่มีศักยภาพ นอกจากนี้ Sarvam AI ยังมี APIs ที่อนุญาตให้นักพัฒนาสามารถผสานรวม Sarvam-M เข้ากับแอปพลิเคชันและบริการของตนเองได้ ด้วยการให้การเข้าถึงโมเดลและเครื่องมือที่เกี่ยวข้องอย่างง่ายดาย Sarvam AI กำลังเพิ่มขีดความสามารถให้นักพัฒนาในการสร้างโซลูชันที่เป็นนวัตกรรมที่ใช้ประโยชน์จากพลังของ AI

Future Plans: การสร้างระบบนิเวศ AI ที่เป็นอิสระในอินเดีย

Sarvam AI วางแผนที่จะเปิดตัวโมเดลเป็นประจำซึ่งเป็นส่วนหนึ่งของความพยายามในการสร้างระบบนิเวศ AI ที่เป็นอิสระในอินเดีย โมเดลนี้เป็นโมเดลแรกในชุดการมีส่วนร่วมนั้น บริษัทยึดมั่นในการพัฒนาและปรับใช้เทคโนโลยี AI ที่สอดคล้องกับความต้องการและค่านิยมของชาวอินเดีย ด้วยการส่งเสริมอุตสาหกรรม AI ในประเทศที่แข็งแกร่ง Sarvam AI มีเป้าหมายที่จะลดการพึ่งพาเทคโนโลยีต่างประเทศของอินเดีย และส่งเสริมการเติบโตทางเศรษฐกิจและการพัฒนาสังคม วิสัยทัศน์ของบริษัทคือการสร้างระบบนิเวศ AI ที่ทั้งสร้างสรรค์และครอบคลุม เพื่อให้มั่นใจว่าชาวอินเดียทุกคนสามารถเข้าถึงประโยชน์ของ AI ได้

ในปลายเดือนเมษายน รัฐบาลอินเดียได้เลือก Sarvam ให้สร้าง LLM ที่เป็นอิสระของประเทศ ซึ่งเป็นส่วนหนึ่งของ IndiaAI Mission ซึ่งเป็นความพยายามระดับชาติในการเสริมสร้างศักยภาพในประเทศในเทคโนโลยีเกิดใหม่ การเลือกนี้เน้นย้ำถึงความมั่นใจของรัฐบาลในความสามารถของ Sarvam AI ในการส่งมอบวิสัยทัศน์ของระบบนิเวศ AI ที่เป็นอิสระในอินเดีย IndiaAI Mission เป็นความคิดริเริ่มที่ครอบคลุมซึ่งมีเป้าหมายเพื่อส่งเสริมการวิจัยและพัฒนาใน AI ส่งเสริมการสร้างสรรค์นวัตกรรมและการเป็นผู้ประกอบการ และสร้างแรงงานที่มีทักษะเพื่อสนับสนุนอุตสาหกรรม AI ด้วยการเป็นพันธมิตรกับ Sarvam AI รัฐบาลกำลังก้าวไปข้างหน้าอย่างมีนัยสำคัญในการบรรลุเป้าหมายและสถาปนาให้อินเดียเป็นผู้นำระดับโลกในด้าน AI