Kimi โอเพนซอร์สแสงจันทร์ โมเดลผู้เชี่ยวชาญแบบผสม
Moonshot AI เปิดตัว 'Moonlight' โมเดล MoE พร้อมพารามิเตอร์ 3 หมื่นล้านและ 1.6 แสนล้าน ฝึกฝนด้วย Muon บนโทเค็น 5.7 ล้านล้านตัว เพิ่มประสิทธิภาพและลดการใช้ FLOPs
Moonshot AI เปิดตัว 'Moonlight' โมเดล MoE พร้อมพารามิเตอร์ 3 หมื่นล้านและ 1.6 แสนล้าน ฝึกฝนด้วย Muon บนโทเค็น 5.7 ล้านล้านตัว เพิ่มประสิทธิภาพและลดการใช้ FLOPs
Baichuan-M1 คือชุดโมเดลภาษาขนาดใหญ่ที่ฝึกฝนด้วยโทเค็น 2 หมื่นล้านชุด เน้นเพิ่มขีดความสามารถทางการแพทย์โดยเฉพาะ
การศึกษาล่าสุดเผยให้เห็นว่า AI ยังมีข้อจำกัดในการทำความเข้าใจประวัติศาสตร์โลก โดยเฉพาะอย่างยิ่งเมื่อต้องตอบคำถามที่ซับซ้อนเกี่ยวกับเหตุการณ์และบุคคลในอดีต ซึ่งอาจนำไปสู่การเผยแพร่ข้อมูลที่ผิดพลาดและอคติในหลายภาคส่วน
งานวิจัยล่าสุดแสดงให้เห็นว่าการเพิ่มการคำนวณในช่วง inference สามารถปรับปรุงคุณภาพของตัวอย่างที่สร้างจาก diffusion model ได้อย่างมีนัยสำคัญ โดยการค้นหา noise ที่ดีขึ้นในระหว่างการ sampling และใช้ verifier และ algorithm ที่เหมาะสม สามารถเพิ่มประสิทธิภาพของโมเดลได้แม้แต่โมเดลที่มีขนาดเล็ก
การใช้ Large Language Models (LLMs) ที่เพิ่มขึ้นทำให้เกิดความท้าทายในการอนุมานขนาดใหญ่ กลไก Attention แบบดั้งเดิมมีปัญหาคอขวดที่ KV Cache ซึ่งขยายตามขนาด Batch และความยาวลำดับ ทำให้เกิดปัญหา 'memory hog' MFA และ MFA-KR เป็นกลไก Attention ใหม่ที่ลดต้นทุนการอนุมานของโมเดลภาษา พร้อมปรับปรุงประสิทธิภาพ ลดการใช้ KV Cache ได้ถึง 93.7% ออกแบบให้เรียบง่าย ทำซ้ำได้ง่าย และเข้ากันได้กับวิธี Pos-embedding ต่างๆ
ESM3 โมเดลชีวภาพขนาด 98 พันล้านพารามิเตอร์ พัฒนาโดย Evolutionaryscale สามารถจำลองวิวัฒนาการของโปรตีนได้เทียบเท่า 5 ล้านล้านปี เปิดให้ใช้ API ฟรี โดย Yann LeCun ผู้เชี่ยวชาญด้าน AI ให้การรับรอง มีศักยภาพในการสร้างโปรตีนใหม่และประยุกต์ใช้ทางการแพทย์