RWKV-X: สถาปัตยกรรมใหม่เพื่อการสร้างแบบจำลองภาษาบริบทขนาดยาวอย่างมีประสิทธิภาพ
ความต้องการที่เพิ่มขึ้นอย่างต่อเนื่องในการประมวลผลลำดับที่ยาวและซับซ้อนมากขึ้นได้ผลักดันขอบเขตของ Large Language Models (LLMs) สถาปัตยกรรมแบบ Transformer แบบดั้งเดิม แม้ว่าจะมีประสิทธิภาพ แต่ก็ต้องเผชิญกับปัญหาการปรับขนาดที่สำคัญเนื่องจากความซับซ้อนกำลังสองที่เกี่ยวข้องกับความยาวของลำดับ ข้อจำกัดนี้จะเห็นได้ชัดเจนเป็นพิเศษเมื่อต้องจัดการกับอินพุตบริบทแบบขยาย ซึ่งขัดขวางความสามารถในการจับภาพและใช้ข้อมูลจากส่วนที่อยู่ห่างไกลของลำดับได้อย่างมีประสิทธิภาพ เพื่อตอบสนองต่อความท้าทายนี้ แนวทางใหม่ๆ ได้เกิดขึ้น โดยมุ่งหวังที่จะบรรลุความซับซ้อนเชิงเส้นในการประมวลผลลำดับที่ยาว
วิธีการเหล่านี้รวมถึง Linear Attention models, State Space Models (เช่น Mamba), Linear RNNs (เช่น DeltaNet) และ RWKV สถาปัตยกรรมแต่ละแบบนำเสนอโซลูชันที่เป็นเอกลักษณ์สำหรับปัญหาความซับซ้อนกำลังสอง ทำให้สามารถประมวลผลลำดับที่ยาวได้อย่างมีประสิทธิภาพมากขึ้น อย่างไรก็ตาม สถาปัตยกรรมเชิงเส้นเหล่านี้มักจะประสบปัญหาในการทำความเข้าใจและใช้ประโยชน์จากข้อมูลบริบทขนาดยาวอย่างเต็มที่
ตัวอย่างเช่น RWKV-7 (โมเดลพารามิเตอร์ 2.9B) แสดงให้เห็นถึงความแม่นยำสูงในงานการดึงข้อมูล passkey สูงสุด 28K tokens อย่างไรก็ตาม ประสิทธิภาพจะลดลงอย่างรวดเร็วนอกเหนือจากเกณฑ์นี้ แม้จะมีการฝึกอบรมล่วงหน้าอย่างต่อเนื่องโดยใช้ข้อมูลความยาว 128K ข้อจำกัดด้านบริบทขนาดยาวยังคงอยู่ ปัญหานี้ไม่ได้มีเฉพาะใน RWKV เท่านั้น มันขยายไปถึงสถาปัตยกรรมอื่นๆ เช่น Mamba ซึ่งแสดงถึงความท้าทายพื้นฐานสำหรับโมเดลประเภทนี้ การดิ้นรนเพื่อรักษาประสิทธิภาพในบริบทที่ยาวนานเป็นพิเศษเน้นถึงพื้นที่สำคัญสำหรับการปรับปรุงในโมเดลภาษาที่มีความซับซ้อนเชิงเส้น
ภูมิทัศน์ของโมเดลภาษาที่มีความซับซ้อนเชิงเส้น
โมเดลภาษาที่มีความซับซ้อนเชิงเส้นได้ปรากฏขึ้นในฐานะทางเลือกที่น่าสนใจสำหรับสถาปัตยกรรมแบบ transformer โดยหลีกเลี่ยงภาระการคำนวณกำลังสองที่มีอยู่ในตัวในการประมวลผลลำดับที่ยาว ตระกูลโมเดล RWKV ที่โดดเด่นในโดเมนนี้ ผสมผสานความสามารถในการขนานกันของ transformers อย่างเชี่ยวชาญในระหว่างการฝึกอบรมด้วยการแสดงสถานะเวียนเกิดแบบ RNN
วิวัฒนาการของ RWKV ครอบคลุมหลาย iteration โดยเริ่มจาก RWKV-4 ที่เป็นรากฐาน ก้าวหน้าไปสู่ RWKV-5, RWKV-6 และ culminate ใน RWKV-7 แต่ละ iteration ได้นำมาซึ่งการปรับปรุงและการปรับปรุง เพิ่มขีดความสามารถของโมเดลและแก้ไขข้อจำกัด นอกจากนี้ โมเดลภาษาไฮบริด เช่น Jamba, Zamba และ MiniMax ได้สร้างชื่อเสียงด้วยการแนะนำการออกแบบไฮบริดที่เป็นเอกลักษณ์ ซึ่งช่วยเสริมสร้างภูมิทัศน์ของโมเดลที่มีความซับซ้อนเชิงเส้นมากยิ่งขึ้น
การแสวงหาการประมวลผลบริบทขนาดยาวอย่างมีประสิทธิภาพยังนำไปสู่การพัฒนา innovative attention mechanisms Native Sparse Attention ตัวอย่างเช่น จัดระเบียบ tokens เป็น temporal blocks โดยใช้ attention paths ที่แตกต่างกันสามเส้นทาง: compressed coarse-grained tokens สำหรับบริบทส่วนกลาง selectively retained fine-grained tokens สำหรับรายละเอียดในท้องถิ่น และ sliding windows สำหรับการจับข้อมูลบริบทในท้องถิ่น Attention mechanisms ที่โดดเด่นอื่นๆ ได้แก่ SeerAttention และ Block Attention (MoBA) ซึ่งแต่ละรายการนำเสนอ strategies ที่เป็นเอกลักษณ์สำหรับการเข้าร่วมข้อมูลที่เกี่ยวข้องภายในลำดับที่ยาว
RWKV-X: สถาปัตยกรรมไฮบริดสำหรับการสร้างแบบจำลองบริบทระยะยาวที่ได้รับการปรับปรุง
นักวิจัยจาก Guangdong Laboratory of Artificial Intelligence and Digital Economy (SZ), Shenzhen, Hohai University, Nanjing, Shenzhen University และ Qinghai University, Xining ได้แนะนำสถาปัตยกรรมไฮบริดใหม่ที่เรียกว่า RWKV-X สถาปัตยกรรมนี้ผสมผสานประสิทธิภาพของ RWKV อย่างชาญฉลาดในการสร้างแบบจำลอง dependencies ระยะสั้นด้วย sparse attention mechanism ที่ออกแบบมาโดยเฉพาะเพื่อจับภาพบริบทระยะยาว
แตกต่างจากแนวทางไฮบริดก่อนหน้า RWKV-X บรรลุความซับซ้อนเชิงเส้นในช่วงเวลา training และความซับซ้อนของเวลาคงที่ระหว่าง inference decoding ทำให้มีประสิทธิภาพเป็นพิเศษสำหรับการประมวลผลลำดับที่ยาว โมเดลแสดงให้เห็นถึงความแม่นยำที่เกือบสมบูรณ์แบบบน benchmark การดึงข้อมูล passkey 64K เมื่อ trained ล่วงหน้าบนลำดับ 64K-token อย่างต่อเนื่อง มันมีประสิทธิภาพที่เหนือกว่าโมเดล RWKV-7 ก่อนหน้าอย่างสม่ำเสมอบน benchmarks บริบทขนาดยาว ในขณะที่ยังคงประสิทธิภาพที่แข็งแกร่งในงานบริบทระยะสั้น
นวัตกรรมใน RWKV-X แสดงถึงก้าวสำคัญในการแก้ไขความท้าทายของการสร้างแบบจำลองภาษาบริบทขนาดยาว ด้วยการรวมจุดแข็งของ recurrent models และ sparse attention mechanisms RWKV-X จึงบรรลุความสมดุลระหว่างประสิทธิภาพและความแม่นยำ ปูทางสำหรับการประมวลผลลำดับแบบขยายที่มีประสิทธิภาพมากขึ้น
RWKV-X: สถาปัตยกรรมและการฝึกอบรม
RWKV-X เป็นตัวอย่างของสถาปัตยกรรมไฮบริด โดยการรวม RWKV-7 blocks เข้ากับ sparse attention blocks เพื่อใช้ประโยชน์จากจุดแข็งของทั้งสองแนวทาง แทนที่จะ training จากศูนย์ RWKV-X สร้างขึ้นจากโมเดลที่มีอยู่โดยใช้วิธีการขยาย block แบบ interleaved และ zero-initialization mechanism ที่ได้รับแรงบันดาลใจจาก LLaMA Pro
กระบวนการ training ประกอบด้วยสอง stages ซึ่งได้รับการออกแบบมาอย่างพิถีพิถันเพื่อเพิ่มประสิทธิภาพของโมเดลในบริบททั้งระยะสั้นและระยะยาว:
- Short-context pretraining: ในขั้นต้น โมเดลจะได้รับการ trained ในบริบทระยะสั้น 1024-token ที่ดึงมาจาก MiniPile dataset ในระหว่าง stage นี้ พารามิเตอร์ทั้งหมด ยกเว้นพารามิเตอร์ใน blocks ที่เพิ่มเข้ามาใหม่ จะถูก frozen เพื่อให้แน่ใจว่าความรู้ที่ trained ล่วงหน้าจาก base RWKV-7 model จะถูกเก็บรักษาไว้ สิ่งนี้ช่วยให้ blocks ที่เพิ่มเข้ามาใหม่ปรับให้เข้ากับสถาปัตยกรรมที่มีอยู่โดยไม่รบกวน representations ที่ trained ล่วงหน้า
- Long-context continual pretraining: stage ที่สองเกี่ยวข้องกับ long-context continual pretraining โดยใช้ ProLong-64K dataset และ context length 64K tokens โดยประมวลผล tokens ประมาณ 1 พันล้าน tokens ทั้งหมด ในระหว่าง phase นี้ พารามิเตอร์ทั้งหมดจะถูก unfrozen และ jointly optimized ทำให้โมเดลสามารถ fine-tune representations และเรียนรู้ dependencies ระยะยาวได้ การ training ใช้ Long-context Cross-Entropy (LongCE) loss ซึ่ง dynamically weights tokens ตามความสำคัญของมัน Loss function นี้ช่วยให้โมเดลมุ่งเน้นไปที่ส่วนที่เกี่ยวข้องมากที่สุดของลำดับ ปรับปรุงความสามารถในการจับภาพ long-range relationships
กระบวนการ training สอง stage ช่วยให้ RWKV-X สามารถรวมประสิทธิภาพของ RWKV-7 สำหรับ short-range modeling กับ long-range context awareness ของ sparse attention mechanism ได้อย่างมีประสิทธิภาพ โดย pretraining ก่อนใน short contexts จากนั้นจึง fine-tuning ใน long contexts โมเดลจะเรียนรู้ที่จะรวมข้อมูลจากส่วนต่างๆ ของลำดับได้อย่างมีประสิทธิภาพ
RWKV-X: การประเมินและประสิทธิภาพ
การประเมิน Short-context เผยให้เห็นว่า RWKV-X รักษาประสิทธิภาพที่แข่งขันได้ใน benchmarks มาตรฐาน แสดงให้เห็นถึงความสามารถในการจัดการกับลำดับที่สั้นกว่าได้อย่างมีประสิทธิภาพ RWKV-X (0.22B) ที่เล็กกว่าทำคะแนนเฉลี่ยได้ 51.0 เทียบได้กับ RWKV-7 ที่ 51.8 ในระดับที่ใหญ่กว่า RWKV-X (3.6B) สูงถึง 71.9 ซึ่งใกล้เคียงกับ RWKV-7 (2.9B, 72.8) และ Qwen2.5-3B (71.4) ในขณะที่แซงหน้า LLaMA3.2-3B (69.7) ผลลัพธ์เหล่านี้ยืนยันประสิทธิภาพของ RWKV-X ในฐานะกระดูกสันหลัง LLM ที่ใช้งานได้ทั่วไปโดยไม่สูญเสียประสิทธิภาพในบริบทที่สั้นกว่า
นอกจากนี้ การวิเคราะห์ประสิทธิภาพยังแสดงให้เห็นถึงลักษณะการปรับขนาดที่เหนือกว่าของ RWKV-X สำหรับลำดับที่ยาว ที่ 128K tokens RWKV-X บรรลุ speedup 1.37 เท่าเมื่อเทียบกับ Flash-Attention v3 โดยความได้เปรียบนี้จะขยายออกไปเมื่อ context length เพิ่มขึ้น สิ่งนี้บ่งชี้ว่า RWKV-X มีประสิทธิภาพมากขึ้นเมื่อเทียบกับ attention mechanisms อื่น ๆ เมื่อความยาวของลำดับเพิ่มขึ้น
ประสิทธิภาพที่แข็งแกร่งของ RWKV-X ในบริบททั้งระยะสั้นและระยะยาวเน้นถึงความสามารถรอบด้านและประสิทธิภาพในฐานะโมเดลภาษา ความสามารถในการรักษาประสิทธิภาพที่แข่งขันได้ในลำดับที่สั้นกว่า ในขณะที่บรรลุ speedups ที่สำคัญในลำดับที่ยาวกว่า ทำให้เป็นสถาปัตยกรรมที่มีแนวโน้มสำหรับการใช้งานที่หลากหลาย
RWKV-X: ข้อจำกัดและทิศทางในอนาคต
RWKV-X ปรากฏขึ้นในฐานะโมเดลภาษาไฮบริดที่ประสบความสำเร็จในการรวมประสิทธิภาพของ RWKV สำหรับการสร้างแบบจำลอง dependencies ระยะสั้นด้วย novel sparse attention mechanism ที่ออกแบบมาโดยเฉพาะสำหรับการสร้างแบบจำลองบริบทระยะยาว ในขณะที่ RWKV-X แสดงให้เห็นถึงประสิทธิภาพและประสิทธิภาพที่แข็งแกร่งในการสร้างแบบจำลองภาษาบริบทขนาดยาว ข้อจำกัดหลายประการยังคงอยู่
ประการแรก sparse attention mechanism ซึ่งอาศัย top-k chunk selection ใช้วิธีการ heuristic ที่อาจมองข้าม dependencies ที่เกี่ยวข้องกับความหมาย top-k selection strategy อาจไม่ได้จับข้อมูลที่สำคัญที่สุดในลำดับเสมอไป ซึ่งอาจนำไปสู่ประสิทธิภาพที่ไม่ดีที่สุด
ประการที่สอง การใช้งานปัจจุบันแสดงให้เห็นว่า sparse attention decoding ทำงานช้ากว่า vanilla RWKV ซึ่งบ่งชี้ว่าจำเป็นต้องใช้ความพยายามด้านวิศวกรรมเพิ่มเติมเพื่อเพิ่มประสิทธิภาพ ในขณะที่ RWKV-X บรรลุ speedups ที่สำคัญเมื่อเทียบกับ attention mechanisms อื่น ๆ ในลำดับที่ยาว sparse attention decoding ยังคงช้ากว่า vanilla RWKV ซึ่งบ่งชี้ว่ายังมีช่องว่างสำหรับการปรับปรุงในการใช้งาน
การวิจัยในอนาคตอาจมุ่งเน้นไปที่การแก้ไขข้อจำกัดเหล่านี้โดยการสำรวจ sparse attention mechanisms ที่ซับซ้อนยิ่งขึ้น การปรับปรุงการใช้งาน sparse attention decoding ให้เหมาะสม และตรวจสอบ training strategies ทางเลือก ด้วยการเอาชนะความท้าทายเหล่านี้ RWKV-X มีศักยภาพที่จะกลายเป็นโมเดลภาษาที่ทรงพลังและมีประสิทธิภาพมากยิ่งขึ้นสำหรับการใช้งานบริบทขนาดยาว