MiniMax กับ Linear Attention: คุยกับ Zhong Yiran

MiniMax-01 กล้าที่จะใช้กลไก linear attention และขยายพารามิเตอร์ไปถึง 456 พันล้าน ซึ่งเป็นการเปลี่ยนแปลงครั้งสำคัญในชุมชนโอเพนซอร์ส นี่คือการเดิมพันทางเทคโนโลยีและเป็นหมุดหมายสำคัญในการพัฒนาสถาปัตยกรรม

ในการสัมภาษณ์นี้ เราพูดคุยกับ Zhong Yiran หัวหน้าสถาปัตยกรรม MiniMax-01 เพื่อสำรวจเส้นทางของ linear attention จากห้องปฏิบัติการสู่โมเดลขนาดใหญ่ระดับอุตสาหกรรม รวมถึงความคิดเห็นและข้อมูลเชิงลึกเกี่ยวกับสถาปัตยกรรมโมเดล

ผู้บุกเบิกเส้นทางเทคนิคที่ไม่เป็นที่นิยม

ช่วยแนะนำตัวเองสั้นๆ หน่อยได้ไหม

ผม Zhong Yiran ผู้อำนวยการอาวุโสฝ่ายวิจัยที่ MiniMax ซึ่งดูแลการออกแบบสถาปัตยกรรมเครือข่ายและโมเดลขนาดใหญ่ที่เข้าใจหลายรูปแบบ ที่ MiniMax หน้าที่หลักของผมคือการนำทีมออกแบบโครงสร้างเครือข่าย MiniMax-01

ก่อนหน้านี้ ผมเคยเป็น PI ให้กับ New Architecture Exploration Group ที่ Shanghai Artificial Intelligence Laboratory โดยมุ่งเน้นไปที่วิธีการสร้างแบบจำลองการฝึกอบรมที่มีประสิทธิภาพสำหรับสถาปัตยกรรมที่ไม่ใช่ทรานส์ฟอร์มเมอร์ และการวิจัยเกี่ยวกับการผสมผสานภาพ เสียง และภาษาแบบมัลติโมดอล

คุณเริ่มวิจัย linear attention เมื่อไหร่ และทำไมถึงเลือกเส้นทางเทคนิคนี้

ผมเริ่มวิจัย linear attention ประมาณเดือนกรกฎาคม 2021 สิ่งนี้เกิดขึ้นจากงานวิจัยที่ผมทำเพื่อปริญญาเอกในปี 2020 เรื่อง “Invertible Attention” ในขณะนั้น ทั้งเครือข่ายประสาทเทียมที่ผกผันได้และกลไก attention ต่างก็เป็นที่นิยมอย่างมาก ดังนั้นเราจึงนำมารวมกันในการวิจัยของเรา

ต่อมา สมาชิกในทีมของเราบางคนสนใจคณิตศาสตร์มาก วิธีการสร้างแบบจำลองลำดับที่มีประสิทธิภาพ เช่น linear attention จำเป็นต้องมีพื้นฐานทางคณิตศาสตร์ที่แข็งแกร่ง และเกี่ยวข้องกับการอนุมานสูตรจำนวนมาก ซึ่งสอดคล้องกับความสนใจของทีมอย่างสมบูรณ์แบบ ดังนั้นเราจึงเลือกทิศทางนี้

สถานะของ linear attention ในอุตสาหกรรมในขณะนั้นเป็นอย่างไร

มันไม่เป็นที่นิยมอย่างมาก มีคนทำงานด้านนี้น้อยมาก นักวิจัยส่วนใหญ่มุ่งเน้นไปที่ทรานส์ฟอร์มเมอร์ ซึ่งกลายเป็นกำลังสำคัญใน NLP ไปแล้ว

เราคิดว่าแทนที่จะเป็นอีกหน้าหนึ่งในฝูงชนที่ทำการวิจัยเกี่ยวกับทรานส์ฟอร์มเมอร์ เราควรทำสิ่งที่แตกต่างออกไป

คุณประเมินศักยภาพทางเทคนิคของเส้นทาง linear attention อย่างไร

แรงจูงใจเริ่มต้นของเราตรงไปตรงมา: เพื่อจัดการกับความซับซ้อนในการคำนวณกำลังสองของทรานส์ฟอร์มเมอร์ เราทดสอบวิธีการต่างๆ รวมถึง sparse transformers และ linear attention

เราพบว่า sparse transformers ทำงานได้จริง ให้ความเร็วที่เร็วกว่าและใช้หน่วยความจำน้อยกว่าเมื่อเทียบกับทรานส์ฟอร์มเมอร์ อย่างไรก็ตาม linear attention ทำงานได้ไม่ดีและยังช้าอีกด้วย ถึงกระนั้นเราก็เลือกที่จะทำตาม linear attention

เหตุผลหนึ่งคือความน่าสนใจทางคณิตศาสตร์ของมัน – เราเชื่อว่าประสิทธิภาพของมันควรจะดีกว่า อีกเหตุผลหนึ่งคือเรารู้สึกว่าขีดจำกัดบนของ sparse attention คือ full attention ทำให้ยากที่จะเอาชนะได้ ในทางกลับกัน linear attention มีศักยภาพที่จะเหนือกว่า

ช่วยอธิบายได้ไหมว่า linear attention คืออะไร

Linear attention เป็นหลักการเคล็ดลับเคอร์เนล (kernel trick) ในทรานส์ฟอร์มเมอร์ การคูณเมทริกซ์ Q, K และ V เกี่ยวข้องกับความซับซ้อนในการคำนวณที่แตกต่างกัน ขึ้นอยู่กับว่าคุณคูณ QK ก่อนหรือ KV ก่อน เนื่องจากมิติที่แตกต่างกัน

การคูณ KV ก่อนสามารถลดความซับซ้อนในการคำนวณให้เป็นเชิงเส้นได้ อย่างไรก็ตามปัญหาคือการคูณ QK ตามด้วยการดำเนินการ softmax ซึ่งไม่เป็นไปตามคุณสมบัติการสลับที่ และไม่สามารถแยกออกเป็นการคูณ KVก่อนได้อย่างง่ายดาย ดังนั้นขั้นตอนแรกใน linear attention คือการลบ softmax

แต่การลบ softmax จะส่งผลต่อผลลัพธ์ งานต่อมาคือการรักษาความสอดคล้องในผลลัพธ์โดยไม่มี softmax ซึ่งเป็นสิ่งที่ linear attention ตั้งเป้าที่จะบรรลุ

อะไรคือความแตกต่างพื้นฐานระหว่าง linear attention, sparse attention และสถาปัตยกรรม linear RNN

Sparse attention ยังคงเป็น softmax attention โดยพื้นฐานแล้ว มันเพียงแค่คำนวณจุดน้อยกว่าเมทริกซ์ attention ที่หนาแน่น ตัวอย่างเช่น sliding window attention จะคำนวณเฉพาะคะแนน attention ภายในหน้าต่าง ทำให้เกิดการเร่งความเร็วโดยการลดปริมาณการคำนวณ

Linear RNNs และ linear attention โดยพื้นฐานแล้วเป็นสิ่งเดียวกัน เพียงแต่บางคนเรียกว่า RNNs และบางคนเรียกว่า attention

ทุกอย่างสามารถเขียนในรูปแบบ RNN ได้ ตัวอย่างเช่น lightning attention สอดคล้องกับ RWKV-4 ในขณะที่ RWKV-7 เป็นรุ่นปรับปรุงของ gated delta net แม้ว่าโดยพื้นฐานแล้วจะคล้ายกัน แต่รายละเอียดการใช้งานของมันแตกต่างกัน

อะไรคือเหตุการณ์สำคัญในการวิจัยกลไก linear attention

ราวปี 2018-19 การวิจัยแสดงให้เห็นว่าความซับซ้อนในการคำนวณทางทฤษฎีของ softmax attention ของทรานส์ฟอร์มเมอร์สามารถลดลงได้โดยใช้เคล็ดลับเคอร์เนล แต่ผลลัพธ์ไม่ดี และประสิทธิภาพต่ำ

ในปี 2019-20 sparse attention เป็นที่โดดเด่น โดยมีบริษัทต่างๆ เช่น Google เสนอตัวแปร sparse attention จำนวนมาก ต่อมา linear attention เริ่มปรากฏขึ้น แต่ก็เผชิญกับความท้าทายด้านประสิทธิภาพที่ไม่ดีและความเร็วที่ช้า

นักวิจัยส่วนใหญ่ใช้วิธีการสองวิธีในการปรับปรุง: วิธีหนึ่งคือการประมาณฟังก์ชัน softmax ทำให้การกระจายสอดคล้องกับ softmax อีกวิธีหนึ่งซึ่งเราเลือกคือการสร้างแบบจำลองโดยใช้วิธีการที่แตกต่างกันอย่างสิ้นเชิง โดยไม่ต้องกังวลกับการประมาณ softmax

เราตีพิมพ์งานวิจัยชิ้นแรกของเรา ‘COSFORMER: RETHINKING SOFTMAX IN ATTENTION’ ในเดือนตุลาคม 2021 ซึ่งแทนที่การดำเนินการ softmax ด้วยฟังก์ชันโคไซน์ ทำให้สามารถแยกการคำนวณได้

ในช่วงครึ่งแรกของปี 2022 เราตีพิมพ์งานวิจัยชิ้นที่สอง ‘The Devil in Linear Transformer’ ซึ่งวิเคราะห์เหตุผลที่ทำให้ประสิทธิภาพของ linear attention ลดลง และให้แนวทางแก้ไข นี่คือจุดเริ่มต้นของ lightning attention

ต่อมา เรายังวิจัยการเข้ารหัสตำแหน่งโดยเฉพาะสำหรับ linear attention และ long convolutions โดยตีพิมพ์ TNN, ‘TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING’ ซึ่งเป็นวิธีที่คล้ายกับ S4 (รุ่นก่อนของ Mamba)

สุดท้าย เราเปิดตัว lightning attention ซึ่งตรงกับประสิทธิภาพของทรานส์ฟอร์มเมอร์ผ่านวิธีการลดทอนที่ได้รับการปรับปรุงและโครงสร้างเครือข่าย นอกจากนี้เรายังใช้เทคนิคการปูเพื่อทำให้มันเร็วขึ้น

คุณมีความคิดเห็นอย่างไรเกี่ยวกับเส้นทางเทคนิคสถาปัตยกรรมที่ไม่ใช่ทรานส์ฟอร์มเมอร์ในปัจจุบัน

Linear attention เป็นวิธีการที่ไม่ใช่ทรานส์ฟอร์มเมอร์จริงๆ ปัจจุบัน นอกเหนือจากวิธีการที่เหมือน RNN สถาปัตยกรรมที่ไม่ใช่ทรานส์ฟอร์มเมอร์อื่นๆ กำลังลดลง

ตัวอย่างเช่น CNN เช่น long convolutions และ large kernel convolutions ให้ความรู้สึกเหมือนถูกกำจัดออกไปทีละน้อยเนื่องจากประสิทธิภาพไม่ดี แต่จริงๆ แล้วมันค่อนข้างแข็งแกร่งในบางแง่มุม โดยยังมีผลบางอย่างในการสร้างแบบจำลองลำดับ เช่น งานตรวจจับความผิดปกติ

จริงๆ แล้วมีสถาปัตยกรรมที่ไม่ใช่ทรานส์ฟอร์มเมอร์เพียงสามแบบเท่านั้น: linear attention, long convolutions และ linear RNNs

แต่ในความเป็นจริง ทั้งสามนี้สามารถรวมเป็นหนึ่งเดียวได้ ซึ่งเราเรียกว่าโมเดลความซับซ้อนเชิงเส้น เราเขียนบทความที่ครอบคลุมทั้งสาม

อะไรคือความแตกต่างหลักระหว่าง lightning attention กับ Mamba และ RWKV

ความแตกต่างที่สำคัญที่สุดคือ lightning attention เป็น linear attention ที่ง่ายที่สุด Mamba และ RWKV ต่างก็ใช้ data-dependent decay ในขณะที่ lightning attention ใช้ handcrafted decay เพื่อความเร็ว

แม้ว่า learnable decay จะให้ผลลัพธ์ที่ดีกว่า แต่ก็เสียสละความเร็ว ตัวอย่างเช่น RWKV-7 ช้ากว่า gating delta net 10-15% ในขณะที่ gated delta net เร็วกว่า lightning attention ประมาณครึ่งหนึ่ง

ผลการสร้างแบบจำลองของ RWKV นั้นดีกว่า lightning attention จริง แต่ช้ากว่า และยังไม่ได้แก้ปัญหาการดึงข้อมูล

ตอนนี้เป็นที่ยอมรับในอุตสาหกรรมหรือไม่ว่า linear attention มีขีดจำกัดบนที่สูงและเป็นไปได้

ไม่ หากเป็นที่ยอมรับ ทุกคนคงขยายขนาดโมเดล linear attention และไม่ใช่ฉันทามติในตอนนี้เช่นกัน หากเป็นเช่นนั้น ทุกคนจะทำ linear แต่เท่าที่คุณเห็น ไม่ใช่กรณี

แต่สำหรับเรา เราเห็นสิ่งนี้แล้วในช่วงครึ่งหลังของปี 2023 ในเวลานั้น ฉันถามหลายคนและพูดคุยกับหลายคน และจุดที่พบบ่อยที่สุดที่พวกเขาหยิบยกขึ้นมาคือพวกเขารู้ว่า linear attention ทำงานได้ในระดับเล็ก แต่พวกเขารู้สึกว่ามันจะล้มเหลวเมื่อขยายขนาด

ในเวลานั้น ฉันคิดว่าฉันจะขยายขนาดเพื่อให้ทุกคนได้เห็น ตอนนี้ MiniMax-01 ออกมาแล้ว ไม่มีใครสงสัยในความสามารถของ linear attention ในขนาดใหญ่

จากการทดลองขนาดเล็กสู่การใช้งานขนาดใหญ่

คุณคิดว่าขีดจำกัดบนของ linear attention สามารถแซงหน้า full attention ได้หรือไม่

ตอนนี้เราเห็นได้ว่าสถาปัตยกรรมไฮบริดดีกว่าทรานส์ฟอร์มเมอร์ล้วนๆ แต่ปัญหาที่ใหญ่ที่สุดของ linear attention ล้วนๆ คือความสามารถในการดึงข้อมูล ซึ่งเป็นปัญหาที่ยากสำหรับวงการวิชาการในการแก้ไข

วิธีการที่มีอยู่ แม้ว่าจะซับซ้อนและช้า แต่ก็ยังไม่สามารถแก้ไขได้อย่างสมบูรณ์ ซึ่งเป็นเหตุผลว่าทำไมจึงจำเป็นต้องก้าวไปสู่สถาปัตยกรรมไฮบริด

คุณสังเกตเห็นโหนดใดที่ทำให้คุณตัดสินใจออกจากห้องปฏิบัติการ

ในเดือนพฤษภาคม-มิถุนายน 2023 เรามี lightning attention 2 ภายใน ซึ่งเป็นการใช้งาน linear attention ครั้งแรกของโลกที่เร็วกว่า Flash attention

เราเชื่อว่ามันข้ามเส้นสีแดงทางอุตสาหกรรม และความสมบูรณ์ทางเทคโนโลยีนั้นสูงมากและสามารถขยายขนาดได้

คุณนิยามเส้นสีแดงทางอุตสาหกรรมนี้อย่างไร

ประการแรก ผลกระทบดีกว่าทรานส์ฟอร์มเมอร์ และประการที่สอง เร็วกว่าทรานส์ฟอร์มเมอร์ สิ่งนี้ทำให้มีความสามารถในการแทนที่ทรานส์ฟอร์มเมอร์ เราตรวจสอบสิ่งนี้ในโมเดลหนาแน่นขนาด 15B ในเวลานั้น

ณ โหนดที่คุณออกมาจากห้องปฏิบัติการ ทำไมคุณถึงมารวมตัวกับ MiniMax ในที่สุด

จริงๆ แล้ว ฉันได้พูดคุยกับบริษัทใหญ่ๆ บางแห่งในเวลานั้น แต่ในที่สุด ฉันก็ทำให้สิ่งนี้เกิดขึ้นกับ MiniMax

อย่างแรกเลย cosformer เป็นบทความที่ฉันร่วมมือกับ Junjie เรามีพื้นฐานสำหรับการทำงานร่วมกัน Junjie เป็นเจ้านายของฉันเมื่อเขาอยู่ที่ SenseTime ในช่วงปลายปี 23 Junjie เชิญฉันไปทานอาหารค่ำ เขาเชื่อมั่นในความเป็นไปได้ของเทคโนโลยีล้ำสมัยเหล่านี้มากขึ้น ความเข้าใจของฉันคือเขากำลังมองหาความก้าวหน้าทางเทคนิคในขณะนั้นเช่นกัน

ในเวลานั้น MiniMax ได้ทำการวิจัยเกี่ยวกับ Moe เสร็จสิ้นแล้ว และจริงๆ แล้วมีจุดที่ก้าวหน้าทางเทคนิคไม่มากนักสำหรับขั้นตอนต่อไป ในเวลานั้น lightning attention ได้รับการเผยแพร่แล้ว และ mamba ก็เป็นที่นิยมเช่นกัน ดังนั้นในสายตาของเขา มันเป็นทิศทางที่ทำได้

สิ่งนี้เกี่ยวข้องกับผลิตภัณฑ์คู่หูแบบโต้ตอบของ MiniMax หรือไม่

ไม่มีความเชื่อมโยงกัน Yan Junjie กังวลมากขึ้นเกี่ยวกับขีดจำกัดบนของโมเดล และวิธีการที่จะก้าวข้ามเพดานนี้ต่อไป

Linear attention อาจเป็นทิศทางที่จะก้าวข้ามประสิทธิภาพในสายตาของสาธารณชนมากกว่าการก้าวข้ามเพดาน

ประเด็นที่นี่คือ อย่างแรกเลย พลังการประมวลผลของผู้ผลิตแต่ละรายคงที่ ยิ่งสามารถเร่งความเร็วโมเดลได้เร็วเท่าไหร่ ก็ยิ่งสามารถกินข้อมูลได้มากขึ้น และยิ่งผลิตโมเดลได้ดีขึ้นเท่านั้น เมื่อพลังการประมวลผลคงที่ ยิ่งโมเดลเร็วเท่าไหร่ก็ยิ่งดีเท่านั้น

คุณเคยสังเกตสถานการณ์ที่ข้อมูลถึงจุดสูงสุดหรือไม่

ยังไม่ใช่เหรอ ข้อมูลยังอยู่ในขั้นตอนของการปรับขนาดอย่างต่อเนื่อง แต่อาจจะไม่รุนแรงเท่าในปี 23

เนื่องจากข้อมูลเพิ่มขึ้นอยู่เสมอ และมีข้อมูลใหม่ออกมาทุกวัน สำหรับโมเดลนั้น มีข้อมูลใหม่ให้ประมวลผลทุกวัน ข้อมูลที่ผลิตโดยอินเทอร์เน็ตทุกวันนั้นมากเหลือเกิน ผ่านการทำความสะอาด เรายังคงสามารถนำข้อมูลใหม่ออกมาได้

เมื่อเทียบกับข้อมูลที่มีอยู่หลายปีของการพัฒนาของมนุษย์ อัตราการเติบโตของข้อมูลช้าลงหรือไม่

จริงๆ แล้ว ไม่จำเป็นต้องเป็นเช่นนั้น ดูประวัติศาสตร์ห้าพันปีของจีน แล้วมีเพียงหนังสือเหล่านั้นไม่กี่เล่มที่สะสมไว้ แต่ด้วยการพัฒนาของอินเทอร์เน็ต การเพิ่มขึ้นของปริมาณข้อมูลเป็นเส้นโค้งที่ชันมาก ข้อมูลโดยรวมที่สร้างขึ้นก่อนอินเทอร์เน็ตอาจไม่มากเท่าข้อมูลที่สร้างขึ้นในหนึ่งปีต่อมา

ในระหว่างกระบวนการขยายขนาด lightning attention ต้องเผชิญกับความท้าทายอะไรบ้าง

เพื่อตรวจสอบความสามารถในการปรับขนาด เราได้ทำการทดลอง scaling law ก่อน โดยค่อยๆ ขยายจากโมเดลขนาดเล็กไปเป็น 7B, 9B และสุดท้ายขยายไปสู่โมเดลที่มีมากกว่า 400B

และเราได้พิสูจน์ทางทฤษฎีแล้วว่าความจุของ linear นั้นใหญ่กว่าของ transformer

เรานิยามความจุเป็นขนาดของสถานะปัจจุบันของ RNN สำหรับ transformer ขนาดความจุคือ O(d) โดยที่ d คือขนาด สำหรับ linear attention ขนาดความจุคือ d²/h เนื่องจาก d ใหญ่กว่า h มาก ความจุจึงใหญ่กว่า

ในท้ายที่สุด เรายังได้ตรวจสอบแล้วว่าโมเดลไฮบริดดีกว่า transformer ล้วนๆ

ความยาวลำดับ 4M ทำได้อย่างไร

สำหรับ lightning ความยาวการฝึกสามารถเป็นอะไรก็ได้ ตราบใดที่ใช้พลังการประมวลผลอย่างเต็มที่ ความเร็วในการฝึก 8K, 32K หรือ 128K จะเหมือนกัน และ TGS (token ต่อ GPU ต่อวินาที) จะเหมือนกัน

เนื่องจาก transformer เป็นความซับซ้อนในการคำนวณ n² ยิ่งลำดับยาวขึ้น ความซับซ้อนในการคำนวณก็จะยิ่งเติบโตเร็วขึ้น และความหน่วงเพิ่มขึ้นในเส้นโค้งกำลังสอง ที่ความยาว 1M ความหน่วงของ softmax attention คือ 2,700 เท่าของ lightning attention

ความท้าทายทางเทคนิคใดที่ยังต้องแก้ไขเพื่อให้บรรลุหน้าต่างบริบทที่ไม่สิ้นสุดในอนาคต

ในสถาปัตยกรรมไฮบริดปัจจุบันของเรา ยังคงมี softmax attention 1/8 นี่เป็นคอขวดที่ความยาว 1M ความหน่วงที่เกิดจาก 1/8 นี้นั้นสูงกว่า linear attention ที่เหลือ 7/8 มาก

หากเราต้องการปรับข้อความยาวให้เหมาะสม เราต้องพิจารณาปรับส่วน softmax attention ให้เหมาะสม เราสามารถเรียนรู้จากวิธีการ sparse attention เพื่อทำให้มันเร็วขึ้นและเบาขึ้น

นอกจากนี้ เรากำลังพิจารณาที่จะทำให้สัดส่วนการผสมของ softmax และ linear attention สุดขั้วมากขึ้น ไม่ใช่ 1/8 อีกต่อไป แต่อาจเป็น 1/16 หรือ 1/32 ทางออกที่รุนแรงที่สุดคือการใส่ softmax เพียงเลเยอร์เดียวในโมเดลทั้งหมด แต่เพื่อความปลอดภัย เราไม่ได้นำไปใช้ โดยหลักแล้วพิจารณาถึงผลกระทบต่อความสามารถในการดึงข้อมูล

ทำไมความสามารถในการดึงข้อมูลจึงสำคัญต่อโมเดล

การดึงข้อมูลเป็นพื้นฐานของการเรียนรู้ในบริบทและเป็นเงื่อนไขที่จำเป็น

คุณต้องจดจำข้อมูลในบริบทเพื่อทำการเรียนรู้ในบริบท และการเรียนรู้ในบริบทเป็นพื้นฐานของความสามารถขั้นสูงทั้งหมดของโมเดลขนาดใหญ่ในปัจจุบัน เช่น CoT (Chain of Thought) โดยเฉพาะอย่างยิ่ง CoT ยาว ซึ่งทั้งหมดขึ้นอยู่กับความสามารถในการดึงข้อมูล

สถาปัตยกรรมใหม่ที่เด็ดขาด

คุณได้ให้ความสนใจกับการปรับปรุงสถาปัตยกรรมล่าสุดใน FFN และ attention ในอุตสาหกรรมหรือไม่

การปรับปรุง FFN คือ Moe ฉันยังให้ความสนใจกับ Ultra Mem ของ Byte แต่ฉันคิดว่ามันเป็นสิ่งที่สูญเสีย เป็นการบีบอัดที่สูญเสีย อาจมีปัญหาหากขยายขนาดในอนาคต แต่เรายังไม่ได้ขยายขนาด ดังนั้นฉันจึงบอกได้แค่ว่าอาจมีปัญหา

เนื่องจาก FFN โดยพื้นฐานแล้วเป็นสิ่งเหล่านี้ การปรับปรุงของเราในพื้นที่ Moe ไม่ได้เป็นอะไรมากไปกว่าการเปลี่ยนจากผู้เชี่ยวชาญขนาดใหญ่ก่อนหน้านี้ไปเป็นโหมดผู้เชี่ยวชาญขนาดเล็กในปัจจุบัน ทำให้มัน sparse มากขึ้น จากนั้นทำการเร่งความเร็วบางอย่าง ซึ่งต้องมีการวิจัยเพิ่มเติม

หากคุณต้องการปรับให้เหมาะสมต่อไป เนื่องจาก FFN คือการคูณเมทริกซ์ การปรับให้เหมาะสมสามารถทำได้ในระดับ CUDA เท่านั้นโดย Nvidia ทำการปรับให้เหมาะสมระดับล่างสุดของการคูณเมทริกซ์บางส่วน

คุณได้ให้ความสนใจกับการปรับปรุงสถาปัตยกรรม attention ในอุตสาหกรรมหรือไม่

การปรับปรุง attention โดยพื้นฐานแล้วเป็นเชิงเส้น เรากำลังพิจารณาว่าจะทำให้ Linear แข็งแกร่งขึ้นในอนาคตหรือไม่ และเร่งความเร็ว Linear attention เพิ่มเติมบนพื้นฐานปัจจุบัน

มีหลายวิธีในการปรับปรุง วิธีหนึ่งคือการเปลี่ยน decay และอีกวิธีหนึ่งคือการเปลี่ยนลูกเล่นเล็กๆ น้อยๆ บางอย่างภายใน คุณสามารถตั้งตารอ paper ใหม่ของเราได้

สัดส่วนความยาวบริบทและต้นทุนการอนุมานในปัจจุบันของเราค่อนข้างล้ำหน้าหรือไม่

เมื่อใดก็ตามที่เกี่ยวข้องกับการยืดความยาวลำดับ เรามีความได้เปรียบด้านต้นทุนพลังการประมวลผลที่ชัดเจนมาก ยิ่งยาวนานเท่าไหร่ ความได้เปรียบด้านต้นทุนก็จะยิ่งชัดเจนมากขึ้น ไม่ว่าจะเป็นการอนุมานหรือการฝึกอบรม

ตัวอย่างเช่น ที่ 1M พลังการประมวลผลที่ใช้โดย linear attention คือ 1/2700 ของ full attention ในการเปรียบเทียบ เนื่องจากเรายังมี full attention 1/8 โดยพื้นฐานแล้วมันคือ 1/8 ของสถาปัตยกรรมทรานส์ฟอร์มเมอร์ เนื่องจาก linear attention โดยพื้นฐานแล้วไม่ได้นับเป็นค่าใช้จ่าย

หากต้นทุนการคำนวณต่ำมาก สามารถบรรลุคอขวดในการคำนวณได้หรือไม่

ตอนนี้มันเป็นคอขวดในการเข้าถึงหน่วยความจำจริงๆ การถอดรหัสเป็นคอขวดในการเข้าถึงหน่วยความจำ ไม่ใช่คอขวดในการคำนวณ เนื่องจาก lightning เร็วมาก เร็วเกินไปที่จะอนุญาตให้การเข้าถึงหน่วยความจำครอบครองทรัพยากรน้อยเท่าการคำนวณ นี่เป็นเพราะความยาวลำดับในการใช้งานจริงไม่ยาวพอ

วิธีการทำให้มันเป็นคอขวดในการคำนวณในอนาคตขึ้นอยู่กับวิธีการปรับการเข้าถึงหน่วยความจำให้เหมาะสม สิ่งเหล่านี้จะเป็นสิ่งที่แผนกวิศวกรรมต้องรับผิดชอบ

หากสถาปัตยกรรมเชิงเส้นกลายเป็นสถาปัตยกรรมหลักของคนรุ่นต่อไป การปรับปรุงการปรับตัวของฮาร์ดแวร์แบบใดที่เหมาะสมกว่า

สิ่งที่ยุ่งยากมากที่นี่คือเราต้องพิจารณาความยาวลำดับ หากความยาวลำดับของคุณเน้นที่ 8K หรือ 32K attention จะคิดเป็นเพียงสิบเปอร์เซ็นต์กว่าๆ เท่านั้น และอีกแปดสิบเปอร์เซ็นต์ที่เหลือคือส่วน FFN

แม้ว่าคุณจะปรับ attention ให้เหมาะสมที่สุด ให้เป็น 0 คุณก็ปรับความหน่วงให้เหมาะสมเพียงสิบเปอร์เซ็นต์กว่าๆ เท่านั้น แต่หากคุณยืดความยาวลำดับ สัดส่วนของ attention จะใหญ่ขึ้นเรื่อยๆ นี่คือการเปรียบเทียบกับ full attention แต่สำหรับ linear attention สัดส่วนของมันไม่เปลี่ยนแปลง

เนื่องจาก FFN ก็เป็นเชิงเส้น และ linear attention ก็เป็นเชิงเส้น สัดส่วนของมันอยู่ที่ประมาณ 10% ซึ่งเกือบจะไม่เปลี่ยนแปลง แม้ในกรณีของ 1M

แต่ถ้าเป็น full attention การคำนวณ attention อาจคิดเป็น 99% และ FFN ต่อไปนี้คิดเป็นเพียง 1% ดังนั้น linear attention จึงมีข้อดีเฉพาะในข้อความยาวๆ เท่านั้น

หากสถาปัตยกรรมเชิงเส้นกลายเป็นกระแสหลัก การแสวงหาอาจเป็นฮาร์ดแวร์ที่ใช้พลังงานต่ำ ลดการใช้พลังงานเท่านั้น รวมทั้งชิป Spiking Neural Network (SNN) อาจเหมาะสมกว่า และจริงๆ แล้วมีบางคนกำลังทำอยู่

ตั้งตารอเส้นทางสู่ AGI

คุณมีความคาดหวังอะไรเกี่ยวกับผลกระทบโอเพนซอร์สของโมเดล

อย่างแรกคือเอฟเฟกต์การประชาสัมพันธ์ โดยส่วนตัวแล้ว ฉันคิดว่านอกเหนือจากการแสดงกล้ามเนื้อแล้ว สิ่งที่สำคัญที่สุดสำหรับการเปิดโอเพนซอร์สคือการดูว่าทุกคนสามารถใช้งานได้อย่างไรในอนาคต ฉันคิดว่าโอเพนซอร์สโมเดลขนาดเล็กอาจเป็นสิ่งที่เรากำลังพิจารณาที่จะทำในอนาคต

และวิธีการสร้างโครงสร้างพื้นฐานบางอย่างเพื่อให้ทุกคนปรับแต่งอย่างละเอียดก็อาจต้องพิจารณาด้วย โอเพนซอร์สเป็นสิ่งที่ระยะยาวสำหรับเราในอนาคต และโมเดลเรือธงควรเปิดโอเพนซอร์สต่อไป

เป็นไปได้ไหมที่สถาปัตยกรรม pure-blood ที่ไม่ใช่ไฮบริดจะหมดไปในอนาคต

ปัจจุบัน ไม่มีวิธีใดที่ดีกว่าไฮบริด โดยเฉพาะอย่างยิ่งในแง่ของความเร็ว การเพิ่ม softmax attention ในสัดส่วนเล็กน้อย ข้อได้เปรียบด้านความเร็วนั้นชัดเจนมากเมื่อความยาวลำดับไม่ยาวเป็นพิเศษ โดยเฉพาะอย่างยิ่งหลังจากการเกิดขึ้นของ flash attention

การวิจัยเกี่ยวกับสถาปัตยกรรม pure-blood ยังคงดำเนินต่อไป แต่มันยากมาก และไม่มีผลไม้ที่ห้อยต่ำอีกต่อไป เรามีโซลูชันทางเทคนิคบางอย่าง แต่การใช้งานนั้นไม่ง่าย และท้ายที่สุดก็ขึ้นอยู่กับว่าเราต้องบรรลุความยาวลำดับเท่าใด

คำถามอีกข้อหนึ่งคือ มีความต้องการที่แข็งแกร่งสำหรับข้อความยาวพิเศษหรือไม่ แม้ว่าโมเดลเช่น Claude จะมีความยาวบริบทถึง 200K แต่ผู้ใช้ดูเหมือนจะพอใจกับความยาวปัจจุบันมาก แอปพลิเคชัน Agent อาจนำมาซึ่งความต้องการลำดับที่ยาวเป็นพิเศษในอนาคต แต่ยังไม่มีเกณฑ์มาตรฐานที่เป็นผู้ใหญ่

แต่ฉันคิดว่าปัญหานี้เหมือนกับ Nvidia ที่พัฒนาการ์ดกราฟิกประสิทธิภาพสูงขั้นสูงสำหรับเกมในอนาคต แม้ว่าจะไม่จำเป็นในตอนนี้ แต่เป็นเทคโนโลยีสำหรับอนาคต

ตัวอย่างเช่น การวิจัยเชิงลึกกำหนดให้โมเดลอ่านเนื้อหาของเว็บไซต์หลายสิบแห่ง และเวลาในการประมวลผลอยู่ในลำดับหลายสิบนาที ซึ่งอาจเป็นทิศทางการใช้งานสำหรับข้อความยาวๆ

คุณคิดว่าสิ่งใหญ่ต่อไปหลังจาก CoT อาจเป็นอะไร

เราเคยคิดเกี่ยวกับเรื่องนี้ อย่างแรกเลย โมเดลการให้เหตุผลในปัจจุบันค่อนข้างเป็นที่นิยม และกระแสหลักในปีนี้ยังคงเป็นส่วนการให้เหตุผล หลังจากนั้น เป็นเรื่องยากสำหรับเราที่จะคิดถึงการเปลี่ยนแปลงขนาดใหญ่เป็นพิเศษในอนาคตของโมเดลภาษาล้วนๆ

ฉันยังได้พูดคุยกับครูคนอื่นๆ และความรู้สึกของพวกเขาคือทุกคนจะลดต้นทุนของโมเดลอีกครั้ง เพื่อให้ความเร็วในการให้เหตุผลเร็วขึ้นเรื่อยๆ และราคาถูกลงเรื่อยๆ และต้นทุนลดลงในขณะที่รักษาผลกระทบ

เนื่องจากเพดานกำลังใกล้เข้ามาอย่างรวดเร็ว กรณีส่วนใหญ่คือการตรวจสอบและเติมเต็มช่องว่างในความสามารถของโมเดลขนาดใหญ่ แต่ถ้ามีความก้าวหน้าทางเทคโนโลยีที่ยิ่งใหญ่กว่านั้น อาจเกิดขึ้นไม่บ่อยนักในระยะสั้น และเรายังไม่เห็น

หลังจากที่ MiniMax สำรวจ linear attention แล้ว ทิศทางต่อไปที่จะสำรวจอาจเป็นอะไร

สิ่งต่อไปที่อาจเกิดขึ้นคือการสำรวจสถาปัตยกรรมของ multimodal โดยเฉพาะอย่างยิ่งว่าเราต้องการทำสถาปัตยกรรมโมเดลขนาดใหญ่ที่เป็นหนึ่งเดียวสำหรับการสร้างและการทำความเข้าใจโดยกำเนิดหรือไม่

เมื่อ AGI เป็นจุดสิ้นสุด โมเดลที่มีความซับซ้อนในการคำนวณ O(n²) หรือ O(n) จะเป็นคำตอบที่ดีกว่า

แน่นอนว่ามันคือ O(n) จากมุมมองของการ anthropomorphism ผู้คนจะต้องมีความซับซ้อน O(n) ตัวอย่างเช่น หากความซับซ้อนของคนคือ O(n²) ความเร็วที่ฉันพูดกับคุณจะช้าลงเรื่อยๆ

เนื่องจากสำหรับทรานส์ฟอร์มเมอร์ ความซับซ้อนในการอนุมานของมันคือความซับซ้อนในการคำนวณ O(n²) นั่นคือความหน่วงของการพ่นโทเค็นแรกและการพ่นโทเค็นที่ 100 แตกต่างกัน

พวกเรามนุษย์ไม่สามารถจินตนาการถึงสิ่งนั้นได้ เพราะผู้คนไม่เคยรีสตาร์ทตั้งแต่เกิด และพ่นสิ่งต่างๆ ออกมาตลอดเวลา ดังนั้นความซับซ้อนในการคำนวณของผู้คนจึงคงที่

มนุษย์จำเป็นต้องเป็นทางออกที่ดีที่สุดสำหรับสติปัญญาหรือไม่

เราทำได้เพียงคิดเช่นนั้นในขณะนี้ นอกจากนี้ยังมีบางคนที่ทำเส้นทางของสติปัญญาเลียนแบบ แต่เราไม่ได้ให้ความสนใจกับทิศทางเหล่านั้นมากเกินไป

เมื่อ AGI เป็นเกมสุดท้าย ส่วนใดของการปรับปรุงโมเดลที่สำคัญที่สุด

นอกเหนือจากแบบจำลองภาษาแล้ว ยังมีปัญหาเรื่องวิธีการเรียนรู้ วิธีที่คุณเรียนรู้ และเรียนรู้จากสภาพแวดล้อม การเรียนรู้จากการโต้ตอบกับสภาพแวดล้อมมีความสำคัญมาก ท้ายที่สุดแล้ว ความเข้าใจ multimodal ในปัจจุบันยังขาดแคลนข้อมูลอยู่มาก

และแม้แต่การเรียนรู้ few-shot ของเครื่องจักรก็ถูกติดป้ายกำกับในปัจจุบัน แต่การเรียนรู้ของมนุษย์นั้นไม่มีป้ายกำกับ ดังนั้นวิธีการรวมทุกอย่างภายใต้กรอบที่สร้างขึ้นเองก็เป็นปัญหาเช่นกัน