สถาปัตยกรรมใหม่สำหรับการรวมความรู้
แผนกวิจัยของ Microsoft ได้บุกเบิกวิธีการใหม่ในการรวมความรู้ภายนอกเข้ากับ large language models (LLMs) ระบบที่เป็นนวัตกรรมนี้มีชื่อว่า Knowledge Base-Augmented Language Models (KBLaM) ใช้ปรัชญา ‘plug-and-play’ โดยไม่จำเป็นต้องเปลี่ยนแปลงโมเดลที่มีอยู่ก่อนแล้ว นี่แสดงถึงการเปลี่ยนแปลงที่สำคัญจากเทคนิคทั่วไป โดยนำเสนอแนวทางที่มีประสิทธิภาพและคล่องตัวมากขึ้นในการเพิ่มพูนความรู้
ออกจากวิธีการดั้งเดิม
วิธีการปัจจุบัน เช่น Retrieval-Augmented Generation (RAG) และ In-Context Learning มักจะอาศัยกลไกการดึงข้อมูลแยกต่างหากเพื่อเข้าถึงและรวมข้อมูลภายนอก ในทางตรงกันข้าม KBLaM หลีกเลี่ยงระบบภายนอกเหล่านี้ โดยจะแปลงความรู้ให้เป็นคู่เวกเตอร์อย่างชาญฉลาด ผสานรวมเข้ากับสถาปัตยกรรมหลักของโมเดลได้อย่างราบรื่นผ่านเทคนิคใหม่ที่ Microsoft เรียกว่า ‘rectangular attention’
การรวมความรู้โดยตรงภายในตัวโมเดลนี้ โดยข้ามกระบวนการดึงข้อมูลภายนอก ส่งผลให้การตอบสนองเร็วขึ้นและมีประสิทธิภาพมากขึ้นอย่างเห็นได้ชัด นี่คือข้อได้เปรียบที่สำคัญเหนือระบบดั้งเดิม ซึ่งมักประสบปัญหาความล่าช้าและค่าใช้จ่ายในการคำนวณเนื่องจากจำเป็นต้องสืบค้นฐานข้อมูลภายนอก
การแก้ไขปัญหา Quadratic Scaling
ระบบ RAG ที่มีอยู่มักถูกขัดขวางโดยปัญหา quadratic scaling ซึ่งเป็นผลสืบเนื่องมาจากกลไก self-attention กลไกนี้จำเป็นต้องให้ทุกโทเค็นโต้ตอบกับโทเค็นอื่น ๆ ทั้งหมด ซึ่งนำไปสู่การเพิ่มขึ้นแบบทวีคูณของความต้องการในการคำนวณเมื่อขนาดอินพุตเพิ่มขึ้น
เพื่อเป็นตัวอย่าง ลองพิจารณาสถานการณ์ที่โทเค็น 1,000 โทเค็นจากฐานความรู้ถูกนำเข้าสู่บริบท จากนั้นโมเดลจะถูกบังคับให้ประมวลผลคู่โทเค็นจำนวนหนึ่งล้านคู่ หากจำนวนโทเค็นเพิ่มขึ้นเป็น 10,000 ภาระการคำนวณจะเพิ่มขึ้นเป็น 100 ล้านการโต้ตอบ การปรับขนาดกำลังสองนี้กลายเป็นคอขวดอย่างรวดเร็ว จำกัดการใช้งานจริงของระบบ RAG ที่มีฐานความรู้ขนาดใหญ่
ประสิทธิภาพของ Rectangular Attention
KBLaM หลีกเลี่ยงปัญหาการคำนวณนี้ได้อย่างสวยงาม กลไก ‘rectangular attention’ ที่เป็นนวัตกรรมใหม่ช่วยให้อินพุตของผู้ใช้เข้าถึงโทเค็นความรู้ทั้งหมดได้ แต่ที่สำคัญคือ โทเค็นความรู้เหล่านี้จะไม่โต้ตอบซึ่งกันและกันหรืออินพุต ตัวเลือกการออกแบบเชิงกลยุทธ์นี้มีผลกระทบอย่างมากต่อความสามารถในการปรับขนาด
เมื่อฐานความรู้ขยายใหญ่ขึ้น พลังการคำนวณที่ต้องการจะเพิ่มขึ้นในเชิงเส้นเท่านั้น ซึ่งตรงกันข้ามกับการปรับขนาดกำลังสองของวิธีการดั้งเดิม นักวิจัยที่อยู่เบื้องหลัง KBLaM ยืนยันว่า GPU เดียวสามารถจัดการกับ knowledge triples ได้มากกว่า 10,000 รายการ ซึ่งแปลเป็นโทเค็นประมาณ 200,000 โทเค็น นี่แสดงถึงก้าวกระโดดที่สำคัญในประสิทธิภาพของการรวมความรู้
ผลการทดลองที่มีแนวโน้ม
การทดสอบเบื้องต้นของ KBLaM ให้ผลลัพธ์ที่น่าพอใจ ในการทดลองที่เกี่ยวข้องกับรายการความรู้ประมาณ 200 รายการ KBLaM แสดงให้เห็นถึงความสามารถที่เหนือกว่าในการลดภาพหลอน – การสร้างข้อมูลที่เป็นเท็จหรือไม่สมเหตุสมผล – เมื่อเทียบกับแบบจำลองทั่วไป
นอกจากนี้ KBLaM ยังแสดงให้เห็นถึงแนวโน้มที่มากขึ้นในการละเว้นจากการตอบคำถามที่ไม่มีข้อมูลเพียงพอ ‘ความอ่อนน้อมถ่อมตนทางญาณวิทยา’ นี้เป็นลักษณะที่พึงปรารถนาใน LLMs เนื่องจากส่งเสริมความถูกต้องและความน่าเชื่อถือ
ข้อได้เปรียบที่โดดเด่นอีกประการของ KBLaM คือความโปร่งใสที่เพิ่มขึ้น ซึ่งแตกต่างจาก in-context learning ตรงที่ KBLaM สามารถเชื่อมโยงองค์ประกอบความรู้เฉพาะกับโทเค็นที่เกี่ยวข้องได้อย่างง่ายดาย ทำให้เข้าใจกระบวนการให้เหตุผลของโมเดลได้ดีขึ้น
ความพร้อมใช้งานโอเพนซอร์สและทิศทางในอนาคต
โค้ดและชุดข้อมูลที่เป็นรากฐานของ KBLaM ได้รับการเผยแพร่สู่สาธารณะบน GitHub ส่งเสริมความร่วมมือและการวิจัยเพิ่มเติมภายในชุมชน ระบบได้รับการออกแบบมาให้เข้ากันได้กับโมเดลที่ใช้กันอย่างแพร่หลายหลายรุ่น รวมถึง Llama 3 ของ Meta และ Phi-3 ของ Microsoft เอง นอกจากนี้ยังมีแผนที่จะขยายการสนับสนุนไปยัง Hugging Face Transformers ซึ่งเป็นแพลตฟอร์มยอดนิยมสำหรับการสร้างและปรับใช้ LLMs
แม้ว่าผลลัพธ์เบื้องต้นจะมีแนวโน้มที่ดี แต่นักวิจัยเน้นว่า KBLaM ยังไม่สุกงอมสำหรับการปรับใช้ในวงกว้าง มันยอดเยี่ยมในการจัดการกับสถานการณ์การตอบคำถามที่ไม่ซับซ้อน แต่จำเป็นต้องมีการพัฒนาเพิ่มเติมเพื่อจัดการกับงานการให้เหตุผลที่ซับซ้อนมากขึ้น
ความขัดแย้งของ Context Windows และการเพิ่มขึ้นของ RAG
LLMs เผชิญกับความขัดแย้งที่น่าสนใจ: context windows – จำนวนข้อมูลที่พวกเขาสามารถประมวลผลได้ในคราวเดียว – กำลังขยายตัวอย่างต่อเนื่อง แต่การประมวลผลข้อมูลจำนวนมหาศาลนี้อย่างน่าเชื่อถือยังคงเป็นความท้าทายที่น่ากลัว
ความท้าทายนี้ได้ผลักดัน Retrieval-Augmented Generation (RAG) ให้เป็นแนวหน้าในฐานะโซลูชันที่ต้องการสำหรับการฉีดข้อมูลเฉพาะลงในโมเดลด้วยระดับความน่าเชื่อถือที่สมเหตุสมผล ระบบ RAG ทำหน้าที่เป็นตัวกลาง ดึงข้อมูลที่เกี่ยวข้องจากแหล่งภายนอกและป้อนเข้าสู่ LLM ซึ่งจะช่วยเพิ่มพูนความรู้และความถูกต้อง
KBLaM: การเปลี่ยนแปลงกระบวนทัศน์ที่เป็นไปได้
อย่างไรก็ตาม KBLaM นำเสนอทางเลือกที่น่าสนใจ ซึ่งชี้ให้เห็นถึงเส้นทางข้างหน้าที่อาจมีประสิทธิภาพและสง่างามยิ่งขึ้น ด้วยการรวมความรู้เข้ากับสถาปัตยกรรมของโมเดลโดยตรง KBLaM นำเสนอโอกาสของ LLMs ที่ปรับปรุงความรู้ได้เร็วขึ้น ปรับขนาดได้มากขึ้น และโปร่งใสมากขึ้น
เจาะลึกกลไกของ KBLaM
นวัตกรรมหลักของ KBLaM อยู่ที่กลไก ‘rectangular attention’ เพื่อให้เข้าใจสิ่งนี้ เป็นประโยชน์ที่จะต้องพิจารณากลไก self-attention มาตรฐานที่ใช้โดย LLMs จำนวนมากก่อน
ใน self-attention แต่ละโทเค็นในลำดับอินพุตจะเข้าร่วมกับโทเค็นอื่น ๆ ทั้งหมด รวมถึงตัวมันเอง สิ่งนี้ทำให้โมเดลสามารถจับความสัมพันธ์ระหว่างส่วนต่างๆ ของอินพุตได้ แต่มันยังนำไปสู่ปัญหา quadratic scaling ที่กล่าวถึงก่อนหน้านี้
Rectangular attention ในทางตรงกันข้าม แบ่งกระบวนการ attention ออกเป็นสองส่วนที่แตกต่างกัน:
- User Input Attention: อินพุตของผู้ใช้เข้าร่วมกับโทเค็นความรู้ทั้งหมด ทำให้โมเดลสามารถเข้าถึงข้อมูลที่เกี่ยวข้องจากฐานความรู้ได้
- Knowledge Token Attention: โทเค็นความรู้ ไม่ เข้าร่วมซึ่งกันและกันหรืออินพุตของผู้ใช้ นี่คือกุญแจสู่ประสิทธิภาพของ KBLaM
ด้วยการป้องกันการโต้ตอบระหว่างโทเค็นความรู้ KBLaM จะลดจำนวนการคำนวณที่ต้องการลงอย่างมาก สิ่งนี้ทำให้โมเดลสามารถปรับขนาดเชิงเส้นด้วยขนาดของฐานความรู้ ทำให้สามารถรวมข้อมูลภายนอกจำนวนมหาศาลได้
ประโยชน์ของการรวมความรู้โดยตรง
การรวมความรู้โดยตรงเข้ากับสถาปัตยกรรมของโมเดลมีข้อดีหลายประการ:
- Reduced Latency: เนื่องจาก KBLaM ไม่ได้พึ่งพาระบบดึงข้อมูลภายนอก จึงสามารถตอบสนองได้เร็วกว่าโมเดลที่ใช้ RAG มาก
- Improved Efficiency: การปรับขนาดเชิงเส้นของ KBLaM ทำให้มีประสิทธิภาพในการคำนวณมากกว่าวิธีการดั้งเดิมอย่างมาก
- Enhanced Transparency: KBLaM สามารถเชื่อมโยงความรู้กับโทเค็นเฉพาะ ทำให้ง่ายต่อการเข้าใจว่าโมเดลมาถึงคำตอบได้อย่างไร
- Reduced Hallucinations: KBLaM ได้แสดงให้เห็นถึงความสามารถที่มากขึ้นในการหลีกเลี่ยงการสร้างข้อมูลที่เป็นเท็จหรือไม่สมเหตุสมผล
ข้อจำกัดและการวิจัยในอนาคต
แม้ว่า KBLaM จะแสดงถึงความก้าวหน้าที่สำคัญ แต่สิ่งสำคัญคือต้องรับทราบข้อจำกัดในปัจจุบัน:
- Complex Reasoning: KBLaM ปัจจุบันเหมาะที่สุดสำหรับงานตอบคำถามที่ไม่ซับซ้อน จำเป็นต้องมีการวิจัยเพิ่มเติมเพื่อขยายขีดความสามารถไปยังสถานการณ์การให้เหตุผลที่ซับซ้อนมากขึ้น
- Knowledge Representation: การใช้งาน KBLaM ในปัจจุบันใช้ knowledge triples ซึ่งอาจไม่เหมาะสำหรับความรู้ทุกประเภท การสำรวจรูปแบบการแสดงความรู้ทางเลือกเป็นพื้นที่สำหรับการทำงานในอนาคต
- Real-World Deployment: KBLaM ยังคงเป็นโครงการวิจัยและยังไม่พร้อมสำหรับการปรับใช้ในวงกว้าง จำเป็นต้องมีการทดสอบและการปรับแต่งเพิ่มเติมก่อนที่จะสามารถนำไปใช้ในแอปพลิเคชันในโลกแห่งความเป็นจริงได้
ผลกระทบในวงกว้างต่อสาขา AI
การพัฒนาของ KBLaM มีนัยสำคัญต่อสาขาปัญญาประดิษฐ์ในวงกว้าง มันแสดงถึงขั้นตอนสู่การสร้าง LLMs ที่ไม่เพียงแต่ทรงพลัง แต่ยัง:
- More Knowledgeable: ด้วยการรวมความรู้ภายนอกจำนวนมหาศาลเข้าด้วยกันอย่างมีประสิทธิภาพ KBLaM สามารถเพิ่มความถูกต้องตามข้อเท็จจริงและความครอบคลุมของ LLMs ได้
- More Reliable: อัตราการเกิดภาพหลอนที่ลดลงและความโปร่งใสที่เพิ่มขึ้นของ KBLaM นำไปสู่ความน่าเชื่อถือและความน่าไว้วางใจที่มากขึ้น
- More Scalable: การปรับขนาดเชิงเส้นของ KBLaM เปิดโอกาสในการสร้าง LLMs ที่สามารถจัดการกับข้อมูลจำนวนมหาศาลได้อย่างแท้จริง
การวิจัยและพัฒนาอย่างต่อเนื่องของ KBLaM และแนวทางที่คล้ายคลึงกัน สัญญาว่าจะทำให้เส้นแบ่งระหว่าง LLMs และฐานความรู้เลือนลางลงไปอีก ปูทางไปสู่ระบบ AI รุ่นใหม่ที่มีทั้งความฉลาดและข้อมูลเชิงลึก ลักษณะโอเพนซอร์สของโครงการส่งเสริมความร่วมมือและเร่งความเร็วของนวัตกรรมในสาขาที่น่าตื่นเต้นนี้