ความก้าวหน้าอย่างรวดเร็วในเทคโนโลยี AI ซึ่งเห็นได้ชัดจากความก้าวหน้าของ DeepSeek จำเป็นต้องมีการประเมินพื้นฐานใหม่ว่าเราสร้างศูนย์ข้อมูล ชิป และระบบอย่างไรเพื่อให้มีกำลังการประมวลผลที่จำเป็น นวัตกรรมทางวิศวกรรมของ DeepSeek ได้ลดต้นทุนการประมวลผล AI ลงอย่างมาก ซึ่งกระตุ้นให้เกิดการอภิปรายในวงกว้างเกี่ยวกับอนาคตของโครงสร้างพื้นฐาน AI
แม้ว่า DeepSeek อาจไม่ได้ขยายขอบเขตของเทคโนโลยี AI อย่างมาก แต่ก็มีอิทธิพลอย่างมากต่อตลาด AI เทคโนโลยีต่างๆ เช่น Mixture of Experts (MoE), Multi-Layer Attention (MLA) และ Multi-Token Prediction (MTP) ได้รับความโดดเด่นควบคู่ไปกับ DeepSeek แม้ว่าไม่ใช่ทุกเทคโนโลยีเหล่านี้ที่ DeepSeek บุกเบิก แต่การนำไปใช้ที่ประสบความสำเร็จได้กระตุ้นให้เกิดการยอมรับในวงกว้าง โดยเฉพาะอย่างยิ่ง MLA ได้กลายเป็นจุดสนใจของการอภิปรายในแพลตฟอร์มต่างๆ ตั้งแต่อุปกรณ์ปลายทางไปจนถึงคลาวด์คอมพิวติ้ง
MLA และความท้าทายของนวัตกรรมอัลกอริทึม
Elad Raz ซีอีโอของ NextSilicon เพิ่งชี้ให้เห็นว่าในขณะที่ MLA ปรับปรุงประสิทธิภาพหน่วยความจำ แต่ก็อาจเพิ่มปริมาณงานสำหรับนักพัฒนาและทำให้การใช้งาน AI ในสภาพแวดล้อมการผลิตมีความซับซ้อน ผู้ใช้ GPU อาจต้องมีส่วนร่วมในการเพิ่มประสิทธิภาพ ‘hand-code’ สำหรับ MLA ตัวอย่างนี้เน้นย้ำถึงความจำเป็นในการคิดใหม่เกี่ยวกับการใช้งานชิป AI และสถาปัตยกรรมโครงสร้างพื้นฐานในยุคหลัง DeepSeek
เพื่อให้เข้าใจถึงความสำคัญของ MLA จำเป็นต้องเข้าใจแนวคิดพื้นฐานของ Large Language Models (LLMs) เมื่อสร้างการตอบสนองต่อการป้อนข้อมูลของผู้ใช้ LLMs พึ่งพาเวกเตอร์ KV อย่างมาก – คีย์และค่า – ซึ่งช่วยให้โมเดลสามารถมุ่งเน้นไปที่ข้อมูลที่เกี่ยวข้องได้ ในกลไกการใส่ใจ โมเดลจะเปรียบเทียบคำขอใหม่กับคีย์เพื่อกำหนดเนื้อหาที่เกี่ยวข้องมากที่สุด
Elad Raz ใช้การเปรียบเทียบกับหนังสือ โดยคีย์เหมือนกับ ‘ชื่อบทของหนังสือ ซึ่งระบุว่าแต่ละส่วนเกี่ยวกับอะไร โดยค่าจะเป็นบทสรุปที่มีรายละเอียดมากขึ้นภายใต้ชื่อเหล่านั้น ดังนั้น เมื่อผู้ใช้ป้อนคำขอ พวกเขาจะขอคำค้นหาเพื่อช่วยสร้างคำตอบ โดยถามว่า ‘ภายใต้โครงเรื่องนี้ บทใดที่เกี่ยวข้องมากที่สุด’
MLA บีบอัดชื่อบท (คีย์) และบทสรุป (ค่า) เหล่านี้ เร่งกระบวนการค้นหาคำตอบและเพิ่มประสิทธิภาพ ในที่สุด MLA ช่วยให้ DeepSeek ลดการใช้หน่วยความจำลง 5-13% สามารถดูข้อมูลเพิ่มเติมได้ในเอกสารอย่างเป็นทางการของ DeepSeek การประชุมนักพัฒนาของ MediaTek ยังได้กล่าวถึงการสนับสนุน MLA ในชิปมือถือ Dimensity ซึ่งเน้นย้ำถึงอิทธิพลอย่างกว้างขวางของ DeepSeek
เทคโนโลยีอย่าง MLA แสดงถึงนวัตกรรมอัลกอริทึมทั่วไปในยุค AI อย่างไรก็ตาม ความก้าวหน้าอย่างรวดเร็วของเทคโนโลยี AI นำไปสู่กระแสของนวัตกรรมอย่างต่อเนื่อง ซึ่งจะสร้างความท้าทายใหม่ โดยเฉพาะอย่างยิ่งเมื่อนวัตกรรมเหล่านี้ปรับให้เข้ากับแพลตฟอร์มเฉพาะ ในกรณีของ MLA ผู้ใช้ GPU ที่ไม่ใช่ NVIDIA ต้องการการเข้ารหัสด้วยตนเองเพิ่มเติมเพื่อใช้ประโยชน์จากเทคโนโลยีนี้
ในขณะที่เทคโนโลยีของ DeepSeek แสดงให้เห็นถึงนวัตกรรมและคุณค่าของยุค AI ฮาร์ดแวร์และซอฟต์แวร์จะต้องปรับตัวให้เข้ากับนวัตกรรมเหล่านี้ จากข้อมูลของ Elad Raz การปรับตัวดังกล่าวควรลดความซับซ้อนสำหรับนักพัฒนาและสภาพแวดล้อมการผลิต มิฉะนั้น ต้นทุนของแต่ละนวัตกรรมจะสูงเกินไป
คำถามก็คือ: ‘จะเกิดอะไรขึ้นถ้านวัตกรรมอัลกอริทึมถัดไปไม่ได้แปลอย่างดีและเรียบง่ายสำหรับสถาปัตยกรรมที่มีอยู่’
ความขัดแย้งระหว่างการออกแบบชิปและนวัตกรรมอัลกอริทึม
ในช่วงไม่กี่ปีที่ผ่านมา ผู้ผลิตชิป AI ได้รายงานอย่างต่อเนื่องว่าการออกแบบชิป AI ขนาดใหญ่ต้องใช้เวลาอย่างน้อย 1-2 ปี ซึ่งหมายความว่าการออกแบบชิปจะต้องเริ่มต้นล่วงหน้าก่อนที่ชิปจะวางจำหน่ายในตลาด เมื่อพิจารณาถึงความก้าวหน้าอย่างรวดเร็วในเทคโนโลยี AI การออกแบบชิป AI จะต้องมองไปข้างหน้า การมุ่งเน้นไปที่ความต้องการในปัจจุบันเท่านั้นจะส่งผลให้ชิป AI ล้าสมัยที่ไม่สามารถปรับให้เข้ากับนวัตกรรมการใช้งานล่าสุดได้
นวัตกรรมอัลกอริทึมการใช้งาน AI เกิดขึ้นทุกสัปดาห์ ดังที่กล่าวไว้ในบทความก่อนหน้านี้ กำลังการประมวลผลที่จำเป็นสำหรับโมเดล AI เพื่อให้ได้ความสามารถเดียวกันลดลง 4-10 เท่าต่อปี ต้นทุนการอนุมานของโมเดล AI ที่มีคุณภาพคล้ายกับ GPT-3 ลดลง 1200 เท่าในช่วงสามปีที่ผ่านมา ปัจจุบัน โมเดลที่มีพารามิเตอร์ 2B สามารถบรรลุระดับเดียวกับ GPT-3 พารามิเตอร์ 170B ในอดีต นวัตกรรมอย่างรวดเร็วในเลเยอร์บนของสแต็กเทคโนโลยี AI นี้ก่อให้เกิดความท้าทายอย่างมากสำหรับการวางแผนและการออกแบบสถาปัตยกรรมชิปแบบดั้งเดิม
Elad Raz เชื่อว่าอุตสาหกรรมจำเป็นต้องตระหนักถึงนวัตกรรมเช่น DeepSeek MLA ว่าเป็นบรรทัดฐานสำหรับเทคโนโลยี AI ‘การประมวลผลยุคหน้าไม่เพียงแต่ต้องปรับให้เหมาะสมสำหรับปริมาณงานในปัจจุบันเท่านั้น แต่ยังต้องรองรับความก้าวหน้าในอนาคตด้วย’ มุมมองนี้ไม่ได้ใช้กับอุตสาหกรรมชิปเท่านั้น แต่ยังใช้กับโครงสร้างพื้นฐานระดับกลางถึงระดับล่างทั้งหมดของสแต็กเทคโนโลยี AI ด้วย
‘DeepSeek และนวัตกรรมอื่นๆ ได้แสดงให้เห็นถึงความก้าวหน้าอย่างรวดเร็วของนวัตกรรมอัลกอริทึม’ Elad Raz กล่าว ‘นักวิจัยและนักวิทยาศาสตร์ข้อมูลต้องการเครื่องมือที่หลากหลายและยืดหยุ่นมากขึ้นเพื่อขับเคลื่อนข้อมูลเชิงลึกและการค้นพบใหม่ๆ ตลาดต้องการแพลตฟอร์มการประมวลผลฮาร์ดแวร์ที่กำหนดโดยซอฟต์แวร์อัจฉริยะที่ช่วยให้ลูกค้าสามารถ ‘เปลี่ยนตัวเร่งความเร็วที่มีอยู่’ ได้อย่างง่ายดาย ในขณะที่ช่วยให้นักพัฒนาสามารถพอร์ตงานของตนได้อย่างไม่เจ็บปวด’
เพื่อแก้ไขสถานการณ์นี้ อุตสาหกรรมจะต้องออกแบบโครงสร้างพื้นฐานการประมวลผลที่ชาญฉลาด ปรับเปลี่ยนได้ และยืดหยุ่นมากขึ้น
ความยืดหยุ่นและประสิทธิภาพมักเป็นเป้าหมายที่ขัดแย้งกัน CPU มีความยืดหยุ่นสูง แต่มีประสิทธิภาพการประมวลผลแบบขนานต่ำกว่า GPU อย่างมีนัยสำคัญ GPU ที่มีความสามารถในการตั้งโปรแกรม อาจมีประสิทธิภาพน้อยกว่าชิป AI ASIC เฉพาะ
Elad Raz กล่าวว่า NVIDIA คาดว่าแร็คศูนย์ข้อมูล AI จะใช้พลังงานถึง 600kW ในเร็วๆ นี้ ในบริบทนี้ 75% ของศูนย์ข้อมูลระดับองค์กรมาตรฐานมีการใช้พลังงานสูงสุดเพียง 15-20kW ต่อแร็ค ไม่ว่าจะมีศักยภาพในการเพิ่มประสิทธิภาพใน AI มากเพียงใด สิ่งนี้ก็ก่อให้เกิดความท้าทายอย่างมากสำหรับศูนย์ข้อมูลที่สร้างระบบโครงสร้างพื้นฐานการประมวลผล
ในมุมมองของ Elad Raz GPU และตัวเร่งความเร็ว AI ในปัจจุบันอาจไม่เพียงพอต่อความต้องการของ AI และ High-Performance Computing (HPC) ‘หากเราไม่คิดใหม่โดยพื้นฐานเกี่ยวกับวิธีที่เราปรับปรุงประสิทธิภาพการประมวลผล อุตสาหกรรมมีความเสี่ยงที่จะชนขีดจำกัดทางกายภาพและเศรษฐกิจ กำแพงนี้จะส่งผลกระทบข้างเคียงด้วย โดยจำกัดการเข้าถึง AI และ HPC สำหรับองค์กรต่างๆ มากขึ้น ขัดขวางนวัตกรรมแม้จะมีความก้าวหน้าในอัลกอริทึมหรือสถาปัตยกรรม GPU แบบดั้งเดิม’
ข้อเสนอแนะและข้อกำหนดสำหรับโครงสร้างพื้นฐานการประมวลผลยุคหน้า
จากข้อสังเกตเหล่านี้ Elad Raz ได้เสนอ ‘สี่เสาหลัก’ สำหรับการกำหนดโครงสร้างพื้นฐานการประมวลผลยุคหน้า:
(1) ความสามารถในการเปลี่ยนทดแทนแบบ Plug-and-Play: ‘ประวัติศาสตร์ได้แสดงให้เห็นว่าการเปลี่ยนแปลงสถาปัตยกรรมที่ซับซ้อน เช่น การย้ายจาก CPU ไปเป็น GPU อาจใช้เวลาหลายทศวรรษในการนำไปใช้อย่างเต็มที่ ดังนั้น สถาปัตยกรรมการประมวลผลยุคหน้าควรสนับสนุนการย้ายข้อมูลที่ราบรื่น’ สำหรับความสามารถในการเปลี่ยนทดแทนแบบ ‘plug-and-play’ Elad Raz แนะนำว่าสถาปัตยกรรมการประมวลผลใหม่ควรเรียนรู้จากระบบนิเวศ x86 และ Arm โดยบรรลุการยอมรับในวงกว้างผ่านความเข้ากันได้แบบย้อนหลัง
การออกแบบที่ทันสมัยควรหลีกเลี่ยงการกำหนดให้นักพัฒนาเขียนโค้ดจำนวนมากใหม่หรือสร้างการพึ่งพาผู้ขายรายใดรายหนึ่ง ‘ตัวอย่างเช่น การสนับสนุนเทคโนโลยีที่เกิดขึ้นใหม่เช่น MLA ควรเป็นมาตรฐาน แทนที่จะต้องมีการปรับด้วยตนเองเพิ่มเติมเช่นเดียวกับ GPU ที่ไม่ใช่ NVIDIA ระบบยุคหน้าควรเข้าใจและปรับปรุงปริมาณงานใหม่ให้เหมาะสมโดยไม่ต้องแก้ไขโค้ดด้วยตนเองหรือปรับ API อย่างมีนัยสำคัญ’
(2) การปรับตัวให้เหมาะสมและการปรับปรุงประสิทธิภาพแบบเรียลไทม์: Elad Raz เชื่อว่าอุตสาหกรรมควรเลิกใช้ตัวเร่งความเร็วแบบฟังก์ชันคงที่ ‘อุตสาหกรรมจำเป็นต้องสร้างบนรากฐานฮาร์ดแวร์ที่กำหนดโดยซอฟต์แวร์อัจฉริยะที่สามารถปรับให้เหมาะสมด้วยตนเองแบบไดนามิกในรันไทม์’
‘ด้วยการเรียนรู้อย่างต่อเนื่องจากปริมาณงาน ระบบในอนาคตสามารถปรับตัวเองได้แบบเรียลไทม์ เพิ่มการใช้งานและประสิทธิภาพที่ยั่งยืนสูงสุด โดยไม่คำนึงถึงปริมาณงานของแอปพลิเคชันเฉพาะ ความสามารถในการปรับตัวแบบไดนามิกนี้หมายความว่าโครงสร้างพื้นฐานสามารถให้ประสิทธิภาพที่สอดคล้องกันในสถานการณ์จริง ไม่ว่าจะเป็นการจำลอง HPC การจำลอง AI ที่ซับซ้อน หรือการดำเนินการฐานข้อมูลเวกเตอร์’
(3) ประสิทธิภาพที่ปรับขนาดได้: ‘ด้วยการแยกฮาร์ดแวร์และซอฟต์แวร์ออกจากกัน และมุ่งเน้นไปที่การเพิ่มประสิทธิภาพแบบเรียลไทม์ที่ชาญฉลาด ระบบในอนาคตควรมีการใช้งานที่สูงขึ้นและลดการใช้พลังงานโดยรวม ซึ่งจะทำให้โครงสร้างพื้นฐานคุ้มค่าและปรับขนาดได้มากขึ้นเพื่อตอบสนองความต้องการที่เปลี่ยนแปลงไปของปริมาณงานใหม่’
(4) การออกแบบในอนาคต: จุดนี้สอดคล้องกับข้อกำหนดที่มองไปข้างหน้าสำหรับโครงสร้างพื้นฐาน AI โดยเฉพาะอย่างยิ่งการออกแบบชิป ‘อัลกอริทึมที่ล้ำสมัยในปัจจุบันอาจล้าสมัยในวันพรุ่งนี้’ ‘ไม่ว่าจะเป็นเครือข่ายประสาทเทียม AI หรือโมเดล LLM ที่ใช้ Transformer โครงสร้างพื้นฐานการประมวลผลยุคหน้าจะต้องปรับเปลี่ยนได้เพื่อให้มั่นใจว่าการลงทุนด้านเทคโนโลยีขององค์กรจะยังคงยืดหยุ่นได้ในอีกหลายปีข้างหน้า’
คำแนะนำเหล่านี้นำเสนอมุมมองที่เป็นอุดมคติค่อนข้างมาก แต่กระตุ้นความคิด วิธีการชี้นำนี้ควรได้รับการพิจารณาสำหรับการพัฒนาเทคโนโลยี AI และ HPC ในอนาคต แม้ว่าความขัดแย้งโดยธรรมชาติบางอย่างจะยังคงเป็นปัญหาที่ยั่งยืนในอุตสาหกรรม ‘เพื่อปลดปล่อยศักยภาพของ AI, HPC และปริมาณงานที่ต้องใช้การประมวลผลและข้อมูลจำนวนมากในอนาคตอื่นๆ เราต้องคิดใหม่เกี่ยวกับโครงสร้างพื้นฐานและยอมรับโซลูชันแบบไดนามิกและชาญฉลาดเพื่อสนับสนุนนวัตกรรมและผู้บุกเบิก’