การพัฒนา AI อย่างไม่หยุดยั้งได้แสดงให้เห็นอย่างต่อเนื่องว่าโมเดลที่มีขนาดใหญ่กว่ามักจะฉลาดกว่า แต่ความต้องการในการดำเนินงานของพวกเขาก็เพิ่มขึ้นเช่นกัน สิ่งนี้สร้างความท้าทายที่สำคัญโดยเฉพาะอย่างยิ่งในภูมิภาคที่มีการเข้าถึงชิป AI ขั้นสูงอย่าง จำกัด อย่างไรก็ตามโดยไม่คำนึงถึงข้อ จำกัด ทางภูมิศาสตร์มีแนวโน้มที่เพิ่มขึ้นในกลุ่มนักพัฒนาโมเดลที่จะยอมรับสถาปัตยกรรม Mixture of Experts (MoE) ควบคู่ไปกับเทคนิคการบีบอัดที่เป็นนวัตกรรมใหม่ เป้าหมาย? เพื่อลดทรัพยากรด้านการคำนวณที่จำเป็นในการปรับใช้และเรียกใช้ Large Language Models (LLMs) ที่กว้างขวางเหล่านี้อย่างมาก ในขณะที่เรากำลังใกล้ถึงวันครบรอบสามปีของการเฟื่องฟูของ AI เชิงกำเนิดที่จุดประกายโดย ChatGPT ในที่สุดอุตสาหกรรมก็เริ่มพิจารณาถึงผลกระทบทางเศรษฐกิจของการทำให้โมเดลที่สิ้นเปลืองพลังงานเหล่านี้ทำงานต่อไปอย่างจริงจัง
ในขณะที่โมเดล MoE เช่นเดียวกับจาก Mistral AI มีมาได้สักพักแล้วความก้าวหน้าที่แท้จริงของพวกเขาเกิดขึ้นในปีที่ผ่านมา เราได้เห็นการเพิ่มขึ้นของ LLM โอเพนซอร์สใหม่จากยักษ์ใหญ่ด้านเทคโนโลยีเช่น Microsoft, Google, IBM, Meta, DeepSeek และ Alibaba ซึ่งทั้งหมดใช้ประโยชน์จากสถาปัตยกรรม MoE รูปแบบใดรูปแบบหนึ่ง สิ่งที่ดึงดูดใจนั้นตรงไปตรงมา: สถาปัตยกรรม MoE นำเสนอทางเลือกที่มีประสิทธิภาพมากกว่าสถาปัตยกรรมโมเดล "หนาแน่น" แบบเดิม ๆ
การเอาชนะข้อจำกัดด้านหน่วยความจำ
รากฐานของสถาปัตยกรรม MoE มีมาตั้งแต่ต้นทศวรรษ 1990 ด้วยการตีพิมพ์ "Adaptive Mixtures of Local Experts" แนวคิดหลักหมุนรอบการกระจายงานไปยังโมเดลย่อย "ผู้เชี่ยวชาญ" ที่มีความเชี่ยวชาญเฉพาะทางหนึ่งคนขึ้นไปแทนที่จะพึ่งพาโมเดลขนาดใหญ่เพียงตัวเดียวที่ได้รับการฝึกฝนในข้อมูลที่หลากหลาย
ในทางทฤษฎีผู้เชี่ยวชาญแต่ละคนสามารถปรับให้เหมาะสมอย่างพิถีพิถันสำหรับโดเมนเฉพาะตั้งแต่การเขียนโค้ดและคณิตศาสตร์ไปจนถึงการเขียนเชิงสร้างสรรค์ อย่างไรก็ตามเป็นที่น่าสังเกตว่านักพัฒนาโมเดลส่วนใหญ่ให้รายละเอียดที่ จำกัด เกี่ยวกับผู้เชี่ยวชาญเฉพาะในโมเดล MoE ของพวกเขาและจำนวนผู้เชี่ยวชาญจะแตกต่างกันไปในแต่ละโมเดล ที่สำคัญมีเพียงเศษเสี้ยวของโมเดลโดยรวมเท่านั้นที่ใช้งานอยู่ในเวลาใดก็ตาม
ลองพิจารณาโมเดล V3 ของ DeepSeek ซึ่งประกอบด้วยผู้เชี่ยวชาญที่กำหนดเส้นทาง 256 คนพร้อมกับผู้เชี่ยวชาญที่ใช้ร่วมกัน ระหว่างการประมวลผลโทเค็นจะมีการเปิดใช้งานผู้เชี่ยวชาญที่กำหนดเส้นทางเพียงแปดคนบวกกับคนที่ใช้ร่วมกัน การเปิดใช้งานแบบเลือกนี้หมายความว่าโมเดล MoE อาจไม่สามารถบรรลุคุณภาพในระดับเดียวกับโมเดลหนาแน่นที่มีขนาดใกล้เคียงกัน ตัวอย่างเช่นโมเดล Qwen3-30B-A3B MoE ของ Alibaba มีประสิทธิภาพต่ำกว่าโมเดล Qwen3-32B ที่หนาแน่นในการทดสอบเกณฑ์มาตรฐานของ Alibaba อย่างสม่ำเสมอ
อย่างไรก็ตามสิ่งสำคัญคือต้องนำบริบทการลดลงของคุณภาพเล็กน้อยนี้ไปสู่การได้รับการเพิ่มประสิทธิภาพที่สำคัญที่สถาปัตยกรรม MoE นำเสนอ การลดลงของพารามิเตอร์ที่ใช้งานอยู่ส่งผลให้ความต้องการแบนด์วิดท์ของหน่วยความจำไม่ได้สัดส่วนโดยตรงกับความจุที่จำเป็นในการจัดเก็บน้ำหนักของโมเดล โดยพื้นฐานแล้วในขณะที่โมเดล MoE อาจยังคงต้องการหน่วยความจำจำนวนมากพวกเขาไม่จำเป็นต้องเป็น High Bandwidth Memory (HBM) ที่เร็วและแพงที่สุด
ลองยกตัวอย่างนี้ด้วยการเปรียบเทียบ ลองพิจารณาโมเดล "หนาแน่น" ที่ใหญ่ที่สุดของ Meta, Llama 3.1 405B และ Llama 4 Maverick ซึ่งเป็นโมเดลที่เทียบเคียงได้ซึ่งใช้สถาปัตยกรรม MoE ที่มีพารามิเตอร์ที่ใช้งานอยู่ 17 พันล้านตัว ในขณะที่ปัจจัยหลายอย่างเช่นขนาดแบทช์ประสิทธิภาพทศนิยมและการแคชคีย์ - ค่ามีส่วนทำให้ประสิทธิภาพในโลกแห่งความเป็นจริงเราสามารถประมาณความต้องการแบนด์วิดท์ขั้นต่ำได้โดยการคูณขนาดของโมเดลเป็นกิกะไบต์ที่ความแม่นยำที่กำหนด (1 ไบต์ต่อพารามิเตอร์สำหรับโมเดล 8 บิต) ตามโทเค็นเป้าหมายต่อวินาทีที่ขนาดแบทช์หนึ่ง
การเรียกใช้ Llama 3.1 405B รุ่น quantized 8 บิตจะต้องใช้ vRAM มากกว่า 405 GB และแบนด์วิดท์หน่วยความจำอย่างน้อย 20 TB/s เพื่อสร้างข้อความที่ 50 โทเค็นต่อวินาที ระบบที่ใช้ Nvidia HGX H100 ซึ่งจนกระทั่งเมื่อเร็ว ๆ นี้มีราคา 300,000 ดอลลาร์ขึ้นไปให้ HBM3 เพียง 640 GB และแบนด์วิดท์รวมประมาณ 26.8 TB/s การเรียกใช้โมเดล 16 บิตเต็มรูปแบบจะต้องใช้ระบบเหล่านี้อย่างน้อยสองระบบ
ในทางตรงกันข้าม Llama 4 Maverick ในขณะที่ใช้หน่วยความจำในปริมาณเท่ากันต้องใช้แบนด์วิดท์น้อยกว่า 1 TB/s เพื่อให้ได้ประสิทธิภาพที่เทียบเคียงได้ นั่นเป็นเพราะมีผู้เชี่ยวชาญด้านโมเดลที่มีมูลค่า 17 พันล้านพารามิเตอร์เท่านั้นที่เกี่ยวข้องกับการสร้างเอาต์พุตอย่างแข็งขัน สิ่งนี้แปลเป็นการเพิ่มขึ้นของความเร็วในการสร้างข้อความเป็นลำดับความสำคัญบนฮาร์ดแวร์เดียวกัน
ในทางกลับกันหากประสิทธิภาพที่แท้จริงไม่ใช่ข้อกังวลหลักโมเดลเหล่านี้จำนวนมากสามารถเรียกใช้บน GDDR6, GDDR7 หรือแม้แต่หน่วยความจำ DDR ที่ถูกกว่า แต่ช้ากว่าได้แล้วดังที่เห็นใน Xeon ล่าสุดของ Intel
Nvidia RTX Pro Servers ใหม่ที่ประกาศในงาน Computex ได้รับการปรับแต่งให้เข้ากับสถานการณ์นี้เป็นอย่างมาก แทนที่จะพึ่งพา HBM ที่มีราคาแพงและสิ้นเปลืองพลังงานซึ่งต้องใช้บรรจุภัณฑ์ขั้นสูง GPU RTX Pro 6000 ทั้งแปดตัวในระบบเหล่านี้แต่ละตัวมีหน่วยความจำ GDDR7 96 GB ซึ่งเป็นประเภทเดียวกันกับที่พบในการ์ดเกมสมัยใหม่
ระบบเหล่านี้ให้ vRAM สูงสุด 768 GB และแบนด์วิดท์รวม 12.8 TB/s ซึ่งเพียงพอที่จะรัน Llama 4 Maverick ที่หลายร้อยโทเค็นต่อวินาที ในขณะที่ Nvidia ยังไม่ได้เปิดเผยราคาการ์ดรุ่น workstation เหล่านี้จำหน่ายในราคาประมาณ 8,500 ดอลลาร์ซึ่งบ่งชี้ว่าเซิร์ฟเวอร์เหล่านี้อาจมีราคาน้อยกว่าครึ่งหนึ่งของ HGX H100 ที่ใช้แล้ว
อย่างไรก็ตาม MoE ไม่ได้หมายถึงจุดจบของ GPU ที่ซ้อนกัน HBM คาดว่า Llama 4 Behemoth หากเคยจัดส่งจะต้องใช้แร็คที่เต็มไปด้วย GPU เนื่องจากขนาดที่แท้จริง
ในขณะที่มีพารามิเตอร์ที่ใช้งานอยู่ประมาณครึ่งหนึ่งของ Llama 3.1 405B แต่มีพารามิเตอร์ทั้งหมด 2 ล้านล้านพารามิเตอร์ ปัจจุบันไม่มีเซิร์ฟเวอร์ GPU ทั่วไปในตลาดที่สามารถรองรับโมเดล 16 บิตเต็มรูปแบบและหน้าต่างบริบทที่มีโทเค็นหนึ่งล้านโทเค็นขึ้นไป
การฟื้นฟู CPU ใน AI?
ขึ้นอยู่กับแอปพลิเคชันเฉพาะ GPU อาจไม่จำเป็นเสมอไปโดยเฉพาะอย่างยิ่งในภูมิภาคที่มีการเข้าถึงตัวเร่งความเร็วระดับไฮเอนด์อย่าง จำกัด
Intel แสดงแพลตฟอร์ม Xeon 6 แบบ dual-socket ที่ติดตั้ง 8800 MT/s MCRDIMM ในเดือนเมษายน การตั้งค่านี้มีปริมาณงาน 240 โทเค็นต่อวินาทีใน Llama 4 Maverick โดยมีเวลาแฝงเอาต์พุตเฉลี่ยต่ำกว่า 100 มิลลิวินาทีต่อโทเค็น
กล่าวอีกนัยหนึ่งแพลตฟอร์ม Xeon สามารถรองรับ 10 โทเค็นต่อวินาทีขึ้นไปต่อผู้ใช้สำหรับผู้ใช้พร้อมกันประมาณ 24 คน
Intel ไม่ได้เปิดเผยตัวเลขประสิทธิภาพของผู้ใช้คนเดียวเนื่องจากมีความเกี่ยวข้องน้อยกว่าในสถานการณ์จริง อย่างไรก็ตามการประมาณการชี้ให้เห็นถึงประสิทธิภาพสูงสุดประมาณ 100 โทเค็นต่อวินาที
ถึงกระนั้นเว้นแต่จะไม่มีทางเลือกอื่นที่ดีกว่าหรือข้อกำหนดเฉพาะเศรษฐศาสตร์ของการอนุมานตาม CPU ยังคงขึ้นอยู่กับการใช้งานเป็นอย่างมาก
การลดน้ำหนัก: การตัดแต่งและการ Quantization
สถาปัตยกรรม MoE สามารถลดแบนด์วิดท์หน่วยความจำที่จำเป็นสำหรับการให้บริการโมเดลขนาดใหญ่ แต่พวกเขาไม่ได้ลดปริมาณหน่วยความจำที่จำเป็นในการจัดเก็บน้ำหนักของพวกเขา แม้ที่ความแม่นยำ 8 บิต Llama 4 Maverick ต้องการหน่วยความจำมากกว่า 400 GB เพื่อเรียกใช้โดยไม่คำนึงถึงจำนวนพารามิเตอร์ที่ใช้งานอยู่
เทคนิคการตัดแต่งที่เกิดขึ้นใหม่และวิธีการ quantization สามารถลดความต้องการนั้นลงได้ครึ่งหนึ่งโดยไม่สูญเสียคุณภาพ
Nvidia เป็นผู้สนับสนุนการตัดแต่งเผยแพร่ Llama 3 รุ่นที่ถูกตัดแต่งของ Meta ที่ได้ลบน้ำหนักที่ซ้ำซ้อนออกไป
Nvidia ยังเป็นหนึ่งใน บริษัท แรก ๆ ที่รองรับประเภทข้อมูลทศนิยม 8 บิตในปี 2022 และอีกครั้งด้วยทศนิยม 4 บิตด้วยการเปิดตัวสถาปัตยกรรม Blackwell ในปี 2024 คาดว่าจะมีการเปิดตัวชิปตัวแรกของ AMD ที่รองรับ FP4 ดั้งเดิมในเร็ว ๆ นี้
ในขณะที่ไม่จำเป็นอย่างเคร่งครัดการรองรับฮาร์ดแวร์ดั้งเดิมสำหรับประเภทข้อมูลเหล่านี้โดยทั่วไปจะลดโอกาสในการเผชิญกับคอขวดในการคำนวณโดยเฉพาะอย่างยิ่งเมื่อให้บริการในวงกว้าง
เราได้เห็นจำนวนผู้พัฒนาโมเดลที่เพิ่มขึ้นซึ่งใช้ประเภทข้อมูลที่มีความแม่นยำต่ำกว่าโดยที่ Meta, Microsoft และ Alibaba นำเสนอเวอร์ชัน quantized แปดบิตและแม้แต่สี่บิตของโมเดลของพวกเขา
Quantization เกี่ยวข้องกับการบีบอัดน้ำหนักของโมเดลจากความแม่นยำดั้งเดิมซึ่งโดยทั่วไปคือ BF16 ไปเป็น FP8 หรือ INT4 สิ่งนี้ช่วยลดแบนด์วิดท์หน่วยความจำและความต้องการความจุของโมเดลได้อย่างมีประสิทธิภาพครึ่งหนึ่งหรือแม้แต่สามในสี่โดยมีค่าใช้จ่ายด้านคุณภาพ
การสูญเสียที่เกี่ยวข้องกับการเปลี่ยนจาก 16 บิตเป็น 8 บิตมักจะน้อยมากและผู้สร้างโมเดลหลายรายรวมถึง DeepSeek ได้เริ่มฝึกอบรมด้วยความแม่นยำ FP8 ตั้งแต่เริ่มต้น อย่างไรก็ตามการลดความแม่นยำลงอีกสี่บิตอาจส่งผลให้คุณภาพลดลงอย่างมีนัยสำคัญ ดังนั้นแนวทางการ quantization หลังการฝึกอบรมจำนวนมากเช่น GGUF จึงไม่ได้บีบอัดน้ำหนักทั้งหมดเท่า ๆ กันปล่อยให้บางส่วนอยู่ในระดับความแม่นยำที่สูงขึ้นเพื่อลดการสูญเสียคุณภาพ
เมื่อเร็ว ๆ นี้ Google ได้สาธิตการใช้ quantization-aware training (QAT) เพื่อลดโมเดล Gemma 3 ลง 4 เท่าในขณะที่รักษาระดับคุณภาพไว้ใกล้กับ BF16 ดั้งเดิม
QAT จำลองการทำงานที่มีความแม่นยำต่ำระหว่างการฝึกอบรม การใช้เทคนิคนี้เป็นเวลาประมาณ 5,000 ขั้นตอนในโมเดลที่ไม่ผ่านการรับรอง Google สามารถลดการลดลงของความซับซ้อนซึ่งเป็นเมตริกสำหรับการวัดการสูญเสียที่เกี่ยวข้องกับการ quantization ได้ 54 เปอร์เซ็นต์เมื่อแปลงเป็น INT4
แนวทาง quantization ตาม QAT อีกวิธีหนึ่งที่เรียกว่า Bitnet มีจุดมุ่งหมายเพื่อระดับความแม่นยำที่ต่ำกว่าแม้ว่าจะบีบอัดโมเดลให้มีเพียง 1.58 บิตหรือประมาณหนึ่งในสิบของขนาดเดิม
การทำงานร่วมกันของเทคโนโลยี
การผสมผสานระหว่าง MoE และการ quantization 4 บิตมีข้อดีอย่างมากโดยเฉพาะอย่างยิ่งเมื่อแบนด์วิดท์มี จำกัด.
สำหรับคนอื่น ๆ ที่ไม่ได้ จำกัด แบนด์วิดท์ไม่ว่าจะเป็นหนึ่งในสองเทคโนโลยีไม่ว่าจะเป็น MoE หรือการ quantization สามารถลดต้นทุนของอุปกรณ์และการดำเนินงานสำหรับการเรียกใช้โมเดลที่ใหญ่ขึ้นและมีประสิทธิภาพมากขึ้นได้อย่างมาก นี่คือการสมมติว่าบริการที่มีคุณค่าสามารถพบได้เพื่อให้พวกเขาดำเนินการ
และถ้าไม่คุณสามารถสบายใจได้อย่างน้อยว่าคุณไม่ได้อยู่คนเดียว–การสำรวจ IBM ล่าสุดเปิดเผยว่ามีเพียงหนึ่งในการปรับใช้ AI สี่รายการเท่านั้นที่ส่งมอบผลตอบแทนจากการลงทุนที่สัญญาไว้