Huawei Technologies บริษัทที่เผชิญหน้ากับอุปสรรคทางเทคโนโลยีที่สำคัญเนื่องจากการคว่ำบาตรของสหรัฐฯ ได้ประสบความสำเร็จในการฝึกอบรมแบบจำลองปัญญาประดิษฐ์ (AI) นักวิจัยที่ทำงานเกี่ยวกับแบบจำลองภาษาขนาดใหญ่ (LLM) ของ Huawei, Pangu อ้างว่าได้พัฒนาแนวทางขั้นสูงที่เหนือกว่าวิธีการดั้งเดิมของ DeepSeek วิธีการที่เป็นนวัตกรรมนี้ใช้ประโยชน์จากฮาร์ดแวร์ที่เป็นกรรมสิทธิ์ของ Huawei เอง ซึ่งช่วยลดการพึ่งพาเทคโนโลยีของสหรัฐฯ ของบริษัท ซึ่งเป็นวัตถุประสงค์ที่สำคัญในภูมิทัศน์ทางภูมิรัฐศาสตร์ในปัจจุบัน
การเกิดขึ้นของ Mixture of Grouped Experts (MoGE)
หัวใจสำคัญของความก้าวหน้าของ Huawei อยู่ในแนวคิดของ Mixture of Grouped Experts (MoGE) เทคนิคใหม่นี้ ซึ่งมีรายละเอียดอยู่ในเอกสารที่ตีพิมพ์โดยทีม Pangu ของ Huawei นำเสนอในรูปแบบที่ได้รับการอัปเกรดของเทคนิค Mixture of Experts (MoE) MoE ได้รับการพิสูจน์แล้วว่าเป็นเครื่องมือในการสร้างแบบจำลอง AI ที่คุ้มค่า ดังที่ความสำเร็จของ DeepSeek ได้แสดงให้เห็น
MoE ให้ข้อดีสำหรับพารามิเตอร์แบบจำลองขนาดใหญ่ ซึ่งนำไปสู่ความสามารถในการเรียนรู้ที่เพิ่มขึ้น อย่างไรก็ตามนักวิจัยของ Huawei ได้ระบุถึงความไร้ประสิทธิภาพที่เกิดจากการเปิดใช้งาน "ผู้เชี่ยวชาญ" ที่ไม่สม่ำเสมอซึ่งเป็นส่วนประกอบสำคัญในการฝึกอบรม AI ซึ่งอาจขัดขวางประสิทธิภาพเมื่อทำงานในอุปกรณ์หลายเครื่องพร้อมกัน MoGE ของ Huawei จัดการกับความท้าทายเหล่านี้อย่างมีกลยุทธ์
การแก้ไขปัญหาความไร้ประสิทธิภาพในโมเดล MoE แบบดั้งเดิม
ระบบ MoGE ได้รับการออกแบบอย่างประณีตเพื่อเพิ่มประสิทธิภาพการกระจายปริมาณงาน แนวคิดหลักคือการ “จัดกลุ่ม” ผู้เชี่ยวชาญเข้าด้วยกันในระหว่างกระบวนการคัดเลือก ซึ่งนำไปสู่การกระจายปริมาณงานที่สมดุลมากขึ้น ด้วยการกระจายภาระการคำนวณอย่างเท่าเทียมกันมากขึ้น นักวิจัยรายงานว่ามีประสิทธิภาพที่เพิ่มขึ้นอย่างเห็นได้ชัดในสภาพแวดล้อมการประมวลผลแบบคู่ขนาน ซึ่งเป็นส่วนสำคัญของการฝึกอบรม AI สมัยใหม่
แนวคิดของ "ผู้เชี่ยวชาญ" ในการฝึกอบรม AI หมายถึงแบบจำลองย่อยเฉพาะหรือส่วนประกอบภายในแบบจำลองที่ใหญ่กว่าและครอบคลุมมากขึ้น ผู้เชี่ยวชาญแต่ละคนได้รับการออกแบบอย่างพิถีพิถันเพื่อจัดการกับงานหรือประเภทข้อมูลที่เฉพาะเจาะจงมาก แนวทางนี้ใช้ประโยชน์จากความเชี่ยวชาญเฉพาะทางที่หลากหลาย ซึ่งช่วยให้ระบบ AI โดยรวมสามารถปรับปรุงประสิทธิภาพโดยรวมได้อย่างมีนัยสำคัญ
ผลกระทบต่อความก้าวหน้าของ AI ของจีน
ความก้าวหน้านี้เกิดขึ้นในเวลาที่เหมาะสมเป็นพิเศษ บริษัท AI ของจีนแม้จะต้องเผชิญกับข้อ จำกัด ของสหรัฐฯ ในการนำเข้าชิป AI ขั้นสูงเช่น Nvidia กำลังดำเนินวิธีการเพื่อเพิ่มประสิทธิภาพการฝึกอบรมแบบจำลองและการอนุมานอย่างจริงจัง วิธีการเหล่านี้ไม่เพียง แต่รวมถึงการปรับปรุงอัลกอริทึม แต่ยังรวมถึงการบูรณาการฮาร์ดแวร์และซอฟต์แวร์อย่างลงตัว
นักวิจัยของ Huawei ได้ทดสอบสถาปัตยกรรม MoGE อย่างเข้มงวดบนหน่วยประมวลผลประสาท Ascend (NPU) ซึ่งได้รับการออกแบบมาโดยเฉพาะเพื่อเร่งงาน AI ผลการวิจัยระบุว่า MoGE ประสบความสำเร็จในการปรับสมดุลโหลดของผู้เชี่ยวชาญที่เหนือกว่าและการดำเนินการที่มีประสิทธิภาพมากขึ้นสำหรับทั้งการฝึกอบรมแบบจำลองและขั้นตอนการอนุมาน นี่คือการตรวจสอบความถูกต้องที่สำคัญของประโยชน์ของการเพิ่มประสิทธิภาพสแต็กฮาร์ดแวร์และซอฟต์แวร์พร้อมกัน
การเปรียบเทียบ Pangu กับโมเดล AI ชั้นนำ
แบบจำลอง Pangu ของ Huawei ซึ่งเสริมด้วยสถาปัตยกรรม MoGE และ Ascend NPU ถูกเปรียบเทียบกับแบบจำลอง AI ชั้นนำ เหล่านี้รวมถึง DeepSeek-V3 Qwen2.5-72B ของ Alibaba Group Holding และ Llama-405B ของ Meta Platforms ผลการเปรียบเทียบแสดงให้เห็นว่า Pangu ประสบความสำเร็จในด้านประสิทธิภาพที่ล้ำสมัยในเกณฑ์มาตรฐานภาษาอังกฤษทั่วไป และมีความโดดเด่นในเกณฑ์มาตรฐานภาษาจีนทั้งหมด Pangu ยังแสดงให้เห็นถึงประสิทธิภาพที่สูงขึ้นในการประมวลผลการฝึกอบรมในบริบทที่ยาวนาน ซึ่งเป็นพื้นที่ที่มีความสำคัญอย่างยิ่งสำหรับงานประมวลผลภาษาธรรมชาติที่ซับซ้อน
ยิ่งไปกว่านั้น แบบจำลอง Pangu ได้แสดงให้เห็นถึงความสามารถที่ยอดเยี่ยมในงานความเข้าใจภาษาทั่วไป โดยมีจุดแข็งเป็นพิเศษในงานให้เหตุผล ความสามารถในการเข้าใจความแตกต่างและดึงความหมายจากภาษาที่ซับซ้อนนี้แสดงให้เห็นถึงความก้าวหน้าที่ Huawei ได้บรรลุใน AI
ความสำคัญเชิงกลยุทธ์ของ Huawei
ความคืบหน้าของ Huawei ในสถาปัตยกรรมแบบจำลอง AI มีความสำคัญเชิงกลยุทธ์ เมื่อพิจารณาถึงมาตรการคว่ำบาตรที่กำลังดำเนินอยู่ บริษัท Shenzhen กำลังพยายามลดการพึ่งพาเทคโนโลยีของสหรัฐฯ อย่างมีกลยุทธ์ ชิป Ascend ที่พัฒนาโดย Huawei ถือเป็นทางเลือกในประเทศที่ใช้งานได้สำหรับโปรเซสเซอร์จาก Nvidia และเป็นองค์ประกอบสำคัญของความเป็นอิสระนี้
Pangu Ultra ซึ่งเป็นแบบจำลองภาษาขนาดใหญ่ที่มีพารามิเตอร์ 135 พันล้านรายการที่ปรับให้เหมาะสมสำหรับ NPU เน้นย้ำถึงประสิทธิภาพของการปรับปรุงสถาปัตยกรรมและระบบของ Huawei ในขณะที่แสดงให้เห็นถึงความสามารถของ NPU การแสดงให้เห็นถึงประสิทธิภาพของการบูรณาการฮาร์ดแวร์และซอฟต์แวร์เป็นส่วนสำคัญในการแสดงความสามารถด้าน AI ของ Huawei
กระบวนการฝึกอบรมโดยละเอียด
ตามที่ Huawei ระบุ กระบวนการฝึกอบรมแบ่งออกเป็นสามขั้นตอนหลัก: การฝึกอบรมล่วงหน้า การขยายบริบทที่ยาวนาน และการฝึกอบรมภายหลัง การฝึกอบรมล่วงหน้าเกี่ยวข้องกับการฝึกอบรมแบบจำลองในขั้นต้นในชุดข้อมูลขนาดใหญ่ 13.2 ล้านล้านโทเค็น จากนั้นการขยายบริบทที่ยาวนานจะขยายความสามารถของแบบจำลองในการจัดการข้อความที่ยาวและซับซ้อนมากขึ้น และสร้างขึ้นจากการจดจำข้อมูลเริ่มต้น ขั้นตอนนี้ใช้การประมวลผลแบบกระจายขนาดใหญ่ในชิป Ascend 8,192
Huawei เปิดเผยว่าแบบจำลองและระบบจะพร้อมใช้งานสำหรับลูกค้าเชิงพาณิชย์ในเร็วๆ นี้ ซึ่งจะเปิดโอกาสใหม่ๆ สำหรับการบูรณาการและการพัฒนากับพันธมิตร
เจาะลึก Mixture of Experts (MoE) และข้อจำกัด
เพื่อให้เข้าใจถึงความสำคัญของ MoGE ของ Huawei อย่างเต็มที่ จำเป็นอย่างยิ่งที่จะต้องเข้าใจพื้นฐานที่สร้างขึ้น: สถาปัตยกรรม Mixture of Experts (MoE) MoE แสดงถึงการเปลี่ยนแปลงกระบวนทัศน์ในวิธีการออกแบบและฝึกอบรมแบบจำลอง AI ขนาดใหญ่ ซึ่งนำเสนอเส้นทางในการปรับขนาดขนาดและความซับซ้อนของแบบจำลองโดยไม่มีการเพิ่มขึ้นตามสัดส่วนของต้นทุนการคำนวณ
ในโครงข่ายประสาทเทียมแบบดั้งเดิม ทุกอินพุตจะถูกประมวลผลโดยทุกนิวรอนในทุกเลเยอร์ แม้ว่าแนวทางนี้จะให้ความแม่นยำสูง แต่ก็มีค่าใช้จ่ายในการคำนวณสูงสำหรับแบบจำลองขนาดใหญ่มาก ในทางตรงกันข้าม MoE แนะนำแนวคิดของ "ผู้เชี่ยวชาญ" ซึ่งเป็นโครงข่ายประสาทเทียมขนาดเล็กและเฉพาะทางที่มุ่งเน้นไปที่ชุดย่อยเฉพาะของข้อมูลอินพุต
โครงข่าย "gate" จะกำหนดเส้นทางแต่ละอินพุตไปยังผู้เชี่ยวชาญที่เกี่ยวข้องมากที่สุดแบบไดนามิก การเปิดใช้งานแบบเลือกสรรนี้ช่วยให้สามารถคำนวณแบบกระจัดกระจายได้ ซึ่งหมายความว่ามีการใช้เพียงเศษเสี้ยวของพารามิเตอร์ของแบบจำลองสำหรับอินพุตที่กำหนด ความกระจัดกระจายนี้ช่วยลดต้นทุนการคำนวณของการอนุมาน (การใช้แบบจำลองสำหรับการคาดการณ์) และการฝึกอบรมได้อย่างมาก นอกจากนี้ เนื่องจากผู้เชี่ยวชาญที่แตกต่างกันสามารถดำเนินการกับส่วนต่างๆ ของข้อมูลอินพุตได้ จึงช่วยให้มีความเชี่ยวชาญมากขึ้นในแบบจำลอง
แม้ว่า MoE จะมีข้อดี แต่ก็ต้องแก้ไขข้อจำกัดหลายประการเพื่อปลดล็อกศักยภาพทั้งหมด การเปิดใช้งานผู้เชี่ยวชาญที่ไม่สม่ำเสมอเป็นข้อกังวลหลัก ในการใช้งาน MoE หลายครั้ง ผู้เชี่ยวชาญบางคนได้รับการใช้งานอย่างหนัก ในขณะที่ผู้เชี่ยวชาญอื่นๆ ยังคงไม่ได้ใช้งานค่อนข้างมาก ความไม่สมดุลนี้เกิดจากลักษณะโดยธรรมชาติของข้อมูลและการออกแบบโครงข่าย gate
ความไม่สมดุลนี้อาจนำไปสู่ความไร้ประสิทธิภาพในสภาพแวดล้อมการประมวลผลแบบคู่ขนาน เนื่องจากปริมาณงานไม่ได้กระจายอย่างสม่ำเสมอในหมู่ผู้เชี่ยวชาญ หน่วยประมวลผลบางหน่วยจึงถูกใช้ประโยชน์น้อยเกินไป ในขณะที่หน่วยอื่นๆ ถูกใช้งานมากเกินไป ความแตกต่างนี้ขัดขวางความสามารถในการปรับขนาดของ MoE และลดประสิทธิภาพโดยรวม นอกจากนี้ ความไม่สมดุลนี้มักเกิดจากความลำเอียงในข้อมูลการฝึกอบรม ซึ่งนำไปสู่การเป็นตัวแทนและการฝึกอบรมน้อยเกินไปของผู้เชี่ยวชาญที่ไม่ค่อยใช้งาน ซึ่งส่งผลให้แบบจำลองไม่เหมาะสมในระยะยาว
ปัญหาทั่วไปอีกประการหนึ่งเมื่อจัดการกับ MoE คือความซับซ้อนที่เพิ่มขึ้นเมื่อออกแบบโครงข่าย gate โครงข่าย gate ต้องการเทคนิคที่ซับซ้อนเพื่อให้แน่ใจว่ามีการเลือกผู้เชี่ยวชาญอย่างเหมาะสม มิฉะนั้น MoE อาจทำงานไม่เป็นไปตามที่คาดไว้และทำให้เกิดค่าใช้จ่ายที่ไม่จำเป็น
Grouped Experts (MoGE): การแก้ไขปัญหาของ MoE
สถาปัตยกรรม Mixture of Grouped Experts (MoGE) ของ Huawei นำเสนอทางเลือกที่ได้รับการปรับปรุงให้ดีขึ้นสำหรับ MoE แบบดั้งเดิม โดยมุ่งเน้นที่การปรับสมดุลโหลดและการดำเนินการแบบคู่ขนานที่มีประสิทธิภาพ วิธีการนี้เกี่ยวข้องกับการจัดกลุ่มผู้เชี่ยวชาญอย่างมีกลยุทธ์ ซึ่งจะเปลี่ยนกระบวนการกำหนดเส้นทางของข้อมูลอินพุต ซึ่งนำไปสู่การกระจายปริมาณงานที่สม่ำเสมอมากขึ้น
ด้วยการจัดกลุ่มผู้เชี่ยวชาญในระหว่างการคัดเลือก MoGE ช่วยให้มั่นใจได้ว่าผู้เชี่ยวชาญแต่ละกลุ่มจะได้รับปริมาณงานที่สมดุลมากขึ้น แทนที่จะกำหนดเส้นทางแต่ละอินพุตอย่างอิสระ โครงข่าย gate จะนำกลุ่มอินพุตไปยังกลุ่มผู้เชี่ยวชาญ แนวทางนี้ส่งเสริมการกระจายภาระการคำนวณที่เท่าเทียมกันมากขึ้น
กลไกการจัดกลุ่มยังช่วยลดผลกระทบของความลำเอียงของข้อมูล ด้วยการตรวจสอบให้แน่ใจว่าผู้เชี่ยวชาญทุกคนในกลุ่มได้รับการฝึกอบรมเกี่ยวกับชุดอินพุตที่หลากหลาย MoGE จะลดความเสี่ยงของการเป็นตัวแทนและการฝึกอบรมน้อยเกินไป นอกจากนี้ การจัดกลุ่มผู้เชี่ยวชาญยังช่วยให้ใช้ทรัพยากรได้ดีขึ้น เนื่องจากแต่ละกลุ่มจัดการปริมาณงานที่สอดคล้องกันมากขึ้น จึงทำให้การจัดสรรทรัพยากรการคำนวณอย่างมีประสิทธิภาพง่ายขึ้น ซึ่งนำไปสู่ประสิทธิภาพโดยรวมที่ดีขึ้น
ผลลัพธ์สุดท้ายคือการปรับสมดุลโหลดของผู้เชี่ยวชาญที่ดีขึ้นและการดำเนินการที่มีประสิทธิภาพมากขึ้นสำหรับทั้งการฝึกอบรมแบบจำลองและการอนุมาน ซึ่งแปลว่าเวลาในการฝึกอบรมที่เร็วขึ้น ต้นทุนการคำนวณที่ต่ำลง และประสิทธิภาพโดยรวมที่ดีขึ้น
Ascend NPU: การเร่งความเร็วด้วยฮาร์ดแวร์สำหรับ AI
Ascend NPU (Neural Processing Unit) มีบทบาทสำคัญในกลยุทธ์ AI ของ Huawei โปรเซสเซอร์เหล่านี้ได้รับการออกแบบมาโดยเฉพาะเพื่อเร่งงาน AI รวมถึงการฝึกอบรมแบบจำลองและการอนุมาน โดยมีคุณสมบัติที่หลากหลายที่ปรับให้เหมาะสมสำหรับปริมาณงานการเรียนรู้เชิงลึก เช่น แบนด์วิดท์หน่วยความจำสูง หน่วยประมวลผลพิเศษสำหรับการคูณเมทริกซ์ และอินเทอร์เฟซการสื่อสารที่มีความหน่วงต่ำ นอกจากนี้ Ascend NPU ของ Huawei ยังรองรับประเภทข้อมูลและความแม่นยำที่หลากหลาย ทำให้สามารถควบคุมประสิทธิภาพและความแม่นยำได้อย่างละเอียด
การรวมกันของ MoGE และ Ascend NPU อย่างลงตัวคือสร้างแพลตฟอร์มที่ทรงพลังสำหรับนวัตกรรม AI MoGE เพิ่มประสิทธิภาพด้านซอฟต์แวร์โดยการปรับปรุงความสมดุลโหลดและการดำเนินการแบบคู่ขนาน ในขณะที่ Ascend NPU ให้การเร่งความเร็วด้วยฮาร์ดแวร์ที่จำเป็นต่อการรับรู้ถึงประโยชน์เหล่านี้ แนวทางที่บูรณาการนี้ช่วยให้ Huawei ผลักดันขอบเขตของประสิทธิภาพและประสิทธิภาพของ AI
Ascend NPU มีลักษณะเฉพาะคือความหนาแน่นในการคำนวณสูงและประสิทธิภาพการใช้พลังงาน คุณสมบัติเหล่านี้มีความสำคัญอย่างยิ่งสำหรับการปรับใช้แบบจำลอง AI ในการตั้งค่าที่หลากหลาย ตั้งแต่เซิร์ฟเวอร์คลาวด์ที่มีประสิทธิภาพไปจนถึงอุปกรณ์ปลายทางที่มีงบประมาณด้านพลังงานจำกัด
เกณฑ์มาตรฐานและเมตริกประสิทธิภาพ
ผลลัพธ์เกณฑ์มาตรฐานของ Huawei แสดงให้เห็นถึงประสิทธิภาพของสถาปัตยกรรม MoGE และ Ascend NPU ด้วยการเปรียบเทียบ Pangu กับแบบจำลอง AI ชั้นนำ เช่น DeepSeek-V3, Qwen2.5-72B และ Llama-405B Huawei แสดงให้เห็นว่าเทคโนโลยีของตนบรรลุประสิทธิภาพที่ล้ำสมัยในงานที่หลากหลาย
ความสำเร็จของ Pangu ในเกณฑ์มาตรฐานภาษาอังกฤษและภาษาจีนทั่วไปเน้นถึงความสามารถรอบด้านและการปรับตัวให้เข้ากับสถานการณ์ ความเชี่ยวชาญของแบบจำลองในการฝึกอบรมในบริบทที่ยาวนานนั้นเป็นสิ่งที่น่าสังเกตเป็นพิเศษ เนื่องจากสะท้อนถึงความสามารถในการจัดการข้อมูลในโลกแห่งความเป็นจริง นอกจากนี้ ประสิทธิภาพที่แข็งแกร่งของ Pangu ในงานให้เหตุผลยังเน้นย้ำถึงความสามารถในการทำความเข้าใจและประมวลผลความสัมพันธ์ที่ซับซ้อน
เกณฑ์มาตรฐานเหล่านี้ไม่ได้เป็นเพียงแบบฝึกหัดทางวิชาการเท่านั้น แต่ยังให้หลักฐานที่เป็นรูปธรรมถึงความก้าวหน้าทางเทคโนโลยีที่ Huawei ทำ พวกเขาเสริมความแข็งแกร่งให้กับข้อกล่าวอ้างของบริษัทว่าอยู่ในระดับแนวหน้าของนวัตกรรม AI และเสริมสร้างความแข็งแกร่งให้กับตำแหน่งในตลาดโลก
ผลกระทบต่ออนาคตของ Huawei
ความก้าวหน้าของ Huawei ในการฝึกอบรมแบบจำลอง AI มีผลกระทบที่สำคัญในวิสัยทัศน์เชิงกลยุทธ์ของบริษัทในการสร้างอำนาจอธิปไตยทางเทคโนโลยีในด้านปัญญาประดิษฐ์ ในขณะที่บริษัทลดการพึ่งพาเทคโนโลยีของสหรัฐฯ ท่ามกลางความขัดแย้งทางการค้าที่กำลังดำเนินอยู่ การพัฒนาชิป Ascend ทำหน้าที่เป็นทางเลือกสำหรับโปรเซสเซอร์จาก Nvidia และ AMD Pangu Ultra ซึ่งเป็น LLM ที่มีพารามิเตอร์ 135 พันล้านรายการสำหรับ NPU เน้นย้ำถึงประสิทธิภาพของการปรับปรุงสถาปัตยกรรมและระบบของ Huawei โดยการแสดงให้เห็นถึงความสามารถของชิปที่ทันสมัย
ความพยายามเหล่านี้คาดว่าจะส่งผลต่อความสามารถในการแข่งขันโดยรวมของ Huawei ในระยะยาว เนื่องจากพยายามตอบสนองตลาด AI ที่ใหญ่ขึ้น โดยเฉพาะอย่างยิ่งในประเทศจีน ด้วยการมุ่งเน้นการลงทุนอย่างต่อเนื่องในการวิจัยและพัฒนา Huawei หวังที่จะขับเคลื่อนตัวเองในฐานะผู้นำในพื้นที่ AI เอาชนะข้อจำกัดของตลาดในปัจจุบัน
การวิจัยในอนาคต
การปรับปรุงอย่างต่อเนื่องของ Huawei ในสถาปัตยกรรมแบบจำลอง AI ผ่านการเพิ่มประสิทธิภาพระดับระบบและอัลกอริทึม ควบคู่ไปกับการพัฒนาฮาร์ดแวร์ เช่น ชิป Ascend ถือเป็นความสำคัญในการเป็นผู้นำเส้นโค้งทางเทคโนโลยีในด้านปัญญาประดิษฐ์ แม้ว่าเกณฑ์มาตรฐานเช่น Pangu จะพิสูจน์ว่าเป็นแบบจำลองที่ล้ำสมัย แต่ก็ยังมีโอกาสในการปรับปรุงอีกมากมาย การปรับแต่งสถาปัตยกรรม MoGE เพิ่มเติมอาจทำให้สามารถผลักดันไปสู่การคำนวณที่ใหญ่ขึ้นและซับซ้อนมากขึ้น การทำงานเพิ่มเติมในการปรับแต่งสถาปัตยกรรมของ Ascend NPU อาจเร่งกระบวนการเรียนรู้เชิงลึกและลดต้นทุนเพิ่มเติม การตรวจสอบในอนาคตจะเห็นความพยายามอย่างต่อเนื่องในการสร้างแบบจำลอง AI ที่ดีขึ้นและปรับปรุงแบบจำลองที่มีอยู่