กลยุทธ์คู่ขนาน Nvidia รับมือ Agent AI

กลยุทธ์ฮาร์ดแวร์: การขยายขนาดทั้งแนวตั้งและแนวนอน

หัวใจของกลยุทธ์ฮาร์ดแวร์ของ Nvidia คือการพัฒนา GPU ที่ทรงพลังยิ่งขึ้นอย่างไม่หยุดยั้ง บริษัทกำลังใช้แนวทางสองง่าม โดยเน้นที่การขยายขนาดในแนวตั้งก่อน แล้วจึงขยายขนาดในแนวนอน เป้าหมายไม่ใช่แค่การพัฒนาซูเปอร์คอมพิวเตอร์ AI ที่ทรงพลังเป็นพิเศษเพียงเครื่องเดียวในแร็ค แต่เป็นการสร้างระบบนิเวศทั้งหมดของแร็คที่เชื่อมต่อกัน ซึ่งก่อตัวเป็นคอมเพล็กซ์ซูเปอร์คอมพิวเตอร์ AI ขนาดใหญ่ แนวทาง ‘โรงงาน AI’ นี้ได้รับการออกแบบมาเพื่อให้มีขุมพลังในการประมวลผลที่จำเป็นสำหรับปริมาณงาน AI ที่มีความต้องการมากที่สุด

ซูเปอร์คอมพิวเตอร์ AI แบบติดตั้งบนแร็ค Blackwell Ultra ใหม่ ซึ่งเปิดตัวในการประชุม GTC เมื่อเร็วๆ นี้ เป็นตัวอย่างของกลยุทธ์นี้ Blackwell Ultra ได้รับการออกแบบมาเพื่อเร่งการฝึกอบรมและการปรับขนาด Inference ในช่วงทดสอบ โดยใช้สถาปัตยกรรม Blackwell ที่มีอยู่ แต่รวม GB300 NVL72 ที่ทรงพลังกว่า การกำหนดค่านี้มี GPU Blackwell Ultra 72 ตัวที่เชื่อมต่อกันผ่าน NVLink ซึ่งให้พลังการคำนวณที่แม่นยำ FP4 ถึง 1.1 Exaflops อย่างน่าทึ่ง GB300 NVL72 มีประสิทธิภาพ AI มากกว่า GB200 NVL72 ถึง 1.5 เท่า ระบบ DGS GB300 เดียวให้พลังการคำนวณ 15 Exaflops Blackwell Ultra มีกำหนดวางจำหน่ายในช่วงครึ่งหลังของปี 2025 และจะได้รับการสนับสนุนจากผู้จำหน่ายอุปกรณ์เซิร์ฟเวอร์หลากหลายราย รวมถึง Cisco, Dell, HPE, Lenovo, ASUS, Foxconn, Gigabyte, Pegatron และ Quanta นอกจากนี้ ผู้ให้บริการคลาวด์ เช่น AWS, GCP และ Azure จะให้บริการประมวลผลตาม Blackwell Ultra

นอกเหนือจากระบบโรงงาน AI ระดับโรงไฟฟ้าเหล่านี้แล้ว Nvidia ยังได้เปิดตัวคอมพิวเตอร์รุ่นใหม่ที่มุ่งเป้าไปที่ความต้องการด้าน Inference ภายในองค์กร ซึ่งรวมถึงคอมพิวเตอร์ AI ส่วนบุคคล DGX Spark และ DGX Station DGX Spark มีขนาดคล้ายกับ Mac mini ให้พลังการประมวลผลสูงสุด 1 PFlops

เพื่อให้เห็นภาพ Taiwania 3 ซูเปอร์คอมพิวเตอร์ที่เปิดตัวในปี 2021 ที่มีมากกว่า 50,000 คอร์ ให้ประสิทธิภาพเพียง 2.7 PFlops เท่านั้น ในเวลาเพียงสี่ปี พลังการประมวลผลของคอมพิวเตอร์ AI ส่วนบุคคลขนาดเดสก์ท็อปสามเครื่องได้แซงหน้า Taiwania 3 ไปแล้ว คอมพิวเตอร์ AI ส่วนบุคคลใหม่เหล่านี้มีราคาอยู่ที่ 3,999 ดอลลาร์สหรัฐ (ประมาณ 130,000 บาท) สำหรับการกำหนดค่าหน่วยความจำ 128GB ได้รับการออกแบบมาเพื่อขับเคลื่อนความต้องการ AI ภายในองค์กรในอนาคต ทำหน้าที่เป็นโรงงาน AI ขนาดเล็ก หรือแม้กระทั่งทำงานในสภาพแวดล้อม Edge AI

แผนงานในอนาคต: Vera Rubin และอื่นๆ

เมื่อมองไปข้างหน้า Jensen Huang CEO ของ Nvidia ได้สรุปแผนงานผลิตภัณฑ์สำหรับอีกสองปีข้างหน้า ในช่วงครึ่งหลังของปี 2026 บริษัทวางแผนที่จะเปิดตัว Vera Rubin NVL144 ซึ่งตั้งชื่อตามนักดาราศาสตร์ชาวอเมริกันที่ค้นพบสสารมืด Vera Rubin NVL144 จะให้ประสิทธิภาพมากกว่า GB300 NVL72 ถึง 3.3 เท่า โดยความจุหน่วยความจำ แบนด์วิดท์ และความเร็ว NVLink จะเพิ่มขึ้นมากกว่า 1.6 เท่า ในช่วงครึ่งหลังของปี 2027 Nvidia จะเปิดตัว Rubin Ultra NVL576 ซึ่งจะให้ประสิทธิภาพมากกว่า GB300 NVL72 ถึง 14 เท่า พร้อมด้วยความจุหน่วยความจำและความเร็วแบนด์วิดท์ที่ได้รับการปรับปรุงอย่างมีนัยสำคัญผ่าน NVLink7 และ CX9

หลังจากสถาปัตยกรรม Vera Rubin สถาปัตยกรรมรุ่นต่อไปของ Nvidia จะตั้งชื่อตาม Richard Feynman นักฟิสิกส์ชาวอเมริกันผู้โด่งดัง ซึ่งเป็นที่รู้จักจากผลงานของเขาในการสอบสวนภัยพิบัติกระสวยอวกาศ Challenger

กลยุทธ์ซอฟต์แวร์: Nvidia Dynamo

Nvidia ให้ความสำคัญกับซอฟต์แวร์มาโดยตลอด โดยมองว่ามีความสำคัญยิ่งกว่าฮาร์ดแวร์ การมุ่งเน้นเชิงกลยุทธ์นี้ขยายไปถึงความคิดริเริ่มโรงงาน AI ของบริษัทด้วย

นอกเหนือจากการขยายไลบรารีการเร่งความเร็ว AI CUDA-X ไปยังโดเมนต่างๆ และการพัฒนาไลบรารีการเร่งความเร็วเฉพาะทางแล้ว Nvidia ได้เปิดตัว Nvidia Dynamo ซึ่งเป็นระบบปฏิบัติการโรงงาน AI ใหม่ ที่สำคัญ Nvidia ได้เปิดซอร์สระบบปฏิบัติการนี้

Nvidia Dynamo เป็นเฟรมเวิร์กบริการ Inference แบบโอเพนซอร์สที่ออกแบบมาเพื่อสร้างแพลตฟอร์มที่ให้บริการ Inference LLM สามารถปรับใช้ในสภาพแวดล้อม K8s และใช้เพื่อปรับใช้และจัดการงาน Inference AI ขนาดใหญ่ Nvidia วางแผนที่จะรวม Dynamo เข้ากับเฟรมเวิร์กไมโครเซอร์วิส NIM ซึ่งทำให้เป็นส่วนประกอบของเฟรมเวิร์ก Nvidia AI Enterprise

Dynamo เป็นผลิตภัณฑ์รุ่นต่อไปของแพลตฟอร์มเซิร์ฟเวอร์ Inference แบบโอเพนซอร์สที่มีอยู่ของ Nvidia, Triton คุณสมบัติหลักคือการแบ่งงาน Inference LLM ออกเป็นสองขั้นตอน ทำให้สามารถใช้ GPU ได้อย่างยืดหยุ่นและมีประสิทธิภาพมากขึ้น เพื่อเพิ่มประสิทธิภาพการประมวลผล Inference ปรับปรุงประสิทธิภาพ และเพิ่มการใช้ GPU ให้สูงสุด Dynamo สามารถจัดสรร GPU แบบไดนามิกตามข้อกำหนด Inference และเร่งการถ่ายโอนข้อมูลแบบอะซิงโครนัสระหว่าง GPU ซึ่งช่วยลดเวลาตอบสนองของ Inference โมเดล

โมเดล GAI ที่ใช้ Transformer แบ่ง Inference ออกเป็นสองขั้นตอน: Prefill (pre-input) ซึ่งแปลงข้อมูลอินพุตเป็นโทเค็นสำหรับการจัดเก็บ และ Decode ซึ่งเป็นกระบวนการตามลำดับที่สร้างโทเค็นถัดไปตามโทเค็นก่อนหน้า

Inference LLM แบบดั้งเดิมกำหนดทั้งงาน Prefill และ Decode ให้กับ GPU เดียวกัน อย่างไรก็ตาม เนื่องจากลักษณะการคำนวณที่แตกต่างกันของงานเหล่านี้ Dynamo จึงแบ่งงานเหล่านั้น โดยกำหนดทรัพยากร GPU ตามนั้น และปรับการจัดสรรแบบไดนามิกตามลักษณะงาน สิ่งนี้จะปรับประสิทธิภาพคลัสเตอร์ GPU ให้เหมาะสม

การทดสอบของ Nvidia แสดงให้เห็นว่าการใช้ Dynamo กับโมเดล DeepSeek-R1 ที่มีพารามิเตอร์ 671 พันล้านตัวบน GB200 NVL72 สามารถปรับปรุงประสิทธิภาพ Inference ได้ 30 เท่า ประสิทธิภาพบน Llama 70B ที่ทำงานบน Hopper GPU ก็สามารถปรับปรุงได้มากกว่าสองเท่าเช่นกัน

การจัดการงาน Inference เป็นเรื่องซับซ้อนเนื่องจากลักษณะที่ซับซ้อนของการคำนวณ Inference และความหลากหลายของโมเดลการประมวลผลแบบขนาน Huang เน้นย้ำว่า Nvidia เปิดตัวเฟรมเวิร์ก Dynamo เพื่อจัดหาระบบปฏิบัติการสำหรับโรงงาน AI

ศูนย์ข้อมูลแบบดั้งเดิมอาศัยระบบปฏิบัติการเช่น VMware เพื่อจัดการแอปพลิเคชันต่างๆ บนทรัพยากร IT ขององค์กร AI Agent เป็นแอปพลิเคชันแห่งอนาคต และโรงงาน AI ต้องการ Dynamo ไม่ใช่ VMware

การตั้งชื่อระบบปฏิบัติการโรงงาน AI ใหม่ตาม Dynamo ซึ่งเป็นเครื่องยนต์ที่จุดประกายการปฏิวัติอุตสาหกรรมของ Huang เผยให้เห็นถึงความคาดหวังและความทะเยอทะยานของเขาสำหรับแพลตฟอร์มนี้