NVIDIA เปิดตัว: Llama Nemotron Ultra & Parakeet

NVIDIA กำลังก้าวขึ้นเป็นผู้นำในด้าน AI โอเพนซอร์ส ด้วยการเปิดตัวโมเดลขั้นสูง เช่น Llama Nemotron Ultra และ Parakeet TDT แสดงให้เห็นถึงความมุ่งมั่นเชิงกลยุทธ์ในการทำให้เทคโนโลยี AI เป็นประชาธิปไตย ส่งเสริมการสร้างสรรค์นวัตกรรมในชุมชน และเร่งการวิจัย พัฒนา และใช้งานโซลูชัน AI ในอุตสาหกรรมต่างๆ

กลยุทธ์โอเพนซอร์สของ NVIDIA

NVIDIA กำลังก้าวขึ้นเป็นผู้นำในด้าน AI โอเพนซอร์ส การเปิดตัวโมเดลขั้นสูง เช่น Llama Nemotron Ultra และ Parakeet TDT แสดงให้เห็นถึงความมุ่งมั่นเชิงกลยุทธ์ในการทำให้เทคโนโลยี AI เป็นประชาธิปไตย และส่งเสริมการสร้างสรรค์นวัตกรรมในชุมชน ด้วยการทำให้เครื่องมือล้ำสมัยเหล่านี้พร้อมใช้งาน NVIDIA มุ่งหวังที่จะเร่งการวิจัย พัฒนา และใช้งานโซลูชัน AI ในอุตสาหกรรมต่างๆ

Llama Nemotron Ultra: นิยามใหม่ของประสิทธิภาพและสมรรถนะ

Llama Nemotron Ultra ซึ่งเป็นโมเดลที่มีพารามิเตอร์ 253 พันล้านรายการ เป็นเครื่องพิสูจน์ถึงความสามารถทางวิศวกรรมของ NVIDIA สิ่งที่ทำให้แตกต่างคือความสามารถในการส่งมอบประสิทธิภาพเทียบเท่ากับโมเดลที่มีขนาดใหญ่กว่าสองเท่า เช่น Llama 405B และ DeepSeek R1 ความสำเร็จที่โดดเด่นนี้ช่วยให้สามารถใช้งานบนโหนด H100 8x เดียว ทำให้เข้าถึงได้สำหรับผู้ใช้ในวงกว้างขึ้น

The Secret Sauce: FFN Fusion

ประสิทธิภาพที่น่าประทับใจของ Llama Nemotron Ultra ส่วนใหญ่มาจากการใช้เทคนิคที่เป็นนวัตกรรมใหม่ที่เรียกว่า FFN (Feed-Forward Network) fusion กลยุทธ์การเพิ่มประสิทธิภาพนี้ ซึ่งค้นพบผ่านการค้นหาสถาปัตยกรรมประสาท Puzzle ของ NVIDIA ช่วยเพิ่มความคล่องตัวให้กับสถาปัตยกรรมของโมเดลโดยการลดเลเยอร์การใส่ใจที่ซ้ำซ้อน

ด้วยการจัดตำแหน่ง FFN layer ในลำดับ เทคนิคนี้ช่วยให้สามารถคำนวณแบบขนานบน GPU ได้มากขึ้น การผสานหรือรวมเลเยอร์ที่เหลืออยู่จะเพิ่มประสิทธิภาพสูงสุด ซึ่งเป็นประโยชน์อย่างยิ่งสำหรับโมเดลขนาดใหญ่ที่ใช้ Meta’s Llama 3.1 - 405B ประโยชน์ของการรวม FFN มีสองเท่า: ช่วยปรับปรุงปริมาณงานอย่างมีนัยสำคัญ โดยให้ความเร็วเพิ่มขึ้น 3 ถึง 5 เท่า และลดขนาดหน่วยความจำของโมเดล ขนาดที่ลดลงช่วยให้สามารถใช้ KV cache ที่ใหญ่ขึ้น ทำให้โมเดลสามารถจัดการกับความยาวบริบทที่ใหญ่ขึ้นได้

Reasoning on Demand: คุณสมบัติที่เปลี่ยนแปลงเกม

หนึ่งในคุณสมบัติที่เป็นเอกลักษณ์และมีค่าที่สุดของ Llama Nemotron Ultra คือความสามารถ "reasoning on/off" สิ่งนี้ช่วยให้สามารถควบคุมกระบวนการให้เหตุผลของโมเดลได้อย่างที่ไม่เคยมีมาก่อน โดยมอบข้อได้เปรียบที่สำคัญสำหรับการปรับใช้ในการผลิตและการเพิ่มประสิทธิภาพด้านต้นทุน

ความสามารถในการสลับการให้เหตุผลเปิดและปิดผ่าน System Prompt ช่วยให้องค์กรมีความยืดหยุ่นในการปรับสมดุลความถูกต้องกับเวลาแฝงและต้นทุน การให้เหตุผล แม้ว่าจะมีความสำคัญอย่างยิ่งต่อการแก้ปัญหาที่ซับซ้อน แต่ก็สร้างโทเค็นมากขึ้น ซึ่งนำไปสู่เวลาแฝงและต้นทุนที่สูงขึ้น การให้การควบคุมโดยชัดเจน NVIDIA ช่วยให้ผู้ใช้สามารถตัดสินใจอย่างชาญฉลาดเกี่ยวกับเวลาที่จะใช้การให้เหตุผล จึงเพิ่มประสิทธิภาพและทรัพยากร

ในการใช้คุณสมบัตินี้ NVIDIA ได้สอนโมเดลอย่างชัดเจนว่าจะให้เหตุผลเมื่อใดและเมื่อใดที่ไม่ควรให้เหตุผลในระหว่างขั้นตอน supervised fine-tuning ซึ่งเกี่ยวข้องกับการนำเสนอคำถามเดียวกันกับสองคำตอบที่แตกต่างกัน: หนึ่งคำตอบที่มีรายละเอียดและอีกคำตอบที่ไม่มี โดยพื้นฐานแล้วจะเพิ่มชุดข้อมูลเป็นสองเท่าเพื่อวัตถุประสงค์เฉพาะนี้ ผลลัพธ์คือโมเดลเดียวที่ผู้ใช้สามารถควบคุมกระบวนการให้เหตุผลได้โดยเพียงแค่ใส่ "use detailed thinking on" หรือ "use detailed thinking off" ใน Prompt

ปฏิวัติการรู้จำเสียงพูดด้วย Parakeet TDT

Parakeet TDT ซึ่งเป็นโมเดล ASR ที่ล้ำสมัยของ NVIDIA ได้กำหนดเกณฑ์มาตรฐานใหม่สำหรับความเร็วและความแม่นยำในการรู้จำเสียงพูด สามารถถอดเสียงเสียงหนึ่งชั่วโมงได้ในเวลาเพียงหนึ่งวินาทีด้วยอัตราข้อผิดพลาดของคำที่น่าทึ่งเพียง 6% ซึ่งเร็วกว่าทางเลือกโอเพนซอร์สอื่นๆ ถึง 50 เท่า

Architectural Innovations: The “How” of Parakeet’s Performance

ประสิทธิภาพที่น่าประทับใจของ Parakeet TDT เป็นผลมาจากการผสมผสานระหว่างตัวเลือกทางสถาปัตยกรรมและการเพิ่มประสิทธิภาพเฉพาะ มันอิงตามสถาปัตยกรรม Fast Conformer ปรับปรุงด้วยเทคนิคต่างๆ เช่น depth-wise separable convolutional downsampling และ limited context attention

การ downsampling แบบ depth-wise separable convolution ในขั้นตอนอินพุตช่วยลดต้นทุนการคำนวณและความต้องการหน่วยความจำสำหรับการประมวลผลได้อย่างมาก Limited context attention โดยเน้นที่ส่วนย่อยๆ ที่ทับซ้อนกันของเสียง ช่วยรักษาความถูกต้องในขณะที่เพิ่มความเร็วในการประมวลผล ในด้านตัวเข้ารหัส เทคนิค sliding window attention ช่วยให้โมเดลสามารถประมวลผลไฟล์เสียงที่ยาวขึ้นได้โดยไม่ต้องแบ่งออกเป็นส่วนๆ ที่สั้นลง ซึ่งมีความสำคัญอย่างยิ่งต่อการจัดการเสียงรูปแบบยาว

Token Duration Transducer (TDT): หัวใจสำคัญของความเร็ว

นอกเหนือจากสถาปัตยกรรม Conformer แล้ว Parakeet TDT ยังรวมเอา Token and Duration Transducer (TDT) เทคโนโลยี Recurrent Neural Network (RNN) transducer แบบดั้งเดิมจะประมวลผลเฟรมเสียงทีละเฟรม TDT ช่วยให้โมเดลสามารถทำนายทั้งโทเค็นและระยะเวลาที่คาดหวังของโทเค็นเหล่านั้น ทำให้สามารถข้ามเฟรมที่ซ้ำซ้อนและเพิ่มความเร็วในการถอดเสียงได้อย่างมาก

นวัตกรรม TDT นี้เพียงอย่างเดียวมีส่วนช่วยในการเพิ่มความเร็วประมาณ 1.5 ถึง 2 เท่า นอกจากนี้ อัลกอริธึม label looping ยังช่วยให้การเลื่อนโทเค็นเป็นอิสระสำหรับตัวอย่างต่างๆ ในระหว่างการอนุมานแบบ batch ซึ่งช่วยเร่งกระบวนการถอดรหัส การย้ายการคำนวณบางส่วนในด้านตัวถอดรหัสไปยังกราฟ CUDA จะช่วยเพิ่มความเร็วอีก 3 เท่า นวัตกรรมเหล่านี้นำพา Parakeet TDT ให้บรรลุความเร็วที่เทียบได้กับตัวถอดรหัส Connectionist Temporal Classification (CTC) ซึ่งขึ้นชื่อในด้านความเร็ว ในขณะที่ยังคงรักษาความแม่นยำสูง

ทำให้ AI เป็นประชาธิปไตยด้วยข้อมูลเปิด

ความมุ่งมั่นของ NVIDIA ต่อชุมชนโอเพนซอร์สขยายไปไกลกว่าการเปิดตัวโมเดล โดยรวมถึงการแบ่งปันชุดข้อมูลขนาดใหญ่คุณภาพสูงสำหรับทั้งภาษาและเสียง แนวทางของบริษัทในการดูแลจัดการข้อมูลเน้นความโปร่งใสและการเปิดกว้าง โดยมีเป้าหมายในการแบ่งปันข้อมูล เทคนิค และเครื่องมือให้มากที่สุดเท่าที่จะเป็นไปได้ เพื่อให้ชุมชนสามารถเข้าใจและใช้งานได้

Data Curation for Llama Nemotron Ultra

เป้าหมายหลักของการดูแลจัดการข้อมูลสำหรับ Llama Nemotron Ultra คือการปรับปรุงความถูกต้องในหลายโดเมนหลัก รวมถึงงานให้เหตุผล เช่น คณิตศาสตร์และการเขียนโค้ด ตลอดจนงานที่ไม่ต้องใช้เหตุผล เช่น tool calling, instruction following และ chat

กลยุทธ์นี้เกี่ยวข้องกับการดูแลจัดการชุดข้อมูลเฉพาะเพื่อปรับปรุงประสิทธิภาพในด้านเหล่านี้ ภายในกระบวนการ supervised fine-tuning NVIDIA ได้แยกความแตกต่างระหว่างสถานการณ์ "reasoning on" และ "reasoning off" โมเดลคุณภาพสูงจากชุมชนได้รับการใช้ประโยชน์ในฐานะ "ผู้เชี่ยวชาญ" ในโดเมนเฉพาะ ตัวอย่างเช่น DeepSeek R-1 ถูกใช้อย่างกว้างขวางสำหรับงานคณิตศาสตร์และการเขียนโค้ดที่ต้องใช้เหตุผลอย่างเข้มข้น ในขณะที่โมเดลอย่าง Llama และ Qwen ถูกนำมาใช้สำหรับงานที่ไม่ต้องใช้เหตุผล เช่น คณิตศาสตร์พื้นฐาน การเขียนโค้ด การแชท และ tool calling ชุดข้อมูลที่ดูแลจัดการนี้ ซึ่งประกอบด้วยคู่คำถาม-คำตอบประมาณ 30 ล้านคู่ ได้ถูกเผยแพร่สู่สาธารณะบน Hugging Face

Ensuring Data Quality: แนวทางหลายชั้น

เนื่องจากข้อมูลส่วนใหญ่ถูกสร้างขึ้นโดยใช้โมเดลอื่นๆ, NVIDIA จึงใช้กระบวนการประกันคุณภาพหลายชั้นที่เข้มงวด ซึ่งรวมถึง:

  • สร้างการตอบกลับที่เป็นไปได้หลายรายการสำหรับ Prompt เดียวกันโดยใช้โมเดลผู้เชี่ยวชาญแต่ละรายการ
  • ใช้ชุดโมเดล "critic" แยกต่างหากเพื่อประเมินผู้สมัครเหล่านี้ตามความถูกต้อง ความสอดคล้อง และการปฏิบัติตาม Prompt
  • ใช้กลไกการให้คะแนน โดยที่คู่คำถาม-คำตอบที่สร้างขึ้นแต่ละคู่จะได้รับคะแนนคุณภาพตามการประเมินของโมเดล critic โดยมีการตั้งค่าเกณฑ์สูงสำหรับการยอมรับ
  • บูรณาการการตรวจสอบโดยมนุษย์ในขั้นตอนต่างๆ โดยที่นักวิทยาศาสตร์ข้อมูลและวิศวกรจะตรวจสอบตัวอย่างข้อมูลที่สร้างขึ้นด้วยตนเอง เพื่อระบุข้อผิดพลาดที่เป็นระบบ อคติ หรือตัวอย่างของการหลอน
  • มุ่งเน้นไปที่ความหลากหลายของข้อมูลที่สร้างขึ้นเพื่อให้แน่ใจว่ามีตัวอย่างที่หลากหลายภายในแต่ละโดเมน
  • ดำเนินการประเมินอย่างครอบคลุมกับชุดข้อมูลมาตรฐานและในกรณีการใช้งานจริงหลังจากฝึกอบรม Llama Nemotron Ultra บนข้อมูลที่ดูแลจัดการนี้

Open-Sourcing a Speech Dataset for Parakeet TDT

NVIDIA วางแผนที่จะเปิดชุดข้อมูลเสียงจำนวนมากประมาณ 100,000 ชั่วโมง ซึ่งได้รับการดูแลจัดการอย่างพิถีพิถันเพื่อให้สะท้อนถึงความหลากหลายในโลกแห่งความเป็นจริง ชุดข้อมูลนี้จะรวมถึงความผันแปรในระดับเสียง อัตราส่วนสัญญาณต่อสัญญาณรบกวน ประเภทเสียงรบกวนรอบข้าง และแม้แต่รูปแบบเสียงทางโทรศัพท์ที่เกี่ยวข้องกับ call center เป้าหมายคือเพื่อให้ชุมชนได้รับข้อมูลคุณภาพสูงและหลากหลายที่ช่วยให้โมเดลทำงานได้ดีในสถานการณ์จริงที่หลากหลาย

Future Directions: โมเดลขนาดเล็ก การรองรับหลายภาษา และการสตรีมแบบเรียลไทม์

วิสัยทัศน์ของ NVIDIA สำหรับอนาคตรวมถึงความก้าวหน้าที่มากยิ่งขึ้นในการรองรับหลายภาษา, โมเดลที่ปรับให้เหมาะสมกับ edge ที่เล็กลง และการปรับปรุงการสตรีมแบบเรียลไทม์สำหรับการรู้จำเสียงพูด

ความสามารถด้านภาษา

การสนับสนุนหลายภาษาเป็นสิ่งสำคัญสำหรับองค์กรขนาดใหญ่ NVIDIA มุ่งเน้นไปที่ภาษาหลักสองสามภาษาและรับประกันความถูกต้องระดับโลกสำหรับเหตุผล การเรียกเครื่องมือ และการแชทภายในภาษาเหล่านั้น นี่อาจเป็นพื้นที่หลักถัดไปของการขยายตัว

Edge-Optimized Models

NVIDIA กำลังพิจารณาโมเดลที่มีพารามิเตอร์ลดลงเหลือประมาณ 50 ล้านรายการเพื่อจัดการกับกรณีการใช้งานที่ edge ซึ่งจำเป็นต้องมี footprint ที่เล็กลง เช่น การเปิดใช้งานการประมวลผลเสียงแบบเรียลไทม์สำหรับหุ่นยนต์ในสภาพแวดล้อมที่มีเสียงดัง

Real-Time Streaming for Parakeet TDT

ในทางเทคโนโลยี NVIDIA วางแผนที่จะทำงานในด้านความสามารถในการสตรีมสำหรับ TDT เพื่อเปิดใช้งานการถอดเสียงสดแบบเรียลไทม์

Production-Ready AI: การออกแบบสำหรับการใช้งานจริง

ทั้ง Llama Nemotron Ultra และ Parakeet TDT ได้รับการออกแบบโดยคำนึงถึงความท้าทายในการใช้งานจริง โดยมุ่งเน้นที่ความถูกต้อง ประสิทธิภาพ และความคุ้มค่า

เหตุผลเปิด/ปิดเพื่อความสามารถในการปรับขนาดและประสิทธิภาพด้านต้นทุน

เหตุผลที่มากเกินไปอาจนำไปสู่ปัญหาด้านความสามารถในการปรับขนาดและเพิ่มเวลาแฝงในสภาพแวดล้อมการผลิต คุณสมบัติการเปิด/ปิดเหตุผลที่เปิดตัวใน Llama Nemotron Ultra ให้ความยืดหยุ่นในการควบคุมเหตุผลต่อการสืบค้นแต่ละครั้ง ทำให้สามารถใช้งานการผลิตได้มากมาย

การปรับสมดุลความถูกต้องและประสิทธิภาพ

การปรับสมดุลความถูกต้องและประสิทธิภาพเป็นความท้าทายอย่างต่อเนื่อง แนวทางของ NVIDIA เกี่ยวข้องกับการพิจารณาจำนวน epoch อย่างรอบคอบสำหรับแต่ละทักษะในระหว่างการฝึกอบรม และการวัดความถูกต้องอย่างต่อเนื่อง เป้าหมายคือการปรับปรุงประสิทธิภาพในทุกด้านหลัก

บทบาทของโมเดล NVIDIA ในระบบนิเวศโอเพนซอร์ส

NVIDIA มองว่าบทบาทของ Llama Nemotron Ultra และ Parakeet TDT ภายในระบบนิเวศโอเพนซอร์สและ LLM ที่กว้างขึ้นเป็นการสร้างบนรากฐานที่มีอยู่และการมุ่งเน้นอย่างแคบๆ ในด้านเฉพาะเพื่อเพิ่มมูลค่าที่สำคัญ บริษัทตั้งเป้าที่จะระบุพื้นที่เฉพาะที่สามารถมีส่วนร่วมต่อไปได้ ในขณะที่คนอื่นๆ ยังคงสร้างโมเดลเอนกประสงค์ที่ยอดเยี่ยมที่เหมาะสำหรับการผลิตระดับองค์กร

ประเด็นสำคัญ: โอเพนซอร์ส, รวดเร็ว, High-Throughput, คุ้มค่า

ประเด็นสำคัญจากงานของ NVIDIA เกี่ยวกับ Llama Nemotron Ultra และ Parakeet TDT คือความมุ่งมั่นในการโอเพนซอร์สทุกสิ่ง การบรรลุความถูกต้องที่ล้ำสมัย การปรับ footprint ให้เหมาะสมเพื่อการใช้ GPU อย่างมีประสิทธิภาพในแง่ของเวลาแฝงและ throughput และการส่งเสริมชุมชน

โมเดลและชุดข้อมูลทั้งหมดมีอยู่ใน Hugging Face สแต็กซอฟต์แวร์เพื่อรันโมเดลเหล่านี้มาจาก NVIDIA และมีอยู่ใน NGC ซึ่งเป็นที่เก็บเนื้อหา ซอฟต์แวร์พื้นฐานส่วนใหญ่นั้นเป็นโอเพนซอร์สและสามารถพบได้บน GitHub กรอบงาน Nemo เป็นศูนย์กลางสำหรับสแต็กซอฟต์แวร์นี้