Llama Nemotron Ultra و Parakeet انویدیا

در یک گفتگوی روشنگرانه، جویی کانوی از انویدیا (NVIDIA) نگاهی عمیق به آخرین پیشرفت‌های این شرکت در مدل‌های زبان بزرگ متن‌باز (LLM) و تشخیص گفتار خودکار (ASR) ارائه می‌دهد. این بحث متمرکز بر Llama Nemotron Ultra و Parakeet، دو پروژه پیشگامانه است که تعهد انویدیا را به پیشبرد مرزهای فناوری هوش مصنوعی نشان می‌دهد.

استراتژی متن‌باز انویدیا

انویدیا به سرعت در حال ظهور به عنوان یک نیروی مهم در عرصه هوش مصنوعی متن‌باز است. انتشار مدل‌های پیشرفته‌ای مانند Llama Nemotron Ultra و Parakeet TDT نشان‌دهنده یک حرکت استراتژیک برای دموکراتیک‌سازی فناوری هوش مصنوعی و تقویت نوآوری در جامعه است. انویدیا با در دسترس قرار دادن این ابزارهای پیشرفته، قصد دارد تا تحقیقات، توسعه و استقرار راهکارهای هوش مصنوعی را در صنایع مختلف تسریع بخشد.

Llama Nemotron Ultra: تعریف مجدد کارایی و عملکرد

Llama Nemotron Ultra، یک مدل 253 میلیارد پارامتری، گواهی بر مهارت مهندسی انویدیا است. چیزی که آن را متمایز می‌کند، توانایی آن در ارائه عملکردی قابل مقایسه با مدل‌هایی با دو برابر اندازه، مانند Llama 405B و DeepSeek R1 است. این دستاورد قابل توجه به آن امکان می‌دهد تا بر روی یک نود 8x H100 مستقر شود و دسترسی را برای طیف گسترده‌تری از کاربران فراهم کند.

سس مخفی: همجوشی FFN

کارایی چشمگیر Llama Nemotron Ultra تا حد زیادی به یک تکنیک نوآورانه به نام همجوشی FFN (شبکه تغذیه رو به جلو) نسبت داده می‌شود. این استراتژی بهینه‌سازی، که از طریق جستجوی معماری عصبی Puzzle انویدیا کشف شده است، معماری مدل را با کاهش لایه‌های توجه زائد، ساده می‌کند.

با همسو کردن لایه‌های FFN در یک توالی، این تکنیک محاسبات موازی بیشتری را بر روی GPUها امکان‌پذیر می‌کند. ادغام یا همجوشی لایه‌های باقیمانده، کارایی را به حداکثر می‌رساند، که به ویژه برای مدل‌های بزرگتر بر اساس Llama 3.1 - 405B متا (Meta) مفید است. مزایای همجوشی FFN دوگانه است: به طور قابل توجهی توان عملیاتی را بهبود می‌بخشد، و سرعت‌های 3 تا 5 برابر را به دست می‌آورد و ردپای حافظه مدل را کاهش می‌دهد. اندازه کاهش‌یافته امکان استفاده از حافظه نهان KV بزرگتری را فراهم می‌کند و مدل را قادر می‌سازد تا طول‌های زمینه بزرگتری را مدیریت کند.

استدلال بر اساس تقاضا: یک ویژگی تغییر دهنده بازی

یکی از منحصر به فردترین و ارزشمندترین ویژگی‌های Llama Nemotron Ultra، قابلیت “روشن/خاموش کردن استدلال” آن است. این امکان، کنترل بی‌سابقه‌ای بر فرآیند استدلال مدل فراهم می‌کند و مزایای قابل توجهی برای استقرارهای تولیدی و بهینه‌سازی هزینه ارائه می‌دهد.

توانایی تغییر وضعیت استدلال روشن و خاموش از طریق اعلان سیستم (system prompt) به شرکت‌ها این انعطاف‌پذیری را می‌دهد تا دقت را با تأخیر و هزینه متعادل کنند. استدلال، در حالی که برای حل مسائل پیچیده بسیار مهم است، توکن‌های بیشتری تولید می‌کند و منجر به تأخیر و هزینه بالاتر می‌شود. انویدیا با فراهم کردن کنترل صریح، کاربران را قادر می‌سازد تا تصمیمات آگاهانه‌ای در مورد زمان استفاده از استدلال بگیرند، بنابراین عملکرد و استفاده از منابع را بهینه می‌کنند.

برای پیاده‌سازی این ویژگی، انویدیا به صراحت به مدل آموزش داد که چه زمانی استدلال کند و چه زمانی نه، در طول مرحله تنظیم دقیق نظارت‌شده (supervised fine-tuning). این شامل ارائه یک سوال مشابه با دو پاسخ متفاوت بود: یکی با استدلال مفصل و دیگری بدون آن، اساساً مجموعه داده‌ها را برای این منظور خاص دو برابر کرد. نتیجه یک مدل واحد است که در آن کاربران می‌توانند فرآیند استدلال را به سادگی با گنجاندن “از تفکر دقیق استفاده کن روشن” یا “از تفکر دقیق استفاده کن خاموش” در اعلان، کنترل کنند.

متحول کردن تشخیص گفتار با Parakeet TDT

Parakeet TDT، مدل ASR پیشرفته انویدیا، معیارهای سرعت و دقت در تشخیص گفتار را دوباره تعریف کرده است. این مدل می‌تواند یک ساعت صدا را تنها در یک ثانیه با نرخ خطای کلمه قابل توجه 6٪ رونویسی کند - 50 برابر سریع‌تر از سایر جایگزین‌های متن‌باز.

نوآوری‌های معماری: “چگونگی” عملکرد Parakeet

عملکرد چشمگیر Parakeet TDT نتیجه ترکیبی از انتخاب‌های معماری و بهینه‌سازی‌های خاص است. این مدل بر اساس معماری Fast Conformer ساخته شده است، با تکنیک‌هایی مانند نمونه‌برداری (downsampling) پیچشی عمق‌گرا (depth-wise separable convolutional downsampling) و توجه زمینه محدود (limited context attention) تقویت شده است.

نمونه‌برداری (downsampling) پیچشی عمق‌گرا (depth-wise separable convolutional downsampling) در مرحله ورودی، به طور قابل توجهی هزینه محاسباتی و الزامات حافظه را برای پردازش کاهش می‌دهد. توجه زمینه محدود (limited context attention)، با تمرکز بر قطعات کوچک‌تر و همپوشانی صدا، دقت را حفظ می‌کند در حالی که سرعت پردازش را افزایش می‌دهد. در سمت رمزگذار (encoder)، یک تکنیک توجه پنجره کشویی (sliding window attention) به مدل اجازه می‌دهد تا فایل‌های صوتی طولانی‌تری را بدون تقسیم کردن آنها به قطعات کوتاه‌تر پردازش کند، که برای مدیریت صدای بلندمدت بسیار مهم است.

مبدل مدت توکن (TDT): رمز سرعت

فراتر از معماری Conformer، Parakeet TDT یک مبدل توکن و مدت (Token and Duration Transducer) (TDT) را شامل می‌شود. فناوری مبدل شبکه عصبی بازگشتی (Recurrent Neural Network) (RNN) سنتی صدا را فریم به فریم پردازش می‌کند. TDT مدل را قادر می‌سازد تا هم توکن‌ها و هم مدت مورد انتظار آن توکن‌ها را پیش‌بینی کند و به آن امکان می‌دهد از فریم‌های زائد صرفنظر کند و فرآیند رونویسی را به طور قابل توجهی سرعت بخشد.

این نوآوری TDT به تنهایی به سرعت 1.5 تا 2 برابری کمک می‌کند. علاوه بر این، یک الگوریتم حلقه‌زنی برچسب (label looping algorithm) امکان پیشرفت مستقل توکن‌ها را برای نمونه‌های مختلف در طول استنتاج دسته‌ای (batch inference) فراهم می‌کند و روند رمزگشایی را بیشتر سرعت می‌بخشد. انتقال بخشی از محاسبات در سمت رمزگشا (decoder) به نمودارهای CUDA (CUDA graphs)، یک تقویت سرعت 3 برابری دیگر را فراهم می‌کند. این نوآوری‌ها Parakeet TDT را قادر می‌سازد تا به سرعت‌هایی قابل مقایسه با رمزگذارهای Connectionist Temporal Classification (CTC) (دسته‌بندی موقت ارتباط‌گرا) دست یابد، که به سرعت خود معروف هستند، در حالی که دقت بالایی را حفظ می‌کنند.

دموکراتیزه کردن هوش مصنوعی با داده‌های باز

تعهد انویدیا به جامعه متن‌باز فراتر از انتشار مدل و شامل اشتراک‌گذاری مجموعه‌های داده عظیم و با کیفیت بالا برای زبان و گفتار است. رویکرد این شرکت به انتخاب داده‌ها (Data Curation) بر شفافیت و باز بودن تأکید دارد، با این هدف که تا حد ممکن درباره داده‌ها، تکنیک‌ها و ابزار خود به اشتراک بگذارد تا جامعه بتواند آنها را درک کرده و از آنها استفاده کند.

انتخاب داده‌ها (Data Curation) برای Llama Nemotron Ultra

هدف اصلی از انتخاب داده‌ها (Data Curation) برای Llama Nemotron Ultra بهبود دقت در چندین حوزه کلیدی بود، از جمله وظایف استدلالی مانند ریاضیات و کدنویسی، و همچنین وظایف غیر استدلالی مانند فراخوانی ابزار (Tool Calling)، پیروی از دستورالعمل (Instruction Following) و گفتگو (Chat).

این استراتژی شامل انتخاب مجموعه‌های داده خاص برای افزایش عملکرد در این زمینه‌ها بود. در فرآیند تنظیم دقیق نظارت‌شده (supervised fine-tuning)، انویدیا بین سناریوهای “استدلال روشن” و “استدلال خاموش” تمایز قائل شد. مدل‌های با کیفیت بالا از جامعه به عنوان “متخصص” در حوزه‌های خاص استفاده شدند. به عنوان مثال، DeepSeek R-1 به طور گسترده برای وظایف ریاضی و کدنویسی فشرده‌استدلالی مورد استفاده قرار گرفت، در حالی که مدل‌هایی مانند Llama و Qwen برای وظایف غیر استدلالی مانند ریاضیات پایه، کدنویسی، گفتگو و فراخوانی ابزار (Tool Calling) استفاده شدند. این مجموعه داده انتخاب‌شده که شامل حدود 30 میلیون جفت پرسش و پاسخ است، به طور عمومی در Hugging Face در دسترس قرار گرفته است.

اطمینان از کیفیت داده‌ها: یک رویکرد چند لایه

با توجه به اینکه بخش قابل توجهی از داده‌ها با استفاده از مدل‌های دیگر تولید شده‌اند، انویدیا یک فرآیند تضمین کیفیت چند لایه دقیق را پیاده‌سازی کرد. این شامل:

  • تولید پاسخ‌های کاندید متعدد برای همان اعلان با استفاده از هر مدل متخصص.
  • استفاده از مجموعه جداگانه‌ای از مدل‌های “منتقد” برای ارزیابی این کاندیدها بر اساس صحت، انسجام و پایبندی به اعلان.
  • پیاده‌سازی یک مکانیسم امتیازدهی که در آن هر جفت پرسش و پاسخ تولیدشده بر اساس ارزیابی مدل منتقد، یک امتیاز کیفیت دریافت می‌کند، با تعیین آستانه بالایی برای پذیرش.
  • ادغام بازبینی انسانی در مراحل مختلف، با دانشمندان داده و مهندسان که به صورت دستی نمونه‌های داده تولیدشده را بررسی می‌کنند تا هرگونه خطای سیستماتیک، تعصب یا نمونه‌هایی از توهم را شناسایی کنند.
  • تمرکز بر تنوع داده‌های تولیدشده برای اطمینان از طیف گسترده‌ای از مثال‌ها در هر دامنه.
  • انجام ارزیابی‌های گسترده در برابر مجموعه‌های داده معیار و در موارد استفاده واقعی پس از آموزش Llama Nemotron Ultra بر روی این داده‌های انتخاب‌شده.

متن‌باز کردن مجموعه داده گفتار برای Parakeet TDT

انویدیا قصد دارد یک مجموعه داده گفتار قابل توجه، حدود 100000 ساعت، را به صورت متن‌باز منتشر کند،