در یک گفتگوی روشنگرانه، جویی کانوی از انویدیا (NVIDIA) نگاهی عمیق به آخرین پیشرفتهای این شرکت در مدلهای زبان بزرگ متنباز (LLM) و تشخیص گفتار خودکار (ASR) ارائه میدهد. این بحث متمرکز بر Llama Nemotron Ultra و Parakeet، دو پروژه پیشگامانه است که تعهد انویدیا را به پیشبرد مرزهای فناوری هوش مصنوعی نشان میدهد.
استراتژی متنباز انویدیا
انویدیا به سرعت در حال ظهور به عنوان یک نیروی مهم در عرصه هوش مصنوعی متنباز است. انتشار مدلهای پیشرفتهای مانند Llama Nemotron Ultra و Parakeet TDT نشاندهنده یک حرکت استراتژیک برای دموکراتیکسازی فناوری هوش مصنوعی و تقویت نوآوری در جامعه است. انویدیا با در دسترس قرار دادن این ابزارهای پیشرفته، قصد دارد تا تحقیقات، توسعه و استقرار راهکارهای هوش مصنوعی را در صنایع مختلف تسریع بخشد.
Llama Nemotron Ultra: تعریف مجدد کارایی و عملکرد
Llama Nemotron Ultra، یک مدل 253 میلیارد پارامتری، گواهی بر مهارت مهندسی انویدیا است. چیزی که آن را متمایز میکند، توانایی آن در ارائه عملکردی قابل مقایسه با مدلهایی با دو برابر اندازه، مانند Llama 405B و DeepSeek R1 است. این دستاورد قابل توجه به آن امکان میدهد تا بر روی یک نود 8x H100 مستقر شود و دسترسی را برای طیف گستردهتری از کاربران فراهم کند.
سس مخفی: همجوشی FFN
کارایی چشمگیر Llama Nemotron Ultra تا حد زیادی به یک تکنیک نوآورانه به نام همجوشی FFN (شبکه تغذیه رو به جلو) نسبت داده میشود. این استراتژی بهینهسازی، که از طریق جستجوی معماری عصبی Puzzle انویدیا کشف شده است، معماری مدل را با کاهش لایههای توجه زائد، ساده میکند.
با همسو کردن لایههای FFN در یک توالی، این تکنیک محاسبات موازی بیشتری را بر روی GPUها امکانپذیر میکند. ادغام یا همجوشی لایههای باقیمانده، کارایی را به حداکثر میرساند، که به ویژه برای مدلهای بزرگتر بر اساس Llama 3.1 - 405B متا (Meta) مفید است. مزایای همجوشی FFN دوگانه است: به طور قابل توجهی توان عملیاتی را بهبود میبخشد، و سرعتهای 3 تا 5 برابر را به دست میآورد و ردپای حافظه مدل را کاهش میدهد. اندازه کاهشیافته امکان استفاده از حافظه نهان KV بزرگتری را فراهم میکند و مدل را قادر میسازد تا طولهای زمینه بزرگتری را مدیریت کند.
استدلال بر اساس تقاضا: یک ویژگی تغییر دهنده بازی
یکی از منحصر به فردترین و ارزشمندترین ویژگیهای Llama Nemotron Ultra، قابلیت “روشن/خاموش کردن استدلال” آن است. این امکان، کنترل بیسابقهای بر فرآیند استدلال مدل فراهم میکند و مزایای قابل توجهی برای استقرارهای تولیدی و بهینهسازی هزینه ارائه میدهد.
توانایی تغییر وضعیت استدلال روشن و خاموش از طریق اعلان سیستم (system prompt) به شرکتها این انعطافپذیری را میدهد تا دقت را با تأخیر و هزینه متعادل کنند. استدلال، در حالی که برای حل مسائل پیچیده بسیار مهم است، توکنهای بیشتری تولید میکند و منجر به تأخیر و هزینه بالاتر میشود. انویدیا با فراهم کردن کنترل صریح، کاربران را قادر میسازد تا تصمیمات آگاهانهای در مورد زمان استفاده از استدلال بگیرند، بنابراین عملکرد و استفاده از منابع را بهینه میکنند.
برای پیادهسازی این ویژگی، انویدیا به صراحت به مدل آموزش داد که چه زمانی استدلال کند و چه زمانی نه، در طول مرحله تنظیم دقیق نظارتشده (supervised fine-tuning). این شامل ارائه یک سوال مشابه با دو پاسخ متفاوت بود: یکی با استدلال مفصل و دیگری بدون آن، اساساً مجموعه دادهها را برای این منظور خاص دو برابر کرد. نتیجه یک مدل واحد است که در آن کاربران میتوانند فرآیند استدلال را به سادگی با گنجاندن “از تفکر دقیق استفاده کن روشن” یا “از تفکر دقیق استفاده کن خاموش” در اعلان، کنترل کنند.
متحول کردن تشخیص گفتار با Parakeet TDT
Parakeet TDT، مدل ASR پیشرفته انویدیا، معیارهای سرعت و دقت در تشخیص گفتار را دوباره تعریف کرده است. این مدل میتواند یک ساعت صدا را تنها در یک ثانیه با نرخ خطای کلمه قابل توجه 6٪ رونویسی کند - 50 برابر سریعتر از سایر جایگزینهای متنباز.
نوآوریهای معماری: “چگونگی” عملکرد Parakeet
عملکرد چشمگیر Parakeet TDT نتیجه ترکیبی از انتخابهای معماری و بهینهسازیهای خاص است. این مدل بر اساس معماری Fast Conformer ساخته شده است، با تکنیکهایی مانند نمونهبرداری (downsampling) پیچشی عمقگرا (depth-wise separable convolutional downsampling) و توجه زمینه محدود (limited context attention) تقویت شده است.
نمونهبرداری (downsampling) پیچشی عمقگرا (depth-wise separable convolutional downsampling) در مرحله ورودی، به طور قابل توجهی هزینه محاسباتی و الزامات حافظه را برای پردازش کاهش میدهد. توجه زمینه محدود (limited context attention)، با تمرکز بر قطعات کوچکتر و همپوشانی صدا، دقت را حفظ میکند در حالی که سرعت پردازش را افزایش میدهد. در سمت رمزگذار (encoder)، یک تکنیک توجه پنجره کشویی (sliding window attention) به مدل اجازه میدهد تا فایلهای صوتی طولانیتری را بدون تقسیم کردن آنها به قطعات کوتاهتر پردازش کند، که برای مدیریت صدای بلندمدت بسیار مهم است.
مبدل مدت توکن (TDT): رمز سرعت
فراتر از معماری Conformer، Parakeet TDT یک مبدل توکن و مدت (Token and Duration Transducer) (TDT) را شامل میشود. فناوری مبدل شبکه عصبی بازگشتی (Recurrent Neural Network) (RNN) سنتی صدا را فریم به فریم پردازش میکند. TDT مدل را قادر میسازد تا هم توکنها و هم مدت مورد انتظار آن توکنها را پیشبینی کند و به آن امکان میدهد از فریمهای زائد صرفنظر کند و فرآیند رونویسی را به طور قابل توجهی سرعت بخشد.
این نوآوری TDT به تنهایی به سرعت 1.5 تا 2 برابری کمک میکند. علاوه بر این، یک الگوریتم حلقهزنی برچسب (label looping algorithm) امکان پیشرفت مستقل توکنها را برای نمونههای مختلف در طول استنتاج دستهای (batch inference) فراهم میکند و روند رمزگشایی را بیشتر سرعت میبخشد. انتقال بخشی از محاسبات در سمت رمزگشا (decoder) به نمودارهای CUDA (CUDA graphs)، یک تقویت سرعت 3 برابری دیگر را فراهم میکند. این نوآوریها Parakeet TDT را قادر میسازد تا به سرعتهایی قابل مقایسه با رمزگذارهای Connectionist Temporal Classification (CTC) (دستهبندی موقت ارتباطگرا) دست یابد، که به سرعت خود معروف هستند، در حالی که دقت بالایی را حفظ میکنند.
دموکراتیزه کردن هوش مصنوعی با دادههای باز
تعهد انویدیا به جامعه متنباز فراتر از انتشار مدل و شامل اشتراکگذاری مجموعههای داده عظیم و با کیفیت بالا برای زبان و گفتار است. رویکرد این شرکت به انتخاب دادهها (Data Curation) بر شفافیت و باز بودن تأکید دارد، با این هدف که تا حد ممکن درباره دادهها، تکنیکها و ابزار خود به اشتراک بگذارد تا جامعه بتواند آنها را درک کرده و از آنها استفاده کند.
انتخاب دادهها (Data Curation) برای Llama Nemotron Ultra
هدف اصلی از انتخاب دادهها (Data Curation) برای Llama Nemotron Ultra بهبود دقت در چندین حوزه کلیدی بود، از جمله وظایف استدلالی مانند ریاضیات و کدنویسی، و همچنین وظایف غیر استدلالی مانند فراخوانی ابزار (Tool Calling)، پیروی از دستورالعمل (Instruction Following) و گفتگو (Chat).
این استراتژی شامل انتخاب مجموعههای داده خاص برای افزایش عملکرد در این زمینهها بود. در فرآیند تنظیم دقیق نظارتشده (supervised fine-tuning)، انویدیا بین سناریوهای “استدلال روشن” و “استدلال خاموش” تمایز قائل شد. مدلهای با کیفیت بالا از جامعه به عنوان “متخصص” در حوزههای خاص استفاده شدند. به عنوان مثال، DeepSeek R-1 به طور گسترده برای وظایف ریاضی و کدنویسی فشردهاستدلالی مورد استفاده قرار گرفت، در حالی که مدلهایی مانند Llama و Qwen برای وظایف غیر استدلالی مانند ریاضیات پایه، کدنویسی، گفتگو و فراخوانی ابزار (Tool Calling) استفاده شدند. این مجموعه داده انتخابشده که شامل حدود 30 میلیون جفت پرسش و پاسخ است، به طور عمومی در Hugging Face در دسترس قرار گرفته است.
اطمینان از کیفیت دادهها: یک رویکرد چند لایه
با توجه به اینکه بخش قابل توجهی از دادهها با استفاده از مدلهای دیگر تولید شدهاند، انویدیا یک فرآیند تضمین کیفیت چند لایه دقیق را پیادهسازی کرد. این شامل:
- تولید پاسخهای کاندید متعدد برای همان اعلان با استفاده از هر مدل متخصص.
- استفاده از مجموعه جداگانهای از مدلهای “منتقد” برای ارزیابی این کاندیدها بر اساس صحت، انسجام و پایبندی به اعلان.
- پیادهسازی یک مکانیسم امتیازدهی که در آن هر جفت پرسش و پاسخ تولیدشده بر اساس ارزیابی مدل منتقد، یک امتیاز کیفیت دریافت میکند، با تعیین آستانه بالایی برای پذیرش.
- ادغام بازبینی انسانی در مراحل مختلف، با دانشمندان داده و مهندسان که به صورت دستی نمونههای داده تولیدشده را بررسی میکنند تا هرگونه خطای سیستماتیک، تعصب یا نمونههایی از توهم را شناسایی کنند.
- تمرکز بر تنوع دادههای تولیدشده برای اطمینان از طیف گستردهای از مثالها در هر دامنه.
- انجام ارزیابیهای گسترده در برابر مجموعههای داده معیار و در موارد استفاده واقعی پس از آموزش Llama Nemotron Ultra بر روی این دادههای انتخابشده.
متنباز کردن مجموعه داده گفتار برای Parakeet TDT
انویدیا قصد دارد یک مجموعه داده گفتار قابل توجه، حدود 100000 ساعت، را به صورت متنباز منتشر کند،