NVIDIA бързо се превръща във важна сила в отворената AI арена. Пускането на усъвършенствани модели като Llama Nemotron Ultra и Parakeet TDT демонстрира стратегически ход за демократизиране на AI технологията и насърчаване на иновациите в рамките на общността. Чрез предоставянето на тези авангардни инструменти, NVIDIA цели да ускори изследванията, развитието и внедряването на AI решения в различни индустрии.
Отворената стратегия на NVIDIA
NVIDIA бързо се превръща във важна сила в сферата на отворения изкуствен интелект. Представянето на усъвършенствани модели като Llama Nemotron Ultra и Parakeet TDT демонстрира стратегически ход за демократизиране на технологията за изкуствен интелект и насърчаване на иновациите в рамките на общността. Като предоставя тези модерни инструменти, NVIDIA цели да ускори изследванията, разработките и внедряването на решения за изкуствен интелект в различни индустрии.
Llama Nemotron Ultra: Предефиниране на ефективността и производителността
Llama Nemotron Ultra, модел с 253 милиарда параметри, е доказателство за инженерното майсторство на NVIDIA. Това, което го отличава, е способността му да доставя производителност, сравнима с модели, два пъти по-големи от него, като Llama 405B и DeepSeek R1. Това забележително постижение позволява да бъде разгърнат на един-единствен 8x H100 възел, което го прави достъпен за по-широк кръг от потребители.
Тайната съставка: FFN Fusion
Впечатляващата ефективност на Llama Nemotron Ultra се дължи най-вече на иновативна техника, наречена FFN (Feed-Forward Network) fusion. Тази стратегия за оптимизация, открита чрез невронната архитектура Puzzle на NVIDIA, рационализира архитектурата на модела чрез намаляване на излишните слоеве на внимание.
Чрез подравняване на FFN слоевете в последователност, техниката позволява по-голямо паралелно изчисление на GPU. Сливането или обединяването на останалите слоеве увеличава максимално ефективността, особено полезна за по-големи модели, базирани на Llama 3.1 - 405B на Meta. Ползите от FFN fusion са двойни: значително подобрява пропускателната способност, постигайки ускорения в диапазона от 3 до 5 пъти, и намалява размера на паметта на модела. Намаленият размер позволява използването на по-голям KV cache, позволявайки на модела да се справи с по-големи контекстни дължини.
Обосновка при поискване: Функция, променяща играта
Една от най-уникалните и ценни характеристики на Llama Nemotron Ultra е възможността му за "включване/изключване на разсъжденията". Това позволява безпрецедентен контрол върху процеса на разсъждения на модела, предлагайки значителни предимства за внедряване в производството и оптимизация на разходите.
Възможността за включване и изключване на разсъжденията чрез системния промпт дава на предприятията гъвкавостта да балансират точността с латентността и цената. Разсъжденията, макар и от решаващо значение за решаването на сложни проблеми, генерират повече токени, което води до по-висока латентност и цена. Чрез осигуряване на изричен контрол, NVIDIA дава възможност на потребителите да вземат информирани решения кога да използват разсъждения, като по този начин оптимизират производителността и използването на ресурсите.
За да внедри тази функция, NVIDIA изрично научи модела кога да разсъждава и кога не по време на наблюдаваната фина настройка. Това включваше представяне на един и същ въпрос с два различни отговора: един с подробни разсъждения и един без, по същество удвоявайки набора от данни за тази конкретна цел. Резултатът е един-единствен модел, където потребителите могат да контролират процеса на разсъждения, като просто включат "използвайте подробно мислене включено" или "използвайте подробно мислене изключено" в подканата.
Революционизиране на разпознаването на реч с Parakeet TDT
Parakeet TDT, най-съвременният ASR модел на NVIDIA, предефинира еталоните за скорост и точност в разпознаването на реч. Той може да транскрибира един час аудио само за една секунда със забележителна 6% честота на грешки в думите - 50 пъти по-бързо от други алтернативи с отворен код.
Архитектурни иновации: „Как“ Parakeet постига производителност
Впечатляващата производителност на Parakeet TDT е резултат от комбинация от архитектурни избори и специфични оптимизации. Той се основава на Fast Conformer архитектура, подобрена с техники като depth-wise separable convolutional downsampling и limited context attention.
Depth-wise separable convolution downsampling на входния етап значително намалява изчислителните разходи и изискванията за памет за обработка. Limited context attention, като се фокусира върху по-малки, припокриващи се парчета аудио, поддържа точността, като същевременно постига ускорение в обработката. От страна на енкодера, техниката sliding window attention позволява на модела да обработва по-дълги аудио файлове, без да ги разделя на по-къси сегменти, което е от решаващо значение за обработка на дълги аудио форми.
Token Duration Transducer (TDT): Ключът към скоростта
Отвъд Conformer архитектурата, Parakeet TDT включва Token and Duration Transducer (TDT). Традиционната технология Recurrent Neural Network (RNN) transducer обработва аудио кадър по кадър. TDT позволява на модела да предвиди както токените, така и очакваната продължителност на тези токени, което му позволява да прескача излишни кадри и значително да ускори процеса на транскрипция.
Тази TDT иновация сама допринася за около 1,5 до 2 пъти ускорение. Освен това, алгоритъмът за примка на етикети позволява независимо напредване на токени за различни проби по време на batch inference, което допълнително ускорява процеса на декодиране. Преместването на част от изчисленията от страна на декодера в CUDA графики осигурява още 3 пъти увеличение на скоростта. Тези иновации позволяват на Parakeet TDT да постигне скорости, сравними с Connectionist Temporal Classification (CTC) декодерите, известни със своята скорост, като същевременно поддържа висока точност.
Демократизиране на AI с отворени данни
Ангажиментът на NVIDIA към общността с отворен код се простира отвъд пускането на модели, за да включи споделянето на масивни, висококачествени набори от данни както за език, така и за реч. Подходът на компанията към курирането на данни подчертава прозрачността и отвореността, с цел да сподели колкото е възможно повече за своите данни, техники и инструменти, така че общността да може да ги разбере и използва.
Куриране на данни за Llama Nemotron Ultra
Основната цел на курирането на данни за Llama Nemotron Ultra беше да се подобри точността в няколко ключови области, включително задачи за разсъждения като математика и кодиране, както и задачи, които не са свързани с разсъждения, като извикване на инструменти, следване на инструкции и чат.
Стратегията включваше куриране на специфични набори от данни за подобряване на производителността в тези области. В рамките на процеса на наблюдаваната фина настройка NVIDIA разграничава сценариите "разсъждения включени" и "разсъждения изключени". Висококачествени модели от общността бяха използвани като "експерти" в конкретни области. Например DeepSeek R-1 беше използван широко за интензивни на разсъждения математически и кодиращи задачи, докато модели като Llama и Qwen бяха използвани за задачи, които не са свързани с разсъждения, като основна математика, кодиране, чат и извикване на инструменти. Този куриран набор от данни, състоящ се от около 30 милиона двойки въпрос-отговор, е направен публично достъпен в Hugging Face.
Осигуряване на качество на данните: Многослоен подход
Като се има предвид, че значителна част от данните е генерирана с помощта на други модели, NVIDIA внедри строг многослоен процес на осигуряване на качеството. Това включваше:
- Генериране на множество отговори-кандидати за една и съща подкана с помощта на всеки експертен модел.
- Използване на отделен набор от "критични" модели за оценка на тези кандидати въз основа на коректност, кохерентност и придържане към подканата.
- Внедряване на механизъм за оценяване, където всяка генерирана двойка въпрос-отговор получава оценка за качество въз основа на оценката на критичния модел, с зададен висок праг за приемане.
- Интегриране на човешка проверка на различни етапи, с учени по данни и инженери, ръчно проверяващи проби от генерираните данни, за да идентифицират всички систематични грешки, пристрастия или случаи на халюцинации.
- Фокусиране върху разнообразието на генерираните данни, за да се осигури широк спектър от примери във всяка област.
- Провеждане на обширни оценки спрямо еталонни набори от данни и в случаи на употреба в реалния свят след обучение на Llama Nemotron Ultra върху тези курирани данни.
Споделяне на набор от речеви данни с отворен код за Parakeet TDT
NVIDIA планира да сподели с отворен код значителен набор от речеви данни, около 100 000 часа, щателно куриран, за да отразява разнообразието в реалния свят. Този набор от данни ще включва вариации в нивата на звука, съотношенията сигнал-шум, видовете фонов шум и дори телефонни аудио формати, подходящи за кол центрове. Целта е да се предостави на общността висококачествени, разнообразни данни, които позволяват на моделите да се представят добре в широк спектър от сценарии в реалния свят.
Бъдещи насоки: По-малки модели, многоезична поддръжка и поточно предаване в реално време
Визията на NVIDIA за бъдещето включва по-нататъшни подобрения в многоезичната поддръжка, още по-малки, оптимизирани за периферни устройства модели и подобрения в поточното предаване в реално време за разпознаване на реч.
Многоезични възможности
Поддръжката на множество езици е от решаващо значение за големите предприятия. NVIDIA цели да се съсредоточи върху няколко ключови езика и да осигури точност от световна класа за разсъждения, извикване на инструменти и чат в рамките на тях. Това е вероятно следващата основна област на разширяване.
Оптимизирани за периферни устройства модели
NVIDIA обмисля модели до около 50 милиона параметри, за да адресира случаи на употреба в периферните устройства, където е необходим по-малък отпечатък, като например даване на възможност за обработка на аудио в реално време за роботи в шумни среди.
Поточно предаване в реално време за Parakeet TDT
Технологично NVIDIA планира да работи върху възможности за поточно предаване за TDT, за да даде възможност за транскрипция на живо в реално време.
AI готов за производство: Проектиране за внедряване в реалния свят
И Llama Nemotron Ultra, и Parakeet TDT са проектирани с оглед на предизвикателствата при внедряване в реалния свят, като се фокусират върху точността, ефективността и разходната ефективност.
Разсъжденията включени/изключени за мащабируемост и разходна ефективност
Прекомерното разсъждение може да доведе до проблеми с мащабируемостта и увеличена латентност в производствени среди. Функцията за разсъждения включени/изключени, въведена в Llama Nemotron Ultra, осигурява гъвкавостта за контрол на разсъжденията на базата на всяка заявка, което позволява множество производствени случаи на употреба.
Балансиране на точност и ефективност
Балансирането на точност и ефективност е постоянно предизвикателство. Подходът на NVIDIA включва внимателно обмисляне на броя на епохите за всяко умение по време на обучение и непрекъснато измерване на точността. Целта е да се подобри производителността във всички ключови области.
Ролята на моделите на NVIDIA в екосистемата с отворен код
NVIDIA разглежда ролята на Llama Nemotron Ultra и Parakeet TDT в по-широката екосистема с отворен код и LLM като надграждане върху съществуващите основи и фокусиране тясно върху конкретни области, за да добави значителна стойност. Компанията цели да продължи да идентифицира конкретни области, където може да допринесе, докато други продължават да изграждат отлични модели с общо предназначение, подходящи за корпоративно производство.
Основни изводи: Отворен код, бърз, с висока производителност, разходно ефективен
Основните изводи от работата на NVIDIA върху Llama Nemotron Ultra и Parakeet TDT са ангажимент към споделяне на всичко с отворен код, постигане на най-съвременна точност, оптимизиране на отпечатъците за ефективно използване на GPU по отношение на латентността и производителността и овластяване на общността.
Всички модели и набори от данни са налични в Hugging Face. Софтуерният стек за тяхното стартиране идва от NVIDIA и е достъпен в NGC, неговото хранилище за съдържание. Голяма част от основния софтуер също е с отворен код и може да бъде намерен в GitHub. Рамката Nemo е централният център за голяма част от този софтуерен стек.