В откровенном разговоре Джои Конвей из NVIDIA подробно рассматривает последние достижения компании в области больших языковых моделей с открытым исходным кодом (LLM) и автоматического распознавания речи (ASR). В центре внимания находятся Llama Nemotron Ultra и Parakeet, два новаторских проекта, демонстрирующих стремление NVIDIA расширять границы технологии искусственного интеллекта.
Стратегия открытого исходного кода NVIDIA
NVIDIA быстро становится важной силой на арене искусственного интеллекта с открытым исходным кодом. Выпуск передовых моделей, таких как Llama Nemotron Ultra и Parakeet TDT, демонстрирует стратегический шаг к демократизации технологии искусственного интеллекта и стимулированию инноваций в сообществе. Предоставляя эти передовые инструменты, NVIDIA стремится ускорить исследования, разработки и развертывание решений искусственного интеллекта в различных отраслях.
Llama Nemotron Ultra: Переосмысление эффективности и производительности
Llama Nemotron Ultra, модель с 253 миллиардами параметров, является свидетельством инженерного мастерства NVIDIA. Что отличает ее, так это ее способность обеспечивать производительность, сопоставимую с моделями, вдвое превышающими ее размер, такими как Llama 405B и DeepSeek R1. Это замечательное достижение позволяет развернуть ее на одном узле 8x H100, что делает ее доступной для более широкого круга пользователей.
Секрет успеха: FFN Fusion
Впечатляющая эффективность Llama Nemotron Ultra во многом объясняется инновационным методом под названием FFN (Feed-Forward Network) fusion. Эта стратегия оптимизации, обнаруженная с помощью поиска нейронной архитектуры NVIDIA Puzzle, оптимизирует архитектуру модели за счет уменьшения избыточных слоев внимания.
Выравнивая слои FFN в последовательность, этот метод обеспечивает больше параллельных вычислений на графических процессорах. Объединение или слияние оставшихся слоев максимизирует эффективность, что особенно полезно для более крупных моделей, основанных на Meta’s Llama 3.1 - 405B. Преимущества FFN fusion двояки: он значительно улучшает пропускную способность, обеспечивая ускорение в диапазоне от 3 до 5 раз, и уменьшает объем памяти модели. Уменьшенный размер позволяет использовать больший кеш KV, что позволяет модели обрабатывать более длинные контексты.
Reasoning on Demand: Функция, меняющая правила игры
Одной из самых уникальных и ценных особенностей Llama Nemotron Ultra является ее возможность «reasoning on/off». Это обеспечивает беспрецедентный контроль над процессом рассуждений модели, предлагая значительные преимущества для производственных развертываний и оптимизации затрат.
Возможность включать и выключать рассуждения через системную подсказку дает предприятиям возможность сбалансировать точность с задержкой и стоимостью. Рассуждения, хотя и имеют решающее значение для решения сложных проблем, генерируют больше токенов, что приводит к увеличению задержки и стоимости. Предоставляя явный контроль, NVIDIA дает пользователям возможность принимать обоснованные решения о том, когда использовать рассуждения, тем самым оптимизируя производительность и использование ресурсов.
Для реализации этой функции NVIDIA явно научила модель, когда рассуждать, а когда нет, на этапе контролируемой тонкой настройки. Это включало в себя представление одного и того же вопроса с двумя разными ответами: один с подробными рассуждениями и один без него, что фактически удвоило набор данных для этой конкретной цели. Результатом является единая модель, в которой пользователи могут управлять процессом рассуждений, просто включив “use detailed thinking on” или “use detailed thinking off” в подсказку.
Революция в распознавании речи с помощью Parakeet TDT
Parakeet TDT, современная модель ASR от NVIDIA, переопределила эталоны скорости и точности в распознавании речи. Она может транскрибировать один час звука всего за одну секунду с замечательной частотой ошибок 6% - в 50 раз быстрее, чем другие альтернативы с открытым исходным кодом.
Архитектурные инновации: «Как» Parakeet достигает своей производительности
Впечатляющая производительность Parakeet TDT является результатом сочетания архитектурных решений и конкретных оптимизаций. Она основана на архитектуре Fast Conformer, расширенной за счет таких методов, как depth-wise separable convolutional downsampling и limited context attention.
Depth-wise separable convolution downsampling на этапе ввода значительно снижает вычислительные затраты и требования к памяти для обработки. Limited context attention, фокусируясь на меньших перекрывающихся частях звука, поддерживает точность, обеспечивая ускорение обработки. На стороне кодера метод внимания sliding window позволяет модели обрабатывать более длинные аудиофайлы, не разделяя их на более короткие сегменты, что имеет решающее значение для обработки длинных аудиофайлов.
Token Duration Transducer (TDT): Ключ к скорости
Помимо архитектуры Conformer, Parakeet TDT включает в себя Token and Duration Transducer (TDT). Традиционная технология Recurrent Neural Network (RNN) transducer обрабатывает аудио кадр за кадром. TDT позволяет модели прогнозировать как токены, так и ожидаемую продолжительность этих токенов, позволяя ей пропускать избыточные кадры и значительно ускорять процесс транскрипции.
Эта инновация TDT сама по себе способствует ускорению примерно в 1,5-2 раза. Кроме того, алгоритм label looping позволяет независимо продвигать токены для разных образцов во время пакетного вывода, что еще больше ускоряет процесс декодирования. Перенос части вычислений на стороне декодера в графы CUDA обеспечивает еще одно 3-кратное ускорение. Эти инновации позволяют Parakeet TDT достигать скоростей, сопоставимых с декодерами Connectionist Temporal Classification (CTC), известными своей скоростью, сохраняя при этом высокую точность.
Демократизация искусственного интеллекта с помощью открытых данных
Стремление NVIDIA к сообществу открытого исходного кода выходит за рамки выпусков моделей и включает в себя обмен огромными высококачественными наборами данных как для языка, так и для речи. Подход компании к курированию данных подчеркивает прозрачность и открытость, с целью поделиться как можно большим объемом информации о своих данных, методах и инструментах, чтобы сообщество могло понимать и использовать их.
Курирование данных для Llama Nemotron Ultra
Основной целью курирования данных для Llama Nemotron Ultra было повышение точности в нескольких ключевых областях, включая задачи рассуждений, такие как математика и кодирование, а также задачи, не связанные с рассуждениями, такие как вызов инструментов, следование инструкциям и чат.
Стратегия включала в себя курирование конкретных наборов данных для повышения производительности в этих областях. В рамках процесса контролируемой тонкой настройки NVIDIA различала сценарии «рассуждения включено» и «рассуждения выключено». Высококачественные модели из сообщества использовались в качестве «экспертов» в конкретных областях. Например, DeepSeek R-1 широко использовался для интенсивных задач рассуждений, связанных с математикой и кодированием, в то время как такие модели, как Llama и Qwen, использовались для задач, не связанных с рассуждениями, таких как основная математика, кодирование, чат и вызов инструментов. Этот курированный набор данных, состоящий из примерно 30 миллионов пар вопросов и ответов, был опубликован на Hugging Face.
Обеспечение качества данных: Многоуровневый подход
Учитывая, что значительная часть данных была сгенерирована с использованием других моделей, NVIDIA внедрила строгий многоуровневый процесс обеспечения качества. Это включало в себя:
- Генерацию нескольких ответов-кандидатов для одного и того же запроса с использованием каждой экспертной модели.
- Использование отдельного набора «критических» моделей для оценки этих кандидатов на основе правильности, связности и соответствия запросу.
- Внедрение механизма оценки, при котором каждой сгенерированной паре вопросов и ответов присваивалась оценка качества на основе оценки критической модели, при этом устанавливался высокий порог приемлемости.
- Интеграцию проверки человеком на различных этапах, при этом ученые и инженеры по данным вручную проверяли образцы сгенерированных данных для выявления каких-либо систематических ошибок, смещений или случаев галлюцинаций.
- Сосредоточение внимания на разнообразии сгенерированных данных для обеспечения широкого спектра примеров в каждой области.
- Проведение обширных оценок по эталонным наборам данных и в реальных сценариях использования после обучения Llama Nemotron Ultra на этих курированных данных.
Открытый исходный код набора речевых данных для Parakeet TDT
NVIDIA планирует открыть исходный код существенного набора речевых данных, около 100 000 часов, тщательно курированного для отражения разнообразия реального мира. Этот набор данных будет включать в себя изменения уровней звука, соотношения сигнал/шум, типов фонового шума и даже форматов телефонного звука, относящихся к колл-центрам. Цель состоит в том, чтобы предоставить сообществу высококачественные разнообразные данные, которые позволяют моделям хорошо работать в широком диапазоне реальных сценариев.
Будущие направления: Меньшие модели, многоязыковая поддержка и потоковая передача в реальном времени
Видение NVIDIA на будущее включает в себя дальнейшие достижения в области многоязыковой поддержки, еще меньшие модели, оптимизированные для пограничных вычислений, и улучшения потоковой передачи речи в реальном времени для распознавания речи.
Многоязыковые возможности
Поддержка нескольких языков имеет решающее значение для крупных предприятий. NVIDIA стремится сосредоточиться на нескольких ключевых языках и обеспечить первоклассную точность для рассуждений, вызова инструментов и чата в рамках этих языков. Это, вероятно, следующая основная область расширения.
Модели, оптимизированные для пограничных вычислений
NVIDIA рассматривает модели с параметрами около 50 миллионов, чтобы учесть варианты использования на границе сети, где требуется меньший объем, например, для обеспечения обработки звука в режиме реального времени для роботов в шумных средах.
Потоковая передача в реальном времени для Parakeet TDT
С технологической точки зрения NVIDIA планирует работать над возможностями потоковой передачи для TDT, чтобы обеспечить транскрипцию в реальном времени.
Искусственный интеллект, готовый к производству: Разработка для развертывания в реальном мире
И Llama Nemotron Ultra, и Parakeet TDT разработаны с учетом проблем развертывания в реальном мире, с упором на точность, эффективность и экономичность.
Reasoning On/Off для масштабируемости и экономичности
Чрезмерные рассуждения могут привести к проблемам масштабируемости и увеличению задержек в производственных средах. Функция reasoning on/off, представленная в Llama Nemotron Ultra, обеспечивает гибкость управления рассуждениями для каждого запроса, что позволяет использовать многочисленные производственные сценарии.
Баланс между точностью и эффективностью
Баланс между точностью и эффективностью - постоянная задача. Подход NVIDIA включает в себя тщательное рассмотрение количества эпох для каждого навыка во время обучения и постоянное измерение точности. Цель состоит в том, чтобы улучшить производительность во всех ключевых областях.
Роль моделей NVIDIA в экосистеме открытого исходного кода
NVIDIA рассматривает роль Llama Nemotron Ultra и Parakeet TDT в более широкой экосистеме открытого исходного кода и LLM как создание на существующих основах и узкую направленность на конкретные области для добавления значительной ценности. Компания стремится и впредь выявлять конкретные области, в которые она может внести свой вклад, в то время как другие продолжают создавать отличные модели общего назначения, подходящие для корпоративного производства.
Ключевые выводы: Открытый исходный код, быстрая скорость, высокая пропускная способность, экономичность
Ключевые выводы из работы NVIDIA над Llama Nemotron Ultra и Parakeet TDT - это приверженность открытому исходному коду всего, достижению современной точности, оптимизации footprints для эффективного использования графического процессора с точки зрения задержки и пропускной способности, а также расширению возможностей сообщества.
Все модели и наборы данных доступны на Hugging Face. Программный стек для их работы поставляется от NVIDIA и доступен в NGC, ее репозитории контента. Большая часть основного программного обеспечения также имеет открытый исходный код и находится на GitHub. Фреймворк Nemo является центральным узлом для большей части программного стека.