Двухвекторная стратегия Nvidia для удовлетворения потребностей Agent AI в Inference
Nvidia нацелена на будущую волну AI на основе агентов (agent-based AI), область, которая обещает предъявить беспрецедентные требования к возможностям inference. Чтобы справиться с этой задачей, Nvidia представила комплексную стратегию, охватывающую как аппаратные, так и программные инновации.
Аппаратная стратегия: масштабирование вверх и в стороны
В основе аппаратной стратегии Nvidia лежит неустанное стремление к все более мощным GPU. Компания применяет двухсторонний подход, сначала фокусируясь на вертикальном масштабировании, а затем на горизонтальном. Цель состоит не просто в разработке одного, ультра-мощного AI суперкомпьютера в стойке, а в создании целой экосистемы взаимосвязанных стоек, формирующих массивный комплекс AI суперкомпьютеров. Этот подход “AI factory” разработан для обеспечения вычислительной мощности, необходимой для самых требовательных рабочих нагрузок AI.
Новый AI суперкомпьютер Blackwell Ultra, монтируемый в стойку, представленный на недавней конференции GTC, является примером этой стратегии. Разработанный для ускорения как обучения, так и масштабирования inference во время тестирования, Blackwell Ultra использует существующую архитектуру Blackwell, но включает в себя более мощный GB300 NVL72. Эта конфигурация включает 72 GPU Blackwell Ultra, соединенных через NVLink, что обеспечивает ошеломляющие 1,1 эксафлопс вычислительной мощности с точностью FP4. GB300 NVL72 может похвастаться в 1,5 раза большей производительностью AI, чем GB200 NVL72. Одиночная система DGS GB300 предлагает 15 эксафлопс вычислений. Запланированный к выпуску во второй половине 2025 года, Blackwell Ultra будет поддерживаться широким спектром поставщиков серверного оборудования, включая Cisco, Dell, HPE, Lenovo, ASUS, Foxconn, Gigabyte, Pegatron и Quanta. Кроме того, поставщики облачных услуг, такие как AWS, GCP и Azure, будут предлагать вычислительные сервисы на основе Blackwell Ultra.
Помимо этих систем уровня электростанций AI factory, Nvidia также представила новую линейку компьютеров, предназначенных для нужд inference внутри предприятий. К ним относятся персональные AI компьютеры DGX Spark и DGX Station. DGX Spark, по размеру напоминающий Mac mini, обеспечивает до 1 PFlops вычислительной мощности.
Чтобы представить это в перспективе, суперкомпьютер Taiwania 3, запущенный в 2021 году с более чем 50 000 ядер, обеспечивает только 2,7 PFlops производительности. Всего за четыре года вычислительная мощность трех персональных AI компьютеров размером с настольный превзошла мощность Taiwania 3. Эти новые персональные AI компьютеры, стоимостью 3999 долларов США (примерно 130 000 тайваньских долларов) для конфигурации памяти 128 ГБ, предназначены для обеспечения будущих внутренних потребностей AI внутри предприятий, служа в качестве мини-AI factories или даже работая в средах edge AI.
Будущая дорожная карта: Вера Рубин и далее
Заглядывая вперед, генеральный директор Nvidia Дженсен Хуанг изложил дорожную карту продуктов на следующие два года. Во второй половине 2026 года компания планирует выпустить Vera Rubin NVL144, названную в честь американского астронома, открывшего темную материю. Vera Rubin NVL144 предложит в 3,3 раза большую производительность, чем GB300 NVL72, с увеличением емкости памяти, пропускной способности и скорости NVLink более чем в 1,6 раза. Во второй половине 2027 года Nvidia запустит Rubin Ultra NVL576, который обеспечит в 14 раз большую производительность, чем GB300 NVL72, со значительно улучшенной емкостью памяти и скоростью пропускной способности через NVLink7 и CX9.
После архитектуры Vera Rubin следующее поколение архитектуры Nvidia будет названо в честь известного американского физика Ричарда Фейнмана, известного своей работой по расследованию катастрофы космического корабля Challenger.
Программная стратегия: Nvidia Dynamo
Nvidia всегда уделяла большое внимание программному обеспечению, считая его даже более важным, чем оборудование. Этот стратегический фокус распространяется и на инициативы компании AI factory.
В дополнение к расширению библиотеки ускорения AI CUDA-X на различные домены и разработке специализированных библиотек ускорения, Nvidia представила Nvidia Dynamo, новую операционную систему AI factory. Важно отметить, что Nvidia открыла исходный код этой операционной системы.
Nvidia Dynamo - это фреймворк сервисов вывода с открытым исходным кодом, предназначенный для создания платформ, предоставляющих сервисы вывода LLM. Он может быть развернут в средах K8s и использоваться для развертывания и управления крупномасштабными задачами вывода AI. Nvidia планирует интегрировать Dynamo в свой фреймворк микросервисов NIM, сделав его компонентом фреймворка Nvidia AI Enterprise.
Dynamo - это продукт следующего поколения существующей платформы сервера вывода с открытым исходным кодом Nvidia, Triton. Его ключевой особенностью является разделение задач вывода LLM на два этапа, что позволяет более гибко и эффективно использовать GPU для оптимизации обработки вывода, повышения эффективности и максимального использования GPU. Dynamo может динамически распределять GPU на основе требований к выводу и ускорять асинхронную передачу данных между GPU, сокращая время отклика вывода модели.
Модели GAI на основе Transformer делят вывод на два этапа: Prefill (предварительный ввод), который преобразует входные данные в токены для хранения, и Decode, последовательный процесс, который генерирует следующий токен на основе предыдущего.
Традиционный вывод LLM назначает задачи Prefill и Decode одному и тому же GPU. Однако, из-за различных вычислительных характеристик этих задач, Dynamo разделяет их, назначая ресурсы GPU соответствующим образом и динамически корректируя распределение на основе характеристик задачи. Это оптимизирует производительность кластера GPU.
Тестирование Nvidia показывает, что использование Dynamo с моделью DeepSeek-R1 с 671 миллиардом параметров на GB200 NVL72 может улучшить производительность вывода в 30 раз. Производительность на Llama 70B, работающем на GPU Hopper, также может быть улучшена более чем вдвое.
Управление задачами вывода является сложной задачей из-за сложной природы вычислений вывода и разнообразия моделей параллельной обработки. Хуанг подчеркнул, что Nvidia запустила фреймворк Dynamo, чтобы предоставить операционную систему для AI factories.
Традиционные центры обработки данных полагаются на операционные системы, такие как VMware, для оркестровки различных приложений на ресурсах IT предприятия. AI agents - это приложения будущего, а AI factories требуют Dynamo, а не VMware.
Название Хуангом новой операционной системы AI factory в честь Dynamo, двигателя, который зажег промышленную революцию, раскрывает его ожидания и амбиции в отношении платформы.