Любопытная поправка: Nvidia переосмысливает подсчет своих GPU
На арене полупроводниковых инноваций с высокими ставками конференция Nvidia GPU Technology Conference (GTC) служит главной сценой для представления будущего. Во время последнего мероприятия, среди ожидаемого ажиотажа вокруг достижений в области искусственного интеллекта и ускоренных вычислений, компания представила тонкое, но потенциально глубокое изменение – модификацию того, как она фундаментально определяет графический процессор (GPU). Это была не просто техническая сноска; это была перекалибровка со значительными последствиями для последующих этапов, особенно в отношении структуры затрат на развертывание передовых ИИ-решений Nvidia.
Генеральный директор Jensen Huang лично обратился к изменению прямо со сцены GTC, представив его как исправление предыдущего недосмотра в отношении их передовой архитектуры Blackwell. «Одна из вещей, в которой я допустил ошибку: Blackwell — это на самом деле два GPU в одном чипе Blackwell», — заявил он. Представленное обоснование было сосредоточено на ясности и последовательности, особенно в отношении соглашений об именовании, связанных с NVLink, высокоскоростной технологией межсоединений Nvidia. «Мы назвали этот один чип GPU, и это было неправильно. Причина в том, что это портит всю номенклатуру NVLink», — уточнил Huang. Хотя упрощение номеров моделей предлагает определенную логическую стройность, это переопределение имеет вес, выходящий далеко за рамки простой семантики.
Суть сдвига заключается в переходе от подсчета физических модулей (в частности, форм-фактора SXM, распространенного в высокопроизводительных серверах) как отдельных GPU к подсчету отдельных кремниевых кристаллов (dies) внутри этих модулей. Эта кажущаяся незначительной корректировка терминологии потенциально может кардинально изменить финансовый ландшафт для организаций, использующих программный пакет Nvidia AI Enterprise.
Финансовый волновой эффект: удвоение лицензирования AI Enterprise?
Nvidia AI Enterprise — это комплексная программная платформа, предназначенная для оптимизации разработки и развертывания ИИ-приложений. Она включает в себя широкий спектр инструментов, фреймворков и, что критически важно, доступ к Nvidia Inference Microservices (NIMs), которые представляют собой оптимизированные контейнеры для эффективного запуска ИИ-моделей. Модель лицензирования этого мощного пакета исторически была напрямую связана с количеством развернутых GPU. Текущие структуры ценообразования устанавливают стоимость примерно в $4,500 за GPU в год или облачный тариф $1 за GPU в час.
Рассмотрим предыдущее поколение или определенные конфигурации Blackwell. Сервер Nvidia HGX B200, оснащенный восемью модулями SXM, где каждый модуль содержал то, что тогда считалось одним GPU Blackwell, требовал бы восемь лицензий AI Enterprise. Это приводило к годовой стоимости подписки на программное обеспечение в размере $36,000 (8 GPU * $4,500/GPU) или почасовой облачной стоимости $8 (8 GPU * $1/GPU/час).
Теперь войдем в новый ландшафт с такими системами, как HGX B300 NVL16. Эта система также оснащена восемью физическими модулями SXM. Однако согласно пересмотренному определению, Nvidia теперь считает каждый кремниевый кристалл в этих модулях отдельным GPU. Поскольку каждый модуль в этой конкретной конфигурации содержит два кристалла, общее количество GPU для целей лицензирования фактически удваивается до 16 GPU (8 модулей * 2 кристалла/модуль).
Еслипредположить, что Nvidia сохранит свою существующую структуру ценообразования за GPU для пакета AI Enterprise — пункт, по которому компания заявила, что он еще не окончательно определен, — последствия очевидны. Та же самая система HGX B300 с восемью модулями теперь потенциально потребует 16 лицензий, что приведет к увеличению годовой стоимости программного обеспечения до $72,000 (16 GPU * $4,500/GPU) или $16 в час в облаке. Это представляет собой 100% увеличение стоимости подписки на программное обеспечение для кажущейся сопоставимой плотности оборудования, что напрямую вытекает из изменения способа подсчета “GPU”.
Повесть о двух архитектурах: согласование прошлых заявлений
Этот сдвиг в номенклатуре представляет интересный контраст с предыдущими характеристиками архитектуры Blackwell от Nvidia. Когда Blackwell был первоначально представлен, возникли дискуссии относительно его дизайна, который включает в себя несколько частей кремния (кристаллов), соединенных вместе в одном корпусе процессора. В то время Nvidia активно возражала против описания Blackwell с использованием термина архитектура “chiplet” — общепринятого в отрасли термина для конструкций, использующих несколько меньших, взаимосвязанных кристаллов. Вместо этого компания подчеркивала другую точку зрения.
Как сообщалось во время освещения запуска Blackwell, Nvidia утверждала, что использовала «архитектуру с двумя кристаллами, ограниченными ретикулом, которая действует как единый, цельный GPU». Эта формулировка настоятельно предполагала, что, несмотря на физическое присутствие двух кристаллов, они функционировали согласованно как одна логическая вычислительная единица. Новый метод подсчета, применяемый к конфигурации B300, похоже, отходит от этой концепции «единого, цельного GPU», по крайней мере, с точки зрения лицензирования программного обеспечения, рассматривая кристаллы как отдельные сущности. Это поднимает вопросы о том, была ли первоначальная характеристика в первую очередь сосредоточена на функциональном потенциале оборудования, или же стратегическая перспектива лицензирования эволюционировала.
Прирост производительности против потенциального роста затрат: оценка предложения B300
При рассмотрении потенциального удвоения платы за лицензирование программного обеспечения для HGX B300 по сравнению с его предшественниками, такими как B200, крайне важно изучить улучшения производительности, предлагаемые новым оборудованием. Обеспечивает ли B300 удвоенную мощность обработки ИИ, чтобы оправдать потенциальное удвоение затрат на программное обеспечение? Спецификации предполагают более тонкую картину.
HGX B300 действительно может похвастаться улучшениями:
- Увеличенная емкость памяти: Он предлагает примерно 2.3 терабайта памяти с высокой пропускной способностью (HBM) на систему, что является значительным скачком примерно в 1.5 раза по сравнению с 1.5 ТБ, доступными на B200. Это критически важно для обработки больших ИИ-моделей и наборов данных.
- Улучшенная производительность при низкой точности: B300 демонстрирует заметный прирост производительности для вычислений с использованием 4-битной точности с плавающей запятой (FP4). Его пропускная способность FP4 достигает чуть более 105 плотных петафлопс на систему, что примерно на 50% больше, чем у B200. Это ускорение особенно полезно для определенных задач ИИ-вывода, где допустима более низкая точность.
Однако преимущество в производительности не является универсальным для всех рабочих нагрузок. Важно отметить, что для задач, требующих арифметики с плавающей запятой более высокой точности (таких как FP8, FP16 или FP32), B300 не предлагает значительного преимущества в операциях с плавающей запятой по сравнению со старой системой B200. Многие сложные задачи обучения ИИ и научных вычислений в значительной степени полагаются на эти форматы с более высокой точностью.
Поэтому организации, оценивающие B300, сталкиваются со сложным расчетом. Они получают значительную емкость памяти и прирост производительности FP4, но потенциальное удвоение затрат на программное обеспечение AI Enterprise может не соответствовать удвоению производительности для их конкретных рабочих нагрузок с более высокой точностью. Ценностное предложение становится сильно зависимым от характера выполняемых ИИ-задач.
Техническое обоснование: межсоединения и независимость
Интересно, что эта новая методология подсчета кристаллов не применяется универсально ко всем новым системам на базе Blackwell, анонсированным на GTC. Более мощные системы GB300 NVL72 с жидкостным охлаждением, например, продолжают придерживаться старого соглашения, считая весь пакет (содержащий два кристалла) одним GPU для целей лицензирования. Это расхождение ставит вопрос: в чем разница?
Nvidia предоставляет техническое обоснование, основанное на технологии межсоединений внутри самих пакетов GPU. По словам Ian Buck, вице-президента и генерального менеджера Nvidia по гипермасштабируемым и высокопроизводительным вычислениям (HPC), различие заключается в наличии или отсутствии критически важного межсоединения chip-to-chip (C2C), напрямую связывающего два кристалла внутри пакета.
Конфигурация HGX B300: Конкретные пакеты Blackwell, используемые в системах HGX B300 с воздушным охлаждением, не имеют этого прямого межсоединения C2C. Как объяснил Buck, этот выбор конструкции был сделан для оптимизации энергопотребления и управления температурным режимом в рамках ограничений шасси с воздушным охлаждением. Однако следствием этого является то, что два кристалла на одном модуле B300 работают с большей степенью независимости. Если одному кристаллу необходимо получить доступ к данным, хранящимся в памяти с высокой пропускной способностью, физически подключенной к другому кристаллу на том же модуле, он не может сделать это напрямую. Вместо этого запрос данных должен выйти за пределы пакета, пройти через внешнюю сеть NVLink (вероятно, через чип коммутатора NVLink на материнской плате сервера), а затем вернуться к контроллеру памяти другого кристалла. Этот обходной путь подкрепляет идею о том, что это две функционально различные вычислительные единицы, разделяющие общий пакет, но требующие внешних путей связи для полного совместного использования памяти. Это разделение, утверждает Nvidia, оправдывает их подсчет как двух отдельных GPU.
Конфигурация GB300 NVL72: В отличие от этого, пакеты “Superchip”, используемые в более дорогих системах GB300, сохраняют высокоскоростное межсоединение C2C. Эта прямая связь позволяет двум кристаллам внутри пакета обмениваться данными и совместно использовать ресурсы памяти гораздо эффективнее и напрямую, без необходимости обходного пути за пределы пакета через коммутатор NVLink. Поскольку они могут функционировать более согласованно и беспрепятственно совместно использовать память, они рассматриваются с точки зрения программного обеспечения и лицензирования как один, единый GPU, что соответствует первоначальному “единому” описанию архитектуры Blackwell.
Это техническое различие обеспечивает логическую основу для различных методов подсчета. Кристаллы B300 функционально более разделены из-за отсутствия связи C2C, что придает вес подсчету двух GPU. Кристаллы GB300 тесно связаны, что поддерживает подсчет одного GPU.
Взгляд в будущее: Vera Rubin создает прецедент
Хотя GB300 в настоящее время представляет собой исключение, подход к подсчету кристаллов, принятый для B300, по-видимому, указывает на будущее направление Nvidia. Компания уже дала понять, что ее платформа следующего поколения под кодовым названием Vera Rubin, выпуск которой запланирован на более поздний срок, полностью примет эту новую номенклатуру.
Само соглашение об именовании дает подсказку. Системы на базе архитектуры Rubin обозначаются высокими номерами, такими как NVL144. Это обозначение настоятельно подразумевает подсчет отдельных кристаллов, а не модулей. Следуя логике B300, система NVL144, вероятно, будет состоять из определенного количества модулей, каждый из которых содержит несколько кристаллов, что в сумме дает 144 подсчитываемых кристалла GPU для целей лицензирования и спецификаций.
Эта тенденция еще более выражена в дорожной карте Nvidia на конец 2027 года с платформой Vera Rubin Ultra. Эта платформа может похвастаться поразительными 576 GPU на стойку. Как было проанализировано ранее, это впечатляющее число достигается не путем упаковки 576 отдельных физических модулей в стойку. Вместо этого оно отражает новую парадигму подсчета, применяемую мультипликативно. Архитектура, вероятно, включает 144 физических модуля на стойку, но каждый модуль содержит четыре отдельных кремниевых кристалла. Таким образом, 144 модуля, умноженные на 4 кристалла на модуль, дают заголовочную цифру в 576 “GPU”.
Эта дальновидная перспектива предполагает, что метод подсчета кристаллов B300 — это не просто временная корректировка для конкретных систем с воздушным охлаждением, а скорее основополагающий принцип того, как Nvidia намерена количественно оценивать свои ресурсы GPU в будущих поколениях. Клиенты, инвестирующие в экосистему Nvidia, должны ожидать, что этот сдвиг станет стандартом.
Невысказанный фактор: максимизация потоков доходов от ПО?
Хотя техническое объяснение относительно межсоединения C2C дает обоснование для особого подсчета GPU в B300, время и значительные финансовые последствия неизбежно приводят к спекуляциям о скрытых бизнес-мотивах. Может ли это переопределение, представленное первоначально как исправление “ошибки” номенклатуры, также служить стратегическим рычагом для увеличения регулярных доходов от программного обеспечения?
За год, прошедший с тех пор, как Blackwell был впервые подробно описан с его сообщением о «едином, цельном GPU», вполне вероятно, что Nvidia осознала значительную возможность получения дохода, которая оставалась неиспользованной. Пакет AI Enterprise представляет собой растущий и высокомаржинальный компонент бизнеса Nvidia. Привязка его лицензирования непосредственно к количеству кремниевых кристаллов, а не физических модулей, открывает путь к значительному увеличению доходов от программного обеспечения, получаемых от каждого развертывания оборудования, особенно по мере потенциального увеличения количества кристаллов на модуль в будущих архитектурах, таких как Vera Rubin Ultra.
Когда Nvidia спросили, как это изменение в определении GPU конкретно повлияет на стоимость лицензирования AI Enterprise для новых систем B300, компания сохранила определенную двусмысленность. Представитель компании сообщил, что финансовые детали все еще рассматриваются. «Детали ценообразования для B300 все еще финализируются, и на данный момент нет подробностей о Rubin, кроме того, что было показано в основном докладе GTC», — заявил представитель, явно подтвердив, что это включает структуру ценообразования для AI Enterprise на этих платформах.
Это отсутствие окончательного ценообразования в сочетании с удвоением подсчитываемых GPU на определенных конфигурациях оборудования создает неопределенность для клиентов, планирующих будущие инвестиции в ИИ-инфраструктуру. Хотя технические обоснования присутствуют, потенциал существенного увеличения затрат на подписку на программное обеспечение вырисовывается весьма отчетливо. Этот сдвиг подчеркивает растущую важность программного обеспечения в цепочке создания стоимости полупроводников и очевидную стратегию Nvidia по более эффективной монетизации своей комплексной ИИ-платформы путем более тесного согласования метрик лицензирования с базовой сложностью кремния. Поскольку организации планируют бюджеты на системы ИИ следующего поколения, определение “GPU” внезапно стало критически важной и потенциально гораздо более дорогой переменной.