Любопитна корекция: Nvidia преосмисля броя на своите GPU
В театъра на високите залози на иновациите в полупроводниците, конференцията GPU Technology Conference (GTC) на Nvidia служи като първокласна сцена за разкриване на бъдещето. По време на последното си събиране, сред очакваните фанфари около напредъка в изкуствения интелект и ускорените изчисления, компанията представи фина, но потенциално дълбока промяна – модификация в начина, по който фундаментално дефинира графичен процесор (GPU). Това не беше просто техническа бележка под линия; това беше прекалибриране със значителни последващи последици, особено по отношение на структурата на разходите за внедряване на усъвършенстваните AI решения на Nvidia.
Самият главен изпълнителен директор Jensen Huang адресира промяната директно от сцената на GTC, представяйки я като корекция на предишен пропуск по отношение на тяхната авангардна архитектура Blackwell. „Едно от нещата, в които сгреших: Blackwell всъщност са два GPU в един чип Blackwell“, заяви той. Представената обосновка се фокусира върху яснотата и последователността, особено по отношение на конвенциите за именуване, свързани с NVLink, високоскоростната технология за взаимно свързване на Nvidia. „Нарекохме този един чип GPU и това беше грешно. Причината за това е, че обърква цялата номенклатура на NVLink“, обясни Huang. Докато опростяването на номерата на моделите предлага известна степен на логическа подреденост, това предефиниране носи тежест далеч отвъд обикновената семантика.
Ядрото на промяната се крие в преминаването от броене на физическите модули (по-специално форм-факторът SXM, често срещан във високопроизводителни сървъри) като отделни GPU към броене на отделните силициеви кристали (dies) в тези модули. Тази на пръв поглед незначителна корекция в терминологията има потенциала драстично да промени финансовия пейзаж за организациите, използващи софтуерния пакет AI Enterprise на Nvidia.
Финансовият вълнов ефект: Удвояване на лицензирането на AI Enterprise?
AI Enterprise на Nvidia е цялостна софтуерна платформа, предназначена да рационализира разработването и внедряването на AI приложения. Тя обхваща широк набор от инструменти, рамки и, което е критично, достъп до Nvidia Inference Microservices (NIMs), които са оптимизирани контейнери за ефективно изпълнение на AI модели. Моделът на лицензиране за този мощен пакет исторически е бил пряко свързан с броя на внедрените GPU. Настоящите ценови структури определят цената на приблизително $4,500 на GPU годишно или облачна ставка от $1 на GPU на час.
Разгледайте предишното поколение или определени конфигурации на Blackwell. Сървър Nvidia HGX B200, оборудван с осем SXM модула, където всеки модул съдържаше това, което тогава се смяташе за един Blackwell GPU, би изисквал осем лиценза за AI Enterprise. Това се превеждаше в годишен разход за софтуерен абонамент от $36,000 (8 GPU * $4,500/GPU) или почасов облачен разход от $8 (8 GPU * $1/GPU/час).
Сега навлезте в новодефинирания пейзаж със системи като HGX B300 NVL16. Тази система също разполага с осем физически SXM модула. Въпреки това, съгласно преразгледаната дефиниция, Nvidia сега брои всеки силициев кристал в тези модули като отделен GPU. Тъй като всеки модул в тази специфична конфигурация съдържа два кристала, общият брой GPU за целите на лицензирането ефективно се удвоява до 16 GPU (8 модула * 2 кристала/модул).
Ако приемем, че Nvidia поддържа съществуващата си ценова структура на база GPU за пакета AI Enterprise – точка, за която компанията заяви, че все още не е финализирана – последиците са очевидни. Същият осеммодулен HGX B300 сървър сега потенциално би изисквал 16 лиценза, изстрелвайки годишните разходи за софтуер до $72,000 (16 GPU * $4,500/GPU) или $16 на час в облака. Това представлява 100% увеличение на разходите за софтуерен абонамент за привидно сравнима хардуерна плътност, произтичащо директно от промяната в начина, по който се брои “GPU”.
Приказка за две архитектури: Съгласуване на минали изявления
Тази промяна в номенклатурата представлява интересен контраст с предишните характеристики на Nvidia за архитектурата Blackwell. Когато Blackwell беше първоначално представен, възникнаха дискусии относно неговия дизайн, който включва множество парчета силиций (кристали), свързани заедно в един процесорен пакет. По това време Nvidia активно се противопоставяше на описването на Blackwell с термина “chiplet” архитектура – често срещан индустриален термин за дизайни, използващи множество по-малки, взаимосвързани кристали. Вместо това компанията подчерта различна перспектива.
Както беше съобщено по време на отразяването на старта на Blackwell, Nvidia твърдеше, че използва “архитектура с два кристала с ограничена фотомаска, която действа като унифициран, единствен GPU.” Тази формулировка силно предполагаше, че въпреки физическото присъствие на два кристала, те функционират съгласувано като една логическа процесорна единица. Новият метод на броене, приложен към конфигурацията B300, изглежда се отклонява от тази концепция за “унифициран, единствен GPU”, поне от гледна точка на лицензирането на софтуер, третирайки кристалите като отделни единици. Това повдига въпроси дали първоначалното описание е било фокусирано предимно върху функционалния потенциал на хардуера или стратегическата перспектива за лицензиране се е развила.
Подобрения в производителността срещу потенциални увеличения на разходите: Оценка на предложението B300
Когато се разглежда потенциалното удвояване на таксите за лицензиране на софтуер за HGX B300 в сравнение с неговите предшественици като B200, е изключително важно да се проучат подобренията в производителността, предлагани от по-новия хардуер. Дали B300 предоставя два пъти по-голяма мощност за обработка на AI, за да оправдае потенциалното удвояване на разходите за софтуер? Спецификациите предполагат по-нюансирана картина.
HGX B300 наистина може да се похвали с подобрения:
- Увеличен капацитет на паметта: Той предлага приблизително 2.3 терабайта памет с висока пропускателна способност (HBM) на система, значителен скок от около 1.5 пъти в сравнение с 1.5TB, налични на B200. Това е от решаващо значение за работа с по-големи AI модели и набори от данни.
- Подобрена производителност при ниска точност: B300 демонстрира забележително повишение на производителността при изчисления, използващи 4-битова точност с плаваща запетая (FP4). Неговата FP4 пропускателна способност достига малко над 105 плътни petaFLOPS на система, приблизително 50% увеличение спрямо B200. Това ускорение е особено полезно за определени задачи за AI изводи (inference), където по-ниската точност е приемлива.
Въпреки това, предимството в производителността не е универсално за всички работни натоварвания. От решаващо значение е, че за задачи, изискващи аритметика с плаваща запетая с по-висока точност (като FP8, FP16 или FP32), B300 не предлага значително предимство в операциите с плаваща запетая спрямо по-старата система B200. Много сложни задачи за обучение на AI и научни изчисления разчитат в голяма степен на тези формати с по-висока точност.
Следователно организациите, оценяващи B300, са изправени пред сложна калкулация. Те печелят значителен капацитет на паметта и тласък в производителността на FP4, но потенциалното удвояване на разходите за софтуер AI Enterprise може да не бъде съпоставено със съответното удвояване на производителността за техните специфични работни натоварвания с по-висока точност. Предложението за стойност става силно зависимо от естеството на изпълняваните AI задачи.
Техническото оправдание: Взаимни връзки и независимост
Интересното е, че тази нова методология за броене на кристали не се прилага универсално за всички нови системи, базирани на Blackwell, обявени на GTC. По-мощните системи GB300 NVL72 с течно охлаждане, например, продължават да се придържат към по-старата конвенция, като броят целия пакет (съдържащ два кристала) като един GPU за целите на лицензирането. Това разминаване повдига въпроса: защо е тази разлика?
Nvidia предоставя техническа обосновка, вкоренена в технологията за взаимно свързване в самите GPU пакети. Според Ian Buck, вицепрезидент и генерален мениджър на Hyperscale и HPC в Nvidia, разликата се крие в наличието или отсъствието на ключова връзка чип-към-чип (C2C), директно свързваща двата кристала в пакета.
Конфигурация HGX B300: Специфичните Blackwell пакети, използвани в системите HGX B300 с въздушно охлаждане, нямат тази директна C2C връзка. Както обясни Buck, този избор на дизайн е направен, за да се оптимизира консумацията на енергия и управлението на топлината в рамките на ограниченията на шасито с въздушно охлаждане. Последствието обаче е, че двата кристала на един B300 модул работят с по-голяма степен на независимост. Ако единият кристал трябва да получи достъп до данни, съхранявани в паметта с висока пропускателна способност, физически свързана към другия кристал на същия модул, той не може да го направи директно. Вместо това заявката за данни трябва да пътува извън пакета, да премине през външната NVLink мрежа (вероятно чрез NVLink комутаторен чип на дънната платка на сървъра) и след това да се върне към контролера на паметта на другия кристал. Този обходен път подсилва идеята, че това са две функционално различни процесорни единици, споделящи общ пакет, но изискващи външни комуникационни пътища за пълно споделяне на паметта. Това разделяне, твърди Nvidia, оправдава броенето им като два отделни GPU.
Конфигурация GB300 NVL72: За разлика от това, пакетите “Superchip”, използвани в по-високия клас системи GB300, запазват високоскоростната C2C връзка. Тази директна връзка позволява на двата кристала в пакета да комуникират и споделят ресурси на паметта много по-ефективно и директно, без необходимост от обходен път извън пакета през NVLink комутатора. Тъй като те могат да функционират по-съгласувано и да споделят памет безпроблемно, те се третират, от гледна точка на софтуера и лицензирането, като един, унифициран GPU, в съответствие с първоначалното “унифицирано” описание на архитектурата Blackwell.
Това техническо разграничение осигурява логическа основа за различните методи на броене. Кристалите на B300 са функционално по-разделени поради липсата на C2C връзка, което придава достоверност на броенето като два GPU. Кристалите на GB300 са тясно свързани, подкрепяйки броенето като един GPU.
Поглед към бъдещето: Vera Rubin задава прецедента
Докато GB300 в момента представлява изключение, подходът за броене на кристали, възприет за B300, изглежда показателен за бъдещата посока на Nvidia. Компанията вече сигнализира, че нейната платформа от следващо поколение, с кодово име Vera Rubin, планирана за пускане по-нататък, ще възприеме напълно тази нова номенклатура.
Самата конвенция за именуване дава подсказка. Системите, базирани на архитектурата Rubin, се обозначават с високи числа, като например NVL144. Това обозначение силно предполага броене на отделни кристали, а не на модули. Следвайки логиката на B300, система NVL144 вероятно ще се състои от определен брой модули, всеки от които съдържа множество кристали, сумиращи се до 144 броими GPU кристала за целите на лицензиране и спецификации.
Тази тенденция е още по-изразена в пътната карта на Nvidia за края на 2027 г. с платформата Vera Rubin Ultra. Тази платформа може да се похвали с удивителните 576 GPU на шкаф. Както беше анализирано по-рано, този впечатляващ брой не се постига чрез опаковане на 576 отделни физически модула в шкаф. Вместо това той отразява новата парадигма на броене, приложена мултипликативно. Архитектурата вероятно включва 144 физически модула на шкаф, но всеки модул съдържа четири отделни силициеви кристала. По този начин 144 модула, умножени по 4 кристала на модул, дават заглавната цифра от 576 “GPU”.
Тази перспективна гледна точка предполага, че методът за броене на кристали на B300 не е просто временна корекция за специфични системи с въздушно охлаждане, а по-скоро основополагащ принцип за това как Nvidia възнамерява да квантифицира своите GPU ресурси в бъдещите поколения. Клиентите, инвестиращи в екосистемата на Nvidia, трябва да предвидят, че тази промяна ще стане стандарт.
Неизреченият фактор: Максимизиране на потоците от приходи от софтуер?
Докато техническото обяснение относно C2C връзката предоставя обосновка за различното броене на GPU при B300, времето и значителните финансови последици неизбежно водят до спекулации относно скрити бизнес мотиви. Може ли това предефиниране, представено първоначално като корекция на “грешка” в номенклатурата, да служи и като стратегически лост за увеличаване на повтарящите се приходи от софтуер?
През годината, откакто Blackwell беше подробно описан за първи път със своето послание за “унифициран, единствен GPU”, е правдоподобно Nvidia да е разпознала значителна възможност за приходи, която е оставала неизползвана. Пакетът AI Enterprise представлява растящ компонент с висок марж в бизнеса на Nvidia. Обвързването на лицензирането му директно с броя на силициевите кристали, а не с физическите модули, предлага път за значително увеличаване на приходите от софтуер, получени от всяко хардуерно внедряване, особено след като броят на кристалите на модул потенциално ще се увеличи в бъдещи архитектури като Vera Rubin Ultra.
Когато бяха притиснати по въпроса как тази промяна в дефиницията на GPU ще се отрази конкретно на разходите за лицензиране на AI Enterprise за новите системи B300, Nvidia запази известна степен на неяснота. Говорител на компанията предаде, че финансовите детайли все още се разглеждат. „Ценовите детайли все още се финализират за B300 и няма подробности за споделяне относно Rubin извън това, което беше показано в основната презентация на GTC към този момент“, заяви говорителят, изрично потвърждавайки, че това включва ценовата структура за AI Enterprise на тези платформи.
Тази липса на финализирани цени, съчетана с удвояването на броя на GPU в определени хардуерни конфигурации, създава несигурност за клиентите, планиращи бъдещи инвестиции в AI инфраструктура. Докато техническите оправдания са налице, потенциалът за значително увеличение на разходите за софтуерен абонамент изглежда голям. Промяната подчертава нарастващото значение на софтуера във веригата на стойността на полупроводниците и очевидната стратегия на Nvidia за по-ефективно монетизиране на своята цялостна AI платформа чрез по-тясно привеждане на метриките за лицензиране в съответствие с основната сложност на силиция. Докато организациите бюджетират за AI системи от следващо поколение, дефиницията на “GPU” внезапно се превърна в критична и потенциално много по-скъпа променлива.