Суперкомпютърът на xAI в Memphis: $400М и проблеми с тока

Предприятието за изкуствен интелект на Elon Musk, xAI, инвестира значителен капитал в изграждането на колосално суперкомпютърно съоръжение в Memphis, Tennessee, амбициозен проект, който вече се сблъсква със значителни пречки, свързани с наличността на електрическа енергия. Докато Musk си представя този обект като ‘гигафабриката за изчисления’, потенциално приютяваща най-големия суперкомпютър в света, документите разкриват както мащаба на първоначалната инвестиция, така и критичния недостиг на енергия, който поставя под въпрос крайния му обхват.

Полагане на основите: Фундамент, изграден върху стотици милиони

Финансовият ангажимент към проекта в Memphis става по-ясен чрез официалните документи. Откакто начинанието беше публично обявено през юни 2024 г., поредица от четиринадесет заявления за разрешителни за строеж са подадени до местните органи за планиране и развитие. Тези документи колективно очертават прогнозни разходи по проекта, достигащи $405.9 милиона. Тази цифра представлява осезаемата инвестиция в превръщането на избрания обект в център, способен да поддържа усъвършенствани AI изчисления.

Обхватът на работата, описан в тези разрешителни, дава представа за многостранния характер на изграждането на такова съоръжение:

  • Основна инфраструктура: Значителни ресурси са разпределени за основни електрически, механични и ВиК системи, необходими за мащабен център за данни.
  • Специализирани инсталации: Забележително разрешително конкретно покрива инсталация на стойност $30 милиона, предназначена за компютърно оборудване, подчертавайки специализирания характер на създаваната хардуерна среда.
  • Мерки за сигурност: Отразявайки стойността на включените активи, периметърна ограда на стойност $3.9 милиона, проектирана да издържа на удари от превозни средства, подчертава прилаганите протоколи за сигурност.
  • Енергийна инфраструктура: От решаващо значение е, че най-новото регистрирано заявление, подадено през януари, се отнася до изграждането на нова електрическа подстанция, жизненоважен компонент за управление на огромните очаквани енергийни нужди, но все още недостатъчен за най-грандиозната визия.

Тази първоначална строителна инвестиция, макар и значителна, представлява само част от потенциалните общи разходи. Musk, след като осигури впечатляващите $12 милиарда финансиране за xAI през последната година, се стреми към операция с безпрецедентен мащаб. Разходите за строителство, наблюдавани в Memphis, изглеждат като цяло сравними, поне в началните фази, с други големи проекти за AI инфраструктура, като инициативата Stargate – съвместно усилие, включващо индустриални гиганти като Oracle, OpenAI и SoftBank, обявена за развитие в Texas. Цифрите за Memphis твърдо установяват сериозното намерение на xAI и значителния капитал, който се разгръща, дори преди да се вземе предвид прекомерната цена на самото изчислително оборудване.

Изчислителният двигател: Захранване на амбицията с високопроизводителен силиций

В сърцето на ‘гигафабриката за изчисления’ в Memphis се намира хардуерът – по-конкретно, легиони от графични процесори (GPUs) от Nvidia, производителят на чипове, който в момента доминира пейзажа на AI хардуера. Musk заяви, че първоначалната фаза включва 200 000 Nvidia GPUs, твърдейки, че половината от тях са били инсталирани за забележително бърз период от 122 дни. Това обаче е само стъпка към далеч по-грандиозна цел: мащабиране на съоръжението, за да приюти в крайна сметка един милион GPUs.

Специфичният силиций, задвижващ този изчислителен гигант, включва комбинация от мощните чипове H100 и H200 на Nvidia. Musk посочи наличието на 100 000 H100 единици и 50 000 H200 единици в рамките на първоначалното разгръщане от 200 000 GPU. Финансовите последици от придобиването на такъв хардуер, независимо дали чрез директна покупка или лизингови споразумения чрез доставчици на облачни услуги, са зашеметяващи. Индустриалните оценки поставят цената на отделните чипове H100 някъде между $27 000 и $40 000, докато по-новите H200 единици се оценяват на около $32 000 всяка.

Въз основа на тези цифри, хардуерът за текущата конфигурация в Memphis може да представлява инвестиция над $4.3 милиарда. Екстраполирайки към крайната цел от един милион GPUs, дори използвайки по-ниската оценка от $27 000 за чип H100, предполага потенциални разходи за хардуер, нарастващи към $27 милиарда. Остава неясно дали xAI закупува тези чипове директно или използва ресурси за облачни изчисления, разграничение със значителни финансови и оперативни последици. За контекст, xAI според съобщенията е инвестирала $700 милиона в хардуер за отделен, по-малък център за данни в Georgia, споделен със социалната медийна компания на Musk, X, който приютява приблизително 12 000 GPUs. Това сравнение подчертава експоненциалния скок в мащаба и разходите, представени от начинанието в Memphis.

Изборът на Memphis, промотиран както от Musk, така и от местните власти като ‘многомилиардна инвестиция’, е позициониран като ход за утвърждаване на града като ‘глобален епицентър на AI’, основно захранващ модела Grok 3 на xAI и бъдещи разработки. И все пак, самата плътност на предвидената изчислителна мощ поражда също толкова монументално предизвикателство: енергоснабдяването.

Енергийното уравнение: Появява се критично затруднение

Амбицията за разгръщане на един милион GPUs се сблъсква челно с практическите ограничения на електрическата инфраструктура. Захранването на такава гъста концентрация на високопроизводителен изчислителен хардуер изисква огромно и надеждно енергоснабдяване, област, в която проектът на xAI в Memphis се сблъсква с най-значимото си ограничение.

Досега xAI официално е поискала 300 мегавата (MW) мощност от местния доставчик на комунални услуги, Memphis Light, Gas and Water (MLGW). Въпреки това, одобрения са дадени само за 150 MW мрежова мощност. Тази съществена разлика между заявения и одобрения капацитет подчертава напрежението, което проектът оказва върху съществуващата електрическа мрежа.

Осъзнавайки това ограничение, xAI проактивно се стреми да допълни своето енергоснабдяване чрез производство на място. Заявленията за разрешителни разкриват планове за газови турбини, по-специално агрегати, доставени от дъщерното дружество на Caterpillar, Solar Turbines. Тези генератори са предназначени да произвеждат общо 250 MW мощност. Въпреки че този капацитет на място значително увеличава наличната енергия, довеждайки общата потенциална мощност по-близо до 400 MW (150 MW мрежа + 250 MW на място), той все още е драстично недостатъчен за изискванията на крайната визия за един милион GPU.

В собствените си документи за разрешителни, свързани с газовите турбини, xAI изрично признава ограниченията на мрежата. Компанията заяви, че достъпът до пълните 300 MW, поискани от мрежата, зависи от ‘значителни инфраструктурни подобрения‘ и подобрения на регионалната електропреносна мрежа. Освен това xAI призна, че не може адекватно да обслужва нуждите на клиентите ‘без допълнително производство на електроенергия на място‘, което ясно показва, че текущата комбинация от одобрена мрежова мощност и планирано производство на място е недостатъчна дори за междинни цели, да не говорим за крайната цел.

Експерти оценяват, че захранването на един милион усъвършенствани Nvidia GPUs може да изисква доста над 1 гигават (GW), което се равнява на 1000 MW. Тази цифра рязко контрастира с приблизително 400 MW, които в момента са достъпни за xAI в Memphis (комбинирайки одобрен достъп до мрежата и производство на място). Според Shaolei Ren, професор по електротехника и компютърно инженерство в University of California Riverside, съществуващият енергиен капацитет (около 400 MW) вероятно би могъл да поддържа първоначалното разгръщане на приблизително 200 000 Nvidia H100 GPUs. Въпреки това, надхвърлянето на този брой би станало все по-предизвикателно, потенциално изисквайки агресивни стратегии за ‘свръхзаписване’ (oversubscription). Ren отбеляза: ‘Все още е възможно, но това означава, че се използва агресивна стратегия за свръхзаписване.’ Свръхзаписването в центровете за данни включва договаряне на повече енергиен капацитет за клиенти, отколкото е физически наличен във всеки един момент, разчитайки на статистическата вероятност, че не всички потребители ще изискват максималното си разпределение едновременно – стратегия, носеща присъщи рискове.

Дефицитът на мощност подчертава фундаментално напрежение: ускореният график на Musk и амбицията за огромен мащаб срещу отнемащия време и скъп процес на модернизиране на регионалната енергийна инфраструктура.

Натоварване на мрежата: Динамиката на регионалната енергетика под натиск

Огромният енергиен апетит на проекта xAI не е изолирано явление; той отразява по-широка тенденция, оказваща натиск върху регионалните електроенергийни мрежи. Tennessee Valley Authority (TVA), федералната компания, отговорна за производството и преноса на електроенергия в по-голямата част от Tennessee и части от шест съседни щата, се бори с исторически висок ръст на натоварването. Този скок в търсенето се дължи до голяма степен на разпространението на енергоемки центрове за данни като този на xAI, заедно с производители на батерии и други големи промишлени потребители, разширяващи се в нейната обслужваща територия.

В отговор на това ескалиращо търсене, TVA обяви през февруари намерението си да инвестира значителни $16 милиарда през следващите няколко години. Тази инвестиция е предназначена специално за укрепване на нейната енергийна система, за да отговори на нарастващите нужди и да поддържа надеждността на мрежата. Такива подобрения обаче са сложни и отнемат значително време за изпълнение.

Освен това TVA поддържа строги протоколи за надзор на големите потребители на енергия. Говорител на TVA поясни, че нейният борд на директорите ‘ще трябва да прегледа и одобри всяко ново натоварване, надвишаващо 100 MW, за да гарантира, че надеждността на енергийната система може да бъде поддържана.‘ Тази политика подчертава контрола, прилаган към масивни проекти като този на xAI, гарантирайки, че новите изисквания не дестабилизират съществуващото електрозахранване за други клиенти. Първоначалното разпределение от 150 MW за xAI вече надхвърля този праг, което показва, че е преминало първоначален преглед, но бъдещите искания ще бъдат подложени на подобно обсъждане.

Прагматичните реалности на доставката на енергия бяха признати и от местните власти. По време на заседание на градския съвет на Memphis през януари, изпълнителниятдиректор на MLGW Doug McGowen коментира амбициозния мащаб, обсъждан за проекта xAI. Той предупреди: ‘Хората могат да обявяват много неща и мисля, че това е важно за нашата общност – да се вълнуваме от възможностите, които идват. Но както знаете, има прагматични реалности за много неща.‘ Коментарите на McGowen предполагат, че докато градът приветства потенциалните икономически ползи, местната комунална инфраструктура може в момента да не притежава капацитета да поддържа най-екстремните версии на обявения мащаб на проекта без значителни, отнемащи време подобрения.

Разширяване на хоризонтите, постоянни пречки

Въпреки енергийните предизвикателства, свързани с първоначалния обект, xAI вече полага основите за по-нататъшно разширяване в Memphis. През март LLC, свързано с компанията, финализира покупката на 186 акра земя, разположена на юг от настоящото й съоръжение, придобиване на стойност $80 милиона. Тази транзакция включваше значителен индустриален склад с площ един милион квадратни фута, разположен на един от парцелите, сигнализирайки намерения за значително бъдещо развитие.

Едновременно с това разширяване, xAI се обърна към TVA, за да оцени осъществимостта на осигуряването на допълнителни 260 MW мрежова мощност специално за този нов обект. Това искане, наслоено върху вече предизвикателната енергийна ситуация на първоначалното място, допълнително усилва натиска върху регионалната енергийна инфраструктура. Ако бъде удовлетворено, то ще доведе общата заявена мрежова мощност на xAI за двата обекта до 560 MW (300 MW първоначално + 260 MW разширение), все още далеч под прогнозните >1 GW, необходими за милион GPUs, и силно зависимо от успеха и навременността на планираните подобрения на мрежата от TVA.

Преследването на това допълнително разпределение на мощност се сблъсква със същите ‘прагматични реалности’, подчертани от изпълнителния директор на MLGW. Капацитетът на мрежата да доставя остава централен въпросителен знак, висящ над крайния размер и график на проекта.

Изпълнение и надзор: Навигация в изграждането

Физическото изграждане на съоръжението в Memphis се управлява основно от Darana Hybrid Electro-Mechanical Solutions, главен изпълнител със седалище в Ohio. Darana Hybrid подаде по-голямата част от заявленията за разрешителни за строеж, подадени за проекта. Въпреки че компанията има предишен опит с проекти за промишлено строителство в района на Memphis, нейният избор за проект от такъв мащаб привлече известно внимание в индустрията.

Ветеран от индустрията на центровете за данни, коментирайки анонимно поради липса на разрешение да говори публично, отбеляза, че е донякъде необичайно фирма със среден размер като Darana Hybrid да ръководи проект от мащаба, който Musk предвижда за обекта в Memphis, често наричан метафорично ‘Colossus’. Обикновено изграждането на хипермащабни центрове за данни включва по-големи, специализирани фирми. Това наблюдение не означава непременно неадекватност, но подчертава потенциално уникален аспект от стратегията за изпълнение на проекта.

Опитите за получаване на допълнителна информация или официални изявления относно напредъка на проекта, разходите, енергийната стратегия и избора на изпълнител бяха посрещнати с мълчание. Представители на ключови участващи субекти, включително Elon Musk, xAI, Darana Hybrid, Tennessee Valley Authority и Memphis Light, Gas and Water, не отговориха на исканията за коментар относно детайлите, разкрити в заявленията за разрешителни, и свързаните с тях енергийни предизвикателства. Тази липса на публично разяснение оставя траекторията и крайната реализация на амбициозната ‘гигафабрика за изчисления’ на Musk в Memphis обект на разгръщащите се реалности на строителния напредък и, най-критично, на наличността на електрическа енергия.