پروژه عظیم ممفیس: ساخت ابررایانه xAI با محدودیت برق

شرکت هوش مصنوعی Elon Musk، یعنی xAI، در حال سرمایه‌گذاری هنگفتی برای تأسیس یک مرکز ابررایانه‌ای عظیم در Memphis، Tennessee است؛ پروژه‌ای بلندپروازانه که از هم‌اکنون با موانع قابل توجهی در زمینه تأمین برق مواجه شده است. در حالی که Musk این مکان را به عنوان ‘گیگافکتوری محاسبات’ (gigafactory of compute) تصور می‌کند که به طور بالقوه بزرگترین ابررایانه جهان را در خود جای خواهد داد، اسناد نشان‌دهنده مقیاس سرمایه‌گذاری اولیه و همچنین کمبود حیاتی انرژی هستند که دامنه نهایی آن را به چالش می‌کشد.

ایجاد زیرساخت: بنیادی بر پایه صدها میلیون دلار

تعهد مالی به پروژه Memphis از طریق پرونده‌های رسمی در حال شفاف‌تر شدن است. از زمان اعلام عمومی این پروژه در June 2024، مجموعه‌ای از چهارده درخواست مجوز ساخت به مقامات محلی برنامه‌ریزی و توسعه ارائه شده است. این اسناد به طور کلی هزینه‌های تخمینی پروژه را ۴۰۵.۹ میلیون دلار برآورد می‌کنند. این رقم نشان‌دهنده سرمایه‌گذاری ملموس برای تبدیل سایت انتخاب شده به مرکزی قادر به پشتیبانی از محاسبات پیشرفته هوش مصنوعی است.

دامنه کارهای شرح داده شده در این مجوزها، بینشی از ماهیت چندوجهی ساخت چنین تأسیساتی را ارائه می‌دهد:

  • زیرساخت اصلی: منابع قابل توجهی به سیستم‌های بنیادی الکتریکی، مکانیکی و لوله‌کشی لازم برای یک مرکز داده در مقیاس بزرگ اختصاص یافته است.
  • تأسیسات تخصصی: یک مجوز قابل توجه به طور خاص شامل نصب ۳۰ میلیون دلاری تجهیزات کامپیوتری است که ماهیت تخصصی محیط سخت‌افزاری در حال ایجاد را برجسته می‌کند.
  • اقدامات امنیتی: با توجه به ارزش دارایی‌های موجود، یک حصار محیطی ۳.۹ میلیون دلاری که برای مقاومت در برابر ضربه وسایل نقلیه مهندسی شده است، بر پروتکل‌های امنیتی در حال اجرا تأکید دارد.
  • زیرساخت برق: نکته حیاتی اینکه، آخرین درخواست ثبت شده که در January ثبت شده، مربوط به ساخت یک پست برق جدید است؛ جزء حیاتی برای مدیریت تقاضای عظیم برق پیش‌بینی شده، که البته هنوز برای چشم‌انداز بزرگتر کافی نیست.

این سرمایه‌گذاری اولیه ساختمانی، اگرچه قابل توجه است، تنها بخشی از کل هزینه‌های بالقوه را نشان می‌دهد. Musk که در سال گذشته ۱۲ میلیارد دلار بودجه چشمگیر برای xAI تأمین کرده است، به دنبال عملیاتی در مقیاسی بی‌سابقه است. به نظر می‌رسد هزینه‌های ساخت و ساز مشاهده شده در Memphis، حداقل در مراحل اولیه، با سایر پروژه‌های بزرگ زیرساخت هوش مصنوعی، مانند ابتکار Stargate - تلاشی مشترک با غول‌های صنعتی Oracle، OpenAI و SoftBank که برای توسعه در Texas اعلام شده است - قابل مقایسه باشد. ارقام Memphis به طور قاطع قصد جدی xAI و سرمایه قابل توجهی را که حتی قبل از در نظر گرفتن هزینه گزاف سخت‌افزار محاسباتی به کار گرفته می‌شود، تثبیت می‌کند.

موتور محاسباتی: تغذیه جاه‌طلبی با سیلیکون پرقدرت

در قلب ‘گیگافکتوری محاسبات’ Memphis، سخت‌افزار قرار دارد - به طور خاص، لشکری از واحدهای پردازش گرافیکی (GPUs) از Nvidia، سازنده تراشه‌ای که در حال حاضر بر چشم‌انداز سخت‌افزار هوش مصنوعی تسلط دارد. Musk اعلام کرده است که فاز اولیه شامل ۲۰۰,۰۰۰ Nvidia GPU است و ادعا کرده که نیمی از این تعداد در یک دوره زمانی فوق‌العاده سریع ۱۲۲ روزه نصب شده‌اند. با این حال، این تنها یک پله برای رسیدن به هدفی بسیار بزرگتر است: افزایش مقیاس تأسیسات برای جای دادن نهایی یک میلیون GPU.

سیلیکون خاصی که این غول محاسباتی را به حرکت در می‌آورد شامل ترکیبی از تراشه‌های قدرتمند H100 و H200 Nvidia است. Musk به وجود ۱۰۰,۰۰۰ واحد H100 و ۵۰,۰۰۰ واحد H200 در استقرار اولیه ۲۰۰,۰۰۰ GPU اشاره کرده است. پیامدهای مالی تهیه چنین سخت‌افزاری، چه از طریق خرید مستقیم و چه از طریق ترتیبات اجاره از طریق ارائه‌دهندگان خدمات ابری، سرسام‌آور است. برآوردهای صنعتی هزینه هر تراشه H100 را بین ۲۷,۰۰۰ تا ۴۰,۰۰۰ دلار و واحدهای جدیدتر H200 را حدود ۳۲,۰۰۰ دلار تخمین می‌زنند.

بر اساس این ارقام، سخت‌افزار برای راه‌اندازی فعلی Memphis می‌تواند نشان‌دهنده سرمایه‌گذاری بیش از ۴.۳ میلیارد دلار باشد. با تعمیم این رقم به هدف نهایی یک میلیون GPU، حتی با استفاده از تخمین پایین‌تر ۲۷,۰۰۰ دلار برای هر تراشه H100، هزینه بالقوه سخت‌افزار به سمت ۲۷ میلیارد دلار افزایش می‌یابد. هنوز مشخص نیست که آیا xAI این تراشه‌ها را به طور کامل خریداری می‌کند یا از منابع رایانش ابری استفاده می‌کند، تمایزی که پیامدهای مالی و عملیاتی قابل توجهی دارد. برای مقایسه، xAI طبق گزارش‌ها ۷۰۰ میلیون دلار برای سخت‌افزار یک مرکز داده کوچکتر و جداگانه در Georgia سرمایه‌گذاری کرده است که با شرکت رسانه اجتماعی Musk یعنی X به اشتراک گذاشته شده و تقریباً ۱۲,۰۰۰ GPU را در خود جای داده است. این مقایسه جهش نمایی در مقیاس و هزینه را که پروژه Memphis نشان می‌دهد، برجسته می‌کند.

انتخاب Memphis، که توسط Musk و مقامات محلی به عنوان یک ‘سرمایه‌گذاری چند میلیارد دلاری’ تبلیغ می‌شود، به عنوان حرکتی برای تثبیت این شهر به عنوان ‘مرکز جهانی هوش مصنوعی’ معرفی شده است که عمدتاً مدل Grok 3 xAI و توسعه‌های آینده را تأمین می‌کند. با این حال، تراکم محض قدرت محاسباتی پیش‌بینی شده، چالشی به همان اندازه عظیم را به همراه دارد: تأمین انرژی.

معادله انرژی: یک گلوگاه حیاتی پدیدار می‌شود

جاه‌طلبی برای استقرار یک میلیون GPU مستقیماً با محدودیت‌های عملی زیرساخت‌های الکتریکی برخورد می‌کند. تأمین انرژی چنین تمرکز متراکمی از سخت‌افزار محاسباتی با کارایی بالا نیازمند تأمین انرژی عظیم و قابل اعتمادی است، حوزه‌ای که پروژه Memphis xAI با مهم‌ترین محدودیت خود مواجه است.

تاکنون، xAI رسماً ۳۰۰ مگاوات (MW) برق از شرکت تأمین‌کننده محلی، Memphis Light, Gas and Water (MLGW) درخواست کرده است. با این حال، تأییدیه‌ها تنها برای ۱۵۰ مگاوات برق شبکه صادر شده است. این شکاف قابل توجه بین ظرفیت درخواستی و تأیید شده، فشاری را که این پروژه بر شبکه برق موجود وارد می‌کند، برجسته می‌سازد.

با درک این محدودیت، xAI به طور فعال به دنبال تکمیل منبع تغذیه خود از طریق تولید برق در محل بوده است. درخواست‌های مجوز، برنامه‌هایی را برای توربین‌های گاز طبیعی، به ویژه واحدهای تأمین شده توسط شرکت تابعه Caterpillar یعنی Solar Turbines، نشان می‌دهد. این ژنراتورها قرار است مجموعاً ۲۵۰ مگاوات برق تولید کنند. در حالی که این ظرفیت در محل به طور قابل توجهی انرژی موجود را افزایش می‌دهد و کل توان بالقوه را به نزدیک ۴۰۰ مگاوات (۱۵۰ مگاوات شبکه + ۲۵۰ مگاوات در محل) می‌رساند، اما هنوز به شدت از الزامات چشم‌انداز نهایی یک میلیون GPU کمتر است.

xAI در اسناد مجوز خود مربوط به توربین‌های گازی، صراحتاً محدودیت‌های شبکه را تأیید کرده است. این شرکت اعلام کرد که دسترسی به ۳۰۰ مگاوات کامل درخواستی از شبکه منوط به ‘ارتقاء قابل توجه زیرساخت‌ها‘ و بهبود شبکه انتقال برق منطقه‌ای است. علاوه بر این، xAI اذعان کرد که نمی‌تواند به طور کافی نیازهای مشتری را ‘بدون تولید برق اضافی در محل‘ برآورده کند، که به وضوح نشان می‌دهد ترکیب فعلی برق شبکه تأیید شده و تولید برق برنامه‌ریزی شده در محل حتی برای اهداف میانی نیز کافی نیست، چه رسد به هدف نهایی.

کارشناسان تخمین می‌زنند که تأمین انرژی یک میلیون GPU پیشرفته Nvidia می‌تواند به بیش از ۱ گیگاوات (GW)، معادل ۱۰۰۰ مگاوات، نیاز داشته باشد. این رقم به شدت با حدود ۴۰۰ مگاواتی که در حال حاضر در Memphis برای xAI در دسترس است (ترکیب دسترسی تأیید شده به شبکه و تولید برق در محل) در تضاد است. به گفته Shaolei Ren، استاد مهندسی برق و کامپیوتر در University of California Riverside، پوشش برق موجود (حدود ۴۰۰ مگاوات) احتمالاً می‌تواند از استقرار اولیه تقریباً ۲۰۰,۰۰۰ Nvidia H100 GPU پشتیبانی کند. با این حال، فراتر رفتن از این تعداد به طور فزاینده‌ای چالش‌برانگیز خواهد بود و به طور بالقوه نیازمند استراتژی‌های تهاجمی ‘اشتراک بیش از حد’ (oversubscription) است. Ren خاطرنشان کرد: ‘هنوز ممکن است، اما این بدان معناست که از یک استراتژی تهاجمی اشتراک بیش از حد استفاده می‌شود.’ اشتراک بیش از حد در مراکز داده شامل قرارداد بستن با مشتریان برای ظرفیت برق بیشتر از آنچه در هر لحظه به طور فیزیکی در دسترس است، با تکیه بر احتمال آماری است که همه کاربران به طور همزمان حداکثر تخصیص خود را تقاضا نخواهند کرد - استراتژی‌ای که خطرات ذاتی دارد.

کمبود برق یک تنش اساسی را برجسته می‌کند: جدول زمانی شتاب‌زده و جاه‌طلبی مقیاس عظیم Musk در مقابل فرآیند زمان‌بر و پرهزینه ارتقاء زیرساخت‌های برق منطقه‌ای.

فشار بر شبکه: پویایی برق منطقه‌ای تحت فشار

اشتهای عظیم انرژی پروژه xAI یک پدیده منزوی نیست؛ بلکه منعکس‌کننده روند گسترده‌تری است که بر شبکه‌های برق منطقه‌ای فشار وارد می‌کند. Tennessee Valley Authority (TVA)، شرکت برق فدرال مسئول تولید و انتقال برق در بیشتر مناطق Tennessee و بخش‌هایی از شش ایالت همسایه، با رشد بار بی‌سابقه دست و پنجه نرم می‌کند. این افزایش تقاضا به طور قابل توجهی ناشی از گسترش مراکز داده پرمصرف مانند xAI، در کنار تولیدکنندگان باتری و سایر مصرف‌کنندگان بزرگ صنعتی است که در قلمرو خدمات آن در حال گسترش هستند.

در پاسخ به این تقاضای فزاینده، TVA در February اعلام کرد که قصد دارد ۱۶ میلیارد دلار قابل توجهی را طی چند سال آینده سرمایه‌گذاری کند. این سرمایه‌گذاری به طور خاص برای تقویت سیستم برق خود به منظور پاسخگویی به نیازهای رو به رشد و حفظ قابلیت اطمینان شبکه اختصاص یافته است. با این حال، چنین ارتقاهایی پیچیده هستند و زمان قابل توجهی برای اجرا نیاز دارند.

علاوه بر این، TVA پروتکل‌های نظارتی سختگیرانه‌ای را برای مصرف‌کنندگان بزرگ برق حفظ می‌کند. سخنگوی TVA توضیح داد که هیئت مدیره آن ‘باید هر بار جدیدی را که از ۱۰۰ مگاوات فراتر رود، بررسی و تأیید کند تا اطمینان حاصل شود که قابلیت اطمینان سیستم برق حفظ می‌شود.‘ این سیاست بر بررسی دقیق پروژه‌های عظیمی مانند xAI تأکید می‌کند تا اطمینان حاصل شود که تقاضاهای جدید، تأمین برق موجود برای سایر مشتریان را بی‌ثبات نمی‌کند. تخصیص اولیه ۱۵۰ مگاوات شبکه xAI قبلاً از این آستانه فراتر رفته است، که نشان می‌دهد بررسی اولیه را پشت سر گذاشته است، اما درخواست‌های آتی با بررسی مشابهی روبرو خواهند شد.

واقعیت‌های عملی تحویل برق نیز توسط مقامات محلی تأیید شد. در جلسه شورای شهر Memphis در January، مدیرعامل MLGW، Doug McGowen، به مقیاس بلندپروازانه مورد بحث برای پروژه xAI پرداخت. او هشدار داد: ‘مردم می‌توانند چیزهای زیادی را اعلام کنند، و من فکر می‌کنم این برای جامعه ما مهم است - که ما در مورد فرصت‌هایی که در راه هستند هیجان‌زده شویم. اما همانطور که می‌دانید، واقعیت‌های عملی در مورد بسیاری از چیزها وجود دارد.‘ اظهارات McGowen نشان می‌دهد که در حالی که شهر از مزایای اقتصادی بالقوه استقبال می‌کند، زیرساخت‌های برق محلی ممکن است در حال حاضر ظرفیت پشتیبانی از افراطی‌ترین نسخه‌های مقیاس اعلام شده پروژه را بدون ارتقاء قابل توجه و زمان‌بر نداشته باشد.

گسترش افق‌ها، موانع پایدار

علیرغم چالش‌های برق مرتبط با سایت اولیه، xAI در حال حاضر زمینه را برای گسترش بیشتر در Memphis فراهم می‌کند. در March، یک LLC مرتبط با این شرکت خرید ۱۸۶ هکتار زمین واقع در جنوب تأسیسات فعلی خود را نهایی کرد، خریدی به مبلغ ۸۰ میلیون دلار. این معامله شامل یک انبار صنعتی یک میلیون فوت مربعی قابل توجه واقع در یکی از قطعات بود که نشان‌دهنده قصد توسعه قابل توجه در آینده است.

همزمان با این گسترش، xAI به TVA مراجعه کرده است تا امکان‌سنجی تأمین ۲۶۰ مگاوات برق شبکه اضافی را به طور خاص برای این سایت جدید ارزیابی کند. این درخواست، که بر روی وضعیت چالش‌برانگیز برق در مکان اولیه لایه‌بندی شده است، فشار بر زیرساخت‌های انرژی منطقه‌ای را بیشتر می‌کند. در صورت اعطا، کل برق شبکه درخواستی xAI در هر دو سایت را به ۵۶۰ مگاوات (۳۰۰ مگاوات اولیه + ۲۶۰ مگاوات توسعه) می‌رساند، که هنوز بسیار کمتر از ۱ گیگاوات تخمینی مورد نیاز برای یک میلیون GPU است و به شدت به موفقیت و به موقع بودن بهبودهای برنامه‌ریزی شده شبکه TVA وابسته است.

پیگیری این تخصیص برق اضافی با همان ‘واقعیت‌های عملی’ که توسط مدیرعامل MLGW برجسته شد، مواجه می‌شود. ظرفیت شبکه برای تحویل، همچنان یک علامت سوال اصلی است که بر اندازه و جدول زمانی نهایی پروژه سایه افکنده است.

اجرا و نظارت: پیمایش در ساخت و ساز

ساخت فیزیکی تأسیسات Memphis عمدتاً توسط Darana Hybrid Electro-Mechanical Solutions، یک پیمانکار عمومی مستقر در Ohio، مدیریت می‌شود. Darana Hybrid اکثر مجوزهای ساخت ثبت شده برای این پروژه را ارائه کرده است. در حالی که این شرکت تجربه قبلی در پروژه‌های ساختمانی صنعتی در منطقه Memphis دارد، انتخاب آن برای پروژه‌ای با این عظمت، توجهاتی را در صنعت به خود جلب کرده است.

یک کهنه‌کار صنعت مراکز داده، که به دلیل عدم مجوز برای صحبت عمومی به صورت ناشناس اظهار نظر می‌کرد، مشاهده کرد که تا حدودی غیرمعمول است که یک شرکت متوسط مانند Darana Hybrid پروژه‌ای در مقیاس آنچه Musk برای سایت Memphis تصور می‌کند، که اغلب به صورت استعاری ‘Colossus’ نامیده می‌شود، را رهبری کند. به طور معمول، ساخت مراکز داده در مقیاس فوق‌العاده بزرگ شامل شرکت‌های بزرگتر و تخصصی‌تر است. این مشاهده لزوماً به معنای عدم کفایت نیست، بلکه جنبه بالقوه منحصر به فرد استراتژی اجرای پروژه را برجسته می‌کند.

تلاش‌ها برای کسب بینش بیشتر یا اظهارات رسمی در مورد پیشرفت پروژه، هزینه‌ها، استراتژی برق و انتخاب پیمانکار با سکوت مواجه شده است. نمایندگان نهادهای کلیدی درگیر، از جمله Elon Musk، xAI، Darana Hybrid، Tennessee Valley Authority و Memphis Light, Gas and Water، به درخواست‌ها برای اظهار نظر در مورد جزئیات فاش شده در درخواست‌های مجوز و چالش‌های برق مرتبط پاسخ ندادند. این عدم شفاف‌سازی عمومی، مسیر و تحقق نهایی ‘گیگافکتوری محاسبات’ بلندپروازانه Musk در Memphis را منوط به واقعیت‌های در حال آشکار شدن پیشرفت ساخت و ساز و مهمتر از همه، در دسترس بودن برق می‌کند.