Dự án lớn Memphis: Siêu máy tính xAI $400M đối mặt hạn chế điện

Công ty trí tuệ nhân tạo của Elon Musk, xAI, đang đầu tư một khoản vốn đáng kể để thành lập một cơ sở siêu máy tính khổng lồ ở Memphis, Tennessee, một dự án đầy tham vọng đã phải đối mặt với những trở ngại đáng kể liên quan đến nguồn cung cấp điện. Trong khi Musk hình dung địa điểm này là ‘gigafactory of compute’, có khả năng chứa siêu máy tính lớn nhất thế giới, các tài liệu tiết lộ cả quy mô đầu tư ban đầu và sự thiếu hụt năng lượng nghiêm trọng đang thách thức phạm vi cuối cùng của nó.

Đặt nền móng: Nền tảng xây dựng trên hàng trăm triệu đô la

Cam kết tài chính cho dự án Memphis đang trở nên rõ ràng hơn thông qua các hồ sơ chính thức. Kể từ khi dự án được công bố công khai vào tháng 6 năm 2024, một loạt mười bốn đơn xin giấy phép xây dựng đã được nộp cho các cơ quan quy hoạch và phát triển địa phương. Các tài liệu này cùng nhau phác thảo chi phí dự án ước tính lên tới $405.9 triệu. Con số này đại diện cho khoản đầu tư hữu hình vào việc biến địa điểm được chọn thành một trung tâm có khả năng hỗ trợ tính toán AI tiên tiến.

Phạm vi công việc được nêu chi tiết trong các giấy phép này cung cấp cái nhìn sâu sắc về bản chất đa diện của việc xây dựng một cơ sở như vậy:

  • Cơ sở hạ tầng cốt lõi: Nguồn lực đáng kể được phân bổ cho các hệ thống điện, cơ khí và ống nước cơ bản cần thiết cho một trung tâm dữ liệu quy mô lớn.
  • Lắp đặt chuyên dụng: Một giấy phép đáng chú ý đặc biệt bao gồm việc lắp đặt trị giá $30 triệu dành cho thiết bị máy tính, nhấn mạnh bản chất chuyên biệt của môi trường phần cứng đang được tạo ra.
  • Biện pháp an ninh: Phản ánh giá trị của tài sản liên quan, một hàng rào chu vi trị giá $3.9 triệu, được thiết kế để chịu được tác động của phương tiện, nhấn mạnh các giao thức an ninh đang được thực hiện.
  • Cơ sở hạ tầng điện: Quan trọng là, đơn đăng ký gần đây nhất được ghi nhận, nộp vào tháng 1, liên quan đến việc xây dựng một trạm biến áp điện mới, một thành phần quan trọng để quản lý nhu cầu điện năng khổng lồ dự kiến, nhưng vẫn chưa đủ cho tầm nhìn lớn nhất.

Khoản đầu tư xây dựng ban đầu này, mặc dù đáng kể, chỉ chiếm một phần nhỏ trong tổng chi phí tiềm năng. Musk, sau khi huy động được $12 tỷ tài trợ ấn tượng cho xAI trong năm qua, đang nhắm đến một hoạt động có quy mô chưa từng có. Chi phí xây dựng được quan sát ở Memphis dường như có thể so sánh rộng rãi, ít nhất là trong các giai đoạn đầu, với các dự án cơ sở hạ tầng AI lớn khác, chẳng hạn như sáng kiến Stargate—một nỗ lực hợp tác liên quan đến những gã khổng lồ trong ngành như Oracle, OpenAI và SoftBank, được công bố phát triển ở Texas. Các con số ở Memphis khẳng định chắc chắn ý định nghiêm túc của xAI và nguồn vốn đáng kể đang được triển khai ngay cả trước khi xem xét chi phí cắt cổ của chính phần cứng máy tính.

Động cơ tính toán: Thúc đẩy tham vọng bằng Silicon hiệu năng cao

Trái tim của ‘gigafactory of compute’ ở Memphis là phần cứng – cụ thể là hàng loạt Bộ xử lý đồ họa (GPU) từ Nvidia, nhà sản xuất chip hiện đang thống trị thị trường phần cứng AI. Musk đã tuyên bố rằng giai đoạn đầu bao gồm 200,000 GPU Nvidia, khẳng định rằng một nửa trong số này đã được lắp đặt trong khoảng thời gian nhanh chóng đáng kinh ngạc là 122 ngày. Tuy nhiên, đây chỉ là bước đệm hướng tới một mục tiêu lớn hơn nhiều: mở rộng cơ sở để cuối cùng chứa một triệu GPU.

Silicon cụ thể điều khiển cỗ máy tính toán khổng lồ này bao gồm sự kết hợp của các chip H100 và H200 mạnh mẽ của Nvidia. Musk đã chỉ ra sự hiện diện của 100,000 đơn vị H10050,000 đơn vị H200 trong đợt triển khai 200,000 GPU ban đầu. Các tác động tài chính của việc mua sắm phần cứng như vậy, dù thông qua mua trực tiếp hay thỏa thuận cho thuê qua các nhà cung cấp dịch vụ đám mây, là rất lớn. Ước tính của ngành đặt chi phí của các chip H100 riêng lẻ vào khoảng $27,000 đến $40,000, trong khi các đơn vị H200 mới hơn được ước tính khoảng $32,000 mỗi chiếc.

Dựa trên những con số này, phần cứng cho thiết lập Memphis hiện tại có thể đại diện cho một khoản đầu tư lên tới $4.3 tỷ. Ngoại suy đến mục tiêu cuối cùng là một triệu GPU, ngay cả khi sử dụng ước tính thấp nhất là $27,000 cho mỗi chip H100, cho thấy chi phí phần cứng tiềm năng tăng vọt lên tới $27 tỷ. Vẫn chưa rõ liệu xAI đang mua thẳng các chip này hay sử dụng tài nguyên điện toán đám mây, một sự khác biệt có ý nghĩa tài chính và hoạt động đáng kể. Để tham khảo, xAI được cho là đã đầu tư $700 triệu vào phần cứng cho một trung tâm dữ liệu nhỏ hơn, riêng biệt ở Georgia, được chia sẻ với công ty truyền thông xã hội X của Musk, nơi chứa khoảng 12,000 GPU. Sự so sánh này làm nổi bật bước nhảy vọt theo cấp số nhân về quy mô và chi phí được đại diện bởi dự án Memphis.

Việc lựa chọn Memphis, được cả Musk và các quan chức địa phương quảng bá là một ‘khoản đầu tư hàng tỷ đô la’, được định vị là một động thái nhằm đưa thành phố trở thành ‘trung tâm AI toàn cầu’, chủ yếu cung cấp năng lượng cho mô hình Grok 3 của xAI và các phát triển trong tương lai. Tuy nhiên, mật độ năng lượng tính toán khổng lồ được hình dung mang đến một thách thức lớn không kém: nguồn cung cấp năng lượng.

Phương trình năng lượng: Nút thắt cổ chai quan trọng xuất hiện

Tham vọng triển khai một triệu GPU đối mặt trực diện với những hạn chế thực tế của cơ sở hạ tầng điện. Việc cung cấp năng lượng cho một mật độ tập trung cao như vậy của phần cứng máy tính hiệu năng cao đòi hỏi một nguồn cung cấp năng lượng khổng lồ và đáng tin cậy, một lĩnh vực mà dự án Memphis của xAI phải đối mặt với hạn chế đáng kể nhất.

Cho đến nay, xAI đã chính thức yêu cầu 300 megawatt (MW) điện từ nhà cung cấp tiện ích địa phương, Memphis Light, Gas and Water (MLGW). Tuy nhiên, chỉ có 150 MW điện lưới được phê duyệt. Khoảng cách đáng kể giữa công suất yêu cầu và công suất được phê duyệt này nhấn mạnh sự căng thẳng mà dự án đặt ra đối với lưới điện hiện có.

Nhận thức được hạn chế này, xAI đã chủ động tìm cách bổ sung nguồn cung cấp điện thông qua việc phát điện tại chỗ. Các đơn xin giấy phép tiết lộ kế hoạch cho các tuabin khí tự nhiên, cụ thể là các đơn vị được cung cấp bởi công ty con của Caterpillar là Solar Turbines. Các máy phát điện này dự kiến sẽ sản xuất tổng cộng 250 MW điện. Mặc dù công suất tại chỗ này tăng cường đáng kể năng lượng sẵn có, đưa tổng công suất tiềm năng lên gần 400 MW (150 MW lưới + 250 MW tại chỗ), nó vẫn còn thiếu hụt nghiêm trọng so với yêu cầu cho tầm nhìn cuối cùng về một triệu GPU.

Trong các tài liệu xin phép riêng liên quan đến tuabin khí, xAI đã thừa nhận rõ ràng những hạn chế của lưới điện. Công ty tuyên bố rằng việc truy cập toàn bộ 300 MW yêu cầu từ lưới điện phụ thuộc vào ‘nâng cấp cơ sở hạ tầng đáng kể‘ và cải thiện mạng lưới truyền tải điện khu vực. Hơn nữa, xAI thừa nhận rằng họ không thể phục vụ đầy đủ nhu cầu của khách hàng ‘nếu không có thêm nguồn phát điện tại chỗ‘, chỉ rõ rằng sự kết hợp hiện tại giữa điện lưới được phê duyệt và kế hoạch phát điện tại chỗ là không đủ ngay cả cho các mục tiêu trung gian, chứ đừng nói đến mục tiêu cuối cùng.

Các chuyên gia ước tính rằng việc cung cấp năng lượng cho một triệu GPU Nvidia tiên tiến có thể yêu cầu hơn 1 gigawatt (GW), tương đương 1,000 MW. Con số này tương phản rõ rệt với khoảng 400 MW hiện có thể truy cập được cho xAI ở Memphis (kết hợp quyền truy cập lưới điện được phê duyệt và phát điện tại chỗ). Theo Shaolei Ren, giáo sư kỹ thuật điện và máy tính tại Đại học California Riverside, phạm vi công suất hiện có (khoảng 400 MW) có thể hỗ trợ việc triển khai ban đầu khoảng 200,000 GPU Nvidia H100. Tuy nhiên, việc vượt quá con số này sẽ ngày càng trở nên khó khăn, có khả năng đòi hỏi các chiến lược ‘đăng ký vượt mức’ (oversubscription) mạnh mẽ. Ren lưu ý, ‘Điều đó vẫn có thể thực hiện được, nhưng có nghĩa là một chiến lược đăng ký vượt mức mạnh mẽ được sử dụng.’ Đăng ký vượt mức trong các trung tâm dữ liệu liên quan đến việc ký hợp đồng cung cấp nhiều công suất điện cho khách hàng hơn mức thực tế có sẵn tại bất kỳ thời điểm nào, dựa vào xác suất thống kê rằng không phải tất cả người dùng sẽ yêu cầu mức phân bổ tối đa của họ cùng một lúc – một chiến lược mang những rủi ro cố hữu.

Sự thiếu hụt điện năng làm nổi bật một căng thẳng cơ bản: tiến độ nhanh chóng và tham vọng quy mô lớn của Musk so với quá trình tốn thời gian và tốn kém của việc nâng cấp cơ sở hạ tầng điện khu vực.

Gây căng thẳng cho lưới điện: Động lực điện khu vực chịu áp lực

Nhu cầu năng lượng khổng lồ của dự án xAI không phải là một hiện tượng cá biệt; nó phản ánh một xu hướng rộng lớn hơn đang gây áp lực lên lưới điện khu vực. Tennessee Valley Authority (TVA), công ty tiện ích thuộc sở hữu liên bang chịu trách nhiệm sản xuất và truyền tải điện trên hầu hết Tennessee và các phần của sáu tiểu bang lân cận, đang vật lộn với mức tăng trưởng phụ tải cao lịch sử. Sự gia tăng nhu cầu này được thúc đẩy đáng kể bởi sự gia tăng của các trung tâm dữ liệu ngốn điện như của xAI, cùng với các nhà sản xuất pin và các khách hàng công nghiệp lớn khác đang mở rộng trong khu vực dịch vụ của mình.

Để đối phó với nhu cầu leo thang này, TVA đã công bố vào tháng 2 ý định đầu tư một khoản đáng kể $16 tỷ trong vài năm tới. Khoản đầu tư này được dành riêng để củng cố hệ thống điện của mình nhằm đáp ứng nhu cầu ngày càng tăng và duy trì độ tin cậy của lưới điện. Tuy nhiên, việc nâng cấp như vậy rất phức tạp và mất nhiều thời gian để thực hiện.

Hơn nữa, TVA duy trì các quy trình giám sát nghiêm ngặt đối với những người tiêu thụ điện lớn. Một phát ngôn viên của TVA làm rõ rằng hội đồng quản trị của họ ‘sẽ cần xem xét và phê duyệt bất kỳ phụ tải mới nào vượt quá 100 MW để đảm bảo độ tin cậy của hệ thống điện có thể được duy trì.‘ Chính sách này nhấn mạnh sự giám sát chặt chẽ được áp dụng cho các dự án lớn như của xAI, đảm bảo rằng các nhu cầu mới không làm mất ổn định nguồn cung cấp điện hiện có cho các khách hàng khác. Việc phân bổ 150 MW lưới điện ban đầu của xAI đã vượt qua ngưỡng này, cho thấy nó đã qua đánh giá ban đầu, nhưng các yêu cầu trong tương lai sẽ phải đối mặt với sự cân nhắc tương tự.

Thực tế thực dụng của việc cung cấp điện cũng được các quan chức địa phương thừa nhận. Trong một cuộc họp hội đồng thành phố Memphis vào tháng 1, Giám đốc điều hành MLGW Doug McGowen đã đề cập đến quy mô đầy tham vọng được thảo luận cho dự án xAI. Ông cảnh báo, ‘Mọi người có thể công bố nhiều thứ, và tôi nghĩ điều đó quan trọng đối với cộng đồng của chúng ta — rằng chúng ta hào hứng với những cơ hội đang đến. Nhưng như bạn biết, có những thực tế thực dụng về rất nhiều thứ.‘ Bình luận của McGowen cho thấy rằng trong khi thành phố hoan nghênh những lợi ích kinh tế tiềm năng, cơ sở hạ tầng tiện ích địa phương hiện tại có thể không có đủ năng lực để hỗ trợ các phiên bản cực đoan nhất về quy mô được công bố của dự án mà không cần những nâng cấp đáng kể, tốn thời gian.

Mở rộng tầm nhìn, những trở ngại dai dẳng

Bất chấp những thách thức về điện năng liên quan đến địa điểm ban đầu, xAI đã đặt nền móng cho việc mở rộng hơn nữa ở Memphis. Vào tháng 3, một công ty TNHH liên kết với công ty đã hoàn tất việc mua 186 mẫu đất nằm ở phía nam cơ sở hiện tại của mình, một thương vụ mua lại trị giá $80 triệu. Giao dịch này bao gồm một nhà kho công nghiệp rộng một triệu feet vuông đáng kể nằm trên một trong các lô đất, báo hiệu ý định phát triển đáng kể trong tương lai.

Đồng thời với việc mở rộng này, xAI đã tiếp cận TVA để đánh giá tính khả thi của việc đảm bảo thêm 260 MW điện lưới đặc biệt cho địa điểm mới này. Yêu cầu này, được đặt chồng lên tình hình điện năng vốn đã đầy thách thức tại địa điểm ban đầu, càng làm tăng thêm áp lực lên cơ sở hạ tầng năng lượng khu vực. Nếu được cấp, nó sẽ nâng tổng công suất điện lưới yêu cầu của xAI trên cả hai địa điểm lên 560 MW (300 MW ban đầu + 260 MW mở rộng), vẫn còn xa so với ước tính >1 GW cần thiết cho một triệu GPU, và phụ thuộc rất nhiều vào sự thành công và kịp thời của các kế hoạch nâng cấp lưới điện của TVA.

Việc theo đuổi phân bổ điện bổ sung này gặp phải những ‘thực tế thực dụng’ tương tự được nhấn mạnh bởi Giám đốc điều hành của MLGW. Khả năng cung cấp của lưới điện vẫn là một dấu hỏi trung tâm treo lơ lửng trên quy mô và tiến độ cuối cùng của dự án.

Thực thi và Giám sát: Điều hướng quá trình xây dựng

Việc xây dựng thực tế cơ sở Memphis đang được quản lý chủ yếu bởi Darana Hybrid Electro-Mechanical Solutions, một nhà thầu tổng hợp có trụ sở tại Ohio. Darana Hybrid đã nộp phần lớn các giấy phép xây dựng được đệ trình cho dự án. Mặc dù công ty có kinh nghiệm trước đây với các dự án xây dựng công nghiệp trong khu vực Memphis, việc lựa chọn công ty này cho một dự án có quy mô lớn như vậy đã thu hút sự chú ý trong ngành.

Một chuyên gia kỳ cựu trong ngành trung tâm dữ liệu, bình luận ẩn danh do không được phép phát biểu công khai, nhận xét rằng có phần bất thường khi một công ty cỡ trung như Darana Hybrid lại dẫn đầu một dự án quy mô như những gì Musk hình dung cho địa điểm Memphis, thường được gọi một cách ẩn dụ là ‘Colossus’. Thông thường, việc xây dựng trung tâm dữ liệu siêu quy mô liên quan đến các công ty lớn hơn, chuyên biệt hơn. Quan sát này không nhất thiết ám chỉ sự không đủ năng lực mà làm nổi bật một khía cạnh tiềm năng độc đáo trong chiến lược thực hiện của dự án.

Những nỗ lực để có thêm thông tin chi tiết hoặc tuyên bố chính thức về tiến độ, chi phí, chiến lược năng lượng và lựa chọn nhà thầu của dự án đã gặp phải sự im lặng. Đại diện từ các đơn vị chủ chốt liên quan, bao gồm Elon Musk, xAI, Darana Hybrid, Tennessee Valley Authority, và Memphis Light, Gas and Water, đã không trả lời yêu cầu bình luận về các chi tiết được tiết lộ trong các đơn xin giấy phép và những thách thức về điện năng liên quan. Sự thiếu rõ ràng công khai này khiến quỹ đạo và việc hiện thực hóa cuối cùng của ‘gigafactory of compute’ đầy tham vọng của Musk ở Memphis phụ thuộc vào thực tế đang diễn ra của tiến độ xây dựng và, quan trọng nhất, là sự sẵn có của nguồn điện.