AI 공장의 새벽: 12,000년의 필연

인공지능(AI) 분야에서 컨텍스트는 매우 중요합니다. 이는 인간 지능을 반영하는 원칙으로, 우리가 우리 자신의 모습과 유사하게 AI를 창조했기 때문에 AI와 관련이 있음을 시사합니다.

현재 NVIDIA와 같은 기업들이 AI 공장, 즉 페타바이트의 데이터를 처리하여 지능적인 응답을 제공하는 슈퍼컴퓨터를 옹호하며, 이는 세계 경제와 문화에 상당한 변화를 촉진하는 새로운 수단으로 여겨집니다.

하지만 우리는 어떻게 이 시점에 도달하게 되었을까요? 그 답은 언제나처럼 일련의 점진적인 발전에서 찾을 수 있습니다.

AI 공장의 구체적인 내용과 이것이 미래의 비즈니스와 사회에 미치는 영향에 대해 자세히 살펴보기 전에 몇 가지 기본적인 맥락을 설정해 보겠습니다.

신석기 혁명: 혁신의 씨앗을 뿌리다

약 12,000년 전, 우리 조상들은 유목 생활을 하는 수렵 채집인에서 정착하여 농경 생활을 하며 식물을 재배하고 동물을 길러 생계를 유지했습니다. 농업, 즉 농사는 햇빛, 물, 공기를 이용하여 식물과 동물을 성장시키는 초보적인 식품 공장을 나타냅니다. 중세 시대에 토지 경작에 대한 고정 임대료 지불을 의미하는 용어 ‘firma’는 농업과 동의어가 되었습니다.

농업은 효율적인 농업 운영을 위해 계층적 사회 구조를 필요로 했습니다. 문자는 이러한 식품 공장 내에서 투입물과 산출물을 추적하고 사회적 규칙을 설정하는 데 도움이 되는 행정 도구로 등장했습니다. 시간이 지나면서 문자는 다양한 영역을 포괄하도록 확장되었으며 복잡한 정보를 전달하는 강력한 수단으로 남아 있습니다.

우리가 활과 창을 괭이, 갈퀴, 쟁기로 바꾸고 점토나 돌에 첫 번째 상징적 문자를 새긴 순간부터 AI의 출현, 결과적으로 AI 공장의 출현은 필연적이 되었습니다. 단지 시간 문제였습니다.

산업 혁명: 대량 생산의 길을 열다

수천 년 동안 인류는 농업 기술을 연마하여 잉여 생산물을 산출했고, 이는 상품을 다른 사람을 위해 만드는 데 종사하는 사람들, 즉 라틴어 “손으로 하는 작업”에서 파생된 “제조업”에 종사하는 상인 계층의 출현을 촉진했습니다. 이는 교환 매개체인 돈의 개발로 이어졌고, 이는 물물교환을 가속화하고 현대 경제로 전환했습니다. 세계화는 탐험 시대 이후 지역 및 국가 경제를 상호 연결했습니다.

이후의 세계화 물결은 농업과 제조업 모두를 재편했습니다. 표준화된 제조의 중심지인 공장의 중추적인 변화는 속도와 반복성을 높이기 위해 생산 공정을 개별 단계로 나누는 것을 포함했습니다. 이 산업 혁명은 공장에서 효율성을 극대화하고 낭비를 최소화하기 위해 교육받은 노동자를 필요로 했기 때문에 문해율이 급증하는 계몽주의와 일치했습니다. 교육은 필수품이 되었고, 참정권, 사유 재산권, 종교의 자유, 안전, 언론, 신속한 재판을 받을 권리에 대한 인식을 촉진했습니다.

21세기에 자명한 이러한 원칙은 18세기에 기원을 두고 있습니다.

공장은 증기와 전기를 이용하여 조립 라인과 린 제조 기술에 전력을 공급하여 제조를 실내로 가져왔습니다. 이를 통해 상품을 저렴한 가격으로 생산할 수 있었고, 생활 수준을 높이고 중산층의 성장을 촉진하여 농업 사회의 능력을 뛰어넘는 경제 확장을 촉진했습니다.

AI 혁명: 새로운 개척지로서의 데이터

인터넷의 출현은 개인을 상호 연결하고 통찰력 있는 분석에 적합한 새로운 자원인 데이터를 생성했습니다.

AI 혁명은 방대한 양의 텍스트, 이미지, 비디오 및 오디오의 디지털화와 이러한 데이터를 처리하기 위한 저렴한 컴퓨팅 능력에 달려 있었습니다. 빅데이터는 대규모 병렬 GPU 및 높은 메모리 대역폭과 결합될 때 세계에 대한 우리의 이해를 인코딩하여 인공지능을 가능하게 하는 신경망 생성을 가능하게 합니다.

본질적으로 빅데이터는 기능적 신경망을 구축하기 위해 GPU 엔진에서 실행되는 AI 알고리즘에 대한 원자재를 제공합니다.

이러한 요소는 동시에 수렴되어야 합니다. 1980년대에 연구자들은 신경망 알고리즘을 가지고 있었지만 이를 구현할 컴퓨팅 자원과 데이터가 부족했습니다. 결과적으로 AI는 이러한 세 가지 조건이 충족될 때까지 대부분 이론적인 상태로 남아 있었습니다.

AI 공장: 문자 그대로의 변화

‘AI 공장’이라는 용어는 단순한 비유가 아니라 상업적 환경에서 운영되는 현대 AI 슈퍼컴퓨터를 정확하게 묘사한 것입니다. 이는 기업 컴퓨팅 및 데이터 분석, 즉 데이터를 실행 가능한 정보로 합성하는 것을 근본적으로 변화시킵니다.

AI 공장은 집단적 노력이 식량 생산을 보장했던 농업 혁명만큼이나 필연적입니다. 이 혁명으로 인한 사회적, 문화적 변화는 인류에게 사색과 혁신을 위한 여가 시간을 부여했습니다. 이제 기계는 인간 지식 전체에 접근하고 처리할 수 있으므로 대화형 검색이 가능하고 AI 알고리즘의 역방향 적용을 통해 다양한 형식으로 새로운 데이터를 생성할 수 있습니다.

기업과 개인은 직접 또는 시간 공유 계약을 통해 AI 공장에 접근할 수 있습니다. 이러한 AI 공장은 새로운 아이디어, 비전을 창출하고 개인의 창의적 역량을 증폭시킬 것입니다.

AI 공장의 변혁적 잠재력은 모든 것을 포괄합니다. 챗봇, 모델 훈련 및 추론을 위한 병렬 컴퓨팅 엔진 개발자, OpenAI, Anthropic, Google 및 Mistral과 같은 모델 제작자는 AI가 우리 삶의 모든 측면을 재편할 것이라는 데 동의합니다. 다양한 문제에 대한 전 세계적인 이견에도 불구하고 AI의 변혁적 영향은 보편적으로 인정됩니다.

통찰력 및 행동 제조

AI 공장은 두 가지 주요 기능을 수행합니다. 첫 번째는 기초 모델을 훈련하여 비즈니스 및 개인 개선을 위한 통찰력을 얻는 것입니다. 두 번째이자 더 중요한 기능은 새로운 데이터와 질문을 이러한 모델에 공급하여 새로운 답변을 추론하고, 새로운 토큰을 생성하고, 행동을 유도하는 것입니다.

AI와 관련된 많은 논의는 수백억에서 수조 개의 매개변수와 방대한 데이터 세트를 자랑하는 끊임없이 확장되는 기초 모델 훈련에 집중되었습니다. 토큰 수는 지식의 폭을 나타내고, 매개변수는 이해의 깊이를 반영합니다. 더 큰 토큰 세트와 짝을 이루는 더 작은 매개변수 수는 더 빠르고 간단한 답변을 제공합니다. 반대로 더 큰 매개변수 수와 더 작은 토큰 세트는 제한된 영역에 대한 보다 미묘한 통찰력을 제공합니다. 연쇄적 사고 추론 모델은 다중 모드 속성을 가지며 특수 모델을 결합하여 다른 입력을 유도하는 출력을 고려하여 포괄적인 답변을 생성합니다.

AI 공장은 인류가 만든 모든 콘텐츠와 AI 모델이 생성한 합성 데이터를 원자재로 활용합니다. 이 데이터에서 파생된 통찰력은 인간과 AI 에이전트가 행동을 유도하는 데 활용합니다. 공장에서 일하는 대신 개인은 공장에 접속하여 AI 모델의 지식과 속도로 기술을 강화하여 더 많은, 더 나은, 더 빠른 결과를 얻습니다.

NVIDIA의 공동 설립자이자 CEO인 젠슨 황에 따르면 ‘세계는 최첨단 대규모 AI 공장을 건설하기 위해 경쟁하고 있습니다.’ AI 공장을 설립하는 것은 막대한 자원, 인력 및 자재를 필요로 하는 특별한 엔지니어링 위업입니다.

AI 공장을 건설하려면 상당한 자본 투자가 필요합니다. 일반적인 구성은 GPU, CPU, 고속 상호 연결 및 스토리지를 특징으로 하는 DGX 시스템의 여러 랙을 기반으로 하는 NVIDIA DGX SuperPOD로 구성됩니다.

수많은 DGX 시스템을 통해 SuperPOD는 상당한 메모리 용량과 대역폭을 자랑하며 상당한 성능을 제공합니다. 성능은 더 많은 시스템을 추가하여 확장할 수 있습니다.

AI 공장에 대한 또 다른 NVIDIA 청사진은 GPU, CPU, DPU, SuperNIC, NVLink 및 NVSwitch, 고속 네트워킹을 통합하는 랙 스케일 시스템인 NVIDIA GB200 NVL72 플랫폼을 중심으로 합니다. 이 플랫폼은 AI 모델을 위한 더 큰 공유 GPU 메모리 도메인과 더 높은 컴퓨팅 밀도를 제공하므로 액체 냉각이 필요합니다.

전체 볼륨으로 배송되는 GB200 NVL72는 모델을 구축하고 다양한 형식으로 데이터를 생성할 수 있는 자립형 시스템을 나타냅니다.

GB200 NVL72는 Blackwell GPU와 결합된 NVIDIA Grace CPU를 특징으로 하는 MGX 서버 노드로 구성됩니다. 이러한 서버 노드 중 2개는 NVL72 랙 내에서 컴퓨팅 트레이를 형성하며, 18개의 컴퓨팅 트레이에는 수많은 GPU 및 CPU가 있습니다.

GB200 NVL72 랙 스케일 시스템은 고속 NVLink 연결을 통해 상호 연결된 Grace CPU와 Blackwell GPU를 결합합니다. NVLink 포트와 NVSwitch 칩은 공유 메모리 구성에서 모든 GPU를 연결하며 기초 모델 교육 및 연쇄적 사고 추론에 이상적입니다.

9개의 NVLink 스위치 트레이로 용이하게 된 NVLink 패브릭은 AI 애플리케이션을 위해 모든 GPU 다이에 통합 GPU로 액세스할 수 있도록 합니다.

GB200 NVL72 시스템은 호스트 처리를 위한 수많은 Arm 코어와 상당한 부동 소수점 처리 능력을 특징으로 합니다. GB200 NVL72 시스템은 GPU에 연결된 상당한 HBM3e 메모리와 높은 집계 대역폭을 자랑합니다. Grace CPU는 NVLink를 통해 액세스할 수 있는 LPDDR5X 메모리를 특징으로 합니다.

NVIDIA GB200 NVL72는 온라인 트랜잭션 처리에 대한 System/360의 변혁적 영향을 반영하며, 주요 차이점은 NVL72의 InfiniBand 상호 연결을 통한 확장성입니다.

NVL72 랙 스케일 시스템을 기반으로 하는 DGX SuperPOD 구성은 상당한 전력을 필요로 하지만 여러 컴퓨팅 랙에서 막대한 컴퓨팅 성능과 메모리 용량을 제공합니다. 성능은 더 많은 랙을 추가하여 확장할 수 있습니다.

NVL72 랙의 컴퓨팅 밀도는 특수 액체 냉각 및 데이터 센터 인프라가 필요하며, 이는 수냉식 기계가 성능을 극대화했던 과거의 관행으로의 복귀를 나타냅니다.

AI 공장은 추론이 다양한 애플리케이션에 필수적이 되면서 특히 연쇄적 사고 추론 모델로의 전환으로 인해 훨씬 더 많은 컴퓨팅 능력을 요구할 것입니다.

AI 공장은 하드웨어뿐만 아니라 시스템 및 개발 소프트웨어도 포함합니다.

DGX GB200 시스템 및 DGX SuperPOD AI 슈퍼컴퓨터는 AI 워크로드를 오케스트레이션하고 작업을 자동으로 복구하는 NVIDIA Mission Control과 같은 도구를 통해 관리 및 모델링이 용이합니다. Mission Control은 시스템 상태를 모니터링하고 전력 소비를 최적화합니다.

NVIDIA AI Enterprise는 NVIDIA GPU 및 네트워크에 최적화된 라이브러리, 모델 및 프레임워크를 포함하는 시스템 소프트웨어 스위트입니다. AI 공장 스택은 또한 NVLink 및 DGX SuperPOD 인프라에서 추론을 실행하기 위한 오픈 소스 프레임워크인 NVIDIA Dynamo를 특징으로 합니다. DGX Expert Service 및 Support는 고객이 이러한 기술을 구현하여 첫 번째 토큰까지 걸리는 시간을 줄이는 데 도움이 됩니다. NVIDIA는 데이터 센터 설계를 시뮬레이션하고 최적화하기 위해 Omniverse ‘디지털 트윈’ 환경에 대한 AI 공장 청사진을 제공합니다.

AI 공장의 중요한 측면은 NVIDIA가 시스템 성장을 위한 헤드룸을 우선시하면서 창출하는 사고 방식의 변화입니다.

NVIDIA의 네트워킹 담당 수석 부사장인 길라드 샤이너에 따르면 ‘이제 토큰 생성은 많은 회사에서 수익 창출과 같습니다.’ 데이터 센터는 비용 센터에서 생산적인 자산으로 진화하고 있습니다.

그리고 그것이 궁극적으로 공장을 건설하는 본질입니다.