DeepSeek의 발전으로 대표되는 AI 기술의 빠른 혁신 속도는 필요한 컴퓨팅 성능을 제공하기 위해 데이터 센터, 칩 및 시스템을 구축하는 방식을 근본적으로 재평가해야 함을 시사합니다. DeepSeek의 엔지니어링 혁신은 AI 컴퓨팅 비용을 크게 줄여 AI 인프라의 미래에 대한 광범위한 논의를 촉발했습니다.
DeepSeek이 AI 기술의 경계를 크게 확장하지는 못했지만, AI 시장에 미치는 영향은 심오합니다. MoE(Mixture of Experts), MLA(Multi-Layer Attention) 및 MTP(Multi-Token Prediction)와 같은 기술이 DeepSeek과 함께 두각을 나타냈습니다. 이러한 기술이 모두 DeepSeek에서 개척한 것은 아니지만, 성공적인 구현으로 인해 광범위한 채택이 촉진되었습니다. 특히 MLA는 엣지 장치에서 클라우드 컴퓨팅에 이르기까지 다양한 플랫폼에서 논의의 초점이 되었습니다.
MLA와 알고리즘 혁신의 과제
NextSilicon의 CEO인 엘라드 라즈(Elad Raz)는 최근 MLA가 메모리 효율성을 향상시키지만 개발자의 작업량을 늘리고 AI의 프로덕션 환경 적용을 복잡하게 만들 수 있다고 지적했습니다. GPU 사용자는 MLA에 대한 ‘수동 코드’ 최적화에 참여해야 할 수도 있습니다. 이 예는 DeepSeek 시대 이후 AI 칩 및 인프라 아키텍처의 구현을 재고해야 할 필요성을 강조합니다.
MLA의 중요성을 이해하려면 LLM(Large Language Models)의 기본 개념을 파악하는 것이 필수적입니다. 사용자 입력에 대한 응답을 생성할 때 LLM은 관련 데이터에 집중할 수 있도록 하는 KV 벡터(키 및 값)에 크게 의존합니다. 주의 메커니즘에서 모델은 새로운 요청을 키와 비교하여 가장 관련성이 높은 콘텐츠를 결정합니다.
엘라드 라즈는 책에 대한 비유를 사용하는데, 키는 ‘각 부분이 무엇에 관한 것인지 나타내는 책의 장 제목과 같으며, 값은 해당 제목 아래의 더 자세한 요약’이라고 설명합니다. 따라서 사용자가 요청을 입력하면 답변 생성을 돕기 위해 검색어를 요청합니다. ‘이 스토리라인에서 어떤 장이 가장 관련성이 있습니까?’라고 묻는 것과 같습니다.
MLA는 이러한 장 제목(키)과 요약(값)을 압축하여 답변을 찾는 프로세스를 가속화하고 효율성을 높입니다. 궁극적으로 MLA는 DeepSeek이 메모리 사용량을 5-13% 줄이는 데 도움이 됩니다. 자세한 내용은 DeepSeek의 공식 문서에서 확인할 수 있습니다. MediaTek의 개발자 컨퍼런스에서는 Dimensity 모바일 칩에서 MLA 지원에 대해 논의했으며, 이는 DeepSeek의 광범위한 영향력을 강조합니다.
MLA와 같은 기술은 AI 시대의 전형적인 알고리즘 혁신을 나타냅니다. 그러나 AI 기술 개발의 빠른 속도는 끊임없는 혁신을 가져오고, 이는 특히 이러한 혁신이 특정 플랫폼에 맞춤화될 때 새로운 과제를 만듭니다. MLA의 경우 NVIDIA GPU를 사용하지 않는 사용자는 기술을 활용하기 위해 추가 수동 코딩이 필요합니다.
DeepSeek의 기술은 AI 시대의 혁신과 가치를 입증하지만 하드웨어와 소프트웨어는 이러한 혁신에 적응해야 합니다. 엘라드 라즈에 따르면 이러한 적응은 개발자와 프로덕션 환경의 복잡성을 최소화해야 합니다. 그렇지 않으면 각 혁신의 비용이 지나치게 높아집니다.
그렇다면 ‘다음 알고리즘 혁신이 기존 아키텍처에 잘 적용되지 않고 간단하게 적용되지 않으면 어떻게 될까요?’라는 질문이 제기됩니다.
칩 설계와 알고리즘 혁신 간의 충돌
지난 몇 년 동안 AI 칩 제조업체는 대형 AI 칩을 설계하는 데 최소 1~2년이 걸린다고 꾸준히 보고했습니다. 이는 칩 설계가 칩의 시장 출시보다 훨씬 앞서 시작되어야 함을 의미합니다. AI 기술의 빠른 발전을 고려할 때 AI 칩 설계는 미래를 내다봐야 합니다. 현재 요구 사항에만 집중하면 최신 애플리케이션 혁신에 적응할 수 없는 구식 AI 칩이 발생합니다.
AI 애플리케이션 알고리즘 혁신은 이제 매주 발생합니다. 이전 기사에서 언급했듯이 AI 모델이 동일한 기능을 달성하는 데 필요한 컴퓨팅 성능은 매년 4~10배 감소합니다. GPT-3와 유사한 품질을 달성하는 AI 모델의 추론 비용은 지난 3년 동안 1200배 감소했습니다. 현재 20억 개의 파라미터를 가진 모델은 어제의 1700억 개의 파라미터 GPT-3와 동일한 수준을 달성할 수 있습니다. AI 기술 스택의 상위 레이어에서 일어나는 이러한 빠른 혁신은 기존 칩 아키텍처 계획 및 설계에 상당한 문제를 야기합니다.
엘라드 라즈는 업계가 DeepSeek MLA와 같은 혁신을 AI 기술의 표준으로 인식해야 한다고 믿습니다. ‘차세대 컴퓨팅은 오늘날의 워크로드를 최적화할 뿐만 아니라 미래의 획기적인 발전을 수용해야 합니다.’ 이러한 관점은 칩 산업뿐만 아니라 AI 기술 스택의 전체 중간에서 하위 수준 인프라에도 적용됩니다.
‘DeepSeek 및 기타 혁신은 알고리즘 혁신의 빠른 발전을 입증했습니다.’라고 엘라드 라즈는 말했습니다. ‘연구원과 데이터 과학자는 새로운 통찰력과 발견을 이끌어내기 위해 더 다재다능하고 탄력적인 도구가 필요합니다. 시장은 고객이 기존 가속기 솔루션을 ‘드롭인 교체’할 수 있도록 지원하는 동시에 개발자가 작업을 고통 없이 포팅할 수 있도록 지원하는 지능형 소프트웨어 정의 하드웨어 컴퓨팅 플랫폼이 필요합니다.’
이러한 상황에 대처하기 위해 업계는 더욱 지능적이고 적응 가능하며 유연한 컴퓨팅 인프라를 설계해야 합니다.
유연성과 효율성은 종종 상충되는 목표입니다. CPU는 매우 유연하지만 GPU보다 병렬 컴퓨팅 효율성이 훨씬 낮습니다. 프로그래밍 가능성을 갖춘 GPU는 전용 AI ASIC 칩보다 효율성이 떨어질 수 있습니다.
엘라드 라즈는 NVIDIA가 AI 데이터 센터 랙이 곧 600kW의 전력 소비에 도달할 것으로 예상한다고 언급했습니다. 참고로 표준 엔터프라이즈 데이터 센터의 75%는 랙당 최대 전력 소비량이 15-20kW에 불과합니다. AI의 잠재적인 효율성 향상에 관계없이 이는 컴퓨팅 인프라 시스템을 구축하는 데이터 센터에 상당한 문제를 야기합니다.
엘라드 라즈는 현재의 GPU 및 AI 가속기가 AI 및 HPC(고성능 컴퓨팅)의 잠재적인 요구를 충족하기에 충분하지 않을 수 있다고 생각합니다. ‘컴퓨팅 효율성을 개선하는 방법을 근본적으로 재고하지 않으면 업계는 물리적, 경제적 한계에 도달할 위험이 있습니다. 이러한 장벽은 알고리즘이나 기존 GPU 아키텍처의 발전에도 불구하고 더 많은 조직의 AI 및 HPC 액세스를 제한하여 혁신을 저해하는 부작용도 발생시킬 것입니다.’
차세대 컴퓨팅 인프라에 대한 권장 사항 및 요구 사항
이러한 관찰을 바탕으로 엘라드 라즈는 차세대 컴퓨팅 인프라를 정의하기 위한 ‘4가지 기둥’을 제안했습니다.
(1) 플러그 앤 플레이 교체 가능성: ‘역사는 CPU에서 GPU로의 마이그레이션과 같은 복잡한 아키텍처 전환이 완전히 구현되는 데 수십 년이 걸릴 수 있음을 보여주었습니다. 따라서 차세대 컴퓨팅 아키텍처는 원활한 마이그레이션을 지원해야 합니다.’ ‘플러그 앤 플레이’ 교체 가능성을 위해 엘라드 라즈는 새로운 컴퓨팅 아키텍처가 x86 및 Arm 생태계에서 배우고 이전 버전과의 호환성을 통해 더 광범위하게 채택할 것을 제안합니다.
최신 설계는 또한 개발자가 많은 양의 코드를 다시 작성하거나 특정 공급업체에 대한 종속성을 만들 필요가 없도록 해야 합니다. ‘예를 들어 MLA와 같은 새로운 기술에 대한 지원은 NVIDIA GPU가 아닌 경우처럼 추가 수동 조정이 필요한 것이 아니라 표준화되어야 합니다. 차세대 시스템은 수동 코드 수정이나 중요한 API 조정 없이도 새로운 워크로드를 즉시 이해하고 최적화해야 합니다.’
(2) 적응형 실시간 성능 최적화: 엘라드 라즈는 업계가 고정 기능 가속기에서 벗어나야 한다고 믿습니다. ‘업계는 런타임에 동적으로 자체 최적화할 수 있는 지능형 소프트웨어 정의 하드웨어 기반을 구축해야 합니다.’
‘워크로드에서 지속적으로 학습함으로써 미래의 시스템은 실시간으로 자체 조정하여 특정 애플리케이션 워크로드에 관계없이 활용도와 지속적인 성능을 극대화할 수 있습니다. 이러한 동적 적응성은 인프라가 HPC 시뮬레이션, 복잡한 AI 모델 또는 벡터 데이터베이스 작업 등 실제 시나리오에서 일관된 효율성을 제공할 수 있음을 의미합니다.’
(3) 확장 가능한 효율성: ‘하드웨어와 소프트웨어를 분리하고 지능형 실시간 최적화에 집중함으로써 미래의 시스템은 더 높은 활용도와 더 낮은 전체 에너지 소비를 달성해야 합니다. 이를 통해 인프라는 더욱 비용 효율적이고 새로운 워크로드의 진화하는 요구를 충족하도록 확장 가능해질 것입니다.’
(4) 미래 지향적 설계: 이 점은 AI 인프라, 특히 칩 설계에 대한 미래 지향적 요구 사항에 해당합니다. ‘오늘날의 최첨단 알고리즘은 내일이면 구식이 될 수 있습니다.’ ‘AI 신경망이든 트랜스포머 기반 LLM 모델이든 차세대 컴퓨팅 인프라는 적응 가능해야 하며 기업의 기술 투자가 앞으로도 수년간 탄력성을 유지할 수 있도록 해야 합니다.’
이러한 제안은 비교적 이상적이지만 생각을 자극하는 관점을 제공합니다. 이러한 지침 방법론은 AI 및 HPC 기술의 미래 발전에 고려되어야 하며, 일부 고유한 모순이 업계에서 오랫동안 지속되는 문제로 남아 있더라도 마찬가지입니다. ‘AI, HPC 및 기타 미래 컴퓨팅 및 데이터 집약적 워크로드의 잠재력을 최대한 활용하려면 인프라를 재고하고 혁신과 선구자를 지원하기 위해 동적이고 지능적인 솔루션을 수용해야 합니다.’