오픈소스의 승리: RISC-V와 AI의 만남

AI 네이티브 컴퓨팅 아키텍처로서 RISC-V의 부상

최근 DeepSeek의 폭발적인 인기는 AI 업계 전체에 파장을 일으켰으며, 그 영향력은 인공지능 영역을 넘어 확장되고 있습니다. 특히 반도체 업계가 주목하고 있습니다. 중국 춘절 기간 동안 Alibaba의 DAMO Academy Xuantie는 DeepSeek-R1 시리즈 증류 모델의 적용을 발표하여 떠오르는 오픈 소스 명령어 집합 아키텍처인 RISC-V가 AI 영역에서 강력한 모멘텀을 보여주고 있음을 시사했습니다.

최근 Xuantie RISC-V Ecosystem Conference에서 흥미로운 소식이 전해졌습니다. RISC-V가 고성능 컴퓨팅과 AI 모두에서 획기적인 발전을 이루었습니다. DAMO Academy의 첫 번째 서버급 CPU인 Xuantie C930은 다음 달부터 배송을 시작할 예정입니다. 크게 향상된 AI 컴퓨팅 성능은 포괄적인 ‘고성능 + AI’ RISC-V 생태계의 배포를 가속화합니다.

오픈 소스 컴퓨팅 아키텍처 RISC-V가 오픈 소스 AI의 이상적인 파트너가 될 수 있을까요?

AI 모델 변환, 컴퓨팅 아키텍처 혁신 촉진

칩 업계의 한 베테랑 전문가는 DeepSeek의 영향이 AI 분야뿐만 아니라 칩 산업 내에서도 크게 느껴진다고 설명했습니다. DeepSeek는 고도로 최적화된 설계를 통해 대규모 언어 모델의 훈련 및 추론 비용을 획기적으로 절감했습니다. 이러한 변화는 컴퓨팅 성능, 메모리 및 상호 연결의 기존 균형을 극적으로 변화시켜 컴퓨팅 아키텍처에서 획기적인 발전을 위한 중요한 기회를 창출했습니다.

전통적으로 대규모 AI 모델은 집중적인 컴퓨팅 및 메모리 요구 사항으로 인해 엣지 장치보다는 클라우드에 배포하는 것이 더 적합했습니다. 그러나 DeepSeek의 등장은 높은 컴퓨팅 성능에 대한 이러한 의존성에 도전했습니다. 훈련 및 추론 비용을 모두 절감함으로써 대규모 모델이 클라우드에서 엣지로 전환할 수 있는 길을 열었습니다.

구체적으로, DeepSeek의 감소된 계산 요구 사항은 단일 머신 배포를 가능하게 하여 엣지 및 엔드 사이드 장치와의 호환성을 향상시킵니다. AI가 다양한 산업 및 시나리오에 침투하려고 함에 따라 클라우드에서 엣지로 이동해야 할 필요성이 점점 더 중요해지고 있습니다. 이러한 변화는 데이터 보안, 개인화된 사용자 정의 및 프라이빗 배포와 같은 다양한 요구를 충족하는 데 필요합니다.

DeepSeek 기술이 널리 채택됨에 따라 AI 칩의 환경이 변화할 것으로 예상됩니다. 클라우드 인프라에 의존하는 대규모 병렬 컴퓨팅에서 AI 칩은 엣지 장치에서 독립적으로 작동할 수 있는 다양하고 효율적이며 저전력 설계로 진화하고 있습니다.

이로 인해 업계의 많은 사람들이 어떤 컴퓨팅 아키텍처가 AI에 가장 적합한지 고민하게 되었습니다.

병렬 처리 기능을 갖춘 GPU가 유일한 솔루션이 아닐 수 있습니다. 직렬 컴퓨팅(범용 컴퓨팅)도 AI 계산을 위한 실행 가능한 기반으로 부상하고 있습니다. 업계 경험에 따르면 DeepSeek는 다양한 컴퓨팅 시스템과 우수한 호환성을 보여줍니다. CPU에서 빠르게 배포하고 효과적인 추론을 수행할 수 있는 능력은 CPU를 다시 주목받게 했습니다. 특수 GPU에 비해 CPU는 다양성, 단순화된 스케줄링, 컴퓨팅 성능 요구 사항의 현저한 감소, 동종 컴퓨팅의 이점이라는 장점을 제공합니다.

CPU 중에서 떠오르는 스타인 RISC-V가 상당한 주목을 받고 있습니다.

춘절 기간 동안 DAMO Academy는 RISC-V 프로세서 Xuantie C920으로 구동되는 칩에 DeepSeek-R1 시리즈 증류 모델을 적용했습니다. 전체 프로세스는 단 한 시간 만에 완료되어 빠르고 원활한 경험을 보여주었습니다. 이는 DeepSeek 시리즈 모델이 Xuantie CPU 플랫폼 전체와 RISC-V 아키텍처 칩이 장착된 다른 AI 엔드 사이드 장치에 원활하게 배포되고 실행될 수 있음을 의미합니다.

RISC-V의 명성은 여러 요인에서 비롯됩니다. 첫째, 새로운 명령어 집합 아키텍처로서 x86 및 ARM의 폐쇄형 또는 유료 라이선스 모델과 달리 오픈 소스 접근 방식을 채택하여 차별화됩니다. 이러한 오픈 소스 정신은 자연스럽게 AI와 일치합니다. 개방적인 특성으로 인해 전 세계 1,000개 이상의 기업이 참여하여 하드웨어 설계에서 소프트웨어 툴체인에 이르기까지 생태계가 빠르게 성장했습니다. RISC-V International Foundation에 따르면 80개 이상의 다양한 RISC-V 칩 제품이 이미 시장에 출시되었습니다.

둘째, RISC-V는 놀라운 유연성과 확장성을 제공합니다. 개발자는 특정 요구 사항에 따라 명령어 집합을 사용자 정의할 수 있습니다. 명령어 집합의 모듈식 특성 덕분에 다양한 애플리케이션 시나리오에 맞게 사용자 정의할 수 있으며, 이는 기존 아키텍처에서는 따라올 수 없는 수준의 유연성입니다.

기술적으로 RISC-V는 새로운 유형의 AI 컴퓨팅에도 적합합니다. 벡터 확장(V-extension)은 대규모 병렬 작업을 효과적으로 처리하여 AI 계산의 효율성 요구를 충족할 수 있습니다. RISC-V의 개방형 아키텍처는 하드웨어 가속 모듈과 함께 작동하여 AI 작업의 실행 효율성을 향상시킬 수 있습니다. AI 알고리즘과의 긴밀한 통합을 통해 RISC-V 아키텍처를 사용하여 전용 하드웨어 가속 장치를 설계하고 특정 AI 모델에 대한 성능을 최적화할 수 있습니다.

따라서 칩 업계의 많은 베테랑 전문가들은 RISC-V가 AI 시대의 네이티브 컴퓨팅 아키텍처가 될 것으로 예상합니다.

Alibaba의 DAMO Academy가 주최한 세 번째 Xuantie RISC-V Ecosystem Conference에서 이러한 기대가 마침내 실현되었습니다.

Xuantie의 첫 번째 서버급 CPU 배송 예정: 고성능과 AI의 융합

회의에서 중국 공학원의 학자인 Ni Guangnan은 “오픈 소스 RISC-V는 기술 혁신일 뿐만 아니라 미래의 컴퓨팅 아키텍처에 영향을 미칠 글로벌 변혁입니다.”라고 말했습니다. ‘오픈 소스로 태어난’ 칩 명령어 집합 아키텍처인 RISC-V는 이번 반도체 산업 주기에서 놀라운 성능을 보여주었습니다. 임베디드 시스템에서 고성능 컴퓨팅과 같은 복잡한 시나리오로의 발전을 가속화하여 AI 컴퓨팅 성능을 위한 새로운 옵션을 제공합니다.

2024년에 RISC-V International Foundation에서 승인한 25개 표준 중 절반 이상이 고성능 또는 AI와 관련이 있습니다. RISC-V International Foundation의 이사회 의장인 Lu Dai는 회의에서 RISC-V 명령어 집합에서 가장 흥미로운 발전 중 하나는 Matrix extension이며, 이는 RISC-V를 AI 분야에서 강력한 힘으로 이끌 것이라고 말했습니다.

2030년까지 RISC-V의 전체 시장 점유율은 20%에 도달하고 AI 가속기 점유율은 50%를 초과할 것으로 예상됩니다.

회의에서 DAMO Academy는 차세대 플래그십 프로세서이자 최초의 서버급 프로세서인 C930을 공개했습니다.

C930은 SPECint2006 벤치마크 테스트에서 15/GHz의 범용 컴퓨팅 성능 벤치마크를 달성했습니다. 이것은 무엇을 의미할까요? Ni Guangnan 학자는 RISC-V가 진정으로 고성능 컴퓨팅 시장에 진입하려면 SPECint 2006 소프트웨어 테스트에서 15점을 초과하는 고성능 점수를 달성해야 한다고 지적했습니다. 따라서 C930은 RISC-V의 이정표적인 단계입니다.

또한 C930에는 512비트 RVV1.08 TOPS Matrix의 두 가지 엔진이 장착되어 있습니다. 이는 범용 고성능 컴퓨팅 성능과 AI 컴퓨팅 성능을 기본적으로 통합합니다. 또한 더 많은 기능 요구 사항을 지원하기 위해 개방형 DSA 확장 인터페이스를 제공합니다.

동시에 DAMO Academy는 AI 가속, 자동차 애플리케이션 및 고속 상호 연결과 같은 방향으로 계속 발전하는 C908X, R908A 및 XL200을 포함한 Xuantie 프로세서 제품군의 새로운 구성원에 대한 개발 계획을 공개했습니다. 구체적으로 C908X는 Xuantie의 첫 번째 전용 AI 프로세서로, 4096비트 초장 데이터 비트 폭 RVV1.0 벡터 확장을 지원합니다. R908A는 자동차 등급 칩의 높은 신뢰성 요구 사항을 목표로 합니다. XL200은 더 큰 규모의 고성능 다중 클러스터 코히어런트 상호 연결을 제공합니다.

Xuantie 프로세서의 기능을 보완하기 위해 DAMO Academy는 Linux, Android 및 RTOS의 세 가지 주류 운영 체제를 기반으로 하는 세 가지 Xuantie SDK도 출시했습니다. 이러한 SDK는 수년간 Xuantie가 축적한 소프트웨어 기능을 포괄적으로 통합하여 보다 완전하고 편리하며 안정적인 방식으로 업계에 제공합니다. 그중 Xuantie Linux SDK는 Hypervisor 가상화, CoVE 보안 프레임워크, Xuantie AI 프레임워크 및 고성능 운영자 라이브러리를 포함한 풍부한 하위 시스템 세트를 제공하여 고성능 및 AI 시나리오에서 RISC-V 개발을 용이하게 합니다.

고성능 하드웨어 및 소프트웨어 기술을 개발하는 동시에 Xuantie는 업스트림 및 다운스트림 산업 파트너 간의 협력 혁신을 적극적으로 추진하여 포괄적인 RISC-V ‘고성능 + AI’ 생태계의 배포를 가속화하고 있습니다.

Alibaba의 헌신: RISC-V Xuantie, 국제 오픈 소스 커뮤니티 주도

Xuantie에 익숙하지 않은 분들을 위해 간략하게 소개하겠습니다.

2018년 Alibaba는 RISC-V 방향에 초점을 맞춘 Xuantie 브랜드를 설립했습니다. 1년 후, 첫 번째 프로세서인 C910이 당시 가장 강력한 RISC-V 프로세서로 등장했습니다. 그 이후로 Xuantie는 국제 RISC-V 생태계의 리더이자 국제 오픈 소스 커뮤니티에 대한 최대 중국 기여자 중 하나였습니다. 현재 재단의 기술 위원회와 10개 이상의 기술 소위원회에서 의장 또는 부의장 직책을 맡고 있으며 AI 관련 기술의 표준화를 적극적으로 추진하고 있습니다.

2019년부터 Xuantie는 고성능, 고효율 및 저전력 소비와 같은 다양한 시나리오를 포괄하는 13개의 RISC-V 프로세서를 출시했습니다. 여기에는 다음이 포함됩니다.

  • C 시리즈 (Computing): 주로 고급 서버, 고급 엣지 컴퓨팅 및 산업/소비자 등급 IPC를 대상으로 합니다.
  • E 시리즈 (Embedded): 주로 고급 MPU 및 다양한 MCU에 사용됩니다.
  • R 시리즈 (Reliability & Realtime): 고급 SSD, 통신, 고급 산업 제어, 자동차 및 기타 시나리오를 대상으로 합니다.
  • XT-Link: CPU 다중 클러스터 상호 연결 IP.

현재까지 Xuantie 프로세서 출하량은 40억 개를 초과하여 국내 RISC-V 분야에서 가장 영향력 있고 시장을 선도하는 프로세서 제품 시리즈 중 하나가 되었습니다.

개발 과정 전반에 걸쳐 Xuantie는 RISC-V의 성능 경계를 지속적으로 확장하여 더 높은 성능을 위해 노력했습니다. 동시에 AI를 적극적으로 수용하여 RISC-V를 네이티브 AI 컴퓨팅 아키텍처로 확립하는 것을 목표로 했습니다.

명령어 집합 아키텍처 기술 수준에서 Xuantie는 RISC-V 아키텍처의 뛰어난 개방성과 유연성을 활용하여 오랫동안 AI 애플리케이션을 위한 명령어 집합 확장을 사용자 정의했습니다. 제안된 Matrix 확장 명령어 집합과 대규모 모델을 위한 GEMM 코어 연산자 최적화는 AI 추론 및 훈련을 가속화하여 엣지 장치에서 AI의 에너지 효율성을 향상시킬 수 있습니다.

프로세서 측면에서 Xuantie C907은 Matrix 확장을 처음으로 구현하여 기존 솔루션에 비해 15배의 속도 향상을 달성했습니다. 업그레이드된 C920은 Vector 1.0 및 Vector Crypto 기술을 지원하여 GEMM 성능을 7배 이상, Transformer 연산자 성능을 17배 이상 향상시킵니다. 최신 플래그십 프로세서인 C930은 벡터 및 매트릭스 듀얼 엔진을 모두 갖추고 있어 엣지 장치의 대규모 AI 모델을 위한 유망한 파트너로 자리매김했습니다.

소프트웨어 스택 수준에서 Xuantie는 엔드 투 엔드 RISC-V AI 풀 스택 소프트웨어 및 하드웨어 플랫폼을 만들었습니다. 이 플랫폼은 칩 제조업체에 범용적이고 효율적인 AI 컴퓨팅 인프라를 제공하여 비즈니스 요구 사항에 맞는 파이프라인 설계를 형성하고 기본 하드웨어 설계에서 상위 계층 소프트웨어 툴체인에 이르기까지 편리하고 심층적인 최적화를 진정으로 가능하게 합니다. 이 플랫폼은 클라우드 비디오 트랜스코딩 카드, AI 엣지 컴퓨팅 박스 및 RISC-V 노트북과 같은 터미널 제품에 적용되었습니다.

자체 기술 외에도 DAMO Academy RISC-V 팀은 RISC-V의 ‘고성능 + AI’ 생태계를 강화하기 위해 업스트림 및 다운스트림 산업 파트너와 지속적으로 협력해 왔습니다.

작년 회의에서 RISC-V 오픈 소스 노트북 ‘Ruyi BOOK Jia Chen Edition’이 깜짝 등장하여 대규모 상용 소프트웨어의 안정적이고 원활한 작동을 시연했습니다. 올해 중국 과학원 소프트웨어 연구소는 ‘Ruyi BOOK Yi Si Edition’, 지능형 로봇, AI PC 및 기타 RISC-V 고성능 애플리케이션을 추가로 도입했습니다.

그중 C920 기반 AI PC 프로토타입은 Llama, Qwen 및 DeepSeek와 같은 오픈 소스 모델을 성공적으로 실행하여 AI 개인 비서, AI 프로그래밍 및 시각 인식과 같은 AI 애플리케이션을 지원합니다. 이는 오픈 소스 하드웨어 아키텍처에서 오픈 소스 운영 체제 및 오픈 소스 AI 모델에 이르기까지 완전한 ‘오픈 소스 AI 풀 체인’을 보여주는 동시에 단위 컴퓨팅 에너지 소비를 30% 줄입니다.

또한 Xuantie는 파트너와 협력하여 RISC-V 비디오 코덱 솔루션 및 클라우드 데스크톱 솔루션과 같은 실용적인 솔루션을 구축했습니다. 더 많은 산업 분야의 애플리케이션을 지원하기 위해 Xuantie는 올인원 PC, 산업 제어 AI, 로봇 및 기타 분야에도 RISC-V 컴퓨팅 성능을 배포했습니다.

Ni Guangnan 학자는 Xuantie의 실용적인 투자와 혁신이 RISC-V 생태계의 건전한 발전을 위한 중요한 원동력이라고 말했습니다.

오픈 소스의 미래

DeepSeek의 성공은 오픈 소스의 힘을 입증합니다. 10여 년 전 탄생한 오픈 소스 명령어 집합 아키텍처 RISC-V는 폐쇄형 x86 및 라이선스 ARM 모델과는 다른 개발 경로를 개척했습니다. 업계에 보다 간결하고 개방적인 방식으로 아키텍처를 혁신할 수 있는 기회를 제공하여 점점 더 많은 인정을 받고 있습니다.

AI 시대의 네이티브 아키텍처를 위한 최고의 후보로 부상하고 있습니다. 한편으로 RISC-V는 개방성에 대한 헌신과 지속적인 발전을 통해 AI의 빠른 변화에 발맞출 수 있습니다. 다른 한편으로 RISC-V의 강력한 확장성을 통해 포팅 및 적응을 통해 기존 아키텍처 생태계와 호환되는 동시에 새로운 시나리오를 지원하는 네이티브 아키텍처 역할을 할 수 있습니다.

중국 과학원 소프트웨어 연구소의 RISC-V 책임자인 Guo Songliu는 다음과 같이 말했습니다. “AI 소프트웨어 스택은 여전히 빠르게 진화하고 있습니다. 세 가지 주류 명령어 집합 아키텍처 중 가장 유연하고 개방적인 RISC-V는 의심할 여지 없이 AI 시대의 기술 혁신 속도에 가장 적합합니다.”