AMD Ryzen AI Max+ 395: AI 작업에서 Intel Lunar Lake 압도

Ryzen AI Max+ 395 vs. Core Ultra 7 258V: 정면 대결

AMD는 Ryzen AI Max+ 395의 성능을 입증하기 위해 Intel Core Ultra 7 258V (Arc 140V 그래픽 탑재)를 대상으로 일련의 테스트를 진행했습니다. 벤치마크는 DeepSeek R1 및 Llama와 같은 주요 모델을 포함한 다양한 LLM(Large Language Model) 및 LLM 구성에 중점을 두었습니다.

메모리 구성 참고 사항:

공정한 비교를 위해 모델 크기는 16GB로 제한되었습니다. 이러한 제약은 현재 최대 32GB 메모리로 제공되는 Lunar Lake 기반 노트북의 메모리 제한을 고려하여 적용되었습니다. 사용된 테스트 시스템은 다음과 같습니다.

  • Ryzen AI Max+ 395: 64GB 메모리의 Asus ROG Flow Z13.
  • Core Ultra 7 258V: 32GB 메모리의 Asus Zenbook S14.

DeepSeek R1 성능: 상당한 우위

DeepSeek R1 벤치마크에서 Ryzen 칩은 압도적인 우위를 보였습니다. 초당 토큰 수로 측정된 결과는 다음과 같습니다.

  • Distill Qwen 1.5b: Intel 제품보다 최대 2.1배 빠름.
  • Distill Qwen 7b: 최대 2.2배 빠름.
  • Distill Llama 8b: 최대 2.1배 빠름.
  • Distill Qwen 14b: 최대 2.2배 빠름.

Phi 4 및 Llama 3.2 벤치마크: 우위 유지

Ryzen AI Max+ 395는 Phi 4 및 Llama 3.2 모델을 사용한 테스트에서도 Core Ultra 7 258V를 계속 능가했습니다.

  • Phi 4 Mini Instruct 3.8b: 최대 2.1배 빠름.
  • Phi 4 14b: 최대 2.2배 빠름.
  • Llama 3.2 3b Instruct: 최대 2.1배 빠름.

첫 번째 토큰까지의 시간: 핵심 지표

AMD는 또한 AI 애플리케이션의 응답성을 나타내는 중요한 지표인 ‘첫 번째 토큰까지의 시간’에 초점을 맞췄습니다. 이 벤치마크에서 Ryzen AI Max+ 395는 훨씬 더 큰 격차를 보였습니다.

  • DeepSeek R1 Distill Qwen 14b: 최대 12.2배 빠름.
  • Zen 5 칩의 성능 이점이 가장 적었던 시나리오(Phi 4 Mini Instruct 3.8b 및 Llama 3.2 3b Instruct)에서도 AMD 칩은 여전히 Core Ultra 7 258V보다 4배 빠른 속도를 유지했습니다.

AI Vision 모델: 격차 확대

Ryzen AI Max+ 395의 성능 우위는 ‘첫 번째 토큰까지의 시간’ 벤치마킹 방식을 사용하여 AI Vision 모델까지 확장되었습니다.

  • IBM Granite Vision 3.2 2B: 258V보다 최대 7배 빠름.
  • Google Gemma 3.4b: 최대 4.6배 빠름.
  • Google Gemma 3 12b: 최대 6배 빠름.

아키텍처 이점: 우수한 성능의 원천

AMD Ryzen AI Max+ 395가 보여준 인상적인 성능 수치는 주로 다음과 같은 몇 가지 주요 아키텍처 이점 덕분입니다.

  • 강력한 통합 그래픽: Ryzen AI Max CPU 내의 통합 그래픽 칩은 40개의 RDNA 3.5 CU(Compute Unit)를 자랑하며, 이는 외장 그래픽 솔루션에 필적하는 성능을 제공합니다.
  • 더 많은 코어 수: Ryzen AI Max+ 395는 Core Ultra 7 258V보다 8개 더 많은 CPU 코어를 갖추고 있어 향상된 처리 능력에 기여합니다.
  • 구성 가능한 TDP: Ryzen 칩은 최대 120W로 훨씬 더 높은 구성 가능한 TDP(Thermal Design Power)를 가지므로 더 큰 성능 헤드룸을 확보할 수 있습니다.

전력 소비 고려 사항:

Ryzen AI Max+ 395는 최대 터보 전력이 37W인 Core Ultra 7 258V보다 훨씬 더 많은 전력을 소비한다는 점을 인지하는 것이 중요합니다. 그러나 이러한 차이에도 불구하고 두 칩 모두 동일한 시장 부문을 대상으로 하며 얇고 가벼운 노트북 PC용으로 설계되었습니다.

전망: NVIDIA RTX 50 시리즈와의 경쟁

모바일 컴퓨팅 환경은 끊임없이 진화하고 있으며, AMD의 새로운 모바일 APU가 직면할 다음 과제는 NVIDIA의 RTX 50 시리즈 모바일 GPU가 될 것입니다. 보고서에 따르면 곧 출시될 RTX 50 시리즈 게이밍 노트북에서 이러한 GPU 출시와 관련하여 공급망 문제 및 지연 가능성이 있지만, 폼 팩터 차이와 관계없이 원시 성능 측면에서 AMD의 주요 경쟁 상대가 될 것입니다.

외장 GPU에 대한 초기 징후:

흥미롭게도 AMD는 이미 Ryzen AI Max+ 395의 AI 성능이 NVIDIA의 RTX 4090 노트북 GPU보다 우수하다고 주장했으며, 이는 외장 그래픽 솔루션에 대해서도 강력한 경쟁력을 시사합니다. 이것은 선제적인 진술이며, 독립적인 리뷰를 기다리는 사람들을 매우 흥분시킬 것입니다.

벤치마크 결과 심층 분석

제공된 벤치마크 데이터는 AMD가 AI 성능에 중점을 두고 있음을 명확하게 보여줍니다. 모델 및 구성 선택은 최신 컴퓨팅 작업에서 효율적이고 반응성이 뛰어난 AI 처리의 중요성이 커지고 있음을 강조합니다.

LLM(Large Language Model):

두 개의 주요 LLM인 DeepSeek R1 및 Llama의 사용은 Ryzen AI Max+ 395가 복잡한 자연어 처리 작업을 처리할 수 있음을 보여줍니다. ‘초당 토큰 수’ 메트릭은 이 영역에서 성능을 측정하는 표준 척도로, 프로세서가 텍스트를 생성하거나 언어 기반 입력을 얼마나 빨리 처리할 수 있는지를 나타냅니다.

증류(Distillation):

모델의 ‘Distill’ 버전(예: Distill Qwen 1.5b)을 포함하면 모델 효율성에 중점을 두고 있음을 알 수 있습니다. 증류는 더 큰 모델의 정확성을 대부분 유지하면서 더 작고 빠른 버전을 만드는 데 사용되는 기술입니다. 이는 전력 소비 및 메모리 제약이 중요한 모바일 장치와 특히 관련이 있습니다.

Phi 4 및 Llama 3.2:

Phi 4 및 Llama 3.2 모델을 추가하면 다양한 AI 아키텍처 및 모델 크기에서 칩 성능에 대한 더 넓은 관점을 제공합니다.

TTFT(Time to First Token):

‘첫 번째 토큰까지의 시간’을 강조하는 것은 특히 주목할 만합니다. TTFT는 사용자의 입력과 AI 모델의 초기 응답 사이의 지연 시간을 측정합니다. TTFT가 낮을수록 챗봇, 실시간 번역, 코드 완성 등의 애플리케이션에 중요한, 더 반응적이고 상호 작용적인 사용자 경험을 제공합니다.

AI Vision 모델:

AI Vision 모델(IBM Granite Vision 및 Google Gemma)을 포함하면 Ryzen AI Max+ 395의 다재다능함을 보여줍니다. 이러한 모델은 이미지 인식, 객체 감지, 비디오 분석과 같은 작업에 사용됩니다. 이러한 벤치마크에서 강력한 성능은 칩이 언어 처리 이상의 애플리케이션에 적합함을 시사합니다.

아키텍처 이점의 중요성

AMD의 아키텍처 결정은 관찰된 성능 차이에 중요한 역할을 합니다.

통합 그래픽(RDNA 3.5):

강력한 통합 그래픽 장치는 핵심 차별화 요소입니다. 까다로운 워크로드에서 어려움을 겪는 기존 통합 그래픽 솔루션과 달리 RDNA 3.5 아키텍처는 성능을 크게 향상시켜 Ryzen AI Max+ 395가 AI 작업을 보다 효과적으로 처리할 수 있도록 합니다. 40개의 CU는 상당한 계산 능력을 나타냅니다.

코어 수:

더 많은 코어 수(Core Ultra 7 258V보다 8개 더 많음)는 멀티스레드 워크로드에서 일반적인 이점을 제공합니다. AI 처리는 GPU에 크게 의존하지만 CPU는 여전히 작업을 관리하고 계산의 특정 측면을 처리하는 역할을 합니다.

구성 가능한 TDP:

더 높은 TDP는 전력 관리에서 더 큰 유연성을 제공합니다. 이는 더 높은 전력 소비를 의미하지만, 특히 까다로운 AI 워크로드에서 칩이 더 높은 클럭 속도로 작동하고 더 오랜 기간 동안 성능을 유지할 수 있도록 합니다. TDP를 최대 120W까지 구성할 수 있는 기능은 Core Ultra 7 258V의 37W 최대 터보 전력보다 훨씬 더 큰 이점을 제공합니다. 이는 관찰된 성능 우위를 달성하는 데 중요한 요소입니다.

모바일 컴퓨팅 환경: 변화하는 전장

모바일 분야에서 AMD와 Intel 간의 경쟁은 최근 몇 년 동안 심화되었으며, 두 회사 모두 성능과 효율성의 한계를 뛰어넘고 있습니다. Lunar Lake의 출시는 Intel의 전력 효율성에 대한 집중을 나타내는 반면, AMD의 Ryzen AI Max+ 395는 특히 AI 워크로드에서 성능을 우선시합니다.

NVIDIA의 RTX 50 시리즈 모바일 GPU와의 다가오는 전투는 AMD에게 중요한 시험이 될 것입니다. NVIDIA는 전통적으로 고급 모바일 그래픽 시장을 지배해 왔지만, AMD는 통합 그래픽 및 AI 처리 기능의 발전으로 강력한 경쟁자로 자리매김했습니다. NVIDIA가 직면한 공급망 문제는 잠재적으로 AMD에게 가용성 및 시장 침투 측면에서 이점을 제공할 수 있습니다.

RTX 4090 노트북 GPU보다 우수한 AI 성능에 대한 주장은 대담하지만, 입증된다면 경쟁 환경에서 상당한 변화를 나타낼 것입니다. 이는 AMD의 통합 솔루션이 특정 AI 중심 애플리케이션에서 외장 그래픽 솔루션과 경쟁하고 잠재적으로 능가할 수 있음을 나타냅니다. 이는 큰 성과이며 모바일 컴퓨팅의 미래에 큰 영향을 미칠 수 있습니다. AI 성능에 대한 강조는 업계가 나아가는 방향을 명확하게 보여줍니다. AI가 일상적인 애플리케이션에 점점 더 많이 통합됨에 따라 이러한 워크로드를 효율적이고 효과적으로 처리할 수 있는 프로세서에 대한 수요는 계속 증가할 것입니다.