AMD Ryzen AI 300+:AI性能远超英特尔

Ryzen AI Max+ 395 对比 Core Ultra 7 258V

为了展示 Ryzen AI Max+ 395 的强大性能,AMD 进行了一系列测试,将其与英特尔的 Core Ultra 7 258V(配备 Arc 140V 显卡)进行对比。基准测试侧重于各种大型语言模型 (LLM) 和 LLM 配置,包括 DeepSeek R1 和 Llama 等知名模型。

关于内存配置的说明:

为了确保公平比较,模型大小被限制在 16GB。实施此约束是为了考虑 Lunar Lake 笔记本电脑的内存限制,目前这些笔记本电脑的最大内存为 32GB。使用的测试系统是:

  • Ryzen AI Max+ 395: 华硕 ROG Flow Z13,配备 64GB 内存。
  • Core Ultra 7 258V: 华硕 Zenbook S14,配备 32GB 内存。

DeepSeek R1 性能:显著领先

在 DeepSeek R1 基准测试中,Ryzen 芯片表现出明显的领先优势。结果以每秒 token 数衡量,如下所示:

  • Distill Qwen 1.5b: 比英特尔同类产品快 2.1 倍。
  • Distill Qwen 7b: 快 2.2 倍。
  • Distill Llama 8b: 快 2.1 倍。
  • Distill Qwen 14b: 快 2.2 倍。

Phi 4 和 Llama 3.2 基准测试:保持优势

Ryzen AI Max+ 395 在使用 Phi 4 和 Llama 3.2 模型的测试中继续优于 Core Ultra 7 258V:

  • Phi 4 Mini Instruct 3.8b: 快 2.1 倍。
  • Phi 4 14b: 快 2.2 倍。
  • Llama 3.2 3b Instruct: 快 2.1 倍。

首个 Token 生成时间:关键指标

AMD 还关注了“首个 token 生成时间”指标,这是 AI 应用响应能力的关键指标。在这些基准测试中,Ryzen AI Max+ 395 展现出更显著的领先优势:

  • DeepSeek R1 Distill Qwen 14b: 快 12.2 倍。
  • 即使在 Zen 5 芯片性能优势最不明显的情况下(Phi 4 Mini Instruct 3.8b 和 Llama 3.2 3b Instruct),AMD 芯片仍然比 Core Ultra 7 258V 快 4 倍。

AI 视觉模型:进一步扩大领先优势

Ryzen AI Max+ 395 的性能优势扩展到 AI 视觉模型,同样使用“首个 token 生成时间”基准测试方法:

  • IBM Granite Vision 3.2 2B: 比 258V 快 7 倍。
  • Google Gemma 3.4b: 快 4.6 倍。
  • Google Gemma 3 12b: 快 6 倍。

架构优势:卓越性能的来源

AMD Ryzen AI Max+ 395 所展示的令人印象深刻的性能数据主要归功于几个关键的架构优势:

  • 强大的集成显卡: Ryzen AI Max CPU 内的集成显卡芯片拥有 40 个 RDNA 3.5 计算单元 (CU),提供可与独立显卡解决方案相媲美的性能。
  • 更高的核心数量: Ryzen AI Max+ 395 比 Core Ultra 7 258V 多 8 个 CPU 核心,有助于增强处理能力。
  • 可配置的 TDP: Ryzen 芯片具有显著更高的可配置 TDP(热设计功耗),额定功率高达 120W,从而提供更大的性能空间。

功耗考虑因素:

重要的是要承认 Ryzen AI Max+ 395 比 Core Ultra 7 258V 消耗更多的功率,后者的最大睿频功耗为 37W。然而,尽管存在这种差异,两款芯片都针对相同的市场领域,并且专为轻薄型笔记本电脑设计。

展望未来:与 NVIDIA RTX 50 系列的竞争

移动计算领域在不断发展,AMD 新型移动 APU 的下一个挑战可能来自 NVIDIA 的 RTX 50 系列移动 GPU。虽然有报告称,在即将推出的 RTX 50 系列游戏笔记本电脑中,这些 GPU 的发布可能存在供应链问题和延迟,但无论外形尺寸差异如何,它们无疑都将代表 AMD 在原始性能方面的主要竞争对手。

针对独立 GPU 的早期迹象:

有趣的是,AMD 已经声称 Ryzen AI Max+ 395 的 AI 性能优于 NVIDIA 的 RTX 4090 笔记本电脑 GPU,这表明即使与独立显卡解决方案相比,它也具有强大的竞争地位。这是一个先发制人的声明,肯定会让那些等待独立评测的人非常兴奋。

深入研究基准测试结果

提供的基准测试数据清楚地表明了 AMD 对 AI 性能的关注。模型和配置的选择突出了在现代计算任务中高效和响应迅速的 AI 处理日益增长的重要性。

大型语言模型 (LLM):

DeepSeek R1 和 Llama 这两个著名的 LLM 的使用表明 Ryzen AI Max+ 395 能够处理复杂的自然语言处理任务。“每秒 token 数”是该领域性能的标准衡量标准,表示处理器生成文本或处理基于语言的输入的速度。

蒸馏 (Distillation):

包含模型的“Distill”版本(例如,Distill Qwen 1.5b)表明对模型效率的关注。蒸馏是一种用于创建较大模型的更小、更快版本,同时保留其大部分准确性的技术。这对于功耗和内存限制至关重要的移动设备尤其重要。

Phi 4 和 Llama 3.2:

Phi 4 和 Llama 3.2 模型的加入提供了对芯片在不同 AI 架构和模型大小上的性能的更广泛视角。

首个 Token 生成时间 (TTFT):

对“首个 token 生成时间”的强调尤其值得注意。TTFT 衡量用户输入与 AI 模型初始响应之间的延迟。较低的 TTFT 意味着更灵敏和交互式的用户体验,这对于聊天机器人、实时翻译和代码完成等应用至关重要。

AI 视觉模型:

AI 视觉模型(IBM Granite Vision 和 Google Gemma)的加入展示了 Ryzen AI Max+ 395 的多功能性。这些模型用于图像识别、对象检测和视频分析等任务。在这些基准测试中的强劲表现表明该芯片不仅适用于语言处理,还适用于其他应用。

架构优势的重要性

AMD 的架构决策在观察到的性能差异中起着至关重要的作用。

集成显卡 (RDNA 3.5):

强大的集成显卡单元是一个关键的区别因素。与通常难以处理苛刻工作负载的传统集成显卡解决方案不同,RDNA 3.5 架构提供了显著的性能提升,使 Ryzen AI Max+ 395 能够更有效地处理 AI 任务。40 个 CU 代表了强大的计算能力。

核心数量:

更高的核心数量(比 Core Ultra 7 258V 多 8 个核心)在多线程工作负载中提供了普遍优势。虽然 AI 处理通常严重依赖 GPU,但 CPU 仍然在管理任务和处理计算的某些方面发挥作用。

可配置的 TDP:

更高的 TDP 允许在电源管理方面具有更大的灵活性。虽然这意味着更高的功耗,但它也使芯片能够以更高的时钟速度运行并更长时间地保持性能,特别是在要求苛刻的 AI 工作负载中。能够将 TDP 配置为高达 120W,这比 Core Ultra 7 258V 更受限制的 37W 最大睿频功耗提供了显著优势。这是实现观察到的性能领先的关键因素。

移动计算领域:不断变化的战场

AMD 和英特尔在移动领域的竞争近年来愈演愈烈,两家公司都在推动性能和效率的极限。Lunar Lake 的推出代表了英特尔对电源效率的关注,而 AMD 的 Ryzen AI Max+ 395 显然优先考虑性能,特别是在 AI 工作负载方面。

与 NVIDIA RTX 50 系列移动 GPU 的即将到来的战斗将是对 AMD 的重大考验。虽然 NVIDIA 传统上主导着高端移动显卡市场,但 AMD 在集成显卡和 AI 处理能力方面的进步使其成为强有力的竞争者。据报道,NVIDIA 面临的供应链问题可能会使 AMD 在可用性和市场渗透率方面获得优势。

与 RTX 4090 笔记本电脑 GPU 相比,AI 性能更优越的说法很大胆,但如果得到证实,这将代表竞争格局的重大转变。这将表明 AMD 的集成解决方案可以在某些以 AI 为中心的应用中与独立显卡解决方案竞争,甚至可能胜过它们。这将是一项重大成就,并可能对移动计算的未来产生重大影响。对 AI 性能的强调清楚地表明了行业的发展方向。随着 AI 越来越多地集成到日常应用中,对能够高效且有效地处理这些工作负载的处理器的需求将继续增长。