Ryzen AI 395+ schlägt Intels Lunar Lake bei KI

Kopf-an-Kopf: Ryzen AI Max+ 395 vs. Core Ultra 7 258V

Um die Leistungsfähigkeit des Ryzen AI Max+ 395 zu demonstrieren, führte AMD eine Reihe von Tests durch und verglich ihn mit Intels Core Ultra 7 258V (ausgestattet mit Arc 140V-Grafik). Die Benchmarks konzentrierten sich auf verschiedene Large Language Models (LLMs) und LLM-Konfigurationen, darunter prominente Modelle wie DeepSeek R1 und Llama.

Ein Hinweis zu den Speicherkonfigurationen:

Um einen fairen Vergleich zu gewährleisten, wurden die Modellgrößen auf 16 GB begrenzt. Diese Einschränkung wurde implementiert, um die Speicherbeschränkungen von Lunar Lake-basierten Laptops zu berücksichtigen, die derzeit mit maximal 32 GB Speicher verfügbar sind. Die verwendeten Testsysteme waren:

  • Ryzen AI Max+ 395: Asus ROG Flow Z13 mit 64 GB Speicher.
  • Core Ultra 7 258V: Asus Zenbook S14 mit 32 GB Speicher.

DeepSeek R1 Performance: Ein signifikanter Vorsprung

In den DeepSeek R1-Benchmarks zeigte der Ryzen-Chip einen deutlichen Vorsprung. Die Ergebnisse, gemessen in Tokens pro Sekunde, waren wie folgt:

  • Distill Qwen 1.5b: Bis zu 2,1-mal schneller als das Intel-Pendant.
  • Distill Qwen 7b: Bis zu 2,2-mal schneller.
  • Distill Llama 8b: Bis zu 2,1-mal schneller.
  • Distill Qwen 14b: Bis zu 2,2-mal schneller.

Phi 4 und Llama 3.2 Benchmarks: Dominanz beibehalten

Der Ryzen AI Max+ 395 übertraf den Core Ultra 7 258V auch in Tests mit Phi 4- und Llama 3.2-Modellen:

  • Phi 4 Mini Instruct 3.8b: Bis zu 2,1-mal schneller.
  • Phi 4 14b: Bis zu 2,2-mal schneller.
  • Llama 3.2 3b Instruct: Bis zu 2,1-mal schneller.

Time to First Token: Eine Schlüsselmetrik

AMD konzentrierte sich auch auf die Metrik ‘Time to the first Token’, ein wichtiger Indikator für die Reaktionsfähigkeit in KI-Anwendungen. In diesen Benchmarks zeigte der Ryzen AI Max+ 395 noch deutlichere Vorsprünge:

  • DeepSeek R1 Distill Qwen 14b: Bis zu 12,2-mal schneller.
  • Selbst in den Szenarien, in denen der Leistungsvorteil des Zen 5-Chips am wenigsten ausgeprägt war (Phi 4 Mini Instruct 3.8b und Llama 3.2 3b Instruct), behielt der AMD-Chip immer noch einen 4-fachen Geschwindigkeitsvorteil gegenüber dem Core Ultra 7 258V.

KI-Vision-Modelle: Weitere Ausweitung des Vorsprungs

Die Leistungsdominanz des Ryzen AI Max+ 395 erstreckte sich auch auf KI-Vision-Modelle, wiederum unter Verwendung des ‘Time to the first Token’-Benchmark-Ansatzes:

  • IBM Granite Vision 3.2 2B: Bis zu 7-mal schneller als der 258V.
  • Google Gemma 3.4b: Bis zu 4,6-mal schneller.
  • Google Gemma 3 12b: Bis zu 6-mal schneller.

Architektonische Vorteile: Die Quelle überlegener Leistung

Die beeindruckenden Leistungszahlen, die AMDs Ryzen AI Max+ 395 zeigt, sind größtenteils auf mehrere wichtige architektonische Vorteile zurückzuführen:

  • Leistungsstarke integrierte Grafik: Der integrierte Grafikchip im Ryzen AI Max CPU verfügt über 40 RDNA 3.5 Compute Units (CUs), die eine Leistung bieten, die mit diskreten Grafiklösungen konkurrieren kann.
  • Höhere Kernanzahl: Der Ryzen AI Max+ 395 verfügt über acht CPU-Kerne mehr als der Core Ultra 7 258V, was zu verbesserten Verarbeitungsfähigkeiten beiträgt.
  • Konfigurierbare TDP: Der Ryzen-Chip hat eine deutlich höhere konfigurierbare TDP (Thermal Design Power), die bis zu 120 W beträgt, was einen größeren Leistungsspielraum ermöglicht.

Überlegungen zum Stromverbrauch:

Es ist wichtig anzuerkennen, dass der Ryzen AI Max+ 395 deutlich mehr Strom verbraucht als der Core Ultra 7 258V, der eine maximale Turboleistung von 37 W hat. Trotz dieses Unterschieds zielen beide Chips auf das gleiche Marktsegment ab und sind für dünne und leichte Laptops konzipiert.

Blick nach vorn: Wettbewerb mit NVIDIAs RTX 50-Serie

Die Landschaft des mobilen Computing entwickelt sich ständig weiter, und die nächste Herausforderung für AMDs neue mobile APUs wird wahrscheinlich von NVIDIAs mobilen GPUs der RTX 50-Serie ausgehen. Während Berichte auf potenzielle Lieferkettenprobleme und Verzögerungen bei der Markteinführung dieser GPUs in kommenden Gaming-Laptops der RTX 50-Serie hindeuten, werden sie zweifellos AMDs Hauptkonkurrenz in Bezug auf die reine Leistung darstellen, unabhängig von Unterschieden im Formfaktor.

Frühe Anzeichen gegen diskrete GPUs:

Interessanterweise hat AMD bereits Behauptungen über die überlegene KI-Leistung des Ryzen AI Max+ 395 im Vergleich zu NVIDIAs RTX 4090 Laptop-GPU aufgestellt, was auf eine starke Wettbewerbsposition hindeutet, selbst gegenüber diskreten Grafiklösungen. Es ist eine präventive Aussage, und eine, die diejenigen, die auf unabhängige Tests warten, sicherlich sehr begeistern wird.

Ein tieferer Einblick in die Benchmark-Ergebnisse

Die bereitgestellten Benchmark-Daten zeichnen ein klares Bild von AMDs Fokus auf KI-Leistung. Die Auswahl der Modelle und Konfigurationen unterstreicht die wachsende Bedeutung effizienter und reaktionsschneller KI-Verarbeitung in modernen Computeraufgaben.

Large Language Models (LLMs):

Die Verwendung von DeepSeek R1 und Llama, zwei prominenten LLMs, demonstriert die Fähigkeit des Ryzen AI Max+ 395, komplexe Aufgaben der natürlichen Sprachverarbeitung zu bewältigen. Die Metrik ‘Tokens pro Sekunde’ ist ein Standardmaß für die Leistung in diesem Bereich und gibt an, wie schnell der Prozessor Text generieren oder sprachbasierte Eingaben verarbeiten kann.

Destillation:

Die Einbeziehung von ‘Distill’-Versionen der Modelle (z. B. Distill Qwen 1.5b) deutet auf einen Fokus auf Modelleffizienz hin. Destillation ist eine Technik, die verwendet wird, um kleinere, schnellere Versionen größerer Modelle zu erstellen, wobei ein Großteil ihrer Genauigkeit erhalten bleibt. Dies ist besonders relevant für mobile Geräte, bei denen Stromverbrauch und Speicherbeschränkungen kritisch sind.

Phi 4 und Llama 3.2:

Die Hinzufügung der Modelle Phi 4 und Llama 3.2 bietet eine breitere Perspektive auf die Leistung des Chips über verschiedene KI-Architekturen und Modellgrößen hinweg.

Time to First Token (TTFT):

Die Betonung von ‘Time to the first Token’ ist besonders bemerkenswert. TTFT misst die Latenz zwischen der Eingabe eines Benutzers und der ersten Antwort des KI-Modells. Ein niedrigerer TTFT führt zu einer reaktionsschnelleren und interaktiveren Benutzererfahrung, was für Anwendungen wie Chatbots, Echtzeitübersetzung und Codevervollständigung entscheidend ist.

KI-Vision-Modelle:

Die Einbeziehung von KI-Vision-Modellen (IBM Granite Vision und Google Gemma) demonstriert die Vielseitigkeit des Ryzen AI Max+ 395. Diese Modelle werden für Aufgaben wie Bilderkennung, Objekterkennung und Videoanalyse verwendet. Die starke Leistung in diesen Benchmarks deutet auf die Eignung des Chips für Anwendungen über die reine Sprachverarbeitung hinaus hin.

Die Bedeutung architektonischer Vorteile

AMDs architektonische Entscheidungen spielen eine entscheidende Rolle bei den beobachteten Leistungsunterschieden.

Integrierte Grafik (RDNA 3.5):

Die leistungsstarke integrierte Grafikeinheit ist ein entscheidender Unterscheidungsfaktor. Im Gegensatz zu herkömmlichen integrierten Grafiklösungen, die oft mit anspruchsvollen Workloads zu kämpfen haben, bietet die RDNA 3.5-Architektur einen erheblichen Leistungsschub, der es dem Ryzen AI Max+ 395 ermöglicht, KI-Aufgaben effektiver zu bewältigen. Die 40 CUs stellen eine erhebliche Rechenkapazität dar.

Kernanzahl:

Die höhere Kernanzahl (acht Kerne mehr als der Core Ultra 7 258V) bietet einen allgemeinen Vorteil bei Multithread-Workloads. Während die KI-Verarbeitung oft stark von der GPU abhängt, spielt die CPU immer noch eine Rolle bei der Verwaltung von Aufgaben und der Handhabung bestimmter Aspekte der Berechnung.

Konfigurierbare TDP:

Die höhere TDP ermöglicht eine größere Flexibilität beim Energiemanagement. Während sie einen höheren Stromverbrauch bedeutet, ermöglicht sie dem Chip auch, mit höheren Taktraten zu arbeiten und die Leistung über längere Zeiträume aufrechtzuerhalten, insbesondere bei anspruchsvollen KI-Workloads. Die Möglichkeit, die TDP auf bis zu 120 W zu konfigurieren, bietet einen erheblichen Vorteil gegenüber der stärker eingeschränkten maximalen Turboleistung von 37 W des Core Ultra 7 258V. Dies ist ein entscheidender Faktor für die Erzielung der beobachteten Leistungsvorsprünge.

Die Landschaft des mobilen Computing: Ein sich wandelndes Schlachtfeld

Der Wettbewerb zwischen AMD und Intel im mobilen Bereich hat sich in den letzten Jahren verschärft, wobei beide Unternehmen die Grenzen von Leistung und Effizienz verschieben. Die Einführung von Lunar Lake stellte Intels Fokus auf Energieeffizienz dar, während AMDs Ryzen AI Max+ 395 eindeutig die Leistung priorisiert, insbesondere bei KI-Workloads.

Der bevorstehende Kampf mit NVIDIAs mobilen GPUs der RTX 50-Serie wird ein bedeutender Test für AMD sein. Während NVIDIA traditionell den Markt für mobile High-End-Grafikkarten dominiert, positionieren AMDs Fortschritte bei integrierter Grafik und KI-Verarbeitungsfähigkeiten das Unternehmen als starken Konkurrenten. Die gemeldeten Lieferkettenprobleme, mit denen NVIDIA konfrontiert ist, könnten AMD potenziell einen Vorteil in Bezug auf Verfügbarkeit und Marktdurchdringung verschaffen.

Die Behauptungen überlegener KI-Leistung gegenüber der RTX 4090 Laptop-GPU sind mutig, aber wenn sie sich bestätigen, würden sie eine signifikante Verschiebung in der Wettbewerbslandschaft darstellen. Es würde darauf hindeuten, dass AMDs integrierte Lösung mit diskreten Grafiklösungen in bestimmten KI-fokussierten Anwendungen konkurrieren und diese möglicherweise übertreffen kann. Dies wäre eine große Errungenschaft und könnte erhebliche Auswirkungen auf die Zukunft des mobilen Computing haben. Die Betonung der KI-Leistung ist ein klarer Hinweis auf die Richtung, in die sich die Branche bewegt. Da KI zunehmend in alltägliche Anwendungen integriert wird, wird die Nachfrage nach Prozessoren, die diese Workloads effizient und effektiv bewältigen können, weiter steigen.