Microsoft Phi: KI-Sprung mit kleinen Sprachmodellen

Nach der Einführung seiner Reihe kleiner Sprachmodelle (SLMs) mit der Veröffentlichung von Phi-3 auf Azure AI Foundry hat Microsoft seine Modelle der nächsten Generation vorgestellt: Phi-4-reasoning, Phi-4-reasoning-plus und Phi-4-mini-reasoning. Diese Innovationen markieren einen Wendepunkt für SLMs und definieren neu, was mit kompakter und effizienter KI erreichbar ist.

Der Beginn der Phi-Reasoning-Modelle

Die neuen Phi-Reasoning-Modelle wurden entwickelt, um Inference-Time-Scaling für komplexe Aufgaben zu nutzen, die eine mehrstufige Zerlegung und interne Reflexion erfordern. Diese Modelle demonstrieren außergewöhnliche Fähigkeiten im mathematischen Denken und etablieren sich als Grundlage für Agent-ähnliche Anwendungen, die komplizierte und facettenreiche Aufgaben bewältigen. Historisch gesehen waren solche Fähigkeiten exklusiv für deutlich größere Modelle. Die Phi-Reasoning-Modelle führen eine neue Kategorie von SLMs ein, die Destillation, Reinforcement Learning und hochwertige Daten nutzen, um ein Gleichgewicht zwischen Größe und Leistung zu finden. Ihre kompakte Größe macht sie für Umgebungen mit niedriger Latenz geeignet, während ihre robusten Denkfähigkeiten mit denen viel größerer Modelle konkurrieren. Diese Mischung aus Effizienz und Fähigkeit ermöglicht es selbst ressourcenbeschränkten Geräten, komplexe Denkaufgaben effektiv auszuführen.

Phi-4-Reasoning und Phi-4-Reasoning-Plus: Ein tieferer Einblick

Phi-4-Reasoning: Das Open-Weight-Reasoning-Modell

Phi-4-reasoning zeichnet sich als Open-Weight-Reasoning-Modell mit 14 Milliarden Parametern aus. Es wurde entwickelt, um mit deutlich größeren Modellen bei komplexen Denkaufgaben zu konkurrieren. Dieses Modell wurde durch überwachtes Fine-Tuning von Phi-4 auf sorgfältig kuratierten Denkbeispielen trainiert, die von OpenAI’s o3-mini abgeleitet wurden. Phi-4-reasoning generiert detaillierte Denkketten und nutzt zusätzliche Rechenzeit während der Inferenz effektiv. Diese Leistung unterstreicht, wie präzise Datenkuration und hochwertige synthetische Datensätze kleinere Modelle in die Lage versetzen, mit ihren größeren Pendants zu konkurrieren.

Phi-4-Reasoning-Plus: Verbesserung des Denkens mit Reinforcement Learning

Aufbauend auf den Fähigkeiten von Phi-4-reasoning wird Phi-4-reasoning-plus weiter mit Reinforcement Learning trainiert, um zusätzliche Rechenzeit während der Inferenz auszunutzen. Es verarbeitet 1,5-mal mehr Token als Phi-4-reasoning, was zu einer höheren Genauigkeit führt.

Performance-Benchmarks

Trotz ihrer deutlich geringeren Größe übertreffen sowohl Phi-4-reasoning als auch Phi-4-reasoning-plus OpenAI’s o1-mini und DeepSeek-R1-Distill-Llama-70B in verschiedenen Benchmarks, darunter mathematisches Denken und wissenschaftliche Anfragen auf PhD-Niveau. Beeindruckenderweise übertreffen sie sogar das vollständige DeepSeek-R1-Modell (mit 671 Milliarden Parametern) im AIME 2025-Test, der als Qualifikationswettbewerb für die USA Math Olympiad von 2025 dient. Beide Modelle sind auf Azure AI Foundry und Hugging Face leicht zugänglich.

Phi-4-Mini-Reasoning: Kompaktes Kraftpaket für eingeschränkte Umgebungen

Phi-4-mini-reasoning wurde speziell entwickelt, um die Nachfrage nach einem kompakten Reasoning-Modell zu befriedigen. Dieses Transformer-basierte Sprachmodell ist für mathematisches Denken optimiert und bietet hochwertige, schrittweise Problemlösungsfunktionen in Umgebungen, in denen Rechenleistung oder Latenz begrenzt sind. Es wurde mit synthetischen Daten feinabgestimmt, die vom Deepseek-R1-Modell generiert wurden, und gleicht Effizienz effektiv mit fortschrittlichen Denkfähigkeiten aus. Dies macht es ideal für Bildungsanwendungen, eingebettete Tutorsysteme und leichtgewichtige Bereitstellungen auf Edge- oder mobilen Systemen. Das Modell wird mit über einer Million verschiedener mathematischer Probleme trainiert, die im Schwierigkeitsgrad von der Mittelstufe bis zum PhD-Niveau reichen, was seine Vielseitigkeit und Effektivität in einem breiten Spektrum von Bildungskontexten gewährleistet.

Phi in Aktion: Erweiterung des Horizonts

Die Entwicklung von Phi im Laufe des letzten Jahres hat die Grenzen der Qualität im Verhältnis zur Größe konsequent verschoben, wobei die Familie um neue Funktionen erweitert wurde, die auf unterschiedliche Bedürfnisse zugeschnitten sind. Diese Modelle können lokal sowohl auf CPUs als auch auf GPUs auf einer Vielzahl von Windows 11-Geräten ausgeführt werden, was Benutzern mit unterschiedlichen Hardwarekonfigurationen Flexibilität und Zugänglichkeit bietet.

Integration mit Copilot+ PCs: Eine neue Ära des KI-gestützten Computing

Phi-Modelle sind ein integraler Bestandteil von Copilot+ PCs und nutzen die NPU-optimierte Phi Silica-Variante. Diese hocheffiziente Version von Phi, die vom Betriebssystem verwaltet wird, ist so konzipiert, dass sie vorab in den Speicher geladen wird und schnelle Reaktionszeiten und einen energieeffizienten Token-Durchsatz bietet. Dies ermöglicht es, es gleichzeitig mit anderen Anwendungen auf dem PC aufzurufen, wodurch die Multitasking-Fähigkeiten und die Gesamtleistung des Systems verbessert werden.

Reale Anwendungen

Phi-Modelle werden bereits in Kernfunktionen wie Click to Do verwendet, das intelligente Texttools für alle Inhalte auf dem Bildschirm bereitstellt. Sie sind auch als Entwickler-APIs für die nahtlose Integration in Anwendungen verfügbar. Die Modelle werden derzeit in verschiedenen Produktivitätsanwendungen wie Outlook verwendet, wo sie Offline-Copilot-Zusammenfassungsfunktionen bereitstellen. Die Phi-4-reasoning- und Phi-4-mini-reasoning-Modelle nutzen Low-Bit-Optimierungen für Phi Silica und werden bald auf Copilot+ PC NPUs ausgeführt werden können.

Microsofts Engagement für verantwortungsvolle KI und Sicherheit

Bei Microsoft ist verantwortungsvolle KI ein grundlegendes Prinzip, das die Entwicklung und Bereitstellung von KI-Systemen, einschließlich der Phi-Modelle, leitet. Die Phi-Modelle werden in Übereinstimmung mit den Microsoft AI-Prinzipien entwickelt: Rechenschaftspflicht, Transparenz, Fairness, Zuverlässigkeit und Sicherheit, Datenschutz und Sicherheit sowie Inklusivität. Die Phi-Familie von Modellen verwendet einen robusten Ansatz für die Sicherheit nach dem Training und verwendet eine Kombination aus Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) und Reinforcement Learning from Human Feedback (RLHF)-Techniken, um ihre verantwortungsvolle und ethische Verwendung zu gewährleisten.

Die technischen Grundlagen der Phi-Modelle: Eine detaillierte Untersuchung

Die Phi-Modelle von Microsoft stellen einen bedeutenden Fortschritt im Bereich der kleinen Sprachmodelle dar, insbesondere in ihrer Fähigkeit, komplexe Denkaufgaben mit relativ wenigen Parametern auszuführen. Dieser Abschnitt befasst sich mit den technischen Details, die es diesen Modellen ermöglichen, eine so beeindruckende Leistung zu erzielen.

Architektonische Innovationen

Die Phi-Modelle basieren auf der Transformer-Architektur, einem Deep-Learning-Modell, das die Verarbeitung natürlicher Sprache revolutioniert hat. Transformer zeichnen sich durch die Erfassung von Fernabhängigkeiten im Text aus, wodurch die Modelle den Kontext und die Nuancen der Sprache verstehen können.

  • Attention-Mechanismus: Der Kern der Transformer-Architektur ist der Attention-Mechanismus, der es dem Modell ermöglicht, sich bei der Generierung von Ausgaben auf die relevantesten Teile der Eingabe zu konzentrieren. Dies ist besonders wichtig für Denkaufgaben, bei denen das Modell die wichtigsten Informationen und Beziehungen identifizieren muss, um zu einer korrekten Schlussfolgerung zu gelangen.

  • Scaled Dot-Product Attention: Phi-Modelle verwenden Scaled Dot-Product Attention, eine verfeinerte Version des Attention-Mechanismus, die einen Skalierungsfaktor enthält, um zu verhindern, dass die Dot-Produkte zu groß werden, was während des Trainings zu Instabilität führen kann.

  • Multi-Head Attention: Um verschiedene Aspekte der Eingabe zu erfassen, verwenden Phi-Modelle Multi-Head Attention, wobei mehrere Attention-Mechanismen parallel arbeiten. Jeder Head konzentriert sich auf eine andere Teilmenge der Eingabe, wodurch das Modell komplexere Darstellungen erlernen kann.

  • Feed-Forward-Netzwerke: Nach den Attention-Layern enthält die Transformer-Architektur Feed-Forward-Netzwerke, die die Informationen weiterverarbeiten. Diese Netzwerke bestehen aus mehreren Neuronenschichten, die lernen, Features aus den Attention-Ausgaben zu extrahieren.

Trainingsmethoden: Ein facettenreicher Ansatz

Das Training von Phi-Modellen umfasst eine Kombination von Techniken, darunter überwachtes Fine-Tuning, Reinforcement Learning und Datendestillation.

  • Supervised Fine-Tuning (SFT): Überwachtes Fine-Tuning beinhaltet das Training des Modells auf einem beschrifteten Datensatz, wobei die Eingabe eine Frage oder ein Problem und die Ausgabe die richtige Antwort oder Lösung ist. Dies hilft dem Modell, bestimmte Eingaben mit den entsprechenden Ausgaben zu verknüpfen.

  • Reinforcement Learning (RL): Reinforcement Learning ist eine Technik, bei der das Modell lernt, Entscheidungen zu treffen, indem es mit einer Umgebung interagiert und Belohnungen oder Strafen für seine Aktionen erhält. Im Kontext von Sprachmodellen könnte die Umgebung ein Satz von Regeln oder Einschränkungen sein, und die Belohnung könnte auf der Genauigkeit der Antworten des Modells basieren.

  • Datendestillation: Datendestillation ist eine Technik, bei der ein kleineres Modell trainiert wird, um das Verhalten eines größeren, komplexeren Modells nachzuahmen. Dies ermöglicht es dem kleineren Modell, eine Leistung zu erzielen, die mit dem größeren Modell vergleichbar ist, während weniger Ressourcen benötigt werden.

Datenkuration: Der Eckpfeiler der Leistung

Die Leistung von Phi-Modellen hängt stark von der Qualität der für das Training verwendeten Daten ab. Microsoft hat erhebliche Anstrengungen unternommen, um hochwertige Datensätze zu kuratieren, die speziell für Denkaufgaben entwickelt wurden.

  • Synthetische Datengenerierung: Um die verfügbaren Daten zu erweitern, hat Microsoft Techniken zur Generierung synthetischer Daten entwickelt, die die Eigenschaften von realen Daten nachahmen. Dies ermöglicht es, die Modelle mit einem größeren und vielfältigeren Datensatz zu trainieren, was ihre Generalisierungsfähigkeit verbessert.

  • Datenfilterung: Microsoft verwendet strenge Datenfilterungstechniken, um verrauschte oder irrelevante Daten aus dem Trainingsdatensatz zu entfernen. Dies stellt sicher, dass die Modelle mit sauberen und genauen Daten trainiert werden, was zu einer besseren Leistung führt.

  • Datenerweiterung: Datenerweiterungstechniken werden verwendet, um die Vielfalt des Trainingsdatensatzes zu erhöhen, indem Transformationen auf die vorhandenen Daten angewendet werden. Dies hilft den Modellen, robuster gegenüber Variationen in der Eingabe zu sein.

Optimierungstechniken: Ausgleich von Effizienz und Genauigkeit

Phi-Modelle sind sowohl auf Effizienz als auch auf Genauigkeit optimiert, sodass sie auf ressourcenbeschränkten Geräten ausgeführt werden können, ohne die Leistung zu beeinträchtigen.

  • Quantisierung: Quantisierung ist eine Technik, bei der die Präzision der Parameter des Modells reduziert wird, was den Speicherbedarf und die Rechenanforderungen des Modells reduziert.

  • Pruning: Pruning ist eine Technik, bei der weniger wichtige Verbindungen im Modell entfernt werden, was die Größe und Komplexität des Modells reduziert.

  • Knowledge Distillation: Knowledge Distillation beinhaltet die Übertragung von Wissen von einem größeren, komplexeren Modell auf ein kleineres Modell. Dies ermöglicht es dem kleineren Modell, eine Leistung zu erzielen, die mit dem größeren Modell vergleichbar ist, während weniger Ressourcen benötigt werden.

Die Phi Silica NPU: Ein Hardware-Software-Synergieansatz

Die Phi-Modelle von Microsoft sind so konzipiert, dass sie eng in die Phi Silica NPU (Neural Processing Unit) integriert sind, einen spezialisierten Hardwarebeschleuniger, der für Deep-Learning-Workloads optimiert ist.

  • Low-Bit-Optimierung: Die Phi Silica NPU unterstützt die Low-Bit-Optimierung, die es den Modellen ermöglicht, mit reduzierter Präzision zu laufen, wodurch ihr Speicherbedarf und ihre Rechenanforderungen weiter reduziert werden.

  • Vorabladen in den Speicher: Die Phi-Modelle sind so konzipiert, dass sie vorab in den Speicher geladen werden, wodurch sie schnell und effizient aufgerufen werden können.

  • Betriebssystemverwaltung: Die Phi Silica NPU wird vom Betriebssystem verwaltet, wodurch sie nahtlos in die Benutzererfahrung integriert werden kann.

Zusammenfassend lässt sich sagen, dass die Phi-Modelle von Microsoft einen bedeutenden Fortschritt im Bereich der kleinen Sprachmodelle darstellen. Durch die Kombination innovativer architektonischer Designs, rigoroser Trainingsmethoden, sorgfältiger Datenkuration und Hardware-Software-Co-Design hat Microsoft eine Familie von Modellen geschaffen, die sowohl leistungsstark als auch effizient sind und eine breite Palette von KI-gestützten Anwendungen ermöglichen.