Microsofts Phi-4 Reasoning präsentiert kompakte, Open-Weight-Modelle (MIT-lizenziert), schnelle, effiziente SLMs, die zu fortgeschrittenem Denken fähig sind.
Microsoft, als privilegierter Partner von OpenAI und in Zusammenarbeit mit den meisten Akteuren, um deren KI-Modelle in Azure AI Foundry zu integrieren, scheut sich nicht, seine eigenen technologischen Wege zu verfolgen. Dies beinhaltet die Arbeit an Innovationen im Kern neuronaler Netze, wie dem faszinierenden BitNet b1.58-Modell auf Basis von Trit, seinen eigenen Open-Source-SLMs und sogar Frontier-Modellen, die unter Verschluss gehalten werden (Project MAI-1).
Ein Jahr nach der Einführung seiner Reihe kleiner KI-Modelle (SLMs) Phi-3 und zwei Monate nach der Vorstellung der 4. Generation mit einem multimodalen SLM (Phi-4-Multimodal) und einem winzigen Modell (Phi-4-mini) kündigt Microsoft drei neue Varianten seiner neuesten SLM-Generation an: Phi-4-reasoning, Phi-4-reasoning-plus und Phi-4-mini-reasoning.
Diese am 30. April 2025 veröffentlichten "reasoning-integrierten" Versionen erweitern das Open-Weight-Angebot kompakter Modelle für Entwickler, die niedrige Latenzzeiten benötigen und gleichzeitig komplexes Denken erfordern.
Das Herzstück des Ansatzes der Microsoft-Ingenieure zur "reasoning"-Fähigkeit seiner SLMs ist das Vertrauen auf feinkörnige Überwachung (SFT) durch OpenAIs Reasoning-Ketten o3-mini und die Nutzung von Reinforcement Learning (RL) für die "Plus"-Version. "Durch Destillation, Reinforcement Learning und hochwertige Daten bringen diese Modelle Größe und Leistung in Einklang", erklärt Microsoft.
Klein, aber begabt
Die Ergebnisse auf den verschiedenen führenden Benchmarks des Marktes lassen die Konkurrenz erblassen: Typischerweise übertrifft Phi-4-reasoning mit nur 14 Milliarden Parametern DeepSeek-R1-Distill-Llama-70B (70 Milliarden Parameter) in den Serien AIME 2025, MMLU-Pro oder HumanEval-Plus und nähert sich dem vollständigen DeepSeek-R1-Modell (671 Milliarden Parameter)! Die Variante Phi-4-reasoning-plus, die auf dieselben 14 Milliarden Parametern ausgerichtet, aber mit 1,5-mal mehr Token trainiert wurde, erreicht fast die o3-mini-Ergebnisse von OpenAI bei OmniMath! Zur Information: Phi-4-reasoning profitiert von einem klassischen Kontextfenster mit 128.000 Token, das für die Version Phi-4-reasoning-plus auf 256.000 Token erweitert wurde.
Phi-4-mini-reasoning wurde für eingebettete Systeme entwickelt, zeigt 3,8 Milliarden Parameter, einen synthetischen Satz von einer Million mathematischer Probleme, die von DeepSeek-R1 generiert wurden, und erreicht o1-mini-Leistung bei Math-500, während es mehrere Modelle mit 7 bis 8 Milliarden Parametern übertrifft. Mit seiner ultrakleinen Größe ist dieses Modell ideal für die lokale Ausführung, auch auf mobilen Geräten, und um den Bedarf an nahezu sofortigen Antworten zu decken. Es eignet sich besonders für Bildungszwecke und lokale Chatbots.
Offene Modelle für vielfältige Anwendungen
Auf der Einsatzseite werden CISOs diese Modelle bereits für Copilot+ PCs optimiert finden: Die NPU-Variante "Phi Silica" ist im Speicher vorinstalliert und bietet nahezu sofortige Reaktionszeiten, was eine energieeffiziente Koexistenz mit Geschäftsanwendungen garantiert. Die Windows-APIs ermöglichen die Integration der Offline-Generierung in Outlook oder interne Tools.
In Bezug auf die Sicherheit beansprucht Microsoft eine Pipeline, die mit seinen Prinzipien der Verantwortung übereinstimmt – Rechenschaftspflicht, Fairness, Zuverlässigkeit, Sicherheit und Inklusion. Die Modelle durchlaufen ein Post-Training, das SFT, Direct Preference Optimization und RLHF aus öffentlichen und internen "Hilfsbereitschaft/Harmlosigkeit"-orientierten Datensätzen kombiniert. Microsoft veröffentlicht auch die "Cards" seiner Modelle, die die verbleibenden Einschränkungen und Abhilfemaßnahmen detailliert beschreiben.
Die drei Modelle sind ab sofort auf Azure AI Foundry, Hugging Face und GitHub Models verfügbar und werden unter der sehr permissiven MIT-Lizenz veröffentlicht, was den Weg für lokale Inferenz sowie Hybrid-Cloud-Bereitstellungen eröffnet. Für Sicherheits- und Architekturteams bietet diese neue Generation von SLMs eine glaubwürdige Alternative zu massiven LLMs, mit reduzierten Gesamtbetriebskosten, lokaler Ausführung sowie am Edge und erhöhter Datenkontrolle. Diese Modelle sind ein Beweis für die unglaublichen Fortschritte, die SLMs in einem Jahr erzielt haben, und ihr erstaunliches Potenzial in einem Universum auf der Suche nach kostengünstigerer und energie- und ressourcenschonender KI.
Ein tieferer Einblick in die Reasoning-Fähigkeiten von Phi-4
Die Ankunft der Phi-4-Modellfamilie stellt einen bedeutenden Schritt nach vorn in der Entwicklung kleiner Sprachmodelle (SLMs) dar. Was diese Modelle auszeichnet, sind ihre verbesserten Reasoning-Fähigkeiten, die durch innovative Trainingstechniken und einen Fokus auf hochwertige Daten erreicht werden. Microsofts Engagement für Open-Source-Prinzipien demokratisiert den Zugang zu diesen leistungsstarken Werkzeugen weiter und ermöglicht es Entwicklern, fortschrittliche KI-Funktionen in eine Vielzahl von Anwendungen zu integrieren.
Verständnis der Architektur
Die Phi-4-Modelle basieren auf einer Transformer-Architektur, einem bewährten Framework für die Verarbeitung natürlicher Sprache. Microsoft hat jedoch mehrere wichtige Innovationen implementiert, um die Modelle für Reasoning-Aufgaben zu optimieren.
- Feinkörnige Überwachung (SFT): Die Modelle werden mithilfe einer Technik namens feinkörnige Überwachung (SFT) trainiert, bei der von detaillierten Reasoning-Ketten gelernt wird, die von OpenAIs o3-mini-Modell generiert werden. Dies ermöglicht es den Phi-4-Modellen, die Schritte zu erlernen, die in komplexen Reasoning-Prozessen enthalten sind.
- Reinforcement Learning (RL): Die "Plus"-Variante des Phi-4-Modells, Phi-4-reasoning-plus, verwendet Reinforcement Learning (RL), um ihre Reasoning-Fähigkeiten weiter zu verbessern. RL beinhaltet das Trainieren des Modells, um ein Belohnungssignal zu maximieren, das in diesem Fall auf der Genauigkeit und Effizienz seines Reasoning basiert.
- Destillation: Destillation wird verwendet, um Wissen von größeren, komplexeren Modellen auf die kleineren Phi-4-Modelle zu übertragen. Dies ermöglicht es den SLMs, Leistungsniveaus zu erreichen, die mit viel größeren Modellen vergleichbar sind, während ihre kompakte Größe und Effizienz erhalten bleiben.
Benchmarking der Leistung
Die Phi-4-Modelle haben auf einer Vielzahl von Reasoning-Benchmarks eine beeindruckende Leistung gezeigt und in einigen Fällen größere Modelle übertroffen. Zum Beispiel übertrifft Phi-4-reasoning mit nur 14 Milliarden Parametern DeepSeek-R1-Distill-Llama-70B (70 Milliarden Parameter) auf mehreren herausfordernden Datensätzen, darunter AIME 2025, MMLU-Pro und HumanEval-Plus. Dies unterstreicht die Effizienz und Effektivität der Phi-4-Architektur und der Trainingstechniken.
Die Variante Phi-4-reasoning-plus, die mit 1,5-mal mehr Token trainiert wurde, erzielt Ergebnisse, die nahe an OpenAIs o3-mini auf dem OmniMath-Benchmark liegen, was ihre Fähigkeit demonstriert, komplexe mathematische Reasoning-Probleme anzugehen.
Anwendungen und Anwendungsfälle
Die Phi-4-Modelle eignen sich gut für eine Vielzahl von Anwendungen, die fortschrittliche Reasoning-Fähigkeiten erfordern.
- Bildungswerkzeuge: Das Phi-4-mini-reasoning-Modell ist mit seiner geringen Größe und hohen Leistung ideal für Bildungsanwendungen. Es kann verwendet werden, um interaktive Lernwerkzeuge zu erstellen, die Schülern personalisiertes Feedback und Unterstützung bieten.
- Lokale Chatbots: Die Phi-4-Modelle können verwendet werden, um lokale Chatbots zu erstellen, die Benutzern sofortigen Zugriff auf Informationen und Support bieten. Ihre geringe Größe ermöglicht es, sie auf mobilen Geräten und anderen ressourcenbeschränkten Umgebungen bereitzustellen.
- Copilot+ PCs: Die Phi-4-Modelle sind für Copilot+ PCs optimiert und bieten Benutzern ein nahtloses KI-Erlebnis. Die Variante "Phi Silica" ist im Speicher vorinstalliert und bietet nahezu sofortige Reaktionszeiten.
- Offline-Generierung: Die Windows-APIs ermöglichen die Integration der Offline-Generierung in Outlook oder interne Tools, sodass Benutzer auf KI-Funktionen zugreifen können, auch wenn sie nicht mit dem Internet verbunden sind.
Sicherheit und Verantwortung
Microsoft engagiert sich für die Entwicklung und Bereitstellung von KI-Modellen auf verantwortungsvolle und ethische Weise. Die Phi-4-Modelle sind keine Ausnahme.
- Verantwortungsprinzipien: Microsofts KI-Entwicklungspipeline ist an seinen Prinzipien der Verantwortung ausgerichtet, zu denen Rechenschaftspflicht, Fairness, Zuverlässigkeit, Sicherheit und Inklusion gehören.
- Post-Training: Die Phi-4-Modelle durchlaufen ein Post-Training mit SFT, Direct Preference Optimization und RLHF aus öffentlichen und internen "Hilfsbereitschaft/Harmlosigkeit"-orientierten Datensätzen. Dies trägt dazu bei, sicherzustellen, dass die Modelle sicher und zuverlässig sind.
- Modellkarten: Microsoft veröffentlicht "Cards" für seine Modelle, die die verbleibenden Einschränkungen und Abhilfemaßnahmen detailliert beschreiben. Dies bietet Benutzern Transparenz und ermöglicht es ihnen, fundierte Entscheidungen darüber zu treffen, wie sie die Modelle verwenden.
Die Zukunft der SLMs
Die Phi-4-Modelle stellen einen bedeutenden Schritt nach vorn in der Entwicklung kleiner Sprachmodelle (SLMs) dar. Ihre verbesserten Reasoning-Fähigkeiten in Kombination mit ihrer geringen Größe und Effizienz machen sie zu einer überzeugenden Alternative zu größeren Sprachmodellen (LLMs) in vielen Anwendungen.
Da sich SLMs weiter verbessern, werden sie wahrscheinlich eine immer wichtigere Rolle in der KI-Landschaft spielen. Ihre Fähigkeit, auf ressourcenbeschränkten Geräten zu laufen und eine schnelle, effiziente Leistung zu erbringen, macht sie gut geeignet für eine Vielzahl von Anwendungen, von Bildungswerkzeugen über lokale Chatbots bis hin zu Edge-Computing-Geräten.
Microsofts Engagement für Open-Source-Prinzipien und verantwortungsvolle KI-Entwicklung positioniert die Phi-4-Modelle weiter als wertvolle Ressource für die KI-Community. Durch die Demokratisierung des Zugangs zu diesen leistungsstarken Werkzeugen befähigt Microsoft Entwickler, innovative und wirkungsvolle Anwendungen zu erstellen, die der Gesellschaft als Ganzes zugute kommen können.
Ein genauerer Blick auf die technischen Aspekte
Ein tieferes Eintauchen in die Besonderheiten der Phi-4-Architektur und des Trainings offenbart die innovativen Techniken, die es diesen SLMs ermöglichen, so beeindruckende Reasoning-Fähigkeiten zu erzielen. Die Kombination aus sorgfältig kuratierten Datensätzen, ausgefeilten Trainingsalgorithmen und einem Fokus auf Effizienz hat zu einer Familie von Modellen geführt, die sowohl leistungsstark als auch praxistauglich sind.
Datenkuration und -vorbereitung
Der Erfolg jedes maschinellen Lernmodells hängt von der Qualität und Relevanz der Daten ab, mit denen es trainiert wird. Microsoft hat erhebliche Anstrengungen unternommen, um die Datensätze zu kuratieren und vorzubereiten, die zum Trainieren der Phi-4-Modelle verwendet werden.
- Reasoning-Ketten von OpenAIs o3-mini: Die Modelle nutzen Reasoning-Ketten, die von OpenAIs o3-mini-Modell generiert werden, um die Schritte zu erlernen, die in komplexen Reasoning-Prozessen enthalten sind. Diese Ketten bieten einen detaillierten Fahrplan, dem die SLMs folgen können, wodurch sie ein tieferes Verständnis der zugrunde liegenden Logik entwickeln können.
- Synthetische mathematische Probleme: Das Phi-4-mini-reasoning-Modell wird auf einem synthetischen Datensatz von einer Million mathematischer Probleme trainiert, die von DeepSeek-R1 generiert werden. Dieser Datensatz bietet eine vielfältige Auswahl an mathematischen Herausforderungen, die es dem Modell ermöglichen, starke Fähigkeiten zur Problemlösung zu entwickeln.
- Hilfsbereitschafts-/Harmlosigkeits-Datensätze: Die Modelle durchlaufen ein Post-Training unter Verwendung von Datensätzen, die entwickelt wurden, um Hilfsbereitschaft und Harmlosigkeit zu fördern. Dies trägt dazu bei, sicherzustellen, dass die Modelle sichere und verantwortungsvolle Ausgaben generieren.
Trainingsalgorithmen
Die Phi-4-Modelle werden unter Verwendung einer Kombination aus überwachtem Lernen, Reinforcement Learning und Destillation trainiert. Diese Techniken arbeiten zusammen, um die Modelle für Reasoning-Aufgaben zu optimieren und sicherzustellen, dass sie sowohl genau als auch effizient sind.
- Überwachtes Feintuning (SFT): SFT wird verwendet, um die Modelle auf den Reasoning-Ketten fein abzustimmen, die von OpenAIs o3-mini-Modell generiert werden. Dies ermöglicht es den Modellen, die spezifischen Muster und Beziehungen zu erlernen, die für komplexe Reasoning-Prozesse charakteristisch sind.
- Reinforcement Learning (RL): RL wird verwendet, um das Phi-4-reasoning-plus-Modell zu trainieren, um ein Belohnungssignal basierend auf der Genauigkeit und Effizienz seines Reasoning zu maximieren. Dies ermutigt das Modell, Strategien zur Lösung von Problemen zu entwickeln, die sowohl effektiv als auch rechentechnisch effizient sind.
- Destillation: Destillation wird verwendet, um Wissen von größeren, komplexeren Modellen auf die kleineren Phi-4-Modelle zu übertragen. Dies ermöglicht es den SLMs, Leistungsniveaus zu erreichen, die mit viel größeren Modellen vergleichbar sind, während ihre kompakte Größe und Effizienz erhalten bleiben.
Optimierung für Effizienz
Eines der Hauptziele bei der Entwicklung der Phi-4-Modelle war es, sie für Effizienz zu optimieren. Dies spiegelt sich in verschiedenen Aspekten ihres Designs und Trainings wider.
- Kompakte Architektur: Die Phi-4-Modelle sind mit einer kompakten Architektur konzipiert, die die Anzahl der erforderlichen Parameter minimiert. Dies reduziert die Rechenkosten für die Ausführung der Modelle und macht sie gut geeignet für die Bereitstellung auf ressourcenbeschränkten Geräten.
- Quantisierung: Die Quantisierung wird verwendet, um den Speicherbedarf der Modelle zu reduzieren und ihre Inferenzgeschwindigkeit zu verbessern. Dies beinhaltet die Darstellung der Parameter des Modells mit weniger Bits, was die Rechenkosten für die Ausführung des Modells erheblich reduzieren kann.
- Hardwarebeschleunigung: Die Phi-4-Modelle sind für die Hardwarebeschleunigung auf einer Vielzahl von Plattformen optimiert, darunter CPUs, GPUs und NPUs. Dies ermöglicht es ihnen, auf einer Vielzahl von Geräten maximale Leistung zu erzielen.
Auswirkungen auf die Zukunft der KI
Die Phi-4-Modelle stellen einen bedeutenden Schritt nach vorn in der Entwicklung der KI dar, mit Auswirkungen, die weit über die spezifischen Anwendungen hinausgehen, für die sie entwickelt wurden. Ihre Fähigkeit, mit relativ geringer Größe und geringen Rechenressourcen eine hohe Leistung zu erzielen, eröffnet neue Möglichkeiten für die Bereitstellung von KI in einer Vielzahl von Umgebungen.
Demokratisierung der KI
Die Phi-4-Modelle sind ein Beweis dafür, dass leistungsstarke KI-Fähigkeiten erreicht werden können, ohne massive Rechenressourcen oder den Zugriff auf proprietäre Datensätze zu erfordern. Dies demokratisiert den Zugang zur KI und befähigt Entwickler und Forscher, auch mit begrenzten Ressourcen innovative Anwendungen zu erstellen.
Edge Computing
Die geringe Größe und Effizienz der Phi-4-Modelle machen sie gut geeignet für Edge-Computing-Anwendungen. Dies ermöglicht es, KI näher an der Datenquelle bereitzustellen, wodurch die Latenz reduziert und die Reaktionsfähigkeit verbessert wird. Edge Computing hat das Potenzial, eine Vielzahl von Branchen zu revolutionieren, von der Fertigung über das Gesundheitswesen bis hin zum Transportwesen.
Personalisierte KI
Die Phi-4-Modelle können angepasst und an die spezifischen Bedürfnisse einzelner Benutzer oder Organisationen angepasst werden. Dies ermöglicht die Erstellung personalisierter KI-Erlebnisse, die auf die individuellen Anforderungen jedes Benutzers zugeschnitten sind. Personalisierte KI hat das Potenzial, die Produktivität zu verbessern, das Lernen zu verbessern und das allgemeine Wohlbefinden zu steigern.
Nachhaltige KI
Die Phi-4-Modelle sind eine nachhaltigere Alternative zu größeren Sprachmodellen, die weniger Energie und Rechenressourcen benötigen. Dies ist wichtig, um die Umweltauswirkungen der KI zu reduzieren und sicherzustellen, dass sie auf verantwortungsvolle und nachhaltige Weise eingesetzt werden kann.
Die Microsoft Phi-4-Reasoning-Modelle sind nicht nur eine weitere Iteration in der sich ständig weiterentwickelnden Welt der KI; sie sind ein Paradigmenwechsel. Sie zeigen, dass Intelligenz nicht allein eine Funktion der Größe und Rechenleistung ist, sondern durch intelligentes Design, sorgfältige Kuration von Daten und innovative Trainingstechniken erreicht werden kann. Da sich diese Modelle ständig weiterentwickeln, sind sie bereit, neue Möglichkeiten für KI zu erschließen und die Art und Weise zu verändern, wie wir mit Technologie interagieren.