Microsofts kleines Modell überrascht: Mathe-Cheat-Code

Der Aufstieg der Phi-4 Reasoning Modelle

Während DeepSeek-R2 weiterhin schwer fassbar bleibt, sorgen Microsofts kleinere Modelle für Aufsehen und zeigen beeindruckende Denkfähigkeiten, die auf einem überraschend kleinen Datensatz trainiert wurden.

Die KI-Welt ist derzeit von Reasoning-Modellen fasziniert, und Microsoft hat kürzlich die Phi-4-Familie von Inferenzmodellen vorgestellt. Dazu gehören Phi-4-reasoning, Phi-4-reasoning-plus und Phi-4-mini-reasoning. Besonders bemerkenswert ist, dass selbst das größte dieser Modelle mit lediglich 14 Milliarden Parametern problemlos auf leistungsstarken Laptops laufen kann. Darüber hinaus übertrifft das 3,8 Milliarden Parameter Phi-4-mini-reasoning das 8 Milliarden Parameter DeepSeek-R1 destillierte Modell in mathematischem Denken, was die Leistungsfähigkeit kleinerer Modelle bei Inferenzaufgaben hervorhebt.

Anstatt auf die Veröffentlichung des DeepSeek-R2 Reasoning-Modells der zweiten Generation im April zu warten, enthüllte Microsoft eine neue Serie von Phi-4 Reasoning-Modellen. Diese Modelle zeigen außergewöhnliche Leistungen im mathematischen Denken und übertreffen das destillierte DeepSeek-R1-Modell, obwohl Phi-4-Mini-Reasoning einen kleineren Parametersatz aufweist.

Ahmed Awadallah, Partner Research Manager bei Microsoft AI Frontiers Laboratory, beschrieb das Phi-4-reasoning und fasste die Funktionen des neuen Modells zusammen.

  • Das Modell wird mit Supervised Fine-tuning (unter Verwendung eines sorgfältig ausgewählten Datensatzes mit Reasoning-Beispielen) und Reinforcement Learning trainiert.
  • Es schneidet gut in Inferenz-Benchmarks ab und kann mit größeren Top-Modellen wie DeepSeek R1 vergleichbar sein.
  • Es schneidet weiterhin gut bei neuen Tests ab (wie AIME 2025, HMMT)
  • Die Reasoning-Fähigkeit hat eine starke Übertragbarkeit/Generalisierungsfähigkeit, selbst nach nur überwachtem Fine-tuning kann es sich an neue Aufgaben anpassen (wie k-SAT, mathematische Gleichungslösung, Scheduling usw.)
  • Behält und verbessert die allgemeinen Fähigkeiten (wie z. B. das Verständnis und die Ausführung von Anweisungen) erheblich

Er erklärte, dass Phi-4 noch einige Aspekte aufweist, die verbessert werden müssen, insbesondere in Bezug auf die Kontextlänge, die Codierungsfähigkeit und die Tool-Integration.

Zusätzlich zum Modell selbst teilte Microsoft auch einen detaillierten technischen Bericht, der eine eingehende Analyse des Trainings- und Bewertungsprozesses des Modells bietet.

Auf X stellte Dimitris Papailiopoulos, Principal Researcher bei Microsoft Research AI Frontiers Laboratory und Associate Professor an der University of Wisconsin, weitere Informationen über das Phi-4 Reasoning-Modell vor.

Er glaubt, dass Phi-4-reasoning das Graduate-Level vollständig erreicht hat und auf einem lokalen PC ausgeführt werden kann.

Dies übertraf seine Erwartungen an die Entwicklung von KI.

Das neue Modell hat wenige Parameter, aber eine starke Leistung.

Ein Leistungsstarkes Kraftpaket

Trotz seiner bescheidenen Größe zeichnet sich dieses Modell in Mathematik-Benchmarks wie AIME, HMMT und OmniMath aus. Es schneidet genauso gut oder besser ab als größere Open-Weight-Modelle wie QwQ-32B, R1-70B und R1 sowie Closed-Modelle wie o1-mini und Sonnet 3.7.

Dieses Modell ist klein und eignet sich gut für die reibungslose Ausführung auf leistungsstarken Laptops.

Gleichzeitig ist es in der Lage, viele Rätsel zu lösen, die selbst größere Nicht-Reasoning-Modelle und einige Reasoning-Modelle nicht lösen können.

Es hat auch den DimitrisEval-Test bestanden!

Überraschenderweise scheint Reasoning eine wirklich übertragbare ‘Meta-Fähigkeit’ zu sein, die sogar durch überwachtes Fine-tuning SFT erlernt werden kann!

Beweis 1: Selbst ohne spezielles Training für Nicht-Reasoning-Aufgaben beobachteten die Forscher immer noch signifikante Leistungsverbesserungen bei IFEval, FlenQA und dem internen PhiBench (ein Anstieg von mehr als 10 Punkten!).

Darüber hinaus gibt es während der SFT-Phase nur sehr wenige Daten zum Codieren (und überhaupt keine während der RL-Phase), aber das Modell schneidet in dieser Hinsicht immer noch gut ab.

Darüber hinaus enthüllte Dimitris Papailiopoulos, dass die Programmierung ein wichtiger Schwerpunkt für nachfolgende Versionen ist.

Beweis 2: Im Fall einiger spezifischer Probleme, die nicht explizit trainiert wurden (entweder SFT- oder RL-Phase), wie z. B. das Problem des Handlungsreisenden, das Lösen von Labyrinthen, k-SAT, Constraint Planning usw., schneidet das Modell bei diesen Aufgaben sehr gut ab!

Und Phi-4 (und sogar GPT-4) können dies nicht.

Dies verdeutlicht vollständig, dass Reasoning-Fähigkeit tatsächlich als Fähigkeit übertragen werden kann!

Nach einer sehr kurzen Runde Reinforcement Learning (mit nur 6.000 Samples im Vergleich zu 1,4 Millionen Beispielen für SFT) scheint der Reasoning-Mechanismus des Modells ‘gesperrt’ zu sein.

Dies schockierte Dimitris Papailiopoulos besonders.

Er hat das Gefühl, dass das Reinforcement Learning dem Modell beigebracht hat, in ‘seiner eigenen Sprache’ zu argumentieren, wodurch die Genauigkeit bei AIME und HMMT um etwa 10 % erhöht und die durchschnittliche Antwortlänge bei schwierigen Problemen um 50 % erhöht wird.

Reinforcement Learning ist wirklich effektiv!!

Das Phänomen, dass der Reasoning-Mechanismus ‘gesperrt’ wird, führt normalerweise dazu, dass die Ausgabeverteilung des Modells konzentrierter ist und die Genauigkeit ebenfalls höher ist.

Die Tatsache, dass Reinforcement Learning die Fähigkeiten des Modells erheblich verbessern kann, wurde auch in früheren Forschungen von Microsoft widergespiegelt.

In der Reinforcement-Learning-Phase wurde das neue Modell nicht einmal speziell für Daten optimiert: 6.000 Fragen wurden nur zufällig aus einer größeren Auswahl von Datensätzen ausgewählt.

Warum hat Microsoft also nicht mehr Reinforcement-Learning-Training durchgeführt?

Da das Modell Antworten auf Fragen generierte, die die Kontextlänge von 32k überschritten (die Länge, auf die das Modell nicht trainiert wurde), konnten sie sie nur abschneiden.

Darüber hinaus hat das neue Reasoning-Modell mit Hilfe paralleler Reasoning-Berechnungen (wie Maj@N) fast die Leistungsgrenze bei AIME 2025 erreicht und sogar die Pass@1-Leistung seines Lehrer-Modells (o3-mini) übertroffen.

Und alle Datenerfassungen wurden vor Februar 2025 abgeschlossen, ebenso wie HMMT.

In anderen Aufgaben haben Forscher auch das Phänomen des ‘Übertreffens des Lehrers’ beobachtet, wie z. B. OmniMath- und Kalenderplanungsaufgaben.

Das Prompt-Design in der SFT-Phase, gepaart mit dem anschließenden Reinforcement-Learning-Prozess, scheint dem Modell die Fähigkeit zur ‘Selbstverbesserung’ gegeben zu haben, die über den Umfang des vom Lehrer-Modell bereitgestellten Wissens hinausgeht.

In der folgenden Abbildung steht Magenta für o3-mini und Grün für Phi.

Ein interessantes Phänomen ist, dass: lange Texte mit Antwortlängen in den oberen 25 % oft stark mit falschen Antworten korreliert sind!

Andererseits ist in den meisten Bewertungen die gesamte durchschnittliche Antwortlänge länger und die Genauigkeit höher.

Mit anderen Worten, die Erhöhung der Rechenressourcen während des Testens hilft zwar, aber das Modell neigt auch dazu, sich zu ‘verzetteln’, wenn es ‘festhängt’.

Bezüglich der Einschränkungen des Modells gibt es auch einige Dinge zu beachten:

  • Die Fähigkeit, Kontextlängen von mehr als 32k zu verarbeiten, wurde noch nicht vollständig erweitert oder getestet.
  • Das Modell neigt dazu, bei der Bearbeitung einfacher Probleme zu ‘überdenken’ und kann bei der Selbsteinschätzung zu wortreich erscheinen.
  • Die Fähigkeit von Multi-Turn-Dialogen wurde noch nicht umfassend getestet.

Natürlich gibt es noch mehr ‘blinde Flecken’ zu entdecken, aber insgesamt hat das Forschungsteam das Gefühl, auf dem richtigen Weg zu sein!

Trainingsüberraschungen

Suriya Gunasekar, Principal Research Manager bei Microsoft Research und zum ‘AGI Physics’-Team gehörend, das für die Entwicklung der Phi-Serie von Modellen verantwortlich ist, konzentrierte sich auf die Einführung der Kernprinzipien der Arbeit.

Diesmal konzentrierte sich das Microsoft Phi-Team auf die Post-Training-Phase und startete Phi-4-reasoning (nur mit SFT) und Phi-4-reasoning-plus (SFT+ eine kleine Menge RL).

Beide sind 14B-Modelle, die starke Fähigkeiten in Reasoning- und allgemeinen Task-Benchmarks gezeigt haben.

Der Kern dieser Arbeit liegt in der Prompt-Auswahl und der experimentellen Erforschung von übertragbaren, sich selbst verbessernden Reasoning-Fähigkeiten.

Während des Trainingsprozesses gab es zwei überraschende Entdeckungen:

Erstens kann Phi-4, solange wenige domänenspezifische Long-Chain-Reasoning- (CoT) -Trajektorien verwendet werden, signifikante Leistungsverbesserungen in mehreren Aufgaben erzielen, wie z. B. Scheduling, Labyrinthlösen (ohne visuelle Eingabe), IFEva, FlenQA, KITAB (Lookup-basiertes Frage-Antwort) und interne PhiBench;

Zweitens wird die Leistung des Modells in einigen Benchmarks auch bei Verwendung von nur 6.000 mathematischen Beispielen für minimales RL-Training deutlich verbessert, wobei die höchste Verbesserung 10 % erreicht (aber die Token-Nutzung um etwa das 1,5-fache steigt), und es wurde auch eine domänenübergreifende Übertragung von Fähigkeiten während der RL-Phase beobachtet.

Mit anderen Worten, im Vergleich zu großen Wettbewerbern wie OpenAI und Google demonstriert die Microsoft Phi-4 Reasoning-Serie neue Möglichkeiten: Kleine Modelle können große Modelle in bestimmten Aufgaben durch die Verwendung hochwertiger Daten und verfeinerter Trainingsstrategien erreichen oder sogar übertreffen.

Kernmethoden

Das Reasoning-Modell Phi-4-reasoning hat 14 Milliarden Parameter und schneidet bei komplexen Reasoning-Aufgaben stark ab.

Das Modell basiert auf Phi-4 für Supervised Fine-tuning-Training unter Verwendung eines sorgfältig ausgewählten Satzes von ‘lehrbaren’ Prompts, die sowohl eine angemessene Komplexität als auch Vielfalt aufweisen; die von o3-mini generierten Reasoning-Beispiele werden während des Trainingsprozesses als Referenzen verwendet.

Phi-4-reasoning kann detaillierte Reasoning-Ketten generieren und die Rechenressourcen während des Reasoning-Prozesses voll ausschöpfen.

Auf dieser Basis entwickelte Microsoft Phi-4-reasoning-plus weiter.

Es wird auf der Basis des ursprünglichen Modells durch eine kleine Phase des ergebnisorientierten Reinforcement Learning erweitert und generiert längere und leistungsstärkere Reasoning-Ketten.

Die Forschung zeigt, dass ein gut gestalteter SFT-Datensatz den Effekt von Reasoning-Sprachmodellen erheblich verbessern kann und Reinforcement Learning (RL) diese Verbesserung auf dieser Basis weiter verstärken kann.

Auch in dieser relativ einfachen Generierungseinstellung sind in SFT-Experimenten die sorgfältige Auswahl und die strenge Filterung von Seed-Problemen weiterhin der Schlüssel zum Erfolg des Modells.

Sie haben den gesamten Satz von Trainingsdaten einem strengen Entkeimungsprozess unterzogen, um sicherzustellen, dass er keine Daten enthält, die sich stark mit weit verbreiteten Reasoning- oder allgemeinen Benchmark-Fragen überschneiden, einschließlich einiger Benchmarks, die in diesem Bericht nicht erwähnt werden.

Die vollständige Liste der Benchmark-Tests, die dekontaminiert wurden, lautet wie folgt:

  • Mathematik und Reasoning: AIME-2024, MATH, GPQA, OmniMATH, GSM8k
  • Programmierung: LiveCodeBench, Codeforces, HumanEval, MBPP
  • Frage-Antwort und Allgemeinwissen: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
  • Andere Bewertungsaufgaben: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench

Durch Supervised Finetuning (SFT) des Phi-4-Modells mit 14 Milliarden Parametern erhielten die Forscher Phi-4-reasoning, ohne vorheriges Reinforcement Learning.

Das SFT-Ziel ist es, die im Basismodell enthaltene strukturierte Reasoning-Fähigkeit zu verfeinern.

Die Architektur von Phi-4-reasoning ist die gleiche wie die des Phi-4-Modells, jedoch mit zwei wesentlichen Änderungen:

  • Reasoning-Token: Die beiden Platzhalter-Token im Basismodell werden als und -Token wiederverwendet, die verwendet werden, um den Beginn und das Ende eines Reasoning- (‘Denk’)-Prozesses zu markieren.
  • Erhöhte Token-Länge: Die maximale Token-Länge, die das Basismodell (Phi-4) anfänglich unterstützte, betrug 16K. Um zusätzliche Reasoning-Token aufzunehmen, wurde die Basisfrequenz von RoPE verdoppelt und das Modell mit einer maximalen Token-Länge von 32K trainiert.

Sie verwendeten eine synthetische Methode, um eine große Anzahl von Chain-of-Thought-Reasoning-Beispielen zu generieren.

Der verwendete SFT-Datensatz enthält mehr als 1,4 Millionen Prompt-Antwort-Paare mit insgesamt 8,3 Milliarden eindeutigen Token, die Reasoning-Bereiche wie Mathematik und Programmierung sowie Ausrichtungsdaten für sichere und verantwortungsvolle KI abdecken.

Abbildung 4a zeigt die Veränderungen der wichtigsten Indikatoren während des gesamten SFT-Iterationsprozesses.

Früh im Training begann das Modell, explizite ‘Denk’-Token zu verwenden, was darauf hindeutet, dass das Modell dieses flache strukturierte Format schnell erlernt hat.

Wie jedoch in Abbildung 4a gezeigt, verbessern sich die Wirksamkeit des Chain-of-Thought-Moduls und die Reasoning-Fähigkeit des Modells während des gesamten Trainingsprozesses, was darauf hindeutet, dass das Modell nicht nur das Format kopiert, sondern tatsächlich Reasoning-Fähigkeiten erlernt.

Interessanterweise sahen die Forscher im Gegensatz zum Reinforcement Learning keine Erhöhung der Antwortlänge während des SFT-Prozesses.

Tatsächlich sank die durchschnittliche Antwortlänge, wie in Abbildung 4b gezeigt, leicht.

Dies zeigt, dass das Modell im Laufe des Trainings lernt, sein Token-Budget effektiver zu nutzen.

Um verschiedene Trainingsstrategien systematisch zu bewerten, verwendeten sie einen festen Benchmark - AIME 2024 und GPQA Diamond - als Indikator für den Fortschritt.

Insgesamt kann die experimentelle Methode in zwei Phasen unterteilt werden: Erkundung und Skalierung.

In der Erkundungsphase verwendeten die Forscher kürzere Trainingszyklen und begrenzte Datenquellen und -bereiche, um schnell zu iterieren und robuste Trainingsmethoden zu extrahieren.

In der anschließenden Expansionsphase fassten die Forscher die Ergebnisse früher Risikominderungsversuche zusammen und finalisierten die SFT-Einstellungen.

Abbildung 5 fasst diesen Fortschritt zusammen und hebt Ablationsversuche für mehrere wichtige Designentscheidungen hervor.

Abbildung 5 zeigt einen High-Level-Überblick über den Supervised Fine-tuning- (SFT) -Experimentierzyklus von Phi-4-reasoning, einschließlich Erkundungs- und Expansionsphasen, wobei einige Beispielversuche zur Darstellung verwendet werden. Jeder Punktcluster stellt die experimentellen Ergebnisse einer bestimmten Trainingsdesignauswahl dar.

Abbildung 7 zeigt die wichtigsten Ergebnisse des Phi-4-reasoning-plus-Modells während des GRPO-Trainingsprozesses.

Ausgehend vom Supervised Fine-tuning- (SFT) -Basismodell Phi-4-reasoning erhöhten nur 90 Schritte GRPO-Training die AIME-Leistung um mehr als 10 % (Abbildung 7a).

Die weitere Erhöhung der Anzahl der Trainingsschritte brachte keine zusätzlichen Vorteile, was darauf hindeutet, dass das Potenzial eines starken SFT-Modells nahe an der Leistungsobergrenze liegt. Es ist zu beachten, dass die Ausgabe im GRPO-Training auf maximal 31k Token begrenzt ist, was den Optimierungsspielraum von GRPO objektiv einschränkt.

Wie in Abbildung 7c gezeigt, korreliert die Antwortlänge stark mit der AIME-Leistung, während die Korrelation zwischen der Belohnungspunktzahl und der AIME-Punktzahl schwach ist. Dieser Effekt des Antwortlängenwachstums ist der erwartete Effekt des GRPO-Trainings - das Modell verbessert seine Reasoning-Fähigkeit, indem es die ‘Denkzeit’ erhöht.

Abbildung 7d zeigt ferner, dass aufgrund des Designs des Belohnungsmodells die Generierungslänge falscher Antworten deutlich schneller wächst als die richtiger Antworten (wenn die aktuelle Antwort des Modells falsch ist, wird das System es ermutigen, länger zu denken).

Tatsächlich kann die Durchführung von Rejection Sampling, die ausschließlich auf der Antwortlänge basiert (insbesondere lange Antworten, die den Median deutlich überschreiten), die GRPO-Leistung weiter verbessern.

Wie in Abbildung 7d gezeigt, ähnelt der Wachstumstrend kürzerer Antworten (Länge im unteren 25 %-Quantil) während des Trainingsprozesses der durchschnittlichen Länge richtiger Antworten, während die Länge falscher Antworten näher am 75 %-Quantil der gesamten Antwortlänge liegt.

Dieses Differenzierungsphänomen deutet darauf hin, dass die längenbasierte Rejection Sampling die Modelleffizienz verbessern kann, indem sie übermäßig lange, falsche Ausgaben unterdrückt.