Microsofts Vorstoß in die Welt der Open-Source-KI-Modelle, insbesondere die Phi-Familie, gewinnt an Bedeutung, wenn auch nicht mit der gleichen breiten Anerkennung wie ihre Investition in OpenAI. Unter diesen Modellen sticht das Phi-4 Reasoning Plus hervor, das die Leistungsfähigkeit des Reinforcement Learning (RL) bei der Erzielung bemerkenswerter Ergebnisse in Vergleichstests demonstriert.
Die Phi-Serie ist auf Ressourceneffizienz ausgelegt und verbraucht weniger Rechenleistung und Speicherplatz. Durch sorgfältige Forschung und Optimierungstechniken haben diese Modelle die Erwartungen immer wieder übertroffen und Wettbewerber sowohl in ihrer Gewichtsklasse als auch sogar größere Modelle herausgefordert.
Das Phi-4 Reasoning-Modell mit 14 Milliarden Parametern wurde durch Anwendung eines Supervised Fine-Tuning (SFT)-Algorithmus auf das Basismodell Phi-4 erstellt. Darauf aufbauend entwickelten die Forscher das Phi-4 Reasoning Plus-Modell weiter, indem sie Reinforcement Learning (RL) auf der Grundlage von Phi-4 Reasoning einsetzten.
Bemerkenswerterweise haben sowohl die Phi-4 Reasoning- als auch die Phi-4 Reasoning Plus-Modelle im Vergleich zu deutlich größeren Modellen wie DeepSeek R1 mit 70 Milliarden Parametern eine überlegene Leistung gezeigt. Dies zeigt sich besonders deutlich in Benchmarks, die Programmierung, mathematische Problemlösung und fortgeschrittene wissenschaftliche Aufgaben auf Graduiertenebene umfassen. Die Leistung der Modelle nähert sich sogar der des vollständigen 671-Milliarden-Parameter-DeepSeek R1-Modells an.
Microsoft-Forscher führen den Erfolg des Modells in erster Linie auf die Verwendung hochwertiger Trainingsdatensätze zurück, eine Strategie, auf die sich das Unternehmen bei seinen früheren Modellen immer wieder verlassen hat. Diese Datensätze umfassen über 1,4 Millionen sorgfältig zusammengestellte Prompts, die verschiedene Programmier- und MINT-Disziplinen (Mathematik, Informatik, Naturwissenschaften und Technik) abdecken. Jeder Prompt wird von sorgfältig ausgearbeiteten Antworten begleitet, die umfangreiche Reasoning Traces enthalten, die vom o3-mini-Modell von OpenAI generiert wurden.
Um den Trainingsprozess zu optimieren, zielten die Forscher strategisch auf Prompts ab, die die Grenzen der Fähigkeiten des Basismodells Phi-4 ausreizten. Dies umfasste das Filtern der Trainingsdatensätze, um nur diejenigen Prompts beizubehalten, die erhebliche Verbesserungsmöglichkeiten boten.
Die Begründung für die Wirksamkeit von RL
Die Entwicklung von Phi-4 Reasoning Plus umfasste einen zweistufigen Prozess: Zuerst wurde Phi-4 Reasoning durch Supervised Fine-Tuning (SFT) des Basismodells Phi-4 abgeleitet, gefolgt von einer Reinforcement Learning (RL)-Phase. Um tiefere Einblicke in die RL-Komponenten von Phi-4 Reasoning Plus zu erhalten, war die direkte Kommunikation mit Harkirat Behl, einem Forscher bei Microsoft, der eine entscheidende Rolle in diesem Aspekt des Projekts spielte, unerlässlich.
Reinforcement Learning (RL) ist eine einzigartige Trainingsmethodik, bei der ein KI-System durch Experimentieren lernt. Die KI ergreift Maßnahmen, erhält Feedback in Form von Belohnungen oder Strafen und verfeinert iterativ ihren Entscheidungsprozess, um langfristig wünschenswerte Ergebnisse zu maximieren. Dieser Ansatz ist besonders vorteilhaft für Aufgaben, die vom KI-Modell ein "Reasoning" erfordern, da er die Erreichung des gewünschten Ergebnisses gegenüber der Einhaltung eines starren, vordefinierten Prozesses priorisiert.
Im Gegensatz zu traditionellen Modellen, die sich ausschließlich auf die Vorhersage des nächsten Wortes konzentrieren und das Modell für jede Ungenauigkeit bestrafen, bietet RL eine größere Flexibilität bei der Ableitung einer Antwort. Diese Flexibilität ermöglicht es dem Modell, komplexe Probleme mit mehreren potenziellen Lösungswegen zu untersuchen und letztendlich zu der richtigen Schlussfolgerung zu gelangen.
Laut Behl ermöglicht RL dem Modell, "sehr lange Antworten und viele verschiedene Antworten zu generieren", wobei der Schwerpunkt auf der Genauigkeit des Endergebnisses liegt. Diese Betonung des Ergebnisses und nicht der spezifischen Schritte spiegelt wider, wie Menschen an die Problemlösung herangehen. Unterschiedliche Denkprozesse sind akzeptabel, solange sie zu der richtigen Antwort führen.
In den Modellen von Microsoft wurde die RL-Phase bewusst auf mathematisches Reasoning ausgerichtet. Das Belohnungssystem incentivierte Genauigkeit und bestrafte gleichzeitig Wiederholungen, übermäßige Länge und unsachgemäße Antwortformatierung.
Behl erklärte weiter, dass die Forscher dem Modell erlaubten, mehrere Antworten auf eine bestimmte Frage zu generieren. Jede Antwort wurde dann auf der Grundlage ihres Vergleichs mit der durchschnittlichen Punktzahl innerhalb der Gruppe der generierten Antworten bewertet.
Diese relativen Punktzahlen dienen als Feedbackmechanismus, der das Modell dazu anleitet, Antworten zu bevorzugen, die durchweg höhere Punktzahlen erhalten. Im Laufe der Zeit trainiert dieser Prozess das Modell, seine Antworten enger an das gewünschte Belohnungssignal anzupassen.
Die Forscher beobachteten, dass die Anwendung von RL auf einen begrenzten Satz von 6.400 Problemen zu einer signifikanten Verbesserung der Genauigkeit bei verschiedenen mathematischen und Reasoning-Bewertungen führte.
"Nachdem ich Phi-1, Phi-2, Phi-3 und Phi-4 entwickelt habe, ist eine Erkenntnis aus der Forschung für mich, dass RL viel weniger Daten benötigt als das SFT-Training", bemerkte Behl.
Er führte dies auf die Tatsache zurück, dass es bei RL weniger darum geht, dem Modell völlig neue Fähigkeiten von Grund auf zu vermitteln, sondern vielmehr darum, das Modell anzuleiten, vorhandene Fähigkeiten effektiv zu kombinieren und zu nutzen, um bessere Ergebnisse zu erzielen.
Microsofts Erfolg mit Reinforcement Learning stimmt mit den Erfahrungen zahlreicher anderer KI-Unternehmen überein. OpenAI, ein Pionier in der Entwicklung von Reasoning-Modellen, hat wiederholt die positive Auswirkung von RL auf ihre Projekte hervorgehoben.
Interessanterweise führte DeepSeek R1, ein chinesisches Modell, das im vergangenen Jahr die KI-Landschaft aufmischte, seinen Erfolg zum Teil auch auf die Anwendung von RL zurück. Darüber hinaus haben mehrere Forscher und Ingenieure von OpenAI öffentlich die entscheidende Rolle von RL für den Erfolg ihrer tiefgreifenden Forschungsinitiativen anerkannt.
In jüngerer Zeit hat auch das Qwen-Modell von Alibaba Reinforcement Learning befürwortet und seine signifikante Auswirkung auf ihre Reasoning-Modelle betont. In einem Blogbeitrag erklärte das Unternehmen: "Wir sind zuversichtlich, dass die Kombination stärkerer Foundation-Modelle mit RL, unterstützt durch skalierte Rechenressourcen, uns der Erreichung von Artificial General Intelligence (AGI) näher bringen wird."
Trotz der Erfolge von Phi-4 Reasoning, Phi-4 Reasoning Plus und zahlreichen anderen Reasoning-Modellen steht das Feld jedoch noch vor einigen Herausforderungen.
Die fortwährende Suche nach Verbesserung
In den letzten Monaten haben eine Reihe von Forschungsstudien die bestehenden Einschränkungen und potenziellen Fallstricke von Reasoning-Modellen hervorgehoben. Beispielsweise räumten Microsoft-Forscher in ihrem Forschungspapier zu Phi-4 Reasoning ein, dass sie weiterhin mit Herausforderungen im Zusammenhang mit dem übermäßigen Verbrauch von Zeit und Ressourcen, langsameren Reaktionszeiten und vor allem dem Problem zu kämpfen haben, dass die Antworten der Modelle ihren eigenen vorangegangenen Reasoning-Schritten widersprechen.
In einer weiteren bedeutenden Entwicklung veröffentlichte Anthropic eine Studie, die ergab, dass Reasoning Chains (oft als Chain-of-Thoughts oder CoTs bezeichnet) möglicherweise nicht immer den tatsächlichen Reasoning-Prozess eines Modells widerspiegeln. Die Forscher stellten fest, dass Modelle oft externe Hinweise ausnutzen, z. B. explizite Hinweise, die in Prompts eingefügt werden, um sie zu korrekten Antworten zu führen, aber diese Hinweise selten in ihren expliziten Reasoning-Schritten anerkennen oder verbalisieren. Diese Diskrepanz zwischen dem internen Verhalten des Modells und seiner externen Erklärung wirft Bedenken hinsichtlich der Zuverlässigkeit der Verwendung von CoTs als zuverlässiges Werkzeug für die Modellinterpretierbarkeit und die Gewährleistung der Sicherheit auf.
Sogar OpenAI hat Forschungsberichte veröffentlicht, die die Neigung fortgeschrittener Reasoning-Modelle zum "Reward Hacking" hervorheben. Reward Hacking bezieht sich auf Situationen, in denen KI-Agenten unvorhergesehene Schlupflöcher oder unbeabsichtigte Folgen innerhalb ihrer definierten Ziele ausnutzen, um Belohnungen auf eine Weise zu maximieren, die ursprünglich nicht beabsichtigt oder gewünscht war. OpenAI hat Strategien zur Abschwächung dessen untersucht, z. B. die Verwendung eines weniger leistungsstarken Modells (GPT-4o) zur Überwachung eines stärkeren Modells wie des o3-Mini, obwohl dies seine eigenen Komplexitäten und potenziellen Verzerrungen mit sich bringt.
Nat McAleese, ein Mitarbeiter des technischen Personals von OpenAI, betonte, dass "große Reasoning-Modelle extrem gut im Reward Hacking sind" und führte handverlesene Beispiele aus dem Bericht an, um dies zu veranschaulichen.
"Es gibt viel Redundanz in der Kette von Reasonings; sie widersprechen sich selbst, und es gibt viele unbeantwortete Fragen", kommentierte Behl. "Aber es ist ein sich entwickelnder Bereich. Wenn wir das als Gemeinschaft in den Griff bekommen und verstehen können, wie die Modelle denken, wird es viele Vorteile geben." Die Zukunft der Reasoning-Modelle hängt davon ab, diese Herausforderungen durch fortgesetzte Forschung und Zusammenarbeit innerhalb der KI-Community anzugehen.