Phi-4 Akıl Yürütme Modellerinin Yükselişi
Yapay zeka dünyası şu anda akıl yürütme modelleriyle büyülenmiş durumda ve Microsoft yakın zamanda Phi-4 çıkarım modelleri ailesini tanıttı. Buna Phi-4-reasoning, Phi-4-reasoning-plus ve Phi-4-mini-reasoning dahildir. Özellikle dikkat çekici olan şey, bu modellerin en büyüğü bile, sadece 14 milyar parametreye sahip olmasına rağmen, yüksek performanslı dizüstü bilgisayarlarda sorunsuz bir şekilde çalışabilmesidir. Dahası, 3.8 milyar parametreli Phi-4-mini-reasoning, matematiksel akıl yürütmede 8 milyar parametreli DeepSeek-R1 damıtılmış modelini geride bırakarak, çıkarım görevlerinde daha küçük modellerin gücünü vurgulamaktadır.
Nisan ayında ikinci nesil DeepSeek-R2 akıl yürütme modelinin piyasaya sürülmesini beklemek yerine, Microsoft yeni bir Phi-4 akıl yürütme modelleri serisini tanıttı. Bu modeller, Phi-4-Mini-Reasoning’in daha küçük bir parametre ölçeğine sahip olmasına rağmen, matematiksel akıl yürütmede DeepSeek-R1 damıtılmış modelini aşarak olağanüstü bir performans sergilemektedir.
Microsoft AI Frontiers laboratuvarında Partner Araştırma Yöneticisi olan Ahmed Awadallah, Phi-4-reasoning‘i tanımladı ve yeni modelin özelliklerini özetledi.
- Model, Gözetimli İnce Ayar (dikkatle seçilmiş bir akıl yürütme örneği veri kümesi kullanılarak) ve Takviyeli Öğrenme ile eğitilmiştir.
- Çıkarım kıyaslamalarında iyi performans gösterir ve DeepSeek R1 gibi daha büyük üst modellerle karşılaştırılabilir.
- Yeni testlerde (AIME 2025, HMMT gibi) güçlü bir şekilde performans göstermeye devam ediyor.
- Akıl yürütme yeteneği, güçlü bir aktarılabilirlik/genelleme yeteneğine sahiptir, hatta sadece gözetimli ince ayardan sonra bile, yeni görevlere (k-SAT, matematiksel denklem çözme, planlama vb.) uyum sağlayabilir.
- Genel yetenekleri (talimat anlama ve yürütme gibi) korur ve büyük ölçüde geliştirir.
Phi-4’ün, özellikle bağlam uzunluğu, kodlama yeteneği ve araç entegrasyonu olmak üzere iyileştirilmesi gereken birkaç yönü olduğunu belirtti.
Modele ek olarak, Microsoft ayrıca modelin eğitimi ve değerlendirme sürecinin derinlemesine bir analizini sağlayan ayrıntılı bir teknik rapor yayınladı.
Microsoft Research AI Frontiers laboratuvarında Baş Araştırmacı ve Wisconsin Üniversitesi’nde Doçent olan Dimitris Papailiopoulos, X’te Phi-4 akıl yürütme modeli hakkında daha fazla bilgi verdi.
Phi-4-reasoning’in tamamen lisansüstü seviyeye ulaştığına ve yerel bir PC’de çalıştırılabileceğine inanıyor.
Bu, yapay zekanın gelişimi için beklentilerini aştı.
Yeni modelin az sayıda parametresi var ancak güçlü bir performansı var.
Bir Performans Güç Merkezi
Mütevazı boyutuna rağmen, bu model AIME, HMMT ve OmniMath gibi matematik kıyaslamalarında mükemmeldir. QwQ-32B, R1-70B ve R1 gibi daha büyük açık ağırlıklı modeller ve o1-mini ve sonnet 3.7 gibi kapalı modellerle aynı düzeyde veya daha iyi performans gösterir.
Bu model küçük boyutludur ve yüksek performanslı dizüstü bilgisayarlarda sorunsuz çalışmaya uygundur.
Aynı zamanda, daha büyük akıl yürütme dışı modellerin ve bazı akıl yürütme modellerinin bile çözemediği birçok bilmeceyi çözebilir.
Ayrıca DimitrisEval testini de geçti!
Şaşırtıcı bir şekilde, akıl yürütme, gözetimli ince ayar SFT yoluyla bile öğrenilebilen gerçekten aktarılabilir bir ‘meta-beceri’ gibi görünüyor!
Kanıt 1: Akıl yürütme dışı görevlerde özel bir eğitim olmamasına rağmen, araştırmacılar yine de IFEval, FlenQA ve dahili PhiBench’te (10 puandan fazla bir artış!) önemli performans iyileştirmeleri gözlemlediler.
Ek olarak, SFT aşamasında kodlamayla ilgili çok az veri vardır (ve RL aşamasında hiç yoktur), ancak model bu konuda yine de iyi performans göstermektedir.
Ek olarak, Dimitris Papailiopoulos, programlamanın sonraki sürümler için önemli bir odak noktası olduğunu açıkladı.
Kanıt 2: Açıkça eğitim alınmayan bazı belirli problemler (SFT veya RL aşaması), örneğin gezgin satıcı problemi, labirent çözme, k-SAT, kısıtlı planlama vb. durumunda, model bu görevlerde çok iyi performans gösteriyor!
Ve Phi-4 (ve hatta GPT-4) bunu yapamaz.
Bu, akıl yürütme yeteneğinin gerçekten bir beceri olarak aktarılabileceğini tam olarak göstermektedir!
Çok kısa bir takviyeli öğrenme turundan sonra (SFT için 1,4 milyon örneğe kıyasla sadece 6.000 örnek kullanılarak), modelin akıl yürütme mekanizması ‘kilitlenmiş’ gibi görünüyor.
Bu, Dimitris Papailiopoulos’u özellikle şok etti.
Takviyeli öğrenmenin modele ‘kendi dilinde’ akıl yürütmeyi öğretmiş gibi olduğunu, AIME ve HMMT’de doğruluğu yaklaşık %10 artırdığını ve zor problemlerdeki ortalama cevap uzunluğunu %50 artırdığını düşünüyor.
Takviyeli öğrenme gerçekten etkili!!
Akıl yürütme mekanizmasının ‘kilitlenmesi’ olgusu, genellikle modelin çıktı dağılımını daha yoğun hale getirir ve doğruluk da daha yüksektir.
Takviyeli öğrenmenin modelin yeteneklerini önemli ölçüde iyileştirebileceği gerçeği, Microsoft’un önceki araştırmalarında da yansıtılmıştır.
Takviyeli öğrenme aşamasında, yeni model veri için özel olarak optimize edilmedi bile: 6.000 soru, daha büyük bir veri kümesi seçiminden rastgele seçildi.
Peki Microsoft neden daha fazla takviyeli öğrenme eğitimi yapmadı?
Çünkü model, 32k bağlam uzunluğunu (modelin eğitilmediği uzunluk) aşan sorulara cevaplar üretti, bu nedenle bunları yalnızca kesebilirlerdi.
Ek olarak, paralel akıl yürütme hesaplamalarının (Maj@N gibi) yardımıyla, yeni akıl yürütme modeli AIME 2025’te neredeyse performans sınırına ulaştı ve hatta öğretmen modelinin (o3-mini) pass@1 performansını aştı.
Ve tüm veri toplama işlemi Şubat 2025’ten önce tamamlandı ve HMMT de öyle.
Diğer görevlerde, araştırmacılar ayrıca OmniMath ve Takvim Planlama görevleri gibi ‘öğretmeni aşma’ olgusunu da gözlemlediler.
SFT aşamasındaki istem tasarımı, sonraki takviyeli öğrenme süreciyle birleştiğinde, modele öğretmen modelinin sağladığı bilgi kapsamını aşarak ‘kendini geliştirme’ yeteneği vermiş gibi görünüyor.
Aşağıdaki şekilde, macenta o3-mini’yi ve yeşil Phi’yi temsil eder.
İlginç bir olgu şudur: cevap uzunlukları en üst %25’te olan uzun metinler genellikle yanlış cevaplarla güçlü bir şekilde ilişkilidir!
Ancak, öte yandan, çoğu değerlendirmede, genel ortalama cevap uzunluğu daha uzundur ve doğruluk daha yüksektir.
Başka bir deyişle, test sırasında bilgi işlem kaynaklarını artırmak yardımcı olur, ancak model ‘sıkıştığında’ ‘savrulmaya’ da eğilimlidir.
Modelin sınırlamalarına gelince, dikkat edilmesi gereken bazı şeyler de vardır:
- 32k’yı aşan bağlam uzunluklarını işleme yeteneği tam olarak genişletilmemiş veya test edilmemiştir.
- Model, basit problemlerle uğraşırken ‘aşırı düşünmeye’ eğilimlidir ve öz değerlendirmede çok ayrıntılı görünebilir.
- Çok turlu diyalogların yeteneği yaygın olarak test edilmemiştir.
Elbette, keşfedilecek daha fazla ‘kör nokta’ var, ancak genel olarak, araştırma ekibi doğru yolda olduklarını düşünüyor!
Eğitim Sürprizleri
Microsoft Research’te Baş Araştırma Yöneticisi ve Phi model serisini geliştirmekten sorumlu olan ‘AGI Physics’ ekibine mensup olan Suriya Gunasekar, çalışmanın temel ilkelerini tanıtmaya odaklandı.
Bu sefer Microsoft Phi ekibi, eğitim sonrası aşamaya odaklandı ve Phi-4-reasoning (sadece SFT kullanarak) ve Phi-4-reasoning-plus‘ı (SFT + az miktarda RL) piyasaya sürdü.
Her ikisi de, akıl yürütme ve genel görev kıyaslamalarında güçlü yetenekler gösteren 14B modelidir.
Bu çalışmanın özü, istem seçimi ve aktarılabilir, kendini geliştiren akıl yürütme becerilerinin deneysel keşfinde yatmaktadır.
Eğitim sürecinde iki şaşırtıcı keşif yapıldı:
İlk olarak, birkaç alan eğitimli uzun zincirli akıl yürütme (CoT) yörüngesi kullanıldığı sürece, Phi-4, planlama, labirent çözme (görsel girdi olmadan), IFEva, FlenQA, KITAB (arama tabanlı soru cevaplama) ve dahili PhiBench gibi birden fazla görevde önemli performans iyileştirmeleri elde edebilir;
İkincisi, sadece 6.000 matematiksel örnek minimal RL eğitimi için kullanılsa bile, modelin performansı bazı kıyaslamalarda önemli ölçüde iyileştirildi, en yüksek iyileştirme %10’a ulaştı (ancak token kullanımı yaklaşık 1,5 kat arttı) ve RL aşamasında becerilerin alanlar arası aktarımı da gözlemlendi.
Başka bir deyişle, OpenAI ve Google gibi büyük rakiplerle karşılaştırıldığında, Microsoft Phi-4 akıl yürütme serisi yeni olasılıklar göstermektedir: küçük modeller, yüksek kaliteli veri ve rafine edilmiş eğitim stratejileri kullanarak belirli görevlerde büyük modellerle eşleşebilir ve hatta onları aşabilir.
Temel Yöntemler
Akıl yürütme modeli Phi-4-reasoning 14 milyar parametreye sahiptir ve karmaşık akıl yürütme görevlerinde güçlü bir şekilde performans gösterir.
Model, denetimli ince ayar eğitimi için Phi-4’e dayanmaktadır ve hem uygun karmaşıklığa hem de çeşitliliğe sahip dikkatle seçilmiş bir ‘öğretilebilir’ istemler seti kullanır; o3-mini tarafından üretilen akıl yürütme örnekleri, eğitim süreci sırasında referans olarak kullanılır.
Phi-4-reasoning, ayrıntılı akıl yürütme zincirleri oluşturabilir ve akıl yürütme süreci sırasında bilgi işlem kaynaklarından tam olarak yararlanabilir.
Bu temelde, Microsoft ayrıca Phi-4-reasoning-plus‘ı geliştirdi.
Orijinal model temelinde küçük bir sonuç tabanlı takviyeli öğrenme aşaması aracılığıyla geliştirilmiştir ve daha uzun ve daha güçlü akıl yürütme zincirleri oluşturur.
Araştırmalar, iyi tasarlanmış bir SFT veri kümesinin, akıl yürütme dili modellerinin etkisini önemli ölçüde iyileştirebileceğini ve takviyeli öğrenmenin (RL) bu temelde bu iyileştirmeyi daha da artırabileceğini göstermektedir.
SFT deneylerinde, bu nispeten basit oluşturma ayarında bile, tohum problemlerinin dikkatli seçimi ve sıkı bir şekilde filtrelenmesi modelin başarısının anahtarıdır.
Yaygın olarak kullanılan akıl yürütme veya genel kıyaslama sorularıyla yüksek oranda örtüşen veriler içermediğinden emin olmak için, eğitim verilerinin tamamı, bu raporda bahsedilmeyen bazı kıyaslamalar da dahil olmak üzere sıkı bir kirlilikten arındırma işlemine tabi tutulmuştur.
Kirlilikten arındırılmış kıyaslama testlerinin tam listesi aşağıdaki gibidir:
- Matematik ve Akıl Yürütme: AIME-2024, MATH, GPQA, OmniMATH, GSM8k
- Programlama: LiveCodeBench, Codeforces, HumanEval, MBPP
- Soru Cevaplama ve Genel Bilgi: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
- Diğer Değerlendirme Görevleri: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench
Araştırmacılar, 14 milyar parametreli Phi-4 modelinin Gözetimli İnce Ayarı (SFT) yoluyla, daha önce herhangi bir takviyeli öğrenme olmaksızın Phi-4-reasoning’i elde ettiler.
SFT’nin amacı, temel modelde yer alan yapılandırılmış akıl yürütme yeteneğini geliştirmektir.
Phi-4-reasoning’in mimarisi, Phi-4 modeliyle aynıdır, ancak iki temel değişiklik vardır:
- Akıl Yürütme Token’ları: Temel modeldeki iki yer tutucu token, ve token’ları olarak yeniden kullanılır ve bir akıl yürütme (‘düşünme’) sürecinin başlangıcını ve sonunu işaretlemek için kullanılır.
- Artırılmış Token Uzunluğu: Temel model (Phi-4) tarafından başlangıçta desteklenen maksimum token uzunluğu 16K idi. Ek akıl yürütme token’larını barındırmak için, RoPE’nin temel frekansı ikiye katlandı ve model maksimum 32K token uzunluğunda eğitildi.
Çok sayıda zincirleme düşünce akıl yürütme örnekleri oluşturmak için sentetik bir yöntem kullandılar.
Kullanılan SFT veri kümesi, 8,3 milyar benzersiz token’a ulaşan, matematik ve programlama gibi akıl yürütme alanlarının yanı sıra güvenli ve sorumlu yapay zeka için uyum verilerini kapsayan 1,4 milyondan fazla istem-yanıt çifti içeriyor.
Şekil 4a, SFT yineleme süreci boyunca temel göstergelerdeki değişiklikleri göstermektedir.
Eğitimin başlarında, model açık ‘düşünme’ token’ları kullanmaya başladı, bu da modelin bu sığ yapılandırılmış biçimi hızla öğrendiğini gösteriyor.
Ancak, Şekil 4a’da gösterildiği gibi, zincirleme düşünce modülünün etkinliği ve modelin akıl yürütme yeteneği eğitim süreci boyunca gelişiyor, bu da modelin sadece biçimi kopyalamadığını, aslında akıl yürütme becerileri öğrendiğini gösteriyor.
İlginç bir şekilde, araştırmacılar takviyeli öğrenmenin aksine, SFT süreci boyunca yanıt uzunluğunda bir artış görmediler.
Aslında, Şekil 4b’de gösterildiği gibi, ortalama yanıt uzunluğu biraz azaldı.
Bu, eğitim ilerledikçe, modelin token bütçesini daha etkili kullanmayı öğrendiğini gösteriyor.
Farklı eğitim stratejilerini sistematik olarak değerlendirmek için, ilerleme göstergesi olarak AIME 2024 ve GPQA diamond’dan oluşan sabit bir kıyaslama kullandılar.
Genel olarak, deneysel yöntem iki aşamaya ayrılabilir: keşif ve ölçeklendirme.
Keşif aşamasında, araştırmacılar hızlı bir şekilde yinelemek ve sağlam eğitim yöntemleri elde etmek için daha kısa eğitim döngüleri ve sınırlı veri kaynakları ve alanları kullandılar.
Sonraki genişletme aşamasında, araştırmacılar erken risk azaltma deneylerinin sonuçlarını özetlediler ve SFT ayarlarını tamamladılar.
Şekil 5, bu ilerlemeyi özetleyerek, birkaç temel tasarım seçeneği için ablasyon deneylerini vurgulamaktadır.
Şekil 5, bazı örnek deneyleri temsil etmek için kullanarak, Phi-4-reasoning denetimli ince ayar (SFT) deneysel döngüsünün, keşif ve genişletme aşamaları da dahil olmak üzere üst düzey bir genel görünümünü göstermektedir. Her nokta kümesi, belirli bir eğitim tasarım seçeneğinin deneysel sonuçlarını temsil eder.
Şekil 7, GRPO eğitim süreci boyunca Phi-4-reasoning-plus modelinin temel bulgularını göstermektedir.
Denetimli ince ayar (SFT) temel modeli Phi-4-reasoning’den başlayarak, sadece 90 adımlık GRPO eğitimi AIME performansını %10’dan fazla artırdı (Şekil 7a).
Eğitim adımlarının sayısını artırmaya devam etmek ek fayda sağlamadı, bu da güçlü bir SFT modelinin potansiyelinin performans tavanına yakın olduğunu gösteriyor. GRPO eğitimindeki çıktının 31k token ile sınırlı olduğuna ve bunun da GRPO’nun optimizasyon alanını nesnel olarak kısıtladığına dikkat edilmelidir.
Şekil 7c’de gösterildiği gibi, yanıt uzunluğu AIME performansı ile güçlü bir şekilde ilişkiliyken, ödül puanı ile AIME puanı arasındaki ilişki zayıftır. Bu yanıt uzunluğu büyüme etkisi, GRPO eğitiminin beklenen etkisidir - model, ‘düşünme süresini’ artırarak akıl yürütme yeteneğini geliştirir.
Şekil 7d, ödül modelinin tasarımından dolayı, yanlış cevapların üretim uzunluğunun doğru cevaplardan önemli ölçüde daha hızlı büyüdüğünü daha da ortaya koymaktadır (modelin mevcut cevabı yanlış olduğunda, sistem onu daha uzun süre düşünmeye teşvik edecektir).
Aslında, yalnızca yanıt uzunluğuna (özellikle medyanı önemli ölçüde aşan uzun yanıtlar) dayalı olarak reddetme örneklemesi yapmak, GRPO performansını daha da artırabilir.
Şekil 7d’de gösterildiği gibi, eğitim süreci boyunca daha kısa yanıtların (uzunluğu alt %25 kantilde bulunur) büyüme eğilimi, doğru cevapların ortalama uzunluğuna benzerken, yanlış cevapların uzunluğu genel yanıt uzunluğunun %75 kantiline daha yakındır.
Bu farklılaşma olgusu, uzunluğa dayalı reddetme örneklemesinin aşırı uzun yanlış çıktıları bastırarak model verimliliğini artırabileceğini göstermektedir.