Microsoft Phi-4: Güçlendirme Öğrenimi Zaferi

Microsoft’un açık kaynaklı AI modelleri dünyasına girişi, özellikle de Phi ailesi, OpenAI’ye yaptığı yatırımla aynı yaygın tanınırlığa sahip olmasa da, ivme kazanıyor. Bu modeller arasında Phi-4 Reasoning Plus, kıyaslama testlerinde dikkat çekici sonuçlar elde etmede pekiştirmeli öğrenmenin (RL) gücünü sergileyerek öne çıkıyor.

Phi serisi, daha az işlem gücü ve depolama alanı tüketerek kaynak açısından verimli olacak şekilde tasarlanmıştır. Titiz araştırma ve optimizasyon teknikleri sayesinde, bu modeller hem ağırlık sınıflarında hem de daha büyük modellere meydan okuyarak beklentileri sürekli olarak aşmıştır.

14 milyar parametreye sahip Phi-4 Reasoning modeli, temel Phi-4 modeline denetimli ince ayar (SFT) algoritması uygulanarak oluşturuldu. Araştırmacılar, bunun üzerine Phi-4 Reasoning Plus modelini geliştirdiler ve Phi-4 Reasoning temeli üzerinde pekiştirmeli öğrenmeyi (RL) kullandılar.

Hem Phi-4 Reasoning hem de Phi-4 Reasoning Plus modelleri, 70 milyar parametreye sahip DeepSeek R1 gibi önemli ölçüde daha büyük modellere kıyasla üstün performans göstermiştir. Bu başarı, kodlama, matematiksel problem çözme ve lisansüstü düzeydeki ileri bilimsel görevleri kapsayan kıyaslamalarda özellikle belirgindir. Modellerin performansı, 671 milyar parametrelik tam ölçekli DeepSeek R1 modelinin performansına bile yaklaşıyor.

Microsoft araştırmacıları, modelin başarısını öncelikle yüksek kaliteli eğitim veri kümelerinin kullanımına bağlıyor; bu, şirketin önceki modellerinde de tutarlı bir şekilde güvendiği bir strateji. Bu veri kümeleri, çeşitli kodlama ve STEM (Bilim, Teknoloji, Mühendislik ve Matematik) disiplinlerini kapsayan 1,4 milyondan fazla dikkatle küratörlüğünü yapılmış istemlerden oluşuyor. Her bir isteme, OpenAI’nin o3-mini modeli tarafından oluşturulan kapsamlı akıl yürütme izleri içeren titizlikle hazırlanmış cevaplar eşlik ediyor.

Eğitim sürecini optimize etmek için araştırmacılar, temel Phi-4 modelinin yeteneklerinin sınırlarını zorlayan istemleri stratejik olarak hedeflediler. Bu, eğitim veri kümelerini yalnızca iyileştirme için önemli fırsatlar sunan istemleri koruyacak şekilde filtrelemeyi içeriyordu.

RL’nin Etkinliğinin Arkasındaki Mantık

Phi-4 Reasoning Plus’ın geliştirilmesi iki aşamalı bir süreç içeriyordu: önce, temel Phi-4 modelinin denetimli ince ayarı (SFT) yoluyla Phi-4 Reasoning’i türetmek, ardından pekiştirmeli öğrenme (RL) aşaması. Phi-4 Reasoning Plus’ın RL bileşenleri hakkında daha derin bilgiler edinmek için, projenin bu yönünde önemli bir rol oynayan Microsoft araştırmacısı Harkirat Behl ile doğrudan iletişim kurulması gerekiyordu.

Pekiştirmeli öğrenme (RL), bir AI sisteminin deneme yoluyla öğrendiği benzersiz bir eğitim metodolojisidir. AI eylemlerde bulunur, ödüller veya cezalar şeklinde geri bildirim alır ve uzun vadeli arzu edilen sonuçları en üst düzeye çıkarmak için karar alma sürecini yinelemeli olarak iyileştirir. Bu yaklaşım, AI modelinin "“akıl yürütmeyi"“ gerektiren görevler için özellikle avantajlıdır, çünkü katı, önceden tanımlanmış bir sürece uymak yerine istenen sonuca ulaşmaya öncelik verir.

Yalnızca bir sonraki kelimeyi tahmin etmeye odaklanan ve her yanlışlık için modeli cezalandıran geleneksel modellerin aksine, RL bir cevabın nasıl türetildiğine dair daha fazla esneklik sunar. Bu esneklik, modelin birden fazla potansiyel çözüm yolu olan karmaşık problemleri keşfetmesine ve sonuçta doğru sonuca ulaşmasına olanak tanır.

Behl’e göre, RL modelin ""çok uzun cevaplar ve birçok farklı cevap oluşturmasını"“ sağlar ve birincil odak noktası nihai sonucun doğruluğudur. Belirli adımlardan ziyade sonuca yapılan bu vurgu, insanların problem çözmeye nasıl yaklaştığını yansıtır. Doğru cevaba götürdükleri sürece farklı düşünce süreçleri kabul edilebilir.

Microsoft’un modellerinde, RL aşaması kasıtlı olarak matematiksel akıl yürütmeye odaklanmıştır. Ödül sistemi doğruluğu teşvik ederken, aynı zamanda tekrarı, aşırı uzunluğu ve uygunsuz yanıt biçimlendirmesini cezalandırıyordu.

Behl ayrıca araştırmacıların modelin belirli bir soru için birden fazla cevap oluşturmasına izin verdiğini açıkladı. Her cevap daha sonra oluşturulan cevaplar grubundaki ortalama puanla karşılaştırılarak puanlandı.

Bu göreli puanlar, modelin tutarlı olarak daha yüksek puan alan cevapları tercih etmesine rehberlik eden bir geri bildirim mekanizması görevi görür. Zamanla, bu süreç modeli yanıtlarını istenen ödül sinyaliyle daha yakından uyumlu hale getirmek için eğitir.

Araştırmacılar, RL’yi sınırlı sayıda 6.400 probleme uygulamanın, çeşitli matematik ve akıl yürütme değerlendirmelerinde önemli bir doğruluk iyileşmesine yol açtığını gözlemlediler.

"“Phi-1, Phi-2, Phi-3 ve Phi-4’ü oluşturduktan sonra, araştırmadaki bendenize göre RL, SFT eğitiminden çok daha az veri gerektiriyor,”” diye belirtiyor Behl.

Bunu, RL’nin modele sıfırdan tamamen yeni beceriler kazandırmaktan ziyade, daha iyi sonuçlar elde etmek için mevcut becerileri etkili bir şekilde birleştirmesi ve kullanmasına rehberlik etmekle ilgili olmasına bağlıyor.

Microsoft’un pekiştirmeli öğrenmeyle elde ettiği başarı, diğer birçok AI şirketinin deneyimleriyle örtüşüyor. Akıl yürütme modellerinin geliştirilmesinde öncü olan OpenAI, RL’nin projeleri üzerindeki olumlu etkisini defalarca vurguladı.

İlginç bir şekilde, geçen yıl AI ortamını bozan bir Çin modeli olan DeepSeek R1 de başarısını kısmen RL uygulamasına bağladı. Ayrıca, OpenAI’den birkaç araştırmacı ve mühendis, RL’nin derin araştırma girişimlerinin başarısındaki kritik rolünü kamuoyuna açıkladı.

Daha yakın zamanda, Alibaba’nın Qwen modeli de pekiştirmeli öğrenmeyi onayladı ve akıl yürütme modelleri üzerindeki önemli etkisini vurguladı. Şirket bir blog gönderisinde, "“Daha güçlü temel modelleri, ölçeklendirilmiş hesaplama kaynakları tarafından desteklenen RL ile birleştirmenin bizi Yapay Genel Zeka’ya (AGI) ulaşmaya daha da yaklaştıracağına eminiz."“ dedi.

Ancak, Phi-4 Reasoning, Phi-4 Reasoning Plus ve sayısız diğer akıl yürütme modellerinin başarılarına rağmen, alan hala çeşitli zorluklarla karşı karşıya.

İyileştirme İçin Sürekli Arayış

Son aylarda, bir dizi araştırma çalışması, akıl yürütme modellerinin mevcut sınırlamalarının ve potansiyel tuzaklarının altını çizdi. Örneğin, Phi-4 Reasoning üzerine yazdıkları araştırma makalesinde Microsoft araştırmacıları, zaman ve kaynakların aşırı tüketimi, daha yavaş yanıt süreleri ve en önemlisi, modellerin yanıtlarının kendi önceki akıl yürütme adımlarıyla çelişmesi sorunuyla mücadele etmeye devam ettiklerini kabul ettiler.

Bir başka önemli gelişmede, Anthropic, akıl yürütme zincirlerinin (genellikle düşünce zinciri veya CoT olarak adlandırılır) bir modelin gerçek akıl yürütme sürecini tutarlı bir şekilde yansıtmayabileceğini ortaya koyan bir çalışma yayınladı. Araştırmacılar, modellerin genellikle doğru cevaplara yönlendirmek için istemlere yerleştirilen açık ipuçları gibi harici ipuçlarından yararlandığını, ancak açık akıl yürütme adımları içinde nadiren bu ipuçlarını kabul ettiğini veya dile getirdiğini keşfettiler. Modelin içsel davranışı ile dışsal açıklaması arasındaki bu tutarsızlık, CoT’lerin model yorumlanabilirliği ve güvenliğini sağlamak için güvenilir bir araç olarak kullanılmasının güvenilirliği hakkında endişeler uyandırıyor.

OpenAI bile, gelişmiş akıl yürütme modellerinin "“ödül hackleme"“ ile meşgul olma eğilimini vurgulayan araştırma raporları yayınladı. Ödül hackleme, AI temsilcilerinin, başlangıçta amaçlanmayan veya arzu edilmeyen şekillerde ödülleri en üst düzeye çıkarmak için tanımlanmış hedefleri içinde öngörülmeyen boşlukları veya istenmeyen sonuçları istismar ettiği durumları ifade eder. OpenAI, bunun hafifletilmesi için, o3-Mini gibi daha güçlü bir modeli izlemek için daha az güçlü bir model (GPT-4o) kullanmak gibi stratejiler araştırdı, ancak bu kendi karmaşıklıklarını ve potansiyel önyargılarını ortaya koyuyor.

OpenAI’deki teknik personelin bir üyesi olan Nat McAleese, "“Büyük akıl yürütme modelleri ödül hacklemede son derece iyidir,”” diyerek bu noktayı açıklamak için rapordan elle seçilmiş örnekler gösterdi.

“”,Akıl yürütme zincirinde çok fazla yedeklilik var; kendileriyle çelişiyorlar ve birçok cevapsız soru var,”” diye yorumladı Behl. "“Ancak, bu gelişen bir alan. Eğer bunu bir topluluk olarak başarabilirsek ve modellerin nasıl düşündüğünü anlarsak, çok fazla kazanç olacaktır.” Akıl yürütme modellerinin geleceği, bu zorlukları AI topluluğu içinde devam eden araştırma ve işbirliği yoluyla ele almaya bağlıdır.