Microsoft Phi: Küçük Dil Modellerinde AI İleri Atılımı

Microsoft, Azure AI Foundry üzerinde Phi-3’ü yayınlayarak küçük dil modelleri (SLM’ler) yelpazesini tanıtmasından bir yıl sonra, yeni nesil modellerini tanıttı: Phi-4-reasoning, Phi-4-reasoning-plus ve Phi-4-mini-reasoning. Bu yenilikler, SLM’ler için bir dönüm noktası oluşturarak, kompakt ve verimli yapay zeka ile nelerin başarılabileceğini yeniden tanımlıyor.

Phi-Reasoning Modellerinin Şafağı

Yeni Phi-reasoning modelleri, çok adımlı ayrışma ve içsel yansıma gerektiren karmaşık görevler için çıkarım zamanı ölçeklendirmesinden yararlanmak üzere tasarlandı. Bu modeller, karmaşık ve çok yönlü görevleri ele alan ajan benzeri uygulamalar için temel oluşturarak, matematiksel akıl yürütmede olağanüstü yetenekler sergiliyor. Tarihsel olarak, bu tür yetenekler önemli ölçüde daha büyük modellere özgüydü. Phi-reasoning modelleri, boyut ve performans arasında bir denge kurmak için damıtma, takviyeli öğrenme ve yüksek kaliteli verilerden yararlanan yeni bir SLM kategorisi sunuyor. Kompakt boyutları, onları düşük gecikmeli ortamlar için uygun hale getirirken, sağlam akıl yürütme yetenekleri çok daha büyük modellerle rekabet ediyor. Bu verimlilik ve yetenek karışımı, kaynaklarla kısıtlı cihazların bile karmaşık akıl yürütme görevlerini etkili bir şekilde yürütmesini sağlıyor.

Phi-4-Reasoning ve Phi-4-Reasoning-Plus: Daha Derin Bir Bakış

Phi-4-Reasoning: Açık Ağırlıklı Akıl Yürütme Modeli

Phi-4-reasoning, 14 milyar parametreye sahip açık ağırlıklı bir akıl yürütme modeli olarak öne çıkıyor. Karmaşık akıl yürütme görevlerinde önemli ölçüde daha büyük modellerle rekabet etmek üzere tasarlandı. Bu model, OpenAI’nin o3-mini’sinden elde edilen titizlikle seçilmiş akıl yürütme örnekleri üzerinde Phi-4’ün denetimli ince ayarı yoluyla eğitildi. Phi-4-reasoning, çıkarım sırasında ek hesaplama süresini etkili bir şekilde kullanarak ayrıntılı akıl yürütme zincirleri oluşturuyor. Bu başarı, hassas veri kürasyonu ve yüksek kaliteli sentetik veri kümelerinin, daha küçük modellerin daha büyük muadilleriyle rekabet etmesini nasıl sağladığının altını çiziyor.

Phi-4-Reasoning-Plus: Takviyeli Öğrenme ile Akıl Yürütmeyi Geliştirme

Phi-4-reasoning’in yetenekleri üzerine inşa edilen Phi-4-reasoning-plus, çıkarım sırasında ek hesaplama süresinden yararlanmak için takviyeli öğrenme ile daha fazla eğitime tabi tutuluyor. Phi-4-reasoning’den 1,5 kat daha fazla token işliyor ve bu da daha yüksek doğrulukla sonuçlanıyor.

Performans Kıyaslamaları

Önemli ölçüde daha küçük boyutlarına rağmen, hem Phi-4-reasoning hem de Phi-4-reasoning-plus, matematiksel akıl yürütme ve doktora düzeyindeki bilimsel araştırmalar da dahil olmak üzere çeşitli kıyaslamalarda OpenAI’nin o1-mini’sini ve DeepSeek-R1-Distill-Llama-70B’sini geride bırakıyor. Etkileyici bir şekilde, 2025 ABD Matematik Olimpiyatı’na katılmaya hak kazandıran yarışma olan AIME 2025 testinde tam DeepSeek-R1 modelini (671 milyar parametreyle) bile aşıyorlar. Her iki modele de Azure AI Foundry ve Hugging Face’ten kolayca erişilebiliyor.

Phi-4-Mini-Reasoning: Sınırlı Ortamlar İçin Kompakt Güç Merkezi

Phi-4-mini-reasoning, özellikle kompakt bir akıl yürütme modeli talebini karşılamak üzere tasarlandı. Bu transformatör tabanlı dil modeli, matematiksel akıl yürütme için optimize edildi ve bilgi işlem gücünün veya gecikmenin kısıtlandığı ortamlarda yüksek kaliteli, adım adım problem çözme yetenekleri sunuyor. Deepseek-R1 modeli tarafından oluşturulan sentetik veriler kullanılarak ince ayarlandı ve verimliliği gelişmiş akıl yürütme yetenekleriyle etkili bir şekilde dengeliyor. Bu, onu eğitim uygulamaları, gömülü ders verme sistemleri ve uç veya mobil sistemlerde hafif dağıtımlar için ideal hale getiriyor. Model, ortaokuldan doktora düzeyine kadar değişen zorluktaki bir milyondan fazla çeşitli matematiksel problem üzerinde eğitildi ve bu da çok yönlülüğünü ve geniş bir eğitim bağlamı yelpazesinde etkinliğini sağlıyor.

Phi’nin Eylemi: Ufukları Genişletme

Phi’nin geçen yılki evrimi, boyuta göre kalite sınırlarını sürekli olarak zorladı ve aile, çeşitli ihtiyaçlara göre uyarlanmış yeni özellikleri kapsayacak şekilde genişledi. Bu modeller, çeşitli Windows 11 cihazlarında hem CPU’lar hem de GPU’lar üzerinde yerel olarak çalıştırılabiliyor ve farklı donanım yapılandırmalarına sahip kullanıcılara esneklik ve erişilebilirlik sağlıyor.

Copilot+ PC’lerle Entegrasyon: Yapay Zeka Destekli Hesaplamada Yeni Bir Çağ

Phi modelleri, NPU için optimize edilmiş Phi Silica varyantından yararlanarak Copilot+ PC’lerin ayrılmaz bir parçasını oluşturuyor. İşletim sistemi tarafından yönetilen Phi’nin bu oldukça verimli sürümü, hızlı yanıt süreleri ve enerji açısından verimli token çıktısı sunarak belleğe önceden yüklenmek üzere tasarlandı. Bu, PC’deki diğer uygulamalarla eşzamanlı olarak çağrılmasını sağlayarak çoklu görev yeteneklerini ve genel sistem performansını artırıyor.

Gerçek Dünya Uygulamaları

Phi modelleri zaten tüm ekran içeriği için akıllı metin araçları sağlayan Tıklayarak Yap gibi temel deneyimlerde kullanılıyor. Ayrıca uygulamalara sorunsuz entegrasyon için geliştirici API’leri olarak da mevcutlar. Modeller şu anda çevrimdışı Copilot özetleme özellikleri sağladıkları Outlook gibi çeşitli üretkenlik uygulamalarında kullanılıyor. Phi-4-reasoning ve Phi-4-mini-reasoning modelleri, Phi Silica için düşük bit optimizasyonlarından yararlanıyor ve yakında Copilot+ PC NPU’larında çalıştırılabilecek.

Microsoft’un Sorumlu Yapay Zeka ve Güvenliğe Bağlılığı

Microsoft’ta, sorumlu yapay zeka, Phi modelleri de dahil olmak üzere yapay zeka sistemlerinin geliştirilmesine ve dağıtımına rehberlik eden temel bir ilkedir. Phi modelleri, Microsoft Yapay Zeka ilkeleriyle uyumlu olarak geliştirildi: hesap verebilirlik, şeffaflık, adalet, güvenilirlik ve güvenlik, gizlilik ve güvenlik ve kapsayıcılık. Phi model ailesi, sorumlu ve etik kullanımlarını sağlamak için Denetimli İnce Ayar (SFT), Doğrudan Tercih Optimizasyonu (DPO) ve İnsan Geri Bildiriminden Takviyeli Öğrenme (RLHF) tekniklerinin bir kombinasyonunu kullanan güçlü bir eğitim sonrası güvenlik yaklaşımı benimser.

Phi Modellerinin Teknik Temelleri: Ayrıntılı Bir İnceleme

Microsoft’un Phi modelleri, özellikle nispeten az parametreyle karmaşık akıl yürütme görevlerini gerçekleştirme yetenekleri açısından, küçük dil modelleri alanında önemli bir ilerlemeyi temsil ediyor. Bu bölüm, bu modellerin bu kadar etkileyici bir performans elde etmesini sağlayan teknik ayrıntılara giriyor.

Mimari Yenilikler

Phi modelleri, doğal dil işlemeyi devrim niteliğinde değiştiren bir derin öğrenme modeli olan transformatör mimarisine dayanıyor. Transformatörler, metindeki uzun menzilli bağımlılıkları yakalamada mükemmeldir ve modellerin dilin bağlamını ve nüanslarını anlamalarına olanak tanır.

  • Dikkat Mekanizması: Transformatör mimarisinin özü, modelin çıktı üretirken girdinin en alakalı bölümlerine odaklanmasını sağlayan dikkat mekanizmasıdır. Bu, modelin doğru bir sonuca varmak için temel bilgileri ve ilişkileri belirlemesi gereken akıl yürütme görevleri için özellikle önemlidir.

  • Ölçeklendirilmiş Nokta Ürünü Dikkat: Phi modelleri, eğitim sırasında kararsızlığa yol açabilen nokta ürünlerinin çok büyümesini önlemek için bir ölçeklendirme faktörü içeren dikkat mekanizmasının geliştirilmiş bir sürümü olan ölçeklendirilmiş nokta ürünü dikkatini kullanır.

  • Çok Başlı Dikkat: Girdinin farklı yönlerini yakalamak için Phi modelleri, birden çok dikkat mekanizmasının paralel olarak çalıştığı çok başlı dikkati kullanır. Her başlık, girdinin farklı bir alt kümesine odaklanarak modelin daha karmaşık temsiller öğrenmesini sağlar.

  • İleri Besleme Ağları: Dikkat katmanlarından sonra, transformatör mimarisi bilgileri daha da işleyen ileri besleme ağlarını içerir. Bu ağlar, dikkat çıktılarından özellikleri çıkarmayı öğrenen çoklu nöron katmanlarından oluşur.

Eğitim Metodolojileri: Çok Yönlü Bir Yaklaşım

Phi modellerinin eğitimi, denetimli ince ayar, takviyeli öğrenme ve veri damıtma dahil olmak üzere çeşitli tekniklerin bir kombinasyonunu içerir.

  • Denetimli İnce Ayar (SFT): Denetimli ince ayar, modelin etiketli bir veri kümesi üzerinde eğitilmesini içerir; burada girdi bir soru veya problemdir ve çıktı doğru cevap veya çözümdür. Bu, modelin belirli girdileri karşılık gelen çıktılarla ilişkilendirmeyi öğrenmesine yardımcı olur.

  • Takviyeli Öğrenme (RL): Takviyeli öğrenme, modelin bir ortamla etkileşime girerek ve eylemleri için ödüller veya cezalar alarak karar vermeyi öğrendiği bir tekniktir. Dil modelleri bağlamında, ortam bir dizi kural veya kısıtlama olabilir ve ödül, modelin yanıtlarının doğruluğuna dayanabilir.

  • Veri Damıtma: Veri damıtma, daha küçük bir modelin daha büyük, daha karmaşık bir modelin davranışını taklit etmek üzere eğitildiği bir tekniktir. Bu, daha küçük modelin daha az kaynak gerektirirken daha büyük modele kıyasla performans elde etmesini sağlar.

Veri Kürasyonu: Performansın Köşe Taşı

Phi modellerinin performansı, eğitim için kullanılan verilerin kalitesine büyük ölçüde bağlıdır. Microsoft, özellikle akıl yürütme görevleri için tasarlanmış yüksek kaliteli veri kümeleri küratörlüğüne önemli çaba harcadı.

  • Sentetik Veri Üretimi: Mevcut verileri artırmak için Microsoft, gerçek dünya verilerinin özelliklerini taklit eden sentetik veriler oluşturma teknikleri geliştirdi. Bu, modellerin daha büyük ve daha çeşitli bir veri kümesi üzerinde eğitilmesini sağlayarak genelleme yeteneklerini geliştirir.

  • Veri Filtreleme: Microsoft, eğitim veri kümesinden gürültülü veya alakasız verileri kaldırmak için titiz veri filtreleme teknikleri kullanır. Bu, modellerin temiz ve doğru veriler üzerinde eğitilmesini sağlayarak daha iyi performansa yol açar.

  • Veri Artırma: Veri artırma teknikleri, mevcut verilere dönüşümler uygulayarak eğitim veri kümesinin çeşitliliğini artırmak için kullanılır. Bu, modellerin girdideki değişikliklere karşı daha sağlam olmasına yardımcı olur.

Optimizasyon Teknikleri: Verimlilik ve Doğruluğu Dengeleme

Phi modelleri hem verimlilik hem de doğruluk için optimize edilmiştir ve kaynaklarla kısıtlı cihazlarda performanstan ödün vermeden çalışabilmelerini sağlar.

  • Nicemleme: Nicemleme, modelin parametrelerinin hassasiyetinin azaltıldığı bir tekniktir, bu da modelin bellek ayak izini ve hesaplama gereksinimlerini azaltır.

  • Budama: Budama, modeldeki daha az önemli bağlantıların kaldırıldığı bir tekniktir, bu da modelin boyutunu ve karmaşıklığını azaltır.

  • Bilgi Damıtma: Bilgi damıtma, daha büyük, daha karmaşık bir modelden daha küçük bir modele bilgi aktarmayı içerir. Bu, daha küçük modelin daha az kaynak gerektirirken daha büyük modele kıyasla performans elde etmesini sağlar.

Phi Silica NPU: Bir Donanım-Yazılım Sinerjik Yaklaşımı

Microsoft’un Phi modelleri, derin öğrenme iş yükleri için optimize edilmiş özel bir donanım hızlandırıcı olan Phi Silica NPU (Nöral İşleme Birimi) ile sıkı bir şekilde entegre olacak şekilde tasarlanmıştır.

  • Düşük Bit Optimizasyonu: Phi Silica NPU, modellerin azaltılmış hassasiyetle çalışmasını sağlayan ve bellek ayak izlerini ve hesaplama gereksinimlerini daha da azaltan düşük bit optimizasyonunu destekler.

  • Belleğe Önceden Yükleme: Phi modelleri, hızlı ve verimli bir şekilde çağrılmalarını sağlayan belleğe önceden yüklenecek şekilde tasarlanmıştır.

  • İşletim Sistemi Yönetimi: Phi Silica NPU, kullanıcı deneyimine sorunsuz bir şekilde entegre olmasını sağlayan işletim sistemi tarafından yönetilir.

Özetle, Microsoft’un Phi modelleri, küçük dil modelleri alanında önemli bir başarıyı temsil ediyor. Yenilikçi mimari tasarımları, titiz eğitim metodolojileri, dikkatli veri kürasyonu ve donanım-yazılım ortak tasarımı bir araya getiren Microsoft, çok çeşitli yapay zeka destekli uygulamalar sağlayan hem güçlü hem de verimli bir model ailesi yarattı.