Karmaşık Matematik Muhakemesi için Microsoft Phi-4 Küçük Dil Modeli

Microsoft Araştırma, matematiksel akıl yürütme alanında gelişmiş seviyeleri yükseltmek için tasarlanmış, 14 milyar parametreli küçük bir dil modeli olan Phi-4’ü tanıttı. Bu model, Azure AI Foundry’de sunulduktan sonra kısa süre önce MIT lisansı altında Hugging Face’te yayınlandı.

Phi-4’ün Yenilikleri

Microsoft’a göre, Phi-4, eğitim sürecinde kullanılan birkaç yenilikçi teknik sayesinde matematiksel akıl yürütmede benzer ve daha büyük modellerden daha iyi performans gösteriyor. Bu teknikler şunları içeriyor:

  • Sentetik veri ön eğitimi ve orta dönem eğitimi: Sentetik veriler kullanarak ön eğitim ve orta dönem eğitimi, modele daha yapılandırılmış bir öğrenme yolu sağlıyor.
  • Organik veri yönetimi: Eğitim verilerinin kalitesini sağlamak için organik verilerin dikkatlice düzenlenmesi ve filtrelenmesi.
  • Yeni eğitim sonrası şemaları: Modelin performansını daha da artırmak için yeni eğitim sonrası yöntemler kullanılıyor.

Bu yenilikler, Phi-4’ün STEM odaklı soru-cevap yeteneklerinde öğretmen modeli GPT-4o’yu geride bırakmasını sağlıyor. Bu durum, Microsoft’un veri üretimi ve eğitim sonrası tekniklerinin basit bir bilgi damıtımı olmadığını kanıtlıyor.

Sentetik Verilerin Eşsiz Avantajları

Büyük dil modellerinin (LLM) eğitiminde sentetik veri kullanımı yeni bir şey değil ve Phi modelleri de bu yöntemi kullanmıştı. Microsoft, sentetik verilerin ucuz bir ikame olmadığını belirtiyor. Sentetik veriler, organik verilere göre aşağıdaki konularda daha iyi:

  • Daha aşamalı öğrenme yolu: Sentetik veriler, LLM’nin başlangıç probleminden nihai çözüme kadar adım adım öğrenmesini sağlayarak akıl yürütme sürecini anlamasını kolaylaştırıyor.
  • Akıl yürütme ortamıyla daha iyi uyum: Problem ifadesini ve nihai çözümü içeren organik verilerin aksine, sentetik veriler daha ayrıntılı adım adım akıl yürütme süreci sunarak gerçek akıl yürütme senaryolarına daha uygun hale geliyor.

Dikkatle Hazırlanmış Organik Veriler

Sentetik verilere ek olarak, Microsoft, kamuya açık web sitelerinden ve harici veri kümelerinden toplanan on milyonlarca yüksek kaliteli matematik problemi ve çözümü içeren dikkatle hazırlanmış organik verileri de kullandı. Doğru çözüm sunulmayan durumlarda, doğruluğu artırmak için çoğunluk oylaması yöntemiyle çözümler üretildi. Ayrıca, akademik makaleler, eğitim forumları ve programlama eğitimleri de toplandı.

Microsoft, sentetik veri üretiminde yüksek kaliteli doğal verilerin kritik rolünü vurgulayarak, küçük hataların bile türetilen sentetik belgelerin kalitesinde ciddi düşüşe yol açabileceğini belirtiyor. Bu nedenle, web verilerinin yönetimini iyileştirmek için önemli çaba harcandı.

Phi-4’ün Eğitim Sonrası Aşaması

Phi-4’ün eğitim sonrası aşaması, onu güvenilir bir yapay zeka asistanına dönüştürmeyi amaçlıyor. Bu aşama aşağıdaki adımları içeriyor:

  1. İnce ayar: Model, matematik, kodlama, akıl yürütme, diyalog, model kimliği ve güvenlik gibi farklı alanlardan oluşturulan yüksek kaliteli veriler kullanılarak ince ayar yapılıyor.
  2. Doğrudan Tercih Optimizasyonu (DPO): Modelin insan tercihlerine daha iyi uyum sağlaması ve kötü davranışları ortadan kaldırması için iki DPO adımı uygulanıyor.
    • Pivotal Token Search: İlk adımda, Microsoft, Pivotal Token Search adlı yeni bir teknik kullanarak istenen/istenmeyen sonuç çiftleri üretiyor.
    • Yargıç olarak GPT-4o: İkinci adımda, her sonuç çiftine olumlu veya olumsuz etiketler vermek için GPT-4o yargıç olarak kullanılıyor.

Phi-4’ün Değerlendirilmesi

Phi-4, OpenAI’nin SIMPLE-EVALS çerçevesi kullanılarak değerlendirildi ve çeşitli kıyaslama testlerinde Llama-3.1-405B’yi geride bıraktı. Ayrıca, GPQA (lisansüstü düzeyde STEM soru-cevap) ve MATH (matematik yarışması) kıyaslama testlerinde de öğretmen modeli GPT-4o’yu geride bıraktı.

Phi-4 Modelinin Eğitim Verileri Detayları

Microsoft, Phi-4 modelini eğitirken sentetik veriler ve özenle seçilmiş gerçek veriler etrafında dönen dikkatlice tasarlanmış bir veri stratejisi kullandı. Bu kombinasyon yaklaşımı, modelin öğrenme sürecini optimize etmeyi ve matematiksel akıl yürütmede üstün performans göstermesini amaçlıyor.

Sentetik Veri Üretimi

Sentetik veriler, Phi-4’ün eğitiminde hayati bir rol oynuyor. Microsoft ekibi, sentetik verileri gerçek verilerin basit bir ikamesi olarak görmedi, bunun yerine modelin adım adım öğrenmesini sağlayacak bir araç olarak gördü. Sentetik verilerin oluşturulması genellikle aşağıdaki adımları izliyor:

  1. Problem Oluşturma: İlk olarak, önceden tanımlanmış kurallara ve şablonlara göre çeşitli matematik problemleri oluşturuluyor. Bu problemler, modelin kapsamlı bir şekilde öğrenmesini sağlamak için farklı matematik alanlarını ve zorluk seviyelerini kapsıyor.
  2. Adım Adım Çözümler: Oluşturulan her problem için, problem ifadesinden nihai cevaba kadar akıl yürütme sürecini ayrıntılı olarak açıklayan adım adım bir çözüm oluşturuluyor. Bu adım adım çözüm, yalnızca nihai cevabı değil, aynı zamanda ara adımları ve akıl yürütme mantığını da içererek modelin problem çözme sürecini anlamasına yardımcı oluyor.
  3. Veri Artırma: Veri çeşitliliğini artırmak için, problem ifadelerini değiştirerek, sayıları ayarlayarak veya farklı çözüm yolları kullanarak sentetik veriler de artırılıyor.

Seçilmiş Gerçek Veriler

Sentetik verilere ek olarak, Phi-4’ün eğitiminde çok sayıda seçilmiş gerçek veri de kullanıldı. Bu veriler, kamuya açık web sitelerinden, akademik makalelerden, eğitim forumlarından ve programlama eğitimlerinden elde edildi ve aşağıdaki türleri içeriyor:

  • Matematik Problemleri ve Çözümleri: Kamuya açık web sitelerinden ve harici veri kümelerinden milyonlarca yüksek kaliteli matematik problemi ve çözümü toplandı. Bu problemler, farklı matematik alanlarını ve zorluk seviyelerini kapsıyor.
  • Akademik Makaleler: Modelin anlama ve akıl yürütme yeteneklerini geliştirmek için derinlemesine matematik kavramları ve teorileri sunan çok sayıda akademik makale toplandı.
  • Eğitim Forumları: Öğrencilerin sorduğu sorular ve uzmanların sunduğu cevaplar eğitim forumlarından toplandı, bu da modelin matematik problemlerine farklı açılardan yaklaşabilmesini sağlıyor.
  • Programlama Eğitimleri: Modelin programlama yeteneklerini geliştirmek için farklı programlama dillerini ve algoritmalarını kapsayan çok sayıda programlama eğitimi de toplandı.

Veri Kalite Kontrolü

Microsoft, eğitim verilerinin doğruluğunu ve tutarlılığını sağlamak için veri kalite kontrolüne büyük önem verdi. Aşağıdaki önlemleri aldılar:

  • Manuel İnceleme: Bazı kritik veri kümeleri için, verilerin doğruluğunu ve kalitesini sağlamak için manuel incelemeler yapıldı.
  • Çoğunluk Oylaması: Doğru çözüm sunulmayan problemler için, doğruluğu artırmak amacıyla çoğunluk oylaması yöntemiyle çözümler oluşturuldu.
  • Veri Temizleme: Yinelenen verileri, hatalı verileri ve alakasız verileri kaldırmak için tüm veriler temizlendi.

Eğitim Sonrası Stratejilerinin Detaylı Analizi

Phi-4’ün eğitim sonrası aşaması, onu güvenilir bir yapay zeka asistanına dönüştürmeyi amaçlıyor. Bu aşama, temel olarak ince ayar ve doğrudan tercih optimizasyonundan (DPO) oluşuyor.

İnce Ayar Aşaması

İnce ayar aşamasının amacı, modeli çeşitli farklı görevlere ve alanlara uyarlamak. Bu aşamada Microsoft, aşağıdaki alanlardan oluşturulan yüksek kaliteli verileri kullandı:

  • Matematik: Modelin matematiksel akıl yürütme yeteneğini geliştirmeyi amaçlayan çeşitli matematik problemleri ve çözümleri içeriyor.
  • Kodlama: Modelin kod oluşturma ve anlama yeteneğini geliştirmeyi amaçlayan çeşitli programlama problemleri ve çözümleri içeriyor.
  • Akıl Yürütme: Modelin mantıksal düşünme yeteneğini geliştirmeyi amaçlayan çeşitli mantıksal akıl yürütme problemleri içeriyor.
  • Diyalog: Modelin doğal dil anlama ve üretme yeteneğini geliştirmeyi amaçlayan çeşitli diyalog verileri içeriyor.
  • Model Kimliği: Modelin kendi yeteneklerini anlamasını sağlamayı amaçlayan çeşitli model kimliği açıklamaları içeriyor.
  • Güvenlik: Modelin güvenliğini artırmayı amaçlayan çeşitli güvenlik sorunları ve çözümleri içeriyor.

Doğrudan Tercih Optimizasyonu (DPO) Aşaması

Doğrudan tercih optimizasyonu (DPO) aşamasının amacı, modelin davranışını insan tercihlerine daha iyi uyumlu hale getirmek ve istenmeyen davranışları ortadan kaldırmak. Bu aşama iki adımdan oluşuyor:

  1. Pivotal Token Search: İlk adımda, Microsoft, istenen/istenmeyen sonuç çiftlerini oluşturmak için Pivotal Token Search adlı yeni bir teknik kullanıyor. Bu teknik, modelin çıktı alanında istenen ve istenmeyen davranışları ayırt edebilecek anahtar belirteçleri bularak çalışıyor.
  2. Yargıç Olarak GPT-4o: İkinci adımda, her sonuç çiftini olumlu veya olumsuz olarak etiketlemek için GPT-4o yargıç olarak kullanılıyor. GPT-4o, insan tercihlerine göre model çıktılarını değerlendirebiliyor ve bu da modelin insan tercihlerini daha iyi öğrenmesine yardımcı oluyor.

Phi-4’ün Performans Değerlendirmesi

Phi-4’ün performansını değerlendirmek için Microsoft, modelin farklı görevlerdeki performansını değerlendirebilen çeşitli kıyaslama testleri içeren OpenAI’nin SIMPLE-EVALS çerçevesini kullandı.

Kıyaslama Testleri

Phi-4, aşağıdaki kıyaslama testlerinde üstün performans gösterdi:

  • GPQA (Lisansüstü Düzeyde STEM Soru-Cevap): Bu kıyaslama testinde, Phi-4, STEM alanındaki soru-cevap yeteneklerinin çok güçlü olduğunu kanıtlayarak öğretmen modeli GPT-4o’yu geride bıraktı.
  • MATH (Matematik Yarışması): Bu kıyaslama testinde de Phi-4, karmaşık matematik problemlerini çözme yeteneğinin çok üstün olduğunu kanıtlayarak öğretmen modeli GPT-4o’yu geride bıraktı.
  • Diğer Modellerle Karşılaştırma: Çeşitli kıyaslama testlerinde, Phi-4, genel performansının çok güçlü olduğunu kanıtlayarak Llama-3.1-405B’yi geride bıraktı.

Performans Analizi

Phi-4’ün performans değerlendirmesinden aşağıdaki sonuçlar çıkarılabilir:

  • Güçlü Matematiksel Akıl Yürütme Yeteneği: Phi-4, eğitim sürecinde kullanılan sentetik veriler, seçilmiş gerçek veriler ve eğitim sonrası stratejileri dahil olmak üzere yenilikçi yöntemler sayesinde matematiksel akıl yürütme konusunda çok iyi performans gösteriyor.
  • Öğretmen Modelini Aşıyor: Çeşitli kıyaslama testlerinde Phi-4, performansının basit bir bilgi damıtımı olmadığını kanıtlayarak öğretmen modeli GPT-4o’yu geride bıraktı.
  • Diğer Modellerle Karşılaştırma: Phi-4, genel performansının çok güçlü olduğunu kanıtlayarak çeşitli kıyaslama testlerinde Llama-3.1-405B’yi geride bıraktı.

Phi-4’ün Uygulama Olanakları

Karmaşık matematiksel akıl yürütme için tasarlanmış küçük bir dil modeli olarak Phi-4, geniş bir uygulama yelpazesine sahip. Aşağıdaki alanlarda kullanılabilir:

  • Eğitim: Öğrencilerin matematik problemlerini çözmelerine yardımcı olmak ve kişiselleştirilmiş öğrenme deneyimleri sağlamak için matematik özel ders aracı olarak kullanılabilir.
  • Bilimsel Araştırma: Araştırmacıların matematiksel modelleme ve veri analizi yapmasına yardımcı olmak için bir araştırma aracı olarak kullanılabilir.
  • Mühendislik: Mühendislerin tasarım ve analiz yapmasına yardımcı olmak için bir mühendislik aracı olarak kullanılabilir.
  • Finans: Finans analistlerinin risk değerlendirmesi ve yatırım kararları almasına yardımcı olmak için bir finans aracı olarak kullanılabilir.
  • Diğer Alanlar: Sağlık, lojistik ve üretim gibi karmaşık matematiksel akıl yürütme gerektiren diğer alanlarda da kullanılabilir.

Sonuç

Microsoft Phi-4’ün ortaya çıkışı, küçük dil modellerinin matematiksel akıl yürütme alanında önemli bir ilerleme kaydettiğini gösteriyor. Benzersiz veri eğitim stratejisi ve eğitim sonrası yöntemleri, performans açısından benzer ve daha büyük modelleri geride bırakmasını sağlıyor ve gelecekteki yapay zeka gelişimine yeni fikirler sunuyor. Phi-4’ün Hugging Face’te açık kaynak olarak yayınlanmasıyla, daha fazla araştırmacıya ve geliştiriciye kolaylık sağlayacağına ve yapay zeka teknolojisinin çeşitli alanlardaki uygulamalarını teşvik edeceğine inanılıyor.