Qwen-32B: Kompakt Bir Güç Merkezi, Daha Büyük Modellere Meydan Okuyor
Sürpriz bir gece yarısı duyurusuyla Alibaba, en son akıl yürütme modeli olan Qwen-32B’yi (QwQ-32B) açık kaynaklı hale getirdi. 32 milyar parametreye sahip olan bu model, önemli ölçüde daha büyük, 67,1 milyar parametreli, tam teşekküllü DeepSeek-R1 ile aynı seviyede performans sergiliyor.
Qwen ekibinin duyurusu, pekiştirmeli öğrenme (RL) tekniklerini ölçeklendirme konusundaki araştırmalarını vurguladı. Şöyle belirttiler: “Pekiştirmeli öğrenmeyi (RL) genişletmek için yöntemler araştırıyoruz ve Qwen2.5-32B’mize dayalı olarak bazı etkileyici sonuçlar elde ettik. RL eğitiminin, özellikle matematiksel ve kodlama görevlerinde performansı sürekli olarak iyileştirebileceğini gördük. RL’nin sürekli ölçeklendirilmesinin, orta ölçekli modellerin dev MoE (Mixture of Experts) modelleriyle karşılaştırılabilir performans elde etmesine yardımcı olabileceğini gözlemledik. Herkesi yeni modelimizle sohbet etmeye ve bize geri bildirimde bulunmaya davet ediyoruz!”
QwQ-32B, Apache 2.0 açık kaynak lisansı altında Hugging Face ve ModelScope’ta mevcuttur. Kullanıcılar ayrıca Qwen Chat aracılığıyla doğrudan modelle etkileşim kurabilirler. Popüler yerel dağıtım aracı Ollama, ollama run qwq
komutuyla erişilebilen entegrasyon desteğini zaten ekledi.
Sürümle birlikte Qwen ekibi, çığır açan gelişmeleri detaylandıran “QwQ-32B: Pekiştirmeli Öğrenmenin Gücünden Yararlanma” başlıklı bir blog yazısı yayınladı.
Blog yazısı, büyük ölçekli pekiştirmeli öğrenmenin (RL), model performansını artırmada geleneksel ön eğitim ve son eğitim yöntemlerini aşma konusundaki muazzam potansiyelini vurguluyor. DeepSeek-R1’in soğuk başlangıç verilerini ve çok aşamalı eğitimi entegre etmesi gibi son araştırmalar, RL’nin akıl yürütme yeteneklerini önemli ölçüde artırma, daha derin düşünmeyi ve karmaşık problem çözmeyi mümkün kılma yeteneğini sergiliyor.
Qwen ekibinin araştırması, QwQ-32B’nin yaratılmasıyla sonuçlanan, büyük dil modellerinin zekasını yükseltmek için büyük ölçekli RL’den yararlanmaya odaklandı. Bu 32 milyar parametreli model, 67,1 milyar parametreli (37 milyar aktif) DeepSeek-R1’in performansına dikkat çekici şekilde rakip oluyor. Ekip, “Bu başarı, pekiştirmeli öğrenmenin sağlam, önceden eğitilmiş temel modellere uygulanmasının etkinliğini vurguluyor” dedi.
QwQ-32B ayrıca, araçları kullanırken eylemlerini eleştirel olarak değerlendirmesini ve çevresel geri bildirimlere dayalı olarak akıl yürütme sürecini uyarlamasını sağlayan aracıyla ilgili yetenekleri de içeriyor. Ekip, “Çabalarımızın, güçlü temel modelleri büyük ölçekli pekiştirmeli öğrenmeyle birleştirmenin Yapay Genel Zeka’ya (AGI) giden uygulanabilir bir yol olabileceğini göstermesini umuyoruz” dedi.
Model Performansı: QwQ-32B’nin Kıyaslanması
QwQ-32B, matematiksel akıl yürütme, programlama ve genel yetenekleri kapsayan bir dizi kıyaslama testinde titiz bir değerlendirmeden geçti. Sonuçlar, QwQ-32B’nin DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini ve orijinal DeepSeek-R1 dahil olmak üzere diğer önde gelen modellerle karşılaştırıldığında performansını sergiliyor.
Bulgular çarpıcı. QwQ-32B, LiveBench, IFEval ve BFCL kıyaslama testlerinde DeepSeek-R1-67B’yi biraz aşarak olağanüstü bir performans sergiliyor. Bu, Qwen ekibi tarafından benimsenen pekiştirmeli öğrenme yaklaşımının verimliliğini ve gücünü vurguluyor.
Pekiştirmeli Öğrenmeye Derinlemesine Bakış
QwQ-32B’nin geliştirilmesi, soğuk başlangıç temeli üzerine inşa edilmiş büyük ölçekli pekiştirmeli öğrenmeden yararlandı. İlk aşama, özellikle matematiksel ve programlama görevleri için RL eğitimine odaklandı. Ödül modellerine dayanan geleneksel yaklaşımların aksine, Qwen ekibi, üretilen cevapların doğruluğunu doğrulayarak matematiksel problemler için geri bildirim sağladı. Kodlama görevleri için geri bildirim, üretilen kodun test senaryolarını başarıyla geçip geçmediğini değerlendiren bir kod yürütme sunucusundan elde edildi.
Eğitim birden fazla yineleme boyunca ilerledikçe, QwQ-32B her iki alanda da tutarlı performans iyileştirmeleri sergiledi. Çözüm doğruluğu hakkında doğrudan geri bildirimle yönlendirilen bu yinelemeli iyileştirme süreci, oldukça etkili olduğunu kanıtladı.
Matematik ve programlamaya odaklanan ilk RL aşamasının ardından, genel yetenekleri geliştirmek için sonraki bir RL aşaması tanıtıldı. Bu aşama, eğitim için genel ödül modellerini ve kural tabanlı doğrulayıcıları kullandı. Sonuçlar, genel RL’deki az sayıda adımın bile, önceden eğitilmiş matematiksel ve programlama görevlerindeki performansı önemli ölçüde etkilemeden genel yetenekleri artırabileceğini gösterdi. Bu, modelin uyarlanabilirliğini ve sağlamlığını gösterir.
Gelecek Yönelimler: Yapay Zekanın Ufuklarını Genişletmek
Qwen ekibi ayrıca gelecek planlarını da paylaştı: “Bu, Qwen’in akıl yürütme yeteneklerini geliştirmek için büyük ölçekli pekiştirmeli öğrenmeden (RL) yararlanmadaki ilk adımıdır. Bu yolculuk boyunca, yalnızca RL’yi ölçeklendirmenin muazzam potansiyeline tanık olmakla kalmadık, aynı zamanda önceden eğitilmiş dil modellerindeki kullanılmayan olasılıkları da fark ettik. Yeni nesil Qwen’i geliştirmeye çalışırken, daha da güçlü temel modelleri, ölçeklendirilmiş hesaplama kaynaklarıyla desteklenen RL ile birleştirmenin bizi Yapay Genel Zeka’ya (AGI) ulaşmaya daha da yaklaştıracağına inanıyoruz. Ayrıca, uzun vadeli akıl yürütmeyi sağlamak için aracıları RL ile entegre etmeyi aktif olarak araştırıyoruz ve genişletilmiş akıl yürütme süresi aracılığıyla daha da büyük bir zekanın kilidini açmayı hedefliyoruz.” Sürekli iyileştirme ve keşfetmeye yönelik bu taahhüt, ekibin yapay zekanın sınırlarını zorlama konusundaki kararlılığını vurguluyor.
Topluluk Kabulü: QwQ-32B Geniş Çapta Beğeni Topluyor
QwQ-32B’nin piyasaya sürülmesi, geniş çapta coşku ve olumlu geri bildirimlerle karşılandı. Qwen’in birçok kullanıcısı da dahil olmak üzere yapay zeka topluluğu, bu yeni modelin tanıtımını hevesle bekliyordu.
DeepSeek’i çevreleyen son heyecan, damıtılmış sürümün sınırlamaları nedeniyle topluluğun tam teşekküllü modele olan tercihini vurguladı. Ancak, 67,1B parametreli tam teşekküllü model, özellikle sınırlı kaynaklara sahip uç cihazlar için dağıtım zorlukları sundu. Önemli ölçüde azaltılmış boyutuyla Qwen-32B, bu endişeyi gidererek daha geniş dağıtım olanaklarının önünü açıyor.
Bir kullanıcı, “Muhtemelen cep telefonlarında hala mümkün değil, ancak yeterli RAM’e sahip Mac’ler bunu kaldırabilir” yorumunu yaptı. Bu düşünce, QwQ-32B’yi kaynak kısıtlı cihazlarda çalıştırma potansiyeline ilişkin iyimserliği yansıtıyor.
Başka bir kullanıcı, Alibaba’nın Tongyi Laboratuvarı’nda bir bilim insanı olan Binyuan Hui’ye doğrudan hitap ederek, daha da küçük modellerin geliştirilmesini istedi. Bu, giderek daha kompakt ve verimli yapay zeka modellerine olan talebi vurguluyor.
Kullanıcılar ayrıca deneyimlerini paylaşarak modelin hızını ve yanıt verme yeteneğini övdüler. Bir kullanıcı, QwQ-32B’nin hızlı işlem yeteneklerini vurgulayan bir gösteri sergiledi.
Apple’da bir makine öğrenimi araştırmacısı olan Awni Hannun, QwQ-32B’nin bir M4 Max’te başarılı bir şekilde çalıştığını doğrulayarak etkileyici hızını belirtti. Önde gelen bir araştırmacıdan gelen bu doğrulama, modelin performans iddialarını daha da sağlamlaştırıyor.
Qwen ekibi ayrıca, kullanıcıları test etmeye ve geri bildirimde bulunmaya teşvik ederek, QwQ-32B’nin bir önizleme sürümünü resmi sohbet arayüzleri olan Qwen Chat’te kullanıma sundu. Bu etkileşimli yaklaşım, topluluk katılımını teşvik eder ve modelin yeteneklerinin gerçek dünyada değerlendirilmesine olanak tanır.
QwQ-32B’nin topluluk tarafından hızla benimsenmesi ve Ollama gibi popüler araçlara entegre edilmesi, modelin önemini ve etkisini göstermektedir. Güçlü performans, daha küçük bir model boyutu ve pekiştirmeli öğrenmenin yenilikçi kullanımı kombinasyonu, QwQ-32B’yi büyük dil modelleri alanında büyük bir gelişme olarak konumlandırdı. Modelin açık kaynaklı yapısı, yapay zeka topluluğu içinde işbirliğini ve yeniliği daha da teşvik ederek gelecekteki atılımların önünü açıyor. Pratik dağıtım ve gerçek dünya uygulamalarına odaklanma, QwQ-32B’nin araştırma ortamlarının ötesinde önemli bir etkiye sahip olma, gelişmiş yapay zeka yeteneklerini daha geniş bir kullanıcı ve cihaz yelpazesine getirme potansiyelini vurguluyor. Qwen ekibi tarafından devam eden araştırma ve geliştirme çabaları, AGI arayışında daha da heyecan verici gelişmeler vaat ediyor.