Alibaba QwQ: 32B'lik Canavar mı?

Devlere Meydan Okuyan Kompakt Bir Model

QwQ, DeepSeek R1’in iddia ettiği 671 milyar parametreye kıyasla sadece 32 milyar parametreye sahip olmasına rağmen, bir “muhakeme” modeli olarak konumlandırılıyor. Alibaba, bu nispeten küçük modelin, özellikle matematik, kodlama ve işlev çağırma gibi alanlarda belirli kıyaslamalarda R1’i geçebileceğini iddia ediyor. Bu iddialı iddia, QwQ’nun iç işleyişine ve gerçek dünya performansına daha yakından bakmayı gerektiriyor.

Pekiştirmeli Öğrenme: QwQ’nun Yeteneğinin Anahtarı

DeepSeek R1’e benzer şekilde, Qwen ekibi, QwQ’nun düşünce zinciri muhakeme yeteneklerini geliştirmek için pekiştirmeli öğrenmeyi (RL) kullandı. Bu yöntem, modelin karmaşık sorunları adım adım analiz etme ve çözme yeteneğini geliştirir. RL’deki geleneksel yaklaşım, doğru cevaplar için modeli ödüllendirerek doğru yanıtları pekiştirmektir.

Ancak, Qwen ekibi QwQ ile daha incelikli bir yaklaşım benimsedi. Bir doğruluk denetleyicisi ve bir kod yürütme sunucusu entegre ettiler. Bu önemli ekleme, ödüllerin yalnızca matematiksel olarak doğru çözümler ve işlevsel kod için verilmesini sağlar. Bu titiz doğrulama sürecini uygulayarak, ekip daha yüksek derecede hassasiyet ve güvenilirlik sergileyen bir model geliştirmeyi amaçlıyor.

Performans İddiaları: Gerçeklik Kontrolü

Qwen ekibinin çabaları, iddia ettikleri gibi, ağırlık sınıfının önemli ölçüde üzerinde performans gösteren bir model üretti. QwQ’nun, çok daha büyük modellerle aynı seviyede ve hatta bazı durumlarda onları aşan performans seviyelerine ulaştığını iddia ediyorlar.

Ancak, yapay zeka kıyaslamaları dünyası karmaşık olabilir. Bildirilen rakamların ötesine geçmek ve bu iddiaların pratik, gerçek dünya senaryolarına nasıl dönüştüğünü incelemek çok önemlidir.

Uygulamalı Testler: QwQ’yu Zorlu Görevlerde Denemek

QwQ’nun yeteneklerini değerlendirmek için, bir dizi test istemi tasarlandı ve bu istemler çeşitli alanları kapsıyordu. Bunlar arasında genel bilgi, uzamsal akıl yürütme, problem çözme, matematik ve en gelişmiş büyük dil modelleri (LLM’ler) için bile zorluklar yarattığı bilinen diğer zorluklar yer alıyordu.

Tam modelin önemli bellek gereksinimleri nedeniyle, test iki konfigürasyonda gerçekleştirildi. İlk olarak, tam model Hugging Face’deki QwQ demosu kullanılarak değerlendirildi. Bu, tam potansiyelinin değerlendirilmesine izin verdi. İkinci olarak, 4 bitlik nicelenmiş bir sürüm, 24 GB’lık bir GPU’da (özellikle bir Nvidia 3090 veya bir AMD Radeon RX 7900XTX) test edildi. Bu konfigürasyon, nicemlemenin modelin doğruluğu üzerindeki etkisini ölçmeyi amaçladı ve bu da onu daha az güçlü donanıma sahip kullanıcılar için daha erişilebilir hale getirdi.

Genel Bilgi: Kendini Koruyor

Çoğu genel bilgi sorusuna yanıt olarak, QwQ, DeepSeek’in 671 milyar parametreli R1’i ve OpenAI’nin o3-mini’si gibi diğer muhakeme modelleriyle karşılaştırılabilir bir performans gösterdi. Model, sorguya bir yanıt vermeden önce düşüncelerini formüle etmek için genellikle birkaç saniye harcadı. Bu davranış, anında yanıtlar yerine dikkatli değerlendirmeye öncelik veren muhakeme modellerinin karakteristiğidir.

Karmaşıklıkta Üstün: Mantık, Kodlama ve Matematik

QwQ’nun kendisini gerçekten ayırt etmeye başladığı yer, mantık, kodlama veya matematik içeren daha karmaşık zorlukların üstesinden gelmektir. Güçlü yönlerini vurgulayarak ve yetersiz kaldığı bazı alanlara değinerek bu alanları inceleyelim.

Uzamsal Akıl Yürütme: Labirentte Gezinme

Homebrew Research tarafından AlphaMaze projesinin bir parçası olarak geliştirilen nispeten yeni bir uzamsal akıl yürütme testi, QwQ’yu değerlendirmek için kullanıldı.

Hem yerel olarak barındırılan QwQ örneği hem de tam boyutlu model, bu bulmacaları sürekli olarak başarıyla çözdü. Ancak, her çalıştırma tamamlanması birkaç dakika sürdü. Bu, QwQ’nun uzamsal akıl yürütmeyi etkili bir şekilde ele alabildiğini, ancak mutlaka en hızlısı olmadığını gösteriyor.

Buna karşılık, DeepSeek’in R1’i ve 32B’lik distili farklı davranışlar sergiledi. Her iki model de ilk labirenti başarıyla çözdü. Ancak, R1 ikincisiyle mücadele ederken, 32B’lik distil ikinci labirentte %90’lık bir başarı oranı elde etti. Bu değişkenlik, R1 ve distilin farklı temel modeller kullandığı göz önüne alındığında tamamen beklenmedik değildir.

QwQ, bu özel testte DeepSeek’e kıyasla üstün performans gösterirken, 4 bitlik modelde bazı olağandışı davranışlar gözlemlendi. Başlangıçta, testi tamamlamak için neredeyse iki kat daha fazla “düşünce” belirteci gerekiyordu. Bu, başlangıçta nicemleme nedeniyle potansiyel kayıplar olduğunu düşündürdü. Ancak, daha fazla araştırma, nicelenmiş modelin ilk durumunda optimal olmayan performans sergilediğini ortaya çıkardı. Hiperparametrelerin ayarlanması ve testlerin yeniden çalıştırılması bu sorunu çözdü ve uygun konfigürasyonun önemini gösterdi.

Tek Atışta Kodlama: Potansiyel Bir Güç

QwQ, “tek atışta” kod üretme potansiyeli (ilk denemede kullanılabilir kod üretme yeteneği) nedeniyle büyük ilgi gördü. Bu özel alan, model için önemli bir güç gibi görünüyor.

Model, pygame kütüphanesini kullanarak Python’da birkaç nispeten basit oyunu yeniden yaratmakla görevlendirildi. Seçilen oyunlar Pong, Breakout, Asteroids ve Flappy Bird idi.

QwQ, Pong ve Breakout’u nispeten kolaylıkla ele aldı. Birkaç dakikalık işlemeden sonra, model her iki oyunun da çalışan sürümlerini üretti.

Ancak, Asteroids’i yeniden yaratmakla görevlendirildiğinde, QwQ zorluklarla karşılaştı. Üretilen kod çalışsa da, grafikler ve oyun mekaniği sıklıkla bozuk ve hatalıydı. Buna karşılık, R1, ilk denemesinde klasik arcade nişancı oyununu sadakatle yeniden yarattı.

Bu modellerin eğitim verilerini dikkate almak önemlidir. Klasik oyunların reprodüksiyonları da dahil olmak üzere, muazzam miktarda açık kaynak koduna maruz kaldılar. Bu, modellerin oyun mekaniğini sıfırdan bağımsız olarak türetmek yerine, öğrenilen bilgileri basitçe hatırlayıp hatırlamadığı sorusunu gündeme getiriyor. Bu, görünürdeki zekanın genellikle kapsamlı örüntü tanımadan kaynaklandığı bu devasa sinir ağlarının temel doğasını vurgular.

Bu sınırlamalarla bile, QwQ’nun klasik arcade oyunlarını yeniden yaratmadaki performansı, özellikle parametre sayısı göz önüne alındığında etkileyicidir. Her testte R1 ile eşleşmeyebilir, ancak dikkate değer bir yetenek seviyesi gösterir. Otomotiv dünyasında sıklıkla kullanılan “yer değiştirmenin yerini hiçbir şey tutamaz” ifadesi burada geçerli olabilir. Bu, Alibaba’nın neden QwQ’nun bir “Max” sürümünü geliştirdiğini açıklayabilir, ancak yakın zamanda tüketici donanımında çalıştırılması pek olası değildir.

DeepSeek’in benzer büyüklükteki R1 Qwen 2.5 32B distili ile karşılaştırıldığında, Alibaba’nın pekiştirmeli öğrenme hattına bir kod yürütme sunucusu entegre etme kararı, programlama ile ilgili zorluklarda bir avantaj sağlamış olabilir.

Matematik: Bir Uyarı ile Yetenek

Tarihsel olarak, LLM’ler, dil odaklı eğitimlerinin bir sonucu olarak matematikle mücadele ettiler. Daha yeni modeller iyileşmeler göstermiş olsa da, QwQ hala zorluklarla karşılaşıyor, ancak mutlaka beklenebilecek nedenlerden dolayı değil.

QwQ, daha önce R1’e yöneltilen tüm matematik problemlerini başarıyla çözdü. Bu, QwQ’nun temel aritmetiği ve hatta bazı cebirleri işleyebileceğini gösterir. Ancak sorun, verimliliğinde yatıyor. Hesap makineleri ve doğrudan hesaplama hazır ve önemli ölçüde daha hızlıyken, matematiksel hesaplamalar için bir LLM kullanmak mantıksız görünüyor.
Örneğin, 7*43 gibi basit bir denklemi çözmek, QwQ’nun 1.000’den fazla belirteç üretmesini gerektirdi ve bu da bir RTX 3090 Ti’de yaklaşık 23 saniye sürdü. Bu, bir cep hesap makinesinde çok daha kısa sürede tamamlanabilecek bir görevdir.

Verimsizlik, daha büyük hesaplamalarla daha da belirgin hale gelir. Çoğu muhakeme dışı modelin yeteneklerinin ötesinde bir çarpma problemi olan 3394*35979‘u çözmek, QwQ’nun yerel örneğinin hesaplaması için üç dakika ve 5.000’den fazla belirteç aldı.

Hiperparametre düzeltmesinden önce, aynı denklem şaşırtıcı bir şekilde dokuz dakika ve neredeyse 12.000 belirteç gerektiriyordu.

Buradaki en önemli çıkarım, bir model doğru cevaba zorla ulaşabilse de, bunun mutlaka iş için en uygun araç olduğu anlamına gelmediğidir. Daha pratik bir yaklaşım, QwQ’ya bir Python hesap makinesine erişim sağlamak olacaktır. Bu, modelin güçlü yönlerinden yararlanırken, hesaplama açısından yoğun görevleri daha uygun bir araca devreder.

QwQ, aynı 3394*35979 denklemini araçları kullanarak çözmekle görevlendirildiğinde, hesap makinesi ağır işi üstlendiği için yanıt süresi sekiz saniyeye düştü.

“Bekle”nin Yaygınlığı: Düşünce Sürecine Bir Bakış

QwQ’nun “düşüncelerini” incelemek, özellikle karmaşık görevler veya kelime problemleri sırasında “bekle” kelimesinin sıkça geçtiğini ortaya koyuyor. Bu, modelin çalışmasını alternatif sonuçlara göre kontrol etme sürecini yansıtır.

Bu davranış muhakeme modellerinde yaygın olsa da, QwQ “düşünce” süreci sırasında doğru cevabı anladığını gösterdikten sonra bile yanlış bir cevap ürettiğinde özellikle sinir bozucu olabilir.

Bu sorun test sırasında sıkça karşılaşıldı. En açıklayıcı örneklerden biri, AutoGen AI’nin klasik kurt, keçi ve lahana problemine uyarlamasıydı. Bu bulmaca, bir bükülme ile bir ulaşım optimizasyonu zorluğu sunar:

Çözüm, istemin içine yerleştirilmiştir: üç güvenli bölme ile çiftçi, tüm öğeleri tek bir yolculukta taşıyabilir. Ancak, bulmacanın klasik versiyona benzemesi nedeniyle, modeller genellikle bölmeleri gözden kaçırır.

Testlerde, QwQ bu bulmacayı sürekli olarak doğru çözemedi. Düşünce sürecini incelemek, üç bölmeyi gözden kaçırmadığını ortaya çıkardı. Aslında, onları kabul etti, ancak çok basit oldukları için reddetti:

“Bekle, eğer çiftçi üçünü de tek bir yolculukta alabilirse, o zaman bunu yapabilir ve bitirebilir. Ama bu, problemi önemsiz hale getirir, bu da pek olası değildir. Belki de bölmeler ayrıdır, ancak tekne çiftçiye ek olarak yalnızca iki öğe taşıyabilir?”

Testin bulutta tam modelde mi yoksa yerel olarak mı çalıştırıldığına bakılmaksızın, QwQ bunu tutarlı bir şekilde çözmekte zorlandı. Bu, problemin kısıtlamalarını aşırı düşünebileceği veya yanlış yorumlayabileceği muhakeme yeteneklerinde potansiyel bir sınırlamayı vurgular.

Hiperparametre Hassasiyeti: Hassas Bir Denge

Diğer modellerle karşılaştırıldığında, QwQ konfigürasyonuna karşı daha yüksek bir hassasiyet sergiledi. Başlangıçta, Alibaba belirli örnekleme parametrelerini önerdi:

  • Sıcaklık: 0.6
  • TopP: 0.95
  • TopK: 20 ile 40 arasında

Daha sonra, bu öneriler şunları içerecek şekilde güncellendi:

  • MinP: 0
  • Varlık Cezası: 0 ile 2 arasında

Llama.cpp’nin örnekleme parametrelerini işlemesindeki (Llama.cpp, modellerde çıkarım çalıştırmak için kullanılır) belirgin bir hata nedeniyle, tekrar cezasını 1 olarak ayarlayarak devre dışı bırakmak da gerekliydi.

Daha önce bahsedildiği gibi, bu konfigürasyon sorunlarının ele alınması, bir cevaba ulaşmak için gereken “düşünme” belirteçlerinin sayısını yarıdan fazla azaltarak önemli bir iyileşme sağladı. Ancak, bu hata, Ollama ve LM Studio gibi popüler uygulamalar tarafından kullanılan Llama.cpp çıkarım motorunda çalışırken, modelin GGUF nicelenmiş sürümlerine özgü gibi görünüyor.

Llama.cpp’yi kullanmayı planlayan kullanıcılar için, Unsloth’un örnekleme sırasını düzeltme kılavuzuna başvurmanız şiddetle tavsiye edilir.

QwQ’ya Başlarken: Pratik Bir Kılavuz

QwQ ile denemeler yapmak isteyenler için, Ollama’da kurmak nispeten basittir. Ancak, önemli miktarda vRAM’e sahip bir GPU gerektirdiğini unutmamak önemlidir. Model, pratik kullanım için yeterince büyük bir bağlam penceresiyle 24 GB’lık bir 3090 Ti’de başarıyla çalıştırıldı.

Modeli bir CPU ve sistem belleğinde çalıştırmak teknik olarak mümkün olsa da, üst düzey bir iş istasyonu veya sunucu kullanmadığınız sürece bu, son derece yavaş yanıt sürelerine neden olacaktır.

Önkoşullar:

  1. 4 bitlik nicemlemede orta büyüklükteki LLM’leri çalıştırabilen bir makine. En az 24 GB vRAM’e sahip uyumlu bir GPU önerilir. Desteklenen kartların bir listesi burada bulunabilir.
  2. Apple Silicon Mac’ler için minimum 32 GB bellek önerilir.

Bu kılavuz, bir Linux dünyası komut satırı arayüzü ve Ollama hakkında temel bilgi sahibi olduğunuzu varsayar.

Ollama’yı Yükleme

Ollama, tüketici donanımında LLM’leri indirme ve sunma sürecini basitleştiren popüler bir model çalıştırıcısıdır. Windows veya macOS kullanıcıları için, ollama.com adresinden diğer herhangi bir uygulama gibi indirin ve yükleyin.

Linux kullanıcıları için Ollama, kurulum için uygun bir tek satır sağlar: