DeepSeek-R1'i 32B'de Geçen Performans?

Pekiştirmeli öğrenme, bazı ek doğrulamalarla desteklendiğinde, büyük dil modellerinin (LLM’ler) yeteneklerini ne kadar artırabilir? Alibaba’nın Qwen ekibi, en son geliştirdikleri QwQ ile bu sorunun cevabını arıyor.

QwQ, “muhakeme” modeli, nispeten kompakt 32 milyar parametreye sahip. Ancak Alibaba, matematik, kodlama ve işlev çağırma ile ilgili belirli kıyaslamalarda, 671 milyar parametreye sahip devasa DeepSeek R1’i geride bıraktığını iddia ediyor.

Qwen ekibi, R1 ile benimsenen yaklaşıma benzer şekilde, QwQ’nun düşünce zinciri muhakemesini geliştirmek için pekiştirmeli öğrenmeyi kullandı. Bu yöntem, problem analizi ve ayrıştırma yeteneklerini geliştirir. Pekiştirmeli öğrenme, geleneksel olarak, modelleri doğru cevaplar için ödüllendirerek adım adım muhakemeyi güçlendirir ve böylece daha doğru yanıtları teşvik eder. Bununla birlikte, QwQ, bir doğruluk denetleyicisi ve bir kod yürütme sunucusu ekleyerek bir adım daha ileri gidiyor. Bu, ödüllerin yalnızca doğru matematiksel çözümler ve işlevsel kod için verilmesini sağlar.

Qwen ekibi, bu yaklaşımın, boyutunu aşan, çok daha büyük modellerle karşılaştırılabilir ve hatta bazen onları aşan bir performans elde eden bir modelle sonuçlandığını iddia ediyor.

Ancak, AI kıyaslamaları aldatıcı olabilir. Bu nedenle, bu iddiaların gerçek dünya senaryolarına nasıl dönüştüğünü inceleyelim ve ardından QwQ’yu bağımsız olarak nasıl çalıştıracağınız konusunda size rehberlik edeceğiz.

Performans Değerlendirmesi

QwQ’yu, genel bilgi, uzamsal akıl yürütme, problem çözme, matematik ve en gelişmiş LLM’leri bile zorladığı bilinen diğer sorguları kapsayan bir dizi test istemine tabi tuttuk.

Tam modelin önemli bellek gereksinimleri nedeniyle, testlerimizi farklı RAM kapasitelerine sahip kullanıcılara hitap etmek için iki konfigürasyonda gerçekleştirdik. Başlangıçta, tam modeli Hugging Face’deki QwQ demosunu kullanarak değerlendirdik. Daha sonra, nicemlemenin doğruluk üzerindeki etkisini ölçmek için 24 GB GPU’lu (Nvidia 3090 veya AMD Radeon RX 7900XTX) 4 bit nicemlenmiş bir sürümü test ettik.

Çoğu genel bilgi sorusu için QwQ, DeepSeek’in 671 milyar parametreli R1’i ve OpenAI’nin o3-mini’si gibi diğer muhakeme modellerine benzer bir performans sergiledi, cevabı vermeden önce düşüncelerini formüle etmek için kısa bir süre durakladı.

Modelin güçlü yönleri, belki de şaşırtıcı olmayan bir şekilde,daha karmaşık mantık, kodlama veya matematiksel zorluklarla mücadele ederken ortaya çıkıyor. Sınırlamalarından bazılarına değinmeden önce bu alanları inceleyelim.

Uzamsal Akıl Yürütme Yeteneği

Homebrew Research tarafından AlphaMaze projesinin bir parçası olarak tasarlanan nispeten yeni bir uzamsal akıl yürütme testiyle başladık.

Test, modele aşağıda gösterildiği gibi metin biçiminde bir labirent sunar. Modelin görevi, “O” başlangıç noktasından “T” hedefine gitmektir.

QwQ’nun Mimari Yapısı ve Eğitim Süreci

QwQ’nun başarısının ardındaki temel faktörlerden biri, dikkatlice tasarlanmış mimarisi ve titiz eğitim sürecidir. Model, Transformer tabanlı bir mimariye dayanır, ancak Qwen ekibi, muhakeme yeteneklerini geliştirmek için birkaç önemli değişiklik yapmıştır.

Pekiştirmeli Öğrenme ve Doğrulama

QwQ’nun eğitim sürecinin en önemli yönlerinden biri, pekiştirmeli öğrenmenin (RL) kullanılmasıdır. Geleneksel denetimli öğrenme yaklaşımlarında, model, büyük bir veri kümesi üzerinde eğitilir ve doğru cevapları tahmin etmesi beklenir. Ancak, pekiştirmeli öğrenmede, model, bir ortamla etkileşime girer ve eylemleri için ödüller veya cezalar alır.

QwQ durumunda, model, matematiksel problemler ve kodlama görevleri gibi çeşitli muhakeme görevlerini içeren bir ortamla etkileşime girer. Model, doğru çözümler ürettiğinde ödüllendirilir ve yanlış cevaplar verdiğinde cezalandırılır. Bu süreç, modelin zaman içinde daha iyi muhakeme stratejileri geliştirmesine yardımcı olur.

QwQ’nun eğitim sürecini diğerlerinden ayıran şey, bir doğruluk denetleyicisi ve bir kod yürütme sunucusunun dahil edilmesidir. Doğruluk denetleyicisi, model tarafından üretilen matematiksel çözümlerin doğru olup olmadığını kontrol eder. Kod yürütme sunucusu ise, model tarafından üretilen kodun işlevsel olup olmadığını ve doğru sonuçları verip vermediğini değerlendirir. Bu ek doğrulama adımları, modelin yalnızca doğru cevapları ürettiğinde ödüllendirilmesini sağlar ve bu da daha güvenilir ve doğru bir muhakeme yeteneği sağlar.

Düşünce Zinciri (Chain-of-Thought) Muhakemesi

QwQ, düşünce zinciri (CoT) muhakemesi adı verilen bir tekniği kullanır. Bu teknik, modeli, bir problemi çözmek için adım adım bir akıl yürütme süreci izlemeye teşvik eder. Model, bir problemi doğrudan çözmeye çalışmak yerine, önce problemi daha küçük alt problemlere ayırır ve ardından her bir alt problemi çözmek için mantıksal adımlar atar. Bu yaklaşım, modelin karmaşık problemleri daha etkili bir şekilde ele almasına ve daha doğru sonuçlar üretmesine yardımcı olur.

QwQ’nun eğitim sürecinde, model, CoT muhakemesini kullanmaya teşvik etmek için özel olarak tasarlanmış veri kümeleri üzerinde eğitilir. Bu veri kümeleri, adım adım çözümler içeren örnek problemler içerir. Model, bu örneklerden öğrenerek, kendi CoT muhakeme yeteneğini geliştirir.

QwQ’nun Sınırlamaları ve Gelecek Çalışmalar

QwQ, etkileyici muhakeme yeteneklerine sahip olmasına rağmen, bazı sınırlamaları da vardır. Model, hala bazı karmaşık mantıksal akıl yürütme görevlerinde zorlanabilir ve bazen yanlış cevaplar üretebilir. Ayrıca, modelin performansı, test edilen veri kümesine ve görev türüne bağlı olarak değişebilir.

Qwen ekibi, QwQ’nun sınırlamalarının farkındadır ve modeli daha da geliştirmek için çalışmalarını sürdürmektedir. Gelecekteki çalışmalar, modelin mimarisini iyileştirmeyi, eğitim sürecini optimize etmeyi ve daha geniş bir yelpazedeki muhakeme görevlerini ele almasını sağlamayı içerebilir.

QwQ’yu Çalıştırma ve Deney Yapma

QwQ’nun yeteneklerini kendiniz deneyimlemek isterseniz, modeli çalıştırmanın birkaç yolu vardır.

Hugging Face Demo

QwQ’nun tam modelini test etmenin en kolay yolu, Hugging Face’deki demoyu kullanmaktır. Bu demo, modeli herhangi bir kurulum gerektirmeden doğrudan web tarayıcınızda çalıştırmanıza olanak tanır. Ancak, demo, tam modelin bellek gereksinimleri nedeniyle yavaş olabilir.

Yerel Olarak Çalıştırma (Quantized Versiyon)

QwQ’yu daha hızlı bir şekilde çalıştırmak isterseniz, 4-bit nicemlenmiş sürümünü yerel olarak çalıştırabilirsiniz. Bu sürüm, daha az bellek gerektirir ve 24 GB GPU’lu bir sistemde çalıştırılabilir. Ancak, nicemleme, modelin doğruluğunu biraz azaltabilir.

QwQ’yu yerel olarak çalıştırmak için, gerekli kütüphaneleri yüklemeniz ve modeli Hugging Face’den indirmeniz gerekir. Daha sonra, modeli kullanarak kendi istemlerinizi girebilir ve sonuçları gözlemleyebilirsiniz.

Sonuç

Alibaba’nın QwQ’su, pekiştirmeli öğrenme ve doğrulamanın, büyük dil modellerinin muhakeme yeteneklerini nasıl artırabileceğine dair umut verici bir örnektir. 32 milyar parametresiyle QwQ, belirli kıyaslamalarda 671 milyar parametreli DeepSeek R1’i geride bırakarak, boyutun her zaman performansın tek belirleyicisi olmadığını gösteriyor.

QwQ’nun hala bazı sınırlamaları olsa da, modelin potansiyeli açıktır. Qwen ekibinin devam eden çalışmaları ve gelecekteki geliştirmelerle, QwQ, yapay zeka alanında daha da önemli bir rol oynayabilir.