YZ Verimliliğini Yeniden Düşünmek

Yapay zeka gelişiminin amansız ilerleyişi, daha büyük modellerin daha akıllı olma eğiliminde olduğunu sürekli olarak göstermiştir, ancak operasyonel talepleri de artmaktadır. Bu, özellikle gelişmiş YZ çiplerine erişimi sınırlı olan bölgelerde önemli bir zorluk yaratmaktadır. Ancak, coğrafi kısıtlamalardan bağımsız olarak, model geliştiricileri arasında Mixture of Experts (MoE) mimarilerini yenilikçi sıkıştırma teknikleriyle birleştirme yönünde artan bir eğilim var. Amaç? Bu geniş Large Language Models’i (LLM’ler) dağıtmak ve çalıştırmak için gereken hesaplama kaynaklarını önemli ölçüde azaltmak. ChatGPT’nin ateşlediği üretken YZ patlamasının üçüncü yıldönümüne yaklaşırken, sektör nihayet bu güç tüketen modelleri çalıştırmanın ekonomik sonuçlarını ciddiye almaya başlıyor.

Mistral AI’dan olanlar gibi MoE modelleri bir süredir ortalıkta olmasına rağmen, gerçek atılımları geçen yıl gerçekleşti. Microsoft, Google, IBM, Meta, DeepSeek ve Alibaba gibi teknoloji devlerinden, hepsi bir tür MoE mimarisinden yararlanan bir dizi yeni açık kaynaklı LLM’ye tanık olduk. Cazibesi basit: MoE mimarileri, geleneksel “yoğun” model mimarilerine göre çok daha verimli bir alternatif sunuyor.

Bellek Sınırlamalarının Üstesinden Gelmek

MoE mimarisinin temeli, 1990’ların başlarına, “Adaptive Mixtures of Local Experts” yayınlanmasıyla dayanmaktadır. Temel fikir, görevleri tek bir, geniş bir veri yelpazesinde eğitilmiş büyük bir modele güvenmek yerine, bir veya daha fazla özel alt modele veya “uzmana” dağıtmak etrafında dönmektedir.

Teoride, her uzman, kodlama ve matematikten yaratıcı yazmaya kadar belirli bir alan için titizlikle optimize edilebilir. Ancak, çoğu model geliştiricisinin MoE modellerindeki belirli uzmanlar hakkında sınırlı ayrıntı sağladığını ve uzman sayısının modelden modele değiştiğini belirtmekte fayda var. En önemlisi, genel modelin yalnızca bir kısmı herhangi bir zamanda aktif olarak devreye girer.

DeepSeek’in 256 yönlendirilmiş uzman ve paylaşılan bir uzman içeren V3 modelini düşünün. Token işleme sırasında, yalnızca sekiz yönlendirilmiş uzman ve paylaşılan uzman etkinleştirilir. Bu seçici aktivasyon, MoE modellerinin her zaman benzer büyüklükteki yoğun modellerle aynı kalite seviyesine ulaşamayabileceği anlamına gelir. Örneğin, Alibaba’nın Qwen3-30B-A3B MoE modeli, Alibaba’nın kıyaslama testlerinde yoğun Qwen3-32B modelinden sürekli olarak daha düşük performans göstermiştir.

Ancak, bu hafif kalite düşüşünü, MoE mimarileri tarafından sunulan önemli verimlilik kazanımlarına karşı bağlamsallaştırmak önemlidir. Etkin parametrelerdeki azalma, bellek bant genişliği gereksinimlerinin artık modelin ağırlıklarını depolamak için gereken kapasiteyle doğrudan orantılı olmamasıyla sonuçlanır. Esasen, MoE modelleri hala önemli miktarda bellek gerektirebilirken, bunun en hızlı ve en pahalı High Bandwidth Memory (HBM) olması gerekmez.

Bunu bir karşılaştırmayla açıklayalım. Meta’nın en büyük “yoğun” modeli olan Llama 3.1 405B ve 17 milyar aktif parametreye sahip bir MoE mimarisi kullanan karşılaştırılabilir bir model olan Llama 4 Maverick’i düşünün. Batch boyutu, kayan nokta performansı ve anahtar-değer önbelleğe alma gibi gerçek dünya performansına katkıda bulunan çok sayıda faktör varken, modelin verilen bir kesinlikte (8 bit modeller için parametre başına 1 bayt) gigabayt cinsinden boyutunu saniyede hedeflenen tokenlarla çarparak minimum bant genişliği gereksinimlerini yaklaşık olarak hesaplayabiliriz.

Llama 3.1 405B’nin 8 bitlik nicelenmiş bir sürümünü çalıştırmak, 405 GB’tan fazla vRAM ve saniyede 50 token hızında metin oluşturmak için en az 20 TB/s bellek bant genişliği gerektirecektir. Yakın zamana kadar 300.000 dolar veya daha fazla fiyat etiketi taşıyan Nvidia’nın HGX H100 tabanlı sistemleri, yalnızca 640 GB HBM3 ve yaklaşık 26.8 TB/s toplu bant genişliği sağlıyordu. 16 bitlik tam modeli çalıştırmak için bu sistemlerden en az ikisi gerekecekti.

Buna karşılık, Llama 4 Maverick, aynı miktarda belleği tüketirken, karşılaştırılabilir performansı elde etmek için 1 TB/s’den daha az bant genişliği gerektirir. Bunun nedeni, model uzmanlarından yalnızca 17 milyar parametrenin çıktıyı oluşturmaya aktif olarak dahil olmasıdır. Bu, aynı donanımda metin oluşturma hızında bir büyüklük sırası artış anlamına gelir.

Tersine, salt performans birincil bir endişe değilse, bu modellerin çoğu artık Intel’in en son Xeon’larında görüldüğü gibi daha ucuz, ancak daha yavaş GDDR6, GDDR7 ve hatta DDR bellekte çalıştırılabilir.

Nvidia’nın Computex’te duyurduğu yeni RTX Pro Sunucuları, tam olarak bu senaryoya göre uyarlanmıştır. Gelişmiş paketleme gerektiren pahalı ve güç tüketen HBM’ye güvenmek yerine, bu sistemlerdeki sekiz RTX Pro 6000 GPU’nun her biri, modern oyun kartlarında bulunan aynı tür olan 96 GB GDDR7 bellek ile donatılmıştır.

Bu sistemler, Llama 4 Maverick’i saniyede yüzlerce token hızında çalıştırmak için fazlasıyla yeterli olan 768 GB’a kadar vRAM ve 12.8 TB/s toplu bant genişliği sunar. Nvidia fiyatlandırmayı açıklamadı, ancak bu kartların iş istasyonu sürümü yaklaşık 8.500 dolardan satılıyor, bu da bu sunucuların kullanılmış bir HGX H100’ün maliyetinin yarısından daha azına fiyatlandırılabileceğini gösteriyor.

Ancak, MoE, HBM yığınlanmış GPU’ların sonunu işaret etmiyor. Hiç gönderilirse, muazzam boyutu nedeniyle Llama 4 Behemoth’un GPU’larla dolu bir raf gerektirmesini bekleyin.

Llama 3.1 405B’nin yaklaşık yarısı kadar aktif parametreye sahip olmasına rağmen, toplam 2 trilyon parametreye sahiptir. Şu anda, 1 milyon token veya daha fazla bağlam penceresine ve 16 bit modeli barındırabilen piyasada tek bir geleneksel GPU sunucusu bulunmamaktadır.

AI’da CPU Rönesansı mı?

Belirli uygulamaya bağlı olarak, özellikle üst düzey hızlandırıcılara erişimin kısıtlı olduğu bölgelerde bir GPU her zaman gerekli olmayabilir.

Intel, Nisan ayında 8800 MT/s MCRDIMM’lerle donatılmış çift soketli bir Xeon 6 platformunu sergiledi. Bu kurulum, Llama 4 Maverick’te saniyede 240 token verimi elde etti ve token başına ortalama çıkış gecikmesi 100 ms’nin altında oldu.

Daha basit bir ifadeyle, Xeon platformu, yaklaşık 24 eşzamanlı kullanıcı için kullanıcı başına saniyede 10 veya daha fazla token sağlayabilir.

Intel, tek kullanıcı performans rakamlarını açıklamadı, çünkü bunlar gerçek senaryolarda daha az alakalı. Ancak tahminler, saniyede yaklaşık 100 tokenlik bir tepe performansı olduğunu gösteriyor.

Bununla birlikte, daha iyi alternatifler veya belirli gereksinimler olmadığı sürece, CPU tabanlı çıkarımın ekonomisi kullanım durumuna büyük ölçüde bağlı kalır.

Ağırlık Azaltma: Budama ve Niceleme

MoE mimarileri, büyük modellerin sunulması için gerekli olan bellek bant genişliğini azaltabilir, ancak ağırlıklarını depolamak için gereken bellek miktarını azaltmazlar. 8 bit hassasiyette bile, Llama 4 Maverick, aktif parametre sayısından bağımsız olarak çalıştırmak için 400 GB’tan fazla bellek gerektirir.

Gelişmekte olan budama teknikleri ve niceleme yöntemleri, kaliteden ödün vermeden bu gereksinimi potansiyel olarak yarıya indirebilir.

Nvidia, yedek ağırlıkları kaldırılmış Meta’nın Llama 3 modellerinin budanmış sürümlerini yayınlayarak budamanın bir savunucusu olmuştur.

Nvidia ayrıca, 2022’de 8 bitlik kayan noktalı veri türlerini ve 2024’te Blackwell mimarisinin lansmanı ile 4 bitlik kayan noktayı destekleyen ilk şirketler arasındaydı. AMD’nin yerel FP4 desteği sunan ilk çiplerinin yakında piyasaya sürülmesi bekleniyor.

Kesinlikle gerekli olmasa da, bu veri türleri için yerel donanım desteği genellikle, özellikle ölçekte hizmet verirken, hesaplama darboğazlarıyla karşılaşma olasılığını azaltır.

Meta, Microsoft ve Alibaba’nın modellerinin sekiz bitlik ve hatta dört bitlik nicelemeli sürümlerini sunmasıyla, daha düşük hassasiyetli veri türlerini benimseyen giderek artan sayıda model geliştiricisine tanık olduk.

Niceleme, model ağırlıklarını yerel hassasiyetlerinden, tipik olarak BF16’dan FP8 veya INT4’e sıkıştırmayı içerir. Bu, modellerin bellek bant genişliği ve kapasite gereksinimlerini bazı kalite maliyetleriyle etkin bir şekilde yarıya veya hatta dörtte üçe düşürür.

16 bit’ten sekiz bit’e geçişle ilişkili kayıplar genellikle ihmal edilebilir düzeydedir ve DeepSeek dahil olmak üzere çeşitli model oluşturucular baştan itibaren FP8 hassasiyetinde eğitmeye başlamıştır. Ancak, hassasiyeti dört bit daha azaltmak önemli kalite düşüşüne neden olabilir. Sonuç olarak, GGUF gibi birçok eğitim sonrası niceleme yaklaşımı, kalite kaybını en aza indirmek için ağırlıkların tümünü eşit olarak sıkıştırmaz ve bazılarını daha yüksek hassasiyet seviyelerinde bırakır.

Google yakın zamanda, Gemma 3 modellerini yerel BF16’ya yakın kalite seviyelerini korurken 4 kat azaltmak için kantizasyon bilinçli eğitimi (QAT) kullanımını gösterdi.

QAT, eğitim sırasında düşük hassasiyetli işlemleri simüle eder. Google, niteliksiz bir modelde yaklaşık 5.000 adım için bu tekniği uygulayarak, INT4’e dönüştürüldüğünde nicemlemeyle ilgili kayıpları ölçmek için kullanılan bir metrik olan şaşkınlıkta meydana gelen düşüşü yüzde 54 oranında azaltabildi.

Bitnet olarak bilinen nicemlemeye yönelik başka bir QAT tabanlı yaklaşım, modelleri yalnızca 1,58 bit’e veya yaklaşık olarak orijinal boyutlarının onda birine sıkıştırarak daha da düşük hassasiyet seviyelerini hedeflemektedir.

Teknolojilerin Sinerjisi

MoE ve 4 bit kantizasyon kombinasyonu, özellikle bant genişliğinin sınırlı olduğu durumlarda önemli avantajlar sunar.

Bant genişliği kısıtlı olmayan diğerleri için, MoE veya kantizasyon olsun, iki teknolojiden herhangi biri, daha büyük ve daha güçlü modelleri çalıştırmak için ekipman ve operasyon maliyetini önemli ölçüde düşürebilir; bu, onlar için gerçekleştirilecek değerli bir hizmet bulunabileceği varsayılarak.

Ve eğer değilse, en azından yalnız olmadığınız konusunda teselli bulabilirsiniz; yakın tarihli bir IBM anketi, yalnızca dört AI dağıtımından birinin vaat edilen yatırım getirisini sağladığını ortaya çıkardı.