Nvidia'nın Ajan AI Çıkarım Stratejisi

Nvidia, ajan tabanlı yapay zekanın gelecekteki dalgasına odaklanıyor; bu alan, çıkarım yeteneklerine benzeri görülmemiş talepler getirme vaadi taşıyor. Bu zorluğun üstesinden gelmek için Nvidia, hem donanım hem de yazılım inovasyonlarını kapsayan kapsamlı bir strateji açıkladı.

Donanım Stratejisi: Ölçeklendirme

Nvidia’nın donanım stratejisinin kalbinde, giderek daha güçlü GPU’ların amansız takibi yatıyor. Şirket, önce dikey ölçeklendirmeye, ardından yatay ölçeklendirmeye odaklanan iki yönlü bir yaklaşım benimsiyor. Amaç, sadece tek bir rafta ultra güçlü bir AI süper bilgisayarı geliştirmek değil, birbirine bağlı raflardan oluşan ve devasa bir AI süper bilgisayar kompleksi oluşturan tüm bir ekosistem yaratmaktır. Bu ‘AI fabrikası’ yaklaşımı, en zorlu AI iş yükleri için gereken hesaplama gücünü sağlamak üzere tasarlanmıştır.

Yakın zamanda düzenlenen GTC konferansında tanıtılan yeni Blackwell Ultra raf tipi AI süper bilgisayarı, bu stratejiyi örneklemektedir. Hem eğitim hem de test zamanı ölçeklendirme çıkarımını hızlandırmak için tasarlanan Blackwell Ultra, mevcut Blackwell mimarisinden yararlanır, ancak daha güçlü GB300 NVL72’yi içerir. Bu yapılandırma, NVLink aracılığıyla birbirine bağlanmış 72 Blackwell Ultra GPU’ya sahiptir ve şaşırtıcı bir şekilde 1,1 Exaflops FP4 hassasiyetli işlem gücü sağlar. GB300 NVL72, GB200 NVL72’nin AI performansının 1,5 katına sahiptir. Tek bir DGS GB300 sistemi, 15 Exaflops işlem gücü sunar. 2025’in ikinci yarısında piyasaya sürülmesi planlanan Blackwell Ultra, Cisco, Dell, HPE, Lenovo, ASUS, Foxconn, Gigabyte, Pegatron ve Quanta dahil olmak üzere çok çeşitli sunucu ekipmanı satıcıları tarafından desteklenecektir. Ek olarak, AWS, GCP ve Azure gibi bulut hizmeti sağlayıcıları, Blackwell Ultra’ya dayalı işlem hizmetleri sunacaktır.

Bu santral seviyesindeki AI fabrika sistemlerinin ötesinde, Nvidia ayrıca işletmeler içindeki çıkarım ihtiyaçlarını hedefleyen yeni bir bilgisayar serisi tanıttı. Bunlar arasında DGX Spark ve DGX Station kişisel AI bilgisayarları yer alıyor. Boyutu Mac mini’ye benzeyen DGX Spark, 1 PFlops’a kadar işlem gücü sağlar.

Bunu perspektife koymak gerekirse, 2021’de 50.000’den fazla çekirdekle piyasaya sürülen Taiwania 3 süper bilgisayarı, yalnızca 2,7 PFlops performans sağlıyor. Sadece dört yıl içinde, masaüstü boyutundaki üç kişisel AI bilgisayarının işlem gücü, Taiwania 3’ü aşmıştır. 128 GB bellek yapılandırması için 3.999 ABD Doları (yaklaşık 130.000 NT Doları) fiyatla satılan bu yeni kişisel AI bilgisayarları, işletmeler içindeki gelecekteki dahili AI ihtiyaçlarını karşılamak, mini AI fabrikaları olarak hizmet etmek veya hatta edge AI ortamlarında çalışmak üzere tasarlanmıştır.

Gelecek Yol Haritası: Vera Rubin ve Ötesi

İleriye baktığımızda, Nvidia CEO’su Jensen Huang, önümüzdeki iki yıla ilişkin bir ürün yol haritası çizdi. Şirket, 2026’nın ikinci yarısında, adını karanlık maddeyi keşfeden Amerikalı gökbilimci Vera Rubin’den alan Vera Rubin NVL144’ü piyasaya sürmeyi planlıyor. Vera Rubin NVL144, GB300 NVL72’nin performansının 3,3 katını sunacak, bellek kapasitesi, bant genişliği ve NVLink hızları 1,6 kattan fazla artacaktır. Nvidia, 2027’nin ikinci yarısında, GB300 NVL72’nin performansının 14 katını sunacak, NVLink7 ve CX9 aracılığıyla önemli ölçüde geliştirilmiş bellek kapasitesi ve bant genişliği hızlarına sahip Rubin Ultra NVL576’yı piyasaya sürecek.

Vera Rubin mimarisini takiben, Nvidia’nın yeni nesil mimarisi, Challenger uzay mekiği felaket araştırmasındaki çalışmalarıyla tanınan ünlü Amerikalı fizikçi Richard Feynman’ın adını taşıyacak.

Yazılım Stratejisi: Nvidia Dynamo

Nvidia, donanımdan daha kritik olarak gördüğü yazılıma her zaman güçlü bir önem vermiştir. Bu stratejik odak, şirketin AI fabrika girişimlerine kadar uzanmaktadır.

CUDA-X AI hızlandırma kitaplığını çeşitli alanlara genişletmenin ve özel hızlandırma kitaplıkları geliştirmenin yanı sıra Nvidia, yeni bir AI fabrika işletim sistemi olan Nvidia Dynamo’yu tanıttı. Önemli bir şekilde, Nvidia bu işletim sistemini açık kaynaklı hale getirdi.

Nvidia Dynamo, LLM çıkarım hizmetleri sağlayan platformlar oluşturmak için tasarlanmış açık kaynaklı bir çıkarım hizmeti çerçevesidir. K8’ler ortamlarına dağıtılabilir ve büyük ölçekli AI çıkarım görevlerini dağıtmak ve yönetmek için kullanılabilir. Nvidia, Dynamo’yu NIM mikro hizmetler çerçevesine entegre etmeyi ve Nvidia AI Enterprise çerçevesinin bir bileşeni haline getirmeyi planlıyor.

Dynamo, Nvidia’nın mevcut açık kaynaklı çıkarım sunucu platformu Triton’un yeni nesil ürünüdür. Temel özelliği, LLM çıkarım görevlerinin iki aşamaya bölünmesidir ve bu da GPU’ların çıkarım işlemeyi optimize etmek, verimliliği artırmak ve GPU kullanımını en üst düzeye çıkarmak için daha esnek ve verimli bir şekilde kullanılmasını sağlar. Dynamo, çıkarım gereksinimlerine göre GPU’ları dinamik olarak tahsis edebilir ve GPU’lar arasındaki eşzamansız veri aktarımını hızlandırarak model çıkarım yanıt sürelerini azaltabilir.

Transformatör tabanlı GAI modelleri, çıkarımı iki aşamaya ayırır: Giriş verilerini depolama için belirteçlere dönüştüren Prefill (ön giriş) ve önceki belirteğe göre sonraki belirteci oluşturan sıralı bir süreç olan Decode.

Geleneksel LLM çıkarımı, hem Prefill hem de Decode görevlerini aynı GPU’ya atar. Ancak, bu görevlerin farklı hesaplama özelliklerinden dolayı Dynamo bunları ayırır, GPU kaynaklarını buna göre atar ve tahsisi görev özelliklerine göre dinamik olarak ayarlar. Bu, GPU küme performansını optimize eder.

Nvidia’nın testleri, Dynamo’nun GB200 NVL72’de 671 milyar parametreli DeepSeek-R1 modeliyle kullanılmasının çıkarım performansını 30 kat artırabileceğini gösteriyor. Hopper GPU’larda çalışan Llama 70B üzerindeki performans da iki katından fazla artırılabilir.

Çıkarım hesaplamasının karmaşık doğası ve çeşitli paralel işleme modelleri nedeniyle çıkarım görevlerini yönetmek karmaşıktır. Huang, Nvidia’nın AI fabrikaları için bir işletim sistemi sağlamak üzere Dynamo çerçevesini başlattığını vurguladı.

Geleneksel veri merkezleri, kurumsal BT kaynakları üzerinde farklı uygulamaları düzenlemek için VMware gibi işletim sistemlerine güvenir. AI ajanları geleceğin uygulamalarıdır ve AI fabrikaları VMware’e değil Dynamo’ya ihtiyaç duyar.

Huang’ın yeni AI fabrika işletim sistemini, sanayi devrimini ateşleyen bir motor olan Dynamo’dan sonra adlandırması, platform için beklentilerini ve hedeflerini ortaya koyuyor.