Yapay Zeka Çiplerini ve Altyapısını Yeniden Düşünmek

DeepSeek’in geliştirdiği yapay zeka teknolojisindeki hızlı inovasyon, veri merkezlerimizi, çiplerimizi ve sistemlerimizi nasıl yapılandırdığımızı temelden yeniden değerlendirmemizi gerektiriyor. DeepSeek’in mühendislik yenilikleri, yapay zeka hesaplama maliyetlerini önemli ölçüde azalttı ve bu da yapay zeka altyapısının geleceği hakkında daha geniş bir tartışma başlattı.

DeepSeek, yapay zeka teknolojisinin sınırlarını kökten genişletmemiş olsa da, yapay zeka pazarı üzerindeki etkisi derin. Mixture of Experts (MoE), Multi-Layer Attention (MLA) ve Multi-Token Prediction (MTP) gibi teknolojiler DeepSeek ile birlikte öne çıktı. Bu teknolojilerin tamamı DeepSeek tarafından geliştirilmemiş olsa da, başarılı bir şekilde uygulanmaları yaygın olarak benimsenmelerini teşvik etti. Özellikle MLA, uç cihazlardan bulut bilişime kadar çeşitli platformlarda tartışmaların odak noktası haline geldi.

MLA ve Algoritma İnovasyonu Zorluğu

NextSilicon CEO’su Elad Raz, kısa süre önce MLA’nın bellek verimliliğini artırırken, geliştiriciler için iş yükünü artırabileceğini ve yapay zekanın üretim ortamlarında uygulanmasını karmaşıklaştırabileceğini belirtti. GPU kullanıcılarının MLA için ‘el kodu’ optimizasyonu yapmaları gerekebilir. Bu örnek, DeepSeek sonrası dönemde yapay zeka çiplerinin ve altyapı mimarilerinin uygulanışını yeniden düşünmemiz gerektiğini vurguluyor.

MLA’nın önemini anlamak için, Büyük Dil Modelleri’nin (LLM’ler) temel kavramlarını anlamak önemlidir. LLM’ler, kullanıcı girdilerine yanıt oluştururken, modelin ilgili verilere odaklanmasını sağlayan KV vektörlerine (anahtarlar ve değerler) büyük ölçüde güvenir. Dikkat mekanizmalarında, model en alakalı içeriği belirlemek için yeni istekleri anahtarlarla karşılaştırır.

Elad Raz, bunu bir kitap benzetmesiyle açıklıyor; anahtar, ‘kitabın bölüm başlıkları gibi, her bölümün ne hakkında olduğunu gösterirken, değer ise bu başlıklar altındaki daha ayrıntılı özetlerdir. Bu nedenle, bir kullanıcı istekte bulunduğunda, bir yanıt oluşturmaya yardımcı olacak bir arama terimi ister. ‘Bu hikaye akışı altında, hangi bölüm en alakalı?’ diye soruyor.’

MLA, bu bölüm başlıklarını (anahtarları) ve özetleri (değerleri) sıkıştırarak, cevap bulma sürecini hızlandırır ve verimliliği artırır. Sonuç olarak MLA, DeepSeek’in bellek kullanımını %5-13 oranında azaltmasına yardımcı olur. Daha ayrıntılı bilgilere DeepSeek’in resmi makalesinden ulaşılabilir. MediaTek’in geliştirici konferansı, Dimensity mobil çiplerinde MLA desteğini bile tartıştı ve bu da DeepSeek’in geniş kapsamlı etkisini vurguluyor.

MLA gibi teknolojiler, yapay zeka çağındaki tipik algoritmik yenilikleri temsil ediyor. Ancak, yapay zeka teknolojisi gelişiminin hızlı temposu, sürekli bir yenilik akışına yol açıyor ve bu da özellikle bu yenilikler belirli platformlara göre uyarlandığında yeni zorluklar yaratıyor. MLA örneğinde, NVIDIA dışı GPU kullanıcılarının teknolojiyi kullanmak için ekstra manuel kodlama yapmaları gerekiyor.

DeepSeek’in teknolojileri, yapay zeka çağının yenilikçiliğini ve değerini gösterirken, donanım ve yazılımın bu yeniliklere uyum sağlaması gerekiyor. Elad Raz’a göre, bu tür bir uyarlama, geliştiriciler ve üretim ortamları için karmaşıklığı en aza indirmelidir. Aksi takdirde, her yeniliğin maliyeti aşırı derecede yüksek olacaktır.

O zaman şu soru ortaya çıkıyor: ‘Bir sonraki algoritma yeniliği mevcut mimarilere iyi ve basit bir şekilde çevrilmezse ne olur?’

Çip Tasarımı ve Algoritma İnovasyonu Arasındaki Çatışma

Son birkaç yıldır, yapay zeka çip üreticileri, büyük yapay zeka çiplerinin tasarımının en az 1-2 yıl sürdüğünü sürekli olarak bildirdiler. Bu, çip tasarımının bir çipin piyasaya sürülmesinden çok önce başlaması gerektiği anlamına geliyor. Yapay zeka teknolojisindeki hızlı gelişmeler göz önüne alındığında, yapay zeka çip tasarımının ileriye dönük olması gerekiyor. Yalnızca mevcut ihtiyaçlara odaklanmak, en son uygulama yeniliklerine uyum sağlayamayan eski yapay zeka çipleriyle sonuçlanacaktır.

Yapay zeka uygulama algoritması yeniliği artık haftalık olarak gerçekleşiyor. Önceki makalelerde belirtildiği gibi, yapay zeka modellerinin aynı yeteneklere ulaşması için gereken işlem gücü yıllık olarak 4-10 kat azalıyor. GPT-3’e benzer kaliteye ulaşan yapay zeka modellerinin çıkarım maliyeti son üç yılda 1200 kat azaldı. Şu anda, 2B parametreli modeller, geçmişin 170B parametreli GPT-3’ü ile aynı seviyeye ulaşabiliyor. Yapay zeka teknoloji yığınının üst katmanlarındaki bu hızlı inovasyon, geleneksel çip mimarisi planlaması ve tasarımı için önemli zorluklar sunuyor.

Elad Raz, sektörün DeepSeek MLA gibi yenilikleri yapay zeka teknolojisi için norm olarak tanıması gerektiğine inanıyor. ‘Yeni nesil bilgi işlem, yalnızca günümüzün iş yükleri için optimize etmekle kalmamalı, aynı zamanda gelecekteki atılımları da barındırmalıdır.’ Bu bakış açısı yalnızca çip endüstrisi için değil, aynı zamanda yapay zeka teknoloji yığınının orta-alt seviye altyapısının tamamı için de geçerlidir.

Elad Raz, ‘DeepSeek ve diğer yenilikler, algoritma inovasyonunun hızlı ilerlemesini göstermiştir’ dedi. ‘Araştırmacılar ve veri bilimcilerinin yeni içgörüler ve keşifler elde etmek için daha çok yönlü, esnek araçlara ihtiyacı var. Pazarın, müşterilerin mevcut hızlandırıcı çözümlerini ‘tak ve çalıştır’ şeklinde değiştirmelerine olanak tanırken, geliştiricilerin çalışmalarını zahmetsizce taşımalarını sağlayan akıllı, yazılım tanımlı donanım bilgi işlem platformlarına ihtiyacı var.’

Bu durumu ele almak için, sektörün daha akıllı, uyarlanabilir ve esnek bilgi işlem altyapısı tasarlaması gerekiyor.

Esneklik ve verimlilik genellikle çelişen hedeflerdir. CPU’lar oldukça esnektir ancak GPU’lara göre önemli ölçüde daha düşük paralel bilgi işlem verimliliğine sahiptir. Programlanabilirlikleri ile GPU’lar, özel yapay zeka ASIC çiplerinden daha az verimli olabilir.

Elad Raz, NVIDIA’nın yapay zeka veri merkezi raflarının yakında 600kW güç tüketimine ulaşmasını beklediğini belirtti. Bağlam için, standart kurumsal veri merkezlerinin %75’i raf başına yalnızca 15-20kW’lık bir tepe güç tüketimine sahiptir. Yapay zekadaki potansiyel verimlilik kazanımları ne olursa olsun, bu, bilgi işlem altyapısı sistemleri kuran veri merkezleri için önemli bir zorluk oluşturuyor.

Elad Raz’ın görüşüne göre, mevcut GPU’lar ve yapay zeka hızlandırıcıları, yapay zeka ve Yüksek Performanslı Hesaplama’nın (HPC) potansiyel taleplerini karşılamak için yeterli olmayabilir. ‘Bilgi işlem verimliliğini nasıl artıracağımızı temelden yeniden düşünmezsek, sektör fiziksel ve ekonomik sınırlara ulaşma riskiyle karşı karşıya kalır. Bu duvar aynı zamanda yan etkilere de sahip olacak ve daha fazla kuruluşun yapay zekaya ve HPC’ye erişimini sınırlayarak, algoritmalarda veya geleneksel GPU mimarilerindeki ilerlemelere rağmen inovasyonu engelleyecektir.’

Yeni Nesil Bilgi İşlem Altyapısı için Öneriler ve Gereksinimler

Bu gözlemlere dayanarak, Elad Raz, yeni nesil bilgi işlem altyapısını tanımlamak için ‘dört temel direk’ önerdi:

(1) Tak ve Çalıştır Değiştirilebilirlik: ‘Tarih, CPU’dan GPU’ya geçiş gibi karmaşık mimari geçişlerinin tamamen uygulanmasının onlarca yıl sürebileceğini göstermiştir. Bu nedenle, yeni nesil bilgi işlem mimarileri sorunsuz geçişi desteklemelidir.’ ‘Tak ve çalıştır’ değiştirilebilirlik için Elad Raz, yeni bilgi işlem mimarilerinin x86 ve Arm ekosistemlerinden ders almasını ve geriye dönük uyumluluk yoluyla daha geniş bir benimseme elde etmesini öneriyor.

Modern tasarımlar ayrıca geliştiricilerin büyük miktarda kod yazmasını veya belirli satıcılara bağımlılık yaratmasını gerektirmemelidir. ‘Örneğin, MLA gibi gelişmekte olan teknolojiler için destek standartlaştırılmalı, NVIDIA dışı GPU’larda olduğu gibi ekstra manuel ayarlamalar gerektirmemelidir. Yeni nesil sistemler, manuel kod değişiklikleri veya önemli API ayarlamaları gerektirmeden yeni iş yüklerini kutudan çıkar çıkmaz anlamalı ve optimize etmelidir.’

(2) Uyarlanabilir, Gerçek Zamanlı Performans Optimizasyonu: Elad Raz, sektörün sabit işlevli hızlandırıcılardan uzaklaşması gerektiğine inanıyor. ‘Sektörün, çalışma zamanında dinamik olarak kendini optimize edebilen akıllı, yazılım tanımlı donanım temelleri üzerine inşa etmesi gerekiyor.’

‘Gelecekteki sistemler, iş yüklerinden sürekli olarak öğrenerek, belirli uygulama iş yükünden bağımsız olarak, kullanımı ve sürdürülebilir performansı en üst düzeye çıkararak gerçek zamanlı olarak kendilerini ayarlayabilir. Bu dinamik uyarlanabilirlik, altyapının HPC simülasyonları, karmaşık yapay zeka modelleri veya vektör veritabanı işlemleri çalıştırıp çalıştırmadığına bakılmaksızın gerçek dünya senaryolarında tutarlı verimlilik sağlayabileceği anlamına gelir.’

(3) Ölçeklenebilir Verimlilik: ‘Donanım ve yazılımı birbirinden ayırarak ve akıllı gerçek zamanlı optimizasyona odaklanarak, gelecekteki sistemler daha yüksek kullanım ve daha düşük genel enerji tüketimi elde etmelidir. Bu, altyapıyı daha uygun maliyetli ve yeni iş yüklerinin gelişen taleplerini karşılayacak şekilde ölçeklenebilir hale getirecektir.’

(4) Gelecek Tasarımı: Bu nokta, yapay zeka altyapısı, özellikle çip tasarımı için ileriye dönük gereksinime karşılık gelir. ‘Günümüzün en son algoritmaları yarın eski olabilir.’ ‘İster yapay zeka sinir ağları ister Transformer tabanlı LLM modelleri olsun, yeni nesil bilgi işlem altyapısının uyarlanabilir olması ve işletmelerin teknoloji yatırımlarının yıllarca esnek kalmasını sağlaması gerekiyor.’

Bu öneriler, nispeten idealize edilmiş ancak düşündürücü bir perspektif sunuyor. Bu yol gösterici metodoloji, sektörde uzun süredir devam eden bazı doğal çelişkiler kalsa bile, yapay zeka ve HPC teknolojilerinin gelecekteki gelişimi için dikkate alınmalıdır. ‘Yapay zekanın, HPC’nin ve diğer gelecekteki bilgi işlem ve veri yoğun iş yüklerinin potansiyelini açığa çıkarmak için, altyapıyı yeniden düşünmeli ve inovasyonu ve öncüleri desteklemek için dinamik ve akıllı çözümleri benimsemeliyiz.’