NVIDIA FFN Füzyonu ile LLM Verimliliği Artıyor

Modern Yapay Zekanın Hesaplamalı İp Cambazlığı

Büyük dil modelleri (LLM’ler), endüstrileri ve bilimsel keşifleri yeniden şekillendiren dikkat çekici yetenekler sergileyerek çağdaş yapay zekanın temel direkleri olarak durmaktadır. İnsan benzeri metin üretme, sofistike konuşma aracılarını güçlendirme ve hatta karmaşık araştırma görevlerine yardımcı olma konusundaki yeterlilikleri, onları vazgeçilmez araçlar haline getirmiştir. Bu güçlü modellerin kalbinde, dönüşümlü katmanlarıyla karakterize edilen bir tasarım olan transformer mimarisi atmaktadır. Token’lara ayrılan girdi verileri, farklı token’ların önemini tartan dikkat mekanizmaları (attention mechanisms) dizisinden akar, ardından elde edilen bilgiyi işleyen ileri beslemeli ağlar (feed-forward networks - FFN’ler) gelir. Bu katmanlı, sıralı işleme, transformer’ların nasıl öğrendiği ve çıktı ürettiğinin temelini oluşturur.

Ancak, etkili olmasına rağmen bu mimari, modeller boyut ve karmaşıklık açısından büyüdükçe artan bir zorluk sunmaktadır. Sıralı doğa, genellikle her katmanın hesaplamasına başlamadan önce bir önceki katmanın tamamlanmasını beklemesi gerektiği anlamına gelir. Bu adım adım işleme, özellikle çıkarım (inference) aşamasında – eğitilmiş bir modelin tahminler veya metin üretmek için fiilen kullanıldığı aşamada – doğal bir darboğaz yaratır. Gelişmiş yapay zeka asistanlarını güçlendirenler gibi modeller yüz milyarlarca, hatta trilyonlarca parametre içerdiğinden, çıkarım için gereken hesaplama kaynakları ve süre önemli ölçüde artar. Bu artan talep, önemli gecikme (latency - yanıtta gecikme), azaltılmış iş hacmi (throughput - zaman içinde işlenen istek sayısı) ve artan işletme maliyetleri anlamına gelir ve en güçlü LLM’lerin yaygın dağıtımını ve gerçek zamanlı uygulamasını engeller. Sonuç olarak, çıkarım verimliliğini artırmak, yapay zeka araştırma topluluğu içinde en önemli endişelerden biri haline gelmiş ve bu modellerin sunduğu dikkat çekici performanstan ödün vermeden hesaplamayı kolaylaştırabilecek yenilikçi stratejiler arayışını teşvik etmiştir. Temel zorluk, özellikle hesaplamaların birden fazla GPU’ya yayıldığı ve işlem süresine iletişim ek yükü eklediği dağıtılmış ortamlarda, sıralı yürütmenin getirdiği kısıtlamaları azaltmaktır.

Optimizasyon Alanında Yön Bulma: Mevcut Araçlar ve Sınırları

LLM’leri daha yalın ve hızlı hale getirme çabası sürerken, araştırmacılar bir optimizasyon teknikleri araç seti geliştirdiler. Her biri verimliliğe giden bir yol sunar, ancak genellikle kendi ödünleşimleriyle birlikte gelir ve tek bir yöntemin evrensel bir çözüm olmasını engeller. Bu ödünleşimleri anlamak, FFN Fusion gibi yeni yaklaşımlara duyulan ihtiyacı takdir etmek için çok önemlidir.

Öne çıkan tekniklerden biri kuantizasyondur (quantization). Bu, modelin ağırlıklarını ve aktivasyonlarını temsil etmek için kullanılan sayısal hassasiyeti azaltmayı içerir. Standart 32-bit kayan nokta sayıları yerine, modeller 16-bit, 8-bit veya hatta daha düşük bit temsilleri kullanabilir. Bu, modelin bellek ayak izini doğrudan küçültür ve daha düşük hassasiyetli sayılar üzerindeki işlemler tipik olarak daha hızlı olduğundan ve daha az enerji gerektirdiğinden hesaplamaları önemli ölçüde hızlandırabilir. Ancak, kuantizasyon risksiz değildir. Hassasiyeti azaltmak bilgi kaybına yol açabilir ve potansiyel olarak modelin doğruluğunu düşürebilir. Bu risk, çok düşük bit genişliklerinde daha belirgin hale gelir ve doğruluk düşüşlerini azaltmak için dikkatli uygulama ve bazen yeniden eğitim gerektirir. Zorluk, performans düşüşünü kabul edilebilir sınırlar içinde tutarken verimlilik kazanımlarını en üst düzeye çıkaran tatlı noktayı bulmaktır.

Bir diğer yaygın strateji budamadır (pruning). Bu teknik, büyük bir sinir ağı içindeki birçok parametrenin gereksiz olabileceği veya nihai çıktıya minimum düzeyde katkıda bulunabileceği ilkesine göre çalışır. Budama algoritmaları, bu daha az önemli bağlantıları veya nöronları tanımlar ve kaldırır, bu da daha küçük, daha seyrek bir modelle sonuçlanır. Kuantizasyon gibi, budama da bellek gereksinimlerini ve hesaplama yükünü azaltır. Ancak, tam olarak hangi parametrelerin kaldırılmasının ‘güvenli’ olduğunu belirlemek karmaşıktır. Agresif budama, istemeden kritik bileşenleri kaldırabilir ve önemli doğruluk kaybına yol açabilir. Performansı geri kazanmak için budamadan sonra modeli ince ayarlamak genellikle gereklidir ve bu da iş akışına karmaşıklık katar. Budanmış modelin etkili kalmasını sağlamak için dikkatli kalibrasyon esastır.

Mimari olarak daha farklı bir yaklaşım Uzmanlar Karışımı (Mixture-of-Experts - MoE) modelidir. Her girdiyi tüm ağ üzerinden işlemek yerine, MoE modelleri birden fazla ‘uzman’ alt ağdan (tipik olarak FFN’ler) oluşur. Her girdi token’ı için, bir geçit mekanizması (gating mechanism) dinamik olarak bu uzmanların küçük bir alt kümesini hesaplamayı yapmak üzere seçer. Bu koşullu hesaplama, herhangi bir girdi için modelin toplam parametrelerinin yalnızca bir kısmının etkinleştirildiği anlamına gelir ve özellikle çok büyük modellerde eğitim ve çıkarım sırasında önemli hesaplama tasarrufu sağlar. MoE modelleri, makul hesaplama maliyetlerini korurken trilyonlarca parametreye ölçeklenebilir. Ancak, verimlilikleri büyük ölçüde iş yüküne bağlıdır. Seçici aktivasyon modelinin iyi donanım kullanımına yol açtığı çok büyük toplu iş boyutlarını (batch sizes) işlemede üstündürler. Daha küçük veya orta toplu iş boyutlarında, MoE modelleri hesaplama kaynaklarının yetersiz kullanımından muzdarip olabilir, çünkü paralel donanım seyrek olarak etkinleştirilen uzmanlar tarafından sürekli meşgul tutulamayabilir. Ayrıca, MoE modellerini uygulamak ve yük dengelemek, standart ‘yoğun’ (dense) mimarileri dağıtmaktan daha karmaşık olabilir.

Kuantizasyon, budama ve MoE modelleri LLM optimizasyonunda değerli ilerlemeleri temsil etse de, doğal sınırlamaları alternatif veya tamamlayıcı stratejilere duyulan ihtiyacı vurgulamaktadır. Özellikle eğitim ve dağıtımda göreceli basitlikleri nedeniyle popülerliğini koruyan yoğun model mimarileri için, ideal olarak doğruluğa veya uygulama karmaşıklığına daha az ödün vererek çeşitli senaryolarda geniş verimlilik iyileştirmeleri sağlayabilen yöntemler arayışı devam etmektedir.

FFN Füzyonu: Transformatörlerde Paralelliği Yeniden Düşünmek

Bu optimizasyon teknikleri ortamının ortasında, NVIDIA’daki araştırmacılar FFN Fusion olarak adlandırılan ilgi çekici yeni bir yaklaşım sundular. Bu teknik, transformer mimarisinin doğasında bulunan sıralı darboğaza, parametreleri değiştirerek veya parçaları seçici olarak etkinleştirerek değil, hesaplama dizilerinin nasıl paralelleştirilebileceğini temelden yeniden düşünerek doğrudan karşı koyar. Yenilik, derin transformer modelleri içindeki FFN katmanlarının davranışıyla ilgili önemli bir gözlemden kaynaklanmaktadır.

Puzzle adlı bir teşhis aracı kullanarak, araştırmacılar büyük modellerin iç işleyişini analiz ettiler. Deneysel olarak dikkat katmanlarını (attention layers) kaldırdıklarında, modellerin genellikle şaşırtıcı derecede uzun ardışık FFN katman dizilerini koruduğunu fark ettiler. Daha da önemlisi, analizler bu bitişik FFN’ler tarafından gerçekleştirilen hesaplamaların sıklıkla minimum düzeyde karşılıklı bağımlılık sergilediğini ortaya koydu. Özünde, dizideki bir FFN’nin çıktısı, genellikle hemen ardından gelen FFN’nin ihtiyaç duyduğu yönlü yolu veya temel bilgiyi büyük ölçüde değiştirmiyordu. Bu, geleneksel olarak birbiri ardına yürütülen bu FFN’lerin, modelin genel işlevini önemli ölçüde bozmadan eş zamanlı, paralel yürütme potansiyeline sahip olabileceğini düşündürdü.

Bu içgörü, FFN Fusion’ın temelini oluşturdu. Temel fikir zarif bir şekilde basit ama güçlüdür: düşük hesaplama bağımlılığına sahip ardışık FFN katman dizilerini belirlemek ve bunları eşdeğer hesaplamayı paralel olarak gerçekleştiren tek, daha geniş bir FFN katmanında birleştirmek. Girdi -> FFN1 -> FFN2 -> FFN3 -> Çıktı gibi bir zincir yerine, birleştirilmiş yapı Girdi -> Birleştirilmiş_FFN (Paralel olarak FFN1+FFN2+FFN3'e Eşdeğer) -> Çıktı haline gelir. Bu mimari dönüşüm, ağın sıralı derinliğini etkili bir şekilde kısaltır ve birden çok adımı tek, daha geniş bir hesaplama adımıyla değiştirir. Bu düşük bağımlılıklı FFN dizilerini hedefleyerek, FFN Fusion, modelin temsil gücünü ve doğruluğunu korurken gecikmeyi ve hesaplama maliyetini azaltmayı amaçlar. Llama-3.1-405B-Instruct’tan Ultra-253B-Base’in geliştirilmesi, bu tekniğin potansiyelinin başlıca göstergesi olarak hizmet etti.

Mimari Simya: FFN Füzyonu Nasıl Çalışır?

FFN Fusion’ın arkasındaki sihir, ileri beslemeli ağların temel matematiksel yapısını akıllıca manipüle etmesinde yatar. Bu sadece mevcut katmanları yan yana çalıştırmakla ilgili değildir; orijinal dizinin kolektif davranışını kopyalayan ancak bunu eş zamanlı olarak yapan yeni, birleşik bir katman oluşturmayı içerir.

k adet ardışık FFN katmanından oluşan bir dizi düşünün. Standart bir transformer’da, girdi x, FFN1‘den geçer, çıktısı FFN2 için girdi olur ve FFNk‘ya kadar bu şekilde devam eder. Her adım, bir öncekinin tamamlanmasına açıkça bağlıdır. FFN Fusion bu bağımlılık zincirini kırar. Matematiksel olarak, bir FFN tipik olarak arada doğrusal olmayan bir aktivasyon fonksiyonu (GeLU veya SwiGLU gibi) bulunan iki doğrusal dönüşüm içerir: FFN(x) = W_out * Aktivasyon(W_in * x). FFN Fusion, doğrusal dönüşümlerin genellikle birleştirilebileceği gerçeğinden yararlanır.

Füzyon süreci, bireysel FFN katmanlarının ağırlıklarını birleştirerek (concatenating) çalışır. Spesifik olarak, ardışık FFN’lerin girdi ağırlık matrisleri (W_in), birleştirilmiş katman için tek, daha büyük bir girdi ağırlık matrisine (örneğin, blok-diyagonal olarak) birleştirilir. Benzer şekilde, çıktı ağırlık matrisleri (W_out) tek, daha geniş bir çıktı ağırlık matrisi oluşturmak üzere birleştirilir. Aktivasyon fonksiyonu, bu daha büyük yapı içinde eleman bazında uygulanır. Bu yapı, birleştirilmiş FFN’nin orijinal girdi x üzerinde, orijinal FFN’lere karşılık gelen paralel yollar boyunca eş zamanlı olarak çalışmasını sağlar. Bu paralel yollardan gelen çıktılar daha sonra birleştirilmiş çıktı ağırlıklarının yapısı tarafından örtük olarak toplanır.

Teorik temel, bu birleştirilmiş yapının, orijinal katmanlar arasındaki bağımlılıkların gerçekten düşük olması koşuluyla, orijinal FFN dizisiyle aynı temsil kapasitesini koruyabildiğini doğrular. Anahtar, füzyon için hangi dizilerin uygun olduğunu belirlemektir. Bunu sistematik olarak yapmak için, NVIDIA araştırmacıları bir bağımlılık analizi tekniği kullandılar. Temsili bir girdi token’ları kümesi için ardışık FFN katmanlarının çıktı gizli durumları arasındaki kosinüs mesafesini (cosine distance) ölçtüler. Küçük bir kosinüs mesafesi, bir FFN’nin çıktı vektörünün, dizideki bir sonraki FFN’nin çıktı vektörüyle çok benzer bir yöne işaret ettiğini gösterir. Bu benzerlik, düşük fonksiyonel bağımlılık olduğunu düşündürür – ikinci FFN, birincisi tarafından kurulan bilgi temsilini büyük ölçüde değiştirmiyordur. Katmanlar arasında tutarlı olarak düşük kosinüs mesafeleri sergileyen FFN dizileri, birleştirilmelerinin modelin öğrenilmiş temsillerini ve genel performansını bozma olasılığı daha düşük olduğundan, füzyon için başlıca adaylar olarak belirlendi. Bu veriye dayalı yaklaşım, FFN Fusion’ın modelin en etkili ve en az yıkıcı olacağı kısımlarına hedeflenmiş olarak uygulanmasına olanak tanır.

Devden Sprinter’a: Ultra-253B-Base Dönüşümü

FFN Fusion’ın pratik gücü, o zamanlar halka açık en büyük modellerden biri olan Llama-3.1-405B-Instruct’a uygulanmasıyla canlı bir şekilde gösterildi. 405 milyar parametreye sahip bu model, çıkarım için önemli bir hesaplama yükünü temsil ediyordu. Araştırmacılar, Ultra-253B-Base olarak adlandırılan yeni, daha verimli bir model oluşturmak için FFN Fusion’ı stratejik budama ile birleştiren bir mimari iyileştirme sürecine giriştiler.

Dönüşüm süreci birkaç adım içeriyordu:

  1. Analiz: Bağımlılık analizi araçlarını (kosinüs mesafelerini ölçerek) kullanarak, araştırmacılar Llama-405B mimarisi içinde katmanlar arası düşük bağımlılık sergileyen ardışık FFN katman dizilerini belirlediler.
  2. Füzyon: Bu belirlenen FFN dizileri daha sonra daha önce açıklandığı gibi (ağırlıkları birleştirerek) tek, daha geniş FFN katmanlarına birleştirildi. Bu, ağdaki sıralı adımların sayısını doğrudan azalttı.
  3. Budama: Eş zamanlı olarak veya sonrasında, daha az kritik olduğu düşünülen parametreler (potansiyel olarak standart budama teknikleriyle veya füzyon sürecinden elde edilen bilgilerle belirlenen) modelden kaldırıldı.

Bu birleşik yaklaşım, 253 milyar parametreye sahip Ultra-253B-Base modeliyle sonuçlandı. Bu, orijinal 405B modelinden %37’den fazla daha az parametre ile önemli bir azalmayı temsil etmektedir. Füzyon yoluyla elde edilen mimari değişiklikler, performansı korumayı hedeflerken böylesine önemli bir boyut küçültmeyi mümkün kılmanın anahtarıydı. Amaç sadece daha küçük bir model değil, FFN Fusion tarafından açığa çıkarılan artırılmış paralellik sayesinde temelden daha hızlı ve hesaplama açısından daha tutumlu bir modeldi. Bu vaka çalışması, büyük ölçekli modellerin verimlilik için önemli ölçüde yeniden yapılandırılabileceğini gösteren kritik bir kavram kanıtı olarak hizmet etti.

Kazanımları Ölçme: Performans, Hız ve Kaynak Tasarrufu

Herhangi bir optimizasyon tekniğinin gerçek testi, ölçülebilir etkisinde yatar. Ultra-253B-Base için, FFN Fusion ve budamanın Llama-405B tabanına uygulanmasından elde edilen sonuçlar etkileyiciydi ve yeteneklerde önemli ödünler vermeden birden fazla boyutta önemli iyileştirmeler gösterdi.

Çıkarım Hızı ve Maliyeti: En çarpıcı kazanımlar çıkarım verimliliğinde gözlendi. Orijinal 405B parametreli modelle karşılaştırıldığında, Ultra-253B-Base şunları başardı:

  • Çıkarım gecikmesinde (latency) 1.71 kat iyileşme. Bu, modelin yanıtları önemli ölçüde daha hızlı üretebildiği anlamına gelir ki bu gerçek zamanlı uygulamalar için kritiktir.
  • 32’lik bir toplu iş boyutunda (batch size) ölçüldüğünde token başına hesaplama maliyetinde 35 kat azalma. Token başına hesaplama işlemlerindeki (FLOPs) bu dramatik düşüş, doğrudan daha düşük enerji tüketimi ve modeli sunmak için azaltılmış donanım gereksinimleri anlamına gelir.

Model Performans Karşılaştırmaları: Kritik olarak, bu verimlilik iyileştirmeleri modelin zekası veya yetenekleri pahasına gelmedi. Ultra-253B-Base, standart LLM karşılaştırma ölçütleri paketinde titizlikle değerlendirildi ve orijinal, çok daha büyük modelle oldukça rekabetçi ve bazı durumlarda onu aşan puanlar elde etti:

  • MMLU (Massive Multitask Language Understanding): %85.17
  • MMLU-Pro (Daha zorlu bir versiyon): %72.25
  • Arena Hard (Zor istemlerde insan tercihi değerlendirmesi): %84.92
  • HumanEval (Kod üretme yeteneği): %86.58
  • MT-Bench (Çok turlu konuşma kalitesi): 9.19

Bu puanlar, birleştirilmiş ve budanmış modelin, yalnızca 253 milyar parametreye sahip olmasına rağmen 405B parametreli atasına kıyasla çok yüksek düzeyde anlama, akıl yürütme, kodlama yeteneği ve konuşma kalitesini koruduğunu göstermektedir.

Bellek Verimliliği: Hesaplama hızı ve maliyetinin ötesinde, FFN Fusion bellek tasarrufuna da katkıda bulundu. Mimari değişiklikler, potansiyel olarak füzyonun sağladığı diğer optimizasyonlarla birleştiğinde, çıkarım sırasında gereken anahtar-değer (key-value - KV) önbelleğinin boyutunda 2 kat azalmaya yol açtı. KV önbelleği, ara aktivasyonları (dikkat anahtarları ve değerleri) depolar ve özellikle uzun girdi dizileri için önemli miktarda GPU belleği tüketebilir. Bu gereksinimi yarıya indirmek, modeli daha az bellek yoğun donanımda çalıştırmayı veya aynı bellek kısıtlamaları dahilinde daha uzun bağlamları işlemeyi mümkün kılar.

Bu ölçülebilir sonuçlar, FFN Fusion’ın etkinliğinin altını çizmektedir. Sadece daha küçük değil, aynı zamanda hız, hesaplama işlemleri ve bellek kullanımı açısından temelden daha verimli olan ve tüm bunları zorlu karşılaştırma ölçütlerinde üst düzey performansı korurken başaran bir modelin yaratılmasına olanak sağlamıştır.

Bilgiyi Koruma: Eğitim ve İnce Ayarın Kritik Rolü

Llama-405B gibi devasa, önceden eğitilmiş bir dil modelini FFN Fusion ve budama gibi tekniklerle mimari olarak değiştirmek, kaçınılmaz olarak öğrenilmiş parametrelerinin hassas dengesini bozar. Matematiksel eşdeğerlik işlevi yerel olarak korumayı amaçlasa da, ağın küresel davranışı değişebilir. Ortaya çıkan Ultra-253B-Base modelinin yalnızca daha verimli hale gelmesini değil, aynı zamanda yüksek performans seviyesini de korumasını sağlamak için, dikkatlice düzenlenmiş bir modifikasyon sonrası eğitim süreci gerekliydi.

Bu süreç iki ana aşamayı içeriyordu:

  1. Bilgi Damıtma (Knowledge Distillation): İlk adım, orijinal, daha büyük modelden (veya uygun bir öğretmen modelden) bilgiyi değiştirilmiş mimariye geri aktarmaktı. Bu, Ultra-253B-Base modelinin öğretmen modelin çıktılarını veya iç temsillerini taklit etmek üzere eğitildiği damıtma yoluyla başarıldı. Bu aşama, özellikle 8k bağlam penceresi (context window) ile işlenen 54 milyar token’lık önemli bir veri kümesini kullandı. Damıtma, birleştirilmiş ve budanmış modelin mimari değişiklikler sırasında hafifçe bozulmuş olabilecek nüansları ve yetenekleri yeniden yakalamasına yardımcı olur.

  2. Aşamalı İnce Ayar (Staged Fine-Tuning): Damıtmayı takiben, model, giderek artan uzunluktaki bağlam uzunluklarını ele almaya uyarlamak için özel olarak tasarlanmış bir dizi ince ayar aşamasından geçti. Bu, genellikle kapsamlı girdilere dayalı olarak metin işlemesi ve üretmesi beklenen modern LLM’ler için çok önemlidir. İnce ayar aşamalar halinde ilerledi:

    • 16k bağlam penceresinde ince ayar.
    • 32k bağlam penceresinde daha fazla ince ayar.
    • 128k bağlam penceresinde son ince ayar aşaması.

Bu aşamalı yaklaşım, modelin yeni oluşturulan birleştirilmiş FFN katmanları ve optimize edilmiş KV önbellek mekanizmaları da dahil olmak üzere parametrelerini çok uzun diziler üzerinde bağımlılıkları ve bilgi akışını etkili bir şekilde yönetmek için kademeli olarak uyarlamasına olanak tanır. Her aşama bir öncekinin üzerine inşa edilir ve farklı bağlam boyutlarında kararlılık ve sağlam performans sağlar.

Büyük ölçekli damıtmayı aşamalı, uzun bağlamlı ince ayarla birleştiren bu titiz eğitim rejimi, mimari verimlilik ile yüksek doğruluklu performans arasındaki boşluğu kapatmada etkili oldu. FFN Fusion tarafından sağlanan hız, maliyet ve bellek avantajlarının, modelin zorlu karşılaştırma ölçütlerindeki doğruluğunu ve yeteneklerini tehlikeye atmamasını sağladı.

Daha Geniş Ufuklar: Genellenebilirlik ve Gelecek Yönelimleri

Llama-405B’nin Ultra-253B-Base’e başarılı dönüşümü, FFN Fusion’ın potansiyeli için güçlü kanıtlar sunar, ancak gerçek değeri daha geniş uygulanabilirliğinde ve gelecekteki LLM tasarımı için sunduğu içgörülerde yatmaktadır. Araştırma, bunun yalnızca devasa modellere uygulanabilen tek seferlik bir numara olmadığınıgösterdi.

Ölçekler Arası Doğrulama: NVIDIA araştırmacıları, FFN Fusion metodolojisini farklı boyutlardaki modeller üzerinde açıkça test ettiler. Tekniği 70B parametreli modellere başarıyla uygulayarak, orijinal muadillerine göre benzer verimlilik kazanımları elde ettiler. Ayrıca 49B ölçeğinde doğrulamayı da bildirdiler, bu da FFN bağımsızlığının ve füzyon potansiyelinin yalnızca en büyük modellerin özel özellikleri olmadığını, ancak transformer mimarisinin daha genel bir özelliği olabileceğini ve daha derin FFN dizilerinin doğal olarak meydana geldiği daha büyük ölçeklerde potansiyel olarak daha belirgin hale gelebileceğini pekiştirdi. Bu, FFN Fusion’ın çeşitli model boyutlarında uygulanabilen LLM optimizasyon cephaneliğinde standart bir araç haline gelebileceğini düşündürmektedir.

FFN vs. Tam Blok Füzyonu: Araştırma ayrıca, transformer bloğu içindeki dikkat katmanlarına kıyasla FFN katmanlarının özel rolüne de ışık tuttu. Ardışık FFN katmanları genellikle düşük bağımlılık göstererek füzyon için ideal hale gelirken, tüm transformer bloklarını (hem dikkat hem de FFN katmanları dahil) paralelleştirme girişimleri daha zorlayıcı oldu. Analiz, dikkat mekanizmalarını içeren daha güçlü karşılıklı bağımlılıklar olduğunu gösterdi. Tüm blokları aynı anda birleştirmek, daha önemli performans düşüşüyle sonuçlandı ve dikkat katmanlarının token’lar arasında bilgiyi entegre etmede daha kritik, sıralı olarak bağımlı bir rol oynadığını düşündürdü. Bu bulgu, etkili paralelleştirmenin sınırlarını çizmeye yardımcı olur – FFN dizileri verimli bir zemindir, dikkat mekanizmaları ise farklı optimizasyon stratejileri gerektirebilir.

LLM Mimarisi İçin Etkileri: FFN Fusion, yalnızca sonradan uygulanan bir optimizasyon tekniğinden daha fazlasını sunar; gelecekteki LLM’leri tasarlamak için değerli içgörüler sağlar. FFN dizilerinin genellikle paralelleştirilebilir birimler olarak ele alınabileceğinin keşfi, genellikle transformer tasarımının temelini oluşturan katı sıralı varsayıma meydan okur. Bu, başlangıçtan itibaren doğası gereği daha paralel dostu olan yeni mimarilere ilham verebilir. Gelecekteki modeller, açıkça füzyon veya paralel yürütme için tasarlanmış FFN yapılarıyla tasarlanabilir ve potansiyel olarak GPU mimarilerinin bu tür paralellikten yararlanmak için daha da optimize edildiği donanım-yazılım ortak tasarımına yol açabilir. Katmanlar arası bağımlılığı ölçmek için kosinüs mesafesini kullanan sistematik yöntem, sinir ağı yapılarını anlamak ve yeniden tasarlamak için de değerli bir analitik araç sağlar. Mevcut bileşenleri paralelleştirmeye odaklanan düşünceli mimari yeniden tasarımla önemli verimlilik kazanımlarının mümkün olduğunu göstererek, FFN Fusion hem güçlü hem de hesaplama açısından daha sürdürülebilir LLM’ler geliştirmenin yolunu açar. En son yapay zekanın artan kaynak taleplerini azaltmaya yönelik bir yol haritası vurgulamaktadır.