Tag: Stepfun

Yeni Dikkat Mekanizması KV Önbellek Azaltma Adımı

Büyük dil modellerinin (LLM'ler) artan kullanımı ve çıkarımda yeni paradigmaların ortaya çıkması, verimli büyük ölçekli çıkarım zorluğunu ön plana çıkarmıştır. Önemli bir darboğaz, toplu iş boyutu ve dizi uzunluğuyla doğrusal olarak genişleyen ve LLM'lerin ölçeklenmesini ve genişlemesini engelleyen bir 'bellek canavarı' haline gelen geleneksel dikkat mekanizmalarındaki Anahtar-Değer (KV) önbelleğidir. MQA, GQA ve MLA gibi varyantlar bunu ele almak için ortaya çıkmış olsa da, genellikle katı bellek kısıtlamaları altında performansı korumakta zorlanırlar veya mühendislik zorlukları ve uyumluluk sorunları oluşturan karmaşıklıklar ortaya çıkarırlar. Stepes, Tsinghua Üniversitesi ve diğer kurumlardan araştırmacılar tarafından yakın zamanda yayınlanan bir makale, yeni bir dikkat mekanizması mimarisi sunmaktadır: Çok Matrisli Faktörizasyon Dikkat (MFA) ve varyantı MFA-Anahtar-Yeniden Kullanım (MFA-KR). Bu mekanizma, dil modeli çıkarımının maliyetini önemli ölçüde azaltırken aynı zamanda performansı da artırır. MFA ve MFA-KR, yalnızca MLA'yı performansta geçmekle kalmaz, aynı zamanda KV Önbellek kullanımını %93,7'ye kadar azaltırken geleneksel MHA performansıyla da eşleşir. MFA, basitlik, kolay reprodüksiyon, hiper parametrelere karşı düşük hassasiyet ve çeşitli Poz-gömme yöntemleriyle uyumluluk için tasarlanmıştır. Araştırma ekibi, dikkat mekanizmalarının genel tasarımını ve kapasitesini analiz ederek kapasiteyle ilgili iki kritik boyut belirledi. Bu analiz, yeni analitik yöntemlerin ve tasarım ilkelerinin geliştirilmesine yol açtı. Farklı MHA varyantlarını anlamak için birleştirici bir çerçeve olarak Genelleştirilmiş Çok Başlı Dikkat (GMHA) kavramını tanıttılar. Ekip ayrıca, bir çıkarım perspektifinden anahtar-değerlerin hesaplanmasını ve depolanmasını araştırdı ve model kapasitesini bir ayrışım perspektifinden inceledi. Tamamen Parametrelendirilmiş İkili Dikkat (FPBA), teorik performansın üst sınırı olarak belirlendi. MHA ve varyantlarının FPBA'nın düşük dereceli ayrışımları olduğunu buldular. Analiz, iki temsili iyileştirme şemasına odaklandı: Çoklu Sorgu Dikkat (MQA) ve Çok Başlı Gizli Dikkat (MLA). MQA, tüm dikkat başlıklarının aynı anahtar-değer parametreleri kümesini paylaştığı daha agresif bir parametre paylaşım stratejisi kullanır. Bu, bellek kullanımını azaltır, ancak modelin ifade gücünü etkileyebilir. MLA, parametre sıkıştırması için paylaşılan gizli bir alan sunar, ancak gerçek ifade gücü en küçük boyutla sınırlıdır, yani ara boyutları artırmak performansı önemli ölçüde artırmaz. MFA'nın geliştirilmesi, teorik performans sınırlarına yaklaşırken kaynak tüketimini en aza indiren bir dikkat mekanizması oluşturma hedefiyle yönlendirildi. MFA'nın tasarımında üç temel yenilik bulunmaktadır: 1. Model kapasitesini en üst düzeye çıkarmak için dikkat başlıklarının sayısını ve boyutunu önemli ölçüde artırmak. 2. Dikkat başlığı sayısını ve boyutlarını genişletirken parametre verimliliğini korumak için agresif bir düşük dereceli ayrışım stratejisi kullanmak. 3. Artan model karmaşıklığında bile bellek tüketimini minimumda tutmak için tek bir anahtar-değer başlığı tasarımı kullanmak. MFA ve diğer dikkat mekanizmalarını daha ayrıntılı analiz etmek için ekip iki temel metrik tanıttı: Toplam Etkili Derece (TER): Dikkat başlıklarının sayısı ile Başlık başına Faktörizasyon derecesinin (FRH) çarpımı. Paylaşılan Gizli Alt Uzay Boyutu (SLSD): Tüm dikkat başlıkları tarafından paylaşılan gizli uzayın boyutu. MFA, MQA'ya kıyasla daha yüksek SLSD ve TER elde eder. MLA ile karşılaştırıldığında, MFA benzer parametre bütçeleriyle daha küçük bir KV önbellek boyutu ve daha yüksek TER elde ederken, karşılaştırılabilir bir SLSD'yi korur. Geleneksel MHA ile karşılaştırıldığında, MFA'nın SLSD'si daha küçük olmasına rağmen daha yüksek bir TER'e sahiptir. Yeni mimarinin performansını daha büyük ölçeklerde değerlendirmek için 1B'den 7B'ye kadar parametreye ve 10B'den 1T'ye kadar eğitim verisine sahip modelleri test ederek kapsamlı deneyler yapıldı. MFA, geleneksel MHA ile karşılaştırılabilir ölçekleme yetenekleri göstererek daha büyük ölçeklerde bile mükemmel performansı korudu. MFA-KR biraz daha düşük performans gösterirken, ölçekleme eğilimi MHA ile aynı doğrultudaydı. MFA ve MFA-KR'nin bellek tasarrufu avantajları, model boyutuyla birlikte genişlemeye devam etti; MFA %87,5 bellek tasarrufu sağlarken MFA-KR en büyük ölçekte bellek kullanımını %6,25'e düşürdü. Ablasyon çalışmaları, MFA ve MFA-KR'nin etkinliğini doğruladı. Performans avantajları ayrıca çeşitli ana akım konumsal kodlama yöntemlerinde de doğrulandı. MFA, basit bir tasarımla önemli iyileştirmeler sunarak, ekstra mühendislik karmaşıklığı eklemeden LLM çıkarımındaki bellek darboğazını etkili bir şekilde ele almaktadır. Mevcut Transformer ekosistemine sorunsuz bir şekilde entegre olarak çeşitli senaryolarda LLM'lerin uygulamasını hızlandırır.

Yeni Dikkat Mekanizması KV Önbellek Azaltma Adımı