MiniMax'ın Doğrusal Dikkat Bahsi: Zhong Yiran Röportajı

Transformer mimarisi şu anda üretken yapay zeka alanına hakim olsa da, sınırlamaları bulunmaktadır ve yeni rakipler ortaya çıkmaktadır. Doğrusal dikkat mekanizmalarını cesurca benimseyen ve benzeri görülmemiş 456 milyar parametreye genişleyen MiniMax-01, açık kaynak topluluğunda bu türden bir devrimci olarak öne çıkmaktadır. Bu hem teknolojik bir kumar hem de mimari yenilikte potansiyel bir kilometre taşıdır.

Bu röportajda, doğrusal dikkatin laboratuvardan endüstriyel sınıf büyük modellere olan yolculuğunu ve model mimarisi hakkındaki düşüncelerini ve içgörülerini keşfetmek için MiniMax-01 Mimari Başkanı Zhong Yiran ile konuşuyoruz.

Ana Akım Olmayan Teknik Bir Yolda Öncü

Kendinizi kısaca tanıtabilir misiniz?

Ben Zhong Yiran, MiniMax’ta Kıdemli Araştırma Direktörü olarak çalışıyorum ve öncelikle ağ mimarilerinin tasarımı ve çok modlu anlama büyük modellerini denetliyorum. MiniMax’ta ana sorumluluğum MiniMax-01 ağ yapısının tasarımına liderlik etmektir.

Daha önce, Şangay Yapay Zeka Laboratuvarı’nda Yeni Mimari Keşif Grubu için bir PI olarak görev yaptım ve transformer olmayan mimariler için verimli eğitim modelleme yöntemlerine ve görsel-işitsel-dil çok modlu füzyon araştırmalarına odaklandım.

Doğrusal dikkat araştırmasına ne zaman başladınız ve neden bu teknik yolu seçtiniz?

Doğrusal dikkat araştırmasına yaklaşık Temmuz 2021’de başladım. Bu, 2020’de doktora tezim için çalıştığım ‘Tersine Çevrilebilir Dikkat’ başlıklı bir makaleden kaynaklandı. O zamanlar, hem tersine çevrilebilir sinir ağları hem de dikkat mekanizmaları oldukça popülerdi, bu yüzden araştırmamızda bunları birleştirdik.

Daha sonra, ekibimizin bazı üyeleri matematikle çok ilgilenmeye başladı. Doğrusal dikkat gibi verimli sıralı modelleme yöntemleri güçlü bir matematiksel temel gerektirir ve ekibin ilgi alanlarıyla mükemmel bir şekilde örtüşen çok sayıda formül türetme içerir, bu yüzden bu yönü seçtik.

O zamanlar sektörde doğrusal dikkatin durumu neydi?

Çok ana akım dışıydı, üzerinde çalışan çok az kişi vardı. Çoğu araştırmacı, NLP’de esasen baskın güç haline gelmiş olan transformer’lara odaklanmıştı.

Transformer araştırması yapan kalabalığın içinde sadece bir yüz olmak yerine, farklı bir şey yapmamız gerektiğini düşündük.

Doğrusal dikkat yolunun teknik potansiyelini nasıl değerlendirdiniz?

İlk motivasyonumuz basitti: transformer’ların ikinci dereceden hesaplama karmaşıklığını ele almak. Seyrek transformer’lar ve doğrusal dikkat dahil olmak üzere çeşitli yöntemleri test ettik.

Seyrek transformer’ların işe yaradığını, transformer’lara kıyasla daha yüksek hız ve daha düşük bellek kullanımı sunduğunu gördük. Ancak, doğrusal dikkat kötü performans gösterdi ve aynı zamanda yavaştı. Buna rağmen, doğrusal dikkati takip etmeyi seçtik.

Bunun bir nedeni, matematiksel çekiciliğiydi - performansının daha iyi olması gerektiğine inanıyorduk. Diğeri ise, seyrek dikkatin üst sınırının tam dikkat olduğunu ve aşmanın zor olduğunu hissetmemizdi. Öte yandan, doğrusal dikkat bunu aşma potansiyeline sahipti.

Doğrusal dikkatin ne olduğunu açıklayabilir misiniz?

Doğrusal dikkat esasen bir çekirdek hilesidir. Transformer’larda, Q, K ve V matrislerinin çarpılması, farklı boyutlar nedeniyle önce QK’yı mı yoksa KV’yi mi çarptığınıza bağlı olarak farklı hesaplama karmaşıklıklarını içerir.

Önce KV’yi çarpmak, hesaplama karmaşıklığını lineere indirebilir. Ancak sorun şu ki, QK çarpımını, değişme özelliğini sağlamayan ve önce KV ile çarpmaya kolayca bölünemeyen bir softmax işlemi izlemektedir. Bu nedenle, doğrusal dikkatteki ilk adım softmax’ı kaldırmaktır.

Ancak softmax’ı kaldırmak sonuçları etkiler. Sonraki görev, softmax olmadan sonuçlarda tutarlılığı korumaktır, doğrusal dikkatin amacı da budur.

Doğrusal dikkat, seyrek dikkat ve doğrusal RNN mimarileri arasındaki temel farklar nelerdir?

Seyrek dikkat hala esasen bir softmax dikkatidir. Sadece yoğun bir dikkat matrisinden daha az nokta hesaplar. Örneğin, kayan pencere dikkati yalnızca bir pencere içindeki dikkat skorunu hesaplar ve hesaplama miktarını azaltarak hızlandırma sağlar.

Doğrusal RNN’ler ve doğrusal dikkat esasen aynı şeydir, sadece bazıları RNN, bazıları ise dikkat olarak adlandırır.

Her şey RNN şeklinde yazılabilir. Örneğin, şimşek dikkati RWKV-4’e karşılık gelirken, RWKV-7 geçitli delta net’in geliştirilmiş bir versiyonudur. Özünde benzer olsalar da, uygulama detayları farklılık gösterir.

Doğrusal dikkat mekanizmalarının araştırmasındaki kilit kilometre taşları nelerdir?

Yaklaşık 2018-19’da, araştırmalar transformer softmax dikkatinin teorik hesaplama karmaşıklığının çekirdek hileleri kullanılarak azaltılabileceğini gösterdi, ancak sonuçlar zayıftı ve verimlilik düşüktü.

2019-20’de, Google gibi şirketlerin birçok seyrek dikkat varyantı önermesiyle seyrek dikkat baskındı. Daha sonra, doğrusal dikkat ortaya çıkmaya başladı, ancak zayıf performans ve düşük hız zorluğuyla karşılaştı.

Araştırmacılar ağırlıklı olarak iyileştirme içiniki yaklaşım benimsediler: biri, dağılımı softmax’a uygun hale getirerek softmax fonksiyonunu yaklaştırmaktı; diğeri ise, softmax’ı yaklaştırmakla ilgilenmeden tamamen farklı yöntemler kullanarak modellemekti, biz de bunu seçtik.

Softmax işlemini bir kosinüs fonksiyonuyla değiştiren ve hesaplamanın bölünmesine izin veren ilk makalemiz olan ‘COSFORMER: DİKKATTE SOFTMAX’I YENİDEN DÜŞÜNME’, Ekim 2021’de yayınlandı.

2022’nin ilk yarısında, doğrusal dikkatin performans düşüşünün nedenlerini analiz eden ve çözümler sunan ikinci bir makale olan ‘Doğrusal Transformer’daki Şeytan’ı yayınladık. Bu, şimşek dikkatine öncü oldu.

Daha sonra, doğrusal dikkat ve uzun kıvrımlar için özel olarak konum kodlamalarını araştırdık ve S4’e (Mamba’nın öncüsü) benzer bir yöntem olan TNN, ‘SIRALI MODELLEME İÇİN TOEPLITZ SİNİR AĞI’ yayınladık.

Son olarak, gelişmiş çürüme yöntemleri ve ağ yapıları aracılığıyla transformer’ların performansıyla eşleşen şimşek dikkatini başlattık. Ayrıca, onu daha hızlı hale getirmek için bir döşeme tekniği kullandık.

Mevcut transformer olmayan mimari teknik yolları hakkındaki düşünceleriniz nelerdir?

Doğrusal dikkat aslında transformer olmayan bir yöntemdir. Şu anda, RNN benzeri yaklaşımların yanı sıra, diğer transformer olmayan mimariler de düşüşte.

Örneğin, uzun kıvrımlar ve büyük çekirdek kıvrımları gibi CNN’ler, zayıf performans nedeniyle yavaş yavaş ortadan kaldırılmış gibi hissediliyor, ancak aslında belirli açılardan oldukça güçlüler ve anomali tespiti görevleri gibi sıralı modellemede hala bir miktar etkileri var.

Aslında sadece üç transformer olmayan mimari var: doğrusal dikkat, uzun kıvrımlar ve doğrusal RNN’ler.

Ancak gerçekte, bu üçü tek bir şeyde birleştirilebilir, buna doğrusal karmaşıklık modeli diyoruz. Üçünü de kapsayan bir makale yazdık.

Şimşek dikkati ile Mamba ve RWKV arasındaki temel farklar nelerdir?

En temel fark, şimşek dikkatinin en basit doğrusal dikkat olmasıdır. Mamba ve RWKV her ikisi de veriye bağlı çürüme kullanırken, şimşek dikkati hız için el yapımı çürüme kullanır.

Öğrenilebilir çürüme daha iyi sonuçlar elde edebilse de, hızdan ödün verir. Örneğin, RWKV-7 geçitli delta net’ten %10-15 daha yavaşken, geçitli delta net şimşek dikkatinin yaklaşık yarısı hızındadır.

RWKV’nin modelleme etkisi aslında şimşek dikkatinden daha iyidir, ancak daha yavaştır ve henüz geri alma sorununu çözmemiştir.

Doğrusal dikkatin yüksek ve uygulanabilir bir üst sınıra sahip olduğu artık sektörde bir fikir birliği mi?

Hayır, eğer fikir birliği olsaydı, herkes doğrusal dikkat modellerini ölçeklendiriyor olurdu. Ve şimdi de fikir birliği değil. Eğer olsaydı, herkes doğrusal yapardı, ama gördüğünüz gibi, durum böyle değil.

Ancak bizim için bunu zaten 2023’ün ikinci yarısında gördük. O zamanlar, birçok kişiye sordum ve konuştum ve en yaygın olarak dile getirdikleri nokta, doğrusal dikkatin küçük ölçekte işe yaradığını bildikleri, ancak ölçeklendirildiğinde başarısız olacağını hissettikleriydi.

O zaman, bunu herkesin görmesi için ölçeklendireceğimi düşündüm. MiniMax-01 çıktıktan sonra, kimse doğrusal dikkatin büyük ölçekteki yeteneğinden şüphe duymuyor.

Küçük Deneylerden Büyük Ölçekli Uygulamaya

Doğrusal dikkatin üst sınırının tam dikkati aşabileceğini düşünüyor musunuz?

Artık hibrit mimarilerin saf transformer’lardan daha iyi olduğunu görebiliyoruz. Ancak saf doğrusal dikkatle ilgili en büyük sorun, geri alma yeteneğidir ve bu, akademinin çözmesi zor bir sorundur.

Mevcut yöntemler, karmaşık ve yavaş olsa da, yine de tamamen çözemez, bu nedenle hibrit mimarilere doğru ilerlemek gereklidir.

Laboratuvardan çıkmaya karar vermenize neden olan hangi düğümü gözlemlediniz?

Mayıs-Haziran 2023’te, zaten dahili olarak dünyanın Flash dikkatinden daha hızlı olan ilk doğrusal dikkat uygulaması olan şimşek dikkati 2’ye sahiptik.

Endüstriyel kırmızı çizgiyi aştığına ve teknolojik olgunluğunun çok yüksek olduğuna ve ölçeklendirilebileceğine inanıyoruz.

Bu endüstriyel kırmızı çizgiyi nasıl tanımlıyorsunuz?

İlk olarak, etkisi transformer’dan daha iyi ve ikincisi, transformer’dan daha hızlı. Bu, ona transformer’ı değiştirme yeteneği verir. Bunu o zamanlar 15B ölçekli yoğun bir modelde doğruladık.

Laboratuvardan çıktığınız düğümde, neden sonunda MiniMax ile bir araya geldiniz?

Aslında, o zamanlar bazı büyük şirketlerle konuşmuştum. Ama sonunda, bunu hala MiniMax ile başardım.

Her şeyden önce, cosformer, Junjie ile işbirliği yaptığım bir makale. İşbirliği için bir temelimiz var. Junjie, SenseTime’da iken benim patronumdu. 23’ün sonunda Junjie beni yemeğe davet etti. Bu en son teknolojilerin olanakları konusunda daha kendine güveniyor. Benim anladığım kadarıyla, o da o zamanlar teknik bir atılım arıyordu.

O zamanlar MiniMax, Moe üzerindeki araştırmayı tamamlamıştı ve bir sonraki adım için aslında çok az teknik atılım noktası vardı. O zamanlar, şimşek dikkati yayınlanmıştı ve mamba da popülerdi, bu yüzden onun gözünde uygulanabilir bir yöndü.

Bu, MiniMax’in etkileşimli yardımcı ürünüyle mi ilgili?

Hiçbir bağlantısı yok. Yan Junjie, modelin üst sınırı ve bu tavanı daha da nasıl aşacağı konusunda daha fazla endişe duyuyor.

Doğrusal dikkat, tavanı aşmaktan ziyade kamuoyunda verimliliği artırma yönünde daha fazla olabilir.

Buradaki nokta şu ki, her şeyden önce, her üreticinin bilgi işlem gücü sabittir. Model ne kadar hızlı hızlandırılabilirse, o kadar çok veri yiyebilir ve üretilen model o kadar iyi olur. Bilgi işlem gücü sabit olduğunda, model ne kadar hızlı olursa o kadar iyi olur.

Verilerin zirveye ulaştığı bir durum gözlemlediniz mi?

Henüz değil, değil mi? Veriler hala sürekli ölçekleme aşamasında, ancak 23’teki kadar agresif olmayabilir.

Çünkü veriler sürekli artıyor ve her gün yeni veriler çıkıyor. Model için, her gün işleyeceği yeni veriler var. İnternet tarafından her gün üretilen veri miktarı çok fazla. Temizleme yoluyla, hala yeni veriler elde edebiliriz.

İnsan gelişiminin bunca yılıdır var olan verilerle karşılaştırıldığında, veri büyüme hızı yavaşladı mı?

Aslında, mutlaka değil. Çin’in beş bin yıllık tarihine bakın ve sadece o birkaç kitap birikti. Ancak İnternet’in gelişimiyle birlikte, veri hacmindeki artış çok dik bir eğri. İnternet’ten önce üretilen toplam veri, bir yıl sonra üretilen veri kadar olmayabilir.

Ölçeklendirme sürecinde, şimşek dikkati hangi zorluklarla karşılaştı?

Ölçeklenebilirliğini doğrulamak için, önce küçük modellerden 7B, 9B’ye kademeli olarak genişleyen ve sonunda 400B’den fazla modele ölçeklenen ölçekleme yasası deneyleri yaptık.

Ve teorik olarak lineerin kapasitesinin transformer’ınkinden daha büyük olduğunu kanıtladık.

Kapasiteyi RNN’nin mevcut durumlarının boyutu olarak tanımlıyoruz. Transformer için kapasite boyutu O(d)’dir, burada d boyuttur; doğrusal dikkat için kapasite boyutu d²/h’dir. d, h’den çok daha büyük olduğundan, kapasite daha büyüktür.

Sonunda, hibrit modelin saf transformer’dan daha iyi olduğunu da doğruladık.

4M uzunluğundaki sıra penceresi nasıl elde ediliyor?

Şimşek için, eğitim uzunluğu isteğe bağlı olabilir. Bilgi işlem gücü tamamen kullanıldığı sürece, 8K, 32K veya 128K’yı eğitmenin hızı aynıdır ve TGS (GPU başına saniye başına belirteç) aynıdır.

Transformer n² hesaplama karmaşıklığı olduğundan, sıra ne kadar uzun olursa, hesaplama karmaşıklığı o kadar hızlı büyür ve gecikme ikinci dereceden bir eğri üzerinde artar. 1M uzunluğunda, softmax dikkatini kullanmanın gecikmesi şimşek dikkatini kullanmanın 2.700 katıdır.

Gelecekte sonsuz bir bağlam penceresi elde etmek için hala hangi teknik zorlukların ele alınması gerekiyor?

Mevcut hibrit mimarimizde hala 1/8 oranında softmax dikkat var. Bu, 1M uzunluğunda bir darboğazdır. Bu 1/8’in getirdiği gecikme, geri kalan 7/8 doğrusal dikkatten çok daha yüksektir.

Uzun metni optimize etmek istiyorsak, softmax dikkat bölümünü optimize etmeyi düşünmeliyiz. Onu daha hızlı ve daha hafif hale getirmek için seyrek dikkat yöntemlerinden öğrenebiliriz.

Ek olarak, softmax ve doğrusal dikkat karıştırma oranını daha da aşırı hale getirmeyi düşünüyoruz, artık 1/8 değil, muhtemelen 1/16 veya 1/32. En radikal çözüm, tüm modele sadece bir katman softmax koymaktır, ancak sigorta için, esas olarak geri alma yeteneği üzerindeki etkisini göz önünde bulundurarak bunu benimsemedik.

Geri alma yeteneği model için neden bu kadar önemli?

Geri alma, bağlam içi öğrenmenin temelidir ve gerekli bir koşuldur.

Bağlam içi öğrenme yapmak için bağlamdaki bilgileri hatırlamanız gerekir ve bağlam içi öğrenme, CoT (Düşünce Zinciri) gibi mevcut büyük modellerin tüm gelişmiş yeteneklerinin temelidir, özellikle uzun CoT’ler, hepsi geri alma yeteneğine dayanır.

Kararlı Yeni Mimari

Sektördeki FFN ve dikkatteki en son mimari iyileştirmelere dikkat ettiniz mi?

FFN’nin iyileştirilmesi Moe’dir. Byte’ın Ultra Mem’ine de dikkat ettim, ancak bunun kayıplı bir şey, kayıplı bir sıkıştırma olduğunu düşünüyorum. Gelecekte ölçeklendirilirse sorunlar olabilir, ancak ölçeklendirmedik, bu yüzden sadece sorunlar olabileceğini söyleyebilirim.

Çünkü FFN temelde bunlar. Moe alanındaki iyileştirmelerimiz, önceki büyük uzmandan mevcut küçük uzman moduna geçmekten, onu daha seyrek hale getirmekten ve ardından bazı hızlandırmalar yapmaktan başka bir şey değil, bu da daha fazla araştırma gerektiriyor.

Daha da optimize etmek istiyorsanız, çünkü FFN matris çarpımıdır, optimizasyon yalnızca Nvidia tarafından CUDA düzeyinde, matris çarpımının bazı alt düzey optimizasyonları yapılarak yapılabilir.

Sektördeki dikkat mimarisindeki iyileştirmelere dikkat ettiniz mi?

Dikkatin iyileştirilmesi temelde lineerdir. Gelecekte daha güçlü bir Lineer yapıp yapmamayı ve mevcut temel üzerinde Lineer dikkati daha da hızlandırmayı da düşünüyoruz.

İyileştirmenin birçok yolu vardır, biri çürümeyi değiştirmek, diğeri ise içerideki bazı küçük hileleri değiştirmektir. Yeni makalemizi sabırsızlıkla bekleyebilirsiniz.

Bağlam uzunluğu ve çıkarım maliyetimizin mevcut oranı nispeten gelişmiş mi?

Sıra uzunluğunu uzatmayı içerdiğinde, çok belirgin bir bilgi işlem gücü maliyet avantajımız var. Ne kadar uzun olursa, maliyet avantajı o kadar belirgin olur, ister çıkarım ister eğitim olsun.

Örneğin, 1M’de, doğrusal dikkatin tükettiği bilgi işlem gücü tam dikkatin 1/2700’ü kadardır. Karşılaştırıldığında, hala 1/8 oranında tam dikkate sahip olduğumuzdan, temelde transformer mimarisinin 1/8’i kadardır, çünkü doğrusal dikkat temelde bir masraf olarak sayılmaz.

Hesaplama maliyeti bu kadar düşükse, bir hesaplama darboğazı elde edebilir mi?

Şimdi gerçekten bir bellek erişim darboğazı. Kod çözme bir bellek erişim darboğazı, bir hesaplama darboğazı değil. Çünkü şimşek çok hızlı, bellek erişiminin hesaplama kadar az kaynak işgal etmesine izin vermek için çok hızlı. Bunun nedeni esas olarak gerçek uygulamalardaki sıra uzunluğunun yeterince uzun olmamasıdır.

Gelecekte bunu nasıl bir hesaplama darboğazı haline getireceğiniz, bellek erişimini nasıl optimize edeceğinize bağlıdır. Bunlar, mühendislik departmanının sorumlu olması gereken şeyler olacaktır.

Lineer mimari gelecek neslin ana akım mimarisi haline gelirse, hangi donanım uyarlama iyileştirmeleri onun için daha uygun olacaktır?

Burada çok zor bir şey var, sıra uzunluğunu dikkate almamız gerekiyor. Sıra uzunluğunuz8K veya 32K’ya odaklanmışsa, dikkat sadece yüzde ondan biraz fazlasını oluşturur ve geri kalan yüzde seksen FFN bölümüdür.

Dikkati aşırıya optimize etseniz bile, 0’a kadar, yalnızca gecikmenin yüzde onundan biraz fazlasını optimize ettiniz. Ancak sıra uzunluğunu uzatırsanız, dikkatin oranı giderek daha da büyüyecektir. Bu, tam dikkatle karşılaştırıldığında böyledir, ancak doğrusal dikkat için oranı değişmez.

Çünkü FFN de lineer ve doğrusal dikkat de lineer olduğundan, 1M durumunda bile oranı neredeyse değişmeyen yaklaşık %10’dur.

Ancak tam dikkat ise, dikkat hesaplaması %99’u oluşturabilir ve aşağıdaki FFN sadece %1’i oluşturur. Bu nedenle doğrusal dikkatin yalnızca uzun metinlerde avantajları vardır.

Lineer mimari ana akım haline gelirse, o zaman takip edilen şey düşük enerjili donanım olabilir, sadece enerji tüketimini azaltmak. Spiking Neural Network (SNN) çipleri dahil olmak üzere daha uygun olabilir ve bazı insanlar aslında bunu yapıyor.

AGI’ye Giden Yolda Geleceğe Bakmak

Model açık kaynak etkisinden beklentileriniz nelerdir?

Birincisi, tanıtım etkisi. Kişisel olarak, bazı kasları göstermenin yanı sıra, açık kaynak için en önemli şeyin gelecekte herkesin bunu nasıl kullanabileceğini görmek olduğunu düşünüyorum. Küçük model açık kaynağının gelecekte yapmayı daha çok düşünebileceğimiz bir şey olduğunu düşünüyorum.

Ve herkesin ince ayar yapması için bazı altyapıları nasıl oluşturacağımızı da düşünmemiz gerekebilir. Açık kaynak, gelecekte bizim için uzun vadeli bir şey ve amiral gemisi modeller açık kaynaklı olmaya devam etmeli.

Gelecekte hibrit olmayan saf kan bir mimarinin ortaya çıkması mümkün mü?

Şu anda, özellikle hız açısından hibritten daha iyi performans gösterebilecek bir yöntem yok. Küçük bir kısım softmax dikkat eklemek, sıra uzunluğu özellikle uzun olmadığında hız avantajı çok belirgindir, özellikle flash dikkatin ortaya çıkmasından sonra.

Saf kan mimarisi üzerine araştırma devam ediyor, ancak çok zor ve artık düşük asılı meyveler yok. Bazı teknik çözümlerimiz var, ancak uygulama basit değil ve sonuçta ne kadar uzun bir sıra uzunluğuna ulaşmamız gerektiğine bağlı.

Diğer bir soru ise, ultra uzun metinler için güçlü bir talep var mı? Claude gibi modeller 200K bağlama ulaşmış olsa da, kullanıcılar mevcut uzunluktan çok memnun görünüyor. Aracı uygulamaları gelecekte ultra uzun diziler için talep getirebilir, ancak henüz olgun bir kıyaslama yok.

Ancak bence bu sorun, Nvidia’nın gelecekteki oyunlar için gelişmiş performanslı grafik kartları geliştirmesi gibi, şimdi ihtiyaç duyulmasa bile, geleceğe yönelik bir teknolojidir.

Örneğin, derin araştırma, modelin düzinelerce web sitesinin içeriğini okumasını gerektirir ve işlem süresi onlarca dakika mertebesindedir, bu uzun metinler için bir uygulama yönü olabilir.

CoT’den sonraki en büyük şeyin ne olabileceğini düşünüyorsunuz?

Bunu düşündük. Her şeyden önce, mevcut muhakeme modeli nispeten popüler ve bu yılki ana akım hala muhakeme bölümü olacak. Bundan sonra, saf dil modellerinin geleceğinde özellikle büyük değişiklikler düşünmek zor.

Diğer öğretmenlerle de konuştum ve onların hissi, herkesin modelin maliyetini yeniden azaltacağı, böylece muhakeme hızının giderek hızlanacağı ve fiyatının giderek düşeceği ve etkinin korunarak maliyetin azaltılacağı yönünde.

Çünkü tavan hızla yaklaşıyor, vakaların büyük çoğunluğu büyük modellerin yeteneklerindeki boşlukları kontrol edip dolduruyor. Ancak daha da büyük teknolojik atılımlar olursa, kısa vadede nispeten nadir olabilirler ve henüz görmedik.

MiniMax doğrusal dikkati keşfettikten sonra, keşfedilecek bir sonraki yön ne olabilir?

Bir sonraki şey, özellikle bu yerel üretimi yapmak ve birleşik büyük model mimarisini anlamak isteyip istemediğimizi, çok modlu mimariyi keşfetmek olabilir.

AGI’nin bitiş noktası olduğu, O(n²) veya O(n) hesaplama karmaşıklığına sahip hangi model daha iyi bir cevap olurdu?

Elbette, O(n)’dir. Antropomorfizm açısından bakıldığında, insanlar O(n) karmaşıklığında olmalıdır. Örneğin, bir kişinin karmaşıklığı O(n²) ise, o zaman sizinle konuşma hızım giderek yavaşlayacaktır.

Çünkü transformer için çıkarım karmaşıklığı O(n²) hesaplama karmaşıklığıdır, yani ilk belirteci tükürmenin ve 100. belirteci tükürmenin gecikmesi farklıdır.

Biz insanlar böyle bir şeyi hayal edemeyiz, çünkü insanlar doğduklarından beri hiç yeniden başlamadılar ve sürekli bir şeyler tükürüyorlar, bu nedenle insanların hesaplama karmaşıklığı sabittir.

İnsan, zeka için mutlaka en uygun çözüm müdür?

Şu anda sadece böyle düşünebiliriz. Biyonik zeka rotasını izleyen bazı insanlar da var, ancak bu yönlere çok fazla dikkat etmedik.

AGI’nin bitiş oyunu olduğu, model iyileştirmenin hangi alanları en önemli şeylerdir?

Dil modellemenin yanı sıra, öğrenme yöntemleri sorunu da var. Nasıl öğrendiğiniz ve çevreden öğrendiğiniz, çevreyle etkileşimden öğrendiğiniz çok önemlidir. Sonuçta, mevcut çok modlu anlayış hala veri açısından çok eksik.

Ve makinelerin az atışlı öğrenmesi bile şu anda etiketlenmiş, ancak insan öğrenmesi etiketsiz. Bu nedenle her şeyi kendi kendine inşa edilmiş bir çerçeve altında nasıl birleştireceğimiz de bir sorundur.