Yapay Zeka Tarihini Şekillendiren Dönüşüm: Noam Shazeer ve Jeff Dean ile Sohbet

Google’ın teknolojik yolculuğunun iki önemli ismi, şu anki Baş Bilim İnsanı Jeff Dean ve Transformer modelinin arkasındaki kilit figürlerden olan ve Google’a geri dönen Noam Shazeer, yakın zamanda aydınlatıcı bir diyalog gerçekleştirdi. Ünlü podcast yayıncısı Dwarkesh Patel’in ev sahipliğinde gerçekleşen bu sohbet, MapReduce’un temel günlerinden Transformer ve MoE mimarilerinin dönüştürücü çağına kadar uzanan yapay zekanın evrimine bir bakış sundu.

Google’da onlarca yıllık birleşik deneyime sahip olan bu deneyimli isimler, yalnızca internetin ve yapay zekanın tanımlayıcı teknolojilerine tanık olmakla kalmadılar, aynı zamanda aktif olarak onları şekillendirdiler. İronik bir şekilde Shazeer, Google’a katılma konusundaki ilk motivasyonunun kısa vadeli bir mali çıkar olduğunu, ancak bu planın alana yaptığı katkılarla dramatik bir şekilde değiştiğini itiraf etti.

Yapay Zeka Hesaplamasının Mevcut Durumu ve Gelecekteki Yörüngesi

İki saatlik uzun bir sohbet sırasında Dean ve Shazeer, yapay zeka hesaplamasının mevcut durumu hakkında şu bilgileri açıkladı:

  • Operasyonların ölçeği bireysel veri merkezlerini aşmış durumda; Gemini’nin eğitimi artık farklı metropol alanlarındaki birden fazla veri merkezine yayılıyor ve eşzamansız olarak çalışıyor.
  • Yapay zeka ile etkileşim, geleneksel okumadan önemli ölçüde daha uygun maliyetli olduğundan, çıkarım hesaplamasını ölçeklendirmede önemli bir büyüme alanı var.
  • Gelecekteki model mimarilerinin, farklı model bileşenlerinin farklı ekipler tarafından bağımsız olarak geliştirilmesini sağlayarak MoE’nin esnekliğini aşması bekleniyor.

Siperlerden İçgörüler: Hata Ödülleri ve Gelecek Mimariler

Sohbet ayrıca sosyal medyada da ilgi uyandırdı ve kullanıcılar şu gibi ilgi çekici kavramları vurguladı:

  • Büyük MoE modellerini bellekte saklama potansiyeli.
  • Kodlardaki hataların beklenmedik faydaları; ölçek arttıkça, bu hatalar istemeden çığır açan keşiflere yol açabilir.

Dean, yapay zeka hesaplamasının aşırı derecede pahalı olduğu fikrine meydan okudu. Bir kitapla etkileşim kurmanın maliyetini aynı kitap hakkında bir yapay zeka ile etkileşim kurmanın maliyetiyle karşılaştırarak, ikna edici bir noktayı gösterdi:

En gelişmiş dil modelleri, işlem başına yaklaşık 10⁻¹⁸ dolarlık şaşırtıcı derecede düşük bir maliyetle çalışıyor ve bu da tek bir dolar karşılığında işlenen bir milyon token anlamına geliyor. Buna karşılık, bir ciltsiz kitap satın almak, dolar başına yalnızca 10.000 token sunuyor.

Yapay zeka etkileşimi için yüz kat maliyet avantajı olan bu çarpıcı fark, artan çıkarım hesaplaması yoluyla yapay zeka zekasını geliştirme potansiyelinin altını çiziyor.

Altyapısal bir bakış açısıyla, çıkarım zamanı hesaplamasının artan önemi, veri merkezi planlamasını yeniden şekillendirebilir. Bu, başlangıçta çıkarım için tasarlanan ve daha sonra eğitim için uyarlanan Google’ın ilk nesil TPU’larını anımsatan, özellikle çıkarım görevleri için uyarlanmış donanım gerektirebilir.

Dağıtık ve Eşzamansız Hesaplama: Yeni Bir Paradigma

Çıkarıma artan vurgu, veri merkezleri arasında sürekli iletişimin gereksiz hale gelebileceğini ve potansiyel olarak daha dağıtık ve eşzamansız bir hesaplama modeline yol açabileceğini gösteriyor.

Gemini 1.5 zaten bu yola girdi ve çeşitli büyük şehirlerdeki hesaplama kaynaklarından yararlanıyor. Yüksek hızlı ağlar, farklı veri merkezlerinden gelen hesaplamaları senkronize ederek benzeri görülmemiş eğitim ölçeklerine ulaşıyor. Her eğitim adımının birkaç saniye sürebildiği büyük modeller için, 50 milisaniyelik bir ağ gecikmesi bile minimum etki yaratıyor.

Çıkarım alanında, gecikme hassasiyeti kritik bir husus haline geliyor. Acil yanıtlar optimize edilmiş düşük gecikmeli performans gerektirirken, karmaşık bağlamsal analiz gibi acil olmayan görevler daha uzun işlem sürelerine tolerans gösterebilir.

Daha uyarlanabilir ve verimli bir sistem, birden fazla görevi eşzamansız olarak yönetebilir, genel performansı artırırken kullanıcı bekleme sürelerini en aza indirebilir. Ek olarak, daha küçük taslak modeller kullanmak gibi algoritmik gelişmeler, çıkarım sürecindeki darboğazları hafifletebilir. Bu yaklaşım, daha küçük modellerin potansiyel tokenler oluşturmasını içerir ve bu tokenler daha sonra daha büyük modeller tarafından doğrulanır, bu da paralelleştirme yoluyla çıkarım sürecini önemli ölçüde hızlandırır.

Shazeer, eşzamansız eğitim sırasında her model replikasının bağımsız olarak çalıştığını ve eşzamansız uygulama için merkezi bir sisteme gradyan güncellemeleri gönderdiğini ekledi. Küçük parametre dalgalanmalarının teorik etkilerine rağmen, bu yöntemin son derece başarılı olduğu kanıtlanmıştır.

Buna karşılık, senkron eğitim stabilite ve tekrarlanabilirlik sunar ve bu da birçok araştırmacının tercihidir. Eğitimde tekrarlanabilirliği sağlamak için, Dean, özellikle gradyan güncellemeleri ve veri toplu senkronizasyonu olmak üzere operasyonları kaydetme uygulamasını vurguladı. Bu günlükleri yeniden oynatarak, eşzamansız eğitim bile tekrarlanabilir sonuçlar verebilir, bu da hata ayıklamayı daha yönetilebilir hale getirir ve çevresel faktörlerin neden olduğu tutarsızlıkları azaltır.

Hataların Tesadüfi Rolü

Bunu genişleten Shazeer, ilgi çekici bir bakış açısı sundu:

Modelleri eğitirken çeşitli hatalarla karşılaşılırken, bu modellerin doğal gürültü toleransı, kendiliğinden ayarlanmaya olanak tanır ve öngörülemeyen sonuçlara yol açar. Bazı hatalar olumlu etkiler bile yaratır ve ölçek deneysel anormallikleri güçlendirdikçe iyileştirme fırsatları sunar.

Hata ayıklama uygulamaları sorulduğunda Shazeer, hızlı doğrulama için çok sayıda küçük ölçekli deney yapma yaklaşımlarını açıkladı. Bu yöntem, kod tabanını basitleştirir ve deney döngülerini haftalar yerine saatlere kısaltarak hızlı geri bildirim ve ayarlamaları kolaylaştırır.

Dean aynı fikirdeydi ve başlangıçta olumsuz sonuçları olan birçok deneyin daha sonra önemli içgörüler sağlayabileceğini belirtti. Ancak, araştırmacılar kod karmaşıklığı zorluğuyla karşı karşıyadır; artımlı iyileştirmeler gerekli olsa da, aynı zamanda performans ve bakım zorluklarını da beraberinde getirir ve bu da sistem temizliği ile yenilik arasında bir denge gerektirir.

Gelecek Modellerin Organik Yapısı

Dean ve Shazeer, yapay zeka modellerinde monolitik yapılardan modüler mimarilere önemli bir geçiş öngörüyor.

Gemini 1.5 Pro gibi modeller, göreve göre farklı bileşenleri etkinleştiren Karışım Uzmanları (MoE) mimarisi kullanıyor. Örneğin, matematiksel problemler matematik konusunda yetkin olan bölümü devreye sokarken, görüntü işleme ilgili özel modülü etkinleştirir.

Ancak, mevcut model yapıları biraz katı kalıyor, uzman modülleri boyut olarak tek tip ve esneklikten yoksun. Dean, daha ileriye dönük bir vizyon önerdi: gelecekteki modeller organik bir yapı benimsemeli ve farklı ekiplerin modelin farklı bölümlerini bağımsız olarak geliştirmesine veya iyileştirmesine olanak sağlamalıdır.

Örneğin, Güneydoğu Asya dillerinde uzmanlaşmış bir ekip ilgili modülü iyileştirebilirken, bir diğeri kod anlama özelliğini geliştirmeye odaklanabilir. Bu modüler yaklaşım yalnızca geliştirme verimliliğini artırmakla kalmaz, aynı zamanda küresel ekiplerin modelin ilerlemesine katkıda bulunmasını sağlar.

Teknik olarak, modeller damıtma yoluyla bireysel modülleri sürekli olarak optimize edebilir. Bu, büyük, yüksek performanslı modüllerin daha küçük, verimli versiyonlara yoğunlaştırılmasını içerir ve bu versiyonlar daha sonra yeni bilgiler öğrenmeye devam eder.

Bir yönlendirici, görev karmaşıklığına bağlı olarak uygun modül sürümünü seçebilir, performansı ve verimliliği dengeleyebilir; bu, Google’ın Pathway mimarisinin merkezinde yer alan bir kavramdır.

Bu yeni mimari, güçlü TPU kümeleri ve bol miktarda yüksek bant genişliğine sahip bellek (HBM) dahil olmak üzere sağlam bir altyapı gerektirir. Her çağrı modelin parametrelerinin yalnızca bir kısmını kullanabilirken, tüm sistem eşzamanlı istekleri karşılamak için tüm modeli bellekte tutmalıdır.

Mevcut modeller, bir görevi %80 başarı oranıyla 10 alt göreve ayırabilir. Gelecekteki modeller, bir görevi potansiyel olarak %90 veya daha yüksek başarı oranlarıyla 100 veya 1.000 alt göreve ayırabilir.

“Vay Canına” Anı: Doğru Kedi Tanıma

Geriye dönüp bakıldığında, 2007, büyük dil modelleri (LLM’ler) için önemli bir kilometre taşı oldu.

O zamanlar Google, makine çevirisi için 2 trilyon token kullanarak bir N-gram modeli eğitti. Ancak, N-gram verileri için disk depolamaya güvenmek, kapsamlı disk G/Ç’si (örneğin, 100.000 arama/kelime) nedeniyle yüksek gecikmeye neden oldu ve tek bir cümleyi çevirmek 12 saat sürdü.

Bunu ele almak için, bellek sıkıştırma, dağıtık mimari ve toplu işleme API optimizasyonu dahil olmak üzere çeşitli stratejiler geliştirdiler:

  • Bellek Sıkıştırma: Disk G/Ç’sinden kaçınmak için N-gram verilerini tamamen belleğe yükleme.
  • Dağıtık Mimari: Paralel sorgular için verileri birden fazla makineye (örneğin, 200) dağıtma.
  • Toplu İşleme API Optimizasyonu: Verimi artırmak için istek başına ek yükü azaltma.

Bu dönemde, hesaplama gücü Moore Yasası’nı izlemeye başladı ve bu da üstel büyümeye yol açtı.

“2008’in sonlarından itibaren, Moore Yasası sayesinde sinir ağları gerçekten çalışmaya başladı.”

Belirli bir araştırma çabasının gerçekten işe yaradığına dair bir “Vay canına” anı sorulduğunda Jeff, erken bir Google ekibinin YouTube video çerçevelerinden yüksek seviyeli özellikleri (kedileri ve yayaları tanımak gibi) öğrenmek için bir model eğittiği bir projeyi anlattı. Dağıtık eğitim (2.000 makine, 16.000 çekirdek) sayesinde, büyük ölçekli denetimsiz öğrenme elde ettiler.

Denetimsiz ön eğitimden sonra, modelin denetimli görevlerdeki (ImageNet) performansı %60 arttı ve büyük ölçekli eğitim ve denetimsiz öğrenme potansiyelini gösterdi.

Google’ın hala öncelikle bir bilgi erişim şirketi olup olmadığı sorusuna yanıt olarak Jeff şunu vurguladı:

“Yapay zeka, Google’ın orijinal misyonunu yerine getiriyor.”

Esasen, yapay zeka yalnızca bilgiyi almakla kalmaz, aynı zamanda karmaşık içeriği anlar ve üretir ve engin bir gelecek potansiyeline sahiptir. Google’ın gelecekteki yönü gelince, “Bilmiyorum.”

Ancak, Google’ın ve bazı açık kaynak kodlarının her geliştiricinin bağlamına entegre edilmesini bekleyebiliriz. Başka bir deyişle, modellerin daha fazla token işlemesine olanak tanıyarak, arama içinde arama model yeteneklerini ve faydasını daha da artıracaktır.

Bu kavram zaten Google’da dahili olarak deneniyor.

“Aslında, Gemini modelinde dahili geliştiricilerimiz için dahili kod tabanımız üzerinde daha fazla eğitim yaptık.”

Daha doğrusu, Google dahili olarak kodunun %25’inin yapay zeka tarafından yazılması hedefine ulaştı.

Google’daki En Mutlu Zamanlar

İlginç bir şekilde, ikili Google ile ilgili daha ilgi çekici deneyimleri de paylaştı.

Noam için 1999’da Google gibi büyük bir şirkete katılmak başlangıçta çekici değildi, çünkü becerilerinin yeterince kullanılmayacağını düşünüyordu. Ancak, Google’ın günlük arama hacmi endeksi grafiğini gördükten sonra fikrini hızla değiştirdi:

“Bu insanlar kesinlikle başarılı olacak ve çözmeleri gereken birçok ilginç sorun var gibi görünüyor.”

Belirli bir “küçük” niyetle katıldı:

“Biraz para kazanmak ve sonra mutlu bir şekilde kendi yapay zeka araştırma çıkarlarımın peşinden gitmek.”

Google’a katıldıktan sonra, akıl hocası Jeff ile tanıştı (yeni çalışanlara akıl hocaları atanıyordu) ve çeşitli projelerde işbirliği yaptılar.

Bu noktada Jeff, Google’a olan kendi takdirini dile getirerek araya girdi:

“RM vizyonu (Duyarlı ve Çok Modlu) için Google’ın geniş yetkisini seviyorum, tek bir yön olsa bile birçok küçük proje yapabiliriz.”

Bu aynı zamanda başlangıçta “vur ve kaç” yapmayı planlayan kişinin uzun vadeli kalmasına yol açan özgürlüğü Noam’a sağladı.

Bu arada, konu Jeff’e geldiğinde, paralel geri yayılım üzerine yazdığı lisans tezi yeniden ziyaret edildi.

Bu 8 sayfalık makale, 1990’ın en iyi lisans tezi oldu ve Minnesota Üniversitesi kütüphanesinde korunuyor. Jeff, bu makalede geri yayılıma dayalı sinir ağlarının paralel eğitimi için iki yöntem araştırdı:

  • Desen bölümlenmiş yaklaşım: Tüm sinir ağını her işlemcide temsil etmek ve giriş desenlerini kullanılabilir işlemciler arasında bölmek.
  • Ağ bölümlenmiş yaklaşım (ardışık düzen yaklaşımı): Sinir ağının nöronlarını kullanılabilir işlemciler arasında dağıtmak ve iletişim kuran bir halka oluşturmak. Özellikler bu ardışık düzenden geçer ve her işlemcideki nöronlar tarafından işlenir.

Bu yöntemleri farklı boyutlardaki sinir ağları ve çeşitli giriş verileriyle test etti. Sonuçlar, desen bölümlenmiş yaklaşım için daha büyük ağların ve daha fazla giriş deseninin daha iyi hızlanma sağladığını gösterdi.

En önemlisi, makale 1990’da “büyük” bir sinir ağının nasıl göründüğünü ortaya koyuyor:

“Katman başına 10, 21 ve 10 nöronlu 3 katmanlı bir sinir ağı çok büyük kabul edildi.”

Jeff, testleri için 32 adede kadar işlemci kullandığını hatırladı.

(O zamanlar, muhtemelen 12 yıl sonra kendisinin Andrew Ng, Quoc Le ve diğerleriyle birlikte büyük verilerden kedileri tanımlamak için 16.000 CPU çekirdeği kullanacağını hayal edemezdi.)

Ancak Jeff, bu araştırma bulgularının gerçekten etkili olması için “yaklaşık bir milyon kat daha fazla işlem gücüne ihtiyacımız vardı” itiraf etti.

Daha sonra, özellikle yapay zeka son derece güçlü hale geldiğinde, yapay zekanın potansiyel risklerini, özellikle de geri bildirim döngüsü sorununu tartıştılar. Başka bir deyişle, yapay zeka kod yazarak veya algoritmalarını geliştirerek kontrol edilemeyen bir hızlanma döngüsüne (yani, “zeka patlaması”) girebilir.

Bu, yapay zekanın insan kontrolünü hızla aşmasına ve hatta kötü niyetli versiyonlar yaratmasına yol açabilir. Sunucunun dediği gibi, “Jeff gibi bir milyon üst düzey programcının sonunda bir milyon kötü Jeff’e dönüştüğünü” hayal edin.

(Netizen): “Yeni kabus kilidi açıldı, haha!”

Son olarak, Google’daki en mutlu zamanlarını yansıtırken, her ikisi de anılarını paylaştı.

Jeff için, Google’ın ilk yıllarındaki en keyifli anlar, Google’ın arama trafiğinin patlayıcı büyümesine tanık olmaktı.

“Şu anda 2 milyar insanın kullandığı bir şey inşa etmek inanılmaz.”

Son zamanlarda, Gemini ekibiyle birlikte beş yıl önce bile mümkün olduğuna inanılmayan şeyler inşa etmekten heyecan duyuyor ve modelin etkisinin daha da genişleyeceğini öngörüyor.

Noam da benzer deneyimleri ve bir görev duygusunu yineledi ve hatta Google’ın “mikro mutfak alanlarından” sevgiyle bahsetti.

Burası, insanların özgürce sohbet edebileceği ve fikir alışverişinde bulunabileceği kahve ve atıştırmalıklar sunan yaklaşık 50 masalı özel bir alan.

Bu bahsedildiğinde, Jeff bile canlandı (doge).