OpenAI’ın GPT-4.5 Eğitiminin Perde Arkası: Hesaplama Zorlukları ve Atılımlar
İki yıl önce başlatılan GPT-4.5’in geliştirilmesi, OpenAI’ın bugüne kadarki en iddialı projesini temsil ediyor. Bu devasa girişim, yüzlerce kişinin işbirliğine dayalı çabalarını içeriyordu ve OpenAI CEO’su Sam Altman, projenin neredeyse tüm organizasyonun katılımını gerektirdiğini belirtiyor.
Büyük Ölçekli Eğitimde ‘Feci Sorunların’ Üstesinden Gelmek
GPT-4.5’i oluşturma yolculuğu engellerle doluydu. Ekip, araştırma ve geliştirme aşamasında çok sayıda ‘feci sorun’la karşılaştı. 100.000 GPU’luk bir kümenin kullanılması, daha önce görülmemiş, düşük olasılıklı ancak derin altyapı arızalarını ortaya çıkardı. OpenAI’ın sistem ekibi, elverişliliği optimum performansla dengelemek için ‘ilerlerken düzelt’ yaklaşımını benimsemek zorunda kaldı. Özellikle zor bir hata, eğitim sürecinin yaklaşık %40’ı tamamlanana kadar tespit edilemeyen sık hatalarla kümeyi rahatsız etti.
Bu zorluklara rağmen, GPT-4.5 projesi daha sağlam bir teknoloji yığınının geliştirilmesini katalize etti. Bugün, sadece 5-10 kişiden oluşan küçük bir ekip, GPT-4’e benzer büyük bir modeli kopyalayabiliyor. GPT-4’ten GPT-4.5’e elde edilen performans kazanımları yaklaşık on kat arttı ve ‘nicelendirilmesi zor ancak tüm yönleriyle geliştirilmiş zeka’ elde edildi; bu sonuç OpenAI’ın kendi personelini bile şaşırttı.
Odağı Değiştirme: Hesaplama Gücünden Veri Verimliliğine
OpenAI, performansta bir sonraki on kat veya yüz kat sıçramayı elde etmenin ham hesaplama gücüne değil, veri verimliliğine – özellikle, daha fazla hesaplama kaynağını kullanırken aynı miktarda veriden daha fazla bilgi çıkarma yeteneğine – bağlı olduğunu fark etti.
Mimari de tek kümeli bir yapıdan çok kümeli bir yapıya dönüşüyor. Gelecekteki eğitim yinelemeleri, 10 milyon kadar GPU’nun işbirliğine dayalı öğrenmesini içerebilir ve bu da daha yüksek hata toleransı gerektirir.
Sam Altman’ın GPT-4.5 Ekibiyle Diyaloğu
Aşağıda, Sam Altman ile OpenAI GPT-4.5 ekibi arasındaki bir tartışmanın düzenlenmiş bir derlemesi yer almaktadır:
Sam Altman: GPT-4.5 gibi bu kadar büyük bir model oluşturmak için ne gerekiyor?
Alex Paino: Bu projeye yaklaşık iki yıl önce başladık. O zamanlar, OpenAI yeni bir büyük bilgi işlem kümesi başlatmak üzereydi ve ekibimiz bunu modelin içermesi gereken işlevleri belirlemek için bir dizi operasyon yürütmek ve çok sayıda risk azaltma operasyonu testi yapmak için bir fırsat olarak gördü.
Sistemden makine öğrenimine kadar tüm teknoloji yığını için uzun bir plan geliştirdik. Riskleri azaltmak ve eğitime hazırlanmak uzun bir uygulama süreci ve eğitimin kendisi çok büyük bir proje.
Amin Tootoonchian: Bence bu süreç, hangi modeli eğitmek istediğimizi netleştirene ve ardından eğitime başlayana kadar makine öğrenimi ekibi ile sistem ekibi arasında en başından itibaren yakın işbirliği gerektiriyor.
Hem makine öğrenimi hem de sistem yönlerinde tahminlerde bulunduk ve beklenti ile gerçeklik arasındaki boşluğu olabildiğince daraltmaya çalıştık. Ancak çalışma ritmimiz hızlı olduğu ve en son bilgi işlem kaynaklarını kullanmamız gerektiği için, model eğitimi önceden mükemmel bir şekilde planlanması zor bir şey haline geldi.
Neredeyse her zaman çözülmemiş birçok sorunla eğitime başlıyoruz ve operasyon sırasında zorlukların üstesinden gelmeye ve ilerleme kaydetmeye çalışıyoruz. Ana çözüm daha fazla bilgi işlem kaynağı eklemek.
Son aşama, eğitim sürecini tamamlamak için birçok kişinin uzun süre enerji ve motivasyon yatırmasını gerektiren uygulamadır.
Sam Altman: Beklentilerimiz ile gerçeklik arasındaki farkın ne kadar olduğunu düşünüyorsunuz?
Amin Tootoonchian: Sistem açısından, başlangıçta genellikle beklenen durumdan çok uzağız. Her zaman bir seçimle karşı karşıyayız: başlamayı ertelemek ve sorunun çözülmesini beklemek mi, yoksa erken başlayıp sorunu süreç içinde çözmek mi. Bu, süreçte makul olmayan gecikmeleri önlemek için her zaman bir denge kurmayı gerektirir.
Ancak neredeyse her zaman bazı beklenmedik sorunlar vardır ve yapmamız gereken, bu düğümleri olabildiğince çözmek, bilinmeyen faktörlerle başa çıkmak ve model eğitimi için bir plan formüle etmektir.
Alex Paino: Bu projede, hedefimiz GPT-4.5’i yapmak, yani yeteneklerinin GPT-4’ten 10 kat daha akıllı olması gerekiyor. Bu, yaklaşık 2 yıl önce belirlediğimiz ilk hedef.
Bu süreçte birçok şey oldu. Daha iyisini yapabilir miyiz yoksa beklenenden daha mı kötü oluruz diye düşünüyorduk? Bu çok karmaşık bir süreç, ancak sonuçta, yatırdığımız etkili hesaplamalar açısından, GPT-4’ten 10 kat daha akıllı olduğunu düşündüğümüz bir model elde ettik.
Amin Tootoonchian: Uygulama açısından, GPT-4.5 projesinde harcanan süre başlangıçta beklediğimizden çok uzak.
Sam Altman: Küme 10.000 karttan 100.000 karta genişlediğinde neden bu kadar çok sorunla karşılaştınız?
Amin Tootoonchian: Bence sistem geliştiricileri yeterince duyarlıysa, çoğu sorun küçük ölçekli aşamada gözlemlenebilir.
Bazı sorunlar büyük ölçekli eğitim aşamasına özgü değildir, ancak daha önce de sık sık meydana gelmiştir, ancak ölçek artırıldıktan sonra felaket sorunları haline gelecektir, özellikle de ekip bu sorunların bu kadar kötüleşeceğini tahmin etmediğinde.
Sam Altman: Neler feci sonuçlara neden oldu?
Amin Tootoonchian: Bence altyapı sorunları iyi bilinmektedir, ister arıza oranı, arıza türü veya toplam arıza miktarı çok yüksek olsun. 100.000 kartlık küme büyük ölçekli bir örnek havuzudur, bu nedenle bilgi işlem gücü sağlayıcısının gözlemlemediği sorunları da keşfettik.
Ağ bunlardan biri ve bireysel hızlandırıcılar da sorun yaşayabilir. Ancak bu aynı zamanda bu sistemin güzelliğidir - beklenen sonuçları üretmek için neredeyse tüm bileşenlerin beklendiği gibi çalışması gerekir. İşimiz bu sorunu olabildiğince en aza indirmek.
Sam Altman: Küme boyutunun sınırında çalışmak gerçekten zor, ancak teknolojinin ön saflarında yer almayan şeyleri yapmanın çok daha kolay hale geldiğini de fark ettim. GPT-4.5’i eğitmek yüzlerce kişi gerektiriyor ve OpenAI’ın neredeyse herkesi gemiye alması gerekiyor.
Ancak bugün, OpenAI’dan en küçük ekibi seçip bildiğimiz tüm bilgi ve sistem çalışmasıyla GPT-4’ü sıfırdan yeniden eğitirseniz, kaç kişi gerekir?
Alex Paino: Bence şu anda GPT-4 düzeyinde bir model yapmak yaklaşık 5 ila 10 kişi alabilir. Teknoloji yığını, GPT-4.5’i tamamlama sürecinde büyük ölçüde geliştirildi.
Aslında, GPT-4.5’i eğitme sürecinde benzer şeyler yaptık - GPT-4 düzeyinde bir model olan GPT-4o’yu eğittik ve GPT-4.5 araştırma projesinden aynı içeriğin çoğunu kullanarak yeniden eğittik. Bu eğitim için daha az kişi kullanıldı.
Sam Altman: Sizin açınızdan, Dan? Büyük modelleri eğitmek neden zor?
Daniel Selsam: Bence yeni bir şey yapmak zor. Bence sadece başka birinin bir şey yaptığını keşfetmek bile çok daha kolaylaştırıyor, çünkü en zor kısım ilk etapta bir şey yapma inancına sahip olmak. Bence sadece bir şeyin uygulanabilir olduğunu bilmek, işleri çok daha kolay hale getiren süper bir hiledir.
Alex Paino: GPT ön eğitimini önceki boyutunun 10 katına çıkarıyoruz ve her zaman mutlaka tahmin edemeyeceğiniz bazı ilginç yeni şeyler buluyoruz.
Sam Altman: Ön eğitim ölçeğinde bir sonraki 10 kat veya 100 kat büyüme için ne gerekiyor?
Daniel Selsam: Veri verimliliği. Transformer mimarisi (yani GPT) verileri kullanmada çok verimlidir. Bilgileri iyi emer ve sıkıştırır ve genelleme sağlar. En büyük özelliği, bilgi işlem kaynaklarıyla bilgileri verimli bir şekilde emebilmesidir.
Ancak, verilerden elde ettiği içgörü derinliği sınırlıdır. Bilgi işlem gücü hızla büyüdüğünde ve veriler nispeten yavaş büyüdüğünde, veriler bu standart model için bir darboğaz haline gelir. Bu, aynı miktarda veriden daha fazla bilgi öğrenmek için daha fazla bilgi işlem gücü kullanabilen yöntemler geliştirmek için algoritmik yenilik gerektirir.
Sam Altman: Genişlemeyi sürdürmek için başka neye ihtiyacımız olduğunu düşünüyorsunuz?
Amin Tootoonchian: Cevabım sistemle ilgili. Bence GPT-4.5 için gereken muazzam iş miktarı, esasen model spesifikasyonlarının kaçınılmaz sonucudur. GPT-4.5’i GPT-4 ile tamamen aynı teknik mimariyle eğitemeyiz.
Durum yönetimi açısından, gerekli bilgi işlem kaynakları tek bir kümenin kapasitesini aştığı için, çok kümeli bir eğitim mimarisine yönelmek zorundayız. Bu hedefe ulaşmak için, birden fazla farklı iş akışını kısa bir süre içinde entegre etmeliyiz.
Bu, aşama atılımları elde etmemize gerçekten yardımcı olsa da, bir sonraki büyüklük derecesinde performans iyileştirmesi elde etmek için, bilinen ancak geçici olarak rafa kaldırılmış çeşitli teknik sorunları hala çözmemiz gerekiyor - bu sorunlardan kaçınılamaz. Kusursuz sistemin Ar-Ge döngüsünü sürekli olarak uzatan ve optimum uygulama planını izleme sürecinde her zaman stratejik ödünleşimler yaptığımız bu tür teknik ödünleşimdir.
Sistemin kendisinin nihai hedef olmadığı ve gerçek çıktı değerinin temel husus olduğu açık olmalıdır. Bir sonraki 10 kat performans iyileştirmesi için, bence hata toleransında atılım çok önemlidir. Operasyon ve bakım endişesini önemli ölçüde azaltmak için iş yüküyle derin bir sinerji içinde olan bir hata tolerans mekanizması oluşturmamız gerekiyor. Mevcut ultra büyük ölçekli sistemlerin operasyon ve bakım karmaşıklığı, önceki sistemlerden esasen farklıdır.
Sam Altman: GPT-4.5 eğitimi sırasında arızaların yüzde kaçının belirli bileşenlerden kaynaklandığını biliyor musunuz?
Amin Tootoonchian: Paylaşacak belirli sayılarım yok, ancak genel olarak, yeni nesil donanımı dağıtmanın ilk aşamalarında, sistem çalışması genellikle tam olarak anlaşılamayan birçok teknik zorlukla karşı karşıya kalır. Sorun tam olarak tanımlanmadan projeyi ilerletmeyi seçtik, bu da yüksek bir ilk arıza oranına yol açtı.
Ancak deneyimler, temel nedenin belirlenip çözülmesiyle birlikte arıza oranının önemli ölçüde azalacağını göstermiştir. Bu fenomen, esasen altyapı anlayışımızı yansıtıyor - bazı insanlar buna altyapıyı temizlemek veya altyapının temel sorunlarını anlamak diyor.
Uygulamanın ilk aşamaları neredeyse her zaman oldukça acı vericidir. Projeyi ilerletirken, sürekli olarak yeni arıza modları keşfediyor ve çözüyoruz, ancak arıza oranı yavaş yavaş azalacak ve normal çalışma süresi uzayacaktır.
Bu esasen bir öncelik ödünleşimi meselesidir: Altyapı yaşam döngüsünün ilk aşamalarında, arıza riskini doğru bir şekilde tahmin etmek genellikle zordur; ve nihai ideal durumu (orijinali ‘Şehir Mülkü’, ideal şehir devleti tasarımıdır) aşırı derecede takip edersek, sistemin ilk aşamalardaki kullanılabilirlik performansı son derece kötü olabilir.
Sam Altman: Akıl yürütme modeli gelecekteki teknoloji yığınımızın temel bir bileşeni olmasına rağmen, geçici olarak geleneksel ön eğitim modelinin geliştirme sınırına odaklanalım. Sınırsız GPU bilgi işlem gücüne, sınırsız ağ bant genişliğine ve sınırsız güç kaynağına sahip olduğumuzu, ancak hala mevcut teknik darboğazlarla - sistem güvenilirliği sorunları, hataya dayanıklı eğitim yöntemlerinin eksikliği ve mevcut veri kümelerinin sınırlamaları dahil - sınırlı olduğumuzu varsayalım.
Her büyük GPT sürüm numarasında 100 kat ölçek artışı elde etme evrim yasasına göre, mevcut teknik sınırlara dayanarak, ön eğitim modelinin geliştirilmesi hangi seviyeye ulaşabilir? Özellikle GPT serisi modeller için, mevcut bilgi sistemimizle, teorik olarak ne tür bir modeli eğitebiliriz? GPT-5.5 yapılabilir mi?
Alex Paino: Makine öğrenimi ve algoritma geliştirme açısından, henüz net bir teorik üst sınıra ulaşmadık. Aslında, daha yüksek veri verimliliğine sahip algoritmaları ve mevcut veri kaynaklarını nasıl daha iyi kullanacağımızı keşfetmeye yeni başlıyoruz. Bu durum çok ilginç - GPT-4 gibi modeller bile büyük ölçüde sınırlı bilgi işlem kaynaklarının kısıtlamaları altında geliştirildi ve bu da önceki araştırmaların çoğunun yönünü belirledi.
Ancak durum şu anda tamamen farklı. GPT-4.5’ten bu yana, bazı önemli boyutlarda, bilgi işlem yerine veriler ana kısıtlama haline geliyor. Bu değişim, ilgili araştırmayı daha az heyecan verici hale getiriyor.
Sam Altman: Ancak bu gerçekten inanılmaz bir ilerleme ve dünya, oluşturabileceğimiz en iyi modelde bilgi işlem kaynaklarının artık ana darboğaz olmadığını tam olarak fark etmeyebilir. Bu değişiklik derindir, sonuçta çok uzun zamandır bilgi işlem kısıtlı bir ortamda yaşıyoruz.
Sam Altman: GPT-4.5’i eğitme sürecinde öğrendiğimiz en ilginç makine öğrenimi deneyimi nedir? Sadece paylaşmak istediklerinizi konuşun.
Amin Tootoonchian: Genel olarak, en düşündürücü olanlar tahminlerimizden sapan durumlardır - özellikle gerçek performansın neden beklenen eğriden saptığını anlamaya çalıştığımızda.
Alex Paino: Bizim için en şaşırtıcı bulgulardan biri, farklı makine öğrenimi bileşenlerinin ölçeklenebilirlik performansının büyük ölçüde değişmesidir. Bazı kısımlar iyi ölçeklenebilirken, diğerleri ölçeklenemez. Bunu gerçek eğitim sürecinde gerçekten fark ettik. Bu deneyim bize çok ilham verdi.
Daniel Selsam: Bence GPT paradigmasının iki temel özelliği şunlardır: birincisi, test kaybı (modelin görülmemiş test verilerinde ne kadar iyi performans gösterdiğini ölçmek için bir metrik) doğru bir şekilde tahmin edilebilir; ikincisi, model performansı ölçek büyüdükçe tahmin edilebilir bir iyileşme gösterir. Daha da sihirli bir şekilde, test kaybının azalması, nicelendirilmesi zor ancak şaşırtıcı olan çeşitli şekillerde çok yönlü gelişmiş bir zeka düzeyine dönüşecektir.
Sam Altman: Bu konuda kesinlikle iyimser misiniz? Bu görüşe tamamen katılıyor musunuz?
Daniel Selsam: Aslında, söylemek istediğim şey, GPT-4.5 testinde özellikle ilginç fenomenler bulduk - yeniden testten sonra, model herkesin beklentilerini tamamen aşan birçok ince yetenek gösterdi.
Önceden tanımlanamayan çeşitli şekillerde daha akıllı hale geleceğinden ve gerçek dağıtımdan sonra, kullanıcı memnuniyetinden bu ince iyileşme seviyelerini gözlemleyebileceğimizden eminiz: daha güçlü sağduyu rezervleri, daha doğru bağlamsal anlama yetenekleri ve daha hassas semantik kavrayış - bu tam olarak bu ekstra test kayıplarının getirdiği sihirdir. Bence Ölçekleme Yasası bu boyutta mükemmel bir şekilde doğrulandı.
Sam Altman: Tüm eğitim sürecinde en olumlu an neydi? En sevdiğiniz anı nedir? Açıkçası çok acı var, ama umarım bu acılar hafiflemiştir.
Alex Paino: Böyle bir anım var. Eğitim sırasında çok fazla makine öğrenimi çalışması yaptık. Bence operasyon sırasında yaptığımız bazı değişiklikler oldukça iyi bir etki yarattı, muhtemelen beklenenden daha iyi, bu bizim için çok heyecan verici bir andı.
Amin Tootoonchian: Benim için eğitimle aynı zamanda altyapı da inşa ediyoruz. Bu performans uçurumunu aşabileceğimize kesinlikle inanıyoruz ve bir planımız var ve herkes bunu uyguluyor, ancak uzun zaman alıyor. Bu zor bir iş ve kesinlikle düşündüğümden daha zor. Tahminim yanlıştı ve bu sorunları çözmenin ne kadar zaman alacağını hafife aldım.
Ekibin sonunda bu temel sorunların üstesinden geldiği ve performansın önemli ölçüde arttığı an hala aklımda taze. Tüm ekibin enerji dönüşümünü açıkça hissedebilirsiniz - herkes aniden enerji dolu ve yeni bir motivasyonla son hedefe doğru koşuyor.
En sihirli şey, durum izleyicimizde görüntülenen tahmini tamamlanma süresinin başlangıçtaki iki yıldan kısalmaya devam etmesi ve sonunda net bir zaman düğümüne kilitlenmesi. Bu görünür ilerleme, ekip moraline ölçülemez bir destek sağlıyor. Bence bunun güzelliği de bu.
Makine öğrenimi çalışmalarının hiç durmadığını vurgulamak istiyorum. Eğitim başladıktan sonra bile, bu makine öğrenimi ortak tasarım süreci devam ediyor. Makine öğrenimi ekibi sadece ‘sonraki işlem’ olarak işaretlenen sorunları aktif olarak takip etmekle kalmıyor, aynı zamanda eğitim süresini gerçekten optimize eden iyileştirmeler sunmaya devam ediyor.
Bu, ekip ruhumuzu mükemmel bir şekilde yansıtıyor - burada ‘herkes kendi kapısının önündeki karı süpürür’ çalışma sınırı yok, ancak gerçekten kusursuz bir işbirliği var ve bu uyum en büyük gücümüz.
Sam Altman: Dış dünya bu eğitimin zorlukları ve tahmin doğruluğu hakkında çok şey tartıştı. Ancak aslında tüm bunlar son derece kapsamlı bir planlamaya dayanıyor - bundan daha ayrıntılı olarak bahsedebilir misiniz?
Alex Paino: Bu kesinlikle şimdiye kadarki en kapsamlı planımız. Dediğim gibi, bu projeye eğitime resmi olarak başlamadan bir yıl önce hazırlanmaya başladık. Bu süre zarfında, çok sayıda büyük ölçekli risk kontrol testi yaptık.
Tüm iyileştirmeleri kademeli olarak sunmaya özellikle dikkat ediyoruz: yüksek güvenilirlikli temel bir yapılandırmadan başlayarak - makine öğrenimi düzeyinde tamamen hakim olduğumuz GPT-4’e benzer olgun bir mimari olarak anlaşılabilir - ve ardından yeni özellikleri katman katman yapı taşları gibi ekliyoruz.
Anahtar nokta, her iyileştirmenin ölçeklenebilirliğini farklı ölçeklerde kesin olarak doğrulamaktır: sadece performans iyileştirmelerini görmekle kalmayıp, aynı zamanda model ölçeği genişledikçe bu iyileştirmelerin etkili olmaya devam etmesini sağlamak. Birçok iyileştirme küçük ölçekli testlerde iyi performans gösterir, ancak büyük ölçekli uygulamalarda başarısız olur.
Bu nedenle, tüm süreç boyunca yüksek derecede tetikte kaldık ve genişleme yasası metodolojimizi yinelemeye ve geliştirmeye devam ettik. Bu risk kontrol uygulaması sayesinde, gelecekteki GPT serisi modellerin geliştirilmesine rehberlik etmeye devam edecek çok değerli deneyimler edindik.
Amin Tootoonchian: Çok özlediğim özellikle ilginç bir anı hatırlıyorum. Biliyorsunuz, neredeyse her eğitim görevine başladığımızda çeşitli hatalarla karşılaşıyoruz. Bu zaten sıradan bir şey. Ancak anahtar nokta, ilerlemenin engellenmemesini sağlamak ve mevcut ilerlemenin gerçekten doğru yolda olup olmadığını ve bu hataların eğitimin sağlığı üzerinde ölümcül bir etkisi olup olmayacağını her zaman doğrulamaktır.
Başlangıçta büyük kusurlar olduğuna çok emin olsak da, oluşturduğumuz tüm izleme sistemi sayesinde, sorunun temel nedenini doğru bir şekilde ayırt edebildik: Bu bir donanım arızası mı? Ne tür bir donanım arızası? Veri bozulması mı? Yoksa makine öğrenimi modelinin kendisindeki bir hata mı? Yoksa koddaki bir yarış durumu mu?
O zamanlar, çeşitli semptomlarla aynı anda açık olan birden fazla sorun tartışma alanımız vardı. Bir dizi hata düzeltmesinden sonra, sıkıştık: önümüzde çözülmemiş birden fazla sorun vardı ve herkes beynini yoruyordu - bunlar farklı hatalardan mı kaynaklanıyordu? Yoksa işte bir hata mı?
Daha sonra, ekip üyelerinin en olası temel neden için oy kullanmasına izin vermek için bir oylama yaptık. En az umut vadeden seçenek gerçeği vurdu: Pytorch’un yukarı akışında basit bir toplama işlemi olan torch.sum fonksiyonuyla ilgili bir sorun olduğu ortaya çıktı.
Bu hata özellikle ilginç. Biliyorsunuz, biz ağırlıklı olarak Triton çekirdeğini kullanıyoruz ve bazı önemsiz kenar senaryolarında yalnızca meşale işlemlerine geri döneceğiz. Ve belirli kod yolumuz tarafından tetiklenen torch.sum fonksiyonu hatası, veri dağıtım özelliklerinden dolayı yanlışlıkla yasa dışı bellek erişimine neden olacaktır - bellek ofsetini hesaplarken hata yaptı.
En dramatik şey, bir mühendis sorunu sonunda tespit edip bir düzeltme gönderdiğinde, farklı semptomlara sahip tüm hata raporlarının kaybolmasıdır. Herkes heyecanla Slack kanalını ‘çoklu hata teorisinden’ ‘tek hata teorisine’ değiştirdi ve sahne çok mutluydu.
Bu hata ne kadar süredir gizleniyor? Eğitimin ilk aşamalarından beri vardı ve ilerleme çubuğu yaklaşık %40’ı geçene kadar tanımlanmadı. Keşif süreci de drama doluydu: o zamanlar, karmaşık bir çekirdek dizileri sırayla çağırdı ve ikinci çağrı yasa dışı bellek erişimini tetikledi.
Bu çökme frekansı son derece düşük olmasına rağmen (yalnızca her birkaç yüz veya bin eğitim adımında bir meydana gelir), ara sıra bir arıza olarak göz ardı edilmesi kolaydır, ancak ekibimizin yönergesi şudur: herhangi bir anormalliğe asla izin vermeyin. Bu hikayenin en iyi yanı, kolayca pes etmeme konusunda bu azimde yatıyor.
Sam Altman: GPT-4.5 ön eğitimi başlatıldıktan sonra başka ne yapmanız gerekiyor?
Alex Paino: Hepimiz sık sık kayıp eğrisini gözlemlemeliyiz. Ek olarak, sistemi optimize etmeye ve eğitime başlamadan önce tamamlanmayan ortak tasarımı iyileştirmeye devam etmemiz gerekiyor. Eğitim süreci boyunca herhangi bir beklenmedik eğilim olmadığından emin olmak için çeşitli istatistikleri yakından izliyoruz. Aynı zamanda, makine öğrenimi perspektifinden olası iyileştirme planlarını araştırıyoruz. Veri düzeyi çalışması ön eğitim başlatıldıktan sonra geçici olarak azaltılsa da, işlenecek hala çok fazla görev var.
Amin Tootoonchian: Bence makine öğrenimi büyük ölçüde doğruluk yargısına bağlı. Ön eğitim başlatıldıktan sonra, çok miktarda gürültü sinyaliyle karşı karşıya kaldığımızda, çay tortusunu yorumlayan falcılar gibiyiz ve sistemin sağlıklı olup olmadığına karar vermemiz gerekiyor. Bu bizim sorumluluğumuz.
Sam Altman: Sistem düzeyinde, model eğitimini yürütmemizi ne sınırlandıracak? Çip, işlemci, bellek, ağ veya güç kaynağı mı?
Amin Tootoonchian: Sistemin güzelliği, işbirlikçi tasarım yaparken, iş yükünün oluşturduğunuz altyapıya uyum sağlayabilmesidir. Ağın darboğaz olduğu veya bellek bant genişliğinin darboğaz olduğu vb. gibi evrensel bir söz yoktur. Aynı spesifikasyondaki modeller için bile, kaynak gereksinimlerini aktarmayı seçebiliriz. Daha dengeli bir sistem oluşturmayı seçebiliriz, ancak daha fazla bellek bant genişliğine sahip olmak her zaman faydalıdır. Sınırlayıcı koşullar olmadan bu soruyu yanıtlamak zordur.
GPT-4.5’i tasarlarken, sistemde belirli bir özniteliğe sahip olmamız gerekebilir ve bu özniteliğin insan rehberliği yoluyla oluşturulması gerekir. Bu nedenle, işbirlikçi tasarım, model mimarisini ve mimari unsurları oluşturmak için çok önemlidir ve bir dereceye kadar sistemi ve makine öğrenimi yönlerini birbirine bağlar. Sistemde çok fazla sahip olmak istemediğimiz bir öznitelik varsa. İdeal durumum, her şeyin birbirinden ayrılması ve birbirine en büyük alanı vermesidir.
Bazen işler birbirine bağlıdır ve altyapının gereksinimlerini karşılamamız gerekir veya işler böyle olmalıdır. Çoğu zaman, dengeli bir sisteme, dengeli bir iletişime ihtiyacımız var. Ve sahip olduğumuz en iyi düzenleme araçları tüm bu işbirlikçi tasarımlardır.
Sam Altman: Böyle bir ideal sistem hedefine ne kadar yakınız?
Amin Tootoonchian: O hedeften çok uzağız. Bir sistem oluşturma süreci her zaman böyledir: önce işlerin nasıl çalışması gerektiğine dair idealize edilmiş bir görüş vardır ve sonra bu farklılıklar mevcut kaynaklarla uzlaştırılır.
Teori için teori yapmadığımızı düşünüyorum, sadece ne olmasını istediğimizi tartışmak, onu gerçekleştirmek ve o ideale olabildiğince yaklaşmak için. Belki de sistem alanının en heyecan verici kısmı budur. İnsanlar bunun zarif bir sistem tasarımı olduğunu söylerdi ve sonunda tarih bize bu seçimin doğru olup olmadığını söyleyecektir.
Sam Altman: Bir sonraki büyük eğitimden önce bir makine öğrenimi sorusunun cevabını alabilseydiniz, en çok neyi bilmek isterdiniz?
Alex Paino: Sınırlı veri ve belirli alanlar altında hangi algoritmaları kullanmamız gerektiğini bilmek istiyorum. Bu geniş bir soru olmasına rağmen, gerçekten de en kritik olanı bu.
Sam Altman: Gelecekte 10 milyon veya daha fazla GPU ile senkron ön eğitim yapacak mısınız?
Alex Paino: Bence olacak, ancak geleneksel ön eğitim modeli olmayabilir. Biçimi mevcut teknolojilerden çok farklı olabilir, ancak yine de denetimsiz öğrenmenin özünü koruyacaktır.
Amin Tootoonchian: Yarı senkron bir modeli tercih ederim. Fizik yasaları nedeniyle, tam senkronizasyon çok gerçekçi değildir.
Daniel Selsam: Bence merkeziyetsiz olması daha olası. Öğrenen ve görevleri yerine getiren bir AI sisteminde kesinlikle birlikte çalışan 10 milyon GPU olacak, ancak beynin çeşitli bölümleri gibi, mutlaka birbirleriyle iletişim kurmayabilirler.
Sam Altman: Mevcut en gelişmiş algoritmalar ile insan veri verimliliği arasında ne kadar fark var? Gelecekte yetişmek mümkün mü?
Daniel Selsam: İkisini doğrudan karşılaştırmak zor. Dil öğrenimindeki boşluk kesinlikle çok büyük. Anahtar nokta, insan görme sinirleri tarafından alınan bilgi miktarını nasıl tanımlayacağınızdır. Bence algoritmaların genel veri verimliliği insanlardan çok daha düşük.
On yıllardır, derin öğrenme bilgi işlem verimliliğine odaklandı. Veri ve bilgi işlem gücünün büyümesine ek olarak, gerçekten şaşırtıcı olan şey, algoritma iyileştirmelerinin ürettiği üst üste binme etkisidir. Algoritma performansı her %10 veya %20 iyileştirildiğinde, veri verimliliğine eklendiğinde önemli bir etkiye sahip olacaktır. Şimdiye kadar, verilerin akmadığı ve bilgi işlem gücünün sınırlı olduğu durumlarda değersiz olduğu için veri verimliliği etrafında böyle bir seferberlik olmadı.
Şimdi, yeni bir AI araştırma aşamasına giriyoruz ve veri verimliliği zaferleri biriktirmeye başlayacağız. Aşılmaz engellerle karşılaşacağımızı şimdi tahmin etmek biraz aptalca olduğunu düşünüyorum. İnsan beyninin çalışma şekli kesinlikle algoritma iyileştirmelerimizden farklıdır ve bu konuda dikkatli olmalıyız. Ancak algoritmaların gelecekteki gelişimi konusunda iyimser kalmamız gerektiğini düşünüyorum.
Sam Altman: Daha büyük ölçekli ön eğitim ile modelin daha güçlü öğrenme ve akıl yürütme yetenekleri arasında nasıl bir ilişki var?
Alex Paino: Gözlemlediğimiz şey, daha iyi ön eğitim ve denetimsiz öğrenmenin modelin genel zekasını geliştirme eğiliminde olması ve akıl yürütme yeteneğine tamamlayıcı olan genellemeye büyük ölçüde yardımcı olması, akıl yürütme zekayı geliştirmede biraz daha donuk olabilir. Bence bunlar tamamlayıcı.
Sam Altman: Ön eğitim birçok şeyde evrensel gibi görünüyor, oysa bir modeli eğitmek onu sadece bir tür şeyde iyi yapabilir, doğru mu?
Alex Paino: Bu çok ilginç, ancak onları eğiten verileri gördüğünüzde, bu duruma şaşırmayacaksınız. Ön eğitim veri kümesi aralığı çok geniş ve takip ettiğimiz şey genişlik ve çeşitlilik. Model takviye öğrenimine ve onu açıkça iyi ödül sinyalleri ve iyi bir eğitim ortamı elde etmeye gelince, veri kümesinin genişliğini hesaba katmanın zor olduğunu düşünüyorum.
Daniel Selsam: Katılıyorum, ancak bence başka bir faktör var. Ön eğitim esasen verileri sıkıştırmak, böylece farklı şeyler arasındaki bağlantıları keşfetmek. Analoji ve daha soyut olmakla ilgili. Akıl yürütme, belirli bir konuda dikkatli düşünmeyi gerektiren bir beceridir ve aynı zamanda birçok tür sorun için çözümler elde edebilir. Ancak ön eğitim sürecinde, farklı alanlarda verileri sıkıştırırken daha soyut bilgi öğrenilebilir.
Sam Altman: Denetimsiz öğrenme neden etkili?
Daniel Selsam: Anahtar nokta sıkıştırmadır. Zekanın ideal biçimi Solomonov indüksiyonudur. Genel olarak, makine öğrenimi tüm olasılıkları dikkate alacak, ancak test için daha basit programlarla başlamaya eğilimlidir.
Mevcut ön eğitimin özü, insanların şimdiye kadar ürettiği tüm verileri açıklamak için en basit programı bularak yaklaşık ifadeye ulaşan bir sıkıştırma sürecidir.
Sam Altman: Bir sonraki Token tahmini sıkıştırma elde etmeye nasıl yardımcı olur?
Daniel Selsam: İstatistiklerde bir paradoks var - derin ağlar neden sıkıştıramıyor gibi görünüyor ama genelleme sağlayabiliyor? Normalde, çok fazla veriye ve bazı küçük modellere sahip olduğunuzda, bu modeller bir şeyler öğrenmek için sıkıştırmadan geçmelidir.
Ön eğitimde, hem verilerin hem de modellerin ölçeği çok büyüktür. Bazı insanlar bu eğitimin sadece hafıza ve enterpolasyon öğrenimi olduğunu düşünüyor. Aslında, sıkıştırmayı anlamanın başka bir perspektifini göz ardı ediyorlar - önceden sıralı sıkıştırma. Bir kompresör gibidir. Veri ağırlığı çok büyük olsa bile, ikili bu bilgiyi depolamasına gerek yoktur. Bir sonraki Token tahmininin sonucu, yararlı bilgileri hızla alabilir ve sıkıştırma verimliliğini artırabilir.
Sam Altman: GPT-4.5’i eğitme süreci çok fazla insan gücüne, zamana ve paraya mal oldu ve aslında Ölçekleme Yasası’nı doğrulayan bir deney olarak kabul edilebilir ve sonuçlar etkili olduğunu ve uzun süre devam edeceğini kanıtlıyor. Ölçekleme Yasası neden evrenin yasası olarak adlandırılabilir?
Daniel Selsam: Sıkıştırma derecesi ne kadar yüksekse, zeka da o kadar güçlüdür, bu da derin felsefi çıkarımlar içerir. Daha büyük modelleri eğitmek neden daha uzun sürüyor ve sıkıştırma oranı daha yüksek? Bu, aralarında Seyrek Temsiller’i beğendiğim birçok teoriyi içeriyor.
Gerçekteki temel kavramlar bir güç yasası dağılımını izler. Örneğin, en önemli 100. kavram her 100 belgede yalnızca bir kez görünebilir ve belirgin bir uzun kuyruk etkisi vardır. Bu dağıtım özelliği, tüm temel kavramları etkili bir şekilde yakalamak için büyük ölçekli verilere ve bilgi işlem gücüne ihtiyaç duyulduğu ve ayrıca Ölçekleme Yasası’nın uzun süre etkili olacağını belirlediği anlamına gelir.