OpenAI, GPT-4.5’in geliştirilmesine dair nadir bir bakış sunarak, modelin yayınlanmasından bir aydan fazla bir süre sonra detayları paylaştı. OpenAI’nin kurucu ortağı ve CEO’su Sam Altman, GPT-4.5 projesinden üç kilit teknik figürle birlikte 45 dakikalık açık bir sohbet gerçekleştirdi. Tartışma, önemli zaman aşımıları, bilgi işlem kümesindeki sık arızalar ve performans iyileştirmesine yönelik öngörülemeyen yollar dahil olmak üzere daha önce bilinmeyen bir dizi zorluğu ortaya çıkardı.
GPT-4.5’in Doğuşu: İki Yıllık Bir Destan
GPT-4.5 girişimi, lansmanından iki yıl önce tasarlanmış olup OpenAI’nin bugüne kadarki en titizlikle planlanmış girişimini temsil ediyordu. Yüzlerce kişinin ortak çabasını gerektirdi ve Altman, projenin OpenAI’deki ‘neredeyse herkesi’ etkili bir şekilde dahil ettiğini belirtti. Bu yaygın katılım, GPT-4.5’in organizasyonun daha geniş misyonu içindeki stratejik öneminin altını çiziyor.
Geliştirme aşamasında OpenAI ekibi, ‘feci sorunlar’ olarak adlandırdıkları durumlarla karşılaştı. 100.000 GPU’luk bir kümenin dağıtımı, seyrek ancak derin arızalar olarak ortaya çıkan gizli altyapı güvenlik açıklarını açığa çıkardı. Hız ve optimum performans arasında bir denge kurmak için sistem mühendisleri, esasen aynı anda ‘inşa etme ve düzeltme’ şeklinde yinelemeli bir yaklaşım benimsedi. Özellikle yakalanması zor bir hata, eğitim süreci yaklaşık %40 tamamlanana kadar tespit edilemeyen, yinelenen hatalarla kümeyi rahatsız etti.
Paradoksal olarak, bu denemeler OpenAI’nin teknik temelini güçlendirmeye katkıda bulundu. Kazanılan uzmanlık, artık sadece 5-10 kişiden oluşan yalın bir ekibin GPT-4’ün büyüklüğünde bir modeli çoğaltmasını sağlıyor. GPT-4’ten GPT-4.5’e olan ve yaklaşık on katı olarak tahmin edilen performans sıçraması, OpenAI içindekileri bile şaşırtan ‘ölçülmesi zor ancak kapsamlı bir şekilde geliştirilmiş zeka’ ile karakterize edildi. Bu niteliksel sıçrama, sadece ölçeklendirmenin ötesinde gelişmelere işaret ediyor ve modelin akıl yürütme ve anlama yeteneğindeki temel iyileştirmelere işaret ediyor.
İleriye dönük olarak, OpenAI, performansta bir sonraki büyüklük sırasına ulaşmanın yalnızca bilgi işlem gücüne değil, daha ziyade veri verimliliğine bağlı olacağını kabul ediyor. Odak noktası, mevcut veri kümelerinden daha fazla bilgi çıkarabilen algoritmalar geliştirmeye ve böylece mevcut bilgi işlem kaynaklarının faydasını maksimize etmeye kayıyor.
Ayrıca, mimari, tek kümeden çok kümeli bir tasarıma evriliyor ve gelecekte 10 milyon kadar GPU arasında işbirlikçi öğrenmeyi içeren eğitim senaryoları öngörülüyor. Bu geçiş, bu kadar büyük ölçekli dağıtık sistemlerin kararlılığını ve güvenilirliğini sağlamak için arıza toleransında önemli iyileştirmeler gerektiriyor.
Sohbet ayrıca verinin ‘uzun kuyruğu’ ve ölçeklendirme yasaları arasındaki ilişkiyi, makine öğrenimi ve sistem ekipleri arasındaki yakın işbirliğinin (ortak tasarım) avantajlarını, denetimsiz öğrenmenin özünü ve titiz problem çözme kültürünü inceledi.
GPT-4.5’in Arkasındaki Kilit Oyuncular
Altman’ın yanı sıra bu sohbete katılan diğer üç OpenAI ekip üyesi şunlardı:
- Alex Paino: GPT-4.5’in ön eğitim makine öğrenimi algoritmalarından sorumlu.
- Amin Tootoonchian: OpenAI’nin baş sistem mimarı.
- Daniel Selsam: Veri verimliliği ve algoritmalar üzerine araştırma yapıyor.
GPT-4.5’in Kökenleri ve Evrimi
Sam Altman: GPT-4.5 kadar büyük bir model oluşturmak gerçekten ne gerektiriyor?
Alex Paino: Bu projeye yaklaşık iki yıl önce başladık. O zamanlar, OpenAI yeni bir büyük bilgi işlem kümesi başlatmak üzereydi ve ekibimiz bu fırsatı gördü ve modelin içermesi gereken işlevleri belirlemek ve çok sayıda risk azaltma operasyonları testi yapmak için bir dizi görev gerçekleştirdi.
Sistemden makine öğrenimine kadar tüm teknoloji yığınıyla ilgili uzun bir plan geliştirdik. Riskleri azaltmak ve eğitime hazırlanmak uzun bir yürütme sürecidir ve eğitimin kendisi de çok büyük bir projedir.
Amin Tootoonchian: Bence bu süreç, makine öğrenimi ekibi ile sistem ekibi arasında, hangi modeli eğitmek istediğimizi açıkça bilene ve ardından eğitime başlayana kadar başından itibaren yakın işbirliği gerektiriyor.
Makine öğrenimi ve sistemlerde tahminler yaparak beklentilerle gerçeklik arasındaki boşluğu en aza indirmeye çalıştık. Ancak, çalışma ritmimiz çok hızlı olduğundan ve en son bilgi işlem kaynaklarını kullanmak zorunda olduğumuzdan, model eğitimi önceden mükemmel bir şekilde planlaması zor bir şey haline geldi.
Neredeyse her zaman birçok çözülmemiş sorunla eğitime başlıyor ve süreç boyunca zorlukların üstesinden gelmeye ve ilerleme kaydetmeye çalışıyoruz. Ana çözüm, daha fazla bilgi işlem kaynağı artırmaktır.
Son aşama, birçok insanın eğitim sürecini tamamlamak için uzun süre boyunca çok fazla enerji ve motivasyon yatırımını gerektiren yürütmedir.
Sam Altman: Beklentilerimiz ile gerçeklik arasındaki boşluk sence ne kadar?
Amin Tootoonchian: Sistem açısından, başlangıçta, genellikle beklenen durumdan çok uzağız. Her zaman bir seçimle karşı karşıyayız: lansmanı erteleyip sorunun çözülmesini mi bekleyelim, yoksa erken başlayıp sorunu süreç içinde mi çözelim. Bu, süreçte mantıksız gecikmelerden kaçınmak için her zaman ödünleşimler gerektirir.
Ancak neredeyse her zaman beklenmedik sorunlar vardır ve yapmamız gereken şey, bu düğümleri mümkün olduğunca ele almak, bilinmeyen faktörlerle başa çıkmak ve model eğitimi için bir plan formüle etmektir.
Alex Paino: Bu projede amacımız GPT-4.5’i yapmak, bu da yeteneklerinin GPT-4’ten 10 kat daha akıllı olması gerektiği anlamına geliyor. Bu, yaklaşık 2 yıl önce belirlediğimiz ilk hedef.
Bu süreçte birçok şey oldu. Beklenenden daha iyi mi yoksa daha kötü mü yapabiliriz diye düşünüyorduk? Bu çok karmaşık bir süreç, ancak sonunda, yaptığımız etkili hesaplamalar açısından, GPT-4’ten 10 kat daha akıllı olduğunu düşündüğümüz bir model elde ettik.
Amin Tootoonchian: Yürütme açısından, GPT-4.5 projesine harcanan süre, başlangıçta beklediğimizden çok uzak.
Yalın Ekip Devrimi: Minimum Kaynakla GPT-4’ü Eğitmek
Sam Altman: Küme 10.000 karttan 100.000 karta genişlediğinde neden bu kadar çok sorunla karşılaştınız?
Amin Tootoonchian: Bence sistem geliştiricileri yeterince hassas ise, çoğu sorun küçük ölçekli aşamada gözlemlenebilir.
Ayrıca, büyük ölçekli eğitim aşamasına özgü olmayan bazı sorunlar da vardır, ancak başlangıçta sık sık meydana geldi, ancak ölçek artırıldıktan sonra feci sorunlar haline gelecektir, özellikle de ekip bu sorunların önceden bu kadar kötüleşeceğini tahmin etmediğinde.
Sam Altman: Hangi şeyler feci sonuçlara neden oldu?
Amin Tootoonchian: Bence altyapı sorunları iyi bilinmektedir. Arıza oranı, arıza türü ve toplam arıza miktarı çok yüksek. 100.000 kartlık küme, büyük ölçekli bir örnek havuzu olduğundan, bilgi işlem gücü sağlayıcısının gözlemlemediği sorunları da keşfettik.
Ağ bunun bir parçasıdır ve bireysel hızlandırıcılar da sorun yaşayabilir. Ancak bu da bu sistemin güzelliğidir - beklenen sonuçları üretmek için neredeyse tüm bileşenlerin beklendiği gibi çalışması gerekir. İşimiz bu sorunu olabildiğince en aza indirmektir.
Sam Altman: Küme ölçeğinin sınırında çalışmak gerçekten zor, ancak teknolojinin ön saflarında olmayan şeyleri yapmanın çok daha kolay hale geldiğini de fark ettim. GPT-4.5’i eğitmek yüzlerce insanı gerektiriyor ve OpenAI’deki neredeyse herkes dahil oluyor.
Ancak bugün, OpenAI’den en küçük bir ekip seçmenize ve bildiğimiz tüm bilgi ve tüm sistem çalışmalarıyla GPT-4’ü sıfırdan yeniden eğitmenize izin verirseniz, kaç kişi gerekir?
Alex Paino: Bence şimdi bir GPT-4 seviyesinde model yapmak yaklaşık 5 ila 10 kişi alabilir. Teknoloji yığını, GPT-4.5’i tamamlama sürecinde büyük ölçüde geliştirildi.
Aslında, GPT-4.5’i eğitme sürecinde benzer şeyler yaptık - GPT-4 seviyesinde bir model olan GPT-4o’yu eğittik ve GPT-4.5 araştırma projesinden birçok aynı içeriği kullanarak yeniden eğittik. O eğitim için daha az insan kullanıldı.
Veri Verimliliği: Yeni Nesil Modellerin Kilidini Açmanın Anahtarı
Sam Altman: Senin perspektifinden, Dan? Büyük modelleri eğitmek neden zor?
Daniel Selsam: Bence yeni bir şey yapmak zor. Bence bir başkasının bir şey yaptığını keşfetmek bile çok daha kolay hale getiriyor, çünkü en zor kısmı ilk etapta bir şey yapabileceğinize inanmak. Bence bir şeyin mümkün olduğunu bilmek, işleri çok daha kolay hale getiren süper bir hile kodu.
Alex Paino: GPT ön eğitim operasyonunu olduğundan 10 kat daha genişletiyoruz ve her zaman zorunlu olarak tahmin edemeyeceğiniz bazı ilginç yeni şeyler bulacağız.
Sam Altman: Ön eğitim ölçeğinde bir sonraki 10x veya 100x büyümeyi elde etmek için ne gerekiyor?
Daniel Selsam: Veri verimliliği. Transformer mimarisi (GPT olan), verileri kullanmada çok verimlidir. Bilgileri iyi emebilir ve sıkıştırabilir ve genelleme elde edebilir. En büyük özelliği, bilgi işlem kaynaklarıyla bilgileri verimli bir şekilde emebilmesidir.
Ancak, verilerden elde ettiği içgörü derinliği sınırlıdır. Bilgi işlem gücü hızla büyürken veri nispeten yavaş büyüdüğünde, veri bu standart modelde bir darboğaz haline gelir. Bu, algoritmik yenilik gerektirir, aynı miktarda veriden daha fazla bilgi öğrenmek için daha fazla bilgi işlem gücü kullanabilen yöntemler geliştirmek.
Sam Altman: Bunun yanı sıra genişlemeyi sürdürmek için başka neye ihtiyacımız olduğunu düşünüyorsun?
Amin Tootoonchian: Cevabım sistemle ilgili. Bence GPT-4.5 için gereken muazzam miktarda iş, esasen model özelliklerinin kaçınılmaz sonucu. GPT-4.5’i GPT-4 ile tam olarak aynı teknik mimariyle eğitemeyiz.
Durum yönetimi açısından, gerekli bilgi işlem kaynakları tek bir kümenin taşıma kapasitesini aştığı için, çok kümeli bir eğitim mimarisine geçmemiz gerekiyor. Bu hedefe ulaşmak için, birden fazla farklı iş akışını kısa sürede entegre etmeliyiz.
Bu, aşamalı bir atılım elde etmemize yardımcı olsa da, performans iyileştirmesinin bir sonraki büyüklük sırasına ulaşmak için, bilinen ancak geçici olarak rafa kaldırılan birkaç teknik sorunu çözmemiz gerekiyor - bu sorunlardan kaçınılamaz. Mükemmel bir sistemin geliştirme döngüsünü sürekli olarak uzatan bu tür teknik ödünleşimlerdir. Her zaman optimal bir uygulama planı izleme sürecinde stratejik ödünleşimler yapıyoruz.
Sistemin kendisinin nihai hedef olmadığı açık olmalı. Gerçek çıktı değeri temel husustur. Bir sonraki 10x performans iyileştirmesi için, bence arıza toleransında atılım çok önemli. Operasyon ve bakım kaygısını önemli ölçüde azaltmak için iş yüküyle derinlemesine işbirliği yapan arıza toleranslı bir mekanizma oluşturmamız gerekiyor. Mevcut süper büyük sistemin operasyon ve bakım karmaşıklığı, esasen önceki sistemlerden farklıdır.
Sam Altman: GPT-4.5 eğitimi sırasında arızaların yüzde kaçının belirli bileşenlerden kaynaklandığını biliyor musun?
Amin Tootoonchian: Paylaşacak belirli rakamlarım yok, ancak genel olarak, yeni nesil donanımın ilk dağıtımı genellikle tam olarak anlaşılmayan birçok teknik zorlukla karşı karşıyadır. Sorun tam olarak açıklığa kavuşturulmadan projeyi ilerletmeyi seçtik, bu da yüksek bir başlangıç arıza oranına yol açtı.
Ancak deneyimler, temel nedenin belirlenip çözülmesiyle arıza oranının önemli ölçüde azalacağını gösteriyor. Bu fenomen, esasen altyapı anlayışımızı derinleştirmemizi yansıtıyor - bazı insanlar buna altyapıyı temizlemek veya altyapının temel sorunlarını anlamak diyor.
Yürütmenin erken aşamaları neredeyse her zaman oldukça acı vericidir. Projeyi ilerletirken, sürekli olarak yeni arıza modlarını keşfediyor ve çözüyoruz, ancak sonunda arıza oranı giderek azalacak ve normal çalışma süresi artacaktır.
Bu esasen bir öncelik ödünleşimleri meselesidir: Altyapı yaşam döngüsünün erken aşamalarında, arıza riski genellikle doğru bir şekilde tahmin edilmesi zordur; ve aşırı derecede nihai ideal durumu (orijinali ‘City Estate’, ideal şehir devleti tasarımı) takip edersek, sistemin başlangıçta kullanılabilirlik performansı son derece zayıf olabilir.
Bilgi İşlemin Ötesinde: Algoritmik Yenilik ve Verinin Değerlendirilmemiş Potansiyeli
Sam Altman: Çıkarım modeli, gelecekteki teknoloji yığınımızın önemli bir bileşeni olsa da, geçici olarak geleneksel ön eğitim modellerinin geliştirme sınırlarına odaklanalım. Sınırsız GPU bilgi işlem gücüne, sınırsız ağ bant genişliğine ve sınırsız güç kaynağına sahip olduğumuzu, ancak yine de sistem güvenilirlik sorunları, arıza toleranslı eğitim yöntemlerinin eksikliği ve mevcut veri kümelerinin sınırlamaları dahil olmak üzere mevcut teknik darboğazlarla sınırlı olduğumuzu varsayalım.
Her büyük GPT sürüm numarası için 100 kat ölçek artışı elde etme evrim kuralımıza göre, mevcut teknik sınırlara dayanarak, ön eğitim modellerinin geliştirilmesi hangi düzeye ulaşabilir? Özellikle, GPT serisi modeller için, mevcut bilgi sistemimize dayanarak, teorik olarak ne tür bir model eğitilebilir? GPT-5.5’i yapabilir miyiz?
Alex Paino: Makine öğrenimi ve algoritma geliştirme açısından, henüz net bir teorik sınıra ulaşmadık. Aslında, daha yüksek veri verimliliğine sahip algoritmaları ve mevcut veri kaynaklarını nasıl daha iyi kullanacağımızı keşfetmeye yeni başladık. Bu durum çok ilginç - GPT-4 gibi modeller bile büyük ölçüde sınırlı bilgi işlem kaynakları koşullarında geliştirildi, bu da önceki araştırmaların çoğunun yönünü belirledi.
Ancak durum şimdi tamamen farklı. GPT-4.5’ten buyana,bazı önemli boyutlarda, bilgi işlemden ziyade veri ana sınırlama haline geliyor. Bu değişim, ilgili araştırmayı daha az heyecan verici hale getiriyor.
Sam Altman: Ancak bu gerçekten inanılmaz bir ilerleme ve dünya, inşa edebileceğimiz en iyi modelde bilgi işlem kaynaklarının artık ana darboğaz olmadığını tam olarak anlamayabilir. Bu değişim çok anlamlı, sonuçta çok uzun zamandır bilgi işlem sınırlı bir ortamda yaşıyoruz.
Sürprizlerin Açığa Çıkarılması: Öngörülebilirlik vs. Öngörülemeyen Zeka
Sam Altman: GPT-4.5’in eğitimi sırasında öğrendiğimiz en ilginç makine öğrenimi deneyimi nedir? Sadece paylaşmak istediklerini söyle.
Amin Tootoonchian: Genel olarak, en çok düşündüren şeyler, tahminlerimizden sapanlardır - özellikle de gerçek performansın neden beklenen eğriden saptığını anlamaya çalıştığımızda.
Alex Paino: Bizim için en şaşırtıcı keşiflerden biri, farklı makine öğrenimi bileşenlerinin çok farklı ölçeklenebilirlik performanslarına sahip olmasıdır. Bazı kısımlar çok iyi genişletilebilirken, diğerleri genişletilemez. Bunu gerçekten gerçek eğitim sürecinde fark ettik. Bu deneyim bize çok ilham verdi.
Daniel Selsam: Bence GPT paradigmasının iki temel özelliği şunlardır: birincisi, test kaybı (modelin görülmeyen test verilerinde ne kadar iyi performans gösterdiğini ölçen bir metrik) doğru bir şekilde tahmin edilebilir; ikincisi, model performansı ölçek artışıyla öngörülebilir bir iyileşme gösterir. Daha da şaşırtıcı olanı, test kaybındaki azalmanın, çeşitli zor ölçülen ancak şaşırtıcı ve gizemli yollarla çok yönlü geliştirilmiş bir zeka seviyesine dönüştürülmesidir.
Sam Altman: Bu konuda kesinlikle iyimser misin? Bu bakış açısına tamamen katılıyor musun?
Daniel Selsam: Aslında, söylemek istediğim şey, GPT-4.5 testinde özellikle ilginç bir fenomen bulduk - yeniden test ettikten sonra, modelin gösterdiği birçok karmaşık yetenek herkesin beklentilerini tamamen aştı.
Önceden tanımlanması zor olan çeşitli şekillerde daha akıllı hale geleceğinden eminiz ve bu ince iyileştirmeler, gerçek dağıtımdan sonra kullanıcı memnuniyetinden gözlemlenebilir: daha güçlü sağduyu rezervleri, daha doğru bağlamsal anlama yeteneği ve daha ince anlamsal kavrayış - bu, bu ekstra test kayıplarının getirdiği büyüdür. Bence Ölçeklendirme Yasası bu boyutta mükemmel bir şekilde doğrulandı.
İşbirliğinin Gücü: Uyum İçinde Çalışan Makine Öğrenimi ve Sistem Ekipleri
Sam Altman: Tüm eğitim süreci boyunca en olumlu an neydi? En sevdiğin anı ne? Açıkçası çok acı var, ama umarım bu acı hafifletilmiştir.
Alex Paino: Böyle bir anım var. Eğitim sırasında çok fazla makine öğrenimi çalışması yaptık ve bence süreçte yaptığımız bazı değişiklikler oldukça iyi bir etkiye sahipti, belki beklenenden bile daha iyiydi, bu bizim için çok heyecan verici bir andı.
Amin Tootoonchian: Benim için eğitimle aynı anda altyapı da inşa ediyoruz. Bu performans uçurumunu aşabileceğimize kesinlikle inanıyoruz ve bir planımız var ve herkes bunu uyguluyor, ancak uzun zaman alıyor. Bu zor bir çalışma ve kesinlikle düşündüğümden daha zor. Tahminim yanlıştı ve bu sorunları çözmenin ne kadar süreceğini hafife aldım.
Ekibin sonunda bu kilit sorunların üstesinden geldiği ve performansın önemli ölçüde iyileştiği an hala aklımda. Tüm ekipteki enerji değişimini açıkça hissedebilirsiniz - herkes aniden enerjiyle dolup yeni bir motivasyonla nihai hedefe doğru koşuyor.
En şaşırtıcı şey, durum izleyicimizde görüntülenen tahmini tamamlama süresinin başlangıçtaki iki yıldan kısalmaya devam etmesi ve sonunda net bir zaman düğümüne kilitlenmesidir. Bu görünür ilerleme, ekibin moralini artırmak için ölçülemezdir. Bence bunun güzelliği bu.
Makine öğrenimi çalışmasının hiç durmadığını vurgulamak isterim. Eğitim başladıktan sonra bile, bu makine öğrenimi ortak tasarım süreci hala devam ediyor. Makine öğrenimi ekibi, ‘sonraki işlem’ olarak işaretlenmiş sorunları aktif olarak takip etmekle kalmadı, aynı zamanda eğitim süresini gerçekten optimize eden iyileştirmeler sunmaya devam etti.
Bu, ekip ruhumuzu mükemmel bir şekilde somutlaştırıyor - burada ‘kendi kapının önündeki karı süpürme’ iş sınırı yok, ancak gerçekten kusursuz bir işbirliği var. Bu uyum en büyük avantajımızdır.
GPT-4.5 Ön Eğitiminde Titiz Planlama ve Anormalliklerin Amansız Takibi
Daniel Selsam: Dış dünya, bu eğitimin kendisinin zorlukları ve öngörücü doğruluğu hakkında çok şey tartıştı. Ancak gerçekte, tüm bunlar son derece titiz bir planlamaya dayanıyor - bu konuda daha ayrıntılı konuşabilir misin?
Alex Paino: Bu kesinlikle şimdiye kadar yaptığımız en titiz plan. Dediğim gibi, bu projeye eğitime resmi olarak başlamadan bir yıl önce hazırlanmaya başladık. Bu süre zarfında, çok sayıda büyük ölçekli risk kontrolü test çalışması gerçekleştirdik.
Tüm iyileştirmeleri kademeli olarak tanıtmaya özellikle dikkat ediyoruz: yüksek güvene sahip temel bir yapılandırmadan başlayarak - makine öğrenimi seviyesinde tam olarak ustalaştığımız GPT-4’e benzer olgun bir mimari olarak anlaşılabilir, ve sonra yapı taşları gibi yeni özellikleri katmanlayarak.
Buradaki anahtar, her iyileştirmenin ölçeklenebilirliğini farklı ölçeklerde kesin olarak doğrulamaktır: sadece performans iyileştirmelerini görmekle kalmayıp, aynı zamanda model boyutu arttıkça bu iyileştirmelerin etkili olmaya devam etmesini sağlamaktır. Birçok iyileştirme küçük ölçekli testlerde iyi performans gösterir, ancak büyük ölçekli uygulamalarda başarısız olur.
Bu nedenle, süreç boyunca yüksek derecede tetikte kaldık ve ölçeklendirme yasası metodolojimizi yinelemeye ve iyileştirmeye devam ettik. Bu risk kontrolü uygulaması yoluyla, gelecekteki GPT serisi modellerin geliştirilmesine rehberlik etmeye devam edecek olan çok değerli deneyimler biriktirdik.
Amin Tootoonchian: Çok özlediğim özellikle ilginç bir anıyı hatırlıyorum. Biliyorsunuz, neredeyse kaçınılmaz olarak her eğitim görevine başladığımızda çeşitli hatalarla karşılaşıyoruz, bu olağan bir şey. Ancak buradaki anahtar, ilerlemenin engellenmemesini sağlamaktır ve mevcut ilerlemenin gerçekten doğru yolda olup olmadığını ve bu hataların eğitimin sağlığı üzerinde ölümcül bir etkisi olup olmayacağını her zaman doğrulamamız gerekiyor.
Başlangıçta büyük kusurların olduğundan çok emin olsak da, inşa ettiğimiz tüm izleme sistemi aracılığıyla sorunun temel nedenini doğru bir şekilde ayırt edebildik: Bir donanım arızası mı? Ne tür bir donanım arızası? Bir veri bozulması mı? Yoksa makine öğrenimi modelindeki bir hata mı? Yoksa kodda bir yarış durumu mu?
O zamanlar, aynı anda açık olan çok sayıda sorun tartışma alanımız vardı ve çok çeşitli belirtiler vardı. Bir dizi hata düzeltmesinden sonra bir çıkmaza girdik: önümüzde çözülmemiş birden fazla sorun yığılmıştı ve herkes beynini yoruyordu - bunlar farklı hatalardan mı kaynaklanıyordu? Yoksa sorun çıkaran bir hata mı?
Daha sonra bir oylama yaptık ve ekip üyelerinden en olası temel nedene oy vermelerini istedik. Sonuç olarak, en az iyimser seçenek gerçeği vurdu: PyTorch’in yukarı akışındaki torch.sum fonksiyonunda, basit bir toplama işleminde bir sorun olduğu ortaya çıktı.
Bu hata çok ilginç. Biliyorsunuz, esas olarak Triton çekirdeğini kullanıyoruz ve yalnızca bazı önemsiz marjinal senaryolarda torch işlemlerine geri döneceğiz. Belirli kod yolumuz tarafından tetiklenen torch.sum fonksiyonu hatası, veri dağıtım özelliklerinden dolayı zaman zaman yasa dışı bellek erişimine neden olacaktır - bellek ofsetini hesaplarken bir hata yaptı.
En dramatik şey, bir mühendis sonunda sorunu bulup bir düzeltme gönderdiğinde, farklı belirtileri olan tüm hatalar kayboldu. Herkes heyecanla Slack kanalını ‘çoklu hata teorisinden’ ‘tek hata teorisine’ çevirdi ve sahne çok mutluydu.
Bu hata ne kadar süredir pusuda bekliyordu? Eğitimin erken aşamalarından beri var ve ilerleme çubuğu yaklaşık %40’ı geçene kadar bulunamadı. Keşif süreci de drama doluydu: O zamanlar, karmaşık bir çekirdek sürekli olarak bir diziyi çağırdı ve ikinci çağrı yasa dışı bellek erişimini tetikledi.
Bu çökme sıklığı son derece düşük olmasına rağmen (sadece birkaç yüz hatta binlerce eğitim adımında bir meydana gelir), ara sıra meydana gelen bir arıza olarak göz ardı edilmesi kolaydır, ancak ekip prensibimiz şudur: herhangi bir anormalliğe asla izin verme. Bu hikayenin en iyi yanı, kolayca pes etmeme konusundaki bu ısrarda yatıyor.
İdeal Sistemler Arayışı: Uzak BirUfuk
Sam Altman: GPT-4.5 ön eğitimi başladıktan sonra, başka ne yapmanız gerekiyor?
Alex Paino: Hepimizin sık sık kayıp eğrisini gözlemlemesi gerekiyor. Ayrıca, sistemi sürekli olarak optimize etmemiz ve eğitim başlamadan tamamlanamayan ortak tasarımı iyileştirmemiz gerekiyor. Beklenmedik anormal eğilimlerin olmadığından emin olmak için eğitim süreci boyunca çeşitli istatistiksel göstergeleri yakından izliyoruz. Aynı zamanda, makine öğrenimi perspektifinden olası iyileştirme planlarını araştırıyoruz. Veri düzeyinde çalışma ön eğitim başladıktan sonra geçici olarak azaltılsa da, işlenecek çok sayıda görev hala var.
Amin Tootoonchian: Bence makine öğrenimi büyük ölçüde yargının doğruluğuna bağlı. Ön eğitim başladıktan sonra, çok sayıda gürültü sinyaliyle karşı karşıya kaldığımızda, çay yapraklarını yorumlayan falcılar gibiyiz ve sistemin sağlıklı olup olmadığını yargılamamız gerekiyor. Bu bizim sorumluluğumuz.
Sam Altman: Sistem düzeyinde, model eğitimini yürütmemizi engelleyen şey nedir? Çipler mi, işlemciler mi, bellek mi, ağ mı yoksa güç mü?
Amin Tootoonchian: Sistemin güzelliği, ortak tasarım yaparken, iş yükünün inşa ettiğiniz altyapıya uyum sağlayabilmesidir. Burada ağın darboğaz olduğu veya bellek bant genişliğinin darboğaz olduğu gibi genel bir söylem yoktur. Aynı özelliklere sahip modeller için bile, kaynak gereksinimlerini aktarmayı seçebiliriz ve daha dengeli bir sistem oluşturmayı seçebiliriz, ancak daha fazla bellek bant genişliğine sahip olmak her zaman faydalıdır. Bu soruyu sınırlayıcı koşullar olmadan yanıtlamak zordur.
GPT-4.5’i tasarlarken, sistemin insan rehberliğinde oluşturulması gereken bir tür özelliğe sahip olması gerekebilir. Bu nedenle, ortak tasarım, model mimarisini ve mimari unsurları oluşturmak ve bir dereceye kadar sistemi ve makine öğrenimi yönlerini birbirine bağlamak için çok önemlidir. Sistem, çok fazla olmasını istemediğimiz bir özelliğe sahipse, ideal durumum, her birine maksimum alan vermek için her şeyin ayrılması gerektiğidir.
Bazen işler birbirine bağlıdır ve altyapının gereksinimlerini karşılamamız gerekir veya işler böyle olmalıdır. Çoğu zaman, dengeli bir sisteme ve dengeli bir iletişime ihtiyacımız var. Ve sahip olduğumuz en iyi ayarlama araçları tüm bu ortak tasarımlardır.
Sam Altman: Bu ideal sistem hedefine ne kadar yakınız?
Amin Tootoonchian: O hedefe hala çok uzaktayız. Bir sistem inşa etme süreci her zaman böyledir: önce işlerin nasıl çalışması gerektiğine dair idealize bir görüş vardır ve sonra bu farklılıklar mevcut kaynaklarla uzlaştırılır.
Bence teorik teori için yapmıyoruz, sadece ne olmasını istediğimizi tartışmak, onu gerçekleştirmek ve o ideale olabildiğince yaklaşmak için yapıyoruz. Belki de sistem alanının en heyecan verici yanı budur. İnsanlar eskiden bunun zarif bir sistem tasarımı olduğunu söylerdi ve sonuçta tarih bize bu seçimin doğru mu yoksa yanlış mı olduğunu söyleyecektir.
Sam Altman: Bir sonraki büyük eğitimden önce bir makine öğrenimi problemine cevap alabilseydiniz, en çok neyi bilmek isterdiniz?
Alex Paino: Sınırlı veri ve belirli alanlar altında hangi algoritmaları kullanmamız gerektiğini bilmek isterdim. Bu geniş bir soru olsa da, gerçekten en kritik olanı.
Sam Altman: Gelecekte 10 milyon veya daha fazla GPU ile eşzamanlı ön eğitim yapacak mısınız?
Alex Paino: Bence olacak, ancak geleneksel bir ön eğitim modeli olmayabilir. Biçimi mevcut teknolojiden çok farklı olabilir, ancak yine de denetimsiz öğrenmenin özünü koruyacaktır.
Amin Tootoonchian: Yarı eşzamanlı modu tercih ederim. Fiziksel yasalar nedeniyle, tam senkronizasyon gerçekçi değildir.
Daniel Selsam: Bence merkezi olmayan olması daha olası. Bir yapay zeka sisteminde öğrenme ve görevleri yerine getirme için kesinlikle birlikte çalışan 10 milyon GPU olacak, ancak beynin çeşitli bölümleri gibi, birbirleriyle iletişim kurmaları gerekmeyebilir.
Algoritmik İyileştirmelerin ve Veri Verimliliğinin Sinerjik Gücü
Sam Altman: En gelişmiş algoritmalar ve insan veri verimliliği arasındaki boşluk ne kadar büyük? Gelecekte yetişmeyi umabilir miyiz?
Daniel Selsam: İkisini doğrudan karşılaştırmak zordur. Dil öğrenimindeki boşluk kesinlikle çok büyük. Buradaki anahtar, insan görsel sinirleri tarafından alınan bilgi miktarını nasıl tanımlamaktır. Bence algoritmalar genellikle insanlardan çok daha az veri verimlidir.
Derin öğrenme onlarca yıldır bilgi işlem gücü verimliliğine odaklandı. Veri ve bilgi işlem gücünün büyümesine ek olarak, gerçekten şaşırtıcı olan şey, algoritmik iyileştirmelerin ürettiği sinerjik etkidir. Algoritma performansı her %10 veya %20 arttığında, veri verimliliğine eklendiğinde önemli bir etkiye sahip olacaktır. Şimdiye kadar, veri dolaşımda olmadığında ve bilgi işlem gücü sınırlı olduğunda bu yaklaşım zahmetli olmadığı için veri verimliliği etrafında bir seferberlik olmadı.
Şimdi, yeni bir yapay zeka araştırması aşamasına giriyoruz ve veri verimliliğinde zaferler biriktirmeye başlayacağız. Aşılmaz engellerle karşılaşacağımızı şimdi tahmin etmek biraz aptalca. İnsan beyninin çalışma şekli kesinlikle algoritma iyileştirmelerimizden farklı ve bu konuda dikkatli olmalıyız. Ancak algoritma gelişiminin geleceği hakkında iyimser kalmamız gerektiğini düşünüyorum.
Sam Altman: Daha büyük ölçekli ön eğitim ile modelin daha güçlü öğrenme ve akıl yürütme yetenekleri arasındaki korelasyon nedir?
Alex Paino: Gözlemlediğimiz şey, daha iyi ön eğitim ve denetimsiz öğrenmenin genellikle modelin genel zekasını iyileştirmesi ve genellemede çok yardımcı olmasıdır. Bu, akıl yürütme yeteneğini tamamlar, akıl yürütme zekayı geliştirmede daha yavaş olabilir. Bence bunlar birbirini tamamlıyor.
Sam Altman: Ön eğitim birçok şeyde genel görünüyor, bir modeli eğitmek sadece bir tür şeyde iyi yapmasını sağlayabiliyor, doğru mu?
Alex Paino: Bu çok ilginç, ancak onları eğiten verileri gördüğünüzde bu duruma şaşırmayacaksınız. Ön eğitim veri kümesi aralığı çok büyük ve aradığımız şey genişlik ve çeşitlilik. Model takviye öğrenimine gelince ve iyi ödül sinyalleri ve iyi bir eğitim ortamı elde etmesini açıkça sağlamaya gelince, veri kümesinin genişliğini dengelemenin zor olduğunu düşünüyorum.
Daniel Selsam: Katılıyorum, ancak bence başka bir faktör var. Ön eğitim esasen verileri sıkıştırmak, böylece farklı şeyler arasındaki bağlantıları keşfetmektir. Benzerlikler ve daha soyut olmakla ilgili. Akıl yürütme, belirli bir sorun üzerinde dikkatli düşünmeyi gerektiren ve aynı zamanda birçok türde soruna çözümler elde edebilen bir beceridir. Ancak, ön eğitim sürecinde, farklı alanlarda verileri sıkıştırırken daha soyut bilgi öğrenilebilir.
Zekanın Özü: Sıkıştırma ve Uzun Kuyruk Etkisi
Sam Altman: Denetimsiz öğrenme neden etkili?
Daniel Selsam: Anahtar sıkıştırmadır. Zekanın ideal biçimi Solomonoff indüksiyonudur. Genel olarak, makine öğrenimi tüm olasılıkları düşünecektir, ancak daha basit programlarla test etmeye başlama eğilimindedir.
Mevcut ön eğitimin özü, insanlar tarafından şimdiye kadar üretilen tüm verileri açıklamak için en basit programı bularak yaklaşık ifade elde eden bir sıkıştırma sürecidir.
Sam Altman: Bir sonraki Token tahmini sıkıştırmaya nasıl yardımcı oluyor?
Daniel Selsam: İstatistiklerde bir paradoks var - derin ağlar sıkıştıramaz gibi görünseler bile neden genelleme elde edebilirler? Normalde, çok fazla veriniz ve bazı küçük modelleriniz olduğunda, bu modeller bir şeyler öğrenmek için sıkıştırmadan geçmelidir.
Ön eğitimde, veri ve modellerin ölçeği çok büyüktür. Bazı insanlar bu eğitimin sadece bellek ve interpolasyon öğrenimi olduğunu düşünüyor. Aslında, sıkıştırmanın başka bir anlama bakış açısını göz ardı ediyorlar - ön ardışık sıkıştırma. Tıpkı bir kompresör gibi. Veri ağırlığı çok büyük olsa bile, ikili bu bilgiyi saklaması gerekmiyor. Bir sonraki Token tahmininin sonucu, faydalı bilgileri hızla alabilir ve sıkıştırma verimliliğini artırabilir.
Sam Altman: GPT-4.5’i eğitme süreci çok fazla iş gücü, zaman ve paraya mal oldu, bu da aslında Ölçeklendirme Yasasını doğrulamak için bir deney olarak kabul edilebilir ve sonuçlar etkili olduğunu ve uzun süre devam edeceğini kanıtlıyor. Ölçeklendirme Yasasına neden evrenin bir yasası denilebilir?
Daniel Selsam: Sıkıştırma derecesi ne kadar yüksekse, zeka da o kadar güçlüdür. Bunun derin felsefi çağrışımları var. Daha büyük modelleri eğitmek neden daha uzun sürüyor ve sıkıştırma oranı daha yüksek? Bu, aralarında Seyrek Temsiller’i sevdiğim birçok teoriyi içeriyor.
Gerçeklikteki temel kavramlar bir