Pelatihan GPT-4.5 OpenAI: 100 Ribu GPU

Genesis GPT-4.5: Pengembaraan Dua Tahun

Inisiatif GPT-4.5, yang dirancang dua tahun sebelum peluncurannya, mewakili usaha OpenAI yang paling cermat hingga saat ini. Ini menuntut upaya bersama dari ratusan individu, dengan Altman mencatat bahwa proyek tersebut secara efektif melibatkan ‘hampir semua orang’ di OpenAI. Keterlibatan yang luas ini menggarisbawahi pentingnya strategis GPT-4.5 dalam misi organisasi yang lebih luas.

Selama fase pengembangan, tim OpenAI menemukan apa yang mereka sebut ‘masalah bencana’. Penyebaran cluster 100.000 GPU mengekspos kerentanan infrastruktur laten yang terwujud sebagai kegagalan yang jarang namun mendalam. Untuk mencapai keseimbangan antara kecepatan dan kinerja optimal, para insinyur sistem mengadopsi pendekatan iteratif, pada dasarnya ‘membangun dan memperbaiki’ secara bersamaan. Satu bug yang sangat sulit dipahami menghantui cluster dengan kesalahan berulang, tetap tidak terdeteksi sampai proses pelatihan mencapai sekitar 40% selesai.

Paradoksnya, percobaan ini berkontribusi pada penguatan fondasi teknis OpenAI. Keahlian yang diperoleh sekarang memungkinkan tim yang ramping yang hanya terdiri dari 5-10 individu untuk mereplikasi model sebesar GPT-4. Lompatan kinerja dari GPT-4 ke GPT-4.5, diperkirakan sekitar sepuluh kali lipat, ditandai oleh ‘kecerdasan yang ditingkatkan secara komprehensif tetapi sulit diukur’, mengejutkan bahkan mereka yang berada di dalam OpenAI. Lompatan kualitatif ini menunjukkan kemajuan di luar sekadar penskalaan, menunjuk pada peningkatan mendasar dalam kemampuan model untuk bernalar dan memahami.

Ke depan, OpenAI mengakui bahwa mencapai orde kinerja berikutnya tidak akan bergantung pada kekuatan komputasi saja, melainkan pada efisiensi data. Fokusnya beralih ke pengembangan algoritma yang dapat mengekstrak lebih banyak pengetahuan dari dataset yang ada, sehingga memaksimalkan utilitas sumber daya komputasi yang tersedia.

Selanjutnya, arsitekturnya berkembang dari cluster tunggal ke desain multi-cluster, membayangkan skenario pelatihan di masa depan yang melibatkan pembelajaran kolaboratif di sebanyak 10 juta GPU. Transisi ini membutuhkan peningkatan signifikan dalam toleransi kesalahan untuk memastikan stabilitas dan keandalan sistem terdistribusi skala besar tersebut.

Percakapan itu juga membahas hubungan antara ‘long tail’ data dan hukum penskalaan, keuntungan dari kolaborasi erat antara tim pembelajaran mesin dan sistem (co-design), esensi pembelajaran tanpa pengawasan, dan budaya pemecahan masalah yang cermat.

Pemain Kunci Di Balik GPT-4.5

Selain Altman, tiga anggota tim OpenAI lainnya yang mengambil bagian dalam percakapan ini adalah:

  • Alex Paino: Bertanggung jawab atas algoritma pembelajaran mesin pra-pelatihan GPT-4.5.
  • Amin Tootoonchian: Kepala arsitek sistem OpenAI.
  • Daniel Selsam: Meneliti efisiensi dan algoritma data.

Asal Usul dan Evolusi GPT-4.5

Sam Altman: Apa yang sebenarnya dibutuhkan untuk membangun model sebesar GPT-4.5?

Alex Paino: Kami memulai proyek ini sekitar dua tahun lalu. Pada saat itu, OpenAI akan meluncurkan cluster komputasi besar baru, dan tim kami melihat kesempatan ini dan melakukan serangkaian tugas untuk menentukan fungsi apa yang perlu disertakan dalam model, dan melakukan sejumlah besar tes operasi pengurangan risiko.

Kami mengembangkan rencana panjang untuk ini, yang melibatkan seluruh tumpukan teknologi dari sistem ke pembelajaran mesin. Mengurangi risiko dan mempersiapkan pelatihan adalah proses eksekusi yang panjang, dan pelatihan itu sendiri juga merupakan proyek yang sangat besar.

Amin Tootoonchian: Saya pikir proses ini membutuhkan kerja sama yang erat antara tim pembelajaran mesin dan tim sistem sejak awal, sampai kita jelas tahu model apa yang ingin kita latih, dan kemudian mulai berlatih.

Kami telah membuat prediksi dalam pembelajaran mesin dan sistem, mencoba meminimalkan kesenjangan antara harapan dan kenyataan. Namun, karena ritme kerja kami sangat cepat dan kami harus menggunakan sumber daya komputasi terbaru, pelatihan model telah menjadi sesuatu yang sulit direncanakan dengan sempurna sebelumnya.

Kami hampir selalu memulai pelatihan dengan banyak masalah yang belum terpecahkan dan mencoba mengatasi tantangan dan membuat kemajuan selama proses tersebut. Solusi utamanya adalah meningkatkan lebih banyak sumber daya komputasi.

Tahap terakhir adalah eksekusi, yang membutuhkan banyak orang untuk menginvestasikan banyak energi dan motivasi untuk waktu yang lama untuk menyelesaikan proses pelatihan.

Sam Altman: Seberapa besar menurut Anda kesenjangan antara harapan dan kenyataan kita?

Amin Tootoonchian: Dalam hal sistem, pada awalnya, kita biasanya jauh dari keadaan yang diharapkan. Kami selalu menghadapi pilihan: apakah akan menunda peluncuran dan menunggu masalah diselesaikan, atau memulai lebih awal dan menyelesaikan masalah dalam proses tersebut. Ini selalu membutuhkan trade-off untuk menghindari penundaan yang tidak masuk akal dalam proses tersebut.

Tetapi hampir selalu ada masalah tak terduga, dan apa yang harus kita lakukan adalah menangani node ini sebanyak mungkin, menangani faktor yang tidak diketahui, dan merumuskan rencana untuk pelatihan model.

Alex Paino: Dalam proyek ini, tujuan kami adalah membuat GPT-4.5, yang berarti kemampuannya harus 10 kali lebih pintar dari GPT-4. Ini adalah tujuan awal yang kami tetapkan sekitar 2 tahun lalu.

Banyak hal terjadi dalam proses ini. Kami berpikir tentang apakah kami bisa melakukan lebih baik atau lebih buruk dari yang diharapkan? Ini adalah proses yang sangat rumit, tetapi pada akhirnya, dalam hal perhitungan efektif yang kami masukkan, kami mendapat model yang menurut kami 10 kali lebih pintar dari GPT-4.

Amin Tootoonchian: Dalam hal eksekusi, waktu yang dihabiskan untuk proyek GPT-4.5 jauh dari apa yang kami harapkan semula.

Revolusi Tim Ramping: Melatih GPT-4 dengan Sumber Daya Minimal

Sam Altman: Ketika cluster diperluas dari 10.000 kartu menjadi 100.000 kartu, mengapa Anda menemui begitu banyak masalah?

Amin Tootoonchian: Saya pikir jika pengembang sistem cukup sensitif, sebagian besar masalah dapat diamati pada tahap skala kecil.

Ada juga beberapa masalah yang tidak unik untuk tahap pelatihan skala besar, tetapi awalnya terjadi sering, tetapi akan menjadi masalah bencana setelah skala ditingkatkan, terutama ketika tim tidak mengantisipasi bahwa masalah ini akan memburuk sedemikian rupa sebelumnya.

Sam Altman: Hal-hal apa yang menyebabkan konsekuensi yang mengerikan?

Amin Tootoonchian: Saya pikir masalah infrastruktur sudah dikenal. Tingkat kegagalan, jenis kegagalan, dan jumlah total kegagalan sangat tinggi. Cluster 100.000 kartu adalah kumpulan sampel skala besar, jadi kami juga menemukan masalah yang tidak diamati oleh pemasok daya komputasi.

Jaringan adalah salah satu bagiannya, dan akselerator individual juga dapat memiliki masalah. Tetapi ini juga merupakan keindahan dari sistem ini - hampir semua komponen perlu bekerja seperti yang diharapkan untuk menghasilkan hasil yang diharapkan. Tugas kami adalah meminimalkan masalah ini sebanyak mungkin.

Sam Altman: Memang sulit untuk bekerja di batas skala cluster, tetapi saya juga menyadari bahwa melakukan hal-hal yang tidak lagi menjadi yang terdepan dalam teknologi menjadi jauh lebih mudah. Melatih GPT-4.5 membutuhkan ratusan orang, dan hampir semua orang di OpenAI terlibat.

Tetapi hari ini, jika Anda membiarkan Anda memilih tim terkecil dari OpenAI dan melatih ulang GPT-4 dari awal dengan semua pengetahuan yang kita ketahui dan semua pekerjaan sistem, berapa banyak orang yang dibutuhkan?

Alex Paino: Saya pikir mungkin dibutuhkan sekitar 5 hingga 10 orang untuk membuat model tingkat GPT-4 sekarang. Tumpukan teknologi telah meningkat pesat dalam proses menyelesaikan GPT-4.5.

Faktanya, kami telah melakukan hal serupa dalam proses melatih GPT-4.5 - kami melatih GPT-4o, yang merupakan model tingkat GPT-4, dan melatih ulang menggunakan banyak konten yang sama dari proyek penelitian GPT-4.5. Lebih sedikit orang yang digunakan untuk pelatihan itu.

Efisiensi Data: Kunci untuk Membuka Generasi Model Berikutnya

Sam Altman: Dari sudut pandang Anda, Dan? Mengapa sulit untuk melatih model besar?

Daniel Selsam: Saya pikir sulit untuk melakukan sesuatu yang baru. Saya pikir bahkan hanya menemukan bahwa orang lain telah melakukan sesuatu membuatnya jauh lebih mudah, karena bagian yang paling sulit adalah memiliki keyakinan bahwa Anda dapat melakukan sesuatu di tempat pertama. Saya pikir hanya mengetahui bahwa sesuatu itu layak adalah kode curang super, membuat segalanya jauh lebih mudah.

Alex Paino: Kami memperluas operasi pra-pelatihan GPT hingga 10 kali lipat dari sebelumnya, dan kami akan selalu menemukan beberapa hal baru yang menarik yang tidak selalu dapat Anda prediksi.

Sam Altman: Apa yang dibutuhkan untuk mencapai pertumbuhan 10x atau 100x berikutnya dalam skala pra-pelatihan?

Daniel Selsam: Efisiensi data. Arsitektur Transformer (yang merupakan GPT) sangat efisien dalam menggunakan data. Ia dapat menyerap dan memampatkan informasi dengan baik dan mencapai generalisasi. Fitur terbesarnya adalah ia dapat secara efisien menyerap informasi dengan sumber daya komputasi.

Namun, kedalaman wawasan yang diperolehnya dari data terbatas. Ketika daya komputasi tumbuh dengan cepat sementara data tumbuh relatif lambat, data menjadi hambatan dalam model standar ini. Ini membutuhkan inovasi algoritmik, mengembangkan metode yang dapat menggunakan lebih banyak daya komputasi untuk mempelajari lebih banyak pengetahuan dari jumlah data yang sama.

Sam Altman: Apa lagi yang menurut Anda perlu kita pertahankan ekspansi selain ini?

Amin Tootoonchian: Jawaban saya adalah tentang sistem. Saya pikir sejumlah besar pekerjaan yang dibutuhkan untuk GPT-4.5 pada dasarnya adalah hasil tak terhindarkan dari spesifikasi model. Kita tidak dapat melatih GPT-4.5 dengan arsitektur teknis yang persis sama dengan GPT-4.

Dalam hal manajemen status, karena sumber daya komputasi yang dibutuhkan telah melebihi kapasitas cluster tunggal, kita harus beralih ke arsitektur pelatihan multi-cluster. Untuk mencapai tujuan ini, kita harus mengintegrasikan beberapa alur kerja yang berbeda dalam waktu singkat.

Meskipun ini membantu kita mencapai terobosan bertahap, untuk mencapai orde peningkatan kinerja berikutnya, kita masih perlu menyelesaikan beberapa masalah teknis yang diketahui tetapi untuk sementara dikesampingkan - masalah ini tidak dapat dihindari. Ini adalah jenis trade-off teknis yang terus-menerus memperpanjang siklus pengembangan sistem yang sempurna. Kita selalu membuat trade-off strategis dalam proses mengejar rencana implementasi yang optimal.

Perlu diperjelas bahwa sistem itu sendiri bukanlah tujuan utama. Nilai keluaran aktualnya adalah pertimbangan inti. Untuk peningkatan kinerja 10x berikutnya, saya pikir terobosan dalam toleransi kesalahan sangat penting. Kita perlu membangun mekanisme toleransi kesalahan yang berkolaborasi secara mendalam dengan beban kerja untuk secara signifikan mengurangi kecemasan operasi dan pemeliharaan. Kompleksitas operasi dan pemeliharaan sistem super-besar saat ini pada dasarnya berbeda dari sistem sebelumnya.

Sam Altman: Apakah Anda tahu berapa persentase kegagalan yang disebabkan oleh komponen tertentu selama pelatihan GPT-4.5?

Amin Tootoonchian: Saya tidak memiliki angka spesifik untuk dibagikan, tetapi secara umum, penyebaran awal perangkat keras generasi baru sering menghadapi banyak tantangan teknis yang belum sepenuhnya dipahami. Kami memilih untuk memajukan proyek sebelum masalah sepenuhnya diklarifikasi, yang menyebabkan tingkat kegagalan awal yang tinggi.

Tetapi pengalaman menunjukkan bahwa ketika akar penyebabnya diidentifikasi dan diselesaikan, tingkat kegagalan akan berkurang secara signifikan. Fenomena ini pada dasarnya mencerminkan pemahaman kita yang mendalam tentang infrastruktur - beberapa orang menyebutnya membersihkan infrastruktur atau memahami masalah dasar infrastruktur.

Tahap awal eksekusi hampir selalu cukup menyakitkan. Sementara kami memajukan proyek, kami juga terus menemukan dan menyelesaikan mode kegagalan baru, tetapi pada akhirnya tingkat kegagalan akan berangsur-angsur menurun dan waktu berjalan normal akan meningkat.

Ini pada dasarnya adalah masalah trade-off prioritas: Pada tahap awal siklus hidup infrastruktur, risiko kegagalannya seringkali sulit diperkirakan secara akurat; dan jika kita terlalu mengejar keadaan ideal tertinggi (aslinya adalah ‘City Estate’, desain negara-kota ideal), itu dapat menyebabkan kinerja ketersediaan awal sistem sangat buruk.

Di Luar Komputasi: Inovasi Algoritmik dan Potensi Data yang Belum Dimanfaatkan

Sam Altman: Meskipun model inferensi adalah komponen kunci dari tumpukan teknologi masa depan kita, mari kita fokus sementara pada batas pengembangan model pra-pelatihan tradisional. Dengan asumsi kita memiliki daya komputasi GPU tak terbatas, bandwidth jaringan tak terbatas, dan catu daya tak terbatas, tetapi masih dibatasi oleh hambatan teknis yang ada - termasuk masalah keandalan sistem, kurangnya metode pelatihan yang toleran terhadap kesalahan, dan keterbatasan dataset yang ada.

Menurut aturan evolusi kita dalam mencapai peningkatan skala 100 kali lipat untuk setiap nomor versi GPT utama, berdasarkan batas teknis saat ini, tingkat apa yang dapat dicapai oleh pengembangan model pra-pelatihan? Secara khusus, untuk model seri GPT, berdasarkan sistem pengetahuan kita yang ada, model seperti apa yang secara teoritis dapat dilatih? Bisakah kita membuat GPT-5.5?

Alex Paino: Dari perspektif pembelajaran mesin dan pengembangan algoritma, kita belum mencapai batas teoritis yang jelas. Faktanya, kita baru saja mulai menjelajahi algoritma dengan efisiensi data yang lebih tinggi dan bagaimana memanfaatkan sumber daya data yang ada secara lebih penuh. Situasi ini sangat menarik - bahkan model seperti GPT-4 sebagian besar dikembangkan dalam kondisi sumber daya komputasi yang terbatas, yang telah menentukan arah sebagian besar penelitian sebelumnya.

Tetapi situasinya benar-benar berbeda sekarang. Sejak GPT-4.5, dalam beberapa dimensi kunci, data daripada komputasi menjadi kendala utama. Pergeseran ini membuat penelitian terkait kurang menarik.

Sam Altman: Tetapi ini memang kemajuan yang luar biasa, dan dunia mungkin tidak sepenuhnya menyadari bahwa sumber daya komputasi bukan lagi hambatan utama pada model terbaik yang dapat kita bangun. Pergeseran ini sangat bermakna, bagaimanapun juga, kita telah hidup di lingkungan yang terbatas secara komputasi terlalu lama.

Mengungkap Kejutan: Prediktabilitas vs. Kecerdasan yang Tak Terduga

Sam Altman: Apa pengalaman pembelajaran mesin paling menarik yang kita pelajari selama pelatihan GPT-4.5? Katakan saja apa yang ingin Anda bagikan.

Amin Tootoonchian: Secara umum, hal-hal yang paling menggugah pikiran adalah hal-hal yang menyimpang dari prediksi kita - terutama ketika kita mencoba memahami mengapa kinerja aktual menyimpang dari kurva yang diharapkan.

Alex Paino: Salah satu penemuan yang paling mengejutkan bagi kami adalah bahwa komponen pembelajaran mesin yang berbeda memiliki kinerja skalabilitas yang sangat berbeda. Beberapa bagian dapat diperluas dengan sangat baik, sementara yang lain tidak bisa. Inilah yang benar-benar kita sadari selama proses pelatihan yang sebenarnya. Pengalaman ini memberi kami banyak inspirasi.

Daniel Selsam: Saya pikir dua karakteristik inti dari paradigma GPT adalah: pertama, kehilangan pengujian (metrik yang mengukur seberapa baik kinerja model pada data pengujian yang tidak terlihat) dapat diprediksi secara akurat; kedua, kinerja model menunjukkan peningkatan yang dapat diprediksi dengan peningkatan skala. Yang lebih menakjubkan adalah bahwa pengurangan kehilangan pengujian akan diubah menjadi tingkat kecerdasan yang ditingkatkan secara menyeluruh dalam berbagai cara yang sulit diukur tetapi menakjubkan dan misterius.

Sam Altman: Apakah Anda benar-benar optimis tentang ini? Apakah Anda sepenuhnya setuju dengan sudut pandang ini?

Daniel Selsam: Sebenarnya, apa yang ingin saya katakan adalah bahwa kami menemukan fenomena yang sangat menarik dalam pengujian GPT-4.5 - setelah pengujian ulang, banyak kemampuan canggih yang ditunjukkan oleh model benar-benar melebihi harapan semua orang.

Kami yakin bahwa itu akan menjadi lebih pintar dalam berbagai cara yang sulit untuk didefinisikan sebelumnya, dan peningkatan halus ini dapat diamati dari kepuasan pengguna setelah penyebaran aktual: cadangan akal sehat yang lebih kuat, kemampuan pemahaman kontekstual yang lebih akurat, dan pemahaman semantik yang lebih halus - ini adalah keajaiban yang dibawa oleh kehilangan pengujian tambahan tersebut. Menurut pendapat saya, Hukum Penskalaan telah diverifikasi dengan sempurna dalam dimensi ini.

Kekuatan Kolaborasi: Tim Pembelajaran Mesin dan Sistem Bekerja dalam Harmoni

Sam Altman: Apa momen paling positif selama seluruh proses pelatihan? Apa kenangan favorit Anda? Jelas ada banyak rasa sakit, tetapi saya harap rasa sakit itu telah diredakan.

Alex Paino: Saya memang memiliki momen seperti itu. Kami melakukan banyak pekerjaan pembelajaran mesin selama pelatihan, dan saya pikir beberapa perubahan yang kami buat selama proses tersebut memiliki dampak yang cukup baik, bahkan mungkin lebih baik dari yang diharapkan, yang merupakan momen yang sangat menggembirakan bagi kami.

Amin Tootoonchian: Bagi saya, pada saat yang sama dengan pelatihan, kami juga membangun infrastruktur. Kami sangat percaya bahwa kami dapat melewati tebing kinerja ini, dan kami memiliki rencana, dan semua orang menjalankannya, tetapi butuh waktu lama. Ini adalah kerja keras dan pasti lebih sulit dari yang saya kira. Prediksi saya salah, dan saya meremehkan waktu yang dibutuhkan untuk menyelesaikan masalah ini.

Momen ketika tim akhirnya mengatasi masalah-masalah kunci itu dan kinerja meningkat secara signifikan masih segar dalam ingatan saya. Anda dapat dengan jelas merasakan pergeseran energi di seluruh tim - semua orang tiba-tiba penuh energi dan bergegas menuju tujuan akhir dengan motivasi baru.

Yang paling menakjubkan adalah bahwa perkiraan waktu penyelesaian yang ditampilkan di pelacak status kami terus memendek dari dua tahun awal, dan akhirnya terkunci pada node waktu yang jelas. Kemajuan yang terlihat ini tidak terukur untuk meningkatkan moral tim. Saya pikir ini adalah keindahannya.

Saya ingin menekankan bahwa pekerjaan pembelajaran mesin tidak pernah berhenti. Bahkan setelah pelatihan dimulai, proses co-design pembelajaran mesin ini masih berlangsung. Tim pembelajaran mesin tidak hanya secara aktif menindaklanjuti masalah yang telah ditandai sebagai ‘pemrosesan selanjutnya’, tetapi juga terus memberikan peningkatan yang benar-benar mengoptimalkan waktu pelatihan.

Ini dengan sempurna mewujudkan semangat tim kami - tidak ada batasan pekerjaan ‘menyapu salju di depan pintu Anda sendiri’ di sini, tetapi kolaborasi tanpa batas yang sebenarnya. Kohesi ini adalah keuntungan terbesar kami.

Perencanaan yang Cermat dan Pengejaran Tanpa Henti Terhadap Anomali dalam Pra-Pelatihan GPT-4.5

Daniel Selsam: Dunia luar telah banyak membahas tentang tantangan dan akurasi prediktif dari pelatihan ini sendiri. Tetapi pada kenyataannya, semua ini dibangun di atas perencanaan yang sangat cermat - dapatkah Anda berbicara lebih banyak tentang ini secara detail?

Alex Paino: Ini jelas merupakan rencana paling cermat yang telah kami buat sejauh ini. Seperti yang saya katakan, kami mulai mempersiapkan proyek ini setahun sebelum peluncuran pelatihan resmi. Selama periode ini, kami melakukan beberapa uji coba kontrol risiko skala besar.

Kami memberikan perhatian khusus untuk secara bertahap memperkenalkan semua peningkatan: mulai dari konfigurasi dasar kepercayaan tinggi - yang dapat dipahami sebagai arsitektur matang yang mirip dengan GPT-4, kami telah sepenuhnya menguasai konfigurasi ini di tingkat pembelajaran mesin - dan kemudian melapisi fitur-fitur baru seperti blok bangunan.

Kuncinya adalah memverifikasi secara ketat skalabilitas setiap peningkatan pada skala yang berbeda: tidak hanya untuk melihat peningkatan kinerja, tetapi juga untuk memastikan bahwa peningkatan ini dapat terus efektif seiring dengan peningkatan ukuran model. Banyak peningkatan berkinerja baik dalam pengujian skala kecil, tetapi akan gagal dalam aplikasi skala besar.

Oleh karena itu, kami telah mempertahankan tingkat kewaspadaan yang tinggi di sepanjang proses dan terus berulang dan meningkatkan metodologi hukum penskalaan kami. Melalui praktik kontrol risiko ini, kami telah mengumpulkan banyak pengalaman berharga, yang akan terus memandu pengembangan model seri GPT di masa depan.

Amin Tootoonchian: Saya ingat momen yang sangat menarik yang sangat saya rindukan. Anda tahu, kita hampir tak terhindarkan menemui berbagai bug setiap kali kita memulai tugas pelatihan, yang merupakan hal biasa. Tetapi kuncinya adalah memastikan bahwa kemajuan tidak terhambat, dan kita harus selalu memastikan apakah kemajuan saat ini memang berada di jalur yang benar dan apakah bug ini akan memiliki dampak fatal pada kesehatan pelatihan.

Meskipun kami awalnya sangat yakin bahwa ada kekurangan besar, melalui seluruh sistem pemantauan yang kami bangun, kami dapat secara akurat membedakan akar penyebab masalah: Apakah itu kerusakan perangkat keras? Jenis kerusakan perangkat keras apa? Apakah itu korupsi data? Atau apakah itu bug dalam model pembelajaran mesin itu sendiri? Atau apakah itu kondisi balapan dalam kode?

Pada saat itu, kami memiliki beberapa area diskusi masalah yang terbuka pada saat yang sama, dengan berbagai macam gejala. Setelah serangkaian perbaikan bug, kami jatuh ke jalan buntu: beberapa masalah yang belum terpecahkan ditumpuk di depan kami, dan semua orang memutar otak mereka - apakah ini disebabkan oleh bug yang berbeda? Atau apakah itu bug yang menyebabkan masalah?

Kemudian, kami mengadakan pemungutan suara dan meminta anggota tim untuk memilih akar penyebab yang paling mungkin. Akibatnya, opsi yang paling tidak optimis mengenai kebenaran: ternyata ada masalah dengan fungsi torch.sum di hulu PyTorch, operasi penjumlahan sederhana.

Bug ini sangat menarik. Anda tahu bahwa kami terutama menggunakan kernel Triton, dan hanya dalam beberapa skenario marjinal yang tidak signifikan kita akan kembali ke operasi torch. Bug fungsi torch.sum yang dipicu oleh jalur kode spesifik kami kadang-kadang akan menyebabkan akses memori ilegal karena karakteristik distribusi data - itu membuat kesalahan saat menghitung offset memori.

Hal yang paling dramatis adalah ketika seorang insinyur akhirnya menemukan masalah dan mengirimkan perbaikan, semua kesalahan dengan gejala yang berbeda menghilang. Semua orang dengan bersemangat mengubah saluran Slack dari ‘teori multi-bug’ menjadi ‘teori bug tunggal’, dan suasananya sangat bahagia.

Berapa lama bug ini mengintai? Itu telah ada sejak tahap awal pelatihan dan tidak ditemukan sampai bilah kemajuan telah melewati sekitar 40%. Proses penemuan juga penuh dengan drama: Pada saat itu, kernel kompleks terus memanggil urutan, dan panggilan kedua memicu akses memori ilegal.

Meskipun frekuensi kerusakan ini sangat rendah (itu hanya terjadi sekali setiap beberapa ratus atau bahkan ribuan langkah pelatihan), mudah untuk diabaikan sebagai kegagalan sesekali, tetapi prinsip tim kami adalah: jangan pernah melepaskan kelainan apa pun. Bagian terbaik dari cerita ini terletak pada ketekunan untuk tidak menyerah dengan mudah ini.

Pencarian Sistem Ideal: Cakrawala yang Jauh

Sam Altman: Setelah pra-pelatihan GPT-4.5 dimulai, apa lagi yang harus Anda lakukan?

Alex Paino: Kita semua perlu mengamati kurva kehilangan sering. Selain itu, kita perlu terus mengoptimalkan sistem dan meningkatkan co-design yang tidak diselesaikan sebelum pelatihan dimulai. Kami memantau secara ketat berbagai indikator statistik selama proses pelatihan untuk memastikan bahwa tidak ada tren abnormal yang tidak terduga. Pada saat yang sama, kami menjajaki kemungkinan rencana peningkatan dari perspektif pembelajaran mesin. Meskipun pekerjaan tingkat data akan dikurangi sementara setelah pra-pelatihan dimulai, masih ada sejumlah besar tugas yang harus diproses.

Amin Tootoonchian: Saya pikir pembelajaran mesin sebagian besar bergantung pada kebenaran penilaian. Setelah pra-pelatihan dimulai, menghadapi sejumlah besar sinyal bising, kita seperti peramal yang menafsirkan daun teh, dan kita perlu menilai apakah sistem itu sehat. Ini adalah tanggung jawab kita.

Sam Altman: Pada tingkat sistem, apa yang membatasi kita dari melakukan pelatihan model? Apakah itu chip, prosesor, memori, jaringan, atau daya?

Amin Tootoonchian: Keindahan sistem adalah bahwa ketika melakukan co-design, beban kerja dapat beradaptasi dengan infrastruktur yang Anda bangun. Tidak ada pepatah umum di sini bahwa jaringan adalah hambatan, atau bandwidth memori adalah hambatan, dan sebagainya. Bahkan untuk model dengan spesifikasi yang sama, kita dapat memilih untuk mentransfer persyaratan sumber daya, dan kita dapat memilih untuk membuat sistem yang lebih seimbang, tetapi memiliki lebih banyak bandwidth memori selalu bermanfaat. Sulit untuk menjawab pertanyaan ini tanpa membatasi kondisi.

Saat mendesain GPT-4.5, kita mungkin membutuhkan sistem untuk memiliki semacam atribut, yang perlu dihasilkan di bawah bimbingan manusia. Oleh karena itu, co-design sangat penting untuk membentuk arsitektur model dan elemen arsitektur, dan sampai batas tertentu menghubungkan aspek sistem dan pembelajaran mesin. Jika sistem memiliki atribut yang tidak ingin kita miliki terlalu banyak, situasi ideal saya adalah bahwa segala sesuatunya harus dipisahkan untuk saling memberikan ruang maksimum.

Terkadang hal-hal terhubung bersama, dan kita perlu memenuhi persyaratan infrastruktur, atau hal-hal harus seperti ini. Sebagian besar waktu, kita membutuhkan sistem yang seimbang dan komunikasi yang seimbang. Dan sarana penyesuaian terbaik yang kita miliki adalah semua co-design ini.

Sam Altman: Seberapa jauh kita dari tujuan sistem ideal ini?

Amin Tootoonchian: Itu masih jauh dari tujuan itu. Proses membangun sistem selalu seperti ini: pertama ada pandangan ideal tentang bagaimana seharusnya segala sesuatunya bekerja, dan kemudian mendamaikan perbedaan itu dengan sumber daya yang ada.

Saya pikir kita tidak melakukannya untuk teori demi teori, tetapi hanya untuk membahas apa yang kita inginkan, untuk mewujudkannya, dan untuk sedekat mungkin dengan cita-cita itu. Ini mungkin bagian yang paling menarik dari bidang sistem. Orang-orang dulu mengatakan bahwa ini adalah desain sistem yang elegan, dan pada akhirnya sejarah akan memberi tahu kita apakah pilihan ini benar atau salah.

Sam Altman: Jika Anda bisa mendapatkan jawaban untuk masalah pembelajaran mesin sebelum pelatihan besar berikutnya, apa yang paling ingin Anda ketahui?

Alex Paino: Saya ingin tahu algoritma apa yang harus kita gunakan di bawah data terbatas dan bidang tertentu. Meskipun ini adalah pertanyaan yang luas, itu memang yang paling kritis.

Sam Altman: Akankah Anda melakukan pra-pelatihan sinkron dengan 10 juta GPU atau lebih di masa depan?

Alex Paino: Saya pikir akan ada, tetapi mungkin bukan model pra-pelatihan tradisional. Bentuknya mungkin sangat berbeda dari teknologi yang ada, tetapi masih akan mempertahankan inti dari pembelajaran tanpa pengawasan.

Amin Tootoonchian: Saya lebih suka mode semi-sinkron. Karena hukum fisika, sinkronisasi lengkap tidak realistis.

Daniel Selsam: Saya pikir lebih mungkin untuk didesentralisasikan. Pasti akan ada 10 juta GPU yang bekerja bersama dalam sistem AI untuk belajar dan melakukan tugas, tetapi seperti berbagai bagian otak, mereka mungkin tidak harus berkomunikasi satu sama lain.

Kekuatan Sinergis Peningkatan Algoritmik dan Efisiensi Data

Sam Altman: Seberapa besar kesenjangan antara algoritma paling canggih dan efisiensi data manusia? Bisakah kita berharap untuk mengejar di masa depan?

Daniel Selsam: Sulit untuk membandingkan keduanya secara langsung. Kesenjangan dalam pembelajaran bahasa jelas sangat besar. Kuncinya adalah bagaimana mendefinisikan jumlah informasi yang diterima oleh saraf visual manusia. Saya pikir algoritma umumnya jauh kurang efisien data daripada manusia.

Selama beberapa dekade, pembelajaran mendalam telah berfokus pada efisiensi daya komputasi. Selain pertumbuhan data dan daya komputasi, yang benar-benar mengejutkan adalah efek sinergis yang dihasilkan oleh peningkatan algoritmik. Setiap kali kinerja algoritma meningkat sebesar 10% atau 20%, itu akan memiliki efek yang signifikan ketika ditumpangkan pada efisiensi data. Sejauh ini, belum ada mobilisasi seputar efisiensi data, karena pendekatan ini tidak bermanfaat ketika data tidak beredar dan daya komputasi terbatas.

Sekarang, kita memasuki tahap baru penelitian AI, dan kita akan mulai mengumpulkan kemenangan dalam efisiensi data. Saya pikir agak bodoh untuk memprediksi sekarang bahwa kita akan menemui rintangan yang tidak dapat diatasi. Cara kerja otak manusia tentu berbeda dari peningkatan algoritma kita, dan kita harus berhati-hati dalam hal ini. Tapi saya pikir kita harus tetap optimis tentang pengembangan algoritma di masa depan.

Sam Altman: Apa korelasi antara pra-pelatihan skala yang lebih besar dan kemampuan belajar dan bernalar model yang lebih kuat?

Alex Paino: Apa yang telah kami amati adalah bahwa pra-pelatihan dan pembelajaran tanpa pengawasan yang lebih baik sering meningkatkan kecerdasan keseluruhan model dan sangat membantu dalam generalisasi. Ini saling melengkapi dengan kemampuan bernalar, sementara bernalar mungkin lebih lamban dalam meningkatkan kecerdasan. Saya pikir mereka saling melengkapi.

Sam Altman: Pra-pelatihan tampaknya umum dalam banyak hal, sementara melatih model hanya dapat membuatnya melakukan dengan baik dalam satu jenis hal, benarkah itu?

Alex Paino: Ini sangat menarik, tetapi Anda tidak akan terkejut dengan situasi ini ketika Anda melihat data yang melatih mereka. Rentang dataset pra-pelatihan sangat besar, dan apa yang kita kejar adalah luas dan keragaman. Ketika datang ke pembelajaran penguatan model dan membuatnya dengan jelas memperoleh sinyal hadiah yang baik dan lingkungan pelatihan yang baik, saya pikir sulit untuk menyeimbangkan luasnya dataset.

Daniel Selsam: Saya setuju, tetapi saya pikir ada faktor lain. Pra-pelatihan pada dasarnya memampatkan data, sehingga menemukan hubungan antara hal-hal yang berbeda. Ini tentang analogi dan lebih abstrak. Bernalar adalah keterampilan yang membutuhkan pemikiran hati-hati tentang masalah tertentu dan juga dapat memperoleh solusi untuk banyak jenis masalah. Namun, dalam proses pra-pelatihan, pengetahuan yang lebih abstrak dapat dipelajari ketika memampatkan data di berbagai bidang.

Esensi Kecerdasan: Kompresi dan Efek Ekor Panjang

Sam Altman: Mengapa pembelajaran tanpa pengawasan efektif?

Daniel Selsam: Kuncinya adalah kompresi. Bentuk ideal kecerdasan adalah induksi Solomonoff. Secara umum, pembelajaran mesin akan mempertimbangkan semua kemungkinan, tetapi cenderung mulai menguji dengan program yang lebih sederhana.

Esensi dari pra-pelatihan saat ini adalah proses kompresi, yang mencapai ekspresi perkiraan dengan menemukan program paling sederhana untuk menjelaskan semua data yang dihasilkan oleh manusia sejauh ini.

Sam Altman: Bagaimana prediksi Token berikutnya membantu mencapai kompresi?

Daniel Selsam: Ada paradoks dalam statistik - mengapa jaringan mendalam dapat mencapai generalisasi meskipun tampaknya tidak dapat memampatkan? Biasanya, ketika Anda memiliki banyak data dan beberapa model kecil, model ini harus melalui kompresi untuk mempelajari sesuatu.

Dalam pra-pelatihan, skala data dan model sangat besar. Beberapa orang berpikir bahwa pelatihan ini hanyalah memori dan pembelajaran interpolasi. Faktanya, mereka mengabaikan perspektif pemahaman kompresi lainnya - kompresi pra-quential. Ini seperti kompresor. Bahkan jika berat data sangat besar, biner tidak perlu menyimpan informasi ini. Hasil prediksi Token berikutnya dapat dengan cepat mengambil informasi yang berguna dan meningkatkan efisiensi kompresi.

Sam Altman: Proses melatih GPT-4.5 menghabiskan banyak tenaga, waktu, dan uang, yang sebenarnya dapat dianggap sebagai eksperimen untuk memverifikasi Hukum Penskalaan, dan hasilnya membuktikan bahwa itu efektif dan akan berlanjut untuk waktu yang lama. Mengapa Hukum Penskalaan dapat disebut hukum alam semesta?

Daniel Selsam: Semakin tinggi tingkat kompresi, semakin kuat kecerdasan. Ini memiliki konotasi filosofis yang mendalam. Mengapa dibutuhkan waktu lebih lama untuk melatih model yang lebih besar dan tingkat kompresinya lebih tinggi? Ini melibatkan banyak teori, di antaranya saya suka Representasi Jarang.

Konsep-konsep kunci dalam realitas mengikuti distribusi hukum daya. Misalnya, konsep penting ke-100 mungkin hanya muncul sekali dalam setiap 100 dokumen, dan ada efek ekor panjang yang jelas. Karakteristik distribusi ini mengarah pada kebutuhan akan data dan daya komputasi skala besar untuk secara efektif menangkap semua konsep kunci, dan juga menentukan bahwa Hukum Penskalaan akan terus ada secara efektif untuk waktu yang lama.