Mengungkap Pelatihan GPT-4.5 OpenAI

Pengembangan GPT-4.5, sebuah proyek yang dimulai dua tahun sebelumnya, mewakili upaya OpenAI yang paling ambisius hingga saat ini. Proyek besar ini melibatkan upaya kolaboratif dari ratusan individu, dengan Sam Altman, CEO OpenAI, mencatat bahwa proyek tersebut menuntut keterlibatan organisasi yang hampir total.

Mengatasi ‘Masalah Bencana’ dalam Pelatihan Skala Besar

Perjalanan untuk menciptakan GPT-4.5 bukannya tanpa rintangan. Tim tersebut menghadapi banyak ‘masalah bencana’ selama fase penelitian dan pengembangan. Pemanfaatan kluster 100.000 GPU mengungkap kegagalan infrastruktur yang sebelumnya tidak terlihat, berprobabilitas rendah, namun mendalam. Untuk menyeimbangkan kecepatan dengan kinerja optimal, tim sistem OpenAI terpaksa mengadopsi pendekatan ‘perbaiki sambil jalan’. Satu bug yang sangat sulit dipahami menghantui kluster dengan seringnya terjadi kesalahan, yang tidak terdeteksi hingga sekitar 40% dari proses pelatihan telah berlalu.

Meskipun menghadapi tantangan ini, proyek GPT-4.5 mengkatalisasi pengembangan tumpukan teknologi yang lebih kuat. Saat ini, tim ramping yang hanya terdiri dari 5-10 individu dapat mereplikasi model besar yang mirip dengan GPT-4. Keuntungan kinerja dari GPT-4 ke GPT-4.5 kira-kira sepuluh kali lipat, menghasilkan ‘kecerdasan yang sulit diukur tetapi ditingkatkan dalam semua aspek,’ sebuah hasil yang mengejutkan bahkan personel OpenAI sendiri.

Pergeseran Fokus: Dari Kekuatan Komputasi ke Efisiensi Data

OpenAI telah menyadari bahwa mencapai lompatan sepuluh kali lipat atau seratus kali lipat berikutnya dalam kinerja tidak bergantung pada kekuatan komputasi mentah tetapi pada efisiensi data – khususnya, kemampuan untuk mengekstrak lebih banyak pengetahuan dari jumlah data yang sama sambil memanfaatkan sumber daya komputasi yang lebih besar.

Arsitekturnya juga berkembang dari kluster tunggal menjadi paradigma multi-kluster. Iterasi pelatihan di masa depan mungkin melibatkan pembelajaran kolaboratif di sebanyak 10 juta GPU, yang memerlukan toleransi kesalahan yang lebih tinggi.

Dialog Sam Altman dengan Tim GPT-4.5

Berikut ini adalah kompilasi yang diedit dari diskusi antara Sam Altman dan tim OpenAI GPT-4.5:

Sam Altman: Apa yang diperlukan untuk membangun model sebesar GPT-4.5?

Alex Paino: Kami memulai proyek ini sekitar dua tahun lalu. Pada saat itu, OpenAI akan meluncurkan kluster komputasi besar baru, dan tim kami melihat ini sebagai kesempatan untuk melakukan serangkaian operasi untuk menentukan fungsi yang perlu disertakan oleh model, dan melakukan sejumlah besar pengujian operasi pengurangan risiko.

Kami telah mengembangkan rencana jangka panjang untuk ini, yang melibatkan seluruh tumpukan teknologi dari sistem hingga pembelajaran mesin. Mengurangi risiko dan mempersiapkan pelatihan adalah proses eksekusi yang panjang, dan pelatihan itu sendiri adalah proyek yang sangat besar.

Amin Tootoonchian: Saya pikir proses ini membutuhkan kerja sama yang erat antara tim pembelajaran mesin dan tim sistem sejak awal, sampai kami memperjelas model apa yang ingin kami latih, dan kemudian mulai berlatih.

Kami telah membuat prediksi dalam aspek pembelajaran mesin dan sistem, mencoba mempersempit kesenjangan antara harapan dan kenyataan sebanyak mungkin. Tetapi karena ritme kerja kami cepat dan kami harus menggunakan sumber daya komputasi terbaru, pelatihan model telah menjadi sesuatu yang sulit untuk direncanakan dengan sempurna sebelumnya.

Kami hampir selalu mulai berlatih dengan banyak masalah yang belum terpecahkan dan mencoba mengatasi tantangan dan membuat kemajuan selama operasi. Solusi utama adalah menambahkan lebih banyak sumber daya komputasi.

Tahap akhir adalah eksekusi, yang membutuhkan banyak orang untuk menginvestasikan banyak energi dan motivasi untuk waktu yang lama untuk menyelesaikan proses pelatihan.

Sam Altman: Seberapa besar menurut Anda kesenjangan antara harapan dan kenyataan kita?

Amin Tootoonchian: Dalam hal sistem, kami biasanya jauh dari keadaan yang diharapkan di awal. Kami selalu dihadapkan pada pilihan: apakah akan menunda awal dan menunggu masalah diselesaikan, atau memulai lebih awal dan menyelesaikan masalah dalam proses. Ini selalu membutuhkan trade-off untuk menghindari penundaan yang tidak masuk akal dalam proses.

Tetapi hampir selalu ada beberapa masalah tak terduga, dan apa yang harus kami lakukan adalah menangani node ini sebanyak mungkin, menangani faktor yang tidak diketahui, dan merumuskan rencana untuk pelatihan model.

Alex Paino: Dalam proyek ini, tujuan kami adalah untuk membuat GPT-4.5, yang berarti bahwa kemampuannya harus 10 kali lebih pintar dari GPT-4. Ini adalah tujuan awal yang kami tetapkan sekitar 2 tahun lalu.

Banyak hal terjadi selama proses ini. Kami sedang memikirkan apakah kami bisa melakukan yang lebih baik atau akan lebih buruk dari yang diharapkan? Ini adalah proses yang sangat rumit, tetapi pada akhirnya, dalam hal perhitungan efektif yang kami investasikan, kami mendapatkan model yang menurut kami telah mencapai 10 kali lebih pintar dari GPT-4.

Amin Tootoonchian: Dalam hal eksekusi, waktu yang dihabiskan untuk proyek GPT-4.5 jauh dari apa yang awalnya kami harapkan.

Sam Altman: Mengapa Anda menghadapi begitu banyak masalah ketika kluster diperluas dari 10.000 kartu menjadi 100.000 kartu?

Amin Tootoonchian: Saya pikir jika pengembang sistem cukup sensitif, sebagian besar masalah dapat diamati pada tahap skala kecil.

Beberapa masalah tidak unik untuk tahap pelatihan skala besar, tetapi sering terjadi sebelumnya, tetapi akan menjadi masalah bencana setelah skala ditingkatkan, terutama ketika tim belum mengantisipasi bahwa masalah ini akan memburuk sedemikian rupa.

Sam Altman: Hal-hal apa yang telah menyebabkan konsekuensi bencana?

Amin Tootoonchian: Saya pikir masalah infrastruktur sudah terkenal, apakah tingkat kegagalan, jenis kegagalan, atau jumlah total kegagalan sangat tinggi. Kluster 100.000 kartu adalah kumpulan sampel skala besar, jadi kami juga menemukan masalah yang tidak diamati oleh pemasok daya komputasi.

Jaringan adalah salah satunya, dan akselerator individu juga dapat memiliki masalah. Tetapi ini juga keindahan dari sistem ini - hampir semua komponen perlu bekerja seperti yang diharapkan untuk menghasilkan hasil yang diharapkan. Tugas kami adalah meminimalkan masalah ini sebanyak mungkin.

Sam Altman: Memang sulit untuk bekerja di batas ukuran kluster, tetapi saya juga memperhatikan bahwa menjadi jauh lebih mudah untuk melakukan hal-hal yang tidak lagi menjadi yang terdepan dalam teknologi. Melatih GPT-4.5 membutuhkan ratusan orang, dan OpenAI memiliki hampir semua orang di dalamnya.

Tetapi hari ini, jika Anda memilih tim terkecil dari OpenAI dan melatih ulang GPT-4 dari awal dengan semua pengetahuan dan pekerjaan sistem yang kita ketahui, berapa banyak orang yang dibutuhkan?

Alex Paino: Saya pikir mungkin dibutuhkan sekitar 5 hingga 10 orang untuk membuat model tingkat GPT-4 sekarang. Tumpukan teknologi telah sangat ditingkatkan dalam proses menyelesaikan GPT-4.5.

Faktanya, kami telah melakukan hal serupa dalam proses pelatihan GPT-4.5 - kami melatih GPT-4o, yang merupakan model tingkat GPT-4, dan melatih ulang menggunakan banyak konten yang sama dari proyek penelitian GPT-4.5. Lebih sedikit orang yang digunakan untuk pelatihan itu.

Sam Altman: Dari perspektif Anda, Dan? Mengapa sulit untuk melatih model besar?

Daniel Selsam: Saya pikir sulit untuk melakukan sesuatu yang baru. Saya pikir bahkan hanya menemukan bahwa orang lain telah melakukan sesuatu membuatnya jauh lebih mudah, karena bagian yang paling sulit adalah memiliki keyakinan untuk melakukan sesuatu di tempat pertama. Saya pikir hanya mengetahui bahwa sesuatu itu layak adalah kode curang super yang membuat segalanya jauh lebih mudah.

Alex Paino: Kami memperluas pelatihan awal GPT hingga 10 kali ukuran sebelumnya, dan kami selalu menemukan beberapa hal baru yang menarik yang tidak selalu dapat Anda prediksi.

Sam Altman: Apa yang dibutuhkan untuk mencapai pertumbuhan 10x atau 100x berikutnya dalam skala pelatihan awal?

Daniel Selsam: Efisiensi data. Arsitektur Transformer (yaitu GPT) sangat efisien dalam memanfaatkan data. Ia dapat menyerap dan memampatkan informasi dengan baik dan mencapai generalisasi. Fitur terbesarnya adalah ia dapat secara efisien menyerap informasi dengan sumber daya komputasi.

Namun, kedalaman wawasan yang diperolehnya dari data terbatas. Ketika daya komputasi tumbuh dengan cepat dan data tumbuh relatif lambat, data menjadi hambatan bagi model standar ini. Ini membutuhkan inovasi algoritmik untuk mengembangkan metode yang dapat menggunakan lebih banyak daya komputasi untuk mempelajari lebih banyak pengetahuan dari jumlah data yang sama.

Sam Altman: Apa lagi yang menurut Anda perlu kita pertahankan ekspansi?

Amin Tootoonchian: Jawaban saya adalah tentang sistem. Saya pikir jumlah pekerjaan besar yang dibutuhkan untuk GPT-4.5 pada dasarnya adalah hasil yang tak terhindarkan dari spesifikasi model. Kita tidak dapat melatih GPT-4.5 dengan arsitektur teknis yang persis sama dengan GPT-4.

Dalam hal manajemen status, karena sumber daya komputasi yang dibutuhkan telah melampaui kapasitas kluster tunggal, kita harus beralih ke arsitektur pelatihan multi-kluster. Untuk mencapai tujuan ini, kita harus mengintegrasikan beberapa alur kerja yang berbeda dalam waktu singkat.

Meskipun ini memang membantu kita mencapai terobosan tahap, untuk mencapai peningkatan kinerja orde magnitude berikutnya, kita masih perlu menyelesaikan beberapa masalah teknis yang diketahui tetapi untuk sementara waktu ditunda - masalah ini tidak dapat dihindari. Ini adalah jenis trade-off teknis yang terus-menerus memperpanjang siklus R&D dari sistem yang sempurna, dan kami selalu membuat trade-off strategis dalam proses mengejar rencana implementasi yang optimal.

Perlu diperjelas bahwa sistem itu sendiri bukanlah tujuan utama, dan nilai output aktualnya adalah pertimbangan inti. Untuk peningkatan kinerja 10x berikutnya, saya pikir terobosan dalam toleransi kesalahan sangat penting. Kita perlu membangun mekanisme toleransi kesalahan yang sangat sinergis dengan beban kerja untuk secara signifikan mengurangi kecemasan operasi dan pemeliharaan. Kompleksitas operasi dan pemeliharaan sistem ultra-skala besar saat ini pada dasarnya berbeda dari sistem sebelumnya.

Sam Altman: Apakah Anda tahu persentase kegagalan yang disebabkan oleh komponen tertentu selama pelatihan GPT-4.5?

Amin Tootoonchian: Saya tidak memiliki angka spesifik untuk dibagikan, tetapi secara umum, pada tahap awal penerapan perangkat keras generasi baru, operasi sistem sering menghadapi banyak tantangan teknis yang tidak sepenuhnya dipahami. Kami memilih untuk memajukan proyek sebelum masalahnya sepenuhnya ditentukan, yang menyebabkan tingkat kegagalan awal yang tinggi.

Tetapi pengalaman telah menunjukkan bahwa ketika akar penyebabnya diidentifikasi dan diselesaikan, tingkat kegagalan akan menurun secara signifikan. Fenomena ini pada dasarnya mencerminkan pemahaman kita yang semakin dalam tentang infrastruktur - beberapa orang menyebutnya membersihkan infrastruktur atau memahami masalah dasar infrastruktur.

Tahap awal eksekusi hampir selalu cukup menyakitkan. Sambil memajukan proyek, kami juga terus menemukan dan memecahkan mode kegagalan baru, tetapi tingkat kegagalan akan berangsur-angsur menurun dan waktu operasi normal akan menjadi lebih lama.

Ini pada dasarnya adalah masalah trade-off prioritas: Pada tahap awal siklus hidup infrastruktur, risiko kegagalannya seringkali sulit diperkirakan secara akurat; dan jika kita secara berlebihan mengejar keadaan ideal tertinggi (yang asli adalah ‘City Estate’, desain negara-kota ideal), itu dapat menyebabkan sistem Kinerja ketersediaan pada tahap awal sangat buruk.

Sam Altman: Meskipun model penalaran merupakan komponen kunci dari tumpukan teknologi masa depan kita, mari kita fokus sementara pada batas pengembangan model pra-pelatihan tradisional. Misalkan kita memiliki daya komputasi GPU tak terbatas, bandwidth jaringan tak terbatas, dan catu daya tak terbatas, tetapi masih dibatasi oleh hambatan teknis yang ada—termasuk masalah keandalan sistem, kurangnya metode pelatihan toleran kesalahan, dan keterbatasan set data yang ada.

Menurut hukum evolusi kita untuk mencapai peningkatan skala 100 kali lipat di setiap nomor versi GPT utama, berdasarkan batas teknis saat ini, tingkat apa yang dapat dicapai oleh pengembangan model pra-pelatihan? Khusus untuk model seri GPT, dengan sistem pengetahuan kita saat ini, model seperti apa yang secara teoritis dapat kita latih? Bisakah GPT-5.5 dibuat?

Alex Paino: Dari perspektif pembelajaran mesin dan pengembangan algoritma, kami belum mencapai batas atas teoretis yang jelas. Faktanya, kami baru mulai menjelajahi algoritma dengan efisiensi data yang lebih tinggi dan bagaimana memanfaatkan sumber daya data yang ada dengan lebih baik. Situasi ini sangat menarik - bahkan model seperti GPT-4 sebagian besar dikembangkan di bawah kendala sumber daya komputasi yang terbatas, yang juga menentukan arah sebagian besar penelitian sebelumnya.

Tetapi situasinya benar-benar berbeda sekarang. Sejak GPT-4.5, dalam beberapa dimensi kunci, data daripada komputasi menjadi kendala utama. Pergeseran ini membuat penelitian terkait kurang menarik.

Sam Altman: Tetapi ini memang kemajuan yang luar biasa, dan dunia mungkin tidak sepenuhnya menyadari bahwa sumber daya komputasi bukan lagi hambatan utama dalam model terbaik yang dapat kita bangun. Perubahan ini sangat mendalam, bagaimanapun juga, kita telah hidup di lingkungan yang dibatasi komputasi terlalu lama.

Sam Altman: Apa pengalaman pembelajaran mesin paling menarik yang telah kita pelajari dalam proses pelatihan GPT-4.5? Bicarakan saja tentang apa yang ingin Anda bagikan.

Amin Tootoonchian: Secara umum, yang paling menggugah pikiran adalah situasi yang menyimpang dari prediksi kita - terutama ketika kita mencoba memahami mengapa kinerja aktual menyimpang dari kurva yang diharapkan.

Alex Paino: Salah satu temuan yang paling mengejutkan bagi kami adalah bahwa kinerja skalabilitas komponen pembelajaran mesin yang berbeda sangat bervariasi. Beberapa bagian dapat diskalakan dengan baik, sementara yang lain tidak bisa. Inilah yang benar-benar kami sadari dalam proses pelatihan yang sebenarnya. Pengalaman ini memberi kami banyak inspirasi.

Daniel Selsam: Saya pikir dua fitur inti dari paradigma GPT adalah: pertama, hilangnya pengujian (metrik untuk mengukur seberapa baik kinerja model pada data pengujian yang tidak terlihat) dapat diprediksi secara akurat; kedua, kinerja model menunjukkan peningkatan yang dapat diprediksi dengan perluasan skala. Lebih ajaibnya lagi, pengurangan kehilangan pengujian akan berubah menjadi tingkat kecerdasan yang ditingkatkan secara menyeluruh dalam berbagai cara yang sulit untuk diukur tetapi menakjubkan.

Sam Altman: Apakah Anda benar-benar optimis tentang ini? Apakah Anda sepenuhnya setuju dengan pandangan ini?

Daniel Selsam: Sebenarnya, apa yang ingin saya katakan adalah bahwa kami menemukan fenomena yang sangat menarik dalam pengujian GPT-4.5 - setelah pengujian ulang, model menunjukkan banyak kemampuan halus yang benar-benar melampaui harapan semua orang.

Kami yakin bahwa itu akan menjadi lebih pintar dalam berbagai cara yang tidak dapat didefinisikan sebelumnya, dan setelah penerapan aktual, kita dapat mengamati tingkat peningkatan halus ini dari kepuasan pengguna: cadangan akal sehat yang lebih kuat, kemampuan pemahaman kontekstual yang lebih akurat, dan pemahaman semantik yang lebih halus - inilah keajaiban yang dibawa oleh kehilangan pengujian tambahan itu. Menurut saya, Hukum Penskalaan telah diverifikasi dengan sempurna dalam dimensi ini.

Sam Altman: Apa momen paling positif selama seluruh proses pelatihan? Apa memori favorit Anda? Jelas ada banyak rasa sakit, tetapi saya harap rasa sakit itu telah diringankan.

Alex Paino: Saya memang memiliki momen seperti itu. Kami melakukan banyak pekerjaan pembelajaran mesin selama pelatihan. Saya pikir beberapa perubahan yang kami buat selama operasi memiliki dampak yang cukup baik, mungkin lebih baik dari yang diharapkan, yang merupakan momen yang sangat menggembirakan bagi kami.

Amin Tootoonchian: Bagi saya, pada saat yang sama dengan pelatihan, kami juga membangun infrastruktur. Kami sangat yakin bahwa kami dapat melewati tebing kinerja ini, dan kami memiliki rencana, dan semua orang menjalankannya, tetapi itu membutuhkan waktu yang lama. Ini adalah kerja keras dan jelas lebih sulit dari yang saya kira. Prediksi saya salah, dan saya meremehkan waktu yang dibutuhkan untuk menyelesaikan masalah ini.

Momen ketika tim akhirnya mengatasi masalah kunci itu dan kinerja meningkat secara signifikan masih segar dalam ingatan saya. Anda dapat dengan jelas merasakan transformasi energi dari seluruh tim - semua orang tiba-tiba penuh energi dan bergegas menuju tujuan akhir dengan motivasi baru.

Hal yang paling ajaib adalah bahwa perkiraan waktu penyelesaian yang ditampilkan di pelacak status kami terus memendek dari dua tahun awal, dan akhirnya terkunci pada node waktu yang jelas. Kemajuan yang terlihat ini memiliki dorongan yang tak terukur untuk semangat tim. Saya pikir inilah keindahannya.

Saya ingin menekankan bahwa pekerjaan pembelajaran mesin tidak pernah berhenti. Bahkan setelah pelatihan dimulai, proses co-desain pembelajaran mesin ini berlanjut. Tim pembelajaran mesin tidak hanya secara aktif menindaklanjuti masalah yang ditandai sebagai ‘pemrosesan selanjutnya’, tetapi juga terus memberikan peningkatan yang benar-benar mengoptimalkan waktu pelatihan.

Ini dengan sempurna mencerminkan semangat tim kami - tidak ada batasan pekerjaan ‘setiap orang menyapu salju di depan pintu mereka sendiri’ di sini, tetapi kolaborasi yang benar-benar mulus, dan kohesi ini adalah kekuatan terbesar kami.

Sam Altman: Dunia luar telah banyak membahas tentang tantangan dan akurasi prediksi dari pelatihan ini sendiri. Tetapi pada kenyataannya, semua ini didasarkan pada perencanaan yang sangat menyeluruh - dapatkah Anda berbicara lebih banyak tentang ini secara detail?

Alex Paino: Ini jelas rencana kami yang paling menyeluruh sejauh ini. Seperti yang saya katakan, kami mulai mempersiapkan proyek ini setahun sebelum dimulainya pelatihan resmi. Selama periode ini, kami melakukan beberapa pengujian kontrol risiko skala besar.

Kami memberikan perhatian khusus untuk secara bertahap memperkenalkan semua peningkatan: mulai dari konfigurasi dasar dengan kepercayaan tinggi - yang dapat dipahami sebagai arsitektur matang yang mirip dengan GPT-4, kami telah sepenuhnya menguasai konfigurasi ini pada tingkat pembelajaran mesin - dan kemudian menambahkan fitur baru lapis demi lapis seperti blok bangunan.

Kuncinya adalah memverifikasi secara ketat skalabilitas setiap peningkatan pada skala yang berbeda: tidak hanya untuk melihat peningkatan kinerja, tetapi juga untuk memastikan bahwa peningkatan ini terus efektif seiring dengan bertambahnya skala model. Banyak peningkatan bekerja dengan baik dalam pengujian skala kecil, tetapi akan gagal dalam aplikasi skala besar.

Oleh karena itu, kami telah mempertahankan tingkat kewaspadaan yang tinggi di seluruh proses dan terus mengulangi dan meningkatkan metodologi hukum ekspansi kami. Melalui praktik kontrol risiko ini, kami telah mengumpulkan banyak pengalaman berharga yang akan terus memandu pengembangan model seri GPT di masa depan.

Amin Tootoonchian: Saya ingat momen yang sangat menarik yang sangat saya rindukan. Anda tahu, kami hampir selalu menemukan berbagai bug setiap kali kami memulai tugas pelatihan. Ini sudah biasa. Tetapi kuncinya adalah memastikan bahwa kemajuan tidak terhambat dan untuk selalu mengonfirmasi bahwa kemajuan saat ini memang berada di jalur yang benar dan apakah bug ini akan memiliki dampak fatal pada kesehatan pelatihan.

Meskipun awalnya kami sangat yakin bahwa ada cacat besar, melalui seluruh sistem pemantauan yang kami bangun, kami telah dapat secara akurat membedakan akar penyebab masalah: Apakah itu kegagalan perangkat keras? Jenis kegagalan perangkat keras apa? Apakah itu kerusakan data? Atau apakah itu bug dalam model pembelajaran mesin itu sendiri? Atau apakah itu kondisi pacu dalam kode?

Pada saat itu, kami memiliki beberapa area diskusi masalah yang terbuka pada saat yang sama, dengan berbagai gejala. Setelah serangkaian perbaikan bug, kami terjebak: ada beberapa masalah yang belum terpecahkan di depan kami, dan semua orang memeras otak mereka - apakah ini disebabkan oleh bug yang berbeda? Atau apakah itu bug di tempat kerja?

Kemudian, kami mengadakan pemungutan suara untuk membiarkan anggota tim memilih akar penyebab yang paling mungkin. Pilihan yang paling tidak menjanjikan mencapai kebenaran: ternyata ada masalah dengan fungsi torch.sum upstream dari PyTorch, operasi penjumlahan sederhana.

Bug ini sangat menarik. Anda tahu, kami terutama menggunakan kernel Triton, dan kami hanya akan kembali ke operasi obor di beberapa skenario tepi yang tidak penting. Dan bug fungsi torch.sum yang dipicu oleh jalur kode spesifik kami secara tidak sengaja akan menyebabkan akses memori ilegal karena karakteristik distribusi data - itu membuat kesalahan saat menghitung offset memori.

Hal yang paling dramatis adalah bahwa ketika seorang insinyur akhirnya menemukan masalah dan mengirimkan perbaikan, semua laporan kesalahan dengan gejala yang berbeda menghilang. Semua orang dengan bersemangat mengubah saluran Slack dari ‘teori multi-bug’ menjadi ‘teori bug tunggal’, dan pemandangannya sangat menggembirakan.

Sudah berapa lama bug ini mengintai? Itu telah ada sejak tahap awal pelatihan dan tidak diidentifikasi sampai bilah kemajuan melewati sekitar 40%. Proses penemuan juga penuh dengan drama: pada saat itu, kernel kompleks secara berurutan memanggil urutan, dan panggilan kedua memicu akses memori ilegal.

Meskipun frekuensi crash ini sangat rendah (itu hanya terjadi sekali setiap beberapa ratus atau bahkan ribuan langkah pelatihan), itu mudah diabaikan sebagai kegagalan sesekali, tetapi pedoman tim kami adalah: jangan pernah melepaskan anomali apa pun. Bagian terbaik dari kisah ini terletak pada ketekunan untuk tidak menyerah dengan mudah ini.

Sam Altman: Apa lagi yang perlu Anda lakukan setelah pra-pelatihan GPT-4.5 dimulai?

Alex Paino: Kita semua perlu mengamati kurva kehilangan sesering mungkin. Selain itu, kita perlu terus mengoptimalkan sistem dan meningkatkan co-desain yang tidak diselesaikan sebelum pelatihan dimulai. Kami memantau dengan cermat berbagai statistik selama proses pelatihan untuk memastikan bahwa tidak ada tren tak terduga. Pada saat yang sama, kami menjajaki kemungkinan rencana peningkatan dari perspektif pembelajaran mesin. Meskipun pekerjaan tingkat data akan berkurang sementara setelah pra-pelatihan dimulai, masih banyak tugas yang harus diproses.

Amin Tootoonchian: Saya pikir pembelajaran mesin sebagian besar bergantung pada penilaian kebenaran. Setelah pra-pelatihan dimulai, menghadapi sejumlah besar sinyal kebisingan, kita seperti peramal yang menafsirkan ampas teh, dan kita perlu menilai apakah sistem itu sehat. Ini adalah tanggung jawab kami.

Sam Altman: Pada tingkat sistem, apa yang akan membatasi kita untuk melakukan pelatihan model? Apakah itu chip, prosesor, memori, jaringan, atau catu daya?

Amin Tootoonchian: Keindahan sistem adalah bahwa, ketika melakukan desain kolaboratif, beban kerja dapat beradaptasi dengan infrastruktur yang Anda bangun. Tidak ada pepatah universal bahwa jaringan adalah hambatan, atau bandwidth memori adalah hambatan, dll. Bahkan untuk model dengan spesifikasi yang sama, kita dapat memilih untuk mentransfer persyaratan sumber daya. Kita dapat memilih untuk membuat sistem yang lebih seimbang, tetapi memiliki lebih banyak bandwidth memori selalu bermanfaat. Sulit untuk menjawab pertanyaan ini tanpa membatasi kondisi.

Saat mendesain GPT-4.5, kita mungkin perlu memiliki atribut tertentu dalam sistem, yang perlu dihasilkan melalui panduan manusia. Oleh karena itu, desain kolaboratif sangat penting untuk membentuk arsitektur model dan elemen arsitektur, dan sampai batas tertentu menghubungkan sistem dan aspek pembelajaran mesin. Jika sistem memiliki atribut yang tidak ingin kita miliki terlalu banyak. Situasi ideal saya adalah bahwa semuanya harus dipisahkan untuk memberikan ruang terbesar satu sama lain.

Kadang-kadang hal-hal terhubung bersama, dan kita perlu memenuhi persyaratan infrastruktur, atau hal-hal harus seperti ini. Sebagian besar waktu, kita membutuhkan sistem yang seimbang, komunikasi yang seimbang. Dan sarana regulasi terbaik yang kita miliki adalah semua desain kolaboratif ini.

Sam Altman: Seberapa jauh kita dari tujuan sistem ideal seperti itu?

Amin Tootoonchian: Kita jauh dari tujuan itu. Proses membangun sistem selalu seperti ini: pertama ada pandangan ideal tentang bagaimana seharusnya sesuatu bekerja, dan kemudian perbedaan itu didamaikan dengan sumber daya yang ada.

Saya tidak berpikir kita melakukannya untuk teori demi teori, tetapi hanya untuk membahas apa yang kita inginkan, untuk mewujudkannya, dan untuk mendekati ideal itu sedekat mungkin. Ini mungkin bagian yang paling menarik dari bidang sistem. Orang dulu mengatakan bahwa ini adalah desain sistem yang elegan, dan pada akhirnya sejarah akan memberi tahu kita apakah pilihan ini benar atau salah.

Sam Altman: Jika Anda bisa mendapatkan jawaban untuk pertanyaan pembelajaran mesin sebelum pelatihan besar berikutnya, apa yang paling ingin Anda ketahui?

Alex Paino: Saya ingin tahu algoritma mana yang harus kita gunakan di bawah data terbatas dan bidang tertentu. Meskipun ini adalah pertanyaan yang luas, ini memang yang paling kritis.

Sam Altman: Apakah Anda akan melakukan pra-pelatihan sinkron dengan 10 juta GPU atau lebih di masa depan?

Alex Paino: Saya pikir akan ada, tetapi itu mungkin bukan model pra-pelatihan tradisional. Bentuknya mungkin sangat berbeda dari teknologi yang ada, tetapi itu akan tetap mempertahankan inti dari pembelajaran tanpa pengawasan.

Amin Tootoonchian: Saya lebih suka model semi-sinkron. Karena hukum fisika, sinkronisasi lengkap tidak terlalu realistis.

Daniel Selsam: Saya pikir itu lebih mungkin terdesentralisasi. Pasti akan ada 10 juta GPU yang bekerja bersama dalam sistem AI yang belajar dan melakukan tugas, tetapi seperti berbagai bagian otak, mereka mungkin tidak harus berkomunikasi satu sama lain.

Sam Altman: Berapa banyak perbedaan antara algoritma paling canggih saat ini dan efisiensi data manusia? Apakah mungkin untuk mengejar ketinggalan di masa depan?

Daniel Selsam: Keduanya sulit dibandingkan secara langsung. Kesenjangan dalam pembelajaran bahasa pasti sangat besar. Kuncinya terletak pada bagaimana mendefinisikan jumlah informasi yang diterima oleh saraf visual manusia. Saya pikir efisiensi data keseluruhan algoritma jauh lebih rendah daripada manusia.

Selama beberapa dekade, pembelajaran mendalam telah berfokus pada efisiensi komputasi. Selain pertumbuhan data dan daya komputasi, yang benar-benar mengejutkan adalah efek superposisi yang dihasilkan oleh peningkatan algoritma. Setiap kali kinerja algoritma ditingkatkan sebesar 10% atau 20%, itu akan memiliki efek yang signifikan ketika ditumpangkan pada efisiensi data. Sejauh ini, belum ada mobilisasi seperti itu di sekitar efisiensi data, karena tidak sepadan ketika data tidak mengalir dan daya komputasi terbatas.

Sekarang, kita memasuki tahap baru penelitian AI, dan kita akan mulai mengumpulkan kemenangan efisiensi data. Saya pikir agak bodoh untuk memprediksi sekarang bahwa kita akan menghadapi rintangan yang tidak dapat diatasi. Cara kerja otak manusia pasti berbeda dari peningkatan algoritma kita, dan kita harus berhati-hati dalam hal ini. Tapi saya pikir kita harus tetap optimis tentang perkembangan algoritma di masa depan.

Sam Altman: Apa korelasi antara pra-pelatihan skala lebih besar dan kemampuan belajar dan penalaran model yang lebih kuat?

Alex Paino: Apa yang telah kami amati adalah bahwa pra-pelatihan dan pembelajaran tanpa pengawasan yang lebih baik cenderung meningkatkan kecerdasan keseluruhan model dan sangat membantu dalam generalisasi, yang saling melengkapi dengan kemampuan penalaran, sementara penalaran mungkin sedikit lebih tumpul dalam meningkatkan kecerdasan. Saya pikir mereka saling melengkapi.

Sam Altman: Pra-pelatihan tampaknya universal dalam banyak hal, sementara melatih model hanya dapat membuatnya berfungsi dengan baik dalam satu jenis hal, benarkah itu?

Alex Paino: Ini sangat menarik, tetapi ketika Anda melihat data yang melatih mereka, Anda tidak akan terkejut dengan situasi ini. Rentang set data pra-pelatihan sangat besar, dan apa yang kita kejar adalah luas dan keragaman. Ketika datang ke pembelajaran penguatan model dan membuatnya dengan jelas mendapatkan sinyal hadiah yang baik dan lingkungan pelatihan yang baik, saya pikir sulit untuk memperhitungkan luasnya set data.

Daniel Selsam: Saya setuju, tetapi saya pikir ada faktor lain. Pra-pelatihan pada dasarnya adalah memampatkan data, sehingga menemukan hubungan antara hal-hal yang berbeda. Ini tentang analogi dan lebih abstrak. Penalaran adalah keterampilan yang membutuhkan pemikiran yang cermat tentang masalah tertentu dan juga dapat memperoleh solusi untuk banyak jenis masalah. Tetapi dalam proses pra-pelatihan, pengetahuan yang lebih abstrak dapat dipelajari ketika memampatkan data di berbagai bidang.

Sam Altman: Mengapa pembelajaran tanpa pengawasan efektif?

Daniel Selsam: Kuncinya adalah kompresi. Bentuk kecerdasan yang ideal adalah induksi Solomonov. Secara umum, pembelajaran mesin akan mempertimbangkan semua kemungkinan, tetapi cenderung mulai dengan program yang lebih sederhana untuk pengujian.

Esensi dari pra-pelatihan saat ini adalah proses kompresi, yang mencapai ekspresi perkiraan dengan menemukan program paling sederhana untuk menjelaskan semua data yang telah dihasilkan manusia sejauh ini.

Sam Altman: Bagaimana prediksi Token berikutnya membantu mencapai kompresi?

Daniel Selsam: Ada paradoks dalam statistik - mengapa jaringan dalam tampaknya tidak dapat memampatkan tetapi dapat mencapai generalisasi? Biasanya berbicara, ketika Anda memiliki banyak data dan beberapa model kecil, model ini harus melalui kompresi untuk mempelajari sesuatu.

Dalam pra-pelatihan, skala data dan model sangat besar. Beberapa orang berpikir bahwa pelatihan ini hanya memori dan pembelajaran interpolasi. Faktanya, mereka mengabaikan perspektif lain untuk memahami kompresi - kompresi pra-sekuensial. Ini seperti kompresor. Bahkan jika bobot datanya sangat besar, biner tidak perlu menyimpan informasi ini. Hasil prediksi Token berikutnya dapat dengan cepat mengambil informasi yang berguna dan meningkatkan efisiensi kompresi.

Sam Altman: Proses pelatihan GPT-4.5 menghabiskan banyak tenaga, waktu, dan uang, yang sebenarnya dapat dianggap sebagai eksperimen untuk memverifikasi Hukum Penskalaan, dan hasilnya membuktikan bahwa itu efektif dan akan berlanjut untuk waktu yang lama. Mengapa Hukum Penskalaan dapat disebut hukum alam semesta?

Daniel Selsam: Semakin tinggi tingkat kompresi, semakin kuat kecerdasannya, yang memiliki implikasi filosofis yang mendalam. Mengapa butuh waktu lebih lama untuk melatih model yang lebih besar dan tingkat kompresinya lebih tinggi? Ini melibatkan banyak teori, di antaranya saya suka Representasi Jarang.

Konsep kuncidalam realitas mengikuti distribusi hukum daya. Misalnya, konsep terpenting ke-100 mungkin hanya muncul sekali dalam setiap 100 dokumen, dan ada efek ekor panjang yang jelas. Karakteristik distribusi ini berarti bahwa data skala besar dan daya komputasi diperlukan untuk secara efektif menangkap semua konsep kunci, dan juga menentukan bahwa Hukum Penskalaan akan efektif untuk waktu yang lama.