Latihan GPT-4.5 OpenAI: 100,000 GPU

Dalam tinjauan yang jarang berlaku di sebalik tabir, OpenAI baru-baru ini berkongsi butiran tentang pembangunan modelnya yang paling bercita-cita tinggi setakat ini, GPT-4.5. Pendedahan ini dibuat lebih daripada sebulan selepas pelancaran model itu, dalam perbualan jujur selama 45 minit yang menampilkan pengasas bersama dan Ketua Pegawai Eksekutif OpenAI, Sam Altman, bersama tiga tokoh teknikal utama daripada projek GPT-4.5. Perbincangan itu mendedahkan pelbagai cabaran yang tidak diketahui sebelum ini, termasuk pelampauan garis masa yang ketara, kegagalan kerap dalam kluster pengkomputeran, dan laluan yang tidak dapat diramalkan kepada peningkatan prestasi.

Permulaan GPT-4.5: Pengembaraan Dua Tahun

Inisiatif GPT-4.5, yang direka dua tahun sebelum pelancarannya, mewakili usaha OpenAI yang paling teliti dirancang hingga kini. Ia memerlukan usaha bersepadu beratus-ratus individu, dengan Altman menyatakan bahawa projek itu melibatkan “hampir semua orang” di OpenAI. Penglibatan yang meluas ini menggariskan kepentingan strategik GPT-4.5 dalam misi organisasi yang lebih luas.

Semasa fasa pembangunan, pasukan OpenAI menghadapi apa yang mereka sebut sebagai ‘masalah yang dahsyat’. Penggunaan kluster 100,000 GPU mendedahkan kelemahan infrastruktur laten yang menjelma sebagai kegagalan yang jarang berlaku namun mendalam. Untuk mencapai keseimbangan antara kepantasan dan prestasi optimum, jurutera sistem menerima pendekatan iteratif, pada dasarnya ‘membina dan membaiki’ serentak. Satu pepijat yang amat sukar difahami menghantui kluster dengan ralat berulang, yang kekal tidak dikesan sehingga proses latihan mencapai kira-kira 40% selesai.

Paradoksnya, percubaan ini menyumbang kepada pengukuhan asas teknikal OpenAI. Kepakaran yang diperoleh kini membolehkan pasukan yang terdiri daripada hanya 5-10 individu untuk meniru model magnitud GPT-4. Lonjakan prestasi daripada GPT-4 kepada GPT-4.5, dianggarkan sekitar sepuluh kali ganda, dicirikan oleh ‘kecerdasan dipertingkatkan secara komprehensif tetapi sukar untuk dikuantifikasi’, yang mengejutkan walaupun mereka yang berada dalam OpenAI. Lonjakan kualitatif ini mencadangkan kemajuan melangkaui penskalaan semata-mata, menunjuk kepada peningkatan asas dalam keupayaan model untuk menaakul dan memahami.

Melihat ke hadapan, OpenAI menyedari bahawa mencapai susunan magnitud prestasi yang seterusnya akan bergantung bukan pada kuasa pengkomputeran sahaja, tetapi lebih kepada kecekapan data. Tumpuan beralih ke arah membangunkan algoritma yang boleh mengekstrak lebih banyak pengetahuan daripada set data sedia ada, dengan itu memaksimumkan utiliti sumber pengkomputeran yang tersedia.

Tambahan pula, seni bina berkembang daripada kluster tunggal kepada reka bentuk berbilang kluster, membayangkan senario latihan masa depan yang melibatkan pembelajaran kerjasama merentasi sebanyak 10 juta GPU. Peralihan ini memerlukan peningkatan ketara dalam toleransi kesalahan untuk memastikan kestabilan dan kebolehpercayaan sistem teragih berskala besar sedemikian.

Perbualan itu juga meneliti hubungan antara ‘ekor panjang’ data dan undang-undang penskalaan, kelebihan kerjasama rapat antara pembelajaran mesin dan pasukan sistem (reka bentuk bersama), intipati pembelajaran tanpa pengawasan, dan budaya penyelesaian masalah yang teliti.

Pemain Utama Di Sebalik GPT-4.5

Selain Altman, tiga ahli pasukan OpenAI yang lain yang mengambil bahagian dalam perbualan ini ialah:

  • Alex Paino: Bertanggungjawab untuk algoritma pembelajaran mesin pra-latihan GPT-4.5.
  • Amin Tootoonchian: Ketua arkitek sistem OpenAI.
  • Daniel Selsam: Menyelidik kecekapan data dan algoritma.

Asal Usul dan Evolusi GPT-4.5

Sam Altman: Apakah yang benar-benar diperlukan untuk membina model sebesar GPT-4.5?

Alex Paino: Kami memulakan projek ini kira-kira dua tahun lalu. Pada masa itu, OpenAI akan melancarkan kluster pengkomputeran besar yang baharu, dan pasukan kami melihat peluang ini dan melakukan satu siri tugas untuk menentukan fungsi yang perlu dimasukkan oleh model itu, dan menjalankan sejumlah besar ujian operasi pengurangan risiko.

Kami membangunkan pelan yang panjang untuk ini, yang melibatkan keseluruhan timbunan teknologi daripada sistem kepada pembelajaran mesin. Mengurangkan risiko dan membuat persiapan untuk latihan ialah proses pelaksanaan yang panjang, dan latihan itu sendiri juga merupakan projek yang sangat besar.

Amin Tootoonchian: Saya rasa proses ini memerlukan kerjasama erat antara pasukan pembelajaran mesin dan pasukan sistem dari awal, sehingga kami jelas mengetahui model yang ingin kami latih, dan kemudian mula berlatih.

Kami telah membuat ramalan dalam pembelajaran mesin dan sistem, cuba meminimumkan jurang antara jangkaan dan realiti. Walau bagaimanapun, kerana rentak kerja kami sangat pantas dan kami perlu menggunakan sumber pengkomputeran terkini, latihan model telah menjadi sesuatu yang sukar untuk dirancang dengan sempurna terlebih dahulu.

Kami hampir selalu memulakan latihan dengan banyak masalah yang belum selesai dan cuba mengatasi cabaran dan membuat kemajuan semasa proses itu. Penyelesaian utama ialah meningkatkan lebih banyak sumber pengkomputeran.

Peringkat akhir ialah pelaksanaan, yang memerlukan ramai orang melabur banyak tenaga dan motivasi untuk tempoh yang panjang untuk menyelesaikan proses latihan.

Sam Altman: Berapakah jurang antara jangkaan dan realiti kita, pada pendapat anda?

Amin Tootoonchian: Dari segi sistem, pada mulanya, kami biasanya jauh daripada keadaan yang diharapkan. Kami sentiasa menghadapi pilihan: sama ada menangguhkan pelancaran dan menunggu masalah diselesaikan, atau memulakan awal dan menyelesaikan masalah dalam proses tersebut. Ini sentiasa memerlukan pertukaran untuk mengelakkan kelewatan yang tidak munasabah dalam proses tersebut.

Tetapi hampir selalu ada masalah yang tidak dijangka, dan apa yang perlu kami lakukan ialah mengendalikan nod ini sebanyak mungkin, menangani faktor yang tidak diketahui, dan merumuskan pelan untuk latihan model.

Alex Paino: Dalam projek ini, matlamat kami adalah untuk membuat GPT-4.5, yang bermakna keupayaannya seharusnya 10 kali lebih pintar daripada GPT-4. Ini adalah matlamat awal yang kami tetapkan kira-kira 2 tahun lalu.

Banyak perkara berlaku dalam proses ini. Kami sedang memikirkan sama ada kami boleh melakukan lebih baik atau lebih buruk daripada yang dijangkakan? Ini adalah proses yang sangat rumit, tetapi pada akhirnya, dari segi pengiraan berkesan yang kami masukkan, kami mendapat model yang kami fikir 10 kali lebih pintar daripada GPT-4.

Amin Tootoonchian: Dari segi pelaksanaan, masa yang dihabiskan untuk projek GPT-4.5 jauh daripada apa yang kami jangkakan pada mulanya.

Revolusi Pasukan Lean: Melatih GPT-4 dengan Sumber Minimum

Sam Altman: Apabila kluster berkembang daripada 10,000 kad kepada 100,000 kad, mengapa anda menghadapi begitu banyak masalah?

Amin Tootoonchian: Saya fikir jika pembangun sistem cukup sensitif, kebanyakan masalah boleh diperhatikan pada peringkat skala kecil.

Terdapat juga beberapa masalah yang tidak unik untuk peringkat latihan berskala besar, tetapi pada asalnya berlaku dengan kerap, tetapi akan menjadi masalah yang dahsyat selepas skala ditingkatkan, terutamanya apabila pasukan tidak menjangkakan masalah ini akan merosot sedemikian rupa terlebih dahulu.

Sam Altman: Apakah perkara yang menyebabkan akibat yang dahsyat?

Amin Tootoonchian: Saya fikir masalah infrastruktur sudah diketahui umum. Kadar kegagalan, jenis kegagalan dan jumlah kegagalan adalah sangat tinggi. Kluster 100,000 kad ialah kumpulan sampel berskala besar, jadi kami juga menemui masalah yang tidak diperhatikan oleh pembekal kuasa pengkomputeran.

Rangkaian ialah sebahagian daripadanya, dan pemecut individu juga boleh menghadapi masalah. Tetapi ini juga keindahan sistem ini - hampir semua komponen perlu berfungsi seperti yang diharapkan untuk menghasilkan hasil yang diharapkan. Tugas kami adalah untuk meminimumkan masalah ini sebanyak mungkin.

Sam Altman: Sememangnya sukar untuk bekerja pada had skala kluster, tetapi saya juga perasan bahawa melakukan perkara yang tidak lagi berada di barisan hadapan teknologi telah menjadi lebih mudah. Melatih GPT-4.5 memerlukan beratus-ratus orang, dan hampir semua orang di OpenAI terlibat.

Tetapi hari ini, jika anda membenarkan anda memilih pasukan terkecil daripada OpenAI dan melatih semula GPT-4 dari awal dengan semua pengetahuan yang kita tahu dan semua kerja sistem, berapakah jumlah orang yang diperlukan?

Alex Paino: Saya fikir ia mungkin mengambil masa kira-kira 5 hingga 10 orang untuk membuat model peringkat GPT-4 sekarang. Timbunan teknologi telah dipertingkatkan dengan ketara dalam proses menyiapkan GPT-4.5.

Malah, kami telah melakukan perkara yang serupa dalam proses melatih GPT-4.5 - kami melatih GPT-4o, yang merupakan model peringkat GPT-4, dan melatihnya semula menggunakan banyak kandungan yang sama daripada projek penyelidikan GPT-4.5. Lebih sedikit orang digunakan untuk latihan itu.

Kecekapan Data: Kunci Untuk Membuka Kunci Generasi Model Seterusnya

Sam Altman: Dari sudut pandangan anda, Dan? Mengapa sukar untuk melatih model yang besar?

Daniel Selsam: Saya fikir sukar untuk melakukan sesuatu yang baharu. Saya fikir walaupun hanya mengetahui bahawa orang lain telah melakukan sesuatu menjadikan ia lebih mudah, kerana bahagian yang paling sukar ialah mempunyai kepercayaan bahawa anda boleh melakukan sesuatu di tempat pertama. Saya fikir hanya mengetahui bahawa sesuatu itu boleh dilaksanakan ialah kod curang super, menjadikan sesuatu lebih mudah.

Alex Paino: Kami sedang mengembangkan operasi pra-latihan GPT kepada 10 kali ganda daripada sebelumnya, dan kami akan sentiasa menemui beberapa perkara baharu yang menarik yang anda tidak semestinya boleh jangkakan.

Sam Altman: Apakah yang diperlukan untuk mencapai pertumbuhan 10x atau 100x seterusnya dalam skala pra-latihan?

Daniel Selsam: Kecekapan data. Seni bina Transformer (iaitu GPT) sangat cekap dalam menggunakan data. Ia boleh menyerap dan memampatkan maklumat dengan baik dan mencapai generalisasi. Ciri terbesarnya ialah ia boleh menyerap maklumat dengan cekap dengan sumber pengkomputeran.

Walau bagaimanapun, kedalaman cerapan yang diperoleh daripada data adalah terhad. Apabila kuasa pengkomputeran berkembang dengan pesat manakala data berkembang agak perlahan, data menjadi kesesakan dalam model standard ini. Ini memerlukan inovasi algoritma, membangunkan kaedah yang boleh menggunakan lebih banyak kuasa pengkomputeran untuk mempelajari lebih banyak pengetahuan daripada jumlah data yang sama.

Sam Altman: Apakah lagi yang anda fikir kita perlu mengekalkan pengembangan selain daripada ini?

Amin Tootoonchian: Jawapan saya adalah tentang sistem. Saya fikir jumlah kerja yang diperlukan untuk GPT-4.5 pada dasarnya adalah hasil yang tidak dapat dielakkan daripada spesifikasi model. Kami tidak boleh melatih GPT-4.5 dengan seni bina teknikal yang sama seperti GPT-4.

Dari segi pengurusan negeri, kerana sumber pengkomputeran yang diperlukan telah melebihi kapasiti membawa kluster tunggal, kami perlu bertukar kepada seni bina latihan berbilang kluster. Untuk mencapai matlamat ini, kita mesti menyepadukan pelbagai aliran kerja yang berbeza dalam masa yang singkat.

Walaupun inimembantu kami mencapai kejayaan berperingkat, untuk mencapai susunan magnitud peningkatan prestasi yang seterusnya, kami masih perlu menyelesaikan beberapa masalah teknikal yang diketahui tetapi ditangguhkan buat sementara waktu - masalah ini tidak dapat dielakkan. Ia adalah pertukaran teknikal seperti ini yang sentiasa memanjangkan kitaran pembangunan sistem yang sempurna. Kami sentiasa membuat pertukaran strategik dalam proses mengejar pelan pelaksanaan yang optimum.

Perlu dijelaskan bahawa sistem itu sendiri bukanlah matlamat utama. Nilai output sebenar ialah pertimbangan teras. Untuk peningkatan prestasi 10x yang seterusnya, saya fikir kejayaan dalam toleransi kesalahan adalah penting. Kami perlu membina mekanisme toleransi kesalahan yang bekerjasama secara mendalam dengan beban kerja untuk mengurangkan kebimbangan operasi dan penyelenggaraan dengan ketara. Kerumitan operasi dan penyelenggaraan sistem super besar semasa pada dasarnya berbeza daripada sistem sebelumnya.

Sam Altman: Adakah anda tahu peratusan kegagalan yang disebabkan oleh komponen tertentu semasa latihan GPT-4.5?

Amin Tootoonchian: Saya tidak mempunyai angka khusus untuk dikongsi, tetapi secara amnya, penggunaan awal perkakasan generasi baharu selalunya menghadapi banyak cabaran teknikal yang belum difahami sepenuhnya. Kami memilih untuk memajukan projek itu sebelum masalah itu dijelaskan sepenuhnya, yang membawa kepada kadar kegagalan awal yang tinggi.

Tetapi pengalaman menunjukkan bahawa apabila punca dikenal pasti dan diselesaikan, kadar kegagalan akan berkurangan dengan ketara. Fenomena ini pada dasarnya mencerminkan pemahaman kita yang semakin mendalam tentang infrastruktur - sesetengah orang menyebutnya membersihkan infrastruktur atau memahami masalah asas infrastruktur.

Peringkat awal pelaksanaan hampir selalu agak menyakitkan. Semasa kami memajukan projek itu, kami juga terus menemui dan menyelesaikan mod kegagalan baharu, tetapi akhirnya kadar kegagalan akan berkurangan secara beransur-ansur dan masa berjalan biasa akan meningkat.

Ini pada dasarnya adalah perkara pertukaran keutamaan: Pada peringkat awal kitaran hayat infrastruktur, risiko kegagalannya selalunya sukar untuk dianggarkan dengan tepat; dan jika kita terlalu mengejar keadaan ideal muktamad (yang asal ialah “City Estate”, reka bentuk negara kota yang ideal), ia boleh membawa kepada sistem Prestasi ketersediaan awal adalah sangat lemah.

Di Sebalik Pengiraan: Inovasi Algoritma dan Potensi Data yang Belum Dimanfaatkan

Sam Altman: Walaupun model inferens ialah komponen utama timbunan teknologi masa depan kita, mari kita fokuskan buat sementara waktu pada sempadan pembangunan model pra-latihan tradisional. Andaikan kita mempunyai kuasa pengkomputeran GPU yang tidak terhad, lebar jalur rangkaian yang tidak terhad dan bekalan kuasa yang tidak terhad, tetapi masih dihadkan oleh kesesakan teknikal sedia ada - termasuk isu kebolehpercayaan sistem, kekurangan kaedah latihan toleran kesalahan dan batasan set data sedia ada.

Menurut peraturan evolusi kita untuk mencapai peningkatan skala 100 kali ganda untuk setiap nombor versi GPT utama, berdasarkan sempadan teknikal semasa, tahap manakah yang boleh dicapai oleh pembangunan model pra-latihan? Secara khusus, untuk model siri GPT, berdasarkan sistem pengetahuan sedia ada kita, jenis model manakah yang secara teorinya boleh dilatih? Bolehkah kita membuat GPT-5.5?

Alex Paino: Dari perspektif pembelajaran mesin dan pembangunan algoritma, kita belum mencapai had teori yang jelas. Sebenarnya, kita baru sahaja mula meneroka algoritma dengan kecekapan data yang lebih tinggi dan cara memanfaatkan sumber data sedia ada dengan lebih lengkap. Keadaan ini sangat menarik - malah model seperti GPT-4 sebahagian besarnya dibangunkan dalam keadaan sumber pengkomputeran yang terhad, yang telah menentukan hala tuju kebanyakan penyelidikan sebelumnya.

Tetapi keadaannya sama sekali berbeza sekarang. Sejak GPT-4.5, dalam beberapa dimensi utama, data dan bukannya pengkomputeran menjadi kekangan utama. Peralihan ini menjadikan penyelidikan berkaitan kurang menarik.

Sam Altman: Tetapi ini sememangnya satu kemajuan yang menakjubkan, dan dunia mungkin tidak menyedari sepenuhnya bahawa sumber pengkomputeran bukan lagi kesesakan utama pada model terbaik yang boleh kita bina. Peralihan ini sangat bermakna, lagipun, kita telah hidup dalam persekitaran terhad pengkomputeran terlalu lama.

Mendedahkan Kejutan: Kebolehramalan lwn. Kecerdasan yang Tidak Dijangka

Sam Altman: Apakah pengalaman pembelajaran mesin yang paling menarik yang kita pelajari semasa latihan GPT-4.5? Katakan sahaja apa yang anda ingin kongsi.

Amin Tootoonchian: Secara umum, perkara yang paling menimbulkan pemikiran ialah perkara yang menyimpang daripada ramalan kita - terutamanya apabila kita cuba memahami mengapa prestasi sebenar menyimpang daripada keluk yang diharapkan.

Alex Paino: Salah satu penemuan yang paling mengejutkan bagi kami ialah komponen pembelajaran mesin yang berbeza mempunyai prestasi skalabiliti yang sangat berbeza. Sesetengah bahagian boleh dikembangkan dengan sangat baik, manakala yang lain tidak boleh. Inilah yang benar-benar kami sedari semasa proses latihan sebenar. Pengalaman ini memberi kami banyak inspirasi.

Daniel Selsam: Saya fikir dua ciri teras paradigma GPT ialah: pertama, kehilangan ujian (metrik yang mengukur prestasi model pada data ujian yang tidak kelihatan) boleh diramalkan dengan tepat; kedua, prestasi model menunjukkan peningkatan yang boleh diramalkan dengan peningkatan skala. Apa yang lebih menakjubkan ialah pengurangan dalam kehilangan ujian akan diubah menjadi tahap kecerdasan yang dipertingkatkan sepenuhnya dalam pelbagai cara yang sukar untuk dikuantifikasi tetapi menakjubkan dan misteri.

Sam Altman: Adakah anda benar-benar optimis tentang perkara ini? Adakah anda bersetuju sepenuhnya dengan sudut pandangan ini?

Daniel Selsam: Sebenarnya, apa yang ingin saya katakan ialah kami menemui fenomena yang sangat menarik dalam ujian GPT-4.5 - selepas diuji semula, banyak keupayaan canggih yang ditunjukkan oleh model itu benar-benar melebihi jangkaan semua orang.

Kami pasti ia akan menjadi lebih pintar dalam pelbagai cara yang sukar untuk ditakrifkan terlebih dahulu, dan peningkatan halus ini boleh diperhatikan daripada kepuasan pengguna selepas penggunaan sebenar: rizab akal sehat yang lebih kukuh, keupayaan pemahaman kontekstual yang lebih tepat dan genggaman semantik yang lebih halus - ini adalah keajaiban yang dibawa oleh kehilangan ujian tambahan itu. Pada pendapat saya, Undang-undang Penskalaan telah disahkan dengan sempurna dalam dimensi ini.

Kuasa Kerjasama: Pembelajaran Mesin dan Pasukan Sistem Bekerja dalam Harmoni

Sam Altman: Apakah saat yang paling positif semasa keseluruhan proses latihan? Apakah memori kegemaran anda? Jelas sekali terdapat banyak kesakitan, tetapi saya harap kesakitan itu telah dikurangkan.

Alex Paino: Saya memang mempunyai saat seperti itu. Kami melakukan banyak kerja pembelajaran mesin semasa latihan, dan saya fikir beberapa perubahan yang kami buat semasa proses itu mempunyai impak yang agak baik, mungkin lebih baik daripada yang dijangkakan, yang merupakan saat yang sangat menggembirakan bagi kami.

Amin Tootoonchian: Bagi saya, pada masa yang sama dengan latihan, kami juga membina infrastruktur. Kami percaya dengan tegas bahawa kami boleh melintasi tebing prestasi ini, dan kami mempunyai pelan, dan semua orang melaksanakannya, tetapi ia mengambil masa yang lama. Ini adalah kerja keras dan pastinya lebih sukar daripada yang saya fikirkan. Ramalan saya salah, dan saya memandang rendah masa yang diperlukan untuk menyelesaikan masalah ini.

Saat apabila pasukan akhirnya mengatasi masalah utama tersebut dan prestasi bertambah baik dengan ketara masih segar dalam ingatan saya. Anda boleh merasakan peralihan tenaga dalam seluruh pasukan dengan jelas - semua orang tiba-tiba penuh dengan tenaga dan bergegas ke arah matlamat akhir dengan motivasi baharu.

Perkara yang paling menakjubkan ialah anggaran masa siap yang dipaparkan pada penjejak status kami terus dipendekkan daripada dua tahun awal, dan akhirnya terkunci pada nod masa yang jelas. Kemajuan yang boleh dilihat ini adalah tidak terukur kepada peningkatan semangat pasukan. Saya fikir ini adalah keindahannya.

Saya ingin menekankan bahawa kerja pembelajaran mesin tidak pernah berhenti. Malah selepas latihan dimulakan, proses reka bentuk bersama pembelajaran mesin ini masih berterusan. Pasukan pembelajaran mesin bukan sahaja aktif mengikuti masalah yang telah ditandakan sebagai “pemprosesan berikutnya”, tetapi juga terus memberikan penambahbaikan yang benar-benar mengoptimumkan masa latihan.

Ini dengan sempurna merangkumi semangat pasukan kami - tidak ada sempadan kerja “menyapu salji di hadapan pintu anda sendiri” di sini, tetapi kerjasama yang benar-benar lancar. Perpaduan ini adalah kelebihan terbesar kami.

Perancangan yang Teliti dan Pengejaran Tanpa Henti Anomali dalam Pra-Latihan GPT-4.5

Daniel Selsam: Dunia luar telah membincangkan banyak tentang cabaran dan ketepatan ramalan latihan ini sendiri. Tetapi sebenarnya, semua ini dibina berdasarkan perancangan yang sangat teliti - bolehkah anda bercakap lebih lanjut tentang ini secara terperinci?

Alex Paino: Ini sememangnya pelan yang paling teliti yang telah kami buat setakat ini. Seperti yang saya katakan, kami mula membuat persediaan untuk projek ini setahun sebelum pelancaran rasmi latihan. Dalam tempoh ini, kami menjalankan berbilang larian ujian kawalan risiko berskala besar.

Kami memberi perhatian khusus kepada secara beransur-ansur memperkenalkan semua penambahbaikan: bermula daripada konfigurasi asas keyakinan tinggi - yang boleh difahami sebagai seni bina matang yang serupa dengan GPT-4, kami telah menguasai sepenuhnya konfigurasi ini pada tahap pembelajaran mesin - dan kemudian melapis ciri baharu seperti blok binaan.

Kuncinya adalah untuk mengesahkan dengan ketat skalabiliti setiap peningkatan pada skala yang berbeza: bukan sahaja untuk melihat peningkatan prestasi, tetapi juga untuk memastikan bahawa peningkatan ini boleh terus berkesan apabila saiz model meningkat. Banyak peningkatan berprestasi baik dalam ujian skala kecil, tetapi akan gagal dalam aplikasi berskala besar.

Oleh itu, kami telah mengekalkan tahap kewaspadaan yang tinggi sepanjang proses dan terus berulang dan memperbaiki metodologi undang-undang penskalaan kami. Melalui amalan kawalan risiko ini, kami telah mengumpulkan banyak pengalaman berharga, yang akan terus membimbing pembangunan model siri GPT masa depan.

Amin Tootoonchian: Saya teringat detik yang sangat menarik yang sangat saya rindui. Anda tahu, kita hampir pasti menghadapi pelbagai pepijat setiap kali kita memulakan tugas latihan, yang merupakan perkara biasa. Tetapi kuncinya adalah untuk memastikan kemajuan tidak terhalang, dan kita mesti sentiasa mengesahkan sama ada kemajuan semasa sememangnya berada di landasan yang betul dan sama ada pepijat ini akan memberi kesan yang membawa maut kepada kesihatan latihan.

Walaupun pada mulanya kami sangat pasti bahawa terdapat kelemahan utama, melalui keseluruhan sistem pemantauan yang kami bina, kami dapat membezakan dengan tepat punca masalah: Adakah ia kegagalan perkakasan? Apakah jenis kegagalan perkakasan? Adakah ia kerosakan data? Atau adakah ia pepijat dalam model pembelajaran mesin itu sendiri? Atau adakah ia keadaan perlumbaan dalam kod?

Pada masa itu, kami mempunyai berbilang kawasan perbincangan masalah dibuka pada masa yang sama, dengan pelbagai jenis gejala. Selepas satu siri pembetulan pepijat, kami terjerumus ke dalam kebuntuan: berbilang masalah yang belum selesai telah ditimbun di hadapan kami, dan semua orang memerah otak mereka - adakah ini disebabkan oleh pepijat yang berbeza? Atau adakah pepijat yang menyebabkan masalah?

Kemudian, kami mengadakan undian dan meminta ahli pasukan mengundi punca yang paling mungkin. Akibatnya, pilihan yang paling tidak optimis memukul kebenaran: ternyata terdapat masalah dengan fungsi torch.sum di hulu PyTorch, operasi penjumlahan yang mudah.

Pepijat ini sangat menarik. Anda tahu bahawa kami terutamanya menggunakan kernel Triton, dan hanya dalam beberapa senario marginal yang tidak penting kami akan kembali kepada operasi torch. Pepijat fungsi torch.sum yang dicetuskan oleh laluan kod khusus kami kadangkala akan menyebabkan akses memori yang menyalahi undang-undang disebabkan oleh ciri pengedaran data - ia membuat kesilapan semasa mengira ofset memori.

Perkara yang paling dramatik ialah apabila seorang jurutera akhirnya mencari masalah dan menyerahkan pembetulan, semua ralat dengan gejala yang berbeza hilang. Semua orang dengan teruja menukar saluran Slack daripada “teori berbilang pepijat” kepada “teori pepijat tunggal”, dan pemandangan itu sangat gembira.

Berapa lamakah pepijat ini bersembunyi? Ia telah wujud sejak peringkat awal latihan dan tidak ditemui sehingga bar kemajuan telah melepasi kira-kira 40%. Proses penemuan juga penuh dengan drama: Pada masa itu, kernel yang kompleks terus memanggil urutan, dan panggilan kedua mencetuskan akses memori yang menyalahi undang-undang.

Walaupun kekerapan ranap ini sangat rendah (ia hanya berlaku sekali setiap beberapa ratus atau bahkan beribu-ribu langkah latihan), ia mudah diabaikan sebagai kegagalan sekali-sekala, tetapi prinsip pasukan kami ialah: jangan lepaskan sebarang keabnormalan. Bahagian terbaik cerita ini terletak pada ketabahan untuk tidak berputus asa dengan mudah.

Pencarian Sistem Ideal: Horizon Jauh

Sam Altman: Selepas pra-latihan GPT-4.5 bermula, apakah lagi yang perlu anda lakukan?

Alex Paino: Kita semua perlu memerhatikan keluk kehilangan dengan kerap. Di samping itu, kita perlu terus mengoptimumkan sistem dan menambah baik reka bentuk bersama yang tidak disiapkan sebelum latihan dimulakan. Kami memantau dengan teliti pelbagai penunjuk statistik semasa proses latihan untuk memastikan tiada arah aliran tidak normal yang tidak dijangka. Pada masa yang sama, kita meneroka pelan penambahbaikan yang mungkin dari perspektif pembelajaran mesin. Walaupun kerja peringkat data akan dikurangkan buat sementara waktu selepas pra-latihan dimulakan, masih terdapat sejumlah besar tugas yang perlu diproses.

Amin Tootoonchian: Saya fikir pembelajaran mesin sebahagian besarnya bergantung pada ketepatan pertimbangan. Selepas pra-latihan bermula, menghadapi sebilangan besar isyarat hingar, kita seperti penilik nasib mentafsir daun teh, dan kita perlu menilai sama ada sistem itu sihat. Ini adalah tanggungjawab kita.

Sam Altman: Pada peringkat sistem, apakah yang menghalang kita daripada menjalankan latihan model? Adakah ia cip, pemproses, memori, rangkaian atau kuasa?

Amin Tootoonchian: Keindahan sistem ialah apabila melakukan reka bentuk bersama, beban kerja boleh menyesuaikan diri dengan infrastruktur yang anda bina. Tidak ada pepatah umum di sini bahawa rangkaian adalah kesesakan, atau lebar jalur memori adalah kesesakan, dan sebagainya. Malah untuk model dengan spesifikasi yang sama, kita boleh memilih untuk memindahkan keperluan sumber, dan kita boleh memilih untuk mencipta sistem yang lebih seimbang, tetapi mempunyai lebih banyak lebar jalur memori sentiasa bermanfaat. Sukar untuk menjawab soalan ini tanpa had syarat.

Apabila mereka bentuk GPT-4.5, kita mungkin memerlukan sistem untuk mempunyai beberapa jenis atribut, yang perlu dijana di bawah bimbingan manusia. Oleh itu, reka bentuk bersama adalah sangat penting untuk membentuk seni bina model dan elemen seni bina, dan pada tahap tertentu menghubungkan aspek sistem dan pembelajaran mesin. Jika sistem mempunyai atribut yang tidak begitu kita mahu, keadaan ideal saya ialah segala-galanya harus dinyahgandingkan untuk memberi ruang maksimum antara satu sama lain.

Kadangkala perkara disambungkan bersama, dan kita perlu memenuhi keperluan infrastruktur, atau perkara harus seperti ini. Kebanyakan masa, kita memerlukan sistem yang seimbang dan komunikasi yang seimbang. Dan cara pelarasan terbaik yang kita ada ialah semua reka bentuk bersama ini.

**Sam Altman:**Sejauh manakah kita daripada matlamat sistem ideal ini?

Amin Tootoonchian: Masih jauh daripada matlamat itu. Proses membina sistem sentiasa seperti ini: pertama terdapat pandangan ideal tentang cara sesuatu itu harus berfungsi, dan kemudian mendamaikan perbezaan tersebut dengan sumber yang ada.

Saya fikir kita tidak melakukannya untuk teori untuk teori, tetapi hanya untuk membincangkan apa yang kita mahu ia menjadi, untuk merealisasikannya, dan untuk sedekat mungkin dengan ideal itu. Ini mungkin bahagian yang paling menarik dalam bidang sistem. Orang ramai pernah berkata bahawa ini adalah reka bentuk sistem yang elegan, dan akhirnya sejarah akan memberitahu kita sama ada pilihan ini betul atau salah.

Sam Altman: Jika anda boleh mendapatkan jawapan kepada masalah pembelajaran mesin sebelum latihan besar seterusnya, apakah yang paling anda ingin tahu?

Alex Paino: Saya ingin tahu algoritma yang harus kita gunakan di bawah data terhad dan bidang khusus. Walaupun ini soalan yang luas, ia sememangnya yang paling kritikal.

Sam Altman: Adakah anda akan menjalankan pra-latihan segerak dengan 10 juta GPU atau lebih pada masa hadapan?

Alex Paino: Saya fikir akan ada, tetapi ia mungkin bukan model pra-latihan tradisional. Bentuknya mungkin sangat berbeza daripada teknologi sedia ada, tetapi ia masih akan mengekalkan teras pembelajaran tanpa pengawasan.

Amin Tootoonchian: Saya lebih suka mod separa segerak. Disebabkan oleh hukum fizik, penyegerakan lengkap tidak realistik.

Daniel Selsam: Saya fikir ia lebih cenderung untuk didesentralisasikan. Pasti akan ada 10 juta GPU yang bekerjasama dalam sistem AI untuk belajar dan melaksanakan tugas, tetapi seperti pelbagai bahagian otak, mereka mungkin tidak semestinya berkomunikasi antara satu sama lain.

Kuasa Sinergi Peningkatan Algoritma dan Kecekapan Data

Sam Altman: Seberapa besar jurang antara algoritma paling maju dan kecekapan data manusia? Bolehkah kita berharap untuk mengejar pada masa hadapan?

Daniel Selsam: Sukar untuk membandingkan kedua-duanya secara langsung. Jurang dalam pembelajaran bahasa sememangnya besar. Kuncinya ialah cara mentakrifkan jumlah maklumat yang diterima oleh saraf visual manusia. Saya fikir algoritma secara amnya kurang cekap data berbanding manusia.

Selama beberapa dekad, pembelajaran mendalam telah menumpukan pada kecekapan kuasa pengkomputeran. Selain pertumbuhan data dan kuasa pengkomputeran, apa yang benar-benar mengejutkan ialah kesan sinergi yang dihasilkan oleh peningkatan algoritma. Setiap kali prestasi algoritma meningkat sebanyak 10% atau 20%, ia akan mempunyai kesan yang ketara apabila ditindihkan pada kecekapan data. Setakat ini, tiada mobilisasi di sekitar kecekapan data, kerana pendekatan ini tidak berbaloi apabila data tidak beredar dan kuasa pengkomputeran adalah terhad.

Sekarang, kita memasuki peringkat baharu penyelidikan AI, dan kita akan mula mengumpul kemenangan dalam kecekapan data. Saya fikir agak bodoh untuk meramalkan sekarang bahawa kita akan menghadapi halangan yang tidak dapat diatasi. Cara otak manusia berfungsi pastinya berbeza daripada peningkatan algoritma kita, dan kita harus berhati-hati dalam hal ini. Tetapi saya fikir kita harus kekal optimis tentang pembangunan algoritma masa depan.

Sam Altman: Apakah korelasi antara pra-latihan berskala besar dan keupayaan pembelajaran dan penaakulan model yang lebih kukuh?

Alex Paino: Apa yang telah kita perhatikan ialah pra-latihan yang lebih baik dan pembelajaran tanpa pengawasan selalunya meningkatkan kecerdasan keseluruhan model dan sangat membantu dalam generalisasi. Ini saling melengkapi keupayaan penaakulan, manakala penaakulan mungkin lebih perlahan dalam meningkatkan kecerdasan. Saya fikir mereka saling melengkapi.

Sam Altman: Pra-latihan nampaknya bersifat umum dalam banyak perkara, manakala melatih model hanya boleh menjadikannya berjaya dalam satu jenis perkara, betulkah itu?

Alex Paino: Ini sangat menarik, tetapi anda tidak akan terkejut dengan keadaan ini apabila anda melihat data yang melatih mereka. Julat set data pra-latihan sangat besar, dan apa yang kita kejar ialah keluasan dan kepelbagaian. Apabila melibatkan pembelajaran pengukuhan model dan menjadikannya jelas memperoleh isyarat ganjaran yang baik dan persekitaran latihan yang baik, saya fikir sukar untuk mengimbangi keluasan set data.

Daniel Selsam: Saya bersetuju, tetapi saya fikir terdapat satu lagi faktor. Pra-latihan pada asasnya ialah memampatkan data, dengan itu menemui sambungan antara perkara yang berbeza. Ia adalah tentang analogi dan lebih abstrak. Penaakulan ialah kemahiran yang memerlukan pemikiran yang teliti tentang masalah tertentu dan juga boleh mendapatkan penyelesaian kepada banyak jenis masalah. Walau bagaimanapun, dalam proses pra-latihan, pengetahuan yang lebih abstrak boleh dipelajari apabila memampatkan data merentasi bidang yang berbeza.

Intipati Kecerdasan: Pemampatan dan Kesan Ekor Panjang

Sam Altman: Mengapa pembelajaran tanpa pengawasan berkesan?

Daniel Selsam: Kuncinya ialah pemampatan. Bentuk kecerdasan yang ideal ialah aruhan Solomonoff. Secara umum, pembelajaran mesin akan mempertimbangkan semua kemungkinan, tetapi cenderung untuk mula menguji dengan program yang lebih mudah.

Intipati pra-latihan semasa ialah proses pemampatan, yang mencapai ungkapan anggaran dengan mencari program yang paling mudah untuk menjelaskan semua data yang dihasilkan oleh manusia setakat ini.

Sam Altman: Bagaimanakah ramalan Token seterusnya membantu mencapai pemampatan?

Daniel Selsam: Terdapat paradoks dalam statistik - mengapa rangkaian mendalam boleh mencapai generalisasi walaupun ia kelihatan tidak dapat memampatkan? Biasanya, apabila anda mempunyai banyak data dan beberapa model kecil, model ini mesti melalui pemampatan untuk mempelajari sesuatu.

Dalam pra-latihan, skala data dan model adalah sangat besar. Sesetengah orang berpendapat bahawa latihan ini hanyalah pembelajaran memori dan interpolasi. Sebenarnya, mereka mengabaikan perspektif pemahaman lain tentang pemampatan - pemampatan pra-sekuen. Ia seperti pemampat. Walaupun berat data sangat besar, binari tidak perlu menyimpan maklumat ini. Hasil ramalan Token seterusnya boleh mendapatkan semula maklumat berguna dengan cepat dan meningkatkan kecekapan pemampatan.

Sam Altman: Proses melatih GPT-4.5 memerlukan banyak tenaga manusia, masa dan wang, yang sebenarnya boleh dianggap sebagai eksperimen untuk mengesahkan Undang-undang Penskalaan, dan hasilnya membuktikan bahawa ia berkesan dan akan berterusan untuk masa yang lama. Mengapa Undang-undang Penskalaan boleh dipanggil undang-undang alam semesta?

Daniel Selsam: Semakin tinggi darjah pemampatan, semakin kuat kecerdasan. Ini mempunyai konotasi falsafah yang mendalam. Mengapa ia mengambil masa yang lebih lama untuk melatih model yang lebih besar dan kadar pemampatan lebih tinggi? Ini melibatkan banyak teori, antaranya saya suka Perwakilan Jarang.

Konsep utama dalam realiti mengikut taburan undang-undang kuasa. Sebagai contoh, konsep penting ke-100 mungkin hanya muncul sekali dalam setiap 100 dokumen, dan terdapat kesan ekor panjang yang jelas. Ciri pengedaran ini membawa kepada keperluan data dan kuasa pengkomputeran berskala besar untuk menangkap semua konsep utama dengan berkesan, dan juga menentukan bahawa Undang-undang Penskalaan akan terus wujud dengan berkesan untuk masa yang lama.