GPT-4.5, projek yang dimulakan dua tahun lalu, mewakili usaha OpenAI yang paling bercita-cita tinggi setakat ini. Usaha besar ini melibatkan usaha sama beratus-ratus individu, dengan Sam Altman, CEO OpenAI, menyatakan bahawa projek itu memerlukan penglibatan organisasi yang hampir menyeluruh.
Mengatasi ‘Masalah Bencana’ dalam Latihan Skala Besar
Perjalanan untuk mencipta GPT-4.5 tidak terlepas daripada rintangan. Pasukan itu menghadapi banyak ‘masalah bencana’ semasa fasa penyelidikan dan pembangunan. Penggunaan kluster 100,000 GPU mendedahkan kegagalan infrastruktur yang tidak pernah dilihat sebelum ini, berkebarangkalian rendah, namun mendalam. Untuk mengimbangi kemudahan dengan prestasi optimum, pasukan sistem OpenAI terpaksa menggunakan pendekatan ‘baiki sambil jalan’. Satu pepijat yang sukar dikesan menghantui kluster dengan kerap berlakunya ralat, kekal tidak dikesan sehingga kira-kira 40% daripada proses latihan telah berlalu.
Walaupun menghadapi cabaran ini, projek GPT-4.5 memangkinkan pembangunan timbunan teknologi yang lebih mantap. Hari ini, pasukan kecil yang hanya terdiri daripada 5-10 individu boleh meniru model besar yang serupa dengan GPT-4. Keuntungan prestasi daripada GPT-4 kepada GPT-4.5 adalah kira-kira sepuluh kali ganda, menghasilkan ‘kecerdasan yang sukar dikuantifikasi tetapi dipertingkatkan dalam semua aspek’, hasil yang mengejutkan malah kakitangan OpenAI sendiri.
Peralihan Fokus: Daripada Kuasa Pengiraan kepada Kecekapan Data
OpenAI telah menyedari bahawa mencapai lonjakan sepuluh atau seratus kali ganda seterusnya dalam prestasi tidak bergantung pada kuasa pengiraan mentah tetapi pada kecekapan data – khususnya, keupayaan untuk mendapatkan lebih banyak pengetahuan daripada kuantiti data yang sama sambil memanfaatkan sumber pengiraan yang lebih besar.
Seni bina juga berkembang daripada kluster tunggal kepada paradigma berbilang kluster. Iterasi latihan masa hadapan mungkin melibatkan pembelajaran kolaboratif merentas sebanyak 10 juta GPU, yang memerlukan toleransi kerosakan yang lebih tinggi.
Dialog Sam Altman dengan Pasukan GPT-4.5
Berikut ialah kompilasi yang disunting daripada perbincangan antara Sam Altman dan pasukan OpenAI GPT-4.5:
Sam Altman: Apakah yang diperlukan untuk membina model yang begitu besar seperti GPT-4.5?
Alex Paino: Kami memulakan projek ini kira-kira dua tahun lalu. Pada masa itu, OpenAI akan melancarkan kluster pengkomputeran besar baharu, dan pasukan kami melihat ini sebagai peluang untuk menjalankan satu siri operasi untuk menentukan fungsi yang perlu disertakan oleh model, dan menjalankan sejumlah besar ujian operasi pengurangan risiko.
Kami telah membangunkan pelan yang panjang untuk ini, yang melibatkan keseluruhan timbunan teknologi daripada sistem kepada pembelajaran mesin. Mengurangkan risiko dan membuat persediaan untuk latihan ialah proses pelaksanaan yang panjang, dan latihan itu sendiri ialah projek yang sangat besar.
Amin Tootoonchian: Saya rasa proses ini memerlukan kerjasama rapat antara pasukan pembelajaran mesin dan pasukan sistem dari awal, sehingga kami menjelaskan model yang ingin kami latih, dan kemudian mula berlatih.
Kami telah membuat ramalan dalam kedua-dua aspek pembelajaran mesin dan sistem, cuba mengecilkan jurang antara jangkaan dan realiti sebanyak mungkin. Tetapi kerana rentak kerja kami pantas dan kami perlu menggunakan sumber pengkomputeran terkini, latihan model telah menjadi sesuatu yang sukar untuk dirancang dengan sempurna terlebih dahulu.
Kami hampir selalu memulakan latihan dengan banyak masalah yang belum diselesaikan dan cuba mengatasi cabaran serta membuat kemajuan semasa operasi. Penyelesaian utama ialah menambah lebih banyak sumber pengkomputeran.
Peringkat akhir ialah pelaksanaan, yang memerlukan ramai orang melaburkan banyak tenaga dan motivasi untuk jangka masa yang panjang untuk menyelesaikan proses latihan.
Sam Altman: Berapa banyak yang anda fikir jurang antara jangkaan kami dan realiti?
Amin Tootoonchian: Dari segi sistem, kami biasanya jauh dari keadaan yang dijangkakan pada permulaan. Kami sentiasa berhadapan dengan pilihan: sama ada untuk menangguhkan permulaan dan menunggu masalah diselesaikan, atau mulakan lebih awal dan selesaikan masalah dalam proses. Ini sentiasa memerlukan tolak ansur untuk mengelakkan kelewatan yang tidak munasabah dalam proses tersebut.
Tetapi hampir selalu ada beberapa masalah yang tidak dijangka, dan apa yang perlu kita lakukan ialah menangani nod ini sebanyak mungkin, menangani faktor yang tidak diketahui, dan merumuskan pelan untuk latihan model.
Alex Paino: Dalam projek ini, matlamat kami adalah untuk membuat GPT-4.5, yang bermaksud keupayaannya sepatutnya 10 kali lebih pintar daripada GPT-4. Ini adalah matlamat awal yang kami tetapkan kira-kira 2 tahun lalu.
Banyak perkara berlaku semasa proses ini. Kami berfikir tentang sama ada kami boleh melakukan yang lebih baik atau akan menjadi lebih teruk daripada yang dijangkakan? Ini adalah proses yang sangat rumit, tetapi pada akhirnya, dari segi pengiraan berkesan yang kami laburkan, kami mendapat model yang kami fikir telah mencapai 10 kali lebih pintar daripada GPT-4.
Amin Tootoonchian: Dari segi pelaksanaan, masa yang dihabiskan untuk projek GPT-4.5 jauh daripada apa yang kami jangkakan pada mulanya.
Sam Altman: Mengapa anda menghadapi begitu banyak masalah apabila kluster berkembang daripada 10,000 kad kepada 100,000 kad?
Amin Tootoonchian: Saya rasa jika pembangun sistem cukup sensitif, kebanyakan masalah dapat diperhatikan di peringkat kecil.
Sesetengah masalah bukan unik kepada peringkat latihan berskala besar, tetapi sering berlaku sebelum ini, tetapi akan menjadi masalah bencana selepas skala ditingkatkan, terutamanya apabila pasukan tidak menjangkakan bahawa masalah ini akan menjadi lebih teruk sehingga sedemikian rupa.
Sam Altman: Apakah perkara yang telah menyebabkan akibat yang membawa bencana?
Amin Tootoonchian: Saya rasa masalah infrastruktur diketahui umum, sama ada kadar kegagalan, jenis kegagalan atau jumlah keseluruhan kegagalan adalah sangat tinggi. Kluster 100,000 kad ialah kumpulan sampel berskala besar, jadi kami juga menemui masalah yang tidak diperhatikan oleh pembekal kuasa pengkomputeran.
Rangkaian adalah salah satunya, dan pemecut individu juga boleh mengalami masalah. Tetapi ini juga keindahan sistem ini - hampir semua komponen perlu berfungsi seperti yang diharapkan untuk menghasilkan hasil yang diharapkan. Tugas kami adalah untuk meminimumkan masalah ini sebanyak mungkin.
Sam Altman: Sesungguhnya sukar untuk bekerja pada had saiz kluster, tetapi saya juga perasan bahawa ia menjadi lebih mudah untuk melakukan perkara yang tidak lagi berada di barisan hadapan teknologi. Latihan GPT-4.5 memerlukan beratus-ratus orang, dan OpenAI mempunyai hampir semua orang di atas kapal.
Tetapi hari ini, jika anda memilih pasukan terkecil daripada OpenAI dan melatih semula GPT-4 dari awal dengan semua pengetahuan dan kerja sistem yang kita ketahui, berapa ramai orang yang diperlukan?
Alex Paino: Saya rasa mungkin mengambil masa kira-kira 5 hingga 10 orang untuk membuat model peringkat GPT-4 sekarang. Timbunan teknologi telah dipertingkatkan dengan ketara dalam proses menyiapkan GPT-4.5.
Malah, kami telah melakukan perkara yang sama dalam proses melatih GPT-4.5 - kami melatih GPT-4o, yang merupakan model peringkat GPT-4, dan melatih semula menggunakan banyak kandungan yang sama daripada projek penyelidikan GPT-4.5. Lebih sedikit orang digunakan untuk latihan itu.
Sam Altman: Dari sudut pandangan anda, Dan? Mengapa sukar untuk melatih model besar?
Daniel Selsam: Saya rasa sukar untuk melakukan sesuatu yang baharu. Saya rasa walaupun hanya menemui bahawa orang lain telah melakukan sesuatu menjadikannya lebih mudah, kerana bahagian yang paling sukar ialah mempunyai kepercayaan untuk melakukan sesuatu pada mulanya. Saya rasa hanya mengetahui bahawa sesuatu itu boleh dilaksanakan adalah kod curang super yang menjadikan sesuatu lebih mudah.
Alex Paino: Kami sedang mengembangkan larian pra-latihan GPT kepada 10 kali ganda saiz sebelumnya, dan kami sentiasa menemui beberapa perkara baharu yang menarik yang anda tidak semestinya boleh jangkakan.
Sam Altman: Apakah yang diperlukan untuk mencapai pertumbuhan 10x atau 100x seterusnya dalam skala pra-latihan?
Daniel Selsam: Kecekapan data. Seni bina Transformer (iaitu GPT) sangat cekap dalam menggunakan data. Ia boleh menyerap dan memampatkan maklumat dengan baik dan mencapai generalisasi. Ciri terbesarnya ialah ia boleh menyerap maklumat dengan cekap dengan sumber pengkomputeran.
Walau bagaimanapun, kedalaman pandangan yang diperolehnya daripada data adalah terhad. Apabila kuasa pengkomputeran berkembang pesat dan data berkembang agak perlahan, data menjadi penghalang untuk model standard ini. Ini memerlukan inovasi algoritma untuk membangunkan kaedah yang boleh menggunakan lebih banyak kuasa pengkomputeran untuk mempelajari lebih banyak pengetahuan daripada jumlah data yang sama.
Sam Altman: Apa lagi yang anda rasa kami perlukan untuk mengekalkan pengembangan?
Amin Tootoonchian: Jawapan saya adalah mengenai sistem. Saya rasa sejumlah besar kerja yang diperlukan untuk GPT-4.5 pada dasarnya adalah hasil yang tidak dapat dielakkan daripada spesifikasi model. Kami tidak boleh melatih GPT-4.5 dengan seni bina teknikal yang sama seperti GPT-4.
Dari segi pengurusan keadaan, kerana sumber pengkomputeran yang diperlukan telah melebihi kapasiti kluster tunggal, kami perlu beralih kepada seni bina latihan berbilang kluster. Untuk mencapai matlamat ini, kita mesti menyepadukan pelbagai aliran kerja yang berbeza dalam tempoh yang singkat.
Walaupun ini sememangnya membantu kami mencapai kejayaan peringkat, untuk mencapai peningkatan prestasi perintah magnitud seterusnya, kami masih perlu menyelesaikan beberapa masalah teknikal yang diketahui tetapi ditangguhkan buat sementara waktu - masalah ini tidak dapat dielakkan. Ia adalah jenis pertukaran teknikal inilah yang sentiasa melanjutkan kitaran R&D sistem yang sempurna, dan kami sentiasa membuat pertukaran strategik dalam proses mengejar pelan pelaksanaan yang optimum.
Perlu dijelaskan bahawa sistem itu sendiri bukanlah matlamat muktamad, dan nilai output sebenar adalah pertimbangan utama. Untuk peningkatan prestasi 10x seterusnya, saya rasa kejayaan dalam toleransi kesalahan adalah penting. Kita perlu membina mekanisme bertoleransi kesalahan yang sangat sinergistik dengan beban kerja untuk mengurangkan kebimbangan operasi dan penyelenggaraan dengan ketara. Kerumitan operasi dan penyelenggaraan sistem ultra-skala besar semasa pada dasarnya berbeza daripada sistem sebelumnya.
Sam Altman: Adakah anda tahu peratusan kegagalan yang disebabkan oleh komponen tertentu semasa latihan GPT-4.5?
Amin Tootoonchian: Saya tidak mempunyai nombor khusus untuk dikongsi, tetapi secara amnya, pada peringkat awal penggunaan perkakasan generasi baharu, operasi sistem selalunya menghadapi banyak cabaran teknikal yang tidak difahami sepenuhnya. Kami memilih untuk memajukan projek sebelum masalah itu ditakrifkan sepenuhnya, yang membawa kepada kadar kegagalan awal yang tinggi.
Tetapi pengalaman telah menunjukkan bahawa apabila punca dikenal pasti dan diselesaikan, kadar kegagalan akan menurun dengan ketara. Fenomena ini pada dasarnya mencerminkan pemahaman kita yang semakin mendalam tentang infrastruktur - sesetengah orang menyebutnya membersihkan infrastruktur atau memahami masalah asas infrastruktur.
Peringkat awal pelaksanaan hampir selalu agak menyakitkan. Sambil memajukan projek, kami juga terus menemui dan menyelesaikan mod kegagalan baharu, tetapi kadar kegagalan akan berkurangan secara beransur-ansur dan masa operasi normal akan menjadi lebih lama.
Ini pada dasarnya adalah soal pertukaran keutamaan: Pada peringkat awal kitaran hayat infrastruktur, risiko kegagalannya selalunya sukar dianggarkan dengan tepat; dan jika kita secara berlebihan mengejar keadaan ideal muktamad (yang asalnya ialah ‘Harta Bandar’, reka bentuk negara kota yang ideal), ia boleh membawa kepada sistem Prestasi ketersediaan pada peringkat awal adalah sangat lemah.
Sam Altman: Walaupun model penaakulan adalah komponen utama timbunan teknologi masa depan kita, mari kita tumpukan perhatian sementara pada sempadan pembangunan model pra-latihan tradisional. Andaikan kita mempunyai kuasa pengkomputeran GPU yang tidak terhad, lebar jalur rangkaian yang tidak terhad dan bekalan kuasa yang tidak terhad, tetapi masih terhad oleh kesesakan teknikal sedia ada—termasuk isu kebolehpercayaan sistem, kekurangan kaedah latihan bertoleransi kesalahan dan batasan set data sedia ada.
Mengikut undang-undang evolusi kami untuk mencapai peningkatan skala 100 kali ganda dalam setiap nombor versi GPT utama, berdasarkan sempadan teknikal semasa, apakah tahap yang boleh dicapai oleh pembangunan model pra-latihan? Khususnya untuk model siri GPT, dengan sistem pengetahuan sedia ada kami, jenis model yang boleh kami latih secara teorinya? Bolehkah GPT-5.5 dibuat?
Alex Paino: Dari perspektif pembelajaran mesin dan pembangunan algoritma, kami belum mencapai had atas teori yang jelas. Malah, kami baru sahaja mula meneroka algoritma dengan kecekapan data yang lebih tinggi dan cara menggunakan sumber data sedia ada dengan lebih penuh. Keadaan ini sangat menarik - malah model seperti GPT-4 sebahagian besarnya dibangunkan di bawah kekangan sumber pengkomputeran yang terhad, yang juga menentukan arah kebanyakan penyelidikan sebelumnya.
Tetapi keadaannya sama sekali berbeza sekarang. Sejak GPT-4.5, dalam beberapa dimensi utama, data dan bukannya pengkomputeran menjadi kekangan utama. Peralihan ini menjadikan penyelidikan berkaitan kurang menarik.
Sam Altman: Tetapi ini sememangnya kemajuan yang menakjubkan, dan dunia mungkin tidak menyedari sepenuhnya bahawa sumber pengkomputeran bukan lagi kesesakan utama dalam model terbaik yang boleh kita bina. Perubahan ini sangat mendalam, lagipun, kita telah hidup dalam persekitaran yang terhad pengkomputeran terlalu lama.
Sam Altman: Apakah pengalaman pembelajaran mesin yang paling menarik yang telah kita pelajari dalam proses melatih GPT-4.5? Hanya bercakap tentang apa yang anda ingin kongsikan.
Amin Tootoonchian: Secara amnya, yang paling mencetuskan pemikiran ialah situasi yang menyimpang daripada ramalan kami - terutamanya apabila kami cuba memahami mengapa prestasi sebenar menyimpang daripada lengkung yang dijangkakan.
Alex Paino: Salah satu penemuan yang paling mengejutkan bagi kami ialah prestasi kebolehskalaan komponen pembelajaran mesin yang berbeza sangat berbeza. Sesetengah bahagian boleh diskala dengan baik, manakala yang lain tidak boleh. Inilah yang kami sedari dalam proses latihan sebenar. Pengalaman ini memberi kami banyak inspirasi.
Daniel Selsam: Saya rasa dua ciri teras paradigma GPT ialah: pertama, kehilangan ujian (metrik untuk mengukur prestasi model pada data ujian yang tidak dilihat) boleh diramalkan dengan tepat; kedua, prestasi model menunjukkan peningkatan yang boleh diramalkan dengan pengembangan skala. Lebih ajaib lagi, pengurangan kehilangan ujian akan berubah menjadi tahap kecerdasan yang dipertingkatkan dalam pelbagai cara yang sukar dikuantifikasi tetapi menakjubkan.
Sam Altman: Adakah anda benar-benar optimis tentang perkara ini? Adakah anda bersetuju sepenuhnya dengan pandangan ini?
Daniel Selsam: Sebenarnya, apa yang ingin saya katakan ialah kami menemui fenomena yang sangat menarik dalam ujian GPT-4.5 - selepas menguji semula, model itu menunjukkan banyak kebolehan halus yang benar-benar melebihi jangkaan semua orang.
Kami pasti ia akan menjadi lebih bijak dalam pelbagai cara yang tidak dapat ditakrifkan terlebih dahulu, dan selepas penggunaan sebenar, kami dapat memerhatikan tahap peningkatan halus ini daripada kepuasan pengguna: rizab akal yang lebih kukuh, keupayaan pemahaman kontekstual yang lebih tepat dan tangkapan semantik yang lebih halus - ini adalah keajaiban yang dibawa oleh kehilangan ujian tambahan itu. Pada pendapat saya, Undang-undang Penskalaan telah disahkan dengan sempurna dalam dimensi ini.
Sam Altman: Apakah detik paling positif sepanjang keseluruhan proses latihan? Apakah memori kegemaran anda? Jelas sekali terdapat banyak kesakitan, tetapi saya berharap kesakitan itu telah dikurangkan.
Alex Paino: Saya memang mempunyai detik seperti itu. Kami melakukan banyak kerja pembelajaran mesin semasa latihan. Saya rasa beberapa perubahan yang kami lakukan semasa operasi mempunyai impak yang agak baik, mungkin lebih baik daripada yang dijangkakan, yang merupakan saat yang sangat mengujakan bagi kami.
Amin Tootoonchian: Bagi saya, pada masa yang sama dengan latihan, kami juga sedang membina infrastruktur. Kami sangat percaya bahawa kami boleh melintasi tebing prestasi ini, dan kami mempunyai pelan, dan semua orang melaksanakannya, tetapi ia mengambil masa yang lama. Ini adalah kerja keras dan pastinya lebih sukar daripada yang saya sangkakan. Ramalan saya salah, dan saya memandang rendah masa yang diperlukan untuk menyelesaikan masalah ini.
Detik apabila pasukan akhirnya mengatasi masalah utama itu dan prestasi bertambah baik dengan ketara masih segar dalam ingatan saya. Anda boleh merasakan dengan jelas transformasi tenaga seluruh pasukan - semua orang tiba-tiba penuh dengan tenaga dan bergegas ke arah matlamat akhir dengan motivasi baharu.
Perkara yang paling ajaib ialah anggaran masa siap yang dipaparkan pada penjejak status kami terus dipendekkan daripada dua tahun awal, dan akhirnya terkunci pada nod masa yang jelas. Kemajuan yang boleh dilihat ini mempunyai rangsangan yang tidak terkira kepada semangat pasukan. Saya rasa ini adalah keindahannya.
Saya ingin menekankan bahawa kerja pembelajaran mesin tidak pernah berhenti. Malah selepas latihan bermula, proses reka bentuk bersama pembelajaran mesin ini diteruskan. Pasukan pembelajaran mesin bukan sahaja secara aktif mengikuti isu-isu yang ditandakan sebagai ‘pemprosesan seterusnya’, tetapi juga terus menyampaikan penambahbaikan yang benar-benar mengoptimumkan masa latihan.
Ini mencerminkan dengan sempurna semangat pasukan kami - tiada sempadan kerja ‘setiap orang menyapu salji di hadapan pintu mereka sendiri’ di sini, tetapi kerjasama yang benar-benar lancar, dan perpaduan ini adalah kekuatan terbesar kami.
Sam Altman: Dunia luar telah membincangkan banyak tentang cabaran dan ketepatan ramalan latihan ini sendiri. Tetapi sebenarnya, semua ini adalah berdasarkan perancangan yang sangat teliti - bolehkah anda bercakap lebih lanjut tentang ini secara terperinci?
Alex Paino: Ini pastinya pelan kami yang paling teliti setakat ini. Seperti yang saya katakan, kami mula membuat persediaan untuk projek ini setahun sebelum permulaan latihan rasmi. Dalam tempoh ini, kami menjalankan pelbagai ujian kawalan risiko berskala besar.
Kami memberi perhatian khusus untuk memperkenalkan semua penambahbaikan secara beransur-ansur: bermula daripada konfigurasi asas keyakinan tinggi - yang boleh difahami sebagai seni bina matang yang serupa dengan GPT-4, kami telah menguasai sepenuhnya konfigurasi ini di peringkat pembelajaran mesin - dan kemudian menambah ciri baharu lapisan demi lapisan seperti blok binaan.
Kuncinya ialah mengesahkan secara ketat kebolehskalaan setiap peningkatan pada skala yang berbeza: bukan sahaja untuk melihat peningkatan prestasi, tetapi juga untuk memastikan bahawa peningkatan ini terus berkesan apabila skala model berkembang. Banyak penambahbaikan berfungsi dengan baik dalam ujian skala kecil, tetapi akan gagal dalam aplikasi berskala besar.
Oleh itu, kami telah mengekalkan tahap kewaspadaan yang tinggi sepanjang keseluruhan proses dan terus mengulangi dan menambah baik metodologi undang-undang pengembangan kami. Melalui amalan kawalan risiko ini, kami telah mengumpul banyak pengalaman berharga yang akan terus membimbing pembangunan model siri GPT masa hadapan.
Amin Tootoonchian: Saya teringat detik yang sangat menarik yang sangat saya rindui. Anda tahu, kami hampir selalu menemui pelbagai pepijat setiap kali kami memulakan tugas latihan. Ini sudah menjadi perkara biasa. Tetapi kuncinya ialah memastikan kemajuan tidak terhalang dan sentiasa mengesahkan bahawa kemajuan semasa sememangnya berada di landasan yang betul dan sama ada pepijat ini akan memberi kesan yang membawa maut kepada kesihatan latihan.
Walaupun kami pada mulanya sangat yakin bahawa terdapat kecacatan besar, melalui keseluruhan sistem pemantauan yang kami bina, kami dapat membezakan dengan tepat punca masalah: Adakah ia kegagalan perkakasan? Apakah jenis kegagalan perkakasan? Adakah ia rasuah data? Atau adakah ia pepijat dalam model pembelajaran mesin itu sendiri? Atau adakah ia keadaan perlumbaan dalam kod?
Pada masa itu, kami mempunyai pelbagai kawasan perbincangan masalah dibuka pada masa yang sama, dengan pelbagai simptom. Selepas satu siri pembetulan pepijat, kami tersekat: terdapat pelbagai masalah yang belum diselesaikan di hadapan kami, dan semua orang memerah otak mereka - adakah ini disebabkan oleh pepijat yang berbeza? Atau adakah ia pepijat di tempat kerja?
Kemudian, kami mengadakan undian untuk membenarkan ahli pasukan mengundi punca yang paling mungkin. Pilihan yang paling kurang menjanjikan memukul kebenaran: ternyata terdapat masalah dengan fungsi torch.sum di hulu PyTorch, operasi penjumlahan yang mudah.
Pepijat ini sangat menarik. Anda tahu, kami terutamanya menggunakan kernel Triton, dan kami hanya akan kembali kepada operasi torch dalam beberapa senario pinggir yang tidak penting. Dan pepijat fungsi torch.sum yang dicetuskan oleh laluan kod khusus kami secara tidak sengaja akan menyebabkan akses memori yang menyalahi undang-undang disebabkan oleh ciri pengedaran data - ia membuat kesilapan apabila mengira ofset memori.
Perkara yang paling dramatik ialah apabila seorang jurutera akhirnya mencari masalah itu dan menyerahkan pembetulan, semua laporan ralat dengan simptom yang berbeza hilang. Semua orang dengan teruja menukar saluran Slack daripada ‘teori pelbagai pepijat’ kepada ‘teori pepijat tunggal’, dan tempat kejadian itu sangat gembira.
Berapa lamakah pepijat ini bersembunyi? Ia telah wujud sejak peringkat awal latihan dan tidak dikenal pasti sehingga bar kemajuan melepasi kira-kira 40%. Proses penemuan juga penuh dengan drama: pada masa itu, kernel kompleks secara berurutan memanggil jujukan, dan panggilan kedua mencetuskan akses memori yang menyalahi undang-undang.
Walaupun kekerapan ranap ini sangat rendah (ia hanya berlaku sekali dalam setiap beberapa ratus atau malah beribu-ribu langkah latihan), ia mudah diabaikan sebagai kegagalan sekali-sekala, tetapi garis panduan pasukan kami ialah: jangan sekali-kali melepaskan sebarang anomali. Bahagian terbaik cerita ini terletak pada ketekunan untuk tidak berputus asa dengan mudah.
Sam Altman: Apa lagi yang perlu anda lakukan selepas pra-latihan GPT-4.5 dimulakan?
Alex Paino: Kami semua perlu memerhatikan lengkung kerugian dengan kerap. Selain itu, kami perlu terus mengoptimumkan sistem dan menambah baik reka bentuk bersama yang tidak diselesaikan sebelum latihan dimulakan. Kami memantau dengan teliti pelbagai statistik semasa proses latihan untuk memastikan tiada trend yang tidak dijangka. Pada masa yang sama, kami meneroka kemungkinan pelan penambahbaikan dari perspektif pembelajaran mesin. Walaupun kerja peringkat data akan dikurangkan buat sementara waktu selepas pra-latihan dimulakan, masih terdapat banyak tugas yang perlu diproses.
Amin Tootoonchian: Saya rasa pembelajaran mesin sebahagian besarnya bergantung pada pertimbangan kebenaran. Selepas pra-latihan dimulakan, berdepan dengan sejumlah besar isyarat bunyi, kami seperti pencerita nasib yang mentafsir hampas teh, dan kami perlu menilai sama ada sistem itu sihat. Ini adalah tanggungjawab kami.
Sam Altman: Pada peringkat sistem, apakah yang akan menghalang kita daripada menjalankan latihan model? Adakah ia cip, pemproses, memori, rangkaian atau bekalan kuasa?
Amin Tootoonchian: Keindahan sistem ialah, apabila melakukan reka bentuk kolaboratif, beban kerja boleh menyesuaikan diri dengan infrastruktur yang anda bina. Tiada pepatah universal bahawa rangkaian adalah kesesakan, atau lebar jalur memori adalah kesesakan, dsb. Walaupun untuk model dengan spesifikasi yang sama, kita boleh memilih untuk memindahkan keperluan sumber. Kita boleh memilih untuk mencipta sistem yang lebih seimbang, tetapi mempunyai lebih banyak lebar jalur memori sentiasa bermanfaat. Sukar untuk menjawab soalan ini tanpa mengehadkan syarat.
Apabila mereka bentuk GPT-4.5, kita mungkin perlu mempunyai sifat tertentu dalam sistem, yang perlu dijana melalui bimbingan manusia. Oleh itu, reka bentuk kolaboratif adalah sangat penting untuk membentuk seni bina model dan unsur seni bina, dan pada tahap tertentu menghubungkan sistem dan aspek pembelajaran mesin. Jika sistem mempunyai sifat yang kita tidak mahu ada sangat. Keadaan ideal saya ialah segala-galanya harus diputuskan untuk memberikan ruang yang paling besar antara satu sama lain.
Kadangkala perkara disambungkan bersama, dan kita perlu memenuhi keperluan infrastruktur, atau perkara sepatutnya seperti ini. Selalunya, kita memerlukan sistem yang seimbang, komunikasi yang seimbang. Dan cara pengawalseliaan terbaik yang kita ada ialah semua reka bentuk kolaboratif ini.
Sam Altman: Sejauh manakah kita dari matlamat sistem yang ideal itu?
Amin Tootoonchian: Kita jauh dari matlamat itu. Proses membina sistem sentiasa seperti ini: pertama terdapat pandangan ideal tentang cara sesuatu sepatutnya berfungsi, dan kemudian perbezaan itu didamaikan dengan sumber sedia ada.
Saya tidak rasa kita melakukannya untuk teori demi teori, tetapi hanya untuk membincangkan apa yang kita mahu ia menjadi, untuk merealisasikannya, dan untuk menghampiri ideal itu sedekat mungkin. Ini mungkin bahagian yang paling menarik dalam bidang sistem. Orang ramai dahulunya berkata bahawa ini adalah reka bentuk sistem yang elegan, dan akhirnya sejarah akan memberitahu kita sama ada pilihan ini betul atau salah.
Sam Altman: Jika anda boleh mendapatkan jawapan kepada soalan pembelajaran mesin sebelum latihan besar seterusnya, apakah yang paling anda ingin ketahui?
Alex Paino: Saya ingin tahu algoritma mana yang perlu kita gunakan di bawah data terhad dan bidang khusus. Walaupun ini adalah soalan yang luas, ia sememangnya yang paling kritikal.
Sam Altman: Adakah anda akan menjalankan pra-latihan segerak dengan 10 juta GPU atau lebih pada masa hadapan?
Alex Paino: Saya rasa akan ada, tetapi ia mungkin bukan model pra-latihan tradisional. Bentuknya mungkin sangat berbeza daripada teknologi sedia ada, tetapi ia masih akan mengekalkan teras pembelajaran tanpa pengawasan.
Amin Tootoonchian: Saya lebih suka model separa segerak. Disebabkan oleh undang-undang fizik, penyegerakan lengkap tidak begitu realistik.
Daniel Selsam: Saya rasa ia lebih berkemungkinan didesentralisasikan. Pasti akan ada 10 juta GPU yang bekerjasama dalam sistem AI yang mempelajari dan melaksanakan tugas, tetapi seperti pelbagai bahagian otak, mereka mungkin tidak semestinya berkomunikasi antara satu sama lain.
Sam Altman: Berapa banyak perbezaan antara algoritma paling canggih semasa dan kecekapan data manusia? Adakah mungkin untuk mengejar pada masa hadapan?
Daniel Selsam: Kedua-duanya sukar untuk dibandingkan secara langsung. Jurang dalam pembelajaran bahasa sememangnya besar. Kuncinya terletak pada cara untuk mentakrifkan jumlah maklumat yang diterima oleh saraf visual manusia. Saya rasa kecekapan data keseluruhan algoritma jauh lebih rendah daripada manusia.
Selama beberapa dekad, pembelajaran mendalam telah memfokuskan pada kecekapan pengkomputeran. Selain daripada pertumbuhan data dan kuasa pengkomputeran, apa yang benar-benar mengejutkan ialah kesan tindanan yang dihasilkan oleh penambahbaikan algoritma. Setiap kali prestasi algoritma dipertingkatkan sebanyak 10% atau 20%, ia akan mempunyai kesan yang ketara apabila ditindih pada kecekapan data. Setakat ini, tiada pengerahan seperti itu di sekitar kecekapan data, kerana ia tidak berbaloi apabila data tidak mengalir dan kuasa pengkomputeran adalah terhad.
Sekarang, kita memasuki peringkat baharu penyelidikan AI, dan kita akan mula mengumpul kemenangan kecekapan data. Saya rasa agak bodoh untuk meramalkan sekarang bahawa kita akan menghadapi halangan yang tidak dapat diatasi. Cara otak manusia beroperasi pastinya berbeza daripada penambahbaikan algoritma kita, dan kita harus berhati-hati dalam hal ini. Tetapi saya rasa kita harus kekal optimis tentang pembangunan algoritma masa hadapan.
Sam Altman: Apakah korelasi antara pra-latihan berskala lebih besar dan keupayaan pembelajaran dan penaakulan model yang lebih kukuh?
Alex Paino: Apa yang telah kami perhatikan ialah pra-latihan dan pembelajaran tanpa pengawasan yang lebih baik cenderung untuk meningkatkan kecerdasan keseluruhan model dan sangat membantu dalam generalisasi, yang saling melengkapi keupayaan penaakulan, manakala penaakulan mungkin sedikit lebih membosankan dalam meningkatkan kecerdasan. Saya rasa mereka saling melengkapi.
Sam Altman: Pra-latihan nampaknya universal dalam banyak perkara, manakala melatih model hanya boleh membuatnya berfungsi dengan baik dalam satu jenis perkara, betul tak?
Alex Paino: Ini sangat menarik, tetapi apabila anda melihat data yang melatih mereka, anda tidak akan terkejut dengan keadaan ini. Julat set data pra-latihan sangat besar, dan apa yang kita kejar ialah keluasan dan kepelbagaian. Apabila ia datang kepada pembelajaran pengukuhan model dan menjadikannya jelas memperoleh isyarat ganjaran yang baik dan persekitaran latihan yang baik, saya rasa sukar untuk mengambil kira keluasan set data.
Daniel Selsam: Saya bersetuju, tetapi saya rasa ada faktor lain. Pra-latihan pada dasarnya memampatkan data, dengan itu menemui hubungan antara perkara yang berbeza. Ia adalah tentang analogi dan lebih abstrak. Penaakulan ialah kemahiran yang memerlukan pemikiran yang teliti mengenai isu tertentu dan juga boleh mendapatkan penyelesaian untuk pelbagai jenis masalah. Tetapi dalam proses pra-latihan, pengetahuan yang lebih abstrak boleh dipelajari apabila memampatkan data merentas bidang yang berbeza.
Sam Altman: Mengapakah pembelajaran tanpa pengawasan berkesan?
Daniel Selsam: Kuncinya ialah mampatan. Bentuk kecerdasan yang ideal ialah induksi Solomonov. Secara umum, pembelajaran mesin akan mempertimbangkan semua kemungkinan, tetapi cenderung untuk bermula dengan program yang lebih mudah untuk ujian.
Intipati pra-latihan semasa ialah proses mampatan, yang mencapai ungkapan anggaran dengan mencari program paling mudah untuk menerangkan semua data yang telah dihasilkan oleh manusia setakat ini.
Sam Altman: Bagaimanakah ramalan Token seterusnya membantu mencapai mampatan?
Daniel Selsam: Terdapat paradoks dalam statistik - mengapa rangkaian dalam seolah-olah tidak dapat memampatkan tetapi boleh mencapai generalisasi? Biasanya bercakap, apabila anda mempunyai banyak data dan beberapa model kecil, model ini mesti melalui mampatan untuk mempelajari sesuatu.
Dalam pra-latihan, skala kedua-dua data dan model adalah sangat besar. Sesetengah orang berpendapat bahawa latihan ini hanyalah pembelajaran memori dan interpolasi. Malah, mereka mengabaikan perspektif lain untuk memahami mampatan - mampatan pra-sekuen. Ia seperti pemampat. Walaupun berat data sangat besar, binari tidak perlu menyimpan maklumat ini. Hasil daripada ramalan Token seterusnya boleh mendapatkan semula maklumat berguna dengan cepat dan meningkatkan kecekapan mampatan.
Sam Altman: Proses melatih GPT-4.5 menelan belanja banyak tenaga kerja, masa dan wang, yang sebenarnya boleh dianggap sebagai eksperimen untuk mengesahkan Undang-undang Penskalaan, dan hasilnya membuktikan bahawa ia berkesan dan akan berterusan untuk masa yang lama. Mengapa Undang-undang Penskalaan boleh dipanggil undang-undang alam semesta?
Daniel Selsam: Semakin tinggi tahap mampatan, semakin berkuasa kecerdasan, yang mempunyai implikasi falsafah yang mendalam. Mengapa ia mengambil masa yang lebih lama untuk melatih model yang lebih besar dan kadar mampatan lebih tinggi? Ini melibatkan banyak teori, antaranya saya suka Perwakilan Jarang.
Konsep utama dalam realiti mengikut pengedaran undang-undang kuasa. Sebagai contoh, konsep ke-100 yang paling penting mungkin hanya muncul sekali dalam setiap 100 dokumen, dan terdapat kesan ekor panjang yang jelas. Ciri pengedaran ini bermakna data dan kuasa pengkomputeran berskala besar diperlukan untuk menangkap semua konsep utama dengan berkesan, dan juga menentukan bahawa Undang-undang Penskalaan akan berkesan untuk masa yang lama.