Daripada Gig Google Pantas kepada Membentuk Semula Sejarah AI: Perbualan dengan Pengarang Transformer Noam Shazeer dan Jeff Dean

Kemunculan Evolusi AI: Perjalanan 25 Tahun dari PageRank ke AGI

Dua tokoh terkemuka dalam perjalanan teknologi Google, Jeff Dean, Ketua Saintis semasa, dan Noam Shazeer, tokoh penting di sebalik model Transformer yang menyertai semula syarikat itu, baru-baru ini terlibat dalam dialog yang menerangkan. Dihoskan oleh podcaster terkenal Dwarkesh Patel, perbualan mereka menawarkan gambaran tentang evolusi AI, bermula dari hari asas MapReduce hingga era transformatif seni bina Transformer dan MoE.

Veteran berpengalaman ini, dengan pengalaman berdekad-dekad di Google, bukan sahaja menyaksikan tetapi secara aktif membentuk teknologi yang menentukan internet dan kecerdasan buatan. Ironinya, Shazeer mengaku bahawa motivasi awalnya untuk menyertai Google adalah usaha kewangan jangka pendek, rancangan yang diubah secara dramatik oleh sumbangannya yang seterusnya kepada bidang tersebut.

Keadaan Semasa dan Trajektori Masa Depan Pengkomputeran AI

Dalam pertukaran dua jam yang luas, Dean dan Shazeer mendedahkan pandangan tentang status semasa pengkomputeran AI, mendedahkan bahawa:

  • Skala operasi telah melampaui pusat data individu; latihan Gemini kini merangkumi pelbagai pusat data di kawasan metropolitan yang berbeza, beroperasi secara tak segerak.
  • Terdapat ruang yang besar untuk pertumbuhan dalam menskalakan pengkomputeran inferens, kerana berinteraksi dengan AI kekal jauh lebih kos efektif daripada pembacaan tradisional.
  • Seni bina model masa depan dijangka mengatasi fleksibiliti MoE, membolehkan pembangunan bebas pelbagai komponen model oleh pasukan yang berbeza.

Pandangan dari Parit: Ganjaran Pepijat dan Seni Bina Masa Depan

Perbualan itu juga mencetuskan minat di media sosial, dengan pengguna menyoroti konsep yang menarik, seperti:

  • Potensi untuk menyimpan model MoE yang luas dalam ingatan.
  • Faedah yang tidak dijangka daripada pepijat dalam kod, yang, apabila skala meningkat, boleh secara tidak sengaja membawa kepada penemuan yang inovatif.

Dean mencabar tanggapan bahawa pengkomputeran AI terlalu mahal. Dengan membandingkan kos melibatkan diri dengan buku berbanding berinteraksi dengan AI tentang buku yang sama, dia menggambarkan perkara yang menarik:

Model bahasa yang paling canggih beroperasi pada kos yang sangat rendah iaitu kira-kira $10^{-18}$ setiap operasi, diterjemahkan kepada sejuta token diproses untuk satu dolar. Sebaliknya, membeli buku kertas menawarkan hanya 10,000 token setiap dolar.

Perbezaan yang ketara ini—kelebihan kos seratus kali ganda untuk interaksi AI—menggariskan potensi yang belum diterokai untuk meningkatkan kecerdasan AI melalui peningkatan pengkomputeran inferens.

Dari perspektif infrastruktur, peningkatan kepentingan pengkomputeran masa inferens boleh membentuk semula perancangan pusat data. Ini mungkin memerlukan perkakasan yang direka khusus untuk tugas inferens, mengingatkan TPU generasi pertama Google, yang pada mulanya direka untuk inferens dan kemudian disesuaikan untuk latihan.

Pengkomputeran Teragih dan Tak Segerak: Paradigma Baharu

Penekanan yang semakin meningkat pada inferens mencadangkan bahawa komunikasi berterusan antara pusat data mungkin menjadi tidak perlu, yang berpotensi membawa kepada model pengkomputeran yang lebih teragih dan tak segerak.

Gemini 1.5 telah pun memulakan laluan ini, memanfaatkan sumber pengkomputeran di beberapa bandar utama. Rangkaian berkelajuan tinggi menyegerakkan pengkomputeran daripada pusat data yang berbeza, mencapai skala latihan yang belum pernah terjadi sebelumnya. Untuk model yang besar, di mana setiap langkah latihan boleh mengambil masa beberapa saat, malah kependaman rangkaian 50 milisaat memberi impak yang minimum.

Dalam bidang inferens, sensitiviti kependaman menjadi pertimbangan kritikal. Walaupun respons segera menuntut prestasi kependaman rendah yang dioptimumkan, tugas tidak mendesak, seperti analisis kontekstual yang kompleks, boleh bertolak ansur dengan masa pemprosesan yang lebih lama.

Sistem yang lebih mudah disesuaikan dan cekap boleh menguruskan berbilang tugas secara tak segerak, meningkatkan prestasi keseluruhan sambil meminimumkan masa menunggu pengguna. Selain itu, kemajuan algoritma, seperti menggunakan model draf yang lebih kecil, boleh mengurangkan kesesakan dalam proses inferens. Pendekatan ini melibatkan model yang lebih kecil menjana token yang berpotensi, yang kemudiannya disahkan oleh model yang lebih besar, dengan ketara mempercepatkan proses inferens melalui pemprosesan selari.

Shazeer menambah bahawa semasa latihan tak segerak, setiap replika model beroperasi secara bebas, menghantar kemas kini kecerunan ke sistem pusat untuk aplikasi tak segerak. Walaupun implikasi teori fluktuasi parameter kecil, kaedah ini telah terbukti sangat berjaya.

Sebaliknya, latihan segerak menawarkan kestabilan dan kebolehulangan, keutamaan bagi ramai penyelidik. Untuk memastikan kebolehulangan dalam latihan, Dean menekankan amalan mencatat operasi, terutamanya kemas kini kecerunan dan penyegerakan kelompok data. Dengan memainkan semula log ini, walaupun latihan tak segerak boleh menghasilkan hasil yang boleh diulang, menjadikan penyahpepijatan lebih mudah diurus dan mengurangkan ketidakkonsistenan yang disebabkan oleh faktor persekitaran.

Peranan Serendah Pepijat

Mengembangkan perkara ini, Shazeer memperkenalkan perspektif yang menarik:

Walaupun model latihan menghadapi pelbagai pepijat, toleransi hingar yang wujud dalam model ini membolehkan pelarasan diri, yang membawa kepada hasil yang tidak dijangka. Sesetengah pepijat malah menghasilkan kesan positif, memberikan peluang untuk penambahbaikan apabila skala memperkuat anomali eksperimen.

Apabila ditanya tentang amalan penyahpepijatan, Shazeer menerangkan pendekatan mereka untuk menjalankan banyak eksperimen berskala kecil untuk pengesahan pantas. Kaedah ini memudahkan asas kod dan memendekkan kitaran eksperimen kepada jam dan bukannya minggu, memudahkan maklum balas dan pelarasan pantas.

Dean bersetuju, dengan menyatakan bahawa banyak eksperimen dengan hasil yang pada mulanya tidak menggalakkan kemudiannya boleh memberikan pandangan yang penting. Walau bagaimanapun, penyelidik menghadapi cabaran kerumitan kod; walaupun penambahbaikan tambahan adalah perlu, ia juga memperkenalkan cabaran prestasi dan penyelenggaraan, yang memerlukan keseimbangan antara kebersihan sistem dan inovasi.

Struktur Organik Model Masa Depan

Dean dan Shazeer membayangkan perubahan ketara dalam model AI daripada struktur monolitik kepada seni bina modular.

Model seperti Gemini 1.5 Pro sudah pun menggunakan seni bina Campuran Pakar (MoE), mengaktifkan komponen yang berbeza berdasarkan tugas itu. Contohnya, masalah matematik melibatkan bahagian yang mahir matematik, manakala pemprosesan imej mengaktifkan modul khusus yang sepadan.

Walau bagaimanapun, struktur model semasa kekal agak tegar, dengan modul pakar bersaiz seragam dan kurang fleksibiliti. Dean mencadangkan visi yang lebih berpandangan ke hadapan: model masa depan harus menggunakan struktur organik, membenarkan pasukan yang berbeza membangunkan atau meningkatkan bahagian model yang berbeza secara bebas.

Sebagai contoh, pasukan yang pakar dalam bahasa Asia Tenggara boleh memperhalusi modul yang berkaitan, manakala yang lain menumpukan pada meningkatkan pemahaman kod. Pendekatan modular ini bukan sahaja meningkatkan kecekapan pembangunan tetapi juga membolehkan pasukan global menyumbang kepada kemajuan model.

Secara teknikal, model boleh terus mengoptimumkan modul individu melalui penyulingan. Ini melibatkan memeluwapkan modul yang besar dan berprestasi tinggi kepada versi yang lebih kecil dan cekap, yang kemudiannya terus mempelajari pengetahuan baharu.

Penghala boleh memilih versi modul yang sesuai berdasarkan kerumitan tugas, mengimbangi prestasi dan kecekapan—konsep yang menjadi tumpuan seni bina Pathway Google.

Seni bina baharu ini memerlukan infrastruktur yang teguh, termasuk kluster TPU yang berkuasa dan memori jalur lebar tinggi (HBM) yang mencukupi. Walaupun setiap panggilan mungkin hanya menggunakan sebahagian kecil daripada parameter model, keseluruhan sistem perlu mengekalkan model lengkap dalam ingatan untuk memenuhi permintaan serentak.

Model semasa boleh menguraikan tugas kepada 10 sub-tugas dengan kadar kejayaan 80%. Model masa depan berpotensi untuk menguraikan tugas kepada 100 atau 1,000 sub-tugas, mencapai kadar kejayaan 90% atau lebih tinggi.

Momen “Holy Shit”: Pengecaman Kucing yang Tepat

Melihat ke belakang, 2007 menandakan pencapaian penting untuk model bahasa yang besar (LLM).

Pada masa itu, Google melatih model N-gram menggunakan 2 trilion token untuk terjemahan mesin. Walau bagaimanapun, pergantungan pada storan cakera untuk data N-gram mengakibatkan kependaman yang tinggi disebabkan oleh I/O cakera yang meluas (cth., 100,000 carian/perkataan), mengambil masa 12 jam untuk menterjemahkan satu ayat.

Untuk menangani perkara ini, mereka merancang beberapa strategi, termasuk pemampatan memori, seni bina teragih dan pengoptimuman API pemprosesan kelompok:

  • Pemampatan Memori: Memuatkan data N-gram sepenuhnya ke dalam memori untuk mengelakkan I/O cakera.
  • Seni Bina Teragih: Mengagihkan data merentasi berbilang mesin (cth., 200) untuk pertanyaan selari.
  • Pengoptimuman API Pemprosesan Kelompok: Mengurangkan overhed setiap permintaan untuk meningkatkan daya pemprosesan.

Dalam tempoh ini, kuasa pengkomputeran mula mengikut Undang-undang Moore, yang membawa kepada pertumbuhan eksponen.

“Dari lewat 2008, terima kasih kepada Undang-undang Moore, rangkaian saraf benar-benar mula berfungsi.”

Apabila ditanya tentang momen “Holy shit”—momen ketidakpercayaan bahawa usaha penyelidikan tertentu benar-benar berjaya—Jeff menceritakan projek awal pasukan Google di mana mereka melatih model untuk mempelajari ciri peringkat tinggi (seperti mengenali kucing dan pejalan kaki) daripada bingkai video YouTube. Melalui latihan teragih (2,000 mesin, 16,000 teras), mereka mencapai pembelajaran tanpa penyeliaan berskala besar.

Selepas pra-latihan tanpa penyeliaan, prestasi model dalam tugas penyeliaan (ImageNet) meningkat sebanyak 60%, menunjukkan potensi latihan berskala besar dan pembelajaran tanpa penyeliaan.

Menangani sama ada Google kekal sebagai syarikat perolehan maklumat, Jeff menekankan:

“AI memenuhi misi asal Google.”

Pada dasarnya, AI bukan sahaja mendapatkan semula maklumat tetapi juga memahami dan menjana kandungan yang kompleks, dengan potensi masa depan yang besar. Bagi hala tuju masa depan Google, “Saya tidak tahu.”

Walau bagaimanapun, seseorang boleh menjangkakan mengintegrasikan Google dan beberapa kod sumber terbuka ke dalam konteks setiap pembangun. Dalam erti kata lain, dengan membolehkan model mengendalikan lebih banyak token, mencari dalam carian akan meningkatkan lagi keupayaan dan utiliti model.

Konsep ini sudah pun diujikaji secara dalaman di Google.

“Malah, kami telah pun menjalankan latihan lanjut pada model Gemini untuk pembangun dalaman pada asas kod dalaman kami.”

Lebih tepat lagi, Google telah mencapai matlamat 25% daripada kodnya ditulis oleh AI secara dalaman.

Masa Paling Gembira di Google

Menariknya, kedua-duanya juga berkongsi lebih banyak pengalaman yang menarik berkaitan dengan Google.

Bagi Noam pada tahun 1999, menyertai syarikat besar seperti Google pada mulanya tidak menarik, kerana dia merasakan kemahirannya mungkin kurang dimanfaatkan. Walau bagaimanapun, selepas melihat carta indeks volum carian harian Google, dia dengan cepat mengubah fikirannya:

“Orang-orang ini pasti akan berjaya, dan nampaknya mereka mempunyai banyak masalah menarik untuk diselesaikan.”

Dia menyertai dengan niat “kecil” tertentu:

“Buat sedikit wang dan kemudian dengan gembira meneruskan minat penyelidikan AI saya sendiri.”

Sebaik sahaja menyertai Google, dia bertemu mentornya, Jeff (pekerja baharu ditugaskan mentor), dan mereka bekerjasama dalam beberapa projek.

Pada ketika ini, Jeff menyampuk dengan penghargaannya sendiri untuk Google:

“Saya suka mandat luas Google untuk visi RM (Responsif dan Multimodal), walaupun ia satu arah, kita boleh melakukan banyak projek kecil.”

Ini juga memberikan Noam kebebasan yang menyebabkan orang yang pada mulanya merancang untuk “pukul dan lari” untuk kekal jangka panjang.

Sementara itu, apabila topik itu beralih kepada Jeff, tesis sarjana mudanya mengenai backpropagation selari telah dilawati semula.

Kertas 8 halaman ini menjadi tesis sarjana muda teratas tahun 1990 dan dipelihara di perpustakaan Universiti Minnesota. Di dalamnya, Jeff meneroka dua kaedah untuk latihan selari rangkaian saraf berdasarkan backpropagation:

  • Pendekatan yang dipartisi corak: Mewakili keseluruhan rangkaian saraf pada setiap pemproses dan membahagikan corak input antara pemproses yang tersedia.
  • Pendekatan yang dipartisi rangkaian (pendekatan berpaip): Mengagihkan neuron rangkaian saraf merentasi pemproses yang tersedia, membentuk cincin komunikasi. Ciri-ciri melewati saluran paip ini, diproses oleh neuron pada setiap pemproses.

Dia menguji kaedah ini dengan rangkaian saraf dengan saiz yang berbeza dan pelbagai data input. Keputusan menunjukkan bahawa untuk pendekatan yang dipartisi corak, rangkaian yang lebih besar dan lebih banyak corak input menghasilkan pecutan yang lebih baik.

Terutamanya, kertas itu mendedahkan bagaimana rupa rangkaian saraf “besar” pada tahun 1990:

“Rangkaian saraf 3 lapisan dengan 10, 21, dan 10 neuron setiap lapisan dianggap sangat besar.”

Jeff teringat bahawa dia menggunakan sehingga 32 pemproses untuk ujiannya.

(Pada masa itu, dia mungkin tidak dapat membayangkan bahawa 12 tahun kemudian, dia, bersama-sama Andrew Ng, Quoc Le, dan lain-lain, akan menggunakan 16,000 teras CPU untuk mengenal pasti kucing daripada data besar.)

Walau bagaimanapun, Jeff mengakui bahawa untuk penemuan penyelidikan ini benar-benar berkesan, “kita memerlukan kira-kira sejuta kali lebih kuasa pengkomputeran.”

Kemudian, mereka membincangkan potensi risiko AI, terutamanya masalah gelung maklum balas apabila AI menjadi sangat berkuasa. Dalam erti kata lain, AI boleh memasuki gelung pecutan yang tidak terkawal (iaitu, “letupan kecerdasan”) dengan menulis kod atau meningkatkan algoritmanya.

Ini boleh menyebabkan AI dengan cepat mengatasi kawalan manusia, malah mewujudkan versi berniat jahat. Seperti yang dikatakan oleh hos, bayangkan “sejuta pengaturcara teratas seperti Jeff, akhirnya bertukar menjadi sejuta Jeff yang jahat.”

(Netizen): “Mimpi ngeri baharu dibuka, haha!”

Akhirnya, merenungkan masa paling gembira mereka di Google, kedua-duanya berkongsi kenangan mereka.

Bagi Jeff, detik-detik paling menggembirakan pada tahun-tahun awal Google adalah menyaksikan pertumbuhan pesat trafik carian Google.

“Membina sesuatu yang kini digunakan oleh 2 bilion orang adalah luar biasa.”

Baru-baru ini, dia teruja untuk membina sesuatu dengan pasukan Gemini yang orang ramai tidak akan percaya mungkin walaupun lima tahun lalu, dan dia menjangkakan impak model itu akan berkembang lebih jauh.

Noam mengulangi pengalaman yang sama dan rasa misi, malah menyebut dengan mesra “kawasan dapur mikro” Google.

Ini ialah ruang khas dengan kira-kira 50 meja, menawarkan kopi dan makanan ringan, di mana orang ramai boleh berbual dan bertukar idea secara bebas.

Pada sebutan ini, malah Jeff menjadi bersemangat (doge).