Fajar Evolusi AI: Perjalanan 25 Tahun dari PageRank ke AGI
Dua tokoh terkemuka dari perjalanan teknologi Google, Jeff Dean, Kepala Ilmuwan saat ini, dan Noam Shazeer, tokoh penting di balik model Transformer yang bergabung kembali, baru-baru ini terlibat dalam dialog yang mencerahkan. Dipandu oleh podcaster terkenal Dwarkesh Patel, percakapan mereka menawarkan sekilas tentang evolusi AI, mulai dari hari-hari dasar MapReduce hingga era transformatif arsitektur Transformer dan MoE.
Para veteran berpengalaman ini, dengan pengalaman gabungan puluhan tahun di Google, tidak hanya menyaksikan tetapi secara aktif membentuk teknologi internet dan kecerdasan buatan yang menentukan. Ironisnya, Shazeer mengakui bahwa motivasi awalnya untuk bergabung dengan Google adalah pengejaran keuangan jangka pendek, sebuah rencana yang secara dramatis dibatalkan oleh kontribusi selanjutnya ke bidang tersebut.
Keadaan Saat Ini dan Lintasan Masa Depan Komputasi AI
Dalam pertukaran selama dua jam yang luas, Dean dan Shazeer mengungkap wawasan tentang status komputasi AI saat ini, mengungkapkan bahwa:
- Skala operasi telah melampaui pusat data individual; pelatihan Gemini sekarang mencakup beberapa pusat data di berbagai wilayah metropolitan, beroperasi secara asinkron.
- Ada ruang substansial untuk pertumbuhan dalam menskalakan komputasi inferensi, karena berinteraksi dengan AI tetap secara signifikan lebih hemat biaya daripada membaca tradisional.
- Arsitektur model masa depan diperkirakan akan melampaui fleksibilitas MoE, memungkinkan pengembangan independen berbagai komponen model oleh tim yang berbeda.
Wawasan dari Parit: Bug Bounties dan Arsitektur Masa Depan
Percakapan itu juga memicu minat di media sosial, dengan pengguna menyoroti konsep yang menarik, seperti:
- Potensi menyimpan model MoE yang luas dalam memori.
- Manfaat tak terduga dari bug dalam kode, yang, seiring peningkatan skala, secara tidak sengaja dapat mengarah pada penemuan inovatif.
Dean menantang gagasan bahwa komputasi AI terlalu mahal. Dengan membandingkan biaya terlibat dengan buku versus berinteraksi dengan AI tentang buku yang sama, ia mengilustrasikan poin yang menarik:
Model bahasa paling canggih beroperasi dengan biaya yang sangat rendah sekitar $10^{-18}$ per operasi, yang diterjemahkan menjadi satu juta token yang diproses dengan satu dolar. Sebaliknya, membeli buku paperback menawarkan hanya 10.000 token per dolar.
Perbedaan mencolok ini—keunggulan biaya seratus kali lipat untuk interaksi AI—menggarisbawahi potensi yang belum dimanfaatkan untuk meningkatkan kecerdasan AI melalui peningkatan komputasi inferensi.
Dari perspektif infrastruktur, meningkatnya signifikansi komputasi waktu inferensi dapat membentuk kembali perencanaan pusat data. Ini mungkin memerlukan perangkat keras yang secara khusus disesuaikan untuk tugas inferensi, mengingatkan pada TPU generasi pertama Google, yang awalnya dirancang untuk inferensi dan kemudian diadaptasi untuk pelatihan.
Komputasi Terdistribusi dan Asinkron: Paradigma Baru
Penekanan yang berkembang pada inferensi menunjukkan bahwa komunikasi berkelanjutan antara pusat data mungkin menjadi tidak perlu, yang berpotensi mengarah pada model komputasi yang lebih terdistribusi dan asinkron.
Gemini 1.5 telah memulai jalur ini, memanfaatkan sumber daya komputasi di beberapa kota besar. Jaringan berkecepatan tinggi menyinkronkan komputasi dari pusat data yang berbeda, mencapai skala pelatihan yang belum pernah terjadi sebelumnya. Untuk model besar, di mana setiap langkah pelatihan dapat memakan waktu beberapa detik, bahkan latensi jaringan 50 milidetik berdampak minimal.
Dalam ranah inferensi, sensitivitas latensi menjadi pertimbangan penting. Sementara tanggapan langsung menuntut kinerja latensi rendah yang dioptimalkan, tugas-tugas yang tidak mendesak, seperti analisis kontekstual yang kompleks, dapat mentolerir waktu pemrosesan yang lebih lama.
Sistem yang lebih mudah beradaptasi dan efisien dapat mengelola beberapa tugas secara asinkron, meningkatkan kinerja keseluruhan sambil meminimalkan waktu tunggu pengguna. Selain itu, kemajuan algoritmik, seperti menggunakan model draf yang lebih kecil, dapat mengurangi kemacetan dalam proses inferensi. Pendekatan ini melibatkan model yang lebih kecil yang menghasilkan token potensial, yang kemudian diverifikasi oleh model yang lebih besar, secara signifikan mempercepat proses inferensi melalui paralelisasi.
Shazeer menambahkan bahwa selama pelatihan asinkron, setiap replika model beroperasi secara independen, mengirim pembaruan gradien ke sistem pusat untuk aplikasi asinkron. Terlepas dari implikasi teoretis dari fluktuasi parameter kecil, metode ini telah terbukti sangat berhasil.
Sebaliknya, pelatihan sinkron menawarkan stabilitas dan reproduktifitas, preferensi bagi banyak peneliti. Untuk memastikan replikabilitas dalam pelatihan, Dean menyoroti praktik pencatatan operasi, terutama pembaruan gradien dan sinkronisasi batch data. Dengan memutar ulang log ini, bahkan pelatihan asinkron dapat menghasilkan hasil yang dapat direproduksi, membuat debugging lebih mudah dikelola dan mengurangi inkonsistensi yang disebabkan oleh faktor lingkungan.
Peran Kebetulan dari Bug
Memperluas hal ini, Shazeer memperkenalkan perspektif yang menarik:
Sementara model pelatihan menghadapi berbagai bug, toleransi kebisingan bawaan dari model ini memungkinkan penyesuaian diri, yang mengarah pada hasil yang tidak terduga. Beberapa bug bahkan menghasilkan efek positif, menghadirkan peluang untuk perbaikan karena skala memperkuat anomali eksperimen.
Ketika ditanya tentang praktik debugging, Shazeer menggambarkan pendekatan mereka dalam melakukan banyak eksperimen skala kecil untuk validasi cepat. Metode ini menyederhanakan basis kode dan memperpendek siklus eksperimen menjadi jam, bukan minggu, memfasilitasi umpan balik dan penyesuaian cepat.
Dean setuju, mencatat bahwa banyak eksperimen dengan hasil yang awalnya tidak menguntungkan kemudian dapat memberikan wawasan penting. Namun, para peneliti menghadapi tantangan kompleksitas kode; sementara peningkatan inkremental diperlukan, mereka juga memperkenalkan tantangan kinerja dan pemeliharaan, yang membutuhkan keseimbangan antara kebersihan sistem dan inovasi.
Struktur Organik Model Masa Depan
Dean dan Shazeer membayangkan pergeseran signifikan dalam model AI dari struktur monolitik ke arsitektur modular.
Model seperti Gemini 1.5 Pro sudah menggunakan arsitektur Mixture of Experts (MoE), mengaktifkan komponen yang berbeda berdasarkan tugas. Misalnya, masalah matematika melibatkan bagian yang mahir matematika, sementara pemrosesan gambar mengaktifkan modul khusus yang sesuai.
Namun, struktur model saat ini tetap agak kaku, dengan modul ahli berukuran seragam dan kurang fleksibilitas. Dean mengusulkan visi yang lebih berwawasan ke depan: model masa depan harus mengadopsi struktur organik, memungkinkan tim yang berbeda untuk secara independen mengembangkan atau meningkatkan bagian model yang berbeda.
Misalnya, tim yang berspesialisasi dalam bahasa Asia Tenggara dapat menyempurnakan modul yang relevan, sementara yang lain berfokus pada peningkatan pemahaman kode. Pendekatan modular ini tidak hanya meningkatkan efisiensi pengembangan tetapi juga memungkinkan tim global untuk berkontribusi pada kemajuan model.
Secara teknis, model dapat terus mengoptimalkan modul individual melalui distilasi. Ini melibatkan pengkondisian modul besar dan berkinerja tinggi menjadi versi yang lebih kecil dan efisien, yang kemudian terus mempelajari pengetahuan baru.
Router dapat memilih versi modul yang sesuai berdasarkan kompleksitas tugas, menyeimbangkan kinerja dan efisiensi—konsep yang menjadi inti dari arsitektur Pathway Google.
Arsitektur baru ini menuntut infrastruktur yang kuat, termasuk kluster TPU yang kuat dan memori bandwidth tinggi (HBM) yang cukup. Meskipun setiap panggilan mungkin hanya menggunakan sebagian kecil dari parameter model, seluruh sistem perlu menyimpan seluruh model dalam memori untuk melayani permintaan bersamaan.
Model saat ini dapat menguraikan tugas menjadi 10 sub-tugas dengan tingkat keberhasilan 80%. Model masa depan berpotensi memecah tugas menjadi 100 atau 1.000 sub-tugas, mencapai tingkat keberhasilan 90% atau lebih tinggi.
Momen “Holy Shit”: Pengenalan Kucing yang Akurat
Melihat ke belakang, tahun 2007 menandai tonggak penting bagi model bahasa besar (LLM).
Pada saat itu, Google melatih model N-gram menggunakan 2 triliun token untuk terjemahan mesin. Namun, ketergantungan pada penyimpanan disk untuk data N-gram menghasilkan latensi tinggi karena I/O disk yang ekstensif (misalnya, 100.000 pencarian/kata), membutuhkan waktu 12 jam untuk menerjemahkan satu kalimat.
Untuk mengatasi hal ini, mereka merancang beberapa strategi, termasuk kompresi memori, arsitektur terdistribusi, dan optimasi API pemrosesan batch:
- Kompresi Memori: Memuat data N-gram sepenuhnya ke dalam memori untuk menghindari I/O disk.
- Arsitektur Terdistribusi: Mendistribusikan data di beberapa mesin (misalnya, 200) untuk kueri paralel.
- Optimasi API Pemrosesan Batch: Mengurangi overhead per permintaan untuk meningkatkan throughput.
Selama periode ini, kekuatan komputasi mulai mengikuti Hukum Moore, yang mengarah pada pertumbuhan eksponensial.
“Dari akhir 2008, berkat Hukum Moore, jaringan saraf benar-benar mulai bekerja.”
Ketika ditanya tentang momen “Holy shit”—momen ketidakpercayaan bahwa upaya penelitian tertentu benar-benar berhasil—Jeff menceritakan proyek tim Google awal di mana mereka melatih model untuk mempelajari fitur tingkat tinggi (seperti mengenali kucing dan pejalan kaki) dari bingkai video YouTube. Melalui pelatihan terdistribusi (2.000 mesin, 16.000 core), mereka mencapai pembelajaran tanpa pengawasan skala besar.
Setelah pra-pelatihan tanpa pengawasan, kinerja model dalam tugas yang diawasi (ImageNet) meningkat sebesar 60%, menunjukkan potensi pelatihan skala besar dan pembelajaran tanpa pengawasan.
Menanggapi apakah Google tetap merupakan perusahaan pengambilan informasi utama, Jeff menekankan:
“AI memenuhi misi asli Google.”
Pada dasarnya, AI tidak hanya mengambil informasi tetapi juga memahami dan menghasilkan konten kompleks, dengan potensi masa depan yang luas. Adapun arah masa depan Google, “Saya tidak tahu.”
Namun, orang dapat mengantisipasi integrasi Google dan beberapa kode sumber terbuka ke dalam konteks setiap pengembang. Dengan kata lain, dengan memungkinkan model untuk menangani lebih banyak token, mencari dalam pencarian akan semakin meningkatkan kemampuan dan utilitas model.
Konsep ini sudah diujicobakan secara internal di Google.
“Faktanya, kami telah melakukan pelatihan lebih lanjut pada model Gemini untuk pengembang internal pada basis kode internal kami.”
Lebih tepatnya, Google secara internal telah mencapai tujuan 25% dari kodenya ditulis oleh AI.
Waktu Paling Bahagia di Google
Menariknya, keduanya juga berbagi lebih banyak pengalaman menarik terkait Google.
Bagi Noam pada tahun 1999, bergabung dengan perusahaan besar seperti Google awalnya tidak menarik, karena ia merasa keterampilannya mungkin kurang dimanfaatkan. Namun, setelah melihat grafik indeks volume pencarian harian Google, ia dengan cepat berubah pikiran:
“Orang-orang ini pasti akan berhasil, dan sepertinya mereka memiliki banyak masalah menarik untuk dipecahkan.”
Dia bergabung dengan niat “kecil” tertentu:
“Hasilkan uang dan kemudian dengan senang hati mengejar minat penelitian AI saya sendiri.”
Setelah bergabung dengan Google, ia bertemu mentornya, Jeff (karyawan baru ditugaskan mentor), dan mereka berkolaborasi dalam beberapa proyek.
Pada titik ini, Jeff menyela dengan apresiasinya sendiri untuk Google:
“Saya suka mandat luas Google untuk visi RM (Responsif dan Multimodal), bahkan jika itu satu arah, kita dapat melakukan banyak proyek kecil.”
Ini juga memberi Noam kebebasan yang menyebabkan orang yang awalnya berencana untuk “pukul dan lari” untuk tinggal jangka panjang.
Sementara itu, ketika topik beralih ke Jeff, tesis sarjananya tentang backpropagation paralel ditinjau kembali.
Makalah 8 halaman ini menjadi tesis sarjana terbaik tahun 1990 dan disimpan di perpustakaan Universitas Minnesota. Di dalamnya, Jeff menjelajahi dua metode untuk pelatihan paralel jaringan saraf berdasarkan backpropagation:
- Pendekatan partisi pola: Mewakili seluruh jaringan saraf pada setiap prosesor dan membagi pola input di antara prosesor yang tersedia.
- Pendekatan partisi jaringan (pendekatan pipelined): Mendistribusikan neuron dari jaringan saraf di seluruh prosesor yang tersedia, membentuk cincin komunikasi. Fitur melewati saluran ini, diproses oleh neuron pada setiap prosesor.
Dia menguji metode ini dengan jaringan saraf dengan ukuran berbeda dan berbagai data input. Hasilnya menunjukkan bahwa untuk pendekatan partisi pola, jaringan yang lebih besar dan lebih banyak pola input menghasilkan akselerasi yang lebih baik.
Terutama, makalah itu mengungkapkan seperti apa jaringan saraf “besar” pada tahun 1990:
“Jaringan saraf 3 lapis dengan 10, 21, dan 10 neuron per lapis dianggap sangat besar.”
Jeff ingat bahwa dia menggunakan hingga 32 prosesor untuk pengujiannya.
(Pada saat itu, dia mungkin tidak dapat membayangkan bahwa 12 tahun kemudian, dia, bersama dengan Andrew Ng, Quoc Le, dan lainnya, akan menggunakan 16.000 core CPU untuk mengidentifikasi kucing dari data besar.)
Namun, Jeff mengakui bahwa agar temuan penelitian ini benar-benar efektif, “kita membutuhkan sekitar satu juta kali lebih banyak daya komputasi.”
Kemudian, mereka membahas potensi risiko AI, terutama masalah loop umpan balik ketika AI menjadi sangat kuat. Dengan kata lain, AI dapat memasuki loop akselerasi yang tidak terkendali (yaitu, “ledakan kecerdasan”) dengan menulis kode atau meningkatkan algoritmanya.
Ini dapat menyebabkan AI dengan cepat melampaui kendali manusia, bahkan menciptakan versi jahat. Seperti yang dikatakan pembawa acara, bayangkan “satu juta programmer top seperti Jeff, akhirnya berubah menjadi satu juta Jeff jahat.”
(Netizen): “Mimpi buruk baru dibuka, haha!”
Akhirnya, merenungkan waktu paling bahagia mereka di Google, keduanya berbagi kenangan mereka.
Bagi Jeff, momen paling menyenangkan di tahun-tahun awal Google adalah menyaksikan pertumbuhan eksplosif lalu lintas pencarian Google.
“Membangun sesuatu yang sekarang digunakan oleh 2 miliar orang adalah luar biasa.”
Baru-baru ini, dia sangat senang membangun sesuatu dengan tim Gemini yang orang tidak akan percaya mungkin bahkan lima tahun yang lalu, dan dia meramalkan dampak model akan berkembang lebih jauh.
Noam menggemakan pengalaman serupa dan rasa misi, bahkan dengan sayang menyebutkan “area dapur mikro” Google.
Ini adalah ruang khusus dengan sekitar 50 meja, menawarkan kopi dan makanan ringan, di mana orang dapat dengan bebas mengobrol dan bertukar pikiran.
Pada penyebutan ini, bahkan Jeff menjadi animasi (doge).