Perkembangan pesat dalam teknologi AI, yang dicontohkan oleh kemajuan DeepSeek, mengharuskan evaluasi ulang mendasar tentang bagaimana kita membangun pusat data, chip, dan sistem untuk menyediakan daya komputasi yang diperlukan. Inovasi rekayasa DeepSeek telah secara signifikan mengurangi biaya komputasi AI, mendorong diskusi yang lebih luas tentang masa depan infrastruktur AI.
Meskipun DeepSeek mungkin belum secara drastis memperluas batas-batas teknologi AI, pengaruhnya pada pasar AI sangat besar. Teknologi seperti Mixture of Experts (MoE), Multi-Layer Attention (MLA), dan Multi-Token Prediction (MTP) telah mendapatkan keunggulan bersama dengan DeepSeek. Meskipun tidak semua teknologi ini dipelopori oleh DeepSeek, implementasi mereka yang berhasil telah memacu adopsi yang luas. MLA, khususnya, telah menjadi titik fokus diskusi di berbagai platform, dari perangkat edge hingga komputasi awan.
MLA dan Tantangan Inovasi Algoritma
Elad Raz, CEO NextSilicon, baru-baru ini menunjukkan bahwa meskipun MLA meningkatkan efisiensi memori, itu juga dapat meningkatkan beban kerja bagi pengembang dan memperumit penerapan AI di lingkungan produksi. Pengguna GPU mungkin perlu terlibat dalam optimasi ‘hand-code’ untuk MLA. Contoh ini menggarisbawahi perlunya memikirkan kembali implementasi chip AI dan arsitektur infrastruktur di era pasca-DeepSeek.
Untuk memahami signifikansi MLA, penting untuk memahami konsep dasar Large Language Models (LLM). Saat menghasilkan respons terhadap input pengguna, LLM sangat bergantung pada vektor KV – kunci dan nilai – yang memungkinkan model untuk fokus pada data yang relevan. Dalam mekanisme perhatian, model membandingkan permintaan baru dengan kunci untuk menentukan konten yang paling relevan.
Elad Raz menggunakan analogi sebuah buku, dengan kunci sebagai ‘judul bab buku, menunjukkan tentang apa setiap bagian, dengan nilai menjadi ringkasan yang lebih rinci di bawah judul-judul itu. Jadi, ketika pengguna memasukkan permintaan, ia meminta istilah pencarian untuk membantu menghasilkan jawaban. Ia bertanya, ‘Di bawah alur cerita ini, bab mana yang paling relevan?’’
MLA memampatkan judul bab (kunci) dan ringkasan (nilai) ini, mempercepat proses menemukan jawaban dan meningkatkan efisiensi. Pada akhirnya, MLA membantu DeepSeek mengurangi penggunaan memori sebesar 5-13%. Informasi yang lebih rinci dapat ditemukan di makalah resmi DeepSeek. Konferensi pengembang MediaTek bahkan membahas dukungan untuk MLA di chip seluler Dimensity mereka, menggarisbawahi pengaruh luas DeepSeek.
Teknologi seperti MLA mewakili inovasi algoritmik yang khas di era AI. Namun, laju perkembangan teknologi AI yang pesat mengarah pada aliran inovasi yang konstan, yang pada gilirannya menciptakan tantangan baru, terutama ketika inovasi ini disesuaikan dengan platform tertentu. Dalam kasus MLA, pengguna GPU non-NVIDIA memerlukan pengkodean manual tambahan untuk memanfaatkan teknologi ini.
Meskipun teknologi DeepSeek menunjukkan inovasi dan nilai era AI, perangkat keras dan perangkat lunak harus beradaptasi dengan inovasi ini. Menurut Elad Raz, adaptasi semacam itu harus meminimalkan kompleksitas bagi pengembang dan lingkungan produksi. Jika tidak, biaya setiap inovasi menjadi sangat mahal.
Pertanyaan kemudian menjadi:’Apa yang terjadi jika inovasi algoritma berikutnya tidak diterjemahkan dengan baik dan sederhana ke arsitektur yang ada?’
Konflik Antara Desain Chip dan Inovasi Algoritma
Selama beberapa tahun terakhir, produsen chip AI secara konsisten melaporkan bahwa mendesain chip AI besar membutuhkan setidaknya 1-2 tahun. Ini berarti bahwa desain chip harus dimulai jauh sebelum rilis pasar chip. Mengingat kemajuan pesat dalam teknologi AI, desain chip AI harus berwawasan ke depan. Hanya berfokus pada kebutuhan saat ini akan menghasilkan chip AI yang ketinggalan zaman yang tidak dapat beradaptasi dengan inovasi aplikasi terbaru.
Inovasi algoritma aplikasi AI sekarang terjadi setiap minggu. Seperti yang disebutkan dalam artikel sebelumnya, daya komputasi yang dibutuhkan agar model AI mencapai kemampuan yang sama berkurang 4-10 kali lipat setiap tahun. Biaya inferensi model AI yang mencapai kualitas serupa dengan GPT-3 telah menurun 1200 kali lipat dalam tiga tahun terakhir. Saat ini, model dengan 2B parameter dapat mencapai tingkat yang sama dengan parameter GPT-3 170B di masa lalu. Inovasi pesat di lapisan atas tumpukan teknologi AI ini menghadirkan tantangan signifikan bagi perencanaan dan desain arsitektur chip tradisional.
Elad Raz percaya bahwa industri perlu mengenali inovasi seperti DeepSeek MLA sebagai norma untuk teknologi AI. ‘Komputasi generasi berikutnya tidak hanya perlu mengoptimalkan untuk beban kerja saat ini tetapi juga mengakomodasi terobosan di masa depan.’ Perspektif ini berlaku tidak hanya untuk industri chip tetapi juga untuk seluruh infrastruktur tingkat menengah hingga bawah dari tumpukan teknologi AI.
‘DeepSeek dan inovasi lainnya telah menunjukkan kemajuan pesat inovasi algoritma,’ kata Elad Raz. ‘Peneliti dan ilmuwan data membutuhkan alat yang lebih serbaguna dan tangguh untuk mendorong wawasan dan penemuan baru. Pasar membutuhkan platform komputasi perangkat keras yang cerdas dan ditentukan perangkat lunak yang memungkinkan pelanggan untuk ‘menjatuhkan-mengganti’ solusi akselerator yang ada, sambil memungkinkan pengembang untuk memindahkan pekerjaan mereka tanpa rasa sakit.’
Untuk mengatasi situasi ini, industri harus merancang infrastruktur komputasi yang lebih cerdas, mudah beradaptasi, dan fleksibel.
Fleksibilitas dan efisiensi seringkali merupakan tujuan yang saling bertentangan. CPU sangat fleksibel tetapi memiliki efisiensi komputasi paralel yang jauh lebih rendah daripada GPU. GPU, dengan kemampuan pemrogramannya, mungkin kurang efisien daripada chip ASIC AI khusus.
Elad Raz mencatat bahwa NVIDIA mengharapkan rak pusat data AI mencapai konsumsi daya 600kW segera. Sebagai konteks, 75% pusat data perusahaan standar hanya memiliki konsumsi daya puncak 15-20kW per rak. Terlepas dari potensi peningkatan efisiensi dalam AI, ini menimbulkan tantangan signifikan bagi pusat data yang membangun sistem infrastruktur komputasi.
Dalam pandangan Elad Raz, GPU dan akselerator AI saat ini mungkin tidak cukup untuk memenuhi potensi permintaan AI dan High-Performance Computing (HPC). ‘Jika kita tidak secara mendasar memikirkan kembali bagaimana kita meningkatkan efisiensi komputasi, industri berisiko mencapai batas fisik dan ekonomi. Dinding ini juga akan memiliki efek samping, membatasi akses ke AI dan HPC untuk lebih banyak organisasi, menghambat inovasi bahkan dengan kemajuan dalam algoritma atau arsitektur GPU tradisional.’
Rekomendasi dan Persyaratan untuk Infrastruktur Komputasi Generasi Berikutnya
Berdasarkan pengamatan ini, Elad Raz mengusulkan ‘empat pilar’ untuk mendefinisikan infrastruktur komputasi generasi berikutnya:
(1) Kemampuan Penggantian Plug-and-Play: ‘Sejarah telah menunjukkan bahwa transisi arsitektur yang kompleks, seperti migrasi dari CPU ke GPU, dapat memakan waktu puluhan tahun untuk diterapkan sepenuhnya. Oleh karena itu, arsitektur komputasi generasi berikutnya harus mendukung migrasi yang mulus.’ Untuk kemampuan penggantian ‘plug-and-play’, Elad Raz menyarankan agar arsitektur komputasi baru belajar dari ekosistem x86 dan Arm, mencapai adopsiyang lebih luas melalui kompatibilitas mundur.
Desain modern juga harus menghindari mengharuskan pengembang untuk menulis ulang sejumlah besar kode atau membuat ketergantungan pada vendor tertentu. ‘Misalnya, dukungan untuk teknologi yang muncul seperti MLA harus distandarisasi, daripada mengharuskan penyesuaian manual tambahan seperti halnya dengan GPU non-NVIDIA. Sistem generasi berikutnya harus memahami dan mengoptimalkan beban kerja baru di luar kotak, tanpa memerlukan modifikasi kode manual atau penyesuaian API yang signifikan.’
(2) Optimasi Kinerja Real-Time yang Dapat Disesuaikan: Elad Raz percaya bahwa industri harus menjauh dari akselerator fungsi tetap. ‘Industri perlu membangun fondasi perangkat keras yang cerdas dan ditentukan perangkat lunak yang dapat secara dinamis mengoptimalkan diri sendiri saat runtime.’
‘Dengan terus belajar dari beban kerja, sistem masa depan dapat menyesuaikan diri secara real-time, memaksimalkan pemanfaatan dan kinerja berkelanjutan, terlepas dari beban kerja aplikasi tertentu. Kemampuan beradaptasi dinamis ini berarti bahwa infrastruktur dapat memberikan efisiensi yang konsisten dalam skenario dunia nyata, baik itu menjalankan simulasi HPC, model AI yang kompleks, atau operasi database vektor.’
(3) Efisiensi yang Dapat Diskalakan: ‘Dengan memisahkan perangkat keras dan perangkat lunak dan berfokus pada optimasi real-time yang cerdas, sistem masa depan harus mencapai pemanfaatan yang lebih tinggi dan konsumsi energi keseluruhan yang lebih rendah. Ini akan membuat infrastruktur lebih hemat biaya dan dapat diskalakan untuk memenuhi tuntutan beban kerja baru yang terus berkembang.’
(4) Desain Masa Depan: Poin ini sesuai dengan persyaratan berwawasan ke depan untuk infrastruktur AI, terutama desain chip. ‘Algoritma mutakhir saat ini mungkin ketinggalan zaman besok.’ ‘Baik itu jaringan saraf AI atau model LLM berbasis Transformer, infrastruktur komputasi generasi berikutnya harus dapat beradaptasi, memastikan bahwa investasi teknologi perusahaan tetap tangguh selama bertahun-tahun yang akan datang.’
Saran-saran ini menawarkan perspektif yang relatif ideal namun menggugah pikiran. Metodologi panduan ini harus dipertimbangkan untuk pengembangan teknologi AI dan HPC di masa depan, bahkan jika beberapa kontradiksi inheren tetap menjadi masalah lama dalam industri. ‘Untuk melepaskan potensi AI, HPC, dan beban kerja intensif data dan komputasi masa depan lainnya, kita harus memikirkan kembali infrastruktur dan merangkul solusi dinamis dan cerdas untuk mendukung inovasi dan perintis.’