Inovasi pesat dalam teknologi AI, seperti yang ditunjukkan oleh kemajuan DeepSeek, memerlukan penilaian semula asas tentang cara kita membina pusat data, cip, dan sistem untuk menyediakan kuasa pengkomputeran yang diperlukan. Inovasi kejuruteraan DeepSeek telah mengurangkan kos pengkomputeran AI dengan ketara, mendorong perbincangan yang lebih luas tentang masa depan infrastruktur AI.
Walaupun DeepSeek mungkin tidak memperluas sempadan teknologi AI secara drastik, pengaruhnya terhadap pasaran AI adalah mendalam. Teknologi seperti Mixture of Experts (MoE), Multi-Layer Attention (MLA), dan Multi-Token Prediction (MTP) telah mendapat keutamaan bersama DeepSeek. Walaupun tidak semua teknologi ini dipelopori oleh DeepSeek, pelaksanaan mereka yang berjaya telah mendorong penggunaan yang meluas. MLA, khususnya, telah menjadi tumpuan perbincangan merentasi pelbagai platform, daripada peranti tepi hingga pengkomputeran awan.
MLA dan Cabaran Inovasi Algoritma
Elad Raz, CEO NextSilicon, baru-baru ini menegaskan bahawa walaupun MLA meningkatkan kecekapan memori, ia juga boleh meningkatkan beban kerja untuk pembangun dan merumitkan penggunaan AI dalam persekitaran pengeluaran. Pengguna GPU mungkin perlu terlibat dalam pengoptimuman ‘kod tangan’ untuk MLA. Contoh ini menggariskan keperluan untuk memikirkan semula pelaksanaan cip AI dan seni bina infrastruktur dalam era pasca-DeepSeek.
Untuk memahami kepentingan MLA, adalah penting untuk memahami konsep asas Model Bahasa Besar (LLM). Apabila menjana respons kepada input pengguna, LLM sangat bergantung pada vektor KV – kunci dan nilai – yang membolehkan model memberi tumpuan pada data yang berkaitan. Dalam mekanisme perhatian, model membandingkan permintaan baharu dengan kunci untuk menentukan kandungan yang paling relevan.
Elad Raz menggunakan analogi sebuah buku, dengan kunci itu seperti ‘tajuk bab buku, menunjukkan tentang apa setiap bahagian, dengan nilai menjadi ringkasan yang lebih terperinci di bawah tajuk tersebut. Jadi apabila pengguna memasukkan permintaan, ia meminta istilah carian untuk membantu menjana jawapan. Ia bertanya, ‘Di bawah jalan cerita ini, bab mana yang paling relevan?’’
MLA memampatkan tajuk bab (kunci) dan ringkasan (nilai) ini, mempercepatkan proses mencari jawapan dan meningkatkan kecekapan. Akhirnya, MLA membantu DeepSeek mengurangkan penggunaan memori sebanyak 5-13%. Maklumat yang lebih terperinci boleh didapati dalam kertas rasmi DeepSeek. Persidangan pembangun MediaTek malah membincangkan sokongan untuk MLA dalam cip mudah alih Dimensity mereka, menggariskan pengaruh luas DeepSeek.
Teknologi seperti MLA mewakili inovasi algoritma tipikal dalam era AI. Walau bagaimanapun, kadar pembangunan teknologi AI yang pesat membawa kepada aliran inovasi yang berterusan, yang seterusnya mewujudkan cabaran baharu, terutamanya apabila inovasi ini disesuaikan dengan platform tertentu. Dalam kes MLA, pengguna GPU bukan NVIDIA memerlukan pengekodan manual tambahan untuk memanfaatkan teknologi tersebut.
Walaupun teknologi DeepSeek menunjukkan inovasi dan nilai era AI, perkakasan dan perisian mesti menyesuaikan diri dengan inovasi ini. Menurut Elad Raz, penyesuaian sedemikian harus meminimumkan kerumitan untuk pembangun dan persekitaran pengeluaran. Jika tidak, kos setiap inovasi menjadi terlalu tinggi.
Persoalannya kemudian menjadi: ‘Apa yang berlaku jika inovasi algoritma seterusnya tidak diterjemahkan dengan baik dan mudah ke seni bina sedia ada?’
Konflik Antara Reka Bentuk Cip dan Inovasi Algoritma
Sejak beberapa tahun kebelakangan ini, pengeluar cip AI secara konsisten melaporkan bahawa mereka bentuk cip AI besar mengambil masa sekurang-kurangnya 1-2 tahun. Ini bermakna reka bentuk cip mesti bermula jauh sebelum keluaran pasaran cip. Memandangkan kemajuan pesat dalam teknologi AI, reka bentuk cip AI mestilah berpandangan ke hadapan. Hanya memfokuskan pada keperluan semasa akan menghasilkan cip AI yang ketinggalan zaman yang tidak boleh menyesuaikan diri dengan inovasi aplikasi terkini.
Inovasi algoritma aplikasi AI kini berlaku setiap minggu. Seperti yang dinyatakan dalam artikel sebelumnya, kuasa pengkomputeran yang diperlukan untuk model AI untuk mencapai keupayaan yang sama menurun sebanyak 4-10 kali setahun. Kos inferens model AI yang mencapai kualiti yang serupa dengan GPT-3 telah menurun sebanyak 1200 kali dalam tempoh tiga tahun yang lalu. Pada masa ini, model dengan 2B parameter boleh mencapai tahap yang sama dengan parameter GPT-3 170B pada masa lalu. Inovasi pesat dalam lapisan atas tindanan teknologi AI ini membentangkan cabaran yang ketara untuk perancangan dan reka bentuk seni bina cip tradisional.
Elad Raz percaya bahawa industri perlu mengiktiraf inovasi seperti DeepSeek MLA sebagai norma untuk teknologi AI. ‘Pengkomputeran generasi akan datang bukan sahaja perlu mengoptimumkan untuk beban kerja hari ini tetapi juga menampung kejayaan masa depan.’ Perspektif ini bukan sahaja terpakai kepada industri cip tetapi kepada keseluruhan infrastruktur peringkat tengah hingga rendah tindanan teknologi AI.
‘DeepSeek dan inovasi lain telah menunjukkan kemajuan pesat inovasi algoritma,’ kata Elad Raz. ‘Penyelidik dan saintis data memerlukan alat yang lebih serba boleh dan berdaya tahan untuk mendorong wawasan dan penemuan baharu. Pasaran memerlukan platform pengkomputeran perkakasan yang ditakrifkan perisian yang membolehkan pelanggan ‘menggugurkan’ penyelesaian pemecut sedia ada, sambil membolehkan pembangun memindahkan kerja mereka tanpa rasa sakit.’
Untuk menangani keadaan ini, industri mesti mereka bentuk infrastruktur pengkomputeran yang lebih pintar, mudah disesuaikan dan fleksibel.
Fleksibiliti dan kecekapan seringkali merupakan matlamat yang bercanggah. CPU sangat fleksibel tetapi mempunyai kecekapan pengkomputeran selari yang jauh lebih rendah daripada GPU. GPU, dengan kebolehprogramannya, mungkin kurang cekap daripada cip ASIC AI khusus.
Elad Raz menyatakan bahawa NVIDIA menjangkakan rak pusat data AI akan mencapai 600kW penggunaan kuasa tidak lama lagi. Untuk konteks, 75% daripada pusat data perusahaan standard mempunyai penggunaan kuasa puncak hanya 15-20kW setiap rak. Terlepas daripada potensi peningkatan kecekapan dalam AI, ini menimbulkan cabaran yang ketara untuk pusat data yang membina sistem infrastruktur pengkomputeran.
Dalam pandangan Elad Raz, GPU dan pemecut AI semasa mungkin tidak mencukupi untuk memenuhi potensi permintaan AI dan Pengkomputeran Berprestasi Tinggi (HPC). ‘Jika kita tidak memikirkan semula secara asas bagaimana kita meningkatkan kecekapan pengkomputeran, industri berisiko mencapai had fizikal dan ekonomi. Dinding ini juga akan mempunyai kesan sampingan, menghadkan akses kepada AI dan HPC untuk lebih banyak organisasi, menghalang inovasi walaupun dengan kemajuan dalam algoritma atau seni bina GPU tradisional.’
Cadangan dan Keperluan untuk Infrastruktur Pengkomputeran Generasi Akan Datang
Berdasarkan pemerhatian ini, Elad Raz mencadangkan ‘empat tonggak’ untuk mentakrifkan infrastruktur pengkomputeran generasi akan datang:
(1) Kebolehan Penggantian Plug-and-Play: ‘Sejarah telah menunjukkan bahawa peralihan seni bina yang kompleks, seperti penghijrahan daripada CPU ke GPU, boleh mengambil masa berdekad lamanya untuk dilaksanakan sepenuhnya. Oleh itu, seni bina pengkomputeran generasi akan datang harus menyokong penghijrahan yang lancar.’ Untuk kebolehan penggantian ‘pasang dan main’, Elad Raz mencadangkan bahawa seni bina pengkomputeran baharu harus belajar daripada ekosistem x86 dan Arm, mencapai penggunaan yang lebih luas melalui keserasian ke belakang.
Reka bentuk moden juga harus mengelakkan daripada memerlukan pembangun untuk menulis semula sejumlah besar kod atau mewujudkan pergantungan pada vendor tertentu. ‘Sebagai contoh, sokongan untuk teknologi baru muncul seperti MLA harus diseragamkan, dan bukannya memerlukan pelarasan manual tambahan seperti yang berlaku dengan GPU bukan NVIDIA. Sistem generasi akan datang harus memahami dan mengoptimumkan beban kerja baharu di luar kotak, tanpa memerlukan pengubahsuaian kod manual atau pelarasan API yang ketara.’
(2) Pengoptimuman Prestasi Masa Nyata yang Boleh Disesuaikan: Elad Raz percaya bahawa industri harus beralih daripada pemecut fungsi tetap. ‘Industri perlu membina asas perkakasan yang ditakrifkan perisian pintar yang boleh mengoptimumkan diri secara dinamik pada masa jalan.’
‘Dengan terus belajar daripada beban kerja, sistem masa depan boleh menyesuaikan diri dalam masa nyata, memaksimumkan penggunaan dan prestasi yang mampan, tanpa mengira beban kerja aplikasi tertentu. Kebolehsuaian dinamik ini bermakna infrastruktur boleh memberikan kecekapan yang konsisten dalam senario dunia sebenar, sama ada ia menjalankan simulasi HPC, model AI yang kompleks atau operasi pangkalan data vektor.’
(3) Kecekapan Boleh Skala: ‘Dengan memisahkan perkakasan dan perisian dan menumpukan pada pengoptimuman masa nyata pintar, sistem masa depan harus mencapai penggunaan yang lebih tinggi dan penggunaan tenaga keseluruhan yang lebih rendah. Ini akan menjadikan infrastruktur lebih kos efektif dan boleh skala untuk memenuhi permintaan beban kerja baharu yang berkembang.’
(4) Reka Bentuk Masa Hadapan: Perkara ini sepadan dengan keperluan berpandangan ke hadapan untuk infrastruktur AI, terutamanya reka bentuk cip. ‘Algoritma canggih hari ini mungkin ketinggalan zaman esok.’ ‘Sama ada rangkaian saraf AI atau model LLM berasaskan Transformer, infrastruktur pengkomputeran generasi akan datang perlu mudah disesuaikan, memastikan pelaburan teknologi perusahaan kekal berdaya tahan untuk tahun-tahun akan datang.’
Cadangan ini menawarkan perspektif yang agak ideal tetapi menggugah fikiran. Metodologi panduan ini harus dipertimbangkan untuk pembangunan masa depan teknologi AI dan HPC, walaupun beberapa percanggahan yang wujud kekal sebagai isu yang sudah lama wujud dalam industri. ‘Untuk melancarkan potensi AI, HPC dan beban kerja intensif data dan pengkomputeran masa hadapan yang lain, kita mesti memikirkan semula infrastruktur dan menerima penyelesaian dinamik dan pintar untuk menyokong inovasi dan perintis.’