Perkembangan AI yang berterusan secara konsisten telah menunjukkan bahawa model yang lebih besar cenderung menjadi lebih bijak, tetapi permintaan operasinya juga meningkat. Ini mewujudkan cabaran yang ketara, terutamanya di rantau yang mempunyai akses terhad kepada cip AI yang canggih. Walau bagaimanapun, tanpa mengira kekangan geografi, terdapat trend yang semakin meningkat di kalangan pembangun model untuk menerima seni bina Mixture of Experts (MoE) digabungkan dengan teknik mampatan yang inovatif. Matlamatnya? Untuk mengurangkan secara drastik sumber pengkomputeran yang diperlukan untuk menggunakan dan menjalankan Model Bahasa Besar (LLM) yang luas ini. Ketika kita menghampiri ulang tahun ketiga ledakan AI generatif yang dicetuskan oleh ChatGPT, industri akhirnya mula mempertimbangkan secara serius implikasi ekonomi untuk memastikan model yang dahagakan kuasa ini terus berjalan.
Walaupun model MoE, seperti yang dari Mistral AI, telah wujud untuk beberapa waktu, kejayaan sebenar mereka telah berlaku pada tahun lepas. Kita telah menyaksikan lonjakan LLM sumber terbuka baharu daripada gergasi teknologi seperti Microsoft, Google, IBM, Meta, DeepSeek dan Alibaba, semuanya memanfaatkan beberapa bentuk seni bina MoE. Tarikannya adalah mudah: seni bina MoE menawarkan alternatif yang jauh lebih cekap kepada seni bina model "padat" tradisional.
Mengatasi Batasan Memori
Asas seni bina MoE bermula pada awal 1990-an, dengan penerbitan "Adaptive Mixtures of Local Experts." Idea terasnya berkisar pada mengagihkan tugas kepada satu atau lebih sub-model khusus atau "pakar," dan bukannya bergantung pada satu model besar yang dilatih pada spektrum data yang luas.
Secara teorinya, setiap pakar boleh dioptimumkan dengan teliti untuk domain tertentu, daripada pengekodan dan matematik hingga penulisan kreatif. Walau bagaimanapun, perlu diingat bahawa kebanyakan pembangun model memberikan butiran terhad tentang pakar khusus dalam model MoE mereka, dan bilangan pakar berbeza dari model ke model. Yang penting, hanya sebahagian kecil daripada keseluruhan model yang terlibat secara aktif pada bila-bila masa.
Pertimbangkan model V3 DeepSeek, yang terdiri daripada 256 pakar yang dihalakan bersama-sama dengan pakar yang dikongsi. Semasa pemprosesan token, hanya lapan pakar yang dihalakan, ditambah yang dikongsi, diaktifkan. Pengaktifan terpilih ini bermakna model MoE mungkin tidak selalu mencapai tahap kualiti yang sama dengan model padat bersaiz sama. Model Qwen3-30B-A3B MoE Alibaba, contohnya, secara konsisten kurang berprestasi berbanding model Qwen3-32B padat dalam ujian penanda aras Alibaba.
Walau bagaimanapun, adalah penting untuk meletakkan penurunan kecil dalam kualiti ini berbanding keuntungan kecekapan yang besar yang ditawarkan oleh seni bina MoE. Pengurangan dalam parameter aktif menghasilkan keperluan lebar jalur memori yang tidak lagi berkadar terus dengan kapasiti yang diperlukan untuk menyimpan berat model. Pada dasarnya, walaupun model MoE mungkin masih memerlukan memori yang besar, mereka tidak semestinya memerlukannya untuk menjadi Memori Lebar Jalur Tinggi (HBM) yang terpantas dan termahal.
Mari kita gambarkan ini dengan perbandingan. Pertimbangkan model "padat" terbesar Meta, Llama 3.1 405B, dan Llama 4 Maverick, model setanding yang menggunakan seni bina MoE dengan 17 bilion parameter aktif. Walaupun banyak faktor, seperti saiz kelompok, prestasi titik terapung dan caching nilai kunci, menyumbang kepada prestasi dunia sebenar, kita boleh menganggarkan keperluan lebar jalur minimum dengan mendarabkan saiz model dalam gigabait pada ketepatan tertentu (1 bait setiap parameter untuk model 8-bit) dengan token sasaran sesaat pada saiz kelompok satu.
Menjalankan versi kuantisasi 8-bit Llama 3.1 405B akan memerlukan lebih daripada 405 GB vRAM dan sekurang-kurangnya 20 TB/s lebar jalur memori untuk menjana teks pada 50 token sesaat. Sistem berasaskan HGX H100 Nvidia, yang sehingga baru-baru ini mendapat harga $300,000 atau lebih, hanya menyediakan 640 GB HBM3 dan kira-kira 26.8 TB/s lebar jalur agregat. Menjalankan model 16-bit penuh akan memerlukan sekurang-kurangnya dua sistem ini.
Sebaliknya, Llama 4 Maverick, sambil menggunakan jumlah memori yang sama, memerlukan kurang daripada 1 TB/s lebar jalur untuk mencapai prestasi yang setanding. Ini kerana hanya 17 bilion parameter pakar model yang terlibat secara aktif dalam menjana output. Ini diterjemahkan kepada peningkatan tertib magnitud dalam kelajuan penjanaan teks pada perkakasan yang sama.
Sebaliknya, jika prestasi semata-mata bukan kebimbangan utama, banyak model ini kini boleh dijalankan pada memori GDDR6, GDDR7 atau bahkan DDR yang lebih murah, walaupun lebih perlahan, seperti yang dilihat dalam Xeon terbaru Intel.
Pelayan RTX Pro baharu Nvidia, yang diumumkan di Computex, disesuaikan dengan senario ini. Daripada bergantung pada HBM yang mahal dan dahagakan kuasa yang memerlukan pembungkusan canggih, setiap lapan GPU RTX Pro 6000 dalam sistem ini dilengkapi dengan 96 GB memori GDDR7, jenis yang sama yang terdapat dalam kad permainan moden.
Sistem ini menyampaikan sehingga 768 GB vRAM dan 12.8 TB/s lebar jalur agregat, lebih daripada mencukupi untuk menjalankan Llama 4 Maverick pada ratusan token sesaat. Walaupun Nvidia belum mendedahkan harga, edisi stesen kerja kad ini dijual pada harga sekitar $8,500, menunjukkan bahawa pelayan ini boleh diletakkan harga kurang daripada separuh kos HGX H100 terpakai.
Walau bagaimanapun, MoE tidak menandakan penghujung GPU bertindan HBM. Jangkakan Llama 4 Behemoth, dengan mengandaikan ia pernah dihantar, memerlukan rak penuh GPU kerana saiznya yang besar.
Walaupun ia mempunyai kira-kira separuh parameter aktif daripada Llama 3.1 405B, ia mempunyai sejumlah 2 trilion parameter. Pada masa ini, tidak ada satu pun pelayan GPU konvensional di pasaran yang boleh menampung model 16-bit penuh dan tetingkap konteks satu juta token atau lebih.
Kebangkitan CPU dalam AI?
Bergantung pada aplikasi tertentu, GPU mungkin tidak selalu diperlukan, terutamanya di rantau yang akses kepada pemecut mewah adalah terhad.
Intel mempamerkan platform Xeon 6 dwi-soket yang dilengkapi dengan 8800 MT/s MCRDIMM pada bulan April. Persediaan ini mencapai daya pemprosesan 240 token sesaat dalam Llama 4 Maverick, dengan kependaman output purata di bawah 100 ms setiap token.
Dalam istilah yang lebih mudah, platform Xeon boleh mengekalkan 10 token sesaat atau lebih setiap pengguna untuk kira-kira 24 pengguna serentak.
Intel tidak mendedahkan angka prestasi pengguna tunggal, kerana ia kurang relevan dalam senario dunia sebenar. Walau bagaimanapun, anggaran mencadangkan prestasi puncak sekitar 100 token sesaat.
Walaupun begitu, melainkan jika tiada alternatif yang lebih baik atau keperluan khusus, ekonomi inferens berasaskan CPU kekal sangat bergantung pada kes penggunaan.
Pengurangan Berat: Pemangkasan dan Pengkuantuman
Seni bina MoE boleh mengurangkan lebar jalur memori yang diperlukan untuk menyajikan model yang besar, tetapi ia tidak mengurangkan jumlah memori yang diperlukan untuk menyimpan beratnya. Walaupun pada ketepatan 8-bit, Llama 4 Maverick memerlukan lebih daripada 400 GB memori untuk dijalankan, tanpa mengira bilangan parameter aktif.
Teknik pemangkasan dan kaedah pengkuantuman baru muncul berpotensi untuk mengurangkan separuh keperluan itu tanpa mengorbankan kualiti.
Nvidia telah menjadi penyokong pemangkasan, mengeluarkan versi Meta’s Llama 3 yang telah dipangkas yang telah membuang berat yang berlebihan.
Nvidia juga merupakan antara syarikat pertama yang menyokong jenis data titik terapung 8-bit pada tahun 2022, dan sekali lagi dengan titik terapung 4-bit dengan pelancaran seni bina Blackwellnya pada tahun 2024. Cip pertama AMD yang menawarkan sokongan FP4 asli dijangka akan dikeluarkan tidak lama lagi.
Walaupun tidak semestinya penting, sokongan perkakasan asli untuk jenis data ini biasanya mengurangkan kemungkinan menghadapi kesesakan pengkomputeran, terutamanya apabila berkhidmat pada skala besar.
Kita telah menyaksikan semakin banyak pembangun model mengguna pakai jenis data ketepatan yang lebih rendah, dengan Meta, Microsoft dan Alibaba menawarkan versi kuantisasi lapan-bit dan juga empat-bit model mereka.
Pengkuantuman melibatkan pemampatan berat model daripada ketepatan asalnya, biasanya BF16, kepada FP8 atau INT4. Ini secara berkesan mengurangkan keperluan lebar jalur dan kapasiti memori model sebanyak separuh atau bahkan tiga perempat, dengan mengorbankan beberapa kualiti.
Kerugian yang berkaitan dengan peralihan daripada 16 bit kepada lapan bit sering kali boleh diabaikan, dan beberapa pembina model, termasuk DeepSeek, telah mula berlatih pada ketepatan FP8 dari awal. Walau bagaimanapun, mengurangkan ketepatan dengan empat bit lagi boleh menyebabkan kemerosotan kualiti yang ketara. Akibatnya, banyak pendekatan pengkuantuman selepas latihan, seperti GGUF, tidak memampatkan semua berat sama rata, meninggalkan sesetengah pada tahap ketepatan yang lebih tinggi untuk meminimumkan kehilangan kualiti.
Google baru-baru ini menunjukkan penggunaan latihan sedar pengkuantuman (QAT) untuk mengurangkan model Gemma 3 sebanyak faktor 4x sambil mengekalkan tahap kualiti yang hampir dengan BF16 asli.
QAT mensimulasikan operasi ketepatan rendah semasa latihan. Dengan menggunakan teknik ini selama kira-kira 5,000 langkah pada model yang tidak berkelayakan, Google dapat mengurangkan penurunan dalam kekusutan, metrik untuk mengukur kerugian berkaitan pengkuantuman, sebanyak 54 peratus apabila ditukar kepada INT4.
Pendekatan berasaskan QAT yang lain untuk pengkuantuman, yang dikenali sebagai Bitnet, bertujuan untuk tahap ketepatan yang lebih rendah, memampatkan model kepada hanya 1.58 bit, atau kira-kira sepersepuluh daripada saiz asalnya.
Sinergi Teknologi
Gabungan MoE dan pengkuantuman 4-bit menawarkan kelebihan yang ketara, terutamanya apabila lebar jalur adalah terhad.
Bagi yang lain yang tidak terhad lebar jalur, bagaimanapun, sama ada daripada dua teknologi, sama ada MoE, atau pengkuantuman, boleh menurunkan banyak kos peralatan dan operasi untuk menjalankan model yang lebih besar dan lebih berkuasa; ini adalah dengan mengandaikan bahawa perkhidmatan berharga boleh didapati untuk mereka lakukan.
Dan jika tidak, anda sekurang-kurangnya boleh berasa selesa bahawa anda tidak bersendirian–tinjauan IBM baru-baru ini mendedahkan bahawa hanya satu daripada empat penggunaan AI telah memberikan pulangan pelaburan yang dijanjikan.