Perkembangan pesat AI secara konsisten menunjukkan bahwa model yang lebih besar cenderung lebih pintar, tetapi tuntutan operasionalnya juga meningkat. Ini menciptakan tantangan yang signifikan, terutama di wilayah dengan akses terbatas ke chip AI canggih. Namun, terlepas dari kendala geografis, ada tren yang berkembang di antara pengembang model untuk merangkul arsitektur Mixture of Experts (MoE) yang dipadukan dengan teknik kompresi inovatif. Tujuannya? Untuk secara drastis mengurangi sumber daya komputasi yang dibutuhkan untuk menyebarkan dan menjalankan Large Language Models (LLM) yang luas ini. Saat kita mendekati ulang tahun ketiga dari ledakan AI generatif yang dipicu oleh ChatGPT, industri akhirnya mulai serius mempertimbangkan implikasi ekonomi dari menjaga model-model yang haus daya ini tetap berjalan.
Meskipun model MoE, seperti yang dari Mistral AI, telah ada selama beberapa waktu, terobosan nyata mereka telah terjadi dalam setahun terakhir. Kita telah menyaksikan lonjakan LLM open-source baru dari raksasa teknologi seperti Microsoft, Google, IBM, Meta, DeepSeek, dan Alibaba, semuanya memanfaatkan beberapa bentuk arsitektur MoE. Daya tariknya sangat sederhana: Arsitektur MoE menawarkan alternatif yang jauh lebih efisien untuk arsitektur model “padat” tradisional.
Mengatasi Keterbatasan Memori
Dasar dari arsitektur MoE berasal dari awal 1990-an, dengan publikasi “Adaptive Mixtures of Local Experts.” Ide intinya berkisar pada pendistribusian tugas ke satu atau lebih sub-model khusus atau “ahli,” daripada mengandalkan satu model besar yang dilatih pada spektrum data yang luas.
Secara teori, setiap ahli dapat dioptimalkan dengan cermat untuk domain tertentu, mulai dari pengkodean dan matematika hingga penulisan kreatif. Namun, perlu dicatat bahwa sebagian besar pengembang model memberikan detail terbatas tentang ahli spesifik di dalam model MoE mereka, dan jumlah ahli bervariasi dari model ke model. Yang terpenting, hanya sebagian kecil dari keseluruhan model yang aktif terlibat pada waktu tertentu.
Pertimbangkan model V3 DeepSeek, yang terdiri dari 256 ahli yang dialihkan bersama dengan ahli bersama. Selama pemrosesan token, hanya delapan ahli yang dialihkan, ditambah yang bersama, yang diaktifkan. Aktivasi selektif ini berarti bahwa model MoE mungkin tidak selalu mencapai tingkat kualitas yang sama dengan model padat berukuran serupa. Model Qwen3-30B-A3B MoE Alibaba, misalnya, secara konsisten berkinerja lebih rendah daripada model Qwen3-32B padat dalam uji tolok ukur Alibaba.
Namun, penting untuk mengontekskan sedikit penurunan kualitas ini terhadap perolehan efisiensi substansial yang ditawarkan oleh arsitektur MoE. Pengurangan parameter aktif menghasilkan persyaratan bandwidth memori yang tidak lagi berbanding lurus dengan kapasitas yang dibutuhkan untuk menyimpan bobot model. Intinya, meskipun model MoE mungkin masih membutuhkan memori yang besar, mereka tidak harus menjadi High Bandwidth Memory (HBM) yang tercepat dan termahal.
Mari kita ilustrasikan ini dengan perbandingan. Pertimbangkan model “padat” terbesar Meta, Llama 3.1 405B, dan Llama 4 Maverick, model sebanding yang menggunakan arsitektur MoE dengan 17 miliar parameter aktif. Sementara banyak faktor, seperti ukuran batch, kinerja floating-point, dan caching key-value, berkontribusi pada kinerja dunia nyata, kita dapat memperkirakan persyaratan bandwidth minimum dengan mengalikan ukuran model dalam gigabyte pada presisi tertentu (1 byte per parameter untuk model 8-bit) dengan target token per detik pada ukuran batch satu.
Menjalankan versi terkuantisasi 8-bit dari Llama 3.1 405B akan membutuhkan lebih dari 405 GB vRAM dan setidaknya 20 TB/s bandwidth memori untuk menghasilkan teks pada 50 token per detik. Sistem berbasis HGX H100 Nvidia, yang hingga saat ini dihargai $300.000 atau lebih, hanya menyediakan 640 GB HBM3 dan sekitar 26,8 TB/s bandwidth agregat. Menjalankan model 16-bit penuh akan membutuhkan setidaknya dua dari sistem ini.
Sebaliknya, Llama 4 Maverick, sambil mengonsumsi jumlah memori yang sama, membutuhkan kurang dari 1 TB/s bandwidth untuk mencapai kinerja yang sebanding. Ini karena hanya 17 miliar parameter ahli model yang terlibat aktif dalam menghasilkan output. Ini berarti peningkatan urutan besarnya dalam kecepatan pembuatan teks pada perangkat keras yang sama.
Sebaliknya, jika kinerja murni bukan menjadi perhatian utama, banyak dari model ini sekarang dapat dijalankan pada memori GDDR6, GDDR7, atau bahkan DDR yang lebih murah, meskipun lebih lambat, seperti yang terlihat pada Xeon terbaru Intel.
RTX Pro Servers baru Nvidia, yang diumumkan di Computex, dirancang untuk skenario ini. Alih-alih mengandalkan HBM yang mahal dan haus daya yang membutuhkan pengemasan canggih, masing-masing dari delapan GPU RTX Pro 6000 dalam sistem ini dilengkapi dengan 96 GB memori GDDR7, jenis yang sama yang ditemukan di kartu gaming modern.
Sistem ini memberikan hingga 768 GB vRAM dan 12,8 TB/s bandwidth agregat, lebih dari cukup untuk menjalankan Llama 4 Maverick pada ratusan token per detik. Sementara Nvidia belum mengungkapkan harga, edisi workstation dari kartu ini dijual sekitar $8.500, menunjukkan bahwa server ini dapat dihargai kurang dari setengah biaya HGX H100 bekas.
Namun, MoE tidak menandakan akhir dari GPU bertumpuk HBM. Harapkan Llama 4 Behemoth, dengan asumsi itu pernah dikirimkan, akan membutuhkan rak penuh GPU karena ukurannya yang sangat besar.
Meskipun ia memiliki sekitar setengah parameter aktif seperti Llama 3.1 405B, ia memiliki total 2 triliun parameter. Saat ini, tidak ada satu pun server GPU konvensional di pasar yang dapat mengakomodasi model 16-bit penuh dan jendela konteks satu juta token atau lebih.
Kebangkitan CPU di AI?
Tergantung pada aplikasi spesifik, GPU mungkin tidak selalu diperlukan, terutama di wilayah di mana akses ke akselerator kelas atas dibatasi.
Intel memamerkan platform Xeon 6 dual-socket yang dilengkapi dengan 8800 MT/s MCRDIMMs pada bulan April. Pengaturan ini mencapai throughput 240 token per detik di Llama 4 Maverick, dengan latensi output rata-rata di bawah 100 ms per token.
Sederhananya, platform Xeon dapat mempertahankan 10 token per detik atau lebih per pengguna untuk sekitar 24 pengguna bersamaan.
Intel tidak mengungkapkan angka kinerja pengguna tunggal, karena kurang relevan dalam skenario dunia nyata. Namun, perkiraan menunjukkan kinerja puncak sekitar 100 token per detik.
Meskipun demikian, kecuali jika tidak ada alternatif yang lebih baik atau persyaratan khusus, ekonomi inferensi berbasis CPU tetap sangat bergantung pada kasus penggunaan.
Pengurangan Bobot: Pruning dan Kuantisasi
Arsitektur MoE dapat mengurangi bandwidth memori yang diperlukan untuk melayani model besar, tetapi mereka tidak mengurangi jumlah memori yang dibutuhkan untuk menyimpan bobot mereka. Bahkan pada presisi 8-bit, Llama 4 Maverick membutuhkan lebih dari 400 GB memori untuk dijalankan, terlepas dari jumlah parameter aktif.
Teknik pruning yang muncul dan metode kuantisasi berpotensi membagi dua persyaratan itu tanpa mengorbankan kualitas.
Nvidia telah menjadi pendukung pruning, merilis versi yang dipangkas dari model Llama 3 Meta yang telah menghilangkan bobot redundan.
Nvidia juga merupakan salah satu perusahaan pertama yang mendukung tipe data floating-point 8-bit pada tahun 2022, dan lagi dengan floating point 4-bit dengan peluncuran arsitektur Blackwell-nya pada tahun 2024. Chip pertama AMD yang menawarkan dukungan FP4 asli diperkirakan akan dirilis segera.
Meskipun tidak benar-benar penting, dukungan perangkat keras asli untuk tipe data ini umumnya mengurangi kemungkinan menjumpai hambatan komputasi, terutama saat melayani skala.
Kita telah menyaksikan semakin banyak pengembang model mengadopsi tipe data presisi rendah, dengan Meta, Microsoft, dan Alibaba menawarkan versi terkuantisasi delapan-bit dan bahkan empat-bit dari model mereka.
Kuantisasi melibatkan kompresi bobot model dari presisi asli mereka, biasanya BF16, ke FP8 atau INT4. Ini secara efektif mengurangi bandwidth memori dan persyaratan kapasitas model dengan setengah atau bahkan tiga perempat, dengan mengorbankan beberapa kualitas.
Kerugian yang terkait dengan transisi dari 16 bit ke delapan bit seringkali dapat diabaikan, dan beberapa pembuat model, termasuk DeepSeek, telah mulai melatih pada presisi FP8 sejak awal. Namun, mengurangi presisi empat bit lagi dapat menghasilkan degradasi kualitas yang signifikan. Akibatnya, banyak pendekatan kuantisasi pasca-pelatihan, seperti GGUF, tidak mengompresi semua bobot secara merata, meninggalkan beberapa pada tingkat presisi yang lebih tinggi untuk meminimalkan hilangnya kualitas.
Google baru-baru ini mendemonstrasikan penggunaan pelatihan sadar kuantisasi (QAT) untuk mengurangi model Gemma 3-nya dengan faktor 4x sambil mempertahankan tingkat kualitas yang mendekati BF16 asli.
QAT mensimulasikan operasi presisi rendah selama pelatihan. Dengan menerapkan teknik ini selama sekitar 5.000 langkah pada model non-kualifikasi, Google mampu mengurangi penurunan kompleksitas, metrik untuk mengukur kerugian terkait kuantisasi, sebesar 54 persen ketika dikonversi ke INT4.
Pendekatan berbasis QAT lain untuk kuantisasi, yang dikenal sebagai Bitnet, bertujuan untuk tingkat presisi yang lebih rendah, mengompresi model hanya menjadi 1,58 bit, atau sekitar sepersepuluh dari ukuran aslinya.
Sinergi Teknologi
Kombinasi MoE dan kuantisasi 4-bit menawarkan keuntungan signifikan, terutama ketika bandwidth terbatas.
Untuk yang lain yang tidak dibatasi bandwidth, bagaimanapun, salah satu dari dua teknologi, baik MoE, atau kuantisasi, secara substansial dapat menurunkan biaya peralatan dan pengoperasian untuk menjalankan model yang lebih besar dan lebih kuat; ini dengan asumsi bahwa layanan berharga dapat ditemukan untuk mereka lakukan.
Dan jika tidak, Anda setidaknya dapat merasa terhibur bahwa Anda tidak sendirian–survei IBM baru-baru ini menemukan bahwa hanya satu dari empat penerapan AI yang memberikan laba atas investasi yang dijanjikan.