Tantangan Komputasi AI Modern
Large language models (LLMs) berdiri sebagai pilar kecerdasan buatan kontemporer, menunjukkan kemampuan luar biasa yang membentuk kembali industri dan penemuan ilmiah. Kemahiran mereka dalam menghasilkan teks mirip manusia, memberdayakan agen percakapan canggih, dan bahkan membantu tugas penelitian kompleks telah menjadikan mereka alat yang sangat diperlukan. Di jantung model-model kuat ini berdetak arsitektur transformer, sebuah desain yang ditandai oleh lapisan-lapisan bergantiannya. Data input, dipecah menjadi token, mengalir melalui urutan mekanisme attention, yang menimbang pentingnya token yang berbeda, diikuti oleh feed-forward networks (FFNs), yang memproses informasi yang diperoleh. Pemrosesan berlapis dan sekuensial ini fundamental bagi cara transformer belajar dan menghasilkan output.
Namun, arsitektur ini, meskipun efektif, menghadirkan tantangan yang berkembang seiring dengan membengkaknya ukuran dan kompleksitas model. Sifat sekuensial berarti setiap lapisan umumnya harus menunggu lapisan sebelumnya menyelesaikan komputasinya sebelum dapat dimulai. Pemrosesan langkah demi langkah ini menciptakan hambatan inheren, terutama selama fase inferensi – tahap di mana model yang terlatih benar-benar digunakan untuk menghasilkan prediksi atau teks. Seiring model seperti yang memberdayakan asisten AI canggih menggabungkan ratusan miliar, atau bahkan triliunan, parameter, sumber daya komputasi dan waktu yang diperlukan untuk inferensi meningkat secara dramatis. Permintaan yang meningkat ini diterjemahkan menjadi latensi (penundaan respons) yang signifikan, throughput (jumlah permintaan yang ditangani dari waktu ke waktu) yang berkurang, dan biaya operasional yang meningkat, menghambat penyebaran luas dan aplikasi real-time dari LLM yang paling kuat. Akibatnya, meningkatkan efisiensi inferensi telah menjadi perhatian utama dalam komunitas riset AI, memacu pencarian strategi inovatif yang dapat merampingkan komputasi tanpa mengorbankan kinerja luar biasa yang ditawarkan model-model ini. Tantangan utamanya terletak pada mitigasi kendala yang diberlakukan oleh eksekusi sekuensial, terutama di lingkungan terdistribusi di mana komputasi mencakup beberapa GPU, menambahkan overhead komunikasi ke waktu pemrosesan.
Menjelajahi Lanskap Optimasi: Alat yang Ada dan Batasannya
Dalam upaya berkelanjutan untuk membuat LLM lebih ramping dan lebih cepat, para peneliti telah mengembangkan seperangkat teknik optimasi. Masing-masing menawarkan jalur menuju efisiensi, tetapi seringkali datang dengan serangkaian kompromi tersendiri, mencegah metode tunggal mana pun menjadi solusi universal. Memahami trade-off ini sangat penting untuk menghargai kebutuhan akan pendekatan baru seperti FFN Fusion.
Salah satu teknik terkemuka adalah quantization. Ini melibatkan pengurangan presisi numerik yang digunakan untuk mewakili bobot dan aktivasi model. Alih-alih menggunakan angka floating-point 32-bit standar, model mungkin menggunakan representasi 16-bit, 8-bit, atau bahkan bit yang lebih rendah. Ini secara langsung menyusutkan jejak memori model dan dapat secara signifikan mempercepat perhitungan, karena operasi pada angka presisi rendah biasanya lebih cepat dan membutuhkan lebih sedikit energi. Namun, quantization bukannya tanpa risiko. Mengurangi presisi dapat menyebabkan hilangnya informasi, berpotensi menurunkan akurasi model. Risiko ini menjadi lebih nyata pada bit-width yang sangat rendah, membutuhkan implementasi yang cermat dan terkadang pelatihan ulang untuk mengurangi penurunan akurasi. Tantangannya terletak pada menemukan titik optimal yang memaksimalkan keuntungan efisiensi sambil menjaga degradasi kinerja dalam batas yang dapat diterima.
Strategi umum lainnya adalah pruning. Teknik ini beroperasi pada prinsip bahwa banyak parameter dalam jaringan saraf besar mungkin redundan atau berkontribusi minimal pada output akhir. Algoritma pruning mengidentifikasi dan menghapus koneksi atau neuron yang kurang penting ini, menghasilkan model yang lebih kecil dan lebih jarang. Seperti quantization, pruning mengurangi kebutuhan memori dan beban komputasi. Namun, mengidentifikasi secara tepat parameter mana yang “aman” untuk dihapus adalah kompleks. Pruning yang agresif dapat secara tidak sengaja menghapus komponen penting, yang menyebabkan hilangnya akurasi secara substansial. Fine-tuning model setelah pruning seringkali diperlukan untuk memulihkan kinerja, menambah kompleksitas pada alur kerja. Kalibrasi yang cermat sangat penting untuk memastikan bahwa model yang dipangkas tetap efektif.
Pendekatan yang lebih berbeda secara arsitektural adalah model Mixture-of-Experts (MoE). Alih-alih memproses setiap input melalui seluruh jaringan, model MoE terdiri dari beberapa sub-jaringan “ahli” (biasanya FFN). Untuk setiap token input, mekanisme gating secara dinamis memilih subset kecil dari para ahli ini untuk melakukan komputasi. Komputasi kondisional ini berarti bahwa hanya sebagian kecil dari total parameter model yang diaktifkan untuk input tertentu, yang mengarah pada penghematan komputasi yang signifikan, terutama selama pelatihan dan inferensi pada model yang sangat besar. Model MoE dapat diskalakan hingga triliunan parameter sambil mempertahankan biaya komputasi yang wajar. Namun, efisiensinya sangat bergantung pada beban kerja. Mereka unggul dalam menangani ukuran batch yang sangat besar di mana pola aktivasi selektif mengarah pada pemanfaatan perangkat keras yang baik. Pada ukuran batch yang lebih kecil atau menengah, model MoE dapat menderita karena kurangnya pemanfaatan sumber daya komputasi, karena perangkat keras paralel mungkin tidak terus-menerus sibuk oleh para ahli yang diaktifkan secara jarang. Selain itu, mengimplementasikan dan menyeimbangkan beban model MoE bisa lebih kompleks daripada menerapkan arsitektur “padat” standar.
Meskipun quantization, pruning, dan model MoE mewakili kemajuan berharga dalam optimasi LLM, keterbatasan inheren mereka menyoroti perlunya strategi alternatif atau komplementer. Pencarian terus berlanjut untuk metode yang dapat memberikan peningkatan efisiensi yang luas di berbagai skenario, idealnya dengan lebih sedikit kompromi terhadap akurasi atau kompleksitas implementasi, terutama untuk arsitektur model padat yang tetap populer karena kesederhanaan relatifnya dalam pelatihan dan penyebaran.
FFN Fusion: Memikirkan Ulang Paralelisme dalam Transformer
Di tengah lanskap teknik optimasi ini, para peneliti di NVIDIA telah memperkenalkan pendekatan baru yang menarik yang disebut FFN Fusion. Teknik ini secara langsung menghadapi hambatan sekuensial yang melekat dalam arsitektur transformer, bukan dengan mengubah parameter atau mengaktifkan bagian secara selektif, tetapi dengan secara fundamental memikirkan kembali bagaimana urutan komputasi dapat diparalelkan. Inovasi ini berasal dari pengamatan penting tentang perilaku lapisan FFN dalam model transformer yang dalam.
Menggunakan alat diagnostik bernama Puzzle, para peneliti menganalisis cara kerja internal model besar. Ketika mereka secara eksperimental menghapus lapisan attention, mereka memperhatikan bahwa model seringkali mempertahankan urutan lapisan FFN berturut-turut yang secara mengejutkan panjang. Lebih penting lagi, analisis mengungkapkan bahwa komputasi yang dilakukan oleh FFN yang berdekatan ini sering menunjukkan saling ketergantungan yang minimal. Intinya, output dari satu FFN dalam urutan seringkali tidak secara drastis mengubah jalur arah atau informasi inti yang dibutuhkan oleh FFN yang segera mengikutinya. Ini menunjukkan bahwa FFN ini, yang secara tradisional dieksekusi satu demi satu, mungkin memiliki potensi untuk eksekusi simultan dan paralel tanpa secara signifikan mengganggu fungsi keseluruhan model.
Wawasan ini membentuk dasar dari FFN Fusion. Ide intinya sederhana namun kuat: identifikasi urutan lapisan FFN berturut-turut dengan ketergantungan komputasi yang rendah dan gabungkan mereka menjadi satu lapisan FFN tunggal yang lebih lebar yang melakukan komputasi setara secara paralel. Alih-alih rantai seperti Input -> FFN1 -> FFN2 -> FFN3 -> Output
, struktur yang digabungkan menjadi Input -> Fused_FFN (Setara dengan FFN1+FFN2+FFN3 secara paralel) -> Output
. Transformasi arsitektural ini secara efektif memperpendek kedalaman sekuensial jaringan, menggantikan beberapa langkah dengan satu langkah komputasi yang lebih luas. Dengan menargetkan urutan FFN dengan ketergantungan rendah ini, FFN Fusion bertujuan untuk mengurangi latensi dan biaya komputasi sambil mempertahankan kekuatan representasi dan akurasi model. Pengembangan Ultra-253B-Base dari Llama-3.1-405B-Instruct berfungsi sebagai demonstrasi utama potensi teknik ini.
Alkimia Arsitektural: Cara Kerja FFN Fusion
Keajaiban di balik FFN Fusion terletak pada manipulasi cerdasnya terhadap struktur matematika yang mendasari jaringan feed-forward. Ini bukan hanya tentang menjalankan lapisan yang ada secara berdampingan; ini melibatkan pembuatan lapisan baru yang terpadu yang mereplikasi perilaku kolektif dari urutan asli tetapi melakukannya secara bersamaan.
Pertimbangkan urutan k lapisan FFN berturut-turut. Dalam transformer standar, input x
melewati FFN1
, outputnya menjadi input untuk FFN2
, dan seterusnya, hingga FFNk
. Setiap langkah secara eksplisit bergantung pada penyelesaian langkah sebelumnya. FFN Fusion memutus rantai ketergantungan ini. Secara matematis, FFN biasanya melibatkan dua transformasi linier dengan fungsi aktivasi non-linier (seperti GeLU atau SwiGLU) di antaranya: FFN(x) = W_out * Activation(W_in * x)
. FFN Fusion memanfaatkan fakta bahwa transformasi linier seringkali dapat digabungkan.
Proses fusi bekerja dengan menggabungkan bobot (concatenating the weights) dari lapisan FFN individual. Secara khusus, matriks bobot input (W_in
) dari FFN berturut-turut digabungkan (misalnya, secara blok-diagonal) menjadi satu matriks bobot input tunggal yang lebih besar untuk lapisan yang digabungkan. Demikian pula, matriks bobot output (W_out
) digabungkan untuk membentuk satu matriks bobot output tunggal yang lebih lebar. Fungsi aktivasi diterapkan secara elemen-wise dalam struktur yang lebih besar ini. Konstruksi ini memastikan bahwa FFN yang digabungkan beroperasi pada input asli x
secara bersamaan di seluruh jalur paralel yang sesuai dengan FFN asli. Output dari jalur paralel ini kemudian secara implisit diagregasi oleh struktur bobot output yang digabungkan.
Dasar teoritis mengkonfirmasi bahwa struktur yang digabungkan ini dapat mempertahankan kapasitas representasi yang sama dengan urutan FFN asli, asalkan ketergantungan antara lapisan asli memang rendah. Kuncinya adalah mengidentifikasi urutan mana yang cocok untuk fusi. Untuk melakukan ini secara sistematis, para peneliti NVIDIA menggunakan teknik analisis ketergantungan (dependency analysis). Mereka mengukur jarak kosinus (cosine distance) antara status tersembunyi output dari lapisan FFN berturut-turut untuk sekumpulan token input yang representatif. Jarak kosinus yang kecil menunjukkan bahwa vektor output dari satu FFN menunjuk ke arah yang sangat mirip dengan vektor output dari FFN berikutnya dalam urutan. Kesamaan ini menunjukkan ketergantungan fungsional yang rendah – FFN kedua tidak secara drastis mengubah representasi informasi yang dibuat oleh yang pertama. Urutan FFN yang menunjukkan jarak kosinus rendah secara konsisten di seluruh lapisan diidentifikasi sebagai kandidat utama untuk fusi, karena penggabungannya cenderung tidak mengganggu representasi yang dipelajari model dan kinerja keseluruhan. Pendekatan berbasis data ini memungkinkan penerapan FFN Fusion yang ditargetkan ke bagian-bagian model di mana ia akan paling efektif dan paling tidak mengganggu.
Dari Raksasa ke Pelari Cepat: Transformasi Ultra-253B-Base
Kekuatan praktis FFN Fusion didemonstrasikan secara jelas melalui penerapannya pada salah satu model terbesar yang diketahui publik pada saat itu, Llama-3.1-405B-Instruct. Model ini, dengan 405 miliar parameter, mewakili upaya komputasi yang signifikan untuk inferensi. Para peneliti memulai proses penyempurnaan arsitektural, menggabungkan FFN Fusion dengan pruning strategis, untuk menciptakan model baru yang lebih efisien yang dijuluki Ultra-253B-Base.
Proses transformasi melibatkan beberapa langkah:
- Analisis: Menggunakan alat analisis ketergantungan mereka (mengukur jarak kosinus), para peneliti mengidentifikasi urutan lapisan FFN berturut-turut dalam arsitektur Llama-405B yang menunjukkan ketergantungan antar-lapisan yang rendah.
- Fusi: Urutan FFN yang teridentifikasi ini kemudian digabungkan menjadi lapisan FFN tunggal yang lebih lebar seperti yang dijelaskan sebelumnya (menggabungkan bobot). Ini secara langsung mengurangi jumlah langkah sekuensial dalam jaringan.
- Pruning: Secara bersamaan atau setelahnya, parameter yang dianggap kurang kritis (berpotensi diidentifikasi melalui teknik pruning standar atau diinformasikan oleh proses fusi) dihapus dari model.
Pendekatan gabungan ini menghasilkan Ultra-253B-Base, sebuah model dengan 253 miliar parameter. Ini merupakan pengurangan substansial – lebih dari 37% lebih sedikit parameter daripada model 405B asli. Perubahan arsitektural yang dicapai melalui fusi adalah kunci untuk memungkinkan pengurangan ukuran yang signifikan sambil bertujuan untuk mempertahankan kinerja. Tujuannya bukan hanya model yang lebih kecil, tetapi model yang secara fundamental lebih cepat dan lebih hemat komputasi, berkat peningkatan paralelisme yang dibuka oleh FFN Fusion. Studi kasus ini berfungsi sebagai bukti konsep penting, menunjukkan bahwa model skala besar dapat direstrukturisasi secara substansial untuk efisiensi.
Mengukur Keuntungan: Kinerja, Kecepatan, dan Penghematan Sumber Daya
Ujian sebenarnya dari setiap teknik optimasi terletak pada dampak terukurnya. Untuk Ultra-253B-Base, hasil yang diperoleh dari penerapan FFN Fusion dan pruning pada basis Llama-405B sangat meyakinkan, menunjukkan peningkatan signifikan di berbagai dimensi tanpa kompromi substansial dalam kemampuan.
Kecepatan dan Biaya Inferensi: Keuntungan paling mencolok diamati dalam efisiensi inferensi. Dibandingkan dengan model parameter 405B asli, Ultra-253B-Base mencapai:
- Peningkatan 1.71x dalam latensi inferensi. Ini berarti model dapat menghasilkan respons secara signifikan lebih cepat, penting untuk aplikasi real-time.
- Pengurangan 35x dalam biaya komputasi per-token ketika diukur pada ukuran batch 32. Penurunan dramatis dalam operasi komputasi (FLOPs) per token ini secara langsung diterjemahkan menjadi konsumsi energi yang lebih rendah dan persyaratan perangkat keras yang berkurang untuk melayani model.
Benchmark Kinerja Model: Secara kritis, peningkatan efisiensi ini tidak mengorbankan kecerdasan atau kemampuan model. Ultra-253B-Base dievaluasi secara ketat pada serangkaian benchmark LLM standar, mencapai skor yang sangat kompetitif dengan, dan dalam beberapa kasus melebihi, model asli yang jauh lebih besar:
- MMLU (Massive Multitask Language Understanding): 85.17%
- MMLU-Pro (Versi yang lebih menantang): 72.25%
- Arena Hard (Evaluasi preferensi manusia pada prompt sulit): 84.92%
- HumanEval (Kemampuan generasi kode): 86.58%
- MT-Bench (Kualitas percakapan multi-giliran): 9.19
Skor ini menunjukkan bahwa model yang digabungkan dan dipangkas mempertahankan tingkat pemahaman, penalaran, kemampuan pengkodean, dan kualitas percakapan yang sangat tinggi, sebanding dengan leluhurnya yang berparameter 405B meskipun hanya memiliki 253 miliar parameter.
Efisiensi Memori: Selain kecepatan dan biaya komputasi, FFN Fusion juga berkontribusi pada penghematan memori. Perubahan arsitektural, berpotensi dikombinasikan dengan optimasi lain yang dimungkinkan oleh fusi, menyebabkan pengurangan 2x dalam ukuran key-value (KV) cache yang diperlukan selama inferensi. KV cache menyimpan aktivasi perantara (kunci dan nilai attention) dan dapat mengonsumsi memori GPU yang substansial, terutama untuk urutan input yang panjang. Mengurangi separuh persyaratan ini memungkinkan untuk menjalankan model pada perangkat keras yang kurang intensif memori atau untuk memproses konteks yang lebih panjang dalam batasan memori yang sama.
Hasil terukur ini menggarisbawahi efektivitas FFN Fusion. Ini memungkinkan penciptaan model yang tidak hanya lebih kecil tetapi secara fundamental lebih efisien dalam hal kecepatan, operasi komputasi, dan penggunaan memori, sambil mempertahankan kinerja tingkat atas pada benchmark yang menantang.
Mempertahankan Pengetahuan: Peran Krusial Pelatihan dan Fine-Tuning
Memodifikasi secara arsitektural model bahasa besar yang sudah terlatih seperti Llama-405B melalui teknik seperti FFN Fusion dan pruning pasti mengganggu keseimbangan halus dari parameter yang dipelajarinya. Meskipun kesetaraan matematis bertujuan untuk mempertahankan fungsi secara lokal, perilaku global jaringan dapat bergeser. Untuk memastikan bahwa model Ultra-253B-Base yang dihasilkan tidak hanya menjadi lebih efisien tetapi juga mempertahankan tingkat kinerjanya yang tinggi, proses pelatihan pasca-modifikasi yang diatur dengan cermat sangat penting.
Proses ini melibatkan dua fase utama:
Distilasi Pengetahuan (Knowledge Distillation): Langkah pertama adalah mentransfer pengetahuan dari model asli yang lebih besar (atau model guru yang sesuai) kembali ke arsitektur yang dimodifikasi. Ini dicapai melalui distilasi, di mana model Ultra-253B-Base dilatih untuk meniru output atau representasi internal dari model guru. Fase ini menggunakan dataset yang substansial, khususnya 54 miliar token, diproses dengan jendela konteks 8k. Distilasi membantu model yang digabungkan dan dipangkas menangkap kembali nuansa dan kemampuan yang mungkin sedikit terganggu selama perubahan arsitektural.
Fine-Tuning Bertahap (Staged Fine-Tuning): Setelah distilasi, model menjalani serangkaian tahap fine-tuning yang dirancang khusus untuk mengadaptasinya dalam menangani panjang konteks yang semakin panjang. Ini sangat penting untuk LLM modern, yang sering diharapkan untuk memproses dan menghasilkan teks berdasarkan input yang luas. Fine-tuning dilanjutkan secara bertahap:
- Fine-tuning pada jendela konteks 16k.
- Fine-tuning lebih lanjut pada jendela konteks 32k.
- Tahap fine-tuning akhir pada jendela konteks 128k.
Pendekatan bertahap ini memungkinkan model untuk secara bertahap mengadaptasi parameternya, termasuk lapisan FFN yang baru terbentuk dan mekanisme KV cache yang dioptimalkan, untuk secara efektif mengelola ketergantungan dan aliran informasi melalui urutan yang sangat panjang. Setiap tahap dibangun di atas tahap sebelumnya, memastikan stabilitas dan kinerja yang kuat di berbagai ukuran konteks.
Rejimen pelatihan yang cermat ini, menggabungkan distilasi skala besar dengan fine-tuning konteks panjang bertahap, sangat berperan dalam menjembatani kesenjangan antara efisiensi arsitektural dan kinerja fidelitas tinggi. Ini memastikan bahwa manfaat kecepatan, biaya, dan memori yang diberikan oleh FFN Fusion tidak mengorbankan akurasi dan kemampuan model pada benchmark yang menuntut.
Cakrawala Lebih Luas: Generalisasi dan Arah Masa Depan
Transformasi sukses Llama-405B menjadi Ultra-253B-Base memberikan bukti kuat untuk potensi FFN Fusion, tetapi nilai sebenarnya terletak pada penerapan yang lebih luas dan wawasan yang ditawarkannya untuk desain LLM di masa depan. Penelitian ini menunjukkan bahwa ini bukan hanya trik satu kali yang hanya berlaku untuk model raksasa.
Validasi Lintas Skala: Para peneliti NVIDIA secara eksplisit menguji metodologi FFN Fusion pada model dengan berbagai ukuran. Mereka berhasil menerapkan teknik ini pada model berparameter 70B, mencapai keuntungan efisiensi serupa relatif terhadap rekan asli mereka. Mereka juga melaporkan validasi pada skala 49B, lebih lanjut memperkuat gagasan bahwa independensi FFN dan potensi fusi bukanlah karakteristik eksklusif dari model terbesar tetapi mungkin merupakan properti yang lebih umum dari arsitektur transformer, berpotensi menjadi lebih menonjol pada skala yang lebih besar di mana urutan FFN yang lebih dalam secara alami terjadi. Ini menunjukkan FFN Fusion dapat menjadi alat standar dalam gudang optimasi LLM, berlaku di berbagai ukuran model.
Fusi FFN vs. Fusi Blok Penuh: Penelitian ini juga menjelaskan peran spesifik lapisan FFN dibandingkan dengan lapisan attention dalam blok transformer. Sementara lapisan FFN berturut-turut sering menunjukkan ketergantungan rendah, menjadikannya ideal untuk fusi, upaya untuk memparalelkan seluruh blok transformer (termasuk lapisan attention dan FFN) terbukti lebih menantang. Analisis menunjukkan saling ketergantungan yang lebih kuat yang melibatkan mekanisme attention. Menggabungkan seluruh blok secara bersamaan menghasilkan degradasi kinerja yang lebih signifikan, menunjukkan bahwa lapisan attention memainkan peran yang lebih kritis dan bergantung secara sekuensial dalam mengintegrasikan informasi di seluruh token. Temuan ini membantu menggambarkan batas-batas paralelisasi yang efektif – urutan FFN adalah lahan subur, sementara mekanisme attention mungkin memerlukan strategi optimasi yang berbeda.
Implikasi untuk Arsitektur LLM: FFN Fusion menawarkan lebih dari sekadar teknik optimasi post-hoc; ini memberikan wawasan berharga untuk merancang LLM di masa depan. Penemuan bahwa urutan FFN seringkali dapat diperlakukan sebagai unit yang dapat diparalelkan menantang asumsi sekuensial ketat yang sering mendasari desain transformer. Ini dapat menginspirasi arsitektur baru yang secara inheren lebih ramah paralel sejak awal. Model masa depan mungkin dirancang dengan struktur FFN yang secara eksplisit dimaksudkan untuk fusi atau eksekusi paralel, berpotensi mengarah pada co-design perangkat keras-perangkat lunak di mana arsitektur GPU lebih dioptimalkan untuk mengeksploitasi jenis paralelisme ini. Metode sistematis menggunakan jarak kosinus untuk mengukur ketergantungan antar-lapisan juga menyediakan alat analitis yang berharga untuk memahami dan mendesain ulang struktur jaringan saraf. Dengan menunjukkan bahwa keuntungan efisiensi yang signifikan dimungkinkan melalui perancangan ulang arsitektural yang bijaksana yang berfokus pada paralelisasi komponen yang ada, FFN Fusion membuka jalan untuk mengembangkan LLM yang kuat dan lebih berkelanjutan secara komputasi. Ini menyoroti jalur menuju mitigasi tuntutan sumber daya yang meningkat dari AI mutakhir.