NVIDIA FFN Fusion: Tingkat Kecekapan LLM | ms

Keseimbangan Komputasi AI Moden

Model bahasa besar (LLMs) berdiri sebagai tonggak kecerdasan buatan kontemporari, menunjukkan keupayaan luar biasa yang membentuk semula industri dan penemuan saintifik. Kecekapan mereka dalam menghasilkan teks seperti manusia, menguasakan ejen perbualan yang canggih, dan bahkan membantu tugas penyelidikan yang kompleks telah menjadikan mereka alat yang sangat diperlukan. Di tengah-tengah model berkuasa ini terletak seni bina transformer, reka bentuk yang dicirikan oleh lapisan berselang-seli. Data input, dipecahkan kepada token, mengalir melalui urutan mekanisme perhatian (attention mechanisms), yang menimbang kepentingan token yang berbeza, diikuti oleh rangkaian suapan hadapan (feed-forward networks - FFNs), yang memproses maklumat yang diperoleh. Pemprosesan berlapis dan berjujukan ini adalah asas kepada cara transformer belajar dan menghasilkan output.

Walau bagaimanapun, seni bina ini, walaupun berkesan, memberikan cabaran yang semakin meningkat apabila model berkembang dalam saiz dan kerumitan. Sifat berjujukan bermakna setiap lapisan secara amnya mesti menunggu lapisan sebelumnya menyelesaikan pengiraannya sebelum ia boleh bermula. Pemprosesan langkah demi langkah ini mewujudkan bottleneck yang wujud, terutamanya semasa fasa inferens – peringkat di mana model terlatih sebenarnya digunakan untuk menjana ramalan atau teks. Apabila model seperti yang menguasakan pembantu AI lanjutan menggabungkan ratusan bilion, atau bahkan trilion, parameter, sumber pengkomputeran dan masa yang diperlukan untuk inferens meningkat secara mendadak. Permintaan yang meningkat ini diterjemahkan kepada kependaman (latency) yang ketara (kelewatan dalam tindak balas), daya pemprosesan (throughput) yang berkurangan (bilangan permintaan yang dikendalikan dari semasa ke semasa), dan kos operasi yang meningkat, menghalang penggunaan meluas dan aplikasi masa nyata LLM yang paling berkuasa. Akibatnya, meningkatkan kecekapan inferens telah menjadi kebimbangan utama dalam komuniti penyelidikan AI, mendorong pencarian strategi inovatif yang dapat menyelaraskan pengiraan tanpa menjejaskan prestasi luar biasa yang ditawarkan oleh model ini. Cabaran utama terletak pada mengurangkan kekangan yang dikenakan oleh pelaksanaan berjujukan, terutamanya dalam persekitaran teragih di mana pengiraan merangkumi berbilang GPU, menambah overhed komunikasi kepada masa pemprosesan.

Menavigasi Landskap Pengoptimuman: Alat Sedia Ada dan Hadnya

Dalam usaha berterusan untuk menjadikan LLM lebih ramping dan pantas, penyelidik telah membangunkan satu set alat teknik pengoptimuman. Setiap satu menawarkan laluan ke arah kecekapan, tetapi sering datang dengan set kompromi tersendiri, menghalang mana-mana kaedah tunggal daripada menjadi penyelesaian universal. Memahami pertukaran ini adalah penting untuk menghargai keperluan pendekatan baru seperti FFN Fusion.

Satu teknik yang menonjol ialah quantization. Ini melibatkan pengurangan ketepatan berangka yang digunakan untuk mewakili pemberat (weights) dan pengaktifan (activations) model. Daripada menggunakan nombor titik terapung 32-bit standard, model mungkin menggunakan perwakilan 16-bit, 8-bit, atau bahkan bit yang lebih rendah. Ini secara langsung mengecilkan jejak memori model dan boleh mempercepatkan pengiraan dengan ketara, kerana operasi pada nombor berketepatan rendah biasanya lebih pantas dan memerlukan kurang tenaga. Walau bagaimanapun, quantization tidak bebas risiko. Mengurangkan ketepatan boleh menyebabkan kehilangan maklumat, berpotensi merendahkan ketepatan model. Risiko ini menjadi lebih ketara pada lebar bit yang sangat rendah, memerlukan pelaksanaan yang teliti dan kadang-kadang latihan semula untuk mengurangkan penurunan ketepatan. Cabarannya terletak pada mencari titik manis yang memaksimumkan keuntungan kecekapan sambil mengekalkan degradasi prestasi dalam had yang boleh diterima.

Strategi biasa yang lain ialah pruning. Teknik ini beroperasi berdasarkan prinsip bahawa banyak parameter dalam rangkaian neural yang besar mungkin berlebihan atau menyumbang secara minimum kepada output akhir. Algoritma pruning mengenal pasti dan membuang sambungan atau neuron yang kurang penting ini, menghasilkan model yang lebih kecil dan jarang (sparser). Seperti quantization, pruning mengurangkan keperluan memori dan beban pengiraan. Walau bagaimanapun, mengenal pasti dengan tepat parameter mana yang ‘selamat’ untuk dibuang adalah kompleks. Pruning yang agresif secara tidak sengaja boleh membuang komponen penting, membawa kepada kehilangan ketepatan yang ketara. Penalaan halus (fine-tuning) model selepas pruning sering diperlukan untuk memulihkan prestasi, menambah kerumitan pada aliran kerja. Penentukuran yang teliti adalah penting untuk memastikan model yang dipangkas kekal berkesan.

Pendekatan yang lebih berbeza dari segi seni bina ialah model Mixture-of-Experts (MoE). Daripada memproses setiap input melalui keseluruhan rangkaian, model MoE terdiri daripada beberapa sub-rangkaian ‘pakar’ (biasanya FFN). Untuk setiap token input, mekanisme penggaitan (gating mechanism) secara dinamik memilih subset kecil pakar ini untuk melakukan pengiraan. Pengiraan bersyarat ini bermakna hanya sebahagian kecil daripada jumlah parameter model diaktifkan untuk sebarang input tertentu, membawa kepada penjimatan pengiraan yang ketara, terutamanya semasa latihan dan inferens pada model yang sangat besar. Model MoE boleh berskala kepada trilion parameter sambil mengekalkan kos pengiraan yang munasabah. Walau bagaimanapun, kecekapannya sangat bergantung pada beban kerja. Ia cemerlang dalam mengendalikan saiz kelompok (batch sizes) yang sangat besar di mana corak pengaktifan terpilih membawa kepada penggunaan perkakasan yang baik. Pada saiz kelompok yang lebih kecil atau sederhana, model MoE boleh mengalami kurang penggunaan sumber pengiraan, kerana perkakasan selari mungkin tidak sentiasa sibuk oleh pakar yang diaktifkan secara jarang. Tambahan pula, melaksanakan dan mengimbangi beban (load-balancing) model MoE boleh menjadi lebih kompleks daripada menggunakan seni bina ‘padat’ (dense) standard.

Walaupun quantization, pruning, dan model MoE mewakili kemajuan berharga dalam pengoptimuman LLM, batasan yang wujud menyerlahkan keperluan untuk strategi alternatif atau pelengkap. Pencarian berterusan untuk kaedah yang boleh memberikan peningkatan kecekapan yang luas merentasi pelbagai senario, idealnya dengan kompromi yang lebih sedikit terhadap ketepatan atau kerumitan pelaksanaan, terutamanya untuk seni bina model padat yang kekal popular kerana kesederhanaan relatifnya dalam latihan dan penggunaan.

FFN Fusion: Memikirkan Semula Paralelisme dalam Transformer

Di tengah-tengah landskap teknik pengoptimuman ini, penyelidik di NVIDIA telah memperkenalkan pendekatan baru yang menarik yang dinamakan FFN Fusion. Teknik ini secara langsung menghadapi bottleneck berjujukan yang wujud dalam seni bina transformer, bukan dengan mengubah parameter atau mengaktifkan bahagian secara terpilih, tetapi dengan memikirkan semula secara asas bagaimana urutan pengiraan boleh diparalelkan. Inovasi ini berpunca daripada pemerhatian penting tentang tingkah laku lapisan FFN dalam model transformer yang mendalam.

Menggunakan alat diagnostik bernama Puzzle, para penyelidik menganalisis kerja dalaman model besar. Apabila mereka secara eksperimen membuang lapisan perhatian (attention layers), mereka mendapati bahawa model sering mengekalkan urutan lapisan FFN berturut-turut yang panjang secara mengejutkan. Lebih penting lagi, analisis mendedahkan bahawa pengiraan yang dilakukan oleh FFN bersebelahan ini kerap menunjukkan saling kebergantungan yang minimum. Pada dasarnya, output satu FFN dalam urutan sering tidak mengubah secara drastik laluan arah atau maklumat teras yang diperlukan oleh FFN yang mengikutinya secara langsung. Ini menunjukkan bahawa FFN ini, yang secara tradisinya dilaksanakan satu demi satu, mungkin mempunyai potensi untuk pelaksanaan serentak dan selari tanpa mengganggu fungsi keseluruhan model secara signifikan.

Wawasan ini membentuk asas FFN Fusion. Idea terasnya elegan namun berkuasa: kenal pasti urutan lapisan FFN berturut-turut dengan kebergantungan pengiraan yang rendah dan gabungkannya menjadi satu lapisan FFN yang lebih lebar yang melakukan pengiraan setara secara selari. Daripada rantaian seperti Input -> FFN1 -> FFN2 -> FFN3 -> Output, struktur yang digabungkan menjadi Input -> Fused_FFN (Setara dengan FFN1+FFN2+FFN3 secara selari) -> Output. Transformasi seni bina ini secara berkesan memendekkan kedalaman berjujukan rangkaian, menggantikan beberapa langkah dengan satu langkah pengiraan yang lebih luas. Dengan menyasarkan urutan FFN berkebergantungan rendah ini, FFN Fusion bertujuan untuk mengurangkan kependaman dan kos pengiraan sambil mengekalkan kuasa perwakilan dan ketepatan model. Pembangunan Ultra-253B-Base daripada Llama-3.1-405B-Instruct berfungsi sebagai demonstrasi utama potensi teknik ini.

Alkimia Seni Bina: Bagaimana FFN Fusion Berfungsi

Keajaiban di sebalik FFN Fusion terletak pada manipulasi pintar struktur matematik asas rangkaian suapan hadapan. Ia bukan sekadar menjalankan lapisan sedia ada secara bersebelahan; ia melibatkan penciptaan lapisan baru yang disatukan yang meniru tingkah laku kolektif urutan asal tetapi melakukannya secara serentak.

Pertimbangkan urutan k lapisan FFN berturut-turut. Dalam transformer standard, input x melalui FFN1, outputnya menjadi input untuk FFN2, dan seterusnya, sehingga FFNk. Setiap langkah bergantung secara eksplisit pada penyelesaian langkah sebelumnya. FFN Fusion memecahkan rantaian kebergantungan ini. Secara matematik, FFN biasanya melibatkan dua transformasi linear dengan fungsi pengaktifan bukan linear (seperti GeLU atau SwiGLU) di antaranya: FFN(x) = W_out * Activation(W_in * x). FFN Fusion memanfaatkan fakta bahawa transformasi linear sering boleh digabungkan.

Proses penggabungan berfungsi dengan menggabungkan pemberat (concatenating the weights) lapisan FFN individu. Secara khusus, matriks pemberat input (W_in) FFN berturut-turut digabungkan (cth., secara blok-diagonal) menjadi satu matriks pemberat input tunggal yang lebih besar untuk lapisan yang digabungkan. Begitu juga, matriks pemberat output (W_out) digabungkan untuk membentuk satu matriks pemberat output tunggal yang lebih lebar. Fungsi pengaktifan digunakan secara unsur demi unsur (element-wise) dalam struktur yang lebih besar ini. Pembinaan ini memastikan bahawa FFN yang digabungkan beroperasi pada input asal x secara serentak merentasi laluan selari yang sepadan dengan FFN asal. Output daripada laluan selari ini kemudiannya diagregatkan secara tersirat oleh struktur pemberat output yang digabungkan.

Dasar teori mengesahkan bahawa struktur yang digabungkan ini dapat mengekalkan kapasiti perwakilan yang sama seperti urutan FFN asal, dengan syarat kebergantungan antara lapisan asal sememangnya rendah. Kuncinya ialah mengenal pasti urutan mana yang sesuai untuk penggabungan. Untuk melakukan ini secara sistematik, penyelidik NVIDIA menggunakan teknik analisis kebergantungan (dependency analysis). Mereka mengukur jarak kosinus (cosine distance) antara keadaan tersembunyi output (output hidden states) lapisan FFN berturut-turut untuk set token input yang representatif. Jarak kosinus yang kecil menunjukkan bahawa vektor output satu FFN menunjuk ke arah yang sangat serupa dengan vektor output FFN seterusnya dalam urutan. Kesamaan ini menunjukkan kebergantungan fungsian yang rendah – FFN kedua tidak mengubah secara drastik perwakilan maklumat yang dibentuk oleh yang pertama. Urutan FFN yang menunjukkan jarak kosinus yang rendah secara konsisten merentasi lapisan dikenal pasti sebagai calon utama untuk penggabungan, kerana menggabungkannya kurang berkemungkinan mengganggu perwakilan yang dipelajari model dan prestasi keseluruhan. Pendekatan berasaskan data ini membolehkan aplikasi FFN Fusion yang disasarkan ke bahagian model di mana ia akan menjadi paling berkesan dan paling kurang mengganggu.

Dari Raksasa ke Pelari Pecut: Transformasi Ultra-253B-Base

Kuasa praktikal FFN Fusion ditunjukkan dengan jelas melalui aplikasinya kepada salah satu model terbesar yang diketahui umum pada masa itu, Llama-3.1-405B-Instruct. Model ini, yang mempunyai 405 bilion parameter, mewakili usaha pengiraan yang signifikan untuk inferens. Para penyelidik memulakan proses penambahbaikan seni bina, menggabungkan FFN Fusion dengan pruning strategik, untuk mencipta model baru yang lebih cekap yang digelar Ultra-253B-Base.

Proses transformasi melibatkan beberapa langkah:

Analisis: Menggunakan alat analisis kebergantungan mereka (mengukur jarak kosinus), penyelidik mengenal pasti urutan lapisan FFN berturut-turut dalam seni bina Llama-405B yang menunjukkan kebergantungan antara lapisan yang rendah.
Penggabungan (Fusion): Urutan FFN yang dikenal pasti ini kemudiannya digabungkan menjadi lapisan FFN tunggal yang lebih lebar seperti yang diterangkan sebelum ini (menggabungkan pemberat). Ini secara langsung mengurangkan bilangan langkah berjujukan dalam rangkaian.
Pruning: Secara serentak atau seterusnya, parameter yang dianggap kurang kritikal (berpotensi dikenal pasti melalui teknik pruning standard atau dimaklumkan oleh proses penggabungan) telah dikeluarkan daripada model.

Pendekatan gabungan ini menghasilkan Ultra-253B-Base, sebuah model dengan 253 bilion parameter. Ini mewakili pengurangan yang ketara – lebih 37% parameter lebih sedikit daripada model 405B asal. Perubahan seni bina yang dicapai melalui penggabungan adalah kunci untuk membolehkan pengurangan saiz yang begitu signifikan sambil bertujuan untuk mengekalkan prestasi. Matlamatnya bukan sahaja model yang lebih kecil, tetapi model yang secara asasnya lebih pantas dan lebih jimat dari segi pengiraan, berkat peningkatan paralelisme yang dibuka oleh FFN Fusion. Kajian kes ini berfungsi sebagai bukti konsep yang penting, menunjukkan bahawa model berskala besar boleh distruktur semula secara substansial untuk kecekapan.

Mengukur Keuntungan: Prestasi, Kelajuan, dan Penjimatan Sumber

Ujian sebenar mana-mana teknik pengoptimuman terletak pada impaknya yang boleh diukur. Untuk Ultra-253B-Base, hasil yang diperoleh daripada penggunaan FFN Fusion dan pruning pada asas Llama-405B adalah meyakinkan, menunjukkan peningkatan ketara merentasi pelbagai dimensi tanpa kompromi besar dalam keupayaan.

Kelajuan dan Kos Inferens: Keuntungan yang paling ketara diperhatikan dalam kecekapan inferens. Berbanding dengan model parameter 405B asal, Ultra-253B-Base mencapai:

Peningkatan 1.71x dalam kependaman inferens (inference latency). Ini bermakna model boleh menjana respons dengan lebih cepat, penting untuk aplikasi masa nyata.
Pengurangan 35x dalam kos pengiraan per-token apabila diukur pada saiz kelompok 32. Penurunan dramatik dalam operasi pengiraan (FLOPs) per token ini diterjemahkan secara langsung kepada penggunaan tenaga yang lebih rendah dan keperluan perkakasan yang berkurangan untuk menyediakan model.

Penanda Aras Prestasi Model: Secara kritikal, peningkatan kecekapan ini tidak datang dengan mengorbankan kecerdasan atau keupayaan model. Ultra-253B-Base dinilai dengan teliti pada satu set penanda aras LLM standard, mencapai skor yang sangat kompetitif dengan, dan dalam beberapa kes melebihi, model asal yang jauh lebih besar:

MMLU (Massive Multitask Language Understanding): 85.17%
MMLU-Pro (Versi yang lebih mencabar): 72.25%
Arena Hard (Penilaian keutamaan manusia pada gesaan sukar): 84.92%
HumanEval (Keupayaan penjanaan kod): 86.58%
MT-Bench (Kualiti perbualan berbilang giliran): 9.19

Skor ini menunjukkan bahawa model yang digabungkan dan dipangkas mengekalkan tahap pemahaman, penaakulan, keupayaan pengekodan, dan kualiti perbualan yang sangat tinggi, setanding dengan leluhurnya yang mempunyai 405B parameter walaupun hanya mempunyai 253 bilion parameter.

Kecekapan Memori: Selain kelajuan dan kos pengiraan, FFN Fusion juga menyumbang kepada penjimatan memori. Perubahan seni bina, yang berpotensi digabungkan dengan pengoptimuman lain yang dimungkinkan oleh penggabungan, membawa kepada pengurangan 2x dalam saiz cache kunci-nilai (key-value - KV cache) yang diperlukan semasa inferens. KV cache menyimpan pengaktifan perantaraan (kunci dan nilai perhatian) dan boleh menggunakan memori GPU yang besar, terutamanya untuk urutan input yang panjang. Mengurangkan separuh keperluan ini menjadikannya boleh dilaksanakan untuk menjalankan model pada perkakasan yang kurang intensif memori atau untuk memproses konteks yang lebih panjang dalam kekangan memori yang sama.

Hasil yang boleh diukur ini menggariskan keberkesanan FFN Fusion. Ia membolehkan penciptaan model yang bukan sahaja lebih kecil tetapi secara asasnya lebih cekap dari segi kelajuan, operasi pengiraan, dan penggunaan memori, semuanya sambil mengekalkan prestasi peringkat teratas pada penanda aras yang mencabar.

Memelihara Pengetahuan: Peranan Penting Latihan dan Penalaan Halus

Mengubah suai seni bina model bahasa pra-terlatih yang besar seperti Llama-405B melalui teknik seperti FFN Fusion dan pruning secara tidak dapat dielakkan mengganggu keseimbangan halus parameter yang dipelajarinya. Walaupun kesetaraan matematik bertujuan untuk mengekalkan fungsi secara tempatan, tingkah laku global rangkaian boleh beralih. Untuk memastikan bahawa model Ultra-253B-Base yang terhasil bukan sahaja menjadi lebih cekap tetapi juga mengekalkan tahap prestasinya yang tinggi, proses latihan pasca-pengubahsuaian yang dirancang dengan teliti adalah penting.

Proses ini melibatkan dua fasa utama:

Penyulingan Pengetahuan (Knowledge Distillation): Langkah pertama adalah memindahkan pengetahuan daripada model asal yang lebih besar (atau model guru yang sesuai) kembali ke dalam seni bina yang diubah suai. Ini dicapai melalui penyulingan, di mana model Ultra-253B-Base dilatih untuk meniru output atau perwakilan dalaman model guru. Fasa ini menggunakan set data yang besar, khususnya 54 bilion token, diproses dengan tetingkap konteks 8k. Penyulingan membantu model yang digabungkan dan dipangkas menangkap semula nuansa dan keupayaan yang mungkin sedikit terganggu semasa perubahan seni bina.
Penalaan Halus Berperingkat (Staged Fine-Tuning): Selepas penyulingan, model menjalani satu siri peringkat penalaan halus yang direka khusus untuk menyesuaikannya untuk mengendalikan panjang konteks yang semakin panjang. Ini penting untuk LLM moden, yang sering dijangka memproses dan menjana teks berdasarkan input yang luas. Penalaan halus diteruskan secara berperingkat:
- Penalaan halus pada tetingkap konteks 16k.
- Penalaan halus selanjutnya pada tetingkap konteks 32k.
- Peringkat penalaan halus akhir pada tetingkap konteks 128k.

Pendekatan berperingkat ini membolehkan model menyesuaikan parameternya secara beransur-ansur, termasuk lapisan FFN yang baru dibentuk dan mekanisme KV cache yang dioptimumkan, untuk mengurus kebergantungan dan aliran maklumat dengan berkesan melalui urutan yang sangat panjang. Setiap peringkat dibina di atas peringkat sebelumnya, memastikan kestabilan dan prestasi yang mantap merentasi saiz konteks yang berbeza.

Rejimen latihan yang teliti ini, menggabungkan penyulingan berskala besar dengan penalaan halus konteks panjang berperingkat, memainkan peranan penting dalam merapatkan jurang antara kecekapan seni bina dan prestasi kesetiaan tinggi. Ia memastikan bahawa faedah kelajuan, kos, dan memori yang disampaikan oleh FFN Fusion tidak menjejaskan ketepatan dan keupayaan model pada penanda aras yang mencabar.

Horizon Lebih Luas: Kebolehumuman dan Hala Tuju Masa Depan

Transformasi Llama-405B yang berjaya menjadi Ultra-253B-Base memberikan bukti kukuh untuk potensi FFN Fusion, tetapi nilai sebenarnya terletak pada kebolehgunaan yang lebih luas dan wawasan yang ditawarkannya untuk reka bentuk LLM masa depan. Penyelidikan menunjukkan bahawa ini bukan sekadar helah sekali sahaja yang hanya terpakai kepada model gergasi.

Pengesahan Merentasi Skala: Penyelidik NVIDIA secara eksplisit menguji metodologi FFN Fusion pada model pelbagai saiz. Mereka berjaya menggunakan teknik ini pada model 70B-parameter, mencapai keuntungan kecekapan yang serupa berbanding dengan rakan sejawat asalnya. Mereka juga melaporkan pengesahan pada skala 49B, seterusnya mengukuhkan idea bahawa kebebasan FFN dan potensi untuk penggabungan bukanlah ciri eksklusif model terbesar tetapi mungkin merupakan sifat yang lebih umum bagi seni bina transformer, berpotensi menjadi lebih ketara pada skala yang lebih besar di mana urutan FFN yang lebih dalam berlaku secara semula jadi. Ini menunjukkan FFN Fusion boleh menjadi alat standard dalam senjata pengoptimuman LLM, terpakai merentasi pelbagai saiz model.

FFN lwn. Penggabungan Blok Penuh: Penyelidikan ini juga memberi penerangan tentang peranan khusus lapisan FFN berbanding lapisan perhatian dalam blok transformer. Walaupun lapisan FFN berturut-turut sering menunjukkan kebergantungan yang rendah, menjadikannya ideal untuk penggabungan, percubaan untuk memparalelkan keseluruhan blok transformer (termasuk kedua-dua lapisan perhatian dan FFN) terbukti lebih mencabar. Analisis menunjukkan saling kebergantungan yang lebih kuat melibatkan mekanisme perhatian. Menggabungkan keseluruhan blok secara serentak mengakibatkan degradasi prestasi yang lebih ketara, menunjukkan bahawa lapisan perhatian memainkan peranan yang lebih kritikal dan bergantung secara berjujukan dalam mengintegrasikan maklumat merentasi token. Penemuan ini membantu menggambarkan sempadan paralelisasi yang berkesan – urutan FFN adalah medan yang subur, manakala mekanisme perhatian mungkin memerlukan strategi pengoptimuman yang berbeza.

Implikasi untuk Seni Bina LLM: FFN Fusion menawarkan lebih daripada sekadar teknik pengoptimuman pasca-hoc; ia memberikan wawasan berharga untuk mereka bentuk LLM masa depan. Penemuan bahawa urutan FFN sering boleh dianggap sebagai unit yang boleh diparalelkan mencabar andaian berjujukan ketat yang sering menyokong reka bentuk transformer. Ini boleh memberi inspirasi kepada seni bina baru yang sememangnya lebih mesra selari sejak awal lagi. Model masa depan mungkin direka bentuk dengan struktur FFN yang secara eksplisit bertujuan untuk penggabungan atau pelaksanaan selari, berpotensi membawa kepada reka bentuk bersama perkakasan-perisian di mana seni bina GPU dioptimumkan lagi untuk mengeksploitasi jenis paralelisme ini. Kaedah sistematik menggunakan jarak kosinus untuk mengukur kebergantungan antara lapisan juga menyediakan alat analisis yang berharga untuk memahami dan mereka bentuk semula struktur rangkaian neural. Dengan menunjukkan bahawa keuntungan kecekapan yang signifikan adalah mungkin melalui reka bentuk semula seni bina yang teliti yang memberi tumpuan kepada paralelisasi komponen sedia ada, FFN Fusion membuka jalan untuk membangunkan LLM yang berkuasa dan lebih mampan dari segi pengiraan. Ia menonjolkan laluan ke arah mengurangkan permintaan sumber yang semakin meningkat bagi AI canggih.

dikemaskinikan pada 2025-03-30

# AIGC # Llama # Nvidia