NVIDIA FFN Fusion: Tingkat Kecekapan LLM
NVIDIA memperkenalkan FFN Fusion untuk mengatasi bottleneck berjujukan dalam LLM. Teknik ini menggabungkan lapisan FFN, meningkatkan kelajuan inferens dan mengurangkan kos tanpa menjejaskan prestasi, seperti yang ditunjukkan oleh Ultra-253B-Base daripada Llama-405B. Ia menawarkan kecekapan yang lebih baik untuk AI.