פריצת המחסום הסדרתי: FFN Fusion של NVIDIA משפר יעילות LLM
NVIDIA מציגה את FFN Fusion, טכניקה חדשנית לשיפור יעילות ההסקה של מודלי שפה גדולים (LLMs). על ידי מיזוג שכבות FFN תלויות-נמוכות, היא מקצרת את זמן ההשהיה ומפחיתה עלויות חישוב, כפי שהודגם עם Ultra-253B-Base מ-Llama-405B, תוך שמירה על ביצועים גבוהים.