פריצת המחסום הסדרתי: FFN Fusion של NVIDIA משפר יעילות LLM | he | בית

חבל ההליכה החישובי של הבינה המלאכותית המודרנית

מודלי שפה גדולים (LLMs) ניצבים כעמודי התווך של הבינה המלאכותית העכשווית, ומדגימים יכולות יוצאות דופן המעצבות מחדש תעשיות ותגליות מדעיות. מיומנותם ביצירת טקסט דמוי-אנושי, הפעלת סוכני שיחה מתוחכמים, ואף סיוע במשימות מחקר מורכבות הפכה אותם לכלים חיוניים. בליבת המודלים העוצמתיים הללו פועמת ארכיטקטורת ה-transformer, עיצוב המאופיין בשכבות המתחלפות שלו. נתוני קלט, המחולקים לטוקנים (tokens), זורמים דרך רצף של מנגנוני קשב (attention mechanisms), השוקלים את חשיבותם של טוקנים שונים, ולאחר מכן דרך רשתות הזנה קדימה (feed-forward networks - FFNs), המעבדות את המידע שנאסף. עיבוד שכבתי וסדרתי זה הוא יסודי לאופן שבו transformers לומדים ומייצרים פלט.

עם זאת, ארכיטקטורה זו עצמה, למרות יעילותה, מציבה אתגר הולך וגובר ככל שהמודלים מתנפחים בגודלם ובמורכבותם. האופי הסדרתי פירושו שכל שכבה חייבת בדרך כלל להמתין לקודמתה שתסיים את חישוביה לפני שהיא יכולה להתחיל. עיבוד צעד-אחר-צעד זה יוצר צוואר בקבוק אינהרנטי, במיוחד בשלב ההסקה (inference) – השלב שבו מודל מאומן משמש בפועל ליצירת תחזיות או טקסט. ככל שמודלים כמו אלה המפעילים עוזרי AI מתקדמים משלבים מאות מיליארדי, או אפילו טריליוני, פרמטרים, המשאבים החישוביים והזמן הנדרשים להסקה מסלימים באופן דרמטי. דרישה מסלימה זו מתורגמת לזמן השהיה (latency) משמעותי (עיכוב בתגובה), תפוקה (throughput) מופחתת (מספר הבקשות המטופלות לאורך זמן), ועלויות תפעוליות גוברות, המעכבים את הפריסה הנרחבת והיישום בזמן אמת של ה-LLMs החזקים ביותר. כתוצאה מכך, שיפור יעילות ההסקה הפך לדאגה עליונה בקהילת מחקר ה-AI, והניע חיפוש אחר אסטרטגיות חדשניות שיכולות לייעל את החישוב מבלי לפגוע בביצועים המדהימים שמודלים אלה מציעים. האתגר המרכזי טמון בהפחתת האילוצים שמטיל הביצוע הסדרתי, במיוחד בסביבות מבוזרות שבהן החישובים מתפרסים על פני מספר GPUs, ומוסיפים תקורה של תקשורת לזמן העיבוד.

ניווט בנוף האופטימיזציה: כלים קיימים ומגבלותיהם

במאמץ המתמשך להפוך את ה-LLMs לרזים ומהירים יותר, חוקרים פיתחו ארגז כלים של טכניקות אופטימיזציה. כל אחת מציעה נתיב ליעילות, אך לעתים קרובות מגיעה עם סט פשרות משלה, המונעות מכל שיטה בודדת להיות פתרון אוניברסלי. הבנת הפשרות הללו חיונית להערכת הצורך בגישות חדשניות כמו FFN Fusion.

טכניקה בולטת אחת היא קוונטיזציה (quantization). היא כוללת הפחתת הדיוק הנומרי המשמש לייצוג המשקולות וההפעלות (activations) של המודל. במקום להשתמש במספרי נקודה צפה סטנדרטיים של 32 סיביות, מודלים עשויים להשתמש בייצוגים של 16 סיביות, 8 סיביות, או אפילו פחות. זה מקטין ישירות את טביעת הרגל הזיכרונית של המודל ויכול להאיץ משמעותית חישובים, שכן פעולות על מספרים בדיוק נמוך יותר הן בדרך כלל מהירות יותר ודורשות פחות אנרגיה. עם זאת, קוונטיזציה אינה חפה מסיכונים. הפחתת הדיוק עלולה להוביל לאובדן מידע, ועלולה לפגוע בדיוק המודל. סיכון זה הופך בולט יותר ברוחבי סיביות נמוכים מאוד, ודורש יישום קפדני ולעיתים אימון מחדש כדי למתן ירידות בדיוק. האתגר טמון במציאת הנקודה האופטימלית שממקסמת את רווחי היעילות תוך שמירה על פגיעה בביצועים בגבולות מקובלים.

אסטרטגיה נפוצה נוספת היא גיזום (pruning). טכניקה זו פועלת על העיקרון שפרמטרים רבים בתוך רשת נוירונים גדולה עשויים להיות מיותרים או לתרום באופן מינימלי לפלט הסופי. אלגוריתמי גיזום מזהים ומסירים את הקשרים או הנוירונים הפחות חשובים הללו, וכתוצאה מכךנוצר מודל קטן ודליל יותר. כמו קוונטיזציה, גיזום מפחית את דרישות הזיכרון ואת העומס החישובי. עם זאת, זיהוי מדויק של אילו פרמטרים ‘בטוחים’ להסרה הוא מורכב. גיזום אגרסיבי עלול להסיר בטעות רכיבים חיוניים, ולהוביל לאובדן דיוק משמעותי. לעתים קרובות נדרש כוונון עדין (fine-tuning) של המודל לאחר הגיזום כדי לשחזר ביצועים, מה שמוסיף מורכבות לתהליך העבודה. כיול קפדני חיוני כדי להבטיח שהמודל שנגזם יישאר יעיל.

גישה שונה יותר מבחינה ארכיטקטונית היא מודל תערובת המומחים (Mixture-of-Experts - MoE). במקום לעבד כל קלט דרך כל הרשת, מודלי MoE מורכבים ממספר תת-רשתות ‘מומחיות’ (בדרך כלל FFNs). עבור כל טוקן קלט, מנגנון שער (gating mechanism) בוחר באופן דינמי תת-קבוצה קטנה של מומחים אלה לביצוע החישוב. חישוב מותנה זה פירושו שרק חלק קטן מסך הפרמטרים של המודל מופעל עבור כל קלט נתון, מה שמוביל לחיסכון חישובי משמעותי, במיוחד במהלך אימון והסקה על מודלים גדולים מאוד. מודלי MoE יכולים להגיע לטריליוני פרמטרים תוך שמירה על עלויות חישוב סבירות. עם זאת, יעילותם תלויה מאוד בעומס העבודה. הם מצטיינים בטיפול בגדלי אצווה (batch sizes) גדולים מאוד שבהם דפוס ההפעלה הסלקטיבי מוביל לניצול חומרה טוב. בגדלי אצווה קטנים יותר או בינוניים, מודלי MoE עלולים לסבול מניצול חסר של משאבים חישוביים, שכן החומרה המקבילית עשויה שלא להישמר עסוקה באופן עקבי על ידי המומחים המופעלים בדלילות. יתר על כן, יישום ואיזון עומסים (load-balancing) של מודלי MoE יכולים להיות מורכבים יותר מפריסת ארכיטקטורות ‘צפופות’ (dense) סטנדרטיות.

בעוד שקוונטיזציה, גיזום ומודלי MoE מייצגים התקדמות חשובה באופטימיזציה של LLMs, מגבלותיהם האינהרנטיות מדגישות את הצורך באסטרטגיות חלופיות או משלימות. החיפוש נמשך אחר שיטות שיכולות לספק שיפורי יעילות רחבים על פני תרחישים שונים, באופן אידיאלי עם פחות פשרות לדיוק או למורכבות היישום, במיוחד עבור ארכיטקטורות המודלים הצפופים שנותרות פופולריות בשל פשטותן היחסית באימון ובפריסה.

FFN Fusion: חשיבה מחדש על מקביליות ב-Transformers

בתוך נוף זה של טכניקות אופטימיזציה, חוקרים ב-NVIDIA הציגו גישה חדשה ומשכנעת המכונה FFN Fusion. טכניקה זו מתמודדת ישירות עם צוואר הבקבוק הסדרתי הטבוע בארכיטקטורת ה-transformer, לא על ידי שינוי פרמטרים או הפעלה סלקטיבית של חלקים, אלא על ידי חשיבה מחודשת מיסודה על האופן שבו ניתן למקבל רצפים של חישובים. החדשנות נובעת מתצפית מכרעת על התנהגות שכבות FFN בתוך מודלי transformer עמוקים.

באמצעות כלי אבחון בשם Puzzle, החוקרים ניתחו את הפעולה הפנימית של מודלים גדולים. כאשר הם הסירו באופן ניסיוני שכבות קשב, הם הבחינו כי מודלים לעתים קרובות שמרו על רצפים ארוכים באופן מפתיע של שכבות FFN עוקבות. חשוב מכך, הניתוח גילה כי החישובים שבוצעו על ידי שכבות FFN סמוכות אלה הראו לעתים קרובות תלות הדדית מינימלית. במהותה, הפלט של FFN אחד ברצף לעתים קרובות לא שינה באופן דרסטי את הנתיב הכיווני או את המידע הליבתי הדרוש ל-FFN הבא מיד אחריו. זה הצביע על כך שלשכבות FFN אלה, שבאופן מסורתי מבוצעות אחת אחרי השנייה, עשוי להיות פוטנציאל לביצוע מקבילי וסימולטני מבלי לשבש באופן משמעותי את תפקודו הכולל של המודל.

תובנה זו היוותה את הבסיס ל-FFN Fusion. הרעיון המרכזי הוא פשוט באלגנטיות אך רב עוצמה: לזהות רצפים של שכבות FFN עוקבות עם תלות חישובית נמוכה ולמזג אותן לשכבת FFN אחת, רחבה יותר, המבצעת את החישוב המקביל במקביל. במקום שרשרת כמו קלט -> FFN1 -> FFN2 -> FFN3 -> פלט, המבנה הממוזג הופך ל-קלט -> Fused_FFN (שווה ערך ל-FFN1+FFN2+FFN3 במקביל) -> פלט. טרנספורמציה ארכיטקטונית זו מקצרת למעשה את העומק הסדרתי של הרשת, ומחליפה מספר שלבים בצעד חישובי אחד, רחב יותר. על ידי התמקדות ברצפי FFN בעלי תלות נמוכה אלה, FFN Fusion שואף להפחית את זמן ההשהיה ואת עלות החישוב תוך שמירה על כוח הייצוג והדיוק של המודל. פיתוח Ultra-253B-Base מ-Llama-3.1-405B-Instruct שימש כהדגמה ראשונית לפוטנציאל של טכניקה זו.

האלכימיה הארכיטקטונית: כיצד פועל FFN Fusion

הקסם מאחורי FFN Fusion טמון במניפולציה החכמה שלו במבנה המתמטי הבסיסי של רשתות הזנה קדימה. זה לא רק עניין של הפעלת שכבות קיימות זו לצד זו; זה כרוך ביצירת שכבה חדשה ומאוחדת המשכפלת את ההתנהגות הקולקטיבית של הרצף המקורי, אך עושה זאת במקביל.

שקול רצף של k שכבות FFN עוקבות. ב-transformer סטנדרטי, הקלט x עובר דרך FFN1, הפלט שלו הופך לקלט עבור FFN2, וכן הלאה, עד FFNk. כל שלב תלוי במפורש בהשלמת השלב הקודם. FFN Fusion שובר את שרשרת התלות הזו. מבחינה מתמטית, FFN כולל בדרך כלל שתי טרנספורמציות ליניאריות עם פונקציית הפעלה לא ליניארית (כמו GeLU או SwiGLU) ביניהן: FFN(x) = W_out * Activation(W_in * x). FFN Fusion מנצל את העובדה שלעתים קרובות ניתן לשלב את הטרנספורמציות הליניאריות.

תהליך המיזוג פועל על ידי שרשור המשקולות של שכבות ה-FFN הבודדות. באופן ספציפי, מטריצות משקולות הקלט (W_in) של ה-FFNs העוקבים משולבות (למשל, באופן בלוק-אלכסוני) למטריצת משקולות קלט אחת, גדולה יותר, עבור השכבה הממוזגת. באופן דומה, מטריצות משקולות הפלט (W_out) משורשרות ליצירת מטריצת משקולות פלט אחת, רחבה יותר. פונקציית ההפעלה מוחלת איבר-איבר בתוך מבנה גדול יותר זה. בנייה זו מבטיחה שה-FFN הממוזג פועל על הקלט המקורי x בו-זמנית על פני נתיבים מקבילים המתאימים ל-FFNs המקוריים. הפלטים מנתיבים מקבילים אלה נאגרים לאחר מכן באופן מרומז על ידי מבנה משקולות הפלט המשורשרות.

הבסיס התיאורטי מאשר שמבנה ממוזג זה יכול לשמור על אותה יכולת ייצוג כמו הרצף המקורי של FFNs, בתנאי שהתלות בין השכבות המקוריות הייתה אכן נמוכה. המפתח הוא לזהות אילו רצפים מתאימים למיזוג. כדי לעשות זאת באופן שיטתי, חוקרי NVIDIA השתמשו בטכניקת ניתוח תלות. הם מדדו את מרחק הקוסינוס (cosine distance) בין מצבי הפלט החבויים (hidden states) של שכבות FFN עוקבות עבור קבוצה מייצגת של טוקני קלט. מרחק קוסינוס קטן מצביע על כך שווקטור הפלט של FFN אחד מצביע בכיוון דומה מאוד לווקטור הפלט של ה-FFN הבא ברצף. דמיון זה מצביע על תלות פונקציונלית נמוכה – ה-FFN השני אינו משנה באופן דרסטי את ייצוג המידע שנוצר על ידי הראשון. רצפים של FFNs שהפגינו מרחקי קוסינוס נמוכים באופן עקבי בין השכבות זוהו כמועמדים עיקריים למיזוג, שכן מיזוגם היה פחות סביר שישבש את הייצוגים הנלמדים של המודל ואת ביצועיו הכוללים. גישה מבוססת-נתונים זו מאפשרת יישום ממוקד של FFN Fusion לחלקים של המודל שבהם הוא יהיה היעיל ביותר והכי פחות משבש.

מבהמות’ לספרינטר: הטרנספורמציה של Ultra-253B-Base

הכוח המעשי של FFN Fusion הודגם בצורה חיה באמצעות יישומו על אחד המודלים הגדולים ביותר הידועים לציבור באותה עת, Llama-3.1-405B-Instruct. מודל זה, המתהדר ב-405 מיליארד פרמטרים, ייצג משימה חישובית משמעותית להסקה. החוקרים יצאו לתהליך של עידון ארכיטקטוני, שילוב של FFN Fusion עם גיזום אסטרטגי, כדי ליצור מודל חדש ויעיל יותר שזכה לכינוי Ultra-253B-Base.

תהליך הטרנספורמציה כלל מספר שלבים:

ניתוח: באמצעות כלי ניתוח התלות שלהם (מדידת מרחקי קוסינוס), החוקרים זיהו רצפים של שכבות FFN עוקבות בתוך ארכיטקטורת Llama-405B שהפגינו תלות נמוכה בין שכבות.
מיזוג (Fusion): רצפי FFN מזוהים אלה מוזגו לאחר מכן לשכבות FFN בודדות ורחבות יותר כפי שתואר קודם (שרשור משקולות). זה הפחית ישירות את מספר הצעדים הסדרתיים ברשת.
גיזום (Pruning): במקביל או לאחר מכן, פרמטרים שנחשבו פחות קריטיים (שזוהו פוטנציאלית באמצעות טכניקות גיזום סטנדרטיות או על סמך מידע מתהליך המיזוג) הוסרו מהמודל.

גישה משולבת זו הביאה ל-Ultra-253B-Base, מודל עם 253 מיליארד פרמטרים. זה מייצג הפחתה משמעותית – למעלה מ-37% פחות פרמטרים מהמודל המקורי של 405B. השינויים הארכיטקטוניים שהושגו באמצעות מיזוג היו המפתח לאפשר הפחתת גודל כה משמעותית תוך שאיפה לשמור על ביצועים. המטרה לא הייתה רק מודל קטן יותר, אלא מודל מהיר וחסכוני יותר מבחינה חישובית מיסודו, הודות למקביליות המוגברת שנפתחה על ידי FFN Fusion. מקרה מבחן זה שימש כהוכחת היתכנות מכרעת, והראה שניתן לארגן מחדש מודלים בקנה מידה גדול באופן משמעותי למען יעילות.

מדידת הרווחים: ביצועים, מהירות וחיסכון במשאבים

המבחן האמיתי של כל טכניקת אופטימיזציה טמון בהשפעתה המדידה. עבור Ultra-253B-Base, התוצאות שהתקבלו מיישום FFN Fusion וגיזום על בסיס Llama-405B היו משכנעות, והדגימו שיפורים משמעותיים על פני מספר ממדים ללא פשרות מהותיות ביכולת.

מהירות ועלות הסקה: הרווחים הבולטים ביותר נצפו ביעילות ההסקה. בהשוואה למודל המקורי של 405B פרמטרים, Ultra-253B-Base השיג:

שיפור של פי 1.71 בזמן ההשהיה של ההסקה (inference latency). משמעות הדבר היא שהמודל יכול היה לייצר תגובות מהר יותר באופן משמעותי, דבר חיוני ליישומים בזמן אמת.
הפחתה של פי 35 בעלות החישובית לטוקן (per-token computational cost) כאשר נמדד בגודל אצווה של 32. ירידה דרמטית זו בפעולות חישוביות (FLOPs) לטוקן מתורגמת ישירות לצריכת אנרגיה נמוכה יותר ולדרישות חומרה מופחתות להפעלת המודל.

מדדי ביצועי מודל: באופן קריטי, שיפורי יעילות אלה לא באו על חשבון האינטליגנציה או היכולות של המודל. Ultra-253B-Base הוערך בקפדנות על חבילה של מדדי LLM סטנדרטיים, והשיג ציונים שהיו תחרותיים מאוד, ובמקרים מסוימים עלו על, המודל המקורי והגדול בהרבה:

MMLU (Massive Multitask Language Understanding): 85.17%
MMLU-Pro (גרסה מאתגרת יותר): 72.25%
Arena Hard (הערכת העדפה אנושית על הנחיות קשות): 84.92%
HumanEval (יכולת יצירת קוד): 86.58%
MT-Bench (איכות שיחה רב-תורית): 9.19

ציונים אלה מצביעים על כך שהמודל הממוזג והגזום שמר על רמה גבוהה מאוד של הבנה, הסקה, יכולת קידוד ואיכות שיחה, הדומה לאביו בעל 405 מיליארד הפרמטרים, למרות שיש לו רק 253 מיליארד פרמטרים.

יעילות זיכרון: מעבר למהירות ועלות חישובית, FFN Fusion תרם גם לחיסכון בזיכרון. השינויים הארכיטקטוניים, בשילוב פוטנציאלי עם אופטימיזציות אחרות שאופשרו על ידי המיזוג, הובילו להפחתה של פי 2 בגודל מטמון המפתח-ערך (key-value - KV cache) הנדרש במהלך ההסקה. מטמון ה-KV מאחסן הפעלות ביניים (מפתחות וערכי קשב) ויכול לצרוך זיכרון GPU משמעותי, במיוחד עבור רצפי קלט ארוכים. הקטנת דרישה זו בחצי מאפשרת להריץ את המודל על חומרה פחות עתירת זיכרון או לעבד הקשרים ארוכים יותר באותן מגבלות זיכרון.

תוצאות כמותיות אלה מדגישות את יעילותו של FFN Fusion. הוא איפשר יצירת מודל שלא רק היה קטן יותר אלא יעיל יותר מיסודו במונחים של מהירות, פעולות חישוביות ושימוש בזיכרון, כל זאת תוך שמירה על ביצועים מהשורה הראשונה במדדים מאתגרים.

שימור ידע: התפקיד המכריע של אימון וכוונון עדין

שינוי ארכיטקטוני של מודל שפה מאומן מראש ומסיבי כמו Llama-405B באמצעות טכניקות כמו FFN Fusion וגיזום משבש בהכרח את האיזון העדין של הפרמטרים הנלמדים שלו. בעוד שהשוויון המתמטי שואף לשמר את הפונקציה באופן מקומי, ההתנהגות הגלובלית של הרשת יכולה להשתנות. כדי להבטיח שהמודל Ultra-253B-Base שנוצר לא רק הפך ליעיל יותר אלא גם שמר על רמת הביצועים הגבוהה שלו, היה חיוני תהליך אימון מתואם בקפידה לאחר השינוי.

תהליך זה כלל שני שלבים עיקריים:

זיקוק ידע (Knowledge Distillation): הצעד הראשון היה להעביר את הידע מהמודל המקורי והגדול יותר (או מודל מורה מתאים) בחזרה לארכיטקטורה ששונתה. זה הושג באמצעות זיקוק, שבו המודל Ultra-253B-Base אומן לחקות את הפלטים או הייצוגים הפנימיים של מודל המורה. שלב זה השתמש במאגר נתונים משמעותי, במיוחד 54 מיליארד טוקנים, שעובדו עם חלון הקשר של 8k. זיקוק מסייע למודל הממוזג והגזום ללכוד מחדש ניואנסים ויכולות שאולי הופרעו מעט במהלך השינויים הארכיטקטוניים.
כוונון עדין מדורג (Staged Fine-Tuning): לאחר הזיקוק, המודל עבר סדרה של שלבי כוונון עדין שתוכננו במיוחד כדי להתאים אותו לטיפול באורכי הקשר ארוכים יותר ויותר. זה חיוני עבור LLMs מודרניים, שלעתים קרובות מצפים מהם לעבד וליצור טקסט המבוסס על קלט נרחב. הכוונון העדין התקדם בשלבים:
- כוונון עדין בחלון הקשר של 16k.
- כוונון עדין נוסף בחלון הקשר של 32k.
- שלב כוונון עדין סופי בחלון הקשר של 128k.

גישה מדורגת זו מאפשרת למודל להתאים בהדרגה את הפרמטרים שלו, כולל שכבות ה-FFN הממוזגות החדשות ומנגנוני מטמון ה-KV הממוטבים, כדי לנהל ביעילות תלויות וזרימת מידע על פני רצפים ארוכים מאוד. כל שלב מתבסס על קודמו, ומבטיח יציבות וביצועים חזקים על פני גדלי הקשר שונים.

משטר אימון קפדני זה, המשלב זיקוק בקנה מידה גדול עם כוונון עדין מדורג להקשר ארוך, היה חיוני בגישור על הפער בין יעילות ארכיטקטונית לביצועים באיכות גבוהה. הוא הבטיח שהיתרונות במהירות, בעלות ובזיכרון שסיפק FFN Fusion לא פגעו בדיוק וביכולות המודל במדדים תובעניים.

אופקים רחבים יותר: הכללה וכיוונים עתידיים

הטרנספורמציה המוצלחת של Llama-405B ל-Ultra-253B-Base מספקת עדות חזקה לפוטנציאל של FFN Fusion, אך ערכו האמיתי טמון ביישומיותו הרחבה יותר ובתובנות שהוא מציע לעיצוב LLM עתידי. המחקר הדגים שזה לא היה רק טריק חד-פעמי הישים רק למודלים עצומים.

אימות על פני סקאלות: חוקרי NVIDIA בדקו במפורש את מתודולוגיית FFN Fusion על מודלים בגדלים שונים. הם יישמו בהצלחה את הטכניקה על מודלים של 70 מיליארד פרמטרים, והשיגו רווחי יעילות דומים ביחס למקביליהם המקוריים. הם גם דיווחו על אימות בסקאלה של 49B, מה שמחזק עוד יותר את הרעיון שאי-תלות של FFN והפוטנציאל למיזוג אינם מאפיינים בלעדיים של המודלים הגדולים ביותר, אלא עשויים להיות תכונה כללית יותר של ארכיטקטורת ה-transformer, שעשויה להפוך בולטת יותר בסקאלות גדולות יותר שבהן רצפי FFN עמוקים יותר מתרחשים באופן טבעי. זה מצביע על כך ש-FFN Fusion יכול להפוך לכלי סטנדרטי בארסנל האופטימיזציה של LLM, הישים על פני מגוון גדלי מודלים.

FFN לעומת מיזוג בלוק מלא: המחקר גם שפך אור על התפקיד הספציפי של שכבות FFN בהשוואה לשכבות קשב בתוך בלוק ה-transformer. בעוד ששכבות FFN עוקבות הראו לעתים קרובות תלות נמוכה, מה שהפך אותן לאידיאליות למיזוג, ניסיונות למקבל בלוקי transformer שלמים (כולל שכבות קשב ו-FFN) התבררו כקשים יותר. הניתוח הצביע על תלויות הדדיות חזקות יותר המערבות את מנגנוני הקשב. מיזוג בלוקים שלמים בו-זמנית הביא לפגיעה משמעותית יותר בביצועים, מה שמצביע על כך ששכבות הקשב ממלאות תפקיד קריטי יותר ותלוי-סדרתית בשילוב מידע על פני טוקנים. ממצא זה מסייע לתחום את גבולות המיקבול היעיל – רצפי FFN הם קרקע פורייה, בעוד שמנגנוני קשב עשויים לדרוש אסטרטגיות אופטימיזציה שונות.

השלכות על ארכיטקטורת LLM: FFN Fusion מציע יותר מסתם טכניקת אופטימיזציה לאחר

עודכן ב- 2025-03-30

# AIGC # Llama # Nvidia