פתיחת מומחיות תחום: כוונון, מיזוג ויכולות ב-LLMs

אתגר ההתמחות: התאמת AI לחזיתות טכניות

מודלי שפה גדולים (LLMs) חוללו ללא ספק מהפכה באופן שבו אנו מתקשרים עם מידע וממכנים משימות הכוללות שפה טבעית. ענקים כמו Llama ו-Mistral, אפילו בגרסאות הקוד הפתוח שלהם, מפגינים שטף מרשים בהבנה ויצירת טקסט שלעיתים קרובות מתחרה בתפוקה אנושית. יכולתם משתרעת על פני נוף רחב, משיחה יומיומית ועד סיכום מורכב. עם זאת, כניסה לתחומים המיוחדים ועתירי הז’רגון של מדע והנדסה – תחומים כמו מדע חומרים או ביומטריומיקה – מציבה משוכה ייחודית.

תחומים טכניים אלה דורשים יותר מידע כללי; הם דורשים הבנה עמוקה ומדויקת, יכולת להסיק מסקנות על עקרונות ספציפיים, והיכרות עם טרמינולוגיה ומבני נתונים מיוחדים. LLMs סטנדרטיים, שאומנו על קורפוסים רחבים מהאינטרנט, לעיתים קרובות כושלים כאשר הם מתמודדים עם דרישות אלה. האתגר, אם כן, טמון בהתאמת תחום (domain adaptation): כיצד נוכל להתאים ביעילות את המודלים הכלליים החזקים הללו כדי להפוך לעוזרים מומחים בתחומים ספציפיים ביותר?

פשוט להזין יותר נתונים מיוחדים אינו תמיד התשובה, וגם לא תמיד אפשרי. אימון הענקים הללו מאפס יקר באופן בלתי אפשרי, ומאגרי הנתונים המקוריים והעצומים ששימשו לאימון המקדים הראשוני שלהם אינם נגישים בדרך כלל. הדבר נכון במיוחד עבור מודלי קוד פתוח פופולריים, שבהם למרות שקיפות מסוימת, המתכון המלא – תערובות הנתונים המדויקות והרצפים ששימשו במהלך האימון המקדים, הכוונון העדין והיישור – נותר ברובו קנייני. חוקרים ומהנדסים זקוקים לאסטרטגיות חזקות ויעילות כדי להטמיע במודלים קיימים ידע חדש ומתמחה, תוך שמירה חיונית על היכולות הכלליות הרחבות שנרכשו במהלך האימון הראשוני שלהם. פעולת האיזון העדינה הזו היא בעלת חשיבות עליונה ליצירת כלי AI שימושיים באמת לגילוי מדעי וחדשנות הנדסית, כגון פיתוח מנועים המסוגלים להסקת מסקנות רב-מודאלית כדי לחקור השראה לעיצוב חומרים ביולוגיים על פני סקאלות והקשרים מגוונים.

מיפוי נוף האימון: מאימון מקדים לאופטימיזציית העדפות

ניווט בדרך למומחיות LLM ספציפית לתחום כרוך בחקירת ערכת כלים מגוונת של אסטרטגיות כוונון עדין. כל גישה מציעה דרך שונה לעצב את הידע וההתנהגות של המודל.

  • המשך אימון מקדים (Continued Pre-Training - CPT): אסטרטגיה זו כוללת הרחבת שלב האימון המקדים הראשוני, אך הפעם באמצעות קורפוס המתמקד ישירות בתחום היעד – כמו אוסף של מאמרי מחקר במדע חומרים. המטרה היא להטמיע את המודל בשפה, במושגים ובמבני הידע הספציפיים של התחום, ולאפשר לו לספוג מידע ספציפי לתחום בצורה עמוקה יותר מאשר אפשרי באמצעות כוונון עדין ספציפי למשימה בלבד. זה מניח יסוד של ידע רלוונטי.

  • כוונון עדין מונחה (Supervised Fine-Tuning - SFT): בעקבות CPT או החל ממודל בסיס, SFT מלמד ישירות את המודל כיצד לבצע משימות ספציפיות. הדבר מושג באמצעות מערכי נתונים שנאספו בקפידה של זוגות קלט-פלט, לעיתים קרובות בפורמט של הוראות ותגובות רצויות, או שאלות ותשובות מדויקות הרלוונטיות לתחום. SFT מחדד את יכולת המודל לעקוב אחר הוראות, לענות על שאלות במדויק בהקשר המיוחד, ולדבוק בפורמטי פלט רצויים.

  • התאמה בדרגה נמוכה (Low-Rank Adaptation - LoRA): למרות שאינה המוקד העיקרי כאן, LoRA מייצגת חלופה יעילה או תוספת. במקום לאמן מחדש את כל המודל, LoRA מציגה שכבות ‘מתאם’ קטנות וניתנות לאימון. הדבר מאפשר התאמה משמעותית בעלות חישובית נמוכה בהרבה, אם כי ייתכנו לה מגבלות בכמות הידע החדש ביסודו שניתן לשלב בהשוואה ל-CPT.

  • אופטימיזציה מבוססת העדפות (Preference-Based Optimization): מעבר להשלמת משימות פשוטה, אופטימיזציית העדפות שואפת ליישר את תפוקות המודל באופן הדוק יותר עם שיפוטים אנושיים או קריטריונים ספציפיים כמו מועילות, אי-מזיקות ודיוק בהסקת מסקנות. במקום להסתמך אך ורק על תשובות ‘נכונות’ שהוגדרו מראש (כמו ב-SFT), שיטות אלה לומדות מהשוואות.

    • אופטימיזציית העדפות ישירה (Direct Preference Optimization - DPO): DPO לומדת ישירות מזוגות של תגובות שבהן אחת מועדפת על פני השנייה (למשל, על ידי מעריך אנושי או AI אחר). היא מייעלת את המודל כדי להגדיל את הסבירות ליצירת תגובות מועדפות מבלי להזדקק למודל תגמול נפרד, מה שמפשט את צינור הלמידה מחיזוק ממשוב אנושי (RLHF) המסורתי.
    • אופטימיזציית העדפות יחס סיכויים (Odds Ratio Preference Optimization - ORPO): כניסה חדשה יותר, ORPO משנה את מטרת האופטימיזציה, ולעיתים מניבה ביצועים או יציבות משופרים בהשוואה ל-DPO, במיוחד ביישור מודלים לקריטריונים סגנוניים או הסקתיים ספציפיים בתוך תחום.

טכניקות אלו אינן סותרות זו את זו; לעיתים קרובות הן מיושמות ברצף או בשילוב, ויוצרות צינורות אימון מורכבים. רצף נפוץ עשוי לכלול CPT לבניית ידע תחום, ואחריו SFT למיומנות במשימה, ולבסוף DPO או ORPO ליישור ועידון. עם זאת, השילוב והרצף האופטימליים נותרו תחומי מחקר פעילים, במיוחד להשגת ביצועי שיא בתחומים מדעיים מיוחדים.

מעבר לכוונון פשוט: ההבטחה של מיזוג מודלים

בעוד שעידון מודל יחיד באמצעות שלבי אימון רציפים יכול להניב שיפורים משמעותיים, צצה דרך מסקרנת נוספת: מיזוג מודלים (model merging). פרקטיקה זו כוללת לקיחת שני מודלים או יותר שאומנו בנפרד ושילוב הפרמטרים שלהם – ה’משקלים’ הפנימיים שלהם – ליצירת מודל היברידי יחיד וחדש.

מדוע לנסות איחוד כזה? הרעיון המרכזי הוא לשלב באופן סינרגטי את החוזקות של מודלי האב. דמיינו מודל אחד שאומן במומחיות על ספרות מדע חומרים (באמצעות CPT ו-SFT) ומודל ‘הוראה’ (instruct) כללי אחר המיומן מאוד במעקב אחר הוראות מורכבות וניהול דיאלוג קוהרנטי. מיזוגם עשוי ליצור פוטנציאלית מודל בעל ידע תחום עמוק וגם יכולות שיחה ומעקב אחר הוראות מצוינות.

חקירות מוקדמות רמזו שתהליך זה עשוי להיות יותר מממוצע פשוט. במקום רק לערבב יכולות, מיזוג עשוי לפתוח פוטנציאלית פונקציונליות חדשה ומתהווה (emergent functionalities) – יכולות שאינן קיימות במפורש באף אחד ממודלי האב. הדבר מצביע על אינטראקציה לא ליניארית ביותר בין הפרמטרים במהלך המיזוג, שעלולה להוביל לשלם הגדול מסכום חלקיו. אם יוכח כיעיל וניתן לשליטה, מיזוג מודלים יכול לייצג כלי חזק ומשנה צורה לדחיפת גבולות יכולות ה-LLM, וליצור מערכות AI גמישות ועוצמתיות המותאמות לאתגרים מדעיים והנדסיים מורכבים בעולם האמיתי.

חשיפת כוחו של SLERP: גישה גיאומטרית למיזוג

יעילות מיזוג המודלים תלויה באופן קריטי באופן שבו משולבים הפרמטרים של מודלי האב. ממוצע ליניארי פשוט (המכונה לעיתים קרובות אינטרפולציה ליניארית או LERP) עשוי להיראות אינטואיטיבי, אך לעיתים קרובות הוא מוביל לתוצאות תת-אופטימליות או אפילו פוגע בביצועים. סביר להניח שהסיבה לכך היא שמרחב הפרמטרים הרב-ממדי של LLMs אינו שטוח; הוא בעל גיאומטריה מורכבת ומעוקלת. אינטרפולציה ליניארית מסתכנת במעבר דרך ‘אזורים מתים’ או אזורים בעלי אובדן גבוה בתוך מרחב זה, ובכך מערבלת למעשה את הייצוגים שנלמדו בקפידה של מודלי האב.

הכירו את אינטרפולציה ליניארית כדורית (Spherical Linear Interpolation - SLERP). SLERP, שפותחה במקור לאנימציה חלקה של סיבובים בגרפיקה ממוחשבת, מציעה דרך מתוחכמת גיאומטרית לאינטרפולציה בין שתי נקודות (במקרה זה, וקטורי הפרמטרים של שני מודלים) על ידי מעקב אחר הנתיב הקצר ביותר לאורך פני השטח של היפר-כדור.

דמיינו את מערכי הפרמטרים של שני מודלי האב כשתי נקודות על פני שטח של כדור ענק.

  • LERP היה מצייר קו ישר דרך הכדור המחבר את הנקודות. נתיב זה עשוי שלא להישאר על פני השטח ויכול לעבור דרך אזורים המייצגים מודלים בעלי ביצועים גרועים.
  • SLERP, לעומת זאת, נע לאורך פני השטח המעוקלים של הכדור עצמו. נתיב זה מכבד מטבעו את המבנה הגיאומטרי הבסיסי של מרחב הפרמטרים.

מדוע נתיב כדורי זה עשוי להיות עדיף למיזוג LLMs?

  1. שימור מבנה: על ידי הישארות ‘על הכדור’, SLERP שומר על היחסים הגיאומטריים בין הפרמטרים, ומשמר את המבנים הנלמדים בתוך כל מודל אב בצורה יעילה יותר מנתיב ליניארי.
  2. הימנעות מאזורי אובדן גבוה: הנתיב המעוקל נוטה פחות לחצות אזורים במרחב הפרמטרים הקשורים לשגיאות חיזוי גבוהות (אובדן).
  3. שילוב לא ליניארי: נוסחת האינטרפולציה של SLERP היא לא ליניארית מטבעה. הדבר מאפשר אינטראקציות מורכבות וסינרגטיות בין הפרמטרים ממודלי האב, ופותח פוטנציאלית שילובים המייצגים יכולות חדשות. פרמטר ממוזג עשוי להפעיל תכונות באופן שאף אחד מההורים לא יכול היה לבדו.
  4. מעברים חלקים: SLERP מספק מעבר חלק מתמטית בין מצבי מודלי האב, מה שעלול להוביל להכללה טובה יותר במודל הממוזג.

מכיוון ש-SLERP מכבד את הגיאומטריה הפנימית של המודל ומאפשר אינטראקציות פרמטרים לא ליניאריות, הוא טומן בחובו פוטנציאל לא רק למצע יכולות אלא למזג אותן באמת באופן המטפח תכונות מתהוות. הדבר הופך אותו למועמד מבטיח במיוחד למיזוג מודלים המיועדים לתחומים מורכבים כמו מדע חומרים, שבהם אינטראקציות עדינות והבנה מדויקת הן המפתח.

העמדת תיאוריות למבחן: ניסויי Llama ו-Mistral

כדי לחקור בקפדנות את אסטרטגיות הכוונון העדין והמיזוג הללו, נערכה סדרה שיטתית של ניסויים תוך שימוש במשפחות מודלים פופולריות בקוד פתוח: Llama 3.1 (8 מיליארד פרמטרים) ו-Mistral (7 מיליארד פרמטרים). המטרה הייתה להשוות צינורות אימון שונים ולהעריך את ההשפעה של מיזוג SLERP.

תכנון הניסוי כלל מספר שלבים מרכזיים:

  1. מודלי בסיס: הניסויים החלו הן עם מודלי ה’בסיס’ היסודיים (שאומנו מראש אך לא כוונו להוראות) והן עם גרסאות ה’הוראה’ (instruct) (שכבר כוונו לצ’אט ומעקב אחר הוראות) עבור שתי משפחות Llama ו-Mistral.
  2. קורפוס תחום: קורפוס מיוחד המתמקד במדע חומרים הורכב מפרסומים מדעיים ונתונים מעובדים.
  3. צינורות אימון: יושמו שילובים שונים של טכניקות אימון:
    • CPT בלבד
    • CPT ואחריו SFT (CPT-SFT)
    • CPT-SFT ואחריו ORPO (CPT-SFT-ORPO)
    • CPT-SFT ואחריו DPO (CPT-SFT-DPO)
    • כמה וריאציות שהתחילו ישירות ממודל ה-Instruct (למשל, Instruct-CPT-SFT-DPO).
  4. מיזוג מודלים: עבור רבים מהמודלים המכוונים, בוצע מיזוג SLERP, שבדרך כלל שילב את המודל המותאם לתחום עם מודל ה’הוראה’ הכללי המתאים מאותה משפחה (למשל, מודל Llama CPT-SFT-DPO שמוזג עם מודל Llama 3.1 Instruct הסטנדרטי).
  5. הערכה: ביצועי כל המודלים שהתקבלו (הן ממוזגים והן לא ממוזגים) הוערכו על פני חבילה של מדדי ביצועים רלוונטיים שנועדו לבדוק ידע תחום, הסקת מסקנות ומעקב אחר הוראות.

ממצאים עיקריים על פני Llama ו-Mistral:

  • מיזוג SLERP משפר ביצועים באופן עקבי: על פני שתי משפחות המודלים וצינורות אימון שונים, המודלים ששופרו באמצעות מיזוג SLERP השיגו בדרך כלל את הדיוק הגבוה ביותר במדדי ההערכה. הדבר תומך מאוד בהשערה ש-SLERP היא טכניקה יעילה לשילוב חוזקות מודלים.
  • אפקטים סינרגטיים אושרו: ביצועי המודלים הממוזגים ב-SLERP עלו לעיתים קרובות על ממוצע פשוט של ביצועי שני מודלי האב. תרשים הציון שהושג בפועל מול הממוצע הצפוי הזה חשף סטייה חיובית משמעותית, המאשרת שתהליך המיזוג פותח לעיתים קרובות רווחים סינרגטיים ויכולות מתהוות. הישות הממוזגת הייתה בעלת יכולת גבוהה יותר באופן מוכח מסכום חלקיה בלבד.
  • אופטימיזציית העדפות מוסיפה ערך: שילוב שלבי אופטימיזציית העדפות (DPO או ORPO) סיפק לעיתים קרובות שיפור נוסף בביצועים, במיוחד בשילוב עם מיזוג SLERP. אסטרטגיות כמו CPT-SFT-DPO-SLERP או CPT-SFT-ORPO-SLERP היו לעיתים קרובות בין המבצעים המובילים.
  • האסטרטגיה הלא ממוזגת האופטימלית משתנה: ללא מיזוג, האסטרטגיה בעלת הביצועים הטובים ביותר הייתה שונה במקצת בין משפחות המודלים. עבור Llama 3.1, Instruct-CPT-SFT-DPO הראה תוצאות חזקות, בעוד שעבור Mistral, Base-CPT-SFT הציג ביצועים דומים למקבילו ה-Instruct.
  • השפעת משך ה-CPT: ניתוח נוסף על מודלי Mistral הראה שביצועים השתפרו בדרך כלל עם יותר עידנים (epochs) של המשך אימון מקדים (עד לחמישה שנבדקו), במיוחד כאשר מתחילים ממודל ה-Instruct, מה שמחזק את הערך של חשיפה מספקת לתחום במהלך CPT.

תוצאות אלו מציירות תמונה ברורה: בעוד שכוונון עדין רציף הוא בעל ערך, מיזוג מודלים אסטרטגי באמצעות SLERP מציע מסלול רב עוצמה לשיפור משמעותי של ביצועי LLM, במיוחד עבור תחומים מיוחדים, ולעיתים קרובות מניב יכולות מעבר לצבירה פשוטה.

צלילה עמוקה יותר: מה גורם למיזוג לעבוד?

ההצלחה העקבית של מיזוג SLERP מעוררת מבט מקרוב על המכניקה הבסיסית והגורמים המשפיעים. מדוע גישה גיאומטרית זו מניבה תוצאות כה חזקות, ואילו תנאים מייעלים את יעילותה?

  • אינטראקציות לא ליניאריות: כפי ששוער, הנתיב הלא ליניארי של SLERP דרך מרחב הפרמטרים נראה חיוני. הוא מאפשר למודל הממוזג לחקור שילובי פרמטרים שממוצע ליניארי היה מחמיץ. שילובים אלה יכולים לייצג אינטראקציות חדשות בין תכונות נלמדות, המובילות ליכולות הסקה או פתרון בעיות מתהוות המותאמות לתחום. דמיינו שילוב פרמטרים שמייצגים בנפרד הבנה של ‘חוזק חומר’ ו’מבנים ביולוגיים’ – SLERP עשוי למצוא שילוב שמייצג ביעילות ‘חומרים בעלי חוזק גבוה בהשראה ביולוגית’ באופן שאף מודל אב לא עשה במפורש.

  • תפקיד הגיוון: עד כמה צריכים מודלי האב להיות שונים? הניתוח הצביע על יחסים מורכבים. בעוד שגיוון קיצוני עשוי להיראות מועיל, מתאמים מסוימים הצביעו על כך שבהקשרים מסוימים (כמו מודלי Llama), גיוון ביצועים גבוה יותר בין ההורים עשוי להפחית מעט את ההסתמכות על SFT עוקב, אולי מכיוון שהמיזוג כבר לוכד מערך יכולות רחב יותר. יחסי הגומלין עדינים ותלויים ככל הנראה בשיטות הכוונון העדין הספציפיות ששימשו להורים.

  • נקודת התחלה בסיס מול Instruct: בחירת מודל ההתחלה משנה. עבור ניסויי Llama, המודל הממוזג בעל הביצועים הטובים ביותר מקורו בגרסת ה-Instruct. לעומת זאת, עבור Mistral, אחד המבצעים המובילים נגזר ממודל הבסיס לפני שעבר CPT, SFT ומיזוג. הדבר מצביע על כך שהבדלים ארכיטקטוניים או שונות בהרכבי האימון המקדים הראשוניים של משפחות Llama ו-Mistral משפיעים על האופן שבו הן מגיבות לצינורות כוונון עדין ומיזוג ספציפיים. אין נקודת התחלה אוניברסלית ‘הטובה ביותר’; הדבר דורש בדיקה אמפירית.

  • איכות הנתונים ב-CPT: היסוד המונח במהלך המשך אימון מקדים (CPT) הוא קריטי. ניסויים שהשתמשו במערך נתונים CPT גדול יותר אך ‘רועש’ יותר (המכיל יותר שגיאות עיצוב או חפצים מזיהוי תווים אופטי) הביאו לירידה בביצועים בהשוואה לשימוש במערך נתונים קטן ונקי יותר. הדבר מדגיש את החשיבות של נתונים ספציפיים לתחום באיכות גבוהה ומעובדים היטב כדי ששלב ה-CPT יהיה יעיל. זבל נכנס, זבל יוצא עדיין תקף.

  • כוונון עדין של פרמטרי SLERP: ל-SLERP עצמו יש פרמטרים, בעיקר מקדם האינטרפולציה (המצוין לעיתים קרובות כ-‘t’, בטווח שבין 0 ל-1) הקובע כמה משקל ניתן לכל מודל אב. יתר על כן, המיזוג אינו חייב להיות אחיד על פני כל שכבות המודל. ניסויים חקרו שינוי גורם האינטרפולציה באופן שונה עבור שכבות קשב עצמי (self-attention) לעומת שכבות פרספטרון רב-שכבתי (MLP), או אפילו שינוי הדרגתי שלו דרך עומק המודל. התוצאות הראו שסכימות שקלול לא אחידות ספציפיות יכולות לעלות בביצועיהן על הגישה האחידה הסטנדרטית, מה שמצביע על פוטנציאל אופטימיזציה נוסף על ידי התאמה קפדנית של תהליך המיזוג על פני ארכיטקטורת הרשת. התקדמות ליניארית פשוטה של משקלים על פני שכבות הוכחה כיעילה במקרה אחד של Llama.

  • אפקט רגולריזציה: SLERP עשוי לשמש גם כצורה של רגולריזציה. על ידי מציאת נתיב חלק בין שני מודלים שעלולים להיות מיוחדים, הוא עשוי למנוע התאמת יתר (overfitting) למוזרויות של נתוני האימון של כל אחד מההורים, מה שמוביל להכללה טובה יותר על בעיות ספציפיות לתחום שלא נראו קודם לכן. הוא עשוי גם לסייע בהפחתת ‘שכחה קטסטרופלית’, שבה כוונון עדין למשימה אחת מוחק ידע ממשימה קודמת.

בעיקרו של דבר, יעילותו של SLERP נובעת מיכולתו לנווט בגיאומטריה המורכבת של מרחב הפרמטרים של LLM בצורה חכמה, תוך טיפוח אינטראקציות לא ליניאריות מועילות תוך שימור מבני ידע נלמדים. עם זאת, אופטימיזציה של השימוש בו דורשת שיקול דעת קפדני של בחירת מודל האב, היסטוריית האימון, איכות הנתונים, ואולי אפילו הפרטים הקטנים של המיזוג עצמו.

האם הגודל קובע? חקירת השפעות קנה מידה עם מודלים קטנים יותר

האפקטים הסינרגטיים המרשימים שנצפו במודלים של 7 ו-8 מיליארד פרמטרים מעלים שאלה טבעית: האם היכולות המתהוות הללו שנפתחו על ידי מיזוג SLERP באות לידי ביטוי גם במודלי שפה קטנים בהרבה? או שיש סף קנה מידה שמתחתיו הקסם דועך?

כדי לחקור זאת, נערכו ניסויים דומים תוך שימוש בסדרת המודלים SmolLM, במיוחד גרסה עם 1.7 מיליארד פרמטרים בלבד. מודל זה קטן משמעותית, מה שהופך אותו למתאים לסביבות מוגבלות משאבים כמו מכשירים ניידים או מחשוב קצה, אך פוטנציאלית חסר את עושר הפרמטרים של בני דודיו הגדולים יותר.

מודלי SmolLM עברו את אותו צינור: CPT עם קורפוס מדע החומרים, ואחריו SFT ו-DPO (שהוכיח את עצמו כיעיל יותר מ-ORPO עבור ארכיטקטורה קטנה יותר זו). לאחר מכן יושם מיזוג SLERP, ששילב את SmolLM המכוונן עם גרסת הבסיס שלו או גרסאות אחרות.

הממצאים עם SmolLM:

  • כוונון עדין עדיין עוזר: צינור CPT-SFT-DPO אכן שיפר את ביצועי מודל SmolLM במשימות תחום ביחס למצבו המקורי. תהליך הכוונון העדין עצמו היה מועיל, ושיפר את הידע המיוחד שלו.
  • התהוות נעדרת ברובה: עם זאת, בניגוד לניסויי Llama ו-Mistral, מודלי SmolLM הממוזגים ב-SLERP בדרך כלל לא הראו אפקטים סינרגטיים משמעותיים. ביצועיהם בדרך כלל נחתו קרוב לממוצע פשוט של מודלי האב, או רק מעט מעל. קפיצות הביצועים הדרמטיות והסימנים הברורים ליכולות מתהוות שנראו במודלי 7B/8B היו חסרים.

השלכות:

ניגוד זה מצביע על כך שקנה מידת המודל הוא ככל הנראה גורם מפתח במימוש הפוטנציאל המלא של מיזוג SLERP ליצירת תכונות מתהוות. מודלים קטנים יותר, עם מרחבי הפרמטרים הפחות מורכבים ובעלי הממדים הנמוכים יותר שלהם, עשויים לחסר את היכולת הייצוגית או העושר הנדרשים כדי שאינטראקציות לא ליניאריות חזקות אלו יתרחשו במהלך המיזוג. ה’מרחב’ לגילוי שילובי פרמטרים חדשים ומועילים נראה מוגבל משמעותית בהשוואה למודלים גדולים יותר.

תוצאות אלו מתיישבות עם תצפיות רחבות יותר לגבי חוקי קנה מידה (scaling laws) בלמידה עמוקה, שבהם יכולות איכותיות מסוימות מופיעות לעיתים קרובות רק כאשר מודלים מגיעים לסף גודל מסוים. נראה כי הכוח הסינרגטי של מיזוג SLERP עשוי להיות יכולת כזו התלויה באופן קריטי בקנה מידה ומורכבות מספקים של המודל.

כימות הרווחים: מבט מקרוב על שיפור הביצועים ממיזוג

בעוד שמדדי ביצועים מראים שמודלים ממוזגים משיגים לעיתים קרובות את הביצוע