מודלים של שפה גדולים (LLMs) מתמודדים עם אתגר גובר בעיבוד רצפים ארוכים ומורכבים. ארכיטקטורות מבוססות Transformer, חרף עוצמתן, סובלות מבעיות קנה מידה משמעותיות עקב מורכבותן הריבועית ביחס לאורך הרצף. מגבלה זו בולטת במיוחד כאשר עוסקים בקלטים בעלי הקשר מורחב, ומפריעה ליכולתם ללכוד ולנצל מידע מחלקים מרוחקים של הרצף ביעילות. כתגובה לאתגר זה, צץ גל של גישות חדשניות, שמטרתן להשיג מורכבות ליניארית בעיבוד רצפים ארוכים.
שיטות אלה כוללות מודלים של תשומת לב ליניארית, מודלים של מרחב מצב (כגון Mamba), RNNs ליניאריים (כמו DeltaNet) ו-RWKV. כל אחת מהארכיטקטורות הללו מציעה פתרון ייחודי לבעיית המורכבות הריבועית, המאפשר עיבוד יעיל יותר של רצפים ארוכים. עם זאת, ארכיטקטורות ליניאריות אלה נתקלות לעתים קרובות בקשיים בהבנה ומינוף מלאים של מידע הקשר ארוך.
לדוגמה, RWKV-7 (מודל פרמטרים של 2.9B) מדגים דיוק גבוה במשימות אחזור קוד גישה עד 28K אסימונים. עם זאת, הביצועים שלו מתדרדרים במהירות מעבר לסף זה. אפילו עם אימון מקדים מתמשך באמצעות נתונים באורך 128K, מגבלות ההקשר הארוך נמשכות. בעיה זו אינה ייחודית ל-RWKV; היא חלה גם על ארכיטקטורות אחרות כמו Mamba, המייצגת אתגר בסיסי עבור מחלקה זו של מודלים. המאבק לשמירה על ביצועים על פני הקשרים מורחבים מדגיש תחום מכריע לשיפור במודלי שפה מורכבות ליניארית.
הנוף של מודלי שפה מורכבות ליניארית
מודלים של שפה מורכבות ליניארית צצו כחלופות מפתות לארכיטקטורות מבוססות שנאי, תוך עקיפת נטלים חישוביים ריבועיים הטבועים בעיבוד רצפים ארוכים. משפחת מודלי RWKV, הבולטת בתחום זה, משלבת במיומנות את המקביליות של שנאים במהלך האימון עם ייצוג מצב חוזר דמוי RNN.
האבולוציה של RWKV משתרעת על פני מספר איטרציות, החל מ-RWKV-4 הבסיסי, התקדמות ל-RWKV-5, RWKV-6, והשיא ב-RWKV-7. כל איטרציה הביאה ליטושים ושיפורים, שיפור היכולות של המודל וטיפול במגבלות. יתר על כן, מודלי שפה היברידיים כגון Jamba, Zamba ו-MiniMax, הטביעו את חותמם על ידי הצגת עיצובים היברידיים ייחודיים, והעשירו עוד יותר את הנוף של מודלי מורכבות ליניארית.
החתירה לעיבוד הקשר ארוך ויעיל הובילה גם לפיתוח מנגנוני תשומת לב חדשניים. Native Sparse Attention, לדוגמה, מארגנת אסימונים לתוך בלוקים זמניים, תוך שימוש בשלושה נתיבי תשומת לב נפרדים: אסימונים דחוסים וגסים להקשר גלובלי, אסימונים סלקטיביים ועדינים השמורים לפרטים מקומיים, וחלונות הזזה ללכידת מידע הקשרי מקומי. מנגנוני תשומת לב בולטים אחרים כוללים SeerAttention ו-Block Attention (MoBA), שכל אחד מהם מציע אסטרטגיות ייחודיות להשתתפות במידע רלוונטי בתוך רצפים ארוכים.
RWKV-X: ארכיטקטורה היברידית למידול הקשר ארוך טווח משופר
חוקרים ממעבדת גואנגדונג לבינה מלאכותית וכלכלה דיגיטלית (SZ), שנזן, אוניברסיטת Hohai, נאנג’ינג, אוניברסיטת שנזן ואוניברסיטת צ’ינגהאי, שינינג, הציגו ארכיטקטורה היברידית חדשה בשם RWKV-X. ארכיטקטורה זו משלבת בתבונה את היעילות של RWKV במידול תלות לטווח קצר עם מנגנון תשומת לב דלילה שתוכנן במיוחד כדי ללכוד הקשר ארוך טווח.
שלא כמו גישות היברידיות קודמות, RWKV-X משיג מורכבות ליניארית בזמן במהלך האימון ומורכבות זמן קבוע במהלך פענוח מסקנות. זה הופך אותו ליעיל במיוחד לעיבוד רצפים ארוכים. המודל מדגים דיוק כמעט מושלם על אמת המידה של אחזור קוד גישה 64K כאשר הוא מאומן מראש על רצפי 64K-אסימונים ברציפות. הוא עולה בעקביות על מודלי RWKV-7 קודמים על נקודות ציון ארוכות-הקשר תוך שמירה על ביצועים חזקים במשימות קצרות-הקשר.
החידושים ב-RWKV-X מייצגים צעד משמעותי קדימה בטיפול באתגרים של מידול שפה ארוך-הקשר. על ידי שילוב החוזקות של מודלים חוזרים ומנגנוני תשומת לב דלילים, RWKV-X משיג איזון בין יעילות לדיוק, הסולל את הדרך לעיבוד יעיל יותר של רצפים מורחבים.
RWKV-X: ארכיטקטורה והדרכה
RWKV-X מגלם ארכיטקטורה היברידית, המשלבת בלוקים RWKV-7 עם בלוקים של תשומת לב דלילה כדי למנף את החוזקות של שתי הגישות. במקום להתאמן מאפס, RWKV-X נבנה על מודלים קיימים באמצעות גישת הרחבת בלוק משולבת ומנגנון אתחול אפס בהשראת LLaMA Pro.
תהליך האימון מורכב משני שלבים, שתוכננו בקפידה כדי לייעל את ביצועי המודל הן בהקשרים קצרים והן בהקשרים ארוכים:
- אימון מקדים בהקשר קצר: בתחילה, המודל מאומן בהקשרים קצרים של 1024 אסימונים שחולצו ממערך הנתונים MiniPile. במהלך שלב זה, כל הפרמטרים מלבד אלה בבלוקים החדשים שנוספו קפואים, מה שמבטיח שהידע המאומן מראש ממודל RWKV-7 הבסיסי נשמר. זה מאפשר לבלוקים החדשים שנוספו להסתגל לארכיטקטורה הקיימת מבלי לשבש את הייצוגים המאומנים מראש.
- אימון מקדים מתמשך בהקשר ארוך: השלב השני כולל אימון מקדים מתמשך בהקשר ארוך באמצעות מערך הנתונים ProLong-64K ואורך הקשר של 64K אסימונים, עיבוד כמיליארד אסימונים בסך הכל. במהלך שלב זה, כל הפרמטרים מופשרים ומותאמים במשותף, ומאפשרים למודל לכוונן עדין את הייצוגים שלו וללמוד תלויות ארוכות טווח. האימון משתמש באובדן אנטרופיה צולבת בהקשר ארוך (LongCE), אשר שוקל באופן דינמי אסימונים בהתבסס על החשיבות שלהם. פונקציית אובדן זו עוזרת למודל להתמקד בחלקים הרלוונטיים ביותר של הרצף, ומשפרת את יכולתו ללכוד קשרים ארוכי טווח.
תהליך האימון הדו-שלבי מאפשר ל-RWKV-X לשלב ביעילות את היעילות של RWKV-7 למידול לטווח קצר עם מודעות ההקשר לטווח ארוך של מנגנון תשומת הלב הדליל. על ידי אימון מקדים תחילה בהקשרים קצרים ולאחר מכן כוונון עדין בהקשרים ארוכים, המודל לומד לשלב ביעילות מידע מחלקים שונים של הרצף.
RWKV-X: הערכה וביצועים
ההערכה בהקשר קצר מגלה ש-RWKV-X שומרת על ביצועים תחרותיים על פני נקודות ציון סטנדרטיות, ומדגימה את יכולתה לטפל ביעילות ברצפים קצרים יותר. RWKV-X הקטן יותר (0.22B) משיג ציון ממוצע של 51.0, הדומה ל-51.8 של RWKV-7. בקנה מידה גדול יותר, RWKV-X (3.6B) מגיע ל-71.9, תואם מקרוב ל-RWKV-7 (2.9B, 72.8) ו-Qwen2.5-3B (71.4), תוך שהוא עולה על LLaMA3.2-3B (69.7). תוצאות אלו מאשרות את האפקטיביות של RWKV-X כעמוד שדרה של LLM למטרות כלליות מבלי להקריב ביצועים בהקשרים קצרים יותר.
יתר על כן, ניתוח יעילות מדגים את מאפייני קנה המידה העדיפים של RWKV-X עבור רצפים ארוכים. ב-128K אסימונים, RWKV-X משיג האצה של פי 1.37 על פני Flash-Attention v3, כאשר יתרון זה מתרחב ככל שאורך ההקשר גדל. זה מצביע על כך ש-RWKV-X הופך ליעיל יותר ויותר בהשוואה למנגנוני תשומת לב אחרים ככל שאורך הרצף גדל.
הביצועים החזקים של RWKV-X הן בהקשרים קצרים והן בהקשרים ארוכים מדגישים את הרבגוניות והיעילות שלו כמודל שפה. יכולתו לשמור על ביצועים תחרותיים ברצפים קצרים יותר תוך השגת האצות משמעותיות ברצפים ארוכים יותר הופכת אותו לארכיטקטורה מבטיחה עבור מגוון רחב של יישומים.
RWKV-X: מגבלות וכיוונים עתידיים
RWKV-X צץ כמודל שפה היברידי המשלב בהצלחה את היעילות של RWKV למידול תלויות לטווח קצר עם מנגנון תשומת לב דלילה חדשני שתוכנן במיוחד למידול הקשר ארוך טווח. בעוד RWKV-X מדגים ביצועים ויעילות חזקים במידול שפה ארוך-הקשר, מספר מגבלות נותרו.
ראשית, מנגנון תשומת הלב הדלילה שלו, המסתמך על בחירת מקטעים top-k, משתמש בגישה היוריסטית שעשויה להתעלם מתלויות רלוונטיות סמנטית. אסטרטגיית הבחירה top-k עשויה שלא תמיד ללכוד את המידע החשוב ביותר ברצף, מה שעלול להוביל לביצועים לא אופטימליים.
שנית, היישום הנוכחי מראה פענוח תשומת לב דלילה הפועל לאט יותר מ-RWKV וניל, מה שמצביע על כך שיש צורך במאמצי הנדסה נוספים כדי לייעל את הביצועים. בעוד RWKV-X משיג האצות משמעותיות בהשוואה למנגנוני תשומת לב אחרים ברצפים ארוכים, פענוח תשומת הלב הדלילה שלו עדיין איטי יותר מ-RWKV וניל, מה שמצביע על כך שיש מקום לשיפור ביישומו.
מחקר עתידי יכול להתמקד בטיפול במגבלות אלה על ידי בחינת מנגנוני תשומת לב דלילים מתוחכמים יותר, אופטימיזציה של יישום פענוח תשומת לב דלילה וחקר אסטרטגיות אימון חלופיות. על ידי התגברות על אתגרים אלה, RWKV-X יכול להפוך למודל שפה עוצמתי ויעיל עוד יותר עבור יישומים ארוכי-הקשר.