הגאות המשתנה בעיבוד רצפים: מעבר למגבלות ה-Transformer
במשך מספר שנים, תחום מידול הרצפים, במיוחד בעיבוד שפה טבעית, עוצב באופן מוחץ על ידי הצלחת ארכיטקטורות ה-Transformer האוטו-רגרסיביות. יכולתן המדהימה ללמידה בתוך הקשר (in-context learning), יחד עם המקביליות הטבועה בשלב האימון שאופשרה על ידי מנגנון הקשב softmax attention, חיזקו את מעמדן כפרדיגמה השלטת. עם זאת, שליטה זו באה במחיר ניכר. מנוע החישוב המרכזי, softmax attention, מציג התנהגות סקיילביליות ריבועית ביחס לאורך רצף הקלט. מאפיין זה מתורגם ישירות לתקורה חישובית גוברת ולדרישות זיכרון משמעותיות, מה שמהווה צוואר בקבוק משמעותי, במיוחד כאשר מתמודדים עם רצפים נרחבים הנפוצים ביישומים מודרניים כמו סיכום מסמכים, מענה על שאלות ארוכות או ניתוח גנומי.
בעוד שאופטימיזציות מתוחכמות של GPU הצליחו להקל על חלק מהלחצים הללו עבור אורכי רצף קצרים יותר במהלך האימון, שלב ההסקה (inference) – שבו מודלים נפרסים בתרחישים בעולם האמיתי – נותר ידוע לשמצה כדורש משאבים רבים ויקר, במיוחד כאשר פועלים בקנה מידה גדול. האופי הריבועי של הקשב פירושו שהכפלת אורך הרצף מרבעת את המאמץ החישובי ואת טביעת הרגל הזיכרונית במהלך ההסקה, מה שהופך את פריסת מודלי Transformer גדולים מאוד על הקשרים ארוכים למאתגרת כלכלית או בלתי אפשרית טכנית במצבים רבים.
מתוך הכרה במגבלות יסודיות אלו, חוקרים בחנו בהתמדה נתיבים ארכיטקטוניים חלופיים. כיוון מבטיח במיוחד כולל חזרה וחידוש של עיצובי רשתות נוירונים רקורנטיות (RNN). גישות RNN מודרניות שואפות לשלב מנגנוני מצב דוחסים. מצבים אלו מכילים מידע היסטורי רלוונטי מהרצף, ומאפשרים למודל לפעול עם מורכבות חישובית לינארית ביחס לאורך הרצף, ובאופן מכריע, לשמור על שימוש קבוע בזיכרון ללא קשר לאורך הרצף במהלך ההסקה. מאפיין זה מציע יתרון משכנע על פני Transformers עבור משימות רצף ארוך. צעדים אחרונים בתחומים כמו קירובי קשב לינארי ומודלי מרחב מצב (SSMs) הראו פוטנציאל משמעותי. ארכיטקטורות כגון RWKV-4 הופיעו כדוגמאות ראויות לציון, והציגו רמות ביצועים תחרותיות תוך הפחתה דרסטית של הנטל החישובי הקשור להסקה, ורמזו על דרך קיימא קדימה מעבר לאילוצים הריבועיים של קשב סטנדרטי.
הצגת RWKV-7 'Goose': אמת מידה חדשה בביצועי ארכיטקטורה רקורנטית
בהתבסס על יסוד זה ודחיפת גבולות הארכיטקטורות הרקורנטיות, מאמץ משותף שכלל חוקרים ממוסדות מגוונים, כולל פרויקט RWKV, EleutherAI, אוניברסיטת Tsinghua ואחרים, הגיע לשיאו בפיתוח RWKV-7, בשם הקוד ‘Goose’. ארכיטקטורת מידול רצפים חדשנית זו מייצגת קפיצת מדרגה משמעותית, וקובעת אמות מידה חדשות של ביצועים מתקדמים (SoTA), במיוחד בקנה מידה של 3 מיליארד פרמטרים, על פני מגוון רחב של משימות רב-לשוניות.
אחד ההיבטים הבולטים ביותר בהישג של RWKV-7 הוא היעילות המדהימה שלו. למרות שאומן על קורפוס טוקנים קטן משמעותית בהשוואה למודלים מובילים עכשוויים רבים, RWKV-7 מספק יכולות עיבוד שפה אנגלית תחרותיות ביותר מול מקביליו הגדולים ורעבי הנתונים. אולי חשוב מכך, הוא משיג זאת תוך הקפדה נאמנה על עקרונות היעילות המרכזיים של RNNs מתקדמים: צריכת זיכרון קבועה וזמן הסקה עקבי לכל טוקן, ללא קשר לאורך הרצף המעובד. זה הופך את RWKV-7 לאופציה אטרקטיבית במיוחד עבור יישומים הדורשים הן ביצועים גבוהים והן חסכנות במשאבים, במיוחד בעת טיפול בהקשרים ארוכים.
ההתקדמות המגולמת ב-RWKV-7 נובעת מכמה חידושים ארכיטקטוניים מרכזיים המרחיבים ומעדנים את עקרונות קודמיו. המודל משלב מנגנון שער מצב בעל ערכים וקטוריים מתוחכם, המאפשר שליטה מורכבת יותר על זרימת המידע בתוך המצב הרקורנטי. יתר על כן, הוא מציג קצבי למידה אדפטיביים בתוך ההקשר, המאפשרים למודל להתאים באופן דינמי את תהליך הלמידה שלו בהתבסס על ההקשר המיידי, מה שעשוי לשפר את יכולתו ללכוד תלויות מורכבות. מנגנון החלפת ערכים מעודן בתוך כלל העדכון הרקורנטי המרכזי שלו, המרחיב את תפיסת כלל הדלתא (delta rule), מגביר עוד יותר את כושר הביטוי של המודל ואת יכולתו לזיהוי תבניות מורכבות.
שיפורים אלו אינם רק שיפורים אמפיריים; הם מעניקים ל-RWKV-7 יכולות תיאורטיות העולות על אלו המיוחסות לעתים קרובות ל-Transformers סטנדרטיים תחת הנחות מורכבות טיפוסיות. החוקרים מספקים ראיות המצביעות על כך ש-RWKV-7 יכול לעקוב ביעילות אחר מצבים מורכבים, ובאופן משמעותי, לזהות את כל מחלקת השפות הרגולריות (regular languages), הישג הנחשב למאתגר עבור Transformers ונילה ללא שינויים מיוחדים או סקיילביליות חישובית שעלולה להיות אוסרנית.
כדי להדגיש את מחויבותם למדע פתוח ולהתקדמות שיתופית, צוות המחקר שחרר לא רק את פרטי הארכיטקטורה אלא גם חבילה של מודלי RWKV-7 שאומנו מראש. מודלים אלו משתרעים על פני מגוון גדלים, החל מ-0.19 מיליארד פרמטרים זריזים ועד לגרסה העוצמתית של 2.9 מיליארד פרמטרים, הנותנים מענה לתקציבי חישוב וצרכי יישום מגוונים. מודלים אלו מלווים בקורפוס רב-לשוני נרחב של 3.1 טריליון טוקנים, המכונה RWKV World v3, שהיה חיוני לאימון המודלים ומהווה בעצמו משאב יקר ערך לקהילה. כל התרומות הללו, כולל משקולות המודל וקוד הבסיס, זמינות תחת רישיון הקוד הפתוח המתירני Apache 2.0, המעודד אימוץ נרחב, בחינה ופיתוח נוסף.
צלילה עמוקה לארכיטקטורה: המנוע המניע את RWKV-7
פילוסופיית העיצוב של RWKV-7 מתבססת על היסודות המוצקים שהונחו על ידי RWKV-6, וירשה תכונות כמו token-shift למידול זמני משופר, מנגנוני בונוס להתנהגות דמוית-קשב מעודנת, ומבנה רשת feedforward יעיל מסוג ReLU². עם זאת, איטרציית ‘Goose’ מציגה מספר שיפורים קריטיים שביחד מרימים את יכולותיה.
- שער מצב בעל ערכים וקטוריים (Vector-Valued State Gating): בניגוד לשערים סקלריים פשוטים יותר, RWKV-7 משתמש בשערים וקטוריים. זה מאפשר לערוצים או ממדים שונים בתוך המצב הרקורנטי להתעדכן ולהיות מווסתים באופן עצמאי, ומספק דרגת שליטה עדינה הרבה יותר על האופן שבו מידע נמשך או דועך לאורך זמן. גרנולריות מוגברת זו משפרת את יכולת המודל לנהל מידע הקשרי מורכב ורב-פנים.
- קצבי למידה אדפטיביים בתוך ההקשר (Adaptive In-Context Learning Rates): מנגנון חדשני מאפשר ל”קצב הלמידה” הפנימי של המודל להטמעת הקשר להסתגל באופן דינמי בהתבסס על הטוקנים המעובדים. זה מצביע על כך שהמודל יכול להגביר את המיקוד שלו במידע חדש או מפתיע תוך הפחתת משקל פוטנציאלית של קלטים מיותרים, מה שמוביל ללמידה יעילה יותר ולייצוג מצב.
- ניסוח מעודן של כלל הדלתא (Refined Delta Rule Formulation): בלוק ערבוב הזמן המרכזי (time-mixing block), האחראי על שילוב מידע מהעבר, רואה עידון משמעותי של כלל הדלתא. זה כרוך באינטראקציות מורכבות בין טוקנים נכנסים למצב הרקורנטי, תוך שימוש במטריצות ניתנות לאימון (המסומנות בממד המודל D) לטרנספורמציות מתוחכמות. התהליך כולל הכנת משקולות באמצעות Multi-Layer Perceptrons (MLPs) בדרגה נמוכה ליעילות. רכיבים מרכזיים השולטים בהתפתחות המצב כוללים:
- מפתחות החלפה (Replacement Keys): קביעת חלקי המצב שיש לעדכן.
- גורמי דעיכה (Decay Factors): שליטה במהירות שבה מידע מהעבר דועך.
- קצבי למידה (Learning Rates): ויסות עוצמת העדכונים בהתבסס על הקלט הנוכחי.
- מנגנון מפתח-ערך משוקלל (Weighted Key-Value - WKV): מנגנון זה מרכזי בקירוב הקשב הלינארי של ארכיטקטורת RWKV. הוא מאפשר מעברי מצב דינמיים המבוססים על אינטראקציות משוקללות בין מפתחות וערכים הנגזרים מרצף הקלט, ופועל למעשה כשער שכחה מתוחכם המאפשר למודל לשמור או למחוק באופן סלקטיבי מידע מהעבר בהתבסס על רלוונטיות.
- שיפורי כושר ביטוי (Expressivity Enhancements): RWKV-7 משלב שינויים לכל ערוץ ומשתמש במבנה MLP דו-שכבתי ברכיבים מסוימים. שינויים אלו נועדו לא רק להגדיל את כוח הייצוג של המודל אלא גם לשפר את היציבות החישובית והדיוק הנומרי במהלך האימון וההסקה, תוך שמירה קפדנית על יכולות מעקב המצב המכריעות הטבועות בעיצוב ה-RNN.
משטר האימון של RWKV-7 מינף את קורפוס RWKV World v3 החדש שנאסף. מאגר נתונים עצום זה, המכיל למעלה מ-3 טריליון טוקנים, נאסף בכוונה כדי לחזק את מיומנות המודל לא רק באנגלית אלא גם באופן משמעותי בשפות שונות אחרות ובקוד תכנות, המשקף את הצורך הגובר במודלי יסוד רב-לשוניים ומודעי-קוד באמת.
יתר על כן, המחקר מספק בסיס תיאורטי לכוחו של RWKV-7. מוצעות הוכחות המדגימות את יכולתו לפתור בעיות הנחשבות מעבר להישג ידה של מחלקת המורכבות TC₀, הכוללת משימות כמו מעקב אחר מצבי S₅ (ניהול תמורות של 5 אלמנטים) והזיהוי של כל השפות הרגולריות שהוזכר לעיל. יתרון תיאורטי זה מצביע על כך ש-RWKV-7 עשוי להתמודד עם סוגים מסוימים של משימות מובנות או אלגוריתמיות באופן טבעי ויעיל יותר מארכיטקטורות Transformer קונבנציונליות. תוצאה מעשית מעניינת של העיצוב הארכיטקטוני היא ההצעה לנתיב שדרוג חסכוני. שיטה זו מאפשרת פוטנציאלית לשפר מודלי RWKV קיימים כדי לשלב שיפורים ארכיטקטוניים חדשים מבלי לחייב מחזור אימון מחדש מלא ויקר, ובכך מאפשרת פיתוח מודלים זריז ותוספתי יותר.
מדידת ה-'Goose': ביצועים על פני אמות מידה מגוונות
כדי להעריך בקפדנות את יכולותיו של RWKV-7, המודלים עברו הערכה מקיפה באמצעות LM Evaluation Harness המאומץ באופן נרחב. מסגרת זו מספקת חבילה סטנדרטית של אמות מידה המכסות קשת רחבה של משימות הבנת שפה ויצירתה. ההערכות כללו הן אמות מידה ממוקדות-אנגלית והן מגוון אתגרים רב-לשוניים.
התוצאות מציירות תמונה משכנעת של יכולתו של RWKV-7. על פני אמות מידה רבות, מודלי RWKV-7 הראו רמות ביצועים תחרותיות ביותר מול מודלים מובילים מבוססים, כולל ארכיטקטורות בולטות מבוססות-Transformer. זה ראוי לציון במיוחד בהתחשב בנפח הנמוך משמעותית של טוקני אימון ששימשו עבור RWKV-7 בהשוואה לרבים ממתחריו. לדוגמה, באמת המידה המאתגרת MMLU (Massive Multitask Language Understanding), RWKV-7 הראה שיפורים ניכרים לעומת קודמו, RWKV-6. הישגיו היו בולטים עוד יותר במשימות רב-לשוניות, המשקפים ישירות את היתרונות הנגזרים מקורפוס האימון הנרחב והמגוון RWKV World v3.
מעבר לאמות מידה אקדמיות סטנדרטיות, ההערכה שילבה גם הערכות באמצעות נתוני אינטרנט עדכניים. מבחנים אלו נועדו לאמוד את יכולת המודל לעבד ולהסיק מסקנות לגבי מידע עדכני, ואישרו את יעילותו בטיפול בידע ובשימוש בשפה עכשוויים.
חוזקות ספציפיות שהודגשו במהלך ההערכה כוללות:
- שליפה אסוציאטיבית (Associative Recall): המודל הפגין יכולת חזקה לשלוף מידע המבוסס על רמזים אסוציאטיביים, יכולת קריטית למשימות הכוללות אחזור ידע והסקה.
- עיצוב ארכיטקטוני מכניסטי (Mechanistic Architecture Design): ההערכות מאמתות באופן מרומז את יעילות הבחירות הארכיטקטוניות הספציפיות שנעשו ב-RWKV-7, ומראות את תרומתן לביצועים הכוללים.
- שימור הקשר ארוך (Long-Context Retention): בעודו נהנה משימוש קבוע בזיכרון, המודל הציג גם יכולת מעשית בשמירה ושימוש במידע על פני אורכי רצף מורחבים, דבר חיוני למשימות הדורשות מידול תלויות ארוכות טווח.
באופן מכריע, הישגי הביצועים הושגו ביעילות חישובית מדהימה. למרות שפעל תחת אילוצים במשאבי אימון זמינים בהשוואה לכמה ענקי תעשייה, RWKV-7 השיג את ציוני אמת המידה החזקים שלו תוך דרישת פחות פעולות נקודה צפה (FLOPs) במהלך האימון מאשר מספר מודלי Transformer מובילים בגודל דומה. זה מדגיש את יעילות הפרמטרים ואת היתרונות הטבועים בעיצוב הרקורנטי בעל הסקיילביליות הלינארית שלו. השילוב של ביצועים ברמת SoTA (במיוחד רב-לשונית) וחסכנות חישובית מעולה ממצב את RWKV-7 כחלופה עוצמתית ומעשית בנוף מידול הרצפים.
ניווט במכשולים נוכחיים וחזון לאופקים עתידיים
למרות הישגיו המרשימים והיתרונות הטבועים בו, ארכיטקטורת RWKV-7, כמו כל טכנולוגיה מורכבת, אינה חפה ממגבלות ותחומים לשיפור עתידי. החוקרים מודים בגלוי במספר אתגרים:
- רגישות לדיוק נומרי (Numerical Precision Sensitivity): היבטים מסוימים בחישובי המודל יכולים להיות רגישים לדיוק נומרי, ועלולים לדרוש יישום וטיפול זהירים, במיוחד במהלך אימון בפורמטים של דיוק נמוך יותר (כמו bfloat16) כדי לשמור על יציבות וביצועים.
- חוסר בכוונון הוראות (Lack of Instruction Tuning): מודלי RWKV-7 ששוחררו, בעת הצגתם, לא עברו כוונון הוראות בקנה מידה גדול או למידת חיזוק ממשוב אנושי (RLHF). משמעות הדבר היא שהם עשויים להיות פחות מיומנים ממקבילים מכווננים במעקב אחר הוראות מורכבות או בעיסוק בדיאלוג מורכב באופן zero-shot.
- רגישות להנחיה (Prompt Sensitivity): כמו מודלי שפה גדולים רבים, איכות הפלט של RWKV-7 יכולה לפעמים להיות רגישה לניסוח ולמבנה הספציפיים של הנחיית הקלט. השגת תוצאות אופטימליות עשויה לדרוש מידה מסוימת של הנדסת הנחיות (prompt engineering).
- משאבים חישוביים מוגבלים (Restricted Computational Resources): למרות היעילות ביחס לביצועים, הפיתוח והאימון עדיין נערכו תחת מגבלות משאבים בהשוואה לכוח החישוב העצום הזמין לכמה מעבדות AI גדולות. מאמצי סקיילביליות עשויים לחשוף אתגרים או הזדמנויות חדשות.
במבט קדימה, מפת הדרכים לפיתוח RWKV כוללת מספר כיוונים מבטיחים שמטרתם לטפל במגבלות אלו ולשפר עוד יותר את יכולות הארכיטקטורה. תחומי מיקוד מרכזיים כוללים:
- אופטימיזציה של מהירות ההסקה (Optimizing Inference Speed): מאמצים מתמשכים לאופטימיזציה של בסיס הקוד ובחינה פוטנציאלית של יישומים ספציפיים לחומרה יכולים לשפר עוד יותר את מהירות ההסקה המועילה ממילא, ולהפוך את הפריסה למעשית עוד יותר.
- שילוב חשיבה בשרשרת מחשבה (Incorporating Chain-of-Thought Reasoning): חקירת שיטות להפקת או אימון יכולות חשיבה בשרשרת מחשבה (CoT) במסגרת RWKV עשויה להגביר משמעותית את ביצועיה במשימות פתרון בעיות מורכבות הדורשות היסק לוגי רב-שלבי.
- סקיילביליות עם מאגרי נתונים גדולים יותר וגדלי מודלים (Scaling with Larger Datasets and Model Sizes): מינוף הארכיטקטורה היעילה לאימון מודלים גדולים עוד יותר על גרסאות מורחבות פוטנציאליות של מאגר הנתונים הרב-לשוני טומן בחובו הבטחה לדחוף את גבולות הביצועים עוד יותר.
- כוונון הוראות ויישור (Instruction Tuning and Alignment): יישום טכניקות מבוססות למעקב אחר הוראות ויישור עם העדפות אנושיות יהיה חיוני כדי להפוך את מודלי RWKV לידידותיים יותר למשתמש וניתנים לשליטה עבור יישומים במורד הזרם.
הזמינות הפתוחה של מודלי RWKV-7, מאגר נתוני האימון הנרחב, והקוד הנלווה תחת רישיון Apache 2.0 משמשים כזרז רב עוצמה למעורבות קהילתית. היא מעודדת מחקר רחב יותר במידול רצפים יעיל, מאפשרת אימות עצמאי של תוצאות, ומעצימה מפתחים לבנות על ארכיטקטורה רקורנטית חדשנית זו, ובכך עשויה להאיץ את ההתקדמות לעבר מערכות AI בעלות יכולת גבוהה יותר, נגישות יותר וברות-קיימא מבחינה חישובית.