חלוץ בנתיב טכני לא שגרתי
האם תוכל להציג את עצמך בקצרה?
אני ג’ונג יי ראן, מנהל מחקר בכיר ב-MiniMax, שם אני מפקח בעיקר על עיצוב ארכיטקטורות רשת ומודלים גדולים להבנה מולטי-מודלית. ב-MiniMax, האחריות העיקרית שלי היא להוביל את העיצוב של מבנה רשת MiniMax-01.
בעבר, שימשתי כ-PI עבור קבוצת חקר הארכיטקטורה החדשה במעבדת הבינה המלאכותית של שנחאי, והתמקדתי בשיטות מידול אימון יעילות עבור ארכיטקטורות שאינן טרנספורמר ובמחקר על מיזוג מולטי-מודלי חזותי-שמיעתי-לשוני.
מתי התחלת לחקור תשומת לב ליניארית, ומדוע בחרת בנתיב טכני זה?
התחלתי לחקור תשומת לב ליניארית בסביבות יולי 2021. זה נבע ממאמר שעבדתי עליו לדוקטורט שלי בשנת 2020, “Invertible Attention.” באותה תקופה, גם רשתות עצביות הפיכות וגם מנגנוני תשומת לב היו די פופולריים, אז שילבנו אותם במחקר שלנו.
מאוחר יותר, כמה מחברי הצוות שלנו התעניינו מאוד במתמטיקה. שיטות מידול רצפים יעילות כמו תשומת לב ליניארית דורשות בסיס מתמטי חזק וכוללות גזירות נוסחאות רבות, שהתאימו באופן מושלם לתחומי העניין של הצוות, אז בחרנו בכיוון זה.
מה היה מצב תשומת הלב הליניארית בתעשייה באותה תקופה?
זה היה מאוד לא מיינסטרים, עם מעט אנשים שעבדו על זה. רוב החוקרים התמקדו בטרנספורמרים, שלמעשה הפכו לכוח הדומיננטי ב-NLP.
חשבנו שבמקום להיות סתם פנים נוספות בקהל שעוסקות במחקר טרנספורמרים, עלינו לעשות משהו שונה.
כיצד הערכת את הפוטנציאל הטכני של מסלול תשומת הלב הליניארית?
המניע הראשוני שלנו היה פשוט: לטפל במורכבות החישובית הריבועית של טרנספורמרים. בדקנו שיטות שונות, כולל טרנספורמרים דלילים ותשומת לב ליניארית.
גילינו שטרנספורמרים דלילים אכן עבדו, והציעו מהירות גבוהה יותר ושימוש נמוך יותר בזיכרון בהשוואה לטרנספורמרים. עם זאת, תשומת לב ליניארית הניבה ביצועים גרועים והייתה גם איטית. למרות זאת, בחרנו להמשיך בתשומת לב ליניארית.
סיבה אחת הייתה המשיכה המתמטית שלה – האמנו שהביצועים שלה צריכים להיות טובים יותר. השנייה הייתה שהרגשנו שהגבול העליון של תשומת לב דלילה הוא תשומת לב מלאה, מה שמקשה על חריגה ממנה. לתשומת לב ליניארית, לעומת זאת, היה פוטנציאל לעלות עליה.
האם תוכל להסביר מהי תשומת לב ליניארית?
תשומת לב ליניארית היא בעצם טריק קרנל. בטרנספורמרים, הכפלת המטריצות Q, K ו-V כרוכה במורכבויות חישוביות שונות, תלוי אם מכפילים את QK קודם או KV קודם, עקב הממדים השונים.
הכפלת KV קודם יכולה להפחית את המורכבות החישובית לליניארית. עם זאת, הבעיה היא שהכפלת QK ואחריה פעולת softmax, שאינה מספקת את תכונת החילוף ולא ניתן לפצל אותה בקלות להכפלת KV קודם. לכן, הצעד הראשון בתשומת לב ליניארית הוא להסיר את ה-softmax.
אבל הסרת ה-softmax משפיעה על התוצאות. המשימה הבאה היא לשמור על עקביות בתוצאות ללא softmax, וזה מה שתשומת לב ליניארית שואפת להשיג.
מהם ההבדלים המהותיים בין תשומת לב ליניארית, תשומת לב דלילה וארכיטקטורות RNN ליניאריות?
תשומת לב דלילה היא עדיין בעצם תשומת לב softmax. היא פשוט מחשבת פחות נקודות ממטריצת תשומת לב צפופה. לדוגמה, תשומת לב לחלון הזזה מחשבת רק את ניקוד תשומת הלב בתוך חלון, ומשיגה האצה על ידי הפחתת כמות החישוב.
RNNs ליניאריים ותשומת לב ליניארית הם בעצם אותו הדבר, רק שחלקם קוראים לזה RNNs ואחרים קוראים לזה תשומת לב.
הכל יכול להיכתב בצורת RNN. לדוגמה, תשומת לב ברקים תואמת ל-RWKV-4, בעוד ש-RWKV-7 היא גרסה משופרת של רשת הדלתא המגודרת. למרות שהם דומים במהותם, פרטי היישום שלהם שונים.
מהם אבני הדרך העיקריות במחקר של מנגנוני תשומת לב ליניאריים?
בסביבות 2018-19, מחקר הראה שניתן להפחית את המורכבות החישובית התיאורטית של תשומת לב softmax של טרנספורמר באמצעות טריקים של קרנל, אך התוצאות היו גרועות והיעילות הייתה נמוכה.
בשנים 2019-20, תשומת לב דלילה הייתה דומיננטית, כאשר חברות כמו גוגל הציעו וריאנטים רבים של תשומת לב דלילה. מאוחר יותר, תשומת לב ליניארית החלה להופיע, אך היא התמודדה עם האתגר של ביצועים גרועים ומהירות איטית.
חוקרים אימצו בעיקר שתי גישות לשיפור: האחת הייתה קירוב פונקציית ה-softmax, כך שההתפלגות תתאים ל-softmax; השנייה, שבחרנו בה, הייתה מידול באמצעות שיטות שונות לחלוטין, מבלי לדאוג לקירוב softmax.
פרסמנו את המאמר הראשון שלנו, “COSFORMER: RETHINKING SOFTMAX IN ATTENTION,” באוקטובר 2021, שהחליף את פעולת ה-softmax בפונקציית קוסינוס, שאפשרה לפצל את החישוב.
במחצית הראשונה של 2022, פרסמנו מאמר שני, “The Devil in Linear Transformer,” שניתח את הסיבות לירידה בביצועים של תשומת לב ליניארית וסיפק פתרונות. זה היה המבשר לתשומת לב ברקים.
מאוחר יותר, חקרנו גם קידודים מיקומיים במיוחד עבור תשומת לב ליניארית וקונבולוציות ארוכות, ופרסמנו את TNN, “TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING,” שיטה הדומה ל-S4 (קודמו של Mamba).
לבסוף, השקנו תשומת לב ברקים, שהתאימה לביצועים של טרנספורמרים באמצעות שיטות ריקבון משופרות ומבני רשת. השתמשנו גם בטכניקת ריצוף כדי להפוך אותה למהירה יותר.
מה דעתך על המסלולים הטכניים הנוכחיים של ארכיטקטורות שאינן טרנספורמרים?
תשומת לב ליניארית היא למעשה שיטה שאינה טרנספורמר. כיום, מלבד גישות דמויות RNN, ארכיטקטורות אחרות שאינן טרנספורמרים נמצאות בירידה.
לדוגמה, רשתות CNN כמו קונבולוציות ארוכות וקונבולוציות קרנל גדולות, מרגישות שהן חוסלו בהדרגה עקב ביצועים גרועים, אך הן למעשה די חזקות בהיבטים מסוימים, עדיין יש להן השפעה מסוימת במידול רצפים, כגון משימות זיהוי אנומליות.
למעשה, ישנן רק שלוש ארכיטקטורות שאינן טרנספורמרים: תשומת לב ליניארית, קונבולוציות ארוכות ו-RNNs ליניאריים.
אבל במציאות, ניתן לאחד את שלושת אלה לאחד, שאותו אנו מכנים מודל המורכבות הליניארית. כתבנו מאמר המקיף את שלושתם.
מהם ההבדלים העיקריים בין תשומת לב ברקים לבין Mamba ו-RWKV?
ההבדל המהותי ביותר הוא שתשומת לב ברקים היא תשומת הלב הליניארית הפשוטה ביותר. גם Mamba וגם RWKV משתמשים בריקבון תלוי נתונים, בעוד שתשומת לב ברקים משתמשת בריקבון בעבודת יד לצורך מהירות.
למרות שריקבון הניתן ללמידה יכול להשיג תוצאות טובות יותר, הוא מקריב מהירות. לדוגמה, RWKV-7 איטי ב-10-15% מרשת הדלתא המגודרת, בעוד שרשת הדלתא המגודרת היא בערך חצי מהמהירות של תשומת לב ברקים.
אפקט המידול של RWKV אכן טוב יותר מתשומת לב ברקים, אבל הוא איטי יותר ועדיין לא פתר את בעיית השליפה.
האם יש כיום קונצנזוס בתעשייה שלתשומת לב ליניארית יש גבול עליון גבוה וכדאי?
לא, אם היה קונצנזוס, כולם היו מגדילים את מודלי תשומת הלב הליניאריים. וזה גם לא קונצנזוס עכשיו. אם זה היה, כולם היו עושים ליניארי, אבל כפי שאתה יכול לראות, זה לא המקרה.
אבל מבחינתנו, כבר ראינו את זה במחצית השנייה של 2023. באותה תקופה, שאלתי אנשים רבים ושוחחתי עם רבים, והנקודה הנפוצה ביותר שהם העלו הייתה שהם ידעו שתשומת לב ליניארית עובדת בקנה מידה קטן, אבל הם הרגישו שהיא תיכשל ברגע שהיא תוגדל.
באותה תקופה, חשבתי שאגדיל אותה כדי שכולם יראו. עכשיו כש-MiniMax-01 יצא, אף אחד לא מטיל ספק ביכולת של תשומת לב ליניארית בקנה מידה גדול.
מניסויים קטנים ליישום בקנה מידה גדול
האם אתה חושב שהגבול העליון של תשומת לב ליניארית יכול לעלות על תשומת לב מלאה?
אנחנו יכולים לראות עכשיו שארכיטקטורות היברידיות טובות יותר מטרנספורמרים טהורים. אבל הבעיה הגדולה ביותר עם תשומת לב ליניארית טהורה היא יכולת השליפה, שהיא בעיה קשה לאקדמיה לפתור.
שיטות קיימות, למרות שהן מורכבות ואיטיות, עדיין לא יכולות לפתור אותה לחלוטין, וזו הסיבה שיש צורך לעבור לארכיטקטורות היברידיות.
איזה צומת צפית שגרם לך להחליט לצאת מהמעבדה?
בחודשים מאי-יוני 2023, כבר היה לנו את תשומת לב הברקים 2 באופן פנימי, שהיה היישום הראשון בעולם של תשומת לב ליניארית שהיה מהיר יותר מתשומת לב פלאש.
אנו מאמינים שהיא חצתה את הקו האדום התעשייתי, והבגרות הטכנולוגית שלה גבוהה מאוד וניתן להגדיל אותה.
כיצד אתה מגדיר את הקו האדום התעשייתי הזה?
ראשית, האפקט טוב יותר מטרנספורמר, ושנית, הוא מהיר יותר מטרנספורמר. זה נותן לה את היכולת להחליף את הטרנספורמר. אימתנו זאת במודל צפוף בקנה מידה של 15B באותה תקופה.
בצומת כשעזבת את המעבדה, מדוע בסופו של דבר התחברת ל-MiniMax?
למעשה, דיברתי עם כמה חברות גדולות באותה תקופה. אבל בסופו של דבר, עדיין גרמתי לזה לקרות עם MiniMax.
קודם כל, cosformer הוא מאמר ששיתפתי פעולה עם ג’ונג’י על כתיבתו. יש לנו בסיס לשיתוף פעולה. ג’ונג’י היה הבוס שלי כשהוא היה ב-SenseTime. בסוף 23, ג’ונג’י הזמין אותי לארוחת ערב. הוא יותר בטוח באפשרויות של הטכנולוגיות המתקדמות האלה. ההבנה שלי היא שהוא גם חיפש פריצת דרך טכנית באותה תקופה.
באותה תקופה, MiniMax סיימה את המחקר על Moe, ולמעשה היו מעט מאוד נקודות פריצת דרך טכניות לשלב הבא. באותה תקופה, תשומת לב הברקים שוחררה, וגם mamba הייתה פופולרית, כך שבעיניו, זה היה כיוון אפשרי.
האם זה קשור למוצר הליווי האינטראקטיבי של MiniMax?
אין קשר. יאן ג’ונג’י מודאג יותר מהגבול העליון של המודל וכיצד לפרוץ עוד יותר את התקרה הזו.
תשומת לב ליניארית עשויה להיות יותר כיוון לפרוץ את היעילות בעין הציבור, ולא לפרוץ את התקרה.
הנקודה כאן היא שקודם כל, כוח המחשוב של כל יצרן הוא קבוע. ככל שניתן להאיץ את המודל מהר יותר, כך הוא יכול לאכול יותר נתונים, וכך המודל המיוצר יהיה טוב יותר. כאשר כוח המחשוב קבוע, ככל שהמודל מהיר יותר, כך הוא טוב יותר.
האם צפית במצב שבו הנתונים הגיעו לשיא?
עדיין לא, נכון? הנתונים עדיין בשלב של הגדלה מתמשכת, אבל זה אולי לא אגרסיבי כמו ב-23.
מכיוון שהנתונים תמיד גדלים, ונתונים חדשים יוצאים כל יום. עבור המודל, יש לו נתונים חדשים לעיבוד כל יום. הנתונים המיוצרים על ידי האינטרנט כל יום הם כל כך רבים. באמצעות ניקוי, אנחנו עדיין יכולים להוציא נתונים חדשים.
בהשוואה לנתונים שהתקיימו במשך כל כך הרבה שנים של התפתחות אנושית, האם קצב גידול הנתונים הואט?
למעשה, לא בהכרח. תסתכל על חמשת אלפים שנה של ההיסטוריה של סין, ורק מעט הספרים האלה הצטברו. אבל עם התפתחות האינטרנט, הגידול בנפח הנתונים הוא עקומה תלולה מאוד. סך הנתונים שנוצרו לפני האינטרנט עשויים שלא להיות גדולים כמו הנתונים שנוצרו בשנה אחת מאוחר יותר.
במהלך תהליך ההגדלה, אילו אתגרים עמדו בפני תשומת לב הברקים?
כדי לוודא את יכולת ההרחבה שלו, ערכנו תחילה ניסויי חוק הרחבה, והרחבנו בהדרגה ממודלים קטנים ל-7B, 9B, ולבסוף הרחבנו למודלים עם יותר מ-400B.
והוכחנו מבחינה תיאורטית שהקיבולת של ליניארי גדולה מזו של טרנספורמר.
אנו מגדירים קיבולת כגודל המצבים הנוכחיים של RNN. עבור טרנספורמר, גודל הקיבולת הוא O(d), כאשר d הוא הגודל; עבור תשומת לב ליניארית, גודל הקיבולת הוא d²/h. מכיוון ש-d גדול בהרבה מ-h, הקיבולת גדולה יותר.
בסופו של דבר, גם וידאנו שהמודל ההיברידי טוב יותר מהטרנספורמר הטהור.
כיצד מושג חלון רצף באורך 4M?
עבור ברקים, אורך האימון יכול להיות שרירותי. כל עוד כוח המחשוב מנוצל במלואו, המהירות של אימון 8K, 32K או 128K זהה, וה-TGS (אסימון לכל GPU לשנייה) זהה.
מכיוון שלטרנספורמר יש מורכבות חישובית n², ככל שהרצף ארוך יותר, כך המורכבות החישובית גדלה מהר יותר, והשהייה גדלה בעקומה ריבועית. באורך 1M, ההשהייה של תשומת לב softmax גדולה פי 2,700 מזו של תשומת לב ברקים.
אילו אתגרים טכניים עדיין צריכים להיפתר כדי להשיג חלון הקשר אינסופי בעתיד?
בארכיטקטורה ההיברידית הנוכחית שלנו, עדיין יש 1/8 של תשומת לב softmax. זה צוואר בקבוק באורך 1M. ההשהייה שמביא 1/8 זה גבוהה בהרבה מ-7/8 הנותרים של תשומת לב ליניארית.
אם אנחנו רוצים לייעל טקסט ארוך, אנחנו חייבים לשקול לייעל את החלק של תשומת לב softmax. אנחנו יכולים ללמוד משיטות תשומת לב דלילה כדי להפוך אותו למהיר וקל יותר.
בנוסף, אנחנו גם שוקלים להפוך את יחס הערבוב של softmax ותשומת לב ליניארית לקיצוני יותר, לא עוד 1/8, אלא אולי 1/16 או 1/32. הפתרון הקיצוני ביותר הוא לשים רק שכבה אחת של softmax בכל המודל, אבל לביטחון, לא אימצנו אותו, בעיקר בהתחשב בהשפעה על יכולת השליפה.
מדוע יכולת השליפה כל כך חשובה למודל?
שליפה היא הבסיס ללמידה בהקשר והיא תנאי הכרחי.
אתה חייב לזכור את המידע בהקשר כדי לעשות למידה בהקשר, ולמידה בהקשר היא הבסיס לכל היכולות המתקדמות של מודלים גדולים נוכחיים, כגון CoT (שרשרת חשיבה), במיוחד CoT ארוך, שכולם מסתמכים על יכולת שליפה.
ארכיטקטורה חדשה נחרצת
האם שמת לב לשיפורים הארכיטקטוניים האחרונים ב-FFN ותשומת לב בתעשייה?
השיפור של FFN הוא Moe. גם שמתי לב ל-Ultra Mem של Byte, אבל אני חושב שזה דבר אובדן, דחיסה אובדת. ייתכנו בעיות אם זה יוגדל בעתיד, אבל לא הגדלנו, אז אני יכול רק לומר שייתכנו בעיות.
מכיוון ש-FFN הוא בעצם אלה. השיפורים שלנו באזור Moe הם לא יותר מאשר שינוי מהמומחה הגדול הקודם למצב המומחה הקטן הנוכחי, מה שהופך אותו לדליל יותר, ואז עושים קצת האצה, שדורשת מחקר נוסף.
אם אתה רוצה לייעל אותו עוד יותר, מכיוון ש-FFN הוא כפל מטריצות, ניתן לבצע את האופטימיזציה רק ברמת CUDA על ידי Nvidia, ולבצע חלק מהאופטימיזציות ברמה התחתונה של כפל מטריצות.
האם שמת לב לשיפורים בארכיטקטורת תשומת הלב בתעשייה?
השיפורים בתשומת לב הם בעצם ליניאריים. אנחנו גם שוקלים האם ליצור Linear חזק יותר בעתיד, ולהאיץ עוד יותר את תשומת הלב הליניארית על הבסיס הנוכחי.
ישנן דרכים רבות לשיפור, אחת היא לשנות את הריקבון, והשנייה היא לשנות כמה טריקים קטנים בפנים. אתה יכול לצפות למאמר החדש שלנו.
האם היחס הנוכחי שלנו בין אורך ההקשר לעלות ההסקה מתקדם יחסית?
ברגע שזה כרוך בהארכת אורך הרצף, יש לנו יתרון בעלות כוח מחשוב ברור מאוד. ככל שהוא ארוך יותר, כך יתרון העלות יהיה ברור יותר, בין אם זה הסקה או אימון.
לדוגמה, ב-1M, כוח המחשוב הנצרך על ידי תשומת לב ליניארית הוא 1/2700 מתשומת לב מלאה. בהשוואה, מכיוון שעדיין יש לנו 1/8 של תשומת לב מלאה, הוא בעצם 1/8 מארכיטקטורת הטרנספורמר, מכיוון שתשומת לב ליניארית בעצם לא נחשבת כהוצאה.
אם עלות החישוב כל כך נמוכה, האם זה יכול להשיג צוואר בקבוק של חישוב?
עכשיו זה אכן צוואר בקבוק של גישה לזיכרון. פענוח הוא צוואר בקבוק של גישה לזיכרון, לא צוואר בקבוק של חישוב. מכיוון שברקים מהירים מאוד, הם מהירים מדי כדי לאפשר לגישה לזיכרון לתפוס מעט משאבים כמו חישוב. זה נובע בעיקר מכך שאורך הרצף ביישומים בפועל אינו ארוך מספיק.
כיצד להפוך אותו לצוואר בקבוק של חישוב בעתיד תלוי באופן ייעול הגישה לזיכרון. אלה יהיו דברים שמחלקת ההנדסה צריכה להיות אחראית עליהם.
אם ארכיטקטורה ליניארית תהפוך לארכיטקטורה המרכזית של הדור הבא, אילו שיפורי התאמת חומרה יהיו מתאימים יותר עבורה?
דבר מסובך מאוד כאן הוא שאנחנו צריכים לשקול את אורך הרצף. אם אורך הרצף שלך מתמקד ב-8K או 32K, אז תשומת לב מהווה רק קצת יותר מעשרה אחוזים, ושמונים האחוזים הנותרים הם החלק FFN.
גם אם תייעל את תשומת הלב לקיצוניות, ל-0, ייעלת רק קצת יותר מעשרה אחוזים מההשהייה. אבל אם תאריך את אורך הרצף, שיעור תשומת הלב יהפוך לגדול יותר ויותר. זה בהשוואה לתשומת לב מלאה, אבל עבור תשומת לב ליניארית, השיעור שלה אינו משתנה.
מכיוון ש-FFN הוא גם ליניארי, ותשומת לב ליניארית היא גם ליניארית, השיעור שלה הוא כ-10%, שהוא כמעט ללא שינוי, אפילו במקרה של 1M.
אבל אם זו תשומת לב מלאה, חישוב תשומת לב עשוי להוות 99%, וה-FFN הבא מהווה רק 1%. אז לתשומת לב ליניארית יש יתרונות רק בטקסטים ארוכים.
אם הארכיטקטורה הליניארית תהפוך למרכזית, אז המרדף עשוי להיות חומרה דלת אנרגיה, רק הפחתת צריכת האנרגיה. כולל שבבי רשת עצבית Spike (SNN) עשויים להתאים יותר, וכמה אנשים אכן עושים זאת.
מצפים לדרך ל-AGI
מה הציפיות שלך מאפקט הקוד הפתוח של המודל?
הראשון הוא אפקט הפרסום. אני אישית חושב שבנוסף להצגת שרירים, הדבר החשוב ביותר עבור קוד פתוח הוא לראות כיצד כולם יכולים להשתמש בו בעתיד. אני חושב שקוד פתוח של מודל קטן עשוי להיות מה שאנחנו שוקלים לעשות בעתיד יותר.
וגם איך ליצור קצת תשתית כדי שכולם יוכלו לכוונן עדין עשויה להצטרך להיחשב. קוד פתוח הוא דבר לטווח ארוך עבורנו בעתיד, ומודלי הדגל צריכים להמשיך להיות קוד פתוח.
האם ייתכן שארכיטקטורת דם טהור שאינה היברידית תפעל בעתיד?
נכון לעכשיו, אין שיטה שיכולה לעשות טוב יותר מהיברידי, במיוחד מבחינת מהירות. הוספת חלק קטן של תשומת לב softmax, יתרון המהירות ברור מאוד כאשר אורך הרצף אינו ארוך במיוחד, במיוחד לאחר הופעתה של תשומת לב פלאש.
המחקר על ארכיטקטורת דם טהור עדיין נמשך, אבל זה קשה מאוד, ואין יותר פירות נמוכים. יש לנו כמה פתרונות טכניים, אבל היישום אינו פשוט, ובסופו של דבר זה תלוי באיזה אורך רצף אנחנו צריכים להשיג.
שאלה נוספת היא, האם יש ביקוש חזק לטקסטים ארוכים במיוחד? למרות שמודלים כמו Claude הגיעו להקשר של 200K, נראה שהמשתמשים מרוצים מאוד מהאורך הנוכחי. יישומי סוכנים עשויים להביא ביקוש לרצפים ארוכים במיוחד בעתיד, אך עדיין אין מדד בוגר.
אבל אני חושב שהבעיה הזו היא כמו שנבידיה מפתחת כרטיסי גרפיקה עם ביצועים מתקדמים למשחקים עתידיים, למרות שהם לא נחוצים כעת, זו טכנולוגיה לעתיד.
לדוגמה, מחקר מעמיק דורש מהמודל לקרוא את התוכן של עשרות אתרי אינטרנט, וזמן העיבוד הוא בסדר גודל של עשרות דקות, וזה עשוי להיות כיוון יישומי עבור טקסטים ארוכים.
מה אתה חושב שהדבר הגדול הבא אחרי CoT עשוי להיות?
חשבנו על זה. קודם כל, מודל ההסקה הנוכחי פופולרי יחסית, והמיינסטרים השנה עדיין יהיה חלק ההסקה. אחרי זה, קשה לנו לחשוב על שינויים גדולים במיוחד בעתיד של מודלי שפה טהורים.
גם שוחחתי עם מורים אחרים, והתחושה שלהם היא שכולם יפחיתו מחדש את עלות המודל, כך שמהירות ההסקה תהפוך למהירה יותר ויותר, והמחיר שלה יהפוך לנמוך יותר ויותר, והעלות תופחת תוך שמירה על האפקט.
מכיוון שהתקרה מתקרבת במהירות, רוב המקרים בודקים וממלאים פערים ביכולות של מודלים גדולים. אבל אם יהיו אפילו פריצות דרך טכנולוגיות גדולות יותר, הן עשויות להיות נדירות יחסית בטווח הקצר, ועדיין לא ראינו אותן.
לאחר ש-MiniMax חקרה תשומת לב ליניארית, מה עשוי להיות הכיוון הבא לחקור?
הדבר הבא עשוי להיות חקר הארכיטקטורה של מולטי-מודלית, במיוחד האם אנחנו רוצים לעשות את הארכיטקטורה הגדולה המאוחדת של הדור וההבנה המקוריים הזו.
כאשר AGI היא נקודת הסיום, איזה מודל עם מורכבות חישובית של O(n²) או O(n) יהיה תשובה טובה יותר?
כמובן שזה O(n). מנקודת מבט של האנשת אדם, אנשים חייבים להיות מורכבות O(n). לדוגמה, אם המורכבות של אדם היא O(n²), אז המהירות שבה אני מדבר אליך תהפוך לאטית יותר ויותר.
מכיוון שעבור טרנספורמר, מורכבות ההסקה שלו היא מורכבות חישובית O(n²), כלומר, ההשהייה של יריקת האסימון הראשון ויריקת האסימון ה-100 שונה.
אנחנו בני האדם לא יכולים לדמיין דבר כזה, כי אנשים מעולם לא הפעילו מחדש מאז שנולדו, וכל הזמן יורקים דברים החוצה, אז המורכבות החישובית של אנשים היא קבועה.
האם האדם הוא בהכרח הפתרון האופטימלי לאינטליגנציה?
אנחנו יכולים לחשוב ככה רק כרגע. יש גם כמה אנשים שעושים את המסלול של אינטליגנציה ביונית, אבל לא הקדשנו יותר מדי תשומת לב לכיוונים האלה.
כאשר AGI הוא משחק הסיום, אילו תחומים של שיפור מודל הם הדברים החשובים ביותר?
בנוסף למידול שפה, יש גם את הבעיה של שיטות למידה. איך אתה לומד, ולומד מהסביבה, לומד מהאינטראקציה עם הסביבה חשוב מאוד. אחרי הכל, ההבנה הרב-מודלית הנוכחית עדיין חסרה מאוד בנתונים.
ואפילו הלמידה המועטה של מכונות מסומנת כעת, אבל הלמידה האנושית אינה מסומנת. אז איך לאחד הכל תחת מסגרת שבנינו בעצמנו היא גם בעיה.