חשיבה מחודשת על שבבי AI ותשתית

הקצב המהיר של החדשנות בטכנולוגיית AI, המודגם על ידי ההתקדמות של DeepSeek, מחייב הערכה מחודשת מהותית של האופן שבו אנו בונים מרכזי נתונים, שבבים ומערכות כדי לספק את כוח המחשוב הדרוש. החידושים ההנדסיים של DeepSeek הפחיתו באופן משמעותי את עלויות המחשוב של AI, מה שמעורר דיון רחב יותר על עתיד תשתית ה-AI.

בעוד ש-DeepSeek אולי לא הרחיבה באופן דרסטי את גבולות טכנולוגיית ה-AI, השפעתה על שוק ה-AI עמוקה. טכנולוגיות כמו Mixture of Experts (MoE), Multi-Layer Attention (MLA) ו-Multi-Token Prediction (MTP) צברו בולטות לצד DeepSeek. למרות שלא כל הטכנולוגיות הללו היו חלוצות על ידי DeepSeek, היישום המוצלח שלהן האיץ אימוץ נרחב. MLA, במיוחד, הפך למוקד דיון על פני פלטפורמות שונות, ממכשירי קצה ועד מחשוב ענן.

MLA והאתגר של חדשנות אלגוריתמית

אלעד רז, מנכ’ל NextSilicon, ציין לאחרונה כי בעוד MLA משפר את יעילות הזיכרון, הוא עלול גם להגדיל את העומס על מפתחים ולסבך את היישום של AI בסביבות ייצור. משתמשי GPU עשויים להזדקק לעסוק באופטימיזציה של ‘קוד ידני’ עבור MLA. דוגמה זו מדגישה את הצורך לחשוב מחדש על היישום של שבבי AI וארכיטקטורות תשתית בעידן שלאחר DeepSeek.

כדי להבין את המשמעות של MLA, חיוני לתפוס את המושגים הבסיסיים של מודלים שפה גדולים (LLMs). כאשר הם מייצרים תגובות לקלט משתמשים, LLMs מסתמכים במידה רבה על וקטורי KV – מפתחות וערכים – המאפשרים למודל להתמקד בנתונים רלוונטיים. במנגנוני קשב, המודל משווה בקשות חדשות עם מפתחות כדי לקבוע את התוכן הרלוונטי ביותר.

אלעד רז משתמש באנלוגיה של ספר, כאשר המפתח הוא כמו ‘כותרות הפרקים של ספר, המציינות על מה כל חלק עוסק, כאשר הערך הוא סיכומים מפורטים יותר תחת הכותרות הללו. אז כאשר משתמש מכניס את הבקשה, הוא מבקש מונח חיפוש כדי לעזור ליצור תשובה. הוא שואל, ‘תחת קו העלילה הזה, איזה פרק הוא הרלוונטי ביותר?’’

MLA דוחס את כותרות הפרקים הללו (מפתחות) ואת הסיכומים (ערכים), ומאיץ את תהליך מציאת התשובות ומגביר את היעילות. בסופו של דבר, MLA עוזר ל-DeepSeek להפחית את השימוש בזיכרון ב-5-13%. מידע מפורט יותר ניתן למצוא במאמר הרשמי של DeepSeek. כנס המפתחים של MediaTek אפילו דן בתמיכה ב-MLA בשבבי הנייד Dimensity שלהם, מה שמדגיש את השפעתה הנרחבת של DeepSeek.

טכנולוגיות כמו MLA מייצגות חידושים אלגוריתמיים טיפוסיים בעידן ה-AI. עם זאת, הקצב המהיר של פיתוח טכנולוגיית AI מוביל לזרם מתמיד של חידושים, אשר בתורם יוצר אתגרים חדשים, במיוחד כאשר חידושים אלה מותאמים לפלטפורמות ספציפיות. במקרה של MLA, משתמשי GPU שאינם NVIDIA דורשים קידוד ידני נוסף כדי למנף את הטכנולוגיה.

בעוד שהטכנולוגיות של DeepSeek מדגימות את החדשנות והערך של עידן ה-AI, חומרה ותוכנה חייבות להסתגל לחידושים אלה. לדברי אלעד רז, הסתגלות כזו צריכה למזער את המורכבות עבור מפתחים וסביבות ייצור. אחרת, העלות של כל חידוש הופכת לגבוהה מדי.

השאלה אז הופכת להיות: ‘מה קורה אם חידוש האלגוריתם הבא לא מתורגם היטב ופשוט לארכיטקטורות קיימות?’

הסכסוך בין עיצוב שבבים לחדשנות אלגוריתמית

במהלך השנים האחרונות, יצרני שבבי AI דיווחו בעקביות כי עיצוב שבבי AI גדולים לוקח לפחות 1-2 שנים. המשמעות היא שעיצוב שבבים חייב להתחיל זמן רב לפני השחרור של שבב לשוק. בהתחשב בהתקדמות המהירה בטכנולוגיית AI, עיצוב שבבי AI חייב להיות צופה פני עתיד. התמקדות אך ורק בצרכים הנוכחיים תביא לשבבי AI מיושנים שלא יכולים להסתגל לחידושי היישומים האחרונים.

חדשנות אלגוריתמית של יישומי AI מתרחשת כעת על בסיס שבועי. כפי שצוין במאמרים קודמים, כוח המחשוב הנדרש למודלים של AI כדי להשיג את אותן יכולות פוחת פי 4-10 מדי שנה. עלות ההסקה של מודלים של AI המשיגים איכות דומה ל-GPT-3 פחתה פי 1200 בשלוש השנים האחרונות. נכון לעכשיו, מודלים עם 2B פרמטרים יכולים להשיג את אותה רמה כמו GPT-3 עם 170B פרמטרים של אתמול. החדשנות המהירה הזו בשכבות העליונות של מחסנית טכנולוגיית ה-AI מציבה אתגרים משמעותיים לתכנון ועיצוב ארכיטקטורת שבבים מסורתית.

אלעד רז מאמין שהתעשייה צריכה להכיר בחידושים כמו DeepSeek MLA כנורמה עבור טכנולוגיית AI. ‘דור המחשוב הבא צריך לא רק לבצע אופטימיזציה עבור עומסי העבודה של היום אלא גם להתאים לפריצות דרך עתידיות.’ נקודת מבט זו חלה לא רק על תעשיית השבבים אלא על כל התשתית הבינונית-נמוכה של מחסנית טכנולוגיית ה-AI.

‘DeepSeek וחידושים אחרים הדגימו את ההתקדמות המהירה של חדשנות אלגוריתמית’, אמר אלעד רז. ‘חוקרים ומדעני נתונים זקוקים לכלים רב-תכליתיים וחסינים יותר כדי להניע תובנות ותגליות חדשות. השוק זקוק לפלטפורמות מחשוב חומרה חכמות המוגדרות על ידי תוכנה, המאפשרות ללקוחות ‘להחליף’ פתרונות מאיץ קיימים, תוך שהן מאפשרות למפתחים להעביר את עבודתם ללא כאבים.’

כדי לטפל במצב זה, התעשייה חייבת לעצב תשתית מחשוב חכמה, ניתנת להתאמה וגמישה יותר.

גמישות ויעילות הם לעתים קרובות מטרות סותרות. מעבדי CPU הם גמישים ביותר אך בעלי יעילות מחשוב מקבילית נמוכה משמעותית ממעבדי GPU. מעבדי GPU, עם יכולת התכנות שלהם, עשויים להיות פחות יעילים משבבי ASIC ייעודיים של AI.

אלעד רז ציין כי NVIDIA מצפה שמדפי מרכזי הנתונים של AI יגיעו בקרוב ל-600kW של צריכת חשמל. בהקשר, ל-75% ממרכזי הנתונים הארגוניים הסטנדרטיים יש צריכת חשמל שיא של 15-20kW בלבד למדף. ללא קשר לרווחי היעילות הפוטנציאליים ב-AI, הדבר מציב אתגר משמעותי עבור מרכזי נתונים הבונים מערכות תשתית מחשוב.

לדעתו של אלעד רז, מעבדי GPU ומאיצי AI נוכחיים עשויים שלא להספיק כדי לענות על הדרישות הפוטנציאליות של AI ומחשוב בעל ביצועים גבוהים (HPC). ‘אם לא נחשוב מחדש באופן מהותי על האופן שבו אנו משפרים את יעילות המחשוב, התעשייה מסתכנת בפגיעה בגבולות פיזיים וכלכליים. לקיר הזה יהיו גם תופעות לוואי, שיגבילו את הגישה ל-AI ו-HPC עבור ארגונים נוספים, ויעכבו את החדשנות גם עם התקדמות באלגוריתמים או בארכיטקטורות GPU מסורתיות.’

המלצות ודרישות לתשתית מחשוב מהדור הבא

בהתבסס על תצפיות אלה, הציע אלעד רז ‘ארבעה עמודים’ להגדרת תשתית מחשוב מהדור הבא:

(1) יכולת החלפה Plug-and-Play: ‘ההיסטוריה הראתה שמעברי ארכיטקטורה מורכבים, כמו המעבר מ-CPU ל-GPU, יכולים להימשך עשרות שנים כדי ליישם אותם במלואם. לכן, ארכיטקטורות מחשוב מהדור הבא צריכות לתמוך בהעברה חלקה.’ עבור יכולת החלפה ‘plug-and-play’, אלעד רז מציע שארכיטקטורות מחשוב חדשות צריכות ללמוד ממערכות ה-x86 ו-Arm, ולהשיג אימוץ רחב יותר באמצעות תאימות לאחור.

עיצובים מודרניים צריכים גם להימנע מלדרוש ממפתחים לכתוב מחדש כמויות גדולות של קוד או ליצור תלות בספקים ספציפיים. ‘לדוגמה, תמיכה בטכנולוגיות מתפתחות כמו MLA צריכה להיות סטנדרטית, במקום לדרוש התאמות ידניות נוספות כפי שקורה במעבדי GPU שאינם NVIDIA. מערכות מהדור הבא צריכות להבין ולבצע אופטימיזציה של עומסי עבודה חדשים מחוץ לקופסה, מבלי לדרוש שינויים ידניים בקוד או התאמות משמעותיות ב-API.’

(2) אופטימיזציה של ביצועים ניתנים להתאמה בזמן אמת: אלעד רז מאמין שהתעשייה צריכה להתרחק ממאיצים בעלי פונקציה קבועה. ‘התעשייה צריכה לבנות על יסודות חומרה חכמים המוגדרים על ידי תוכנה, שיכולים לבצע אופטימיזציה עצמית באופן דינמי בזמן ריצה.’

‘על ידי למידה מתמשכת מעומסי עבודה, מערכות עתידיות יכולות להתאים את עצמן בזמן אמת, למקסם את הניצול ואת הביצועים המתמשכים, ללא קשר לעומס העבודה הספציפי של היישום. יכולת הסתגלות דינמית זו פירושה שתשתית יכולה לספק יעילות עקבית בתרחישים בעולם האמיתי, בין אם היא מריצה סימולציות HPC, מודלים מורכבים של AI או פעולות מסד נתונים וקטוריות.’

(3) יעילות ניתנת להרחבה: ‘על ידי ניתוק חומרה ותוכנה והתמקדות באופטימיזציה חכמה בזמן אמת, מערכות עתידיות צריכות להשיג ניצול גבוה יותר וצריכת אנרגיה כוללת נמוכה יותר. הדבר יהפוך את התשתית לחסכונית יותר וניתנת להרחבה כדי לענות על הדרישות המתפתחות של עומסי עבודה חדשים.’

(4) עיצוב עתידי: נקודה זו מתאימה לדרישה צופה פני עתיד לתשתית AI, במיוחד עיצוב שבבים. ‘אלגוריתמים חדישים של היום עשויים להיות מיושנים מחר.’ ‘בין אם מדובר ברשתות עצביות של AI או במודלים של LLM מבוססי Transformer, תשתית מחשוב מהדור הבא צריכה להיות ניתנת להתאמה, ולהבטיח שההשקעות הטכנולוגיות של ארגונים יישארו גמישות לשנים הבאות.’

הצעות אלה מציעות נקודת מבט אידיאלית יחסית אך מעוררת מחשבה. יש לשקול מתודולוגיה מנחה זו לפיתוח עתידי של טכנולוגיות AI ו-HPC, גם אם כמה סתירות טבועות נותרו סוגיות ארוכות שנים בתעשייה. ‘כדי לשחרר את הפוטנציאל של AI, HPC ועומסי עבודה עתידיים אחרים עתירי מחשוב ונתונים, עלינו לחשוב מחדש על תשתית ולאמץ פתרונות דינמיים וחכמים כדי לתמוך בחדשנות ובחלוצים.’