יעילות AI: לא תמיד 100% הספק

ההתקדמות הבלתי פוסקת בפיתוח AI הראתה בעקביות שמודלים גדולים יותר נוטים להיות חכמים יותר, אך גם הדרישות התפעוליות שלהם גדלות. זה יוצר אתגר משמעותי, במיוחד באזורים עם גישה מוגבלת לשבבי AI מתקדמים. עם זאת, ללא קשר למגבלות גיאוגרפיות, ישנה מגמה גוברת בקרב מפתחי מודלים לאמץ ארכיטקטורות Mixture of Experts (MoE) בשילוב עם טכניקות דחיסה חדשניות. המטרה? להפחית באופן דרסטי את משאבי המחשוב הדרושים לפריסה ולהפעלה של מודלים שפה גדולים (LLMs) נרחבים אלה. כשאנחנו מתקרבים ליום השנה השלישי לפריחת ה-AI הגנרטיבי שהצית ChatGPT, התעשייה סוף סוף מתחילה לשקול ברצינות את ההשלכות הכלכליות של שמירת המודלים ה"זוללים" האלה בפעולה.

בעוד שמודלים של MoE, כמו אלה של Mistral AI, קיימים כבר זמן מה, הפריצה האמיתית שלהם התרחשה בשנה האחרונה. ראינו גל של LLMs חדשים בקוד פתוח מענקיות טכנולוגיה כמו Microsoft, Google, IBM, Meta, DeepSeek ו-Alibaba, שכולן ממנפות צורה כלשהי של ארכיטקטורת MoE. הפיתוי הוא פשוט: ארכיטקטורות MoE מציעות אלטרנטיבה יעילה בהרבה לארכיטקטורות מודלים "צפופות" מסורתיות.

התגברות על מגבלות זיכרון

היסוד של ארכיטקטורת MoE חוזר לתחילת שנות ה-90, עם פרסום "תערובות אדפטיביות של מומחים מקומיים". הרעיון המרכזי סובב סביב חלוקת משימות למודלי משנה או "מומחים" מיוחדים אחד או יותר, במקום להסתמך על מודל יחיד ומסיבי שאומן על ספקטרום רחב של נתונים.

תיאורטית, כל מומחה יכול להיות מותאם בקפידה לתחום ספציפי, החל מקידוד ומתמטיקה ועד כתיבה יוצרת. עם זאת, ראוי לציין שרוב מפתחי המודלים מספקים פרטים מוגבלים על המומחים הספציפיים בתוך מודלי ה-MoE שלהם, ומספר המומחים משתנה ממודל למודל. באופן מכריע, רק חלק קטן מהמודל הכולל פעיל בכל זמן נתון.

שקול את מודל V3 של DeepSeek, המורכב מ-256 מומחים מכוונים יחד עם מומחה משותף. במהלך עיבוד טוקנים, מופעלים רק שמונה מומחים מכוונים בתוספת המומחה המשותף. הפעלה סלקטיבית זו אומרת שמודלים של MoE לא תמיד עשויים להשיג את אותה רמת איכות כמו מודלים צפופים בגודל דומה. לדוגמה, מודל Qwen3-30B-A3B MoE של Alibaba, ביצע באופן עקבי ביצועים נמוכים יותר ממודל Qwen3-32B הצפוף במבחני הבנצ’מרק של Alibaba.

עם זאת, חיוני להקשר את הצניחה הקלה הזו באיכות מול הרווחיות המשמעותית ביעילות שמציעות ארכיטקטורות MoE. הפחתת הפרמטרים הפעילים מביאה לדרישות רוחב פס זיכרון שאינן פרופורציונליות עוד ישירות ליכולת הדרושה לאחסון משקלי המודל. בעיקרו של דבר, בעוד שמודלים של MoE עדיין עשויים לדרוש זיכרון ניכר, הם לא בהכרח צריכים שהוא יהיה זיכרון HBM (High Bandwidth Memory) המהיר והיקר ביותר.

בואו נמחיש זאת באמצעות השוואה. שקול את המודל ה"צפוף" הגדול ביותר של Meta, Llama 3.1 405B, ולLlama 4 Maverick, מודל דומה המשתמש בארכיטקטורת MoE עם 17 מיליארד פרמטרים פעילים. בעוד שגורמים רבים, כמו גודל אצווה, ביצועי נקודה צפה ומטמון מפתח-ערך, תורמים לביצועים בעולם האמיתי, אנו יכולים להעריך את דרישות רוחב הפס המינימליות על ידי הכפלת גודל המודל בגיגה-בייט בדיוק נתון (1 בייט לכל פרמטר עבור מודלים של 8 ביט) על ידי הטוקנים הממוקדים לשנייה בגודל אצווה של אחד.

הפעלת גרסה מכומתת של 8 ביט של Llama 3.1 405B הייתה מחייבת יותר מ-405 GB של vRAM ולפחות 20 TB/s של רוחב פס זיכרון כדי ליצור טקסט ב-50 טוקנים לשנייה. מערכות HGX H100 מבוססות Nvidia, שעד לאחרונה דרשו מחירים של 300,000 דולר ומעלה, סיפקו רק 640 GB של HBM3 וכ-26.8 TB/s של רוחב פס מצטבר. הפעלת המודל המלא של 16 ביט הייתה דורשת לפחות שתיים מהמערכות הללו.

לעומת זאת, Llama 4 Maverick, תוך שהוא צורך את אותה כמות זיכרון, דורש פחות מ-1 TB/s של רוחב פס כדי להשיג ביצועים דומים. הסיבה לכך היא שרק 17 מיליארד פרמטרים של מומחי מודל מעורבים באופן פעיל ביצירת הפלט. זה מתורגםלעלייה של סדר גודל במהירות יצירת הטקסט באותו חומרה.

לעומת זאת, אם ביצועים גרידא אינם דאגה עיקרית, ניתן כעת להפעיל רבים מהמודלים הללו על זיכרון GDDR6, GDDR7 או אפילו DDR זולים יותר, אם כי איטיים יותר, כפי שנראה ב-Xeons העדכניים ביותר של Intel.

שרתי ה-RTX Pro החדשים של Nvidia, שהוכרזו ב-Computex, מותאמים לתרחיש הזה בדיוק. במקום להסתמך על HBM יקר וצורך חשמל הדורש אריזה מתקדמת, כל אחד משמונת מעבדי ה-GPU RTX Pro 6000 במערכות אלה מצויד ב-96 GB של זיכרון GDDR7, אותו סוג שנמצא בכרטיסי משחקים מודרניים.

מערכות אלה מספקות עד 768 GB של vRAM ו-12.8 TB/s של רוחב פס מצטבר, יותר ממספיק כדי להפעיל את Llama 4 Maverick במאות טוקנים לשנייה. אמנם Nvidia לא חשפה תמחור, אך מהדורת תחנת העבודה של כרטיסים אלה נמכרת בסביבות 8,500 דולר, מה שמצביע על כך שמחירי שרתים אלה יכולים להיות פחות ממחצית מעלות של HGX H100 משומש.

עם זאת, MoE לא מסמן את סופם של מעבדי GPU מוערמים ב-HBM. צפו שLlama 4 Behemoth, בהנחה שהוא אי פעם יישלח, ידרוש מתלה מלא במעבדי GPU עקב גודלו העצום.

בעוד שיש לו בערך חצי מהפרמטרים הפעילים כמו Llama 3.1 405B, הוא מתהדר בסך הכל של 2 טריליון פרמטרים. נכון לעכשיו, אין שרת GPU קונבנציונלי יחיד בשוק שיכול להכיל את המודל המלא של 16 ביט וחלון הקשר של מיליון טוקנים או יותר.

הרנסנס של ה-CPU ב-AI?

בהתאם ליישום הספציפי, ייתכן ש-GPU לא תמיד יהיה הכרחי, במיוחד באזורים שבהם הגישה למאיצים מתקדמים מוגבלת.

Intel הציגה פלטפורמת Xeon 6 עם שקע כפול המצוידת ב-8800 MT/s MCRDIMMs באפריל. מערך זה השיג תפוקה של 240 טוקנים לשנייה ב-Llama 4 Maverick, עם חביון פלט ממוצע של פחות מ-100 ms לכל טוקן.

במילים פשוטות, פלטפורמת Xeon יכולה לתמוך ב-10 טוקנים לשנייה או יותר למשתמש עבור כ-24 משתמשים בו-זמנית.

Intel לא חשפה נתוני ביצועים של משתמש בודד, מכיוון שהם פחות רלוונטיים בתרחישים בעולם האמיתי. עם זאת, הערכות מצביעות על ביצועי שיא של כ-100 טוקנים לשנייה.

אף על פי כן, אלא אם כן אין אלטרנטיבות טובות יותר או דרישות ספציפיות, הכלכלה של הסקת מסקנות מבוססת CPU נותרה תלויה מאוד במקרה השימוש.

הפחתת משקל: גיזום וכימות

ארכיטקטורות MoE יכולות להפחית את רוחב פס הזיכרון הדרוש להגשת מודלים גדולים, אך הן אינן מפחיתות את כמות הזיכרון הדרושה לאחסון המשקלים שלהם. אפילו בדיוק של 8 ביט, Llama 4 Maverick דורש יותר מ-400 GB של זיכרון כדי לפעול, ללא קשר למספר הפרמטרים הפעילים.

טכניקות גיזום ושיטות כימות מתעוררות יכולות להפחית בחצי את הדרישה הזו מבלי להקריב איכות.

Nvidia הייתה תומכת בגיזום, ושחררה גרסאות מגזמות של מודלי Llama 3 של Meta שהוסרו מהם משקלים מיותרים.

Nvidia הייתה גם בין החברות הראשונות שתמכו בסוגי נתונים נקודה צפה 8 ביט בשנת 2022, ושוב עם נקודה צפה 4 ביט עם השקת ארכיטקטורת Blackwell שלה בשנת 2024. השבבים הראשונים של AMD שיציעו תמיכה מקורית ב-FP4 צפויים לצאת בקרוב.

אמנם לא חיונית לחלוטין, אך תמיכה בחומרה מקורית בסוגי נתונים אלה בדרך כלל מפחיתה את הסבירות להיתקל בצווארי בקבוק חישוביים, במיוחד בעת הגשה בקנה מידה גדול.

ראינו מספר גדל והולך של מפתחי מודלים המאמצים סוגי נתונים בעלי דיוק נמוך יותר, כאשר Meta, Microsoft ו-Alibaba מציעות גרסאות מכומתות של שמונה ביט ואפילו ארבעה ביט של המודלים שלהן.

כימות כרוך בדחיסת משקלי המודל מהדיוק המקורי שלהם, בדרך כלל BF16, ל-FP8 או INT4. זה מפחית למעשה את רוחב הפס בזיכרון ודרישות הקיבולת של המודלים במחצית או אפילו בשלושה רבעים, במחיר של איכות מסוימת.

ההפסדים הקשורים למעבר מ-16 ביט לשמונה ביט הם לרוב זניחים, ומספר בוני מודלים, כולל DeepSeek, החלו להתאמן בדיוק FP8 מההתחלה. עם זאת, הפחתת הדיוק בעוד ארבעה ביט עלולה לגרום להידרדרות משמעותית באיכות. כתוצאה מכך, גישות כימות רבות לאחר אימון, כגון GGUF, אינן דוחסות את כל המשקלים באופן שווה, ומשאירות חלק מהן ברמות דיוק גבוהות יותר כדי למזער את אובדן האיכות.

גוגל הדגימה לאחרונה את השימוש באימון מודע כימות (QAT) כדי להפחית את מודלי Gemma 3 שלה פי 4 תוך שמירה על רמות איכות קרובות ל-BF16 המקורי.

QAT מדמה פעולות בדיוק נמוך במהלך האימון. על ידי יישום טכניקה זו במשך כ-5,000 שלבים במודל לא מוסמך, גוגל הצליחה להפחית את הירידה בתמיהה, מדד למדידת הפסדים הקשורים לכימות, ב-54 אחוזים כאשר הוסב ל-INT4.

גישה נוספת מבוססת QAT לכימות, המכונה Bitnet, שואפת לרמות דיוק נמוכות עוד יותר, ודוחסת מודלים לפחות 1.58 ביט בלבד, או בערך עשירית מגודלם המקורי.

הסינרגיה של טכנולוגיות

השילוב של MoE וכימות של 4 ביט מציע יתרונות משמעותיים, במיוחד כאשר רוחב הפס מוגבל.

עבור אחרים שאינם מוגבלים ברוחב פס, עם זאת, כל אחת משתי הטכנולוגיות, בין אם MoE, או כימות, יכולה להוריד באופן משמעותי את עלות הציוד והתפעול עבור הפעלת מודלים גדולים וחזקים יותר; זאת בהנחה שניתן למצוא שירות בעל ערך שהם יבצעו.

ואם לא, תוכלו לפחות להתנחם בכך שאתם לא לבד – סקר של IBM שנערך לאחרונה גילה כי רק אחת מכל ארבע פריסות AI סיפקה את ההחזר על ההשקעה שהובטח.