פריצת הדרך של Huawei בבינה מלאכותית

Huawei Technologies, חברה המתמודדת עם מכשולים טכנולוגיים משמעותיים עקב סנקציות אמריקאיות, השיגה, על פי הדיווחים, פריצת דרך באימון מודלים של בינה מלאכותית (AI). חוקרים העובדים על מודל השפה הגדול (LLM) של Huawei, Pangu, טוענים שפיתחו גישה משופרת שעולה על המתודולוגיה המקורית של DeepSeek. שיטה חדשנית זו ממנפת את החומרה הקניינית של Huawei, ומצמצמת את תלות החברה בטכנולוגיות אמריקאיות, מטרה מכרעת בנוף הגיאופוליטי הנוכחי.

הופעתה של Mixture of Grouped Experts (MoGE)

אבן הפינה של ההתקדמות של Huawei טמונה בתפיסה של Mixture of Grouped Experts (MoGE). טכניקה חדשה זו, המפורטת במאמר שפורסם על ידי צוות Pangu של Huawei, מוצגת כגרסה משודרגת של הטכניקה Mixture of Experts (MoE). MoE הוכח ככלי ליצירת מודלים של בינה מלאכותית חסכוניים, כפי שהודגם על ידי ההצלחה של DeepSeek.

MoE מציעה יתרונות עבור פרמטרים גדולים של מודל, מה שמוביל ליכולת למידה משופרת. עם זאת, חוקרי Huawei זיהו חוסר יעילות הנובע מהפעלה לא אחידה של “מומחים”, רכיבים חיוניים באימון AI, שיכולים לפגוע בביצועים בעת הפעלת משימות על פני מספר מכשירים בו זמנית. MoGE של Huawei מטפלת באופן אסטרטגי באתגרים אלה.

טיפול בחוסר יעילות במודלים מסורתיים של MoE

מערכת MoGE מתוכננת באופן מורכב לייעל את חלוקת העומס. הרעיון המרכזי הוא “לקבץ” מומחים יחד במהלך תהליך הבחירה, מה שמוביל לחלוקת עומס עבודה מאוזנת יותר. על ידי חלוקה הוגנת יותר של הנטל החישובי, החוקרים דיווחו על שיפור ניכר בביצועים של סביבות מחשוב מקבילי, היבט מרכזי של אימון AI מודרני.

המושג “מומחים” באימון AI מתייחס למודלי משנה או רכיבים מיוחדים בתוך מודל גדול ומקיף יותר. כל מומחה מתוכנן בקפידה לטפל במשימות או סוגי נתונים ספציפיים מאוד. גישה זו רותמת מומחיות מיוחדת ומגוונת, ומאפשרת למערכת הבינה המלאכותית הכוללת לשפר משמעותית את הביצועים הכוללים שלה.

השלכות על קידום הבינה המלאכותית של סין

התקדמות זו היא בעיתוי מושלם במיוחד. חברות AI סיניות, למרות שהן מתמודדות עם הגבלות אמריקאיות על ייבוא שבבי AI מתקדמים כמו אלה של Nvidia, רודפות באגרסיביות אחר שיטות להגברת אימון המודלים ויעילות ההסקה. שיטות אלה כוללות לא רק שיפורים אלגוריתמיים, אלא גם שילוב סינרגטי של חומרה ותוכנה.

חוקרי Huawei בדקו בקפדנות את ארכיטקטורת MoGE על יחידת עיבוד עצבי (NPU) Ascend שלהם, שתוכננה במיוחד להאיץ משימות AI. התוצאות הצביעו על כך ש-MoGE השיגה איזון עומסים מעולה של מומחים וביצוע יעיל יותר, הן עבור שלבי אימון והן עבור שלבי הסקת מודלים. זוהי אימות משמעותי של היתרונות של אופטימיזציה בו זמנית של מחסנית החומרה והתוכנה.

השוואת Pangu מול מודלים מובילים של AI

המודל Pangu של Huawei, המחוזק על ידי ארכיטקטורת MoGE ו-NPUs Ascend, הושווה בציוני ביצועים מול מודלים מובילים של AI. אלה כללו את DeepSeek-V3, Qwen2.5-72B של Alibaba Group Holding ו-Llama-405B של Meta Platforms. תוצאות ההשוואה הראו ש-Pangu השיגה ביצועים מתקדמים על פני טווח של ציוני ביצועים כלליים באנגלית, והצטיינה בכל ציוני הביצועים הסיניים. Pangu הציגה גם יעילות גבוהה יותר בעיבוד אימון הקשר ארוך, תחום בעל חשיבות קריטית למשימות מתוחכמות של עיבוד שפה טבעית.

יתר על כן, המודל Pangu הדגים יכולות יוצאות דופן במשימות הבנת שפה כלליות, עם חוזקות מיוחדות במשימות היגיון. יכולת זו לתפוס ניואנסים ולחלץ משמעות משפה מורכבת מדגימה את ההתקדמות ש-Huawei השיגה בתחום הבינה המלאכותית.

המשמעות האסטרטגית של Huawei

ההתקדמות של Huawei בארכיטקטורת מודלים של AI נושאת משמעות אסטרטגית. לאור הסנקציות המתמשכות, החברה שבסיסה בשנג’ן מבקשת באופן אסטרטגי להקטין את תלותה בטכנולוגיות אמריקאיות. שבבי Ascend שפותחו על ידי Huawei נחשבים לחלופות מקומיות מעשיות למעבדים מבית Nvidia והם מרכיב מרכזי בעצמאות זו.

Pangu Ultra, מודל שפה גדול עם 135 מיליארד פרמטרים המותאם ל-NPUs, מדגיש את האפקטיביות של יעילות הארכיטקטורה והמערכת של Huawei, תוך הצגת היכולות של ה-NPUs שלה. הדגמת האפקטיביות של שילוב החומרה-תוכנה שלה היא חלק חשוב בהצגת יכולות הבינה המלאכותית של Huawei.

תהליך אימון מפורט

לדברי Huawei, תהליך האימון מחולק לשלושה שלבים עיקריים: אימון מוקדם, הרחבת הקשר הארוך ואימון לאחר מכן. אימון מוקדם כולל בתחילה אימון המודל על מערך נתונים עצום של 13.2 טריליון tokens. הרחבת ההקשר הארוך מרחיבה לאחר מכן את יכולתו של המודל לטפל בטקסטים ארוכים ומורכבים יותר ובנויה על זיהוי נתונים ראשוני. שלב זה משתמש בעיבוד מבוזר בקנה מידה גדול על פני 8,192 שבבי Ascend.

Huawei גילתה שהמודל והמערכת יהיו בקרוב נגישים ללקוחותיה המסחריים, ויפתחו הזדמנויות חדשות לשילוב ופיתוח עם שותפיה.

צלילה עמוקה לתוך Mixture of Experts (MoE) והמגבלות שלה

כדי להעריך באופן מלא את המשמעות של MoGE של Huawei, חיוני להבין את היסודות שעליהם היא בנויה: ארכיטקטורת Mixture of Experts (MoE). MoE מייצגת שינוי פרדיגמה באופן שבו מודלים גדולים של AI מתוכננים ומאומנים, ומציעה נתיב להרחבת גודל המודל ומורכבותו ללא עלייה יחסית בעלות החישובית.

ברשת עצבית מסורתית, כל קלט מעובד על ידי כל נוירון בכל שכבה. בעוד שגישה זו יכולה להניב דיוק גבוה, היא הופכת ליקרה מבחינה חישובית עבור מודלים גדולים מאוד. MoE, לעומת זאת, מציגה את הרעיון של “מומחים” – רשתות עצביות קטנות ומיוחדות המתמקדות בתת-קבוצות ספציפיות של נתוני הקלט.

רשת “שער” מכוונת באופן דינמי כל קלט למומחה(ים) הרלוונטי(ים) ביותר. הפעלה סלקטיבית זו מאפשרת חישוב דליל, כלומר רק חלק קטן מפרמטרי המודל מעורב עבור כל קלט נתון. דלילות זו מפחיתה באופן דרמטי את העלות החישובית של הסקה (שימוש במודל לחיזוי) ואימון. יתר על כן, מכיוון שמומחים שונים יכולים לפעול על חלקים שונים של נתוני הקלט, זה מאפשר התמחות רבה יותר במודל.

למרות היתרונות של MoE, יש לטפל בכמה מגבלות כדי לפתוח את מלוא הפוטנציאל שלה. ההפעלה הלא אחידה של מומחים היא דאגה מרכזית. ביישומים רבים של MoE, חלק מהמומחים הופכים למנוצלים מאוד, בעוד שאחרים נשארים יחסית סרק. חוסר איזון זה נובע מהמאפיינים המובנים של הנתונים ומעיצוב רשת השער.

חוסר איזון זה עלול להוביל לחוסר יעילות בסביבות מחשוב מקביליות. מכיוון שעומס העבודה אינו מחולק באופן שווה בין המומחים, חלק מיחידות העיבוד נותרות מנוצלות, בעוד שאחרות מוצפות. פער זה פוגע במדרגיות של MoE ומפחית את הביצועים הכוללים שלו. כמו כן, חוסר איזון זה נובע לרוב מהטיות בנתוני האימון, מה שמוביל לתת-ייצוג ותת-אימון של מומחים פחות פעילים. התוצאה היא מודל לא אופטימלי בטווח הארוך.

בעיה נפוצה נוספת בעת טיפול ב-MoE כוללת את המורכבות הנוספת בעת תכנון רשת השער. רשת השער דורשת טכניקות מתוחכמות כדי להבטיח שמומחים נבחרים כראוי, אחרת, ייתכן ש-MoE לא יתפקד כמצופה ויגרום לתקורה מיותרת.

Grouped Experts (MoGE): טיפול באתגרים של MoE

ארכיטקטורת Mixture of Grouped Experts (MoGE) של Huawei מציעה אלטרנטיבה מעודנת ל-MoE מסורתי על ידי התמקדות באיזון עומסים וביצוע מקבילי יעיל. השיטה כוללת קיבוץ מומחים באופן אסטרטגי, מה שמשנה את תהליך הניתוב של נתוני קלט, מה שמוביל לחלוקת עומס עבודה אחיד יותר.

על ידי קיבוץ המומחים במהלך הבחירה, MoGE מבטיחה שכל קבוצת מומחים תקבל עומס עבודה מאוזן יותר. במקום לנתב כל קלט באופן עצמאי, רשת השער מכוונת כעת קבוצות של קלטים לקבוצות של מומחים. גישה זו מקדמת חלוקה שוויונית יותר של נטל חישובי.

מנגנון הקיבוץ מסייע גם לצמצם את ההשפעות של הטיות נתונים. על ידי הבטחת שכל המומחים בתוך קבוצה מאומנים על מערך מגוון של קלטים, MoGE מצמצמת את הסיכון של תת-ייצוג ותת-אימון. יתר על כן, קיבוץ מומחים מאפשר ניצול טוב יותר של משאבים. מכיוון שכל קבוצה מטפלת בעומס עבודה עקבי יותר, קל יותר להקצות משאבים חישוביים ביעילות, מה שמוביל לביצועים כוללים טובים יותר.

התוצאה הסופית היא איזון עומסים טוב יותר של מומחים וביצוע יעיל יותר הן עבור אימון והן עבור הסקת מודלים. זה מתורגם לזמני אימון מהירים יותר, עלויות חישוביות נמוכות יותר וביצועים כוללים משופרים.

ה-Ascend NPU: האצת חומרה לבינה מלאכותית

ה-Ascend NPU (Neural Processing Unit) ממלא תפקיד מפתח באסטרטגיית הבינה המלאכותית של Huawei. מעבדים אלה מתוכננים במיוחד להאיץ משימות AI, כולל אימון מודלים והסקה. הם מציעים מגוון תכונות המותאמות לעומסי עבודה של למידה עמוקה, כגון רוחב פס זיכרון גבוה, יחידות עיבוד מיוחדות להכפלת מטריצות וממשקי תקשורת בהשהיה נמוכה. יתר על כן, ה-Ascend NPUs של Huawei תומכים במגוון סוגי נתונים ורמות דיוק, מה שמאפשר שליטה גרנולרית דקה על הביצועים והדיוק.

השילוב הסינרגטי של MoGE ו-Ascend NPU יוצר פלטפורמה עוצמתית לחדשנות AI. MoGE מייעלת את הצד התוכנתי על ידי שיפור איזון העומסים והביצוע המקבילי, בעוד ש-Ascend NPU מספקת את האצת החומרה הדרושה כדי לממש את היתרונות הללו. גישה משולבת זו מאפשרת ל-Huawei לדחוף את גבולות ביצועי הבינה המלאכותית והיעילות.

ה-Ascend NPU מאופיין בצפיפות חישוב גבוהה ויעילות אנרגטית. תכונות אלה הן קריטיות לפריסת מודלים של AI במגוון הגדרות, משרתי ענן עוצמתיים ועד למכשירי קצה עם תקציבי כוח מוגבלים.

ציוני ביצועים ומדדי ביצועים

תוצאות ציוני הביצועים של Huawei מדגימות את האפקטיביות של ארכיטקטורת MoGE וה-Ascend NPU. על ידי השוואת Pangu מול מודלים מובילים של AI כמו DeepSeek-V3, Qwen2.5-72B ו-Llama-405B, Huawei הראתה שהטכנולוגיה שלה משיגה ביצועים חדישים במגוון משימות.

ההצלחה של Pangu בציוני ביצועים כלליים באנגלית ובסינית מדגישה את הרבגוניות וההסתגלות שלה. המודל בקיא באימון הקשר ארוך ראוי לציון במיוחד מכיוון שהוא משקף יכולות בטיפול בנתונים בעולם האמיתי. יתר על כן, הביצועים החזקים של Pangu במשימות היגיון מדגישים את יכולתו להבין ולעבד יחסים מורכבים.

ציוני ביצועים אלה אינם רק תרגילים אקדמיים, הם מציעים הוכחות מוחשיות להתקדמות הטכנולוגית שנעשתה על ידי Huawei. הם מחזקים את טענת החברה להיות בחזית החדשנות בתחום הבינה המלאכותית ומחזקים את מעמדה בשוק העולמי.

השלכות על העתיד של Huawei

להתקדמות של Huawei באימון מודלים של AI יש השלכות קריטיות בחזון האסטרטגי של החברה לבסס ריבונות טכנולוגית בבינה מלאכותית. ככל שהחברה מצמצמת את תלותה בטכנולוגיות אמריקאיות בעיצומו של הסכסוך המסחרי המתמשך, הפיתוח של שבבי Ascend משמש כחלופה למעבדים מבית Nvidia ו-AMD. ה-Pangu Ultra, LLM הכולל 135 מיליארד פרמטרים עבור NPUs, מדגיש את האפקטיביות של יעילות הארכיטקטורה והמערכת של Huawei על ידי הצגת היכולות של השבבים המתקדמים שלה.

מאמצים אלה צפויים לתרום לתחרותיות הכוללת של Huawei בטווח הארוך, כאשר היא שואפת לתת מענה לשוק גדול יותר עבור AI, במיוחד בתוך סין. על ידי המשך התמקדות בהשקעות במחקר ופיתוח, Huawei מקווה לקדם את עצמה כמובילה בתחום ה-AI, תוך התגברות על מגבלות השוק הנוכחיות.

מחקר עתידי

השיפורים המתמשכים של Huawei בארכיטקטורת מודלים של AI באמצעות אופטימיזציות ברמת המערכת והאלגוריתמים, לצד פיתוחי חומרה כמו שבב Ascend, מסמנים את חשיבותה בהובלת העקומה הטכנולוגית בבינה מלאכותית. בעוד שציוני ביצועים כמו Pangu מוכיחים שהוא מודל חדיש, עדיין יש הרבה שיפורים שניתן לבצע. עידון נוסף של ארכיטקטורת MoGE עשוי לאפשר לה לדחוף לחישובים גדולים ומורכבים יותר. עבודה נוספת בהתמחות של ארכיטקטורת Ascend NPU עשויה להאיץ עוד יותר את תהליכי הלמידה העמוקה ולהפחית עלויות. חקירה עתידית תראה את המאמצים המתמשכים לבנות מודלים טובים יותר של AI ולשפר את הקיימים.