ההימור הגבוה במירוץ החומרה העולמי של AI
נוף פיתוח הבינה המלאכותית מוגדר יותר ויותר לא רק על ידי פריצות דרך אלגוריתמיות אלא גם על ידי גישה לחומרה המתוחכמת הנדרשת לאימון והרצה של מודלים מסיביים. בליבת משוואת החומרה הזו נמצאת יחידת העיבוד הגרפי (GPU), רכיב שתוכנן במקור לעיבוד תמונות אך כעת חיוני לדרישות העיבוד המקבילי של AI. במשך שנים, Nvidia Corporation עמדה כענקית הבלתי מעורערת בזירה זו, כאשר ה-GPUs המתקדמים שלה הפכו לתקן הזהב, המניעים חדשנות ברחבי Silicon Valley ומעבר לו. עם זאת, דומיננטיות זו הציבה את החברה, ואת לקוחותיה, ישירות בקו האש של מתחים גיאופוליטיים.
הטלת בקרות ייצוא מחמירות על ידי Washington, שמטרתן לרסן את הגישה של סין לטכנולוגיית מוליכים למחצה מתקדמת, עיצבה מחדש את השוק באופן יסודי. הגבלות אלו מכוונות ספציפית ל-GPUs בעלי ביצועים גבוהים, כמו אלו המיוצרים על ידי Nvidia, הנחשבים קריטיים ליישומי AI מתקדמים, כולל כאלה עם שימושים צבאיים פוטנציאליים. ההשפעה המיידית הייתה מאבק קדחתני בתוך מגזר הטכנולוגיה הפורח של סין. חברות שהשקיעו רבות ב-AI, מענקיות מבוססות ועד סטארט-אפים שאפתניים, התמודדו עם האפשרות הפתאומית של ניתוק מהכלים החיוניים המניעים את הגל הבא של הקדמה הטכנולוגית. זה יצר צורך דחוף: למצוא חלופות בנות קיימא או להסתכן בפיגור בתחום תחרותי גלובלי. האתגר לא היה רק החלפת שבב אחד באחר; הוא כלל ניווט ברשת מורכבת של הבדלי ביצועים, בעיות תאימות תוכנה, והקנה המידה העצום הנדרש לאימון מודלים עם מאות מיליארדים, או אפילו טריליונים, של פרמטרים.
Ant Group מתווה מסלול לעצמאות חישובית
על רקע אי הוודאות בשרשרת האספקה והיריבות הטכנולוגית הגוברת, Ant Group, ענקית הפינטק המזוהה עם Alibaba Group Holding, אותתה על צעד משמעותי לעבר עצמאות חישובית גדולה יותר. גילויים אחרונים, המפורטים במאמר מחקר של צוות Ling של החברה – החטיבה המובילה את יוזמות מודל השפה הגדול (LLM) שלה – מצביעים על סטייה מוצלחת מהנתיב הממוקד ב-Nvidia. ליבת ההישג הזה טמונה ביכולתם לאמן ביעילות מודל AI מתוחכם באמצעות GPUs מתוצרת מקומית.
המודל המדובר, ששמו Ling-Plus-Base, אינו קל משקל. הוא תוכנן באמצעות ארכיטקטורת Mixture-of-Experts (MoE), טכניקה הצוברת תאוצה בשל יעילותה בהגדלת LLMs. עם 300 מיליארד פרמטרים מרשימים, Ling-Plus-Base פועל בליגה דומה למודלים גלובליים בולטים אחרים. המבדיל המכריע, עם זאת, הוא החומרה העומדת בבסיס האימון שלו. על פי ממצאי המחקר, ניתן לטפח מודל רב עוצמה זה לבגרות על מה שהצוות מתאר כ-‘lower-performance devices’. ביטוי זה, שנבחר בקפידה, מצביע ישירות על שימוש ביחידות עיבוד הנופלות מחוץ לתחום הגבלות הייצוא האמריקאיות, ומרמז بقوة על שימוש בשבבים שתוכננו ויוצרו בתוך סין.
פיתוח זה הוא יותר מסתם פתרון טכני; הוא מייצג ציר אסטרטגי פוטנציאלי. על ידי הדגמת היכולת לאמן מודלים חדישים מבלי להסתמך באופן בלעדי על החומרה הזרה מהשורה הראשונה והמוגבלת, Ant Group לא רק מפחיתה את סיכוני שרשרת האספקה אלא גם פותחת פוטנציאל ליעילות עלויות משמעותית.
המשוואה הכלכלית: קיצוץ בעלויות האימון
אחד הנתונים המשכנעים ביותר העולים ממחקר צוות Ling הוא דיווח על הפחתה של 20 אחוז בעלויות המחשוב במהלך שלב הקדם-אימון הקריטי של מודל Ling-Plus-Base. קדם-אימון ידוע לשמצה כדורש משאבים רבים, הכולל הזנת המודל במערכי נתונים עצומים כדי ללמוד דפוסי שפה, הקשר וידע. הוא מהווה חלק עיקרי מההוצאה הכוללת הקשורה בפיתוח LLMs יסודיים. השגת הפחתת עלויות של חמישית בשלב זה, אם כן, מתורגמת לחיסכון משמעותי, שעשוי לשחרר הון למחקר נוסף, פיתוח או פריסה בקנה מידה גדול.
כיצד מושג חיסכון זה בעלויות? בעוד שהמאמר אינו מפרט את פירוט העלויות המדויק, מספר גורמים תורמים ככל הנראה:
- רכש חומרה: GPUs מתוצרת מקומית, גם אם פחות חזקים באופן אינדיבידואלי מההצעות המובילות של Nvidia, עשויים להגיע במחיר רכישה נמוך יותר או להציע הנחות כמות נוחות יותר בשוק הסיני, במיוחד בהתחשב באספקה המוגבלת של שבבי Nvidia מתקדמים.
- יעילות אנרגטית: למרות שלא צוין במפורש, אופטימיזציה של האימון עבור שבבים מקומיים שעלולים להיות פחות צורכי חשמל (אם כי אולי פחות ביצועיים ליחידה) יכולה לתרום לעלויות אנרגיה תפעוליות נמוכות יותר, גורם משמעותי בהפעלת מרכזי נתונים גדולים.
- אופטימיזציה אלגוריתמית וארכיטקטונית: השימוש בארכיטקטורת MoE עצמה הוא מפתח. מודלי MoE מפעילים רק תת-רשתות ‘מומחה’ ספציפיות עבור קלט נתון, במקום להפעיל את כל המודל כמו ארכיטקטורות צפופות. דלילות אינהרנטית זו יכולה להפחית משמעותית את העומס החישובי הן במהלך האימון והן במהלך ההסקה (inference), מה שמאפשר להשיג תוצאות טובות גם עם פחות כוח עיבוד גולמי לכל שבב. ההצלחה של Ant מרמזת על תוכנה מתוחכמת וכוונון אלגוריתמי למקסום היעילות של החומרה המקומית הזמינה.
הפחתת עלויות זו אינה רק יתרון חשבונאי; היא מנמיכה את מחסום הכניסה לפיתוח מודלים בקנה מידה גדול ויכולה להאיץ את קצב החדשנות ב-AI בתוך החברה ופוטנציאלית ברחבי האקוסיסטם הטכנולוגי הסיני הרחב יותר אם השיטות יתבררו כשניתנות לשכפול.
שוויון ביצועים: גישור על פער החומרה?
חיסכון בעלויות הוא אטרקטיבי, אך משמעותו מועטה אם מודל ה-AI המתקבל מפגין ביצועים נמוכים משמעותית. צוות Ling של Ant מתייחס לכך ישירות, בטענה ש-Ling-Plus-Base משיג ביצועים דומים למודלים מוערכים אחרים בתחום. באופן ספציפי, הם השוו את יצירתם למודלים כמו Qwen2.5-72B-Instruct (שפותח על ידי חברת האם Alibaba) ו-DeepSeek-V2.5-1210-Chat, עוד LLM סיני בולט.
הטענה ל-‘comparable performance’ למרות שימוש ב-‘lower-performance devices’ ראויה לציון. היא מרמזת ש-Ant מצאה פוטנציאלית דרכים יעילות לפצות על כל חסר חישובי גולמי באמצעות:
- ארכיטקטורת מודל מתקדמת: עיצוב ה-MoE הוא מכריע כאן, ומחלק את עומס העבודה ביעילות.
- אופטימיזציית תוכנה: התאמת ערימת תוכנת האימון (כמו מסגרות מקביליות וספריות נומריות) במיוחד לארכיטקטורה של ה-GPUs המקומיים הנמצאים בשימוש היא חיונית. זה כרוך לעתים קרובות במאמץ הנדסי משמעותי.
- אוצרות נתונים וטכניקות אימון: שיטות מתוחכמות לבחירת נתוני אימון ועידון תהליך האימון עצמו יכולות להשפיע באופן משמעותי על איכות המודל הסופי, ולפצות לעיתים על מגבלות חומרה.
חשוב לגשת לטענות ביצועים בניואנסים. ‘Comparable’ יכול להקיף מגוון תוצאות על פני מדדים שונים (למשל, הבנת שפה, הסקה, יצירה, קידוד). ללא גישה לתוצאות מדדים מפורטות על פני מספר מבחנים סטנדרטיים, השוואה מדויקת נותרה מאתגרת. עם זאת, הטענה עצמה מאותתת על הביטחון של Ant שגישתה אינה מחייבת פשרה משתקת בין עלות/נגישות ליכולת. היא מדגימה מסלול לשמירה על תחרותיות גם בתוך האילוצים המוטלים על ידי מגבלות חומרה.
החוקרים עצמם הדגישו את ההשלכות הרחבות יותר: “תוצאות אלו מדגימות את ההיתכנות של אימון מודלי MoE חדישים בקנה מידה גדול על חומרה פחות חזקה, ומאפשרות גישה גמישה וחסכונית יותר לפיתוח מודלים יסודיים ביחס לבחירת משאבי מחשוב.” זה מצביע על סוג של דמוקרטיזציה, המאפשרת לפיתוח AI מתקדם להמשיך גם כאשר הגישה לפסגת כוח העיבוד המוחלט מוגבלת.
הבנת היתרון של Mixture-of-Experts (MoE)
ארכיטקטורת Mixture-of-Experts היא מרכזית להצלחה המדווחת של Ant Group. היא מייצגת סטייה ממודלי רשת עצבית ‘צפופים’ מסורתיים שבהם כל קלט מפעיל כל פרמטר. במודל MoE:
- המודל מורכב ממספר רב של רשתות ‘מומחה’ קטנות ומתמחות.
- מנגנון ‘רשת שער’ או ‘נתב’ לומד לכוון נתונים נכנסים (טוקנים, במקרה של LLMs) למומחה/ים הרלוונטי/ים ביותר לעיבוד.
- רק המומחה/ים שנבחרו – לעתים קרובות רק אחד או שניים מתוך מאות פוטנציאליים – מבצעים חישובים עבור פיסת הנתונים הספציפית הזו.
גישה זו מציעה מספר יתרונות מרכזיים, רלוונטיים במיוחד בהקשר של מגבלות חומרה:
- מדרגיות (Scalability): MoE מאפשר למודלים לגדול למספרי פרמטרים עצומים (טריליונים הופכים לאפשריים) ללא עלייה פרופורציונלית בעלות החישובית לעיבוד כל טוקן קלט במהלך הסקה או אפילו במהלך שלבי האימון. זאת מכיוון שרק חלק קטן מסך הפרמטרים פעיל בכל זמן נתון.
- יעילות אימון: בעוד שלאמון מודלי MoE יש מורכבויות משלו (כמו איזון עומסים בין מומחים), החישוב המופחת לכל טוקן יכול להתורגם לזמני אימון מהירים יותר או, כפי ש-Ant מדגימה, ליכולת לאמן ביעילות על חומרה פחות חזקה במסגרות זמן סבירות.
- התמחות: כל מומחה יכול פוטנציאלית להתמחות בסוגים שונים של נתונים, משימות או תחומי ידע, מה שעלול להוביל לתפוקות איכותיות יותר בתחומים ספציפיים.
מעבדות AI מובילות ברחבי העולם אימצו את MoE, כולל Google (GShard, Switch Transformer), Mistral AI (מודלי Mixtral), ובתוך סין, חברות כמו DeepSeek ו-Alibaba (שמודלי Qwen שלה משלבים אלמנטים של MoE). Ling-Plus-Base של Ant ממקם אותה היטב בחזית זו, תוך מינוף חדשנות ארכיטקטונית כדי לנווט במציאות החומרה.
אקוסיסטם החומרה המקומי: מילוי החלל של Nvidia
בעוד שמאמר המחקר של Ant נמנע מלציין במפורש את החומרה ששימשה, דיווחים מאוחרים יותר, בעיקר על ידי Bloomberg, הצביעו על כך שההישג כלל שבבים שתוכננו מקומית. זה כולל מעבדים שמקורם פוטנציאלית בחברה המסונפת ל-Ant, Alibaba, שיש לה יחידת עיצוב שבבים משלה T-Head (המייצרת CPUs כמו Yitian 710 ובעבר חקרה מאיצי AI), ובאופן מכריע, Huawei Technologies.
Huawei, למרות שהיא עצמה מתמודדת עם סנקציות אמריקאיות אינטנסיביות, מפתחת באגרסיביות את סדרת מאיצי ה-AI שלה Ascend (כמו Ascend 910B) כחלופה ישירה להצעות של Nvidia בשוק הסיני. על פי הדיווחים, שבבים אלה מאומצים על ידי חברות טכנולוגיה סיניות גדולות. היכולת של Ant Group לנצל ביעילות חומרה כזו עבור מודל גדול כמו Ling-Plus-Base תייצג אימות משמעותי של חלופות מקומיות אלו.
חשוב לציין ש-Ant Group לא נטשה לחלוטין את Nvidia. הדיווחים מצביעים על כך ששבבי Nvidia נותרו חלק מארגז הכלים לפיתוח AI של Ant, ככל הנראה משמשים למשימות שבהן מאפייני הביצועים הספציפיים שלהם או האקוסיסטם התוכנתי הבוגר (כמו CUDA) מציעים יתרונות, או עבור מערכות מדור קודם. המהלך אינו בהכרח החלפה מוחלטת בן לילה אלא בניית נתיבים מקבילים ובני קיימא המפחיתים פגיעות אסטרטגית ושולטים בעלויות. גישה היברידית זו מאפשרת לחברה למנף את הכלים הטובים ביותר הזמינים תוך טיפוח עצמאות. Ant Group עצמה שמרה על מידה של שיקול דעת תאגידי, וסירבה להגיב רשמית על השבבים הספציפיים ששימשו.
מגמה רחבה יותר: הדחיפה הקולקטיבית של סין לעצמאות ב-AI
היוזמה של Ant Group אינה מתרחשת בבידוד. היא משקפת דחיפה אסטרטגית רחבה יותר ברחבי מגזר הטכנולוגיה של סין לחדש סביב המגבלות שהוטלו על ידי בקרות הייצוא האמריקאיות. ‘מלחמת הטכנולוגיה’ זירזה מאמצים להשיג עצמאות רבה יותר בטכנולוגיות קריטיות, במיוחד מוליכים למחצה ו-AI.
שחקנים מרכזיים אחרים רודפים אחר מטרות דומות:
- ByteDance: חברת האם של TikTok גם היא, על פי הדיווחים, פועלת להבטיח ולנצל שבבים חלופיים, כולל אפשרויות מקומיות, לשאיפות ה-AI שלה, המשתרעות על פני אלגוריתמי המלצה, AI גנרטיבי ועוד.
- DeepSeek: סטארט-אפ AI זה, הידוע במודלי הקוד הפתוח החזקים שלו, מזכיר במפורש יעילות אימון ופיתח מודלים המשתמשים בארכיטקטורת MoE, בהתאמה לאסטרטגיות שפחות תלויות בציים עצומים של ה-GPUs החזקים ביותר בלבד.
- Baidu, Tencent ואחרות: כל חברות הענן והטכנולוגיה הסיניות הגדולות משקיעות רבות ב-AI ובאופן בלתי נמנע בוחנות אסטרטגיות לגיוון חומרה, כולל אופטימיזציה לשבבים מקומיים ופוטנציאל לפיתוח סיליקון מותאם אישית משלהן.
המסר הקולקטיבי ברור: בעוד שהגישה למוצרים מהשורה הראשונה של Nvidia נותרה רצויה, תעשיית הטכנולוגיה הסינית מפתחת ומאמתת באופן פעיל פתרונות חלופיים. זה כרוך בגישה רב-זרועית: אימוץ ארכיטקטורות מודל יעילות כמו MoE, אופטימיזציית תוכנה אינטנסיבית עבור קצוות חומרה שונים, ותמיכה בפיתוח ואימוץ של שבבים מתוצרת מקומית.
מעבר למודלי שפה: התרחבות ה-AI של Ant בתחום הבריאות
מאמצי ה-AI של Ant Group משתרעים מעבר ל-LLMs יסודיים. במקביל לחדשות על יעילות האימון שלה, החברה חשפה שדרוגים משמעותיים לחבילת פתרונות ה-AI שלה המותאמים למגזר הבריאות. יוזמה זו ממנפת מודל AI מובחן, שפותח באופן עצמאי וממוקד בבריאות.
הפתרונות המשודרגים כוללים יכולות מולטימודליות (עיבוד סוגי נתונים שונים כמו טקסט, תמונות, ופוטנציאלית נתונים רפואיים אחרים) והסקה רפואית מתוחכמת. אלה משולבים במה ש-Ant מתארת כ-‘all-in-one machines’, ככל הנראה מכשירים או פלטפורמות המיועדים למסגרות קליניות או לניהול בריאות.
למרות שנראה נפרד מחדשות ה-LLM של Ling-Plus-Base, יש קשר פוטנציאלי בסיסי. היכולת לאמן מודלי AI חזקים בצורה חסכונית יותר, פוטנציאלית תוך שימוש בתמהיל של חומרה כולל אפשרויות מקומיות, יכולה לעמוד בבסיס הכדאיות הכלכלית של פיתוח ופריסה של מודלים מיוחדים למגזרים כמו בריאות. הורדת העלויות היסודיות של פיתוח AI מאפשרת לנתב משאבים ליישומים ספציפיים לתחום, מה שעלול להאיץ את השקת כלי AI מעשיים בתעשיות קריטיות. דחיפה זו בתחום הבריאות מדגישה את שאיפתה של Ant ליישם את מומחיות ה-AI שלה באופן נרחב, מעבר לשורשיה הפינטקיים.
השלכות לעתיד: פיצול בדרך ה-AI?
האימון המוצלח של Ant Group של מודל MoE בקנה מידה גדול באמצעות GPUs שאינם של Nvidia, ככל הנראה מקומיים, נושא השלכות משמעותיות:
- אימות לשבבים מקומיים: הוא משמש כהוכחת היתכנות מכרעת לכדאיות של מאיצי AI בעיצוב סיני כמו Ascend של Huawei, מה שעלול להגביר את אימוצם בתוך סין.
- נוף תחרותי: הוא מדגים שחברות סיניות יכולות להישאר תחרותיות בפיתוח AI מתקדם למרות הגבלות, תוך מינוף חדשנות ארכיטקטונית ותוכנתית.
- דינמיקת עלויות: הפחתת העלויות ב-20% מדגישה יתרון תחרותי פוטנציאלי לחברות המסוגלות לנצל ביעילות חומרה חלופית, מה שעלול להשפיע על תמחור ונגישות AI גלובליים.
- מעמדה של Nvidia: בעוד ש-Nvidia נותרה דומיננטית גלובלית, מגמה זו מדגישה את האתגרים העומדים בפניה בשוק הסיני המשמעותי עקב רגולציות ועליית מתחרים מקומיים. זה עשוי להאיץ את פיתוח שבבים תואמי-ייצוא של Nvidia המותאמים לסין, אך גם מאמת את הנתיב החלופי.
- ביפורקציה טכנולוגית?: בטווח הארוך, המשך ההתפצלות בגישה לחומרה ובאופטימיזציית תוכנה עלול להוביל לאקוסיסטמים של AI נפרדים חלקית, עם מודלים וכלים המותאמים לסיליקון בסיסי שונה.
המסע שערך צוות Ling של Ant Group הוא סמל לתושייה המונעת על ידי אילוצים גיאופוליטיים. על ידי שילוב חכם של ארכיטקטורות מודל מתקדמות כמו MoE עם נכונות לבצע אופטימיזציה ולנצל חומרה מקומית זמינה, הם התוו מסלול המבטיח התקדמות מתמשכת בתחום הקריטי של בינה מלאכותית, תוך פוטנציאל לעיצוב מחדש של מבני העלויות והתלות האסטרטגית המגדירים את התעשייה. זוהי עדות לרעיון שחדשנות פורחת לעתים קרובות בצורה התוססת ביותר תחת לחץ.