מודל Qwen של עליבאבא מצית את שאיפות הבינה המלאכותית של סין

התרחבות האקוסיסטם של הבינה המלאכותית בסין

ב-5 במרץ, ענקית הטכנולוגיה הסינית עליבאבא חשפה את מודל הסקת הבינה המלאכותית (AI) העדכני ביותר שלה, התפתחות שגרמה למניות החברה, הנסחרות בהונג קונג, לזנק בשיעור מרשים של 8%. בעוד שהמודל החדש הזה, המכונה QwQ-32B, אולי עדיין לא מתחרה ביכולות של מערכות AI מובילות בארצות הברית, על פי הדיווחים הוא משתווה בביצועיו למודל R1 של המתחרה המקומית DeepSeek. מה שמייחד את QwQ-32B הוא הדרישה הנמוכה משמעותית שלו לכוח מחשוב, הן בפיתוחו והן בתפעולו השוטף. המוחות שמאחורי QwQ-32B טוענים שהוא מגלם “רוח פילוסופית עתיקה”, וניגש לבעיות בתחושה של “פליאה וספק אמיתיים”.

“השקה זו מדגישה את התחרותיות הרחבה יותר של האקוסיסטם של AI בחזית סין,” מציין סקוט סינגר, חוקר אורח בתוכנית לטכנולוגיה ועניינים בינלאומיים ב-Carnegie Endowment for International Peace. אקוסיסטם זה הוא נוף תוסס המאוכלס על ידי שחקנים כמו DeepSeek עם מודל ה-R1 שלה ו-Tencent עם מודל Hunyuan שלה. יש לציין כי מייסד שותף של Anthropic, ג’ק קלארק, הכיר ב-Hunyuan כ”ברמה עולמית” בהיבטים מסוימים. עם זאת, חשוב לציין שהערכות של המודל העדכני ביותר של עליבאבא עדיין בשלבים מוקדמים. הקושי המובנה במדידת יכולות המודל, יחד עם העובדה ש-QwQ-32B הוערך רק באופן פנימי על ידי עליבאבא, פירושו ש”סביבת המידע אינה עשירה במיוחד כרגע”, כפי שמציין סינגר.

הופעת הבכורה של מודל R1 של DeepSeek בינואר כבר שלחה אדוות בשוק המניות העולמי, והכניסה את האקוסיסטם הטכנולוגי של סין לאור הזרקורים הבינלאומי. תשומת לב זו מוגברת עוד יותר על ידי התפיסה הגוברת בארה”ב של מרוץ נגד סין להשגת בינה מלאכותית כללית (AGI). AGI מייצגת רמה היפותטית של תחכום AI שבה למערכות יש את היכולת לבצע מגוון רחב של משימות קוגניטיביות, מעיצוב גרפי ועד מחקר למידת מכונה, ברמה הדומה ליכולות אנושיות או עולה עליהן.

ההשלכות האסטרטגיות של AGI

פיתוח AGI צפוי להעניק יתרון צבאי ואסטרטגי משמעותי לכל ישות – בין אם זו חברה או ממשלה – שתשיג אותו ראשונה. היישומים הפוטנציאליים של מערכת כזו הם עצומים ומשנים, החל מיכולות לוחמת סייבר מתקדמות ועד ליצירת כלי נשק חדשים להשמדה המונית.

“אנו בטוחים ששילוב מודלי בסיס חזקים יותר עם למידת חיזוק המופעלת על ידי משאבי מחשוב מוגדלים יקרב אותנו להשגת AGI”, הכריז הצוות האחראי על המודל העדכני ביותר של עליבאבא. המרדף הזה אחר AGI הוא חוט מקשר העובר ברוב מעבדות ה-AI המובילות. המטרה המוצהרת של DeepSeek היא “לפענח את המסתורין של AGI בסקרנות”. באופן דומה, המשימה של OpenAI היא “להבטיח שבינה מלאכותית כללית - מערכות AI שבדרך כלל חכמות יותר מבני אדם - תועיל לכל האנושות”. מנכ”לי AI בולטים הביעו ציפיות שמערכות דמויות AGI עשויות להופיע בתוך הקדנציה הנוכחית של הנשיא טראמפ.

הופעתו המחודשת של ג’ק מא ונוף הטכנולוגיה של סין

פריצת הדרך האחרונה של עליבאבא בתחום הבינה המלאכותית מגיעה בעקבות הופעה פומבית בולטת של מייסד החברה, ג’ק מא. הוא ישב בולט בשורה הראשונה במהלך פגישה בין הנשיא שי ג’ינפינג לבין אנשי העסקים המובילים בסין. זה סימן שינוי משמעותי עבור מא, שנסוג במידה רבה מעין הציבור מאז 2020. הביקורת הקודמת שלו על רגולטורים ממשלתיים ובנקים בבעלות המדינה על כך שהם מעכבים חדשנות ופועלים ב”מנטליות של בית עבוט” הובילה ככל הנראה לתקופה של נראות מופחתת.

במהלך היעדרותו של מא מאור הזרקורים, ממשלת סין יישמה שורה של צעדים המכוונים לתעשיית הטכנולוגיה. תקנות מחמירות יותר הוטלו על האופן שבו חברות יכולות להשתמש בנתונים ולהתחרות בשוק. במקביל, הממשלה הפעילה שליטה רבה יותר על פלטפורמות דיגיטליות מרכזיות.

שינוי סדרי עדיפויות: מדיכוי טכנולוגי לתחייה כלכלית

עד 2022, הופיע שינוי ניכר במוקד של הממשלה. האיום הנתפס שמציבה תעשיית הטכנולוגיה נראה כמתגמד בהשוואה לאתגר המתקרב של קיפאון כלכלי. “סיפור הקיפאון הכלכלי הזה, והניסיון להפוך אותו, עיצבו באמת כל כך הרבה מהמדיניות ב-18 החודשים האחרונים”, מסביר סינגר. סין רודפת כעת באופן פעיל אחר אימוץ טכנולוגיה מתקדמת. דיווחים מצביעים על כך שלפחות 13 ממשלות עירוניות ו-10 חברות אנרגיה בבעלות המדינה כבר שילבו מודלים של DeepSeek במערכות התפעוליות שלהן.

המגמה של הגדלת יעילות הבינה המלאכותית

המודל של עליבאבא מדגים מגמה מתמשכת בתחום הבינה המלאכותית: שיפור עקבי של ביצועי המערכת לצד הפחתת עלויות התפעול. Epoch AI, ארגון מחקר ללא מטרות רווח, מעריך שכוח המחשוב הנדרש לאימון מערכות AI הסלים בקצב העולה על פי 4 מדי שנה. עם זאת, התקדמות מקבילה בעיצוב אלגוריתמים הובילה לעלייה של פי שלושה ביעילות של כוח המחשוב הזה מדי שנה. במונחים מעשיים, פירוש הדבר שמערכת AI שאולי דרשה 10,000 שבבי מחשב מתקדמים לאימון בשנה שעברה, יכולה להיות מאומנת עם שליש בלבד מהמספר הזה השנה.

התפקיד המכריע של שבבי מחשוב מתקדמים

למרות העלייה המרשימה הזו ביעילות, סינגר מזהיר ששבבי מחשוב מתקדמים נותרים חיוניים לפיתוח AI מתקדם. מציאות זו מדגישה את האתגר המתמשך שמציבות בקרות הייצוא של ארה”ב על שבבים אלה עבור חברות AI סיניות כמו עליבאבא ו-DeepSeek. מנכ”ל DeepSeek זיהה ספציפית את הגישה לשבבים, ולא משאבים פיננסיים או כישרון, כצוואר הבקבוק העיקרי שלהם.

פרדיגמה חדשה: “מודלים של הסקה”

QwQ מייצג את התוספת האחרונה לדור המתפתח של מערכות AI המסווגות כ”מודלים של הסקה”. מומחים מסוימים רואים בכך שינוי פרדיגמה בתחום הבינה המלאכותית. בעבר, מערכות AI השתפרו באמצעות שילוב של הגדלת כוח המחשוב המשמש לאימון ושיפור הכמות והאיכות של נתוני האימון.

פרדיגמה חדשה זו מדגישה גישה שונה. היא כוללת לקיחת מודל שכבר עבר אימון ראשוני – במקרה זה, Qwen 2.5-32B – ולאחר מכן הגדלה משמעותית של משאבי המחשוב המוקצים למערכת כאשר היא מגיבה לשאילתה ספציפית. כפי שניסח זאת צוות Qwen ברהיטות, “כאשר ניתן זמן להרהר, לשאול ולהרהר, ההבנה של המודל במתמטיקה ותכנות פורחת כמו פרח הנפתח לשמש”. תצפית זו תואמת מגמות שנראו במודלים מערביים, שבהם טכניקות המאפשרות זמן “חשיבה” ממושך הביאו לשיפורי ביצועים משמעותיים במשימות אנליטיות מורכבות.

שחרור ‘משקל פתוח’ ודינמיקת שוק

QwQ של עליבאבא שוחרר תחת מודל “משקל פתוח”. משמעות הדבר היא שניתן להוריד את המשקולות, המהוות למעשה את המודל ונגישות כקובץ מחשב, ולהפעיל אותן באופן מקומי, אפילו על מחשב נייד מתקדם. מעניין לציין שגרסת תצוגה מקדימה של המודל שפורסמה בנובמבר של השנה הקודמת זכתה לתשומת לב פחותה בהרבה. סינגר מציין כי “שוק המניות מגיב בדרך כלל לשחרורי מודלים ולא למסלול הטכנולוגיה”, שצפוי להמשיך בהתקדמותו המהירה משני צדי האוקיינוס השקט. הוא מדגיש עוד כי, “לאקוסיסטם הסיני יש קבוצה של שחקנים בתוכו, שכולם מוציאים מודלים חזקים ומשכנעים מאוד, ולא ברור מי יתגלה, בסופו של דבר, כבעל המודל הטוב ביותר.”

בחינה מפורטת של ארכיטקטורת QwQ-32B

מודל QwQ-32B, בעודו בנוי על הבסיס של Qwen 2.5-32B, משלב מספר שינויים ארכיטקטוניים מרכזיים ושיפורי אימון התורמים ליכולות ההסקה המשופרות שלו. ניתן לסווג שיפורים אלה באופן כללי ל:

  • הרחבת חלון ההקשר: חלון ההקשר, הקובע את כמות הטקסט שהמודל יכול לשקול בבת אחת, הורחב ככל הנראה באופן משמעותי. זה מאפשר ל-QwQ-32B לעבד ולהבין קטעי טקסט ארוכים ומורכבים יותר, מה שמוביל להבנה טובה יותר ולתגובות מדויקות יותר.

  • מנגנוני קשב משופרים: מנגנון הקשב, מרכיב ליבה של מודלים מבוססי טרנספורמרים כמו QwQ-32B, שופר ככל הנראה. זה יכול לכלול טכניקות כמו קשב רב-ראשי או קשב דליל, המאפשרות למודל להתמקד בצורה יעילה יותר במידע רלוונטי בתוך טקסט הקלט ולסנן רעשים.

  • למידת חיזוק ממשוב אנושי (RLHF): למרות שלא נאמר במפורש, סביר מאוד ש-QwQ-32B עבר כוונון עדין באמצעות RLHF. טכניקה זו כוללת אימון המודל ליצור פלטים המועדפים על ידי מעריכים אנושיים, מה שמוביל לשיפורים בתחומים כמו קוהרנטיות, מועילות וחוסר מזיקות.

  • כוונון הוראות: QwQ-32B עשוי לעבור כוונון הוראות נרחב, תהליך שבו המודל מאומן על קבוצה מגוונת של הוראות ופלטים מתאימים. זה עוזר למודל להכליל טוב יותר למשימות חדשות ולעקוב אחר הוראות בצורה מדויקת יותר.

  • הנחיית שרשרת מחשבות: המודל תוכנן במפורש למנף הנחיית שרשרת מחשבות, טכניקה שבה מעודדים את המודל ליצור סדרה של שלבי הסקה ביניים לפני הגעה לתשובה סופית. זה מקדם הסקה מכוונת והגיונית יותר.

השלכות על תעשיות ספציפיות

ההתקדמות שמגלם QwQ-32B ומודלים סיניים אחרים של AI טומנת בחובה השלכות משמעותיות עבור תעשיות שונות, הן בתוך סין והן בעולם. כמה מגזרים מרכזיים שצפויים להיות מושפעים כוללים:

  • מסחר אלקטרוני: עסקי הליבה של עליבאבא, מסחר אלקטרוני, עומדים להרוויח משמעותית מיכולות AI משופרות. זה כולל תחומים כמו המלצות מותאמות אישית, צ’אטבוטים של שירות לקוחות, זיהוי הונאות ואופטימיזציה של שרשרת האספקה.

  • פיננסים: ניתן להשתמש במודלים של AI למשימות כמו הערכת סיכונים, זיהוי הונאות, מסחר אלגוריתמי וניהול קשרי לקוחות. יכולות ההסקה המוגברות של מודלים כמו QwQ-32B עשויות להוביל לתחזיות פיננסיות מדויקות יותר ולקבלת החלטות משופרת.

  • בריאות: AI יכול לסייע בגילוי תרופות, אבחון מחלות, רפואה מותאמת אישית וניטור חולים. מודלים חזקים יותר של הסקה יכולים לנתח נתונים רפואיים מורכבים ולספק תובנות שלא היו נגישות בעבר.

  • ייצור: אוטומציה המופעלת על ידי AI, בקרת איכות ותחזוקה חזויה יכולים לשפר את היעילות ולהפחית עלויות בתהליכי ייצור.

  • תחבורה: כלי רכב אוטונומיים, מערכות ניהול תנועה ואופטימיזציה של לוגיסטיקה מסתמכים במידה רבה על AI. התקדמות בהסקת AI יכולה לתרום לרשתות תחבורה בטוחות ויעילות יותר.

  • חינוך: מודלים של AI מאומצים יותר ויותר כדי לספק תמיכה טובה יותר לתלמידים, ואפילו שיעורים פרטיים מותאמים אישית.

עתיד התחרות והשיתוף הפעולה בתחום הבינה המלאכותית

ההתקדמות המהירה של מודלים סיניים של AI כמו QwQ-32B מעלה שאלות חשובות לגבי עתיד התחרות והשיתוף הפעולה בתחום הבינה המלאכותית בקנה מידה עולמי. בעוד שדינמיקה תחרותית קיימת ללא ספק, במיוחד בין ארה”ב לסין, ישנם גם יתרונות פוטנציאליים לשיתוף פעולה ושיתוף ידע.

  • קוד פתוח לעומת קוד סגור: ההחלטה של עליבאבא לשחרר את QwQ-32B כמודל ‘משקל פתוח’ היא משמעותית. היא מנוגדת לגישה שנקטו כמה חברות AI מערביות ששומרות על המודלים שלהן כמערכות קנייניות וסגורות. מודלים של קוד פתוח יכולים לטפח שיתוף פעולה גדול יותר ולהאיץ חדשנות בכך שהם מאפשרים לחוקרים ולמפתחים ברחבי העולם לבנות על עבודה קיימת.

  • שיתוף נתונים ותקינה: פיתוח מערכות AI חזקות ואמינות דורש כמויות עצומות של נתונים. שיתוף פעולה בינלאומי בשיתוף נתונים וקביעת תקנים משותפים יכולים להועיל לכל קהילת ה-AI.

  • שיקולים אתיים: ככל שמערכות AI הופכות לחזקות יותר, שיקולים אתיים הופכים חשובים יותר ויותר. דיאלוג ושיתוף פעולה גלובליים חיוניים כדי להבטיח ש-AI יפותח ויפרס באחריות, עם אמצעי הגנה מתאימים כדי להפחית סיכונים פוטנציאליים.

  • חילופי כישרונות: תחום הבינה המלאכותית נהנה ממאגר כישרונות מגוון ומבוזר גלובלית. הקלת חילופי חוקרים ומהנדסים בין מדינות יכולה לקדם העברת ידע ולהאיץ את ההתקדמות.

הופעתו של QwQ-32B ומודלים סיניים מתקדמים אחרים של AI מייצגת אבן דרך משמעותית בהתפתחות המתמשכת של בינה מלאכותית. היא מדגישה את היכולות ההולכות וגדלות של האקוסיסטם הטכנולוגי של סין ומדגישה את ההשלכות הגלובליות של התקדמות הבינה המלאכותית. השנים הקרובות צפויות לחזות בהתקדמות מהירה מתמשכת, תחרות עזה וקריאות גוברות לשיתוף פעולה בינלאומי כדי להבטיח ש-AI יועיל לאנושות כולה.