Tencent חושפת את Hunyuan-T1: עידן חדש בהיגיון AI

הנוף המתפתח של אופטימיזציה למודלי שפה גדולים

זירת הבינה המלאכותית עדה לשינוי פרדיגמה, במיוחד בשלבי הליטוש שלאחר האימון הראשוני של מודלי שפה גדולים (LLMs). למידת חיזוק (RL), טכניקה מתוחכמת שבה מודלים לומדים באמצעות ניסוי וטעייה המונחים על ידי תגמולים, התגלתה ככוח רב עוצמה המניע שיפורי ביצועים משמעותיים. גישה זו עברה מסקרנות אקדמית לאסטרטגיית יסוד עבור מפתחי AI מובילים. היכולות המרשימות שהוצגו על ידי מודלים כמו סדרת O של OpenAI וה-DeepSeek R1 הבולט משמשות כראיה משכנעת, המדגישה את התפקיד המרכזי של למידת חיזוק בחידוד תפוקות המודל, שיפור מיומנויות פתרון בעיות, והתאמת התנהגות ה-AI באופן הדוק יותר לציפיות ולהעדפות אנושיות. שלב זה שלאחר האימון אינו עוסק עוד רק בכוונון עדין; הוא עוסק בשיפור מהותי של יכולותיו הקוגניטיביות של המודל.

היכרות עם Hunyuan-T1: קפיצת מדרגה ביכולות חשיבה מעמיקה

על רקע התקדמות מהירה זו, צוות Hunyuan של Tencent ציין אבן דרך משמעותית. מוקדם יותר השנה, באמצע פברואר, הצוות סיפק הצצה להתקדמותם עם Hunyuan T1-Preview (Hunyuan-Thinker-1-Preview). מודל ההיגיון הראשוני הזה, שהוטמע באפליקציית Tencent Yuanbao והתבסס על בסיס Hunyuan בקנה מידה בינוני, הציע למשתמשים טעימה מיכולות אנליטיות מהירות ומעמיקות.

בהתבסס על יסוד זה, אנו גאים כעת להכריז על ההשקה הרשמית של Hunyuan-T1, הגרסה המלאה של מודל החשיבה המעמיקה במשפחת המודלים הגדולים של Hunyuan. זה אינו רק עדכון הדרגתי; הוא מייצג אבולוציה משמעותית. Hunyuan-T1 ממנף את בסיס החשיבה המהירה TurboS, ארכיטקטורה פורצת דרך שהוצגה על ידי Tencent בתחילת מרץ. מה שהופך את TurboS לראוי לציון במיוחד הוא היותו המודל הגדול הראשון בעולם בקנה מידה אולטרה-גדול מסוג Hybrid-Transformer-Mamba Mixture of Experts (MoE). מבנה היברידי חדשני זה משלב את החוזקות של ארכיטקטורות Transformer מבוססות עם היעילות ויכולת הטיפול ברצפים של מודל מרחב המצב החדש יותר, Mamba. באמצעות משטר אימון מקיף ומתוכנן בקפידה לאחר האימון, יכולות ההיגיון של Hunyuan-T1 הוגברו באופן דרמטי, והתאמתו להעדפות אנושיות מורכבות שופרה משמעותית. בהשוואה לקודמו בגרסת ה-Preview, ה-Hunyuan-T1 הרשמי מדגים שיפורים ניכרים בכל התחומים, וממצב אותו כמתחרה אדיר בין המודלים הגדולים המובילים בתעשייה, בעלי יכולות היגיון גבוהות.

יתרונות ארכיטקטוניים: הכוח של TurboS ו-Mamba

הבחירה ב-TurboS כיסוד ל-Hunyuan-T1 מספקת יתרונות מובהקים, במיוחד כאשר מתמודדים עם משימות הדורשות חשיבה עמוקה ורב-שלבית. צוואר בקבוק קריטי במודלי שפה גדולים רבים מתעורר כאשר מתמודדים עם מסמכים נרחבים או שיחות ארוכות. מידע המוצג בשלב מוקדם עלול להתעמעם או ללכת לאיבוד לחלוטין כאשר המודל מעבד טקסט עוקב, מה שמוביל לתופעה המכונה אובדן הקשר (context loss). יתר על כן, יצירת קשרים בין נקודות המופרדות על ידי קטעי טקסט גדולים – תלות מידע למרחקים ארוכים (long-distance information dependence) – מהווה אתגר חישובי משמעותי.

הארכיטקטורה העומדת בבסיס Hunyuan-T1, שעברה בירושה מ-TurboS, מתמודדת ישירות עם מגבלות אלו. העיצוב המובנה שלה נותן עדיפות ללכידת טקסט ארוך (robust long-text capture) חזקה, ומבטיח שהמודל שומר על אחיזה איתנה יותר במכלול הקלט, ובכך מפחית את אובדן ההקשר ומזהה באופן אמין יותר קשרים חיוניים על פני רצפים מורחבים. יכולת זו חיונית למשימות היגיון מורכבות הדורשות לעתים קרובות סינתזה של מידע הפזור על פני קורפוס טקסט גדול.

מרכזי ליכולת משופרת זו הוא רכיב ארכיטקטורת Mamba. Mamba מייצגת סטייה ממנגנוני הקשב הטהורים הדומיננטיים במודלי Transformer רבים. היא משתמשת בגישת מודל מרחב מצב (SSM), שעברה אופטימיזציה ספציפית לעיבוד רצפים ארוכים ביעילות יוצאת דופן. היתרונות המרכזיים כוללים:

  • סיבוכיות זמן לינארית: בניגוד לסיבוכיות הריבועית של מנגנוני קשב סטנדרטיים ביחס לאורך הרצף, Mamba מתרחבת באופן לינארי. זה הופך את עיבוד הטקסטים הארוכים ביותר לאפשרי מבחינה חישובית ללא דרישות משאבים מופרזות.
  • חישוב יעיל: עיצוב Mamba מאפשר חישובים מקבילים במהלך האימון ופעולות רקורנטיות יעילות במהלך ההסקה (inference). זה מתורגם ישירות למהירויות עיבוד מהירות יותר.
  • ניהול מצב סלקטיבי: מודלי Mamba יכולים לשמור או לשכוח מידע באופן סלקטיבי תוך כדי עיבוד רצף, ובכך לחקות גישה ממוקדת יותר לניהול הקשר, דבר החיוני לשמירה על מידע רלוונטי למרחקים ארוכים.

כתוצאה מכך, TurboS, ובהרחבה Hunyuan-T1, יכולים לנתח ביעילות קלטים ארוכים תוך צריכת משאבים חישוביים נמוכים משמעותית בהשוואה למודלי Transformer מסורתיים בקנה מידה דומה. מדדי ביצועים פנימיים מצביעים על כך שבתנאי פריסה זהים, Hunyuan-T1 משיג מהירות פענוח (decoding speed) כפולה מזו של מודלים דומים חסרי אופטימיזציית Mamba, גורם מכריע ליישומים בעולם האמיתי הדורשים תגובות בזמן.

כבשן האימון שלאחר האימון: חישול יכולות היגיון באמצעות למידת חיזוק

המעבר ממודל הבסיס TurboS ל-Hunyuan-T1 בעל היכולות הגבוהות כלל שלב אימון מסיבי וממוקד אסטרטגית לאחר האימון הראשוני. מתוך הכרה בתפקיד הקריטי של טכניקות למידה מתקדמות, Tencent הקדישה 96.7% מהמשאבים החישוביים שהוקצו לשלב זה באופן ספציפי לאימון בלמידת חיזוק (reinforcement learning training). השקעה עצומה זו מדגישה עדיפות אסטרטגית ברורה: העלאת יכולות ההיגיון הטהורות של המודל והתאמה קפדנית של תפוקותיו לשיפוטים והעדפות אנושיות מורכבות.

לא היה מדובר רק בהזנת המודל בנתונים נוספים; היה מדובר בלימודו כיצד לחשוב בצורה יעילה יותר. המטרות המרכזיות של שלב אינטנסיבי זה של RL היו כפולות:

  1. שיפור ההיגיון הטהור: לדחוף את גבולות יכולתו של המודל לבצע הסקה לוגית, חישוב מתמטי, הסקת סיבתיות ופתרון בעיות מורכבות בתחומים מגוונים.
  2. אופטימיזציה של התאמה אנושית: להבטיח שתגובות המודל אינן רק מדויקות אלא גם מועילות, לא מזיקות, כנות ומורכבות באופן שמהדהד עם משתמשים אנושיים. זה כרוך בהבנת כוונה מרומזת, יצירת תפוקות קוהרנטיות ומתאימות להקשר, ועמידה בהנחיות בטיחות.

כדי לתדלק את תהליך האימון התובעני הזה, אוצר בקפידה מאגר נתונים עצום ומגוון. אוסף זה כלל בעיות מדע והיגיון עולמיות, המשתרעות על פני קשת רחבה של דיסציפלינות:

  • מתמטיקה: מאריתמטיקה ואלגברה בסיסיות ועד חשבון דיפרנציאלי ואינטגרלי, תורת המספרים ובעיות מתקדמות ברמת תחרות.
  • היגיון לוגי: חידות, משימות הסקה דדוקטיבית, אתגרי חשיבה ביקורתית ובעיות לוגיקה פורמלית.
  • מדע: שאלות ובעיות המכסות פיזיקה, כימיה, ביולוגיה ותחומי מדע אחרים, הדורשות לעתים קרובות חשיבה רב-שלבית ויישום עקרונות.
  • קידוד: עיצוב אלגוריתמים, יצירת קוד, ניפוי שגיאות והבנת לוגיקת תכנות מורכבת בשפות שונות.

באופן מכריע, נתונים אלה שולבו עם משוב אמיתי מהשטח (ground-truth real feedback). לולאת משוב זו חיונית ללמידת חיזוק, ומספקת את האות שהמודל זקוק לו כדי להבין אילו מסלולי חשיבה מובילים לתוצאות נכונות או מועדפות. ביסוס קפדני זה מבטיח ש-Hunyuan-T1 מפתח מיומנות מוכחת כאשר הוא מתמודד עם מגוון רחב של משימות חשיבה מאתגרות הנתקלות בתרחישים בעולם האמיתי.

מתודולוגיות אימון מתוחכמות

היקף ההשקעה החישובית ואיסוף הנתונים העצום שולב עם אסטרטגיות אימון מתוחכמות שנועדו למקסם את יעילות הלמידה ויציבות המודל.

  • למידת תוכנית לימודים (Curriculum Learning): במקום להציף את המודל בבעיות המורכבות ביותר באופן מיידי, אומצה גישת curriculum learning. האימון החל במשימות פשוטות יותר והציג בהדרגה בעיות קשות יותר. במקביל, אורך ההקשר האפקטיבי של המודל הורחב בהדרגה. גישה מדורגת זו מאפשרת למודל לבנות מיומנויות חשיבה בסיסיות לפני שהוא מתמודד עם אתגרים מתקדמים יותר, ומקדמת למידה יציבה ויעילה יותר. היא גם מאמנת את המודל לנצל את קיבולת הטוקנים שלו בשיקול דעת לצורך חשיבה יעילה, ומפתחת סוג של יעילות חישובית בתהליך החשיבה שלו.
  • טכניקות למידת חיזוק מתקדמות: כדי להבטיח התקדמות חזקה ועקבית במהלך אימון ה-RL הממושך, הופעלו אסטרטגיות קלאסיות אך עוצמתיות. טכניקות כגון שידור חוזר של נתונים (data replay) (שימוש חוזר בחוויות עבר לחיזוק הלמידה) ואיפוס מדיניות תקופתי (periodic policy resetting) (חזרה מדי פעם למצבי מודל יציבים קודמים כדי למנוע סטייה) שולבו. שיטות אלו הוכיחו יעילות רבה, והגבירו משמעותית את היציבות ארוכת הטווח של תהליך אימון המודל בלמעלה מ-50%, תוך הפחתת בעיות כמו שכחה קטסטרופלית או קריסת מדיניות שעלולות לפגוע במאמצי RL בקנה מידה גדול.
  • מערכת תגמול מאוחדת: התאמת המודל להעדפות אנושיות היא משימה מורכבת. Hunyuan-T1 השתמש במערכת תגמול מאוחדת (unified reward system) חדשנית. מערכת זו שילבה משוב משני מקורות:
    • תגמול עצמי (Self-Rewarding): גרסה מוקדמת יותר של מודל T1-preview שימשה כשופט אוטומטי להערכה מקיפה וניקוד של תפוקות המודל שעבר אימון. זה מאפשר יצירת משוב מהירה ובקנה מידה גדול בהתבסס על קריטריונים מוגדרים מראש.
    • מודל תגמול (Reward Model): מודל נפרד שאומן במיוחד לחזות העדפות אנושיות סיפק שכבה נוספת של הדרכה, תוך לכידת היבטים עדינים יותר של איכות, מועילות ובטיחות.
      מנגנון משוב משולב זה הנחה את המודל בתהליך של שיפור עצמי, ועודד תפוקות המאופיינות בפרטי תוכן עשירים יותר, מסירת מידע יעילה יותר, והתאמה כללית טובה יותר למאפייני התגובה הרצויים.

מדדי ביצועים: עומד בגאון בין העילית

המדד האולטימטיבי של מודל שפה גדול טמון בביצועיו. Hunyuan-T1 הוערך בקפדנות מול סוללה של מדדי ביצועים ציבוריים ומאגרי נתונים פנימיים, והדגים יכולות הממקמות אותו היטב בשכבה העליונה של מודלי ה-AI העכשוויים.

בהשוואה ל-DeepSeek R1, מודל נוסף מוערך מאוד המתמקד בחשיבה, Hunyuan-T1 משיג תוצאות דומות או מעט עדיפות במספר מדדי ביצועים ציבוריים מרכזיים המעריכים ידע וחשיבה בשפות ותחומים שונים:

  • MMLU-pro: מדד ביצועים מאתגר שנועד להעריך ידע מקיף וחשיבה במגוון נושאים מקצועיים ואקדמיים.
  • CEval: חבילת הערכה רב-תחומית בשפה הסינית.
  • AIME: מתמקד בבעיות מתמטיקה ברמת תחרות הדורשות חשיבה מתוחכמת.
  • Zebra Logic: מדד ביצועים המכוון במיוחד לחידות הסקה לוגית מורכבות.

מעבר למבחנים ספציפיים אלה, מאגרי נתונים פנימיים של הערכה אנושית מספקים תובנות נוספות. בעוד שהוא מציג ביצועים דומים ל-R1 בתחומים רבים, Hunyuan-T1 מפגין יתרון קל במשימות הקשורות ל:

  • מעקב אחר הוראות תרבותיות ויצירתיות: יצירת פורמטים של טקסט יצירתי, התאמה לבקשות סגנוניות ספציפיות עם ניואנסים תרבותיים.
  • סיכום טקסט: הפקת סיכומים תמציתיים ומדויקים של מסמכים ארוכים תוך שמירה על מידע מרכזי.
  • יכולות סוכן (Agent Capabilities): הפגנת מיומנות במשימות הדורשות תכנון, שימוש בכלים ואינטראקציה עם מערכות חיצוניות.

בהסתכלות על מדדי הערכה מקיפים שנועדו למדוד יכולת כוללת, Hunyuan-T1 מחזק את מעמדו בין מודלי ההסקה (inference) העיליים.

  • ב-MMLU-PRO, T1 השיג ציון מדהים של 87.2, שני רק למודל O1 של OpenAI בזמן ההערכה. מדד ביצועים זה משתרע על פני 14 תחומים, כולל מדעי הרוח, מדעי החברה ומקצועות STEM, ובוחן הן שליפת ידע רחב והן הבנה.
  • הביצועים ב-GPQA-diamond ראויים לציון גם כן. מדד ביצועים זה מתרכז בידע ברמת מומחה וחשיבה מדעית מורכבת, וכולל בעיות ברמת דוקטורט בעיקר בפיזיקה, כימיה וביולוגיה. Hunyuan-T1 השיג ציון של 69.3, המצביע על יכולות חזקות בטיפול בשאלות מדעיות מיוחדות ומורכבות ביותר.

מצטיין במדע, הנדסה והתאמה

הערכות נוספות התמקדו בתחומים ספציפיים הדורשים יכולות חשיבה חזקות:

  • קידוד: בהערכת הקוד LiveCodeBench, הבוחנת פתרון בעיות קידוד מעשיות, T1 הגיע לציון של 64.9, המדגים לוגיקת תכנות מוצקה וכישורי יצירת קוד.
  • מתמטיקה: המודל מראה חוזק יוצא דופן במתמטיקה. ביצועיו ב-MATH-500, מאגר נתונים של בעיות מתמטיקה מאתגרות, הניבו ציון יוצא מן הכלל של 96.2. תוצאה זו מציבה אותו ראש בראש עם DeepSeek R1, ומדגישה את יכולתו העמוקה של Hunyuan-T1 להתמודד עם חשיבה מתמטית מורכבת.
  • התאמה ומעקב אחר הוראות: מעבר לפתרון בעיות טהור, T1 מציג יכולת הסתגלות חזקה במגוון משימות התאמה. הוא מצטיין בתרחישי מעקב אחר הוראות ומדגים מיומנות בשימוש בכלים בעת הצורך. לדוגמה, במשימת ArenaHard, שנועדה להעריך ביצועים בהנחיות מאתגרות שנוצרו על ידי משתמשים, T1 השיג ציון גבוה של 91.9.

תוצאות אלו מציירות יחדיו תמונה של מודל שפה גדול בעל יכולות גבוהות, רב-תכליתי ומותאם היטב. השילוב האסטרטגי של ארכיטקטורת Hybrid-Transformer-Mamba, יחד עם משטר אימון אינטנסיבי ממוקד RL לאחר האימון, הגיע לשיאו ב-Hunyuan-T1 – מודל המדגים יכולות חשיבה יוצאות דופן, במיוחד בתרחישים מורכבים בעלי הקשר ארוך ובתחומים מדעיים ומתמטיים תובעניים.