Tencent מציגה את Hunyuan T1

עידן חדש של מהירות ויעילות

המאפיינים המגדירים של Hunyuan T1 הם יכולת הניסוח המהירה שלו, זמני תגובה מיידיים ויכולת יוצאת דופן בטיפול ברצפי טקסט ארוכים. Tencent מיצבה את Hunyuan T1 כמודל חשיבה רב עוצמה, שנבנה מהיסוד בטכנולוגיה קניינית.

אחד המאפיינים הבולטים ביותר של Hunyuan T1 הוא ביצועי הפענוח שלו. תחת ספירת פרמטרים דומה, הוא משיג מהירות פענוח כפולה מזו של עמיתים בתעשייה. זה מתורגם לזמני תגובה כמעט מיידיים של המילה הראשונה ומהירות ניסוח שבין 60 ל-80 אסימונים לשנייה. יתרון מהירות זה חשוב במיוחד עבור יישומים הדורשים אינטראקציה ותגובתיות בזמן אמת.

מעבר למהירות גרידא, Hunyuan T1 מצטיין בעיבוד טקסטים ארוכים. הארכיטקטורה שלו תוכננה במיוחד כדי להתמודד עם המורכבויות של רצפים מורחבים, מה שהופך אותו לאידיאלי עבור משימות כגון סיכום מסמכים ארוכים, ניתוח בסיסי קוד נרחבים או השתתפות בשיחות מרובות תורות.

חשיבה ודיוק משופרים

Hunyuan T1 מציג לוגיקה חזקה, סגנון כתיבה תמציתי ויכולת לעמוד בקפדנות בהוראות מורכבות. יתר על כן, הוא מציג הזיות מינימליות בסיכומים, מכשול נפוץ עבור מודלי שפה גדולים רבים.

יכולות החשיבה המשופרות של המודל הן תוצאה של למידת חיזוק נרחבת, בשילוב עם אופטימיזציות ממוקדות לאתגרים מדעיים ומתמטיים. זה כולל תחומים כמו:

  • מתמטיקה: פתרון משוואות מורכבות והבנת מושגים מתמטיים.
  • חשיבה לוגית: הסקת מסקנות מהנחות יסוד נתונות וזיהוי כשלים לוגיים.
  • מדע: יישום עקרונות מדעיים והבנת ספרות מדעית.
  • קידוד: יצירה ופירוש קוד בשפות תכנות שונות.

שיפורים אלה הופכים את Hunyuan T1 לכלי רב-תכליתי עבור מגוון רחב של יישומים, ממחקר ופיתוח ועד ליצירת תוכן וניתוח נתונים.

בדיקות ביצועים וביצועים

Hunyuan T1 עבר בדיקות קפדניות על מדדי ביצועים סטנדרטיים שונים בתעשייה, והוכיח את הביצועים המעולים שלו.

במערך הנתונים MMLU-PRO, מדד ביצועים משופר להערכת מודלי שפה גדולים, Hunyuan T1 השיג ציון של 87.2. זה מציב אותו במקום השני אחרי o1 של OpenAI (89.3) ולפני GPT 4.5 של OpenAI (86.1) ו-R1 של DeepSeek (84).

במבחני ביצועים ציבוריים המתמקדים בידע סיני ואנגלי, כמו גם במתמטיקה ברמת תחרות וחשיבה לוגית (למשל, CEval, AIME ו-Zebra Logic), Hunyuan T1 ביצע באופן עקבי ברמה של מודלי חשיבה מובילים. יש לציין, ציון החשיבה הלוגית שלו הגיע ל-93.1 מרשים, ועבר את המודלים הנ”ל.

הארכיטקטורה החדשנית: Hunyuan Turbo S

הכוח מאחורי Hunyuan T1 טמון בארכיטקטורה הייחודית שלו, Hunyuan Turbo S. ארכיטקטורה זו מייצגת שילוב פורץ דרך של מודלי Hybrid-Mamba-Transformer. זוהי הפעם הראשונה בתעשייה שבה ארכיטקטורת Mamba ההיברידית יושמה ללא אובדן נתונים על מודלי חשיבה גדולים במיוחד.

ארכיטקטורת ה-Transformer המסורתית, למרות שהיא חזקה, סובלת ממורכבות חישובית שגדלה באופן ריבועי עם אורך הרצף. ארכיטקטורת Mamba, לעומת זאת, מציעה גישה יעילה יותר לטיפול ברצפים ארוכים. על ידי שילוב החוזקות של שניהם, Hunyuan Turbo S משיג הפחתה משמעותית במורכבות החישובית ובשימוש בזיכרון.

באופן ספציפי, הארכיטקטורה מטפלת באתגרים הבאים:

  • מורכבות חישובית: הגישה ההיברידית מפחיתה את עומס החישוב הקשור למבני Transformer מסורתיים, במיוחד עבור רצפים ארוכים.
  • שימוש בזיכרון KV-Cache: הארכיטקטורה ממזערת את טביעת הרגל של הזיכרון של Key-Value Cache (KV-Cache), מרכיב מכריע במודלי Transformer.
  • עלויות אימון וחשיבה: דרישות החישוב והזיכרון המופחתות מתורגמות לעלויות נמוכות משמעותית הן לאימון והן לפריסה של המודל.

שליטה בחשיבה בטקסט ארוך

הארכיטקטורה של Hunyuan T1 מספקת יתרון מובהק בתחום החשיבה בטקסט ארוך. מודלי שפה גדולים רבים מתקשים בבעיות כמו אובדן הקשר ותלות במידע למרחקים ארוכים כאשר מתמודדים עם רצפי טקסט מורחבים. Hunyuan T1 מקל ביעילות על אתגרים אלה.

יכולות מפתח בחשיבה בטקסט ארוך כוללות:

  • שימור הקשר: המודל שומר על הבנה חזקה של ההקשר לאורך טקסטים ארוכים, ומונע אובדן מידע.
  • תלות במידע למרחקים ארוכים: Hunyuan T1 יכול לעקוב במדויק ולקשר מידע בין חלקים מרוחקים של טקסט.
  • מותאם לרצפים ארוכים: ארכיטקטורת Mamba ההיברידית מותאמת במיוחד לעיבוד רצפים ארוכים, תוך מזעור צריכת משאבים תוך שמירה על היכולת ללכוד תלות ארוכת טווח.

העלייה של פי 2 במהירות הפענוח, המושגת עם מספר דומה של פרמטרי הפעלה, היא תוצאה ישירה של אופטימיזציות ארכיטקטוניות אלה.

נוף תחרותי והשפעה בעולם האמיתי

לפני ההשקה הרשמית של Hunyuan T1, מודל Hunyuan של Tencent הופיע באופן בולט ב-Chatbot Arena, פלטפורמה בולטת בחו”ל לתחרויות מודלים גדולים. הוא הבטיח לעצמו מקום בין 15 המובילים בעולם, והוכיח את התחרותיות שלו בזירה הבינלאומית.

בניגוד להערכות רבות אחרות, Chatbot Arena מסתמך על משוב ממשתמשי קצה. משתמשים מקיימים אינטראקציה אנונימית עם מספר מודלים ומצביעים עבור זה שהם רואים כעדיף. זה יוצר לוח תוצאות המבוסס על העדפות משתמשים, ומספק הערכה בעולם האמיתי של ביצועי המודל.

חיזוק נוסף של מעמדו בשוק הסיני, מודל Tencent Hunyuan השיג את המקום השני בין מודלי הבסיס ב-‘Chinese Large Model Evaluation Benchmark SuperCLUE March Report’. דירוג זה מדגיש את החוזק המקיף שלו ומציב אותו היטב בשורה הראשונה של המודלים הגדולים המקומיים.

תמחור וזמינות

המחיר בנוי באופן הבא:

  • מחיר קלט: יואן אחד למיליון אסימונים.
  • מחיר פלט: 4 יואן למיליון אסימונים.

הסבר מפורט על ארכיטקטורת Hunyuan Turbo S

ארכיטקטורת Hunyuan Turbo S משלבת את החוזקות של מודלי Transformer ו-Mamba, ויוצרת גישה היברידית המצטיינת ביעילות ובטיפול בתלות ארוכת טווח. בואו נתעמק בפרטים הספציפיים:

ארכיטקטורת Transformer:

ארכיטקטורת ה-Transformer, שהוצגה במאמר המכונן ‘Attention is All You Need’, חוללה מהפכה בעיבוד שפה טבעית. המרכיב העיקרי שלה הוא מנגנון הקשב העצמי, המאפשר למודל לשקול את החשיבות של מילים שונות ברצף בעת עיבוד מידע.

  • קשב עצמי: מנגנון זה מאפשר למודל ללכוד קשרים בין מילים, ללא קשר למרחק שלהן ברצף. הוא מחשב משקלי קשב, המייצגים את הרלוונטיות של כל מילה לכל מילה אחרת.
  • קשב מרובה ראשים: ה-Transformer משתמש בדרך כלל במספר ראשי קשב, המאפשרים למודל ללמוד סוגים שונים של קשרים בין מילים.
  • רשתות הזנה קדימה: לאחר מנגנון הקשב, רשתות הזנה קדימה מעבדות את המידע הלאה, ומוסיפות אי-ליניאריות ומורכבות למודל.
  • קידוד מיקום: מכיוון שה-Transformer אינו מבין באופן מובנה את סדר המילים, קידוד מיקום מתווסף להטבעות הקלט כדי לספק מידע על מיקומה של כל מילה ברצף.

בעוד שהוא חזק, למנגנון הקשב העצמי של ה-Transformer יש מורכבות חישובית של O(n^2), כאשר n הוא אורך הרצף. משמעות הדבר היא שככל שאורך הרצף גדל, עלות החישוב גדלה באופן ריבועי, והופכת לצוואר בקבוק לעיבוד טקסטים ארוכים מאוד.

ארכיטקטורת Mamba:

Mamba היא ארכיטקטורה עדכנית יותר המטפלת במגבלות החישוביות של ה-Transformer, במיוחד עבור רצפים ארוכים. היא מבוססת על מודל מרחב המצב (SSM), מסגרת רבת עוצמה למידול נתונים רציפים.

  • מודל מרחב המצב (SSM): SSMs מייצגים רצף כסדרה של מצבים נסתרים, כאשר כל מצב תלוי במצב הקודם ובקלט הנוכחי. זה מאפשר למודל ללכוד ביעילות תלות ארוכת טווח.
  • מרחבי מצב סלקטיביים: Mamba מציגה מנגנון בחירה המאפשר למודל להפיץ או להשליך מידע באופן סלקטיבי דרך המצבים הנסתרים. זה משפר עוד יותר את היעילות ומאפשר למודל להתמקד בחלקים הרלוונטיים ביותר של הרצף.
  • אלגוריתם מודע לחומרה: Mamba תוכנן תוך מחשבה על יעילות חומרה, תוך מינוף יכולות עיבוד מקביליות כדי להאיץ את החישוב.

המורכבות החישובית של Mamba היא O(n), שהיא ליניארית ביחס לאורך הרצף. זה הופך אותה ליעילה משמעותית מה-Transformer עבור רצפים ארוכים.

Hybrid-Mamba-Transformer:

Hunyuan Turbo S משלב את החוזקות של שתי הארכיטקטורות:

  • תלות קצרת טווח: רכיב ה-Transformer מצטיין בלכידת תלות קצרת טווח וקשרים מורכבים בין מילים בהקשר מקומי.
  • תלות ארוכת טווח: רכיב Mamba מטפל ביעילות בתלות ארוכת טווח, ומאפשר למודל לשמור על הקשר ולעקוב אחר מידע בין חלקים מרוחקים של הטקסט.
  • גישה היברידית: שתי הארכיטקטורות משולבות באופן המאפשר להן להשלים זו את זו. שיטת האינטגרציה הספציפית עשויה לכלול שכבות מתחלפות של Transformer ו-Mamba, או שימוש ב-Mamba כדי לעבד את הפלט של שכבות Transformer, או תצורות היברידיות אחרות.
  • יישום ללא אובדן נתונים: הוא מיושם ללא אובדן נתונים, מה שאומר ששום יכולות מקוריות משני המודלים לא הולכות לאיבוד.

גישה היברידית זו מאפשרת ל-Hunyuan T1 להשיג גם דיוק גבוה וגם יעילות, מה שהופך אותו למודל רב עוצמה ורב-תכליתי עבור מגוון רחב של משימות עיבוד שפה טבעית. הפרטים הספציפיים של האינטגרציה הם קנייניים ל-Tencent, אך העיקרון המרכזי הוא למנף את החוזקות של Transformer ו-Mamba כדי ליצור מודל מעולה.