חדשנות NVIDIA: Llama Nemotron Ultra ו-Parakeet

אסטרטגיית הקוד הפתוח של NVIDIA

NVIDIA הופכת במהירות לכוח משמעותי בזירת AI עם קוד פתוח. שחרור מודלים מתקדמים כמו Llama Nemotron Ultra ו-Parakeet TDT מדגים מהלך אסטרטגי שמטרתו להנגיש את טכנולוגיית ה-AI ולטפח חדשנות בתוך הקהילה. על ידי הפיכת כלים חדישים אלה לזמינים, NVIDIA שואפת להאיץ את המחקר, הפיתוח והפריסה של פתרונות AI בתעשיות שונות.

Llama Nemotron Ultra: הגדרה מחדש של יעילות וביצועים

Llama Nemotron Ultra, מודל עם 253 מיליארד פרמטרים, הוא עדות ליכולת ההנדסית של NVIDIA. מה שמייחד אותו הוא היכולת שלו לספק ביצועים דומים למודלים גדולים פי שניים ממנו, כמו Llama 405B ו-DeepSeek R1. הישג יוצא דופן זה מאפשר לפרוס אותו על צומת H100 8x יחיד, מה שהופך אותו לנגיש למגוון רחב יותר של משתמשים.

הרוטב הסודי: Fusion FFN

היעילות המרשימה של Llama Nemotron Ultra מיוחסת במידה רבה לטכניקה חדשנית בשם FFN (Feed-Forward Network) fusion. אסטרטגיית אופטימיזציה זו, שהתגלתה באמצעות חיפוש ארכיטקטורת עצבית של NVIDIA Puzzle, מייעלת את ארכיטקטורת המודל על ידי צמצום שכבות קשב מיותרות.

על ידי יישור שכבות FFN ברצף, הטכניקה מאפשרת חישוב מקביל גדול יותר על GPUs. מיזוג או היתוך השכבות הנותרות ממקסם את היעילות, במיוחד עבור מודלים גדולים יותר המבוססים על Meta’s Llama 3.1 - 405B. היתרונות של FFN fusion הם כפולים: הוא משפר באופן משמעותי את התפוקה, משיג האצות בטווח של פי 3 עד פי 5, ומפחית את טביעת הרגל הזיכרון של המודל. הגודל המופחת מאפשר שימוש במטמון KV גדול יותר, מה שמאפשר למודל להתמודד עם אורכי הקשר גדולים יותר.

חשיבה לפי דרישה: תכונה שמשנה את כללי המשחק

אחת התכונות הייחודיות והחשובות ביותר של Llama Nemotron Ultra היא יכולת ה-"חשיבה פועלת/כבוי" שלה. זה מאפשר שליטה חסרת תקדים על תהליך החשיבה של המודל, ומציע יתרונות משמעותיים עבור פריסות ייצור ואופטימיזציה של עלויות.

היכולת להפעיל ולכבות חשיבה באמצעות שורת המערכת מעניקה לארגונים את הגמישות לאזן בין דיוק לחביון ועלות. חשיבה, בעוד שהיא חיונית לפתרון בעיות מורכבות, מייצרת יותר טוקנים, מה שמוביל לחביון ועלות גבוהים יותר. על ידי מתן שליטה מפורשת, NVIDIA מעצימה את המשתמשים לקבל החלטות מושכלות מתי להשתמש בחשיבה, ובכך לייעל את הביצועים והשימוש במשאבים.

כדי ליישם תכונה זו, NVIDIA לימדה במפורש את המודל מתי לחשוב ומתי לא במהלך שלב הכוונון העדין המפוקח. זה כלל הצגת אותה שאלה עם שתי תשובות שונות: אחת עם חשיבה מפורטת ואחת בלעדיה, בעצם הכפלת מערך הנתונים למטרה ספציפית זו. התוצאה היא מודל יחיד שבו משתמשים יכולים לשלוט בתהליך החשיבה פשוט על ידי הכללת "השתמש בחשיבה מפורטת פועל" או "השתמש בחשיבה מפורטת כבוי" בשורת הפקודה.

מהפכה בזיהוי דיבור עם Parakeet TDT

Parakeet TDT, מודל ASR המתקדם ביותר של NVIDIA, הגדיר מחדש את אמות המידה למהירות ודיוק בזיהוי דיבור. הוא יכול לתמלל שעה של אודיו בשנייה אחת בלבד עם שיעור שגיאות מילים מדהים של 6% - פי 50 מהר יותר מחלופות קוד פתוח אחרות.

חידושים ארכיטקטוניים: ה-"איך" של ביצועי Parakeet

הביצועים המרשימים של Parakeet TDT הם תוצאה של שילוב של בחירות ארכיטקטוניות ואופטימיזציות ספציפיות. הוא מבוסס על ארכיטקטורת Fast Conformer, המשופרת בטכניקות כגון דגימת ירידה קונבולוציונית ניתנת להפרדה לעומק ותשומת לב קשרית מוגבלת.

דגימת הירידה של הקונבולוציה הניתנת להפרדה לעומק בשלב הקלט מצמצמת באופן משמעותי את העלות החישובית ודרישות הזיכרון לעיבוד. תשומת לב קשרית מוגבלת, על ידי התמקדות בחלקים קטנים יותר וחופפים של אודיו, שומרת על דיוק תוך השגת האצה בעיבוד. בצד המקודד, טכניקת תשומת לב לחלון הזזה מאפשרת למודל לעבד קבצי אודיו ארוכים יותר מבלי לפצל אותם לחלקים קצרים יותר, חיונית לטיפול באודיו בצורה ארוכה.

Token Duration Transducer (TDT): המפתח למהירות

מעבר לארכיטקטורת Conformer, Parakeet TDT משלב Token and Duration Transducer (TDT). טכנולוגיית Recurrent Neural Network (RNN) מסורתית מעבדת אודיו פריים אחר פריים. ה-TDT מאפשר למודל לחזות גם את הטוקנים וגם את משך הזמן הצפוי של הטוקנים הללו, מה שמאפשר לו לדלג מעל פריימים מיותרים ולהאיץ משמעותית את תהליך התמלול.

חידוש TDT זה לבדו תורם להאצה של פי 1.5 עד פי 2 בקירוב. בנוסף, אלגוריתם Label Looping מאפשר התקדמות עצמאית של טוקנים עבור דגימות שונות במהלך הסקת מסקנות אצווה, ומאיץ עוד יותר את תהליך הפיענוח. העברת חלק מהחישוב בצד המפענח לגרפי CUDA מספקת דחיפה נוספת של פי 3 מהירות. חידושים אלה מאפשרים ל-Parakeet TDT להשיג מהירויות הדומות ל-Connectionist Temporal Classification (CTC) decoders, הידועים במהירות שלהם, תוך שמירה על דיוק גבוה.

הדמוקרטיזציה של AI עם נתונים פתוחים

המחויבות של NVIDIA לקהילת הקוד הפתוח חורגת מעבר לשחרור מודלים וכוללת שיתוף של מערכי נתונים מסיביים ואיכותיים הן עבור שפה והן עבור דיבור. הגישה של החברה לאצירת נתונים מדגישה שקיפות ופתיחות, במטרה לשתף כמה שיותר על הנתונים, הטכניקות והכלים שלה, כך שהקהילה תוכל להבין ולהשתמש בהם.

אצירת נתונים עבור Llama Nemotron Ultra

המטרה העיקרית של אצירת נתונים עבור Llama Nemotron Ultra הייתה לשפר את הדיוק על פני מספר תחומים מרכזיים, כולל משימות חשיבה כמו מתמטיקה ותכנות, כמו גם משימות שאינן חשיבה כמו tool calling, instruction following וצ’אט.

האסטרטגיה כללה אוצרת של מערכי נתונים ספציפיים כדי לשפר את הביצועים בתחומים אלה. בתוך תהליך הכוונון העדין המפוקח, NVIDIA הבחינה בין תרחישי "חשיבה פועלת" ל-"חשיבה כבויה". נעשה שימוש במודלים איכותיים מהקהילה בתור "מומחים" בתחומים ספציפיים. לדוגמה, DeepSeek R-1 שימש רבות למשימות מתמטיקה ותכנות אינטנסיביות חשיבה, בעוד שמודלים כמו Llama ו-Qwen שימשו למשימות שאינן חשיבה כמו מתמטיקה בסיסית, תכנות, צ’אט ו-tool calling. מערך נתונים אוצר זה, המורכב מכ-30 מיליון צמדי שאלות-תשובות, הפך לזמין לציבור ב-Hugging Face.

הבטחת איכות נתונים: גישה רב-שכבתית

בהתחשב בכך שחלק ניכר מהנתונים נוצר באמצעות מודלים אחרים, NVIDIA יישמה תהליך קפדני רב-שכבתי להבטחת איכות. זה כלל:

  • יצירת תגובות מועמדות מרובות עבור אותה הנחיה באמצעות כל מודל מומחה.
  • העסקת קבוצה נפרדת של מודלים "מבקרים" כדי להעריך את המועמדים הללו על סמך נכונות, קוהרנטיות והיצמדות להנחיה.
  • יישום מנגנון ניקוד שבו כל צמד שאלות-תשובות שנוצר קיבל ציון איכות על סמך הערכת מודל המבקר, עם סף גבוה שנקבע לקבלה.
  • שילוב ביקורת אנושית בשלבים שונים, כאשר מדעני נתונים ומהנדסים בודקים ידנית דוגמאות של הנתונים שנוצרו כדי לזהות שגיאות שיטתיות, הטיות או מקרים של הזיות.
  • התמקדות במגוון הנתונים שנוצרו כדי להבטיח מגוון רחב של דוגמאות בתוך כל תחום.
  • עריכת הערכות נרחבות מול מערכי נתונים של אמות מידה ובמקרים של שימוש בעולם האמיתי לאחר אימון Llama Nemotron Ultra על בסיס נתונים אוצר זה.

קוד פתוח של מערך נתונים לדיבור עבור Parakeet TDT

NVIDIA מתכננת לפתוח מערך נתונים משמעותי של דיבור, בסביבות 100,000 שעות, שנאצרה בקפידה כדי לשקף מגוון בעולם האמיתי. מערך נתונים זה יכלול וריאציות ברמות קול, יחסי אות לרעש, סוגי רעשי רקע ואפילו פורמטי אודיו טלפוניים הרלוונטיים למרכזי שיחות. המטרה היא לספק לקהילה נתונים מגוונים ואיכותיים המאפשרים למודלים לבצע ביצועים טובים על פני מגוון רחב של תרחישים בעולם האמיתי.

כיוונים עתידיים: מודלים קטנים יותר, תמיכה רב-לשונית וסטרימינג בזמן אמת

החזון של NVIDIA לעתיד כולל התקדמות נוספת בתמיכה רב-לשונית, אפילו מודלים קטנים יותר המותאמים לקצה ושיפורים בסטרימינג בזמן אמת לזיהוי דיבור.

יכולות רב-לשוניות

תמיכה במספר שפות חיונית עבור ארגונים גדולים. NVIDIA שואפת להתמקד בכמה שפות מפתח ולהבטיח דיוק ברמה עולמית עבור חשיבה, tool calling וצ’אט בתוך אותן שפות. זה כנראה התחום העיקרי הבא של התרחבות.

מודלים המותאמים לקצה

NVIDIA שוקלת מודלים של עד כ-50 מיליון פרמטרים כדי לטפל במקרים של שימוש בקצה שבהם יש צורך בטביעת רגל קטנה יותר, כגון הפעלת עיבוד אודיו בזמן אמת עבור רובוטים בסביבות רועשות.

סטרימינג בזמן אמת עבור Parakeet TDT

מבחינה טכנולוגית, NVIDIA מתכננת לעבוד על יכולות סטרימינג עבור TDT כדי לאפשר תמלול חי בזמן אמת.

AI מוכן לייצור: תכנון לפריסה בעולם האמיתי

גם Llama Nemotron Ultra וגם Parakeet TDT מתוכננים תוך מחשבה על אתגרי פריסה בעולם האמיתי, תוך התמקדות בדיוק, יעילות וחסכוניות.

חשיבה פועלת/כבוי למדרגיות ויעילות עלות

חשיבה מוגזמת עלולה להוביל לבעיות מדרגיות ולהגביר את החביון בסביבות ייצור. תכונת החשיבה פועלת/כבוי שהוצגה ב-Llama Nemotron Ultra מספקת את הגמישות לשלוט בחשיבה על בסיס שאילתה, ומאפשרת מקרי שימוש רבים בייצור.

איזון בין דיוק ויעילות

איזון בין דיוק ויעילות הוא אתגר מתמיד. הגישה של NVIDIA כוללת התחשבות זהירה במספר התקופות לכל מיומנות במהלך האימון ומדידה מתמשכת של דיוק. המטרה היא לשפר את הביצועים בכל תחומי המפתח.

תפקידם של המודלים של NVIDIA במערכת האקולוגית של קוד פתוח

NVIDIA רואה את תפקידם של Llama Nemotron Ultra ו-Parakeet TDT בתוך מערכת האקולוגית הרחבה יותר של קוד פתוח ו-LLM כבנייה על יסודות קיימים והתמקדות בצורה מצומצמת בתחומים ספציפיים כדי להוסיף ערך משמעותי. החברה שואפת להמשיך ולזהות תחומים ספציפיים שבהם היא יכולה לתרום, בעוד שאחרים ממשיכים לבנות מודלים מצוינים למטרות כלליות המתאימים לייצור ארגוני.

עיקרי הדברים: קוד פתוח, מהיר, תפוקה גבוהה, חסכוני

עיקרי הדברים מעבודתה של NVIDIA על Llama Nemotron Ultra ו-Parakeet TDT הם מחויבות לקוד פתוח של הכל, השגת דיוק מתקדם, אופטימיזציה של טביעות רגל לניצול יעיל של GPU מבחינת חביון ותפוקה והעצמת הקהילה.

כל המודלים ומערכי הנתונים זמינים ב-Hugging Face. מחסנית התוכנה להפעלתם מגיעה מ-NVIDIA וזמינה ב-NGC, מאגר התוכן שלה. חלק ניכר ממחסנית התוכנה הבסיסית הוא גם קוד פתוח וניתן למצוא אותו ב-GitHub. מסגרת Nemo היא המרכז המרכזי עבור חלק ניכר ממחסנית תוכנה זו.