מודלי Llama-Nemotron מסדרת Nvidia עלו רשמית על DeepSeek-R1, ופרטי האימונים שלהם נחשפו במלואם, ומציעים תובנות לגבי האופן שבו פותחו מודלים אלה כדי להשיג ביצועים מעולים.
מודלים אלה הם כעת קוד פתוח לחלוטין, ומסמנים התקדמות משמעותית בטכנולוגיית AI נגישה. משמעות הדבר היא שסדרה של מודלי הסקה שעולים באופן משמעותי על DeepSeek-R1 במונחים של תפוקת הסקה ויעילות זיכרון זמינים כעת לשימוש ולשינוי על ידי כל אחד.
חשיפת הסודות מאחורי הצלחת המודל
אז איך בדיוק נוצרו המודלים הללו, שעולים על DeepSeek-R1? הדו”ח הטכני של Nvidia חושף את המרכיבים הקריטיים של תהליך האימון שלהם:
- כוונון עדין מפוקח עם נתונים סינתטיים + למידת חיזוק: שילוב זה משפר משמעותית את יכולות ההיגיון של המודל.
- תהליך פוסט-אימון מקיף: תהליך פוסט-אימון חזק ומעוצב היטב הוא חיוני לייעול הביצועים של המודל.
בחודש שעבר, Nvidia הכריזה רשמית על Llama-Nemotron 253B, אשר במהירות האפילה על Llama 4 (שהיה רק בן שלושה ימים ועומד בפני “משבר יושרה” עקב מניפולציה של Leaderboard). שחרור סדרת מודלים זו עורר לא מעט סערה בתעשייה.
על פי מדד בינה מלאכותית, Llama-Nemotron-Ultra נחשב כיום למודל הקוד הפתוח “האינטליגנטי ביותר” נכון לאפריל 2025.
Nvidia השיקה שלושה מודלים בסדרת Llama-Nemotron: LN-Nano 8B, LN-Super 49B ו-LN-Ultra 253B.
יש לציין, LN-Ultra לא רק עולה על DeepSeek-R1 בביצועים אלא גם פועל על צומת 8xH100 יחיד, ומספק תפוקת הסקה גבוהה יותר.
מודלים אלה מותאמים להסקה בעלת תפוקה גבוהה תוך שמירה על יכולות היגיון חזקות ואורך הקשר של עד 128K.
יתר על כן, Nvidia הציגה תכונת מתג הסקה פורצת דרך בקהילת הקוד הפתוח של AI העולמית. משתמשים יכולים לעבור באופן דינמי בין מצב צ’אט סטנדרטי למצב היגיון באמצעות הנחיית המערכת “חשיבה מפורטת פועלת/כבויה”.
עיצוב זה מאפשר למודל לענות על צרכים יומיומיים כלליים ולטפל במשימות היגיון מורכבות, מרובות שלבים, מבלי להזדקק למודלים או ארכיטקטורות שונות.
תהליך הבנייה: גישה בת חמישה שלבים
בניית מודלי Llama-Nemotron מחולקת לחמישה שלבים נפרדים:
שלב 1: אופטימיזציה של יעילות ההיגיון באמצעות חיפוש ארכיטקטורה עצבית (NAS) המבוסס על מודלי סדרת Llama 3, עם הצגת היתוך רשת Feedforward Network (FFN Fusion).
שלב 2: שחזור ביצועי המודל באמצעות זיקוק ידע והמשך אימון מוקדם.
שלב 3: כוונון עדין מפוקח (SFT), המשלב נתוני הדרכה סטנדרטיים עם תהליכי היגיון ממודלי מורים חזקים כמו DeepSeek-R1, ומאפשר למודל לבצע היגיון מרובה שלבים.
שלב 4: למידת חיזוק בקנה מידה גדול על מערכי נתונים מתמטיים ומדעיים מורכבים, אשר חיונית כדי שמודל התלמיד יעלה על היכולות של מודל המורה. עבור LN-Ultra, שלב זה משפר משמעותית את הביצועים במדד GPQA-D, ומבסס אותו כמודל החזק ביותר להיגיון מדעי בתחום הקוד הפתוח.
כדי לתמוך באימון למידת חיזוק בקנה מידה גדול כזה, הצוות פיתח מסגרת אימון חדשה עם אמצעי אופטימיזציה מרובים, והחשוב מביניהם הוא תמיכה ביכולת יצירת דיוק FP8.
שלב 5: אימון יישור קצר המתמקד במעקב אחר הוראות ועמידה בהעדפות אנושיות.
ארכיטקטורה חדשנית ליעילות הסקה אופטימלית
LN-Super ו-LN-Ultra ממנפים את מסגרת Puzzle לחיפוש ארכיטקטורה עצבית כדי לייעל את יעילות הסקת המודל.
Puzzle הופכת מודלי שפה גדולים לגרסאות יעילות המותאמות לחומרה, המותאמות לפריסה.
באמצעות “זיקוק מקומי חסימה אחר חסימה,” מפתחים בנו ספרייה של מודולי Transformer חלופיים באמצעות Llama 3 Instruct.
בתהליך זה, כל מודול מאומן באופן עצמאי ובמקביל, משערך את הפונקציונליות של המודול המקורי תוך אופטימיזציה של ביצועים חישוביים.
לכל מודול חלופי יש פשרות ספציפיות של “דיוק-יעילות”. מודולים מסוימים יעילים יותר אך עשויים לגרום לירידה מסוימת באיכות, וליצור פשרה ברורה בין עלות חישובית לדיוק מודל.
וריאציות מודול אלה כוללות:
הסרת מנגנון תשומת לב: מודולים מסוימים משמיטים לחלוטין את מנגנון תשומת הלב, ומצמצמים את כמות החישוב ואת צריכת זיכרון מטמון KV.
מידות FFN משתנות: הממדים הביניים של רשתות ה-Feedforward Network מותאמים, ומאפשרים דחיסה של מודל בגרנולריות שונה.
לאחר בניית ספריית המודולים, Puzzle בוחרת מודול מכל שכבה כדי להרכיב מודל שלם.
תהליך בחירה זה נשלט על ידי פתרון תכנות מספרים שלמים מעורבים (MIP), אשר מוצא את התצורה האופטימלית בהתבסס על אילוצים כגון תאימות חומרה, השהיה מותרת מרבית, תקציב זיכרון או תפוקת הסקה רצויה.
דחיסה אנכית והיתוך FFN
במודל LN-Ultra, חוקרים הציגו היתוך FFN (היתוך רשת Feedforward Network), טכניקת דחיסה נוספת להפחתת עומק הרצף של המודל ולשיפור יעילות ההשהיה של ההיגיון.
הסרת שכבות תשומת לב מסוימות של Puzzle מביאה למבנה ייחודי: בלוקים רציפים מרובים של FFN מופיעים לעתים קרובות במבנה המודל.
היתוך FFN מזהה מבנים רציפים אלה ומחליף אותם בשכבות FFN מעטות יותר אך רחבות יותר הניתנות לביצוע מקבילי.
שיטת החלפה זו מפחיתה את שלבי החישוב הרציף מבלי להקריב את הביטוי של המודל, ומשפרת משמעותית את הניצול של משאבי המחשוב - במיוחד בסביבות מרובות GPU, שבהן תקורה של תקשורת בין שכבות היא משמעותית.
המודל LN-Ultra עולה באופן עקבי על DeepSeek-R1 ו-Llama-3.1-405B מבחינת דיוק ויעילות, ומשיג איזון אופטימלי.
אימון פוסט-NAS: זיקוק ידע והמשך אימון מוקדם
לאחר שלב חיפוש הארכיטקטורה העצבית (NAS), גם LN-Super וגם LN-Ultra עברו אימון נוסף כדי לשפר את התאימות בין מודולים ולשחזר כל אובדן איכות שאולי התרחש במהלך החלפת מודולים.
- LN-Super אומן על מערך הנתונים Distillation Mix עבור 40 מיליארד אסימונים תחת מטרה של זיקוק ידע.
- LN-Ultra אומן בתחילה על אותו מערך נתוני זיקוק עבור 65 מיליארד אסימונים, ואחריו המשך אימון על מערך הנתונים שלב רביעי של Nemotron-H עבור 88 מיליארד אסימונים.
שלב אימון מוקדם סופי זה איפשר ל-LN-Ultra לא רק להדביק את המודל הייחוס, Llama 3.1-405B-Instruct, אלא גם לעלות עליו במבחני ייחוס מרכזיים.
זה מראה שזיקוק ואימון מוקדם קצרים יכולים להשיג תאימות בין אופטימיזציה אגרסיבית של ארכיטקטורה לביצועי מודל גבוהים.
כוונון עדין מפוקח: חידוד יכולת ההיגיון
כוונון עדין מפוקח (SFT) פועל כ”מאמן אישי” עבור מודלי Llama-Nemotron, במיוחד מכוון לשלבי היגיון למשימות מסוימות ולומד טכניקות הסקה ממודלי “תלמידים מצטיינים” כגון DeepSeek-R1.
כדי להחדיר כישורי היגיון אמיתיים, נתוני אימון היגיון בקנה מידה גדול ובאיכות גבוהה הם חיוניים.
נתונים סינתטיים: מותאמים להיגיון
חוקרים אוספים בקפידה דגימות נתונים המכילות גם נתוני היגיון וגם נתונים שאינם היגיון עבור כוונון עדין מפוקח.
עבור דגימות היגיון, הם הוסיפו “חשיבה מפורטת פועלת” להוראות המערכת, בעוד שעבור דגימות שאינן היגיון, הם השתמשו ב”חשיבה מפורטת כבויה”.
הגדרה זו מאפשרת למודל להחליף התנהגות היגיון בהתבסס על הנחיות במהלך שלב ההיגיון.
נתונים סינתטיים להיגיון הוכנו במתמטיקה, קידוד ותחומים קשורים.
כדי לאמןאת המודל לעקוב אחר הוראות “מתג היגיון”, חוקרים בנו מערכי נתונים משויכים, שבהם כל הנחיה מתאימה לתגובה עם היגיון ולתגובה אחת ללא היגיון.
התאמה זו מאפשרת למודל ללמוד להתאים את התנהגות ההיגיון שלו בהתבסס על הוראות מערכת.
סינון עוקב של תגובות אלה מתבצע בהתבסס על תשובות סטנדרטיות או מודלי תגמול.
תהליך כוונון עדין
כל המודלים אומנו על נתוני כוונון עדין של הדרכה באמצעות אובדן אנטרופיה צולבת ברמת האסימון.
ברוב הגדרות האימון, נתוני היגיון ונתונים שאינם היגיון מעורבבים ליצירת אצוות אימון, שבהן כל הנחיה משויכת לתגובה מתאימה בהתבסס על הוראות המערכת “חשיבה מפורטת פועלת/כבויה”.
הרחבת האימון למספר סבבים יכולה לשפר את הביצועים, במיוחד עבור מודלים קטנים יותר.
NeMo-Aligner שימש לאימון למידת חיזוק, תומך ב-GRPO ובאימון מודלים הטרוגניים.
vLLM שימש לשלב היצירה, ו-Megatron-LM שימש לשלב האימון.
שלבי האימון וההיגיון חלקו את אותה אצווה של GPU, שהושלמו באותו מכשיר.
כל תהליך האימון השתמש ב-72 צמתים, כל אחד מצויד ב-8 GPU של H100.
שלב היצירה השתמש ב-דיוק FP8, שלב האימון השתמש ב-דיוק BF16, ומצב האופטימיזציה השתמש ב-FP32.
כל שלב שמר על משקל מודל עצמאי, אשר סונכרן בתחילת כל שלב.
למידת חיזוק: המפתח לעלות על יכולת ההיגיון של R1
כוונון עדין מפוקח (SFT) מאפשר למודל לחלץ ידע ממודלי מורים חזקים, ולהשיג יכולות מצוינות.
עם זאת, זיקוק ידע מטבעו מגביל את הביצועים של מודל התלמיד, במיוחד כאשר יכולת מודל הבסיס של מודל התלמיד אינה עולה על זו של מודל המורה.
באמצעות כוונון עדין מפוקח, הביצועים של LN-Ultra יכולים להתקרב ל-DeepSeek-R1 אך אינם יכולים לעלות עליו.
למידת חיזוק (RL) בקנה מידה גדול היא שיטה מעשית המאפשרת למודל התלמיד לעלות על מודל המורה מכיוון שהיא מאפשרת למודל לחקור ללא הרף אפשרויות חדשות וללמוד בעצמו.
בגלל מגבלות משאבים, חוקרים יישמו רק RL להיגיון על LN-Ultra, וכתוצאה מכך מודל תלמיד שעלה על מודל המורה.
במהלך תהליך האימון של למידת החיזוק בהיגיון, הדיוק של LN-Ultra במערך הנתונים GPQA-Diamond השתפר.
תהליך אימון: התמקדות בהיגיון מדעי
עבור LN-Ultra, חוקרים שיפרו את יכולת ההיגיון המדעי שלו באמצעות למידת חיזוק (RL) בקנה מידה גדול, תוך שימוש באלגוריתם Grouped Relative Policy Optimization (GRPO), אותו אחד המשמש את DeepSeek-R1.
כל תהליך האימון דרש כ-140,000 שעות H100, שאמנו ללא הרף את המודל עד שהוא התכנס במשימות היגיון.
עיצוב מנגנון התגמול כלל שתי קטגוריות:
- תגמול דיוק: בהתבסס על התשובות הסטנדרטיות (מספריות/משפט/פסקה), קריאה למודל Llama-3.3-70B-Instruct שופטת את מידת ההתאמה של תוצאות החיזוי.
- תגמול פורמט: בעקבות התוכנית של DeepSeek-AI, המודל נאלץ לעטוף את תהליך ההיגיון בתגיות \
במצב “חשיבה מפורטת”, והופעת תגיות כאלה אסורה במצב שאינו חשיבה מפורטת.
צוות המחקר גם עיבד מראש את הנתונים, כולל סינון נתונים ואימון תוכנית לימודים.
- סינון נתונים: LN-Super משמש מראש כדי ליצור 8 תגובות לכל שאלה, ודגימות פשוטות עם שיעור מעבר ≥ 75% מוסרות.
- אימון תוכנית לימודים: הקצאת אצווה פרוגרסיבית המבוססת על שיעור מעבר מאומצת.
הפצה דינמית: מידול קושי אצווה עם פונקציה גאוסית, בתחילה התמקדות בדגימות בעלות שיעור מעבר גבוה (פשוטות) ומאוחר יותר מעבר לדגימות בעלות שיעור מעבר נמוך (קשות).
לוגיקת ריפוד: דגימות מוקצות תחילה לפי התפלגות היעד, והקיבולת הנותרת משלימה ממאגר הדגימות הנותר הגדול ביותר.
עיבוד בתוך האצווה: דגימות באותה אצווה מערבלות באופן אקראי כדי לשמור על מגוון.
למידת חיזוק לאופטימיזציה של העדפות
לאחר השלמת אימון היגיון מדעי, חוקרים ערכו שלב למידת חיזוק קצר עבור מודלי LN-Super ו-LN-Ultra, תוך התמקדות בשיפור יכולות מעקב ההוראות שלהם.
חוקרים השתמשו גם ב-RLHF כדי לייעל את יכולות העזרה הכלליות וביצועי הצ’אט של המודלים תוך שמירה על יכולות המודלים במתמטיקה, מדע ותחומים אחרים.
LN-Super השיג ציון גבוה של 88.3 במבחן Arena Hard, עולה על מודלים קנייניים כגון Claude 3.5 Sonnet ו-GPT-4o-2024-05-13, וגם טוב יותר ממודלי קוד פתוח גדולים יותר.
כדי להשיג תוצאה זו, הם אימצו את השיטה “OnLine Reward-Policy Optimization“, ומיקסמו את תגמול החיזוי של המודל במערך הנתונים HelpSteer2. מודל התגמול ששימש היה Llama-3.1-Nemotron-70B-Reward.
שני סבבים של אימון RPO מקוון הגדילו את הציון Arena Hard מ-69.1 ל-88.1.
עבור LN-Ultra, הם השתמשו בתהליך דומה אך אימצו GRPO.
עבור LN-Nano, הם ערכו שני סבבים של אימון RPO לא מקוון, תוך שימוש בנתוני אימון שנוצרו על ידי מדיניות.
הסבב הראשון שילב נתוני היגיון ונתונים שאינם היגיון עם הנחיות מערכת מתאימות כדי לייעל את יכולת בקרת ההיגיון של המודל. הסבב השני התמקד בשיפור יכולות מעקב אחר הוראות.
תוצאות הערכה: הערכה מקיפה
חוקרים העריכו את הביצועים של כל מודלי Llama-Nemotron בשתי קטגוריות ייחוס: משימות היגיון ומשימות שאינן היגיון.
יישומי היגיון כללו: AIME24 ו-AIME25, GPQA-Diamond, LiveCodeBench ו-MATH500.
יישומי שאינם היגיון כללו: IFEval להערכת מעקב אחר הוראות, BFCL V2 Live להערכת שימוש בכלי שיחת פונקציה ו-Arena-Hard להערכת יישור עם העדפות שיחה אנושיות.
LN-Nano השיג ביצועים מצוינים בכל יישומי ההיגיון, למרות גודלו הקטן.
זה מדגים שתהליכי כוונון עדין מפוקחים ומערכי נתונים של היגיון שנאספו היטב יעילים בהעברת יכולות היגיון מובנות למודלים קטנים יותר.
LN-Super הראה תחרותיות חזקה הן במשימות היגיון והן במשימות שאינן היגיון בהשוואה למודלים אחרים בסולם פרמטרים דומה.
במצב “היגיון כבוי”, הביצועים של LN-Super היו דומים למודל המקור המזוקק שלו, Llama-3.3-70B; במצב “היגיון פועל”, הוא עלה על מודלים מתחרים אחרים, כגון DeepSeek-R1-Distilled-Llama-70B, והדגים יכולת היגיון חזקה תוך שמירה על יכולת מעקב אחר הוראות טובה.
תוצאות אלה מצביעות על כך ש-LN-Super הוא מודל רב-תכליתי המשלב את היתרונות של מודלים המותאמים להיגיון ומודלים שאינם היגיון, מה שהופך אותו למתאים למשימות עוזר יומיות ומשימות היגיון מובנות.
LN-Ultra ביצע בערך או טוב יותר מכל מודלי משקל הקוד הפתוח הקיימים ביישומי היגיון ושאינם היגיון. הוא השיג את הרמה המתקדמת ביותר במודלים של קוד פתוח ב-GPQA, והדגים באופן מלא את האפקטיביות של שיטות אימון למידת החיזוק בקנה מידה גדול של חוקרי Nvidia.
בניגוד ל-DeepSeek-R1, הדורש תצורת חומרה של 8×H200, LN-Ultra מותאם לפעול ביעילות על צומת 8×H100 יחיד, ומספק תפוקת היגיון ויעילות פריסה גבוהים יותר.
שלב ה-SFT של LN-Ultra התקרב או הגיע לביצועים של DeepSeek-R1 ביישומי היגיון מרובים (כולל GPQA ו-AIME).
בנוסף ליכולות ההיגיון והדיאלוג שהמודל אומן עליהן במקור, הם גם בדקו את המודל בממשימת חלוקה.
באופן ספציפי, המודל נבדק על מערך הנתונים JudgeBench, ודרש ממנו להבחין בין תשובות באיכות גבוהה לתשובות באיכות נמוכה.
המודל החדש עלה על המודלים הקנייניים והקוד הפתוח המובילים הנוכחיים במשימה זו.
LN-Ultra הפך למודל הקוד הפתוח בעל הביצועים הטובים ביותר, שעלה משמעותית על DeepSeek-R1, שני רק למודל הקנייני o3-mini(high).
בנוסף, הביצועים של LN-Super עלו גם על o1-mini, מה שמצביע על כך שלמודל החדש יש יכולת הכללה חזקה במשימות שונות.