מהפכה בבינה מלאכותית: מודל 1-ביט של מיקרוסופט

מהפכה בבינה מלאכותית: מודל 1-ביט של מיקרוסופט ל-GenAI יעיל על מעבדי CPU נפוצים

בנוף הדינמי של הבינה המלאכותית, פיתוח פורץ דרך ממחקר מיקרוסופט הופיע ומבטיח להגדיר מחדש את הנגישות והיעילות של AI גנרטיבי. המאמר האחרון שלהם מציג את BitNet b1.58 2B4T, מודל שפה גדול (LLM) חלוצי המובחן על ידי האימון המקורי שלו עם משקלים של “1-ביט”, או ליתר דיוק, משקלים של 1-טריט. גישה חדשנית זו מסמנת סטייה משיטות מסורתיות המסתמכות על כימות מודלים שאומנו בתחילה בדיוק מלא.

התגברות על מגבלות של מודלי LLM מסורתיים

מודלי LLM קונבנציונליים, למרות הביצועים המדהימים שלהם, מתמודדים עם מחסומים משמעותיים המפריעים לאימוץ הנרחב שלהם. מגבלות אלו נובעות בעיקר מטביעות הרגל הגדולות של הזיכרון שלהם, צריכת האנרגיה הניכרת וזמן ההשהיה הבולט של ההסקה. כתוצאה מכך, פריסת מודלים אלו במכשירי קצה, בסביבות מוגבלות משאבים ועבור יישומים בזמן אמת הופכת ללא מעשית.

כדי להפחית את האתגרים הללו, קהילת הבינה המלאכותית התמקדה יותר ויותר בחקר מודלים מכומתים. מודלים אלו נגזרים מעמיתיהם בעלי הדיוק המלא על ידי המרת המשקלים שלהם לפורמט של ביט נמוך יותר. בעוד כימות מציע מסלול להפחתת גודל המודל ודרישות החישוב, הוא לרוב בא על חשבון אובדן דיוק, שעלול לפגוע בדיוק של המודל ובביצועים הכוללים.

ארכיטקטורת BitNet b1.58 2B4T

BitNet b1.58 2B4T מייצג שינוי פרדיגמה בעיצוב LLM, העוקף את אובדן הדיוק הקשור לכימות על ידי אימון המודל מההתחלה באמצעות משקלים של 1-ביט. גישה זו מאפשרת למודל לשמור על היתרונות של משקלים קטנים יותר, כולל טביעת רגל זיכרון מופחתת ועלויות חישוב נמוכות יותר.

חוקרי מיקרוסופט יצאו למאמץ שאפתני זה על ידי אימון BitNet b1.58 2B4T על קורפוס עצום של 4 טריליון אסימונים. מערך הנתונים האימוני הנרחב הזה הבטיח שהמודל יוכל ללמוד ביעילות דפוסי שפה מורכבים ולפתח הבנה מקיפה של הניואנסים של תקשורת אנושית.

הערכת ביצועים ומדידות ביצועים

כדי להעריך את היעילות של BitNet b1.58 2B4T, מיקרוסופט ערכה מדידות ביצועים קפדניות, והשוותה את הביצועים שלו מול מודלים מובילים בעלי משקל פתוח ובדיוק מלא בגודל דומה. התוצאות הראו שהמודל החדש תפקד באופן דומה על פני מגוון רחב של משימות, הכוללות הבנה והסקה של שפה, ידע עולם, הבנת הנקרא, מתמטיקה וקוד, ומעקב אחר הוראות ושיחה.

ממצאים אלה מדגישים את הפוטנציאל של LLM של 1-ביט להשיג שוויון ביצועים עם עמיתיהם בעלי הדיוק המלא, תוך שהם מציעים יתרונות משמעותיים מבחינת יעילות וניצול משאבים.

חידושים ארכיטקטוניים מרכזיים

בליבה של BitNet b1.58 2B4T טמונה הארכיטקטורה החדשנית שלו, המחליפה שכבות ליניאריות סטנדרטיות בדיוק מלא בשכבות BitLinear מותאמות אישית. שכבות אלו משתמשות בייצוגים של 1.58-ביט כדי לקודד משקלים כערכים טרנאריים (trits) במהלך מעבר קדימה.

השימוש בערכים טרנאריים, המיוצגים כ-{-1, 0, +1}, מאפשר הפחתה דרסטית בגודל המודל ומקל על פעולות מתמטיות יעילות. זה מושג באמצעות ערכת כימות ממוצע מוחלט (absmean), הממפה משקלים לערכים טרנאריים אלו.

בנוסף לשכבות BitLinear, BitNet b1.58 2B4T משלב מספר טכניקות LLM מבוססות, כגון פונקציות הפעלה מרובעות ReLU, הטבעות מיקום סיבוביות והסרת מונח הטיה. טכניקות אלו תורמות עוד להפחתת גודל המודל ולשיפור יציבות האימון.

##שיפור יציבות ויעילות האימון

שתי טכניקות נוספות המועסקות בשכבות BitLinear - כימות הפעלה ונרמול - ממלאות תפקיד מכריע בהפחתת גודל המודל ובשיפור יציבות האימון. כימות הפעלה מפחית את הדיוק של הפעלות, בעוד שטכניקות נרמול עוזרות למנוע מהפעלות להיות גדולות מדי או קטנות מדי.

טכניקות אלו, בשילוב עם השימוש במשקלים של 1-ביט, מאפשרות לאמן את BitNet b1.58 2B4T בצורה יעילה ואפקטיבית יותר, אפילו במערכי נתונים גדולים.

מתודולוגיות אימון

לאימון, BitNet b1.58 2B4T ממנף שלוש טכניקות מפתח: אימון מוקדם בקנה מידה גדול, כוונון עדין בפיקוח ואופטימיזציה של העדפות ישירות.

אימון מוקדם בקנה מידה גדול

שלב ראשוני זה כולל אימון המודל על מערך נתונים עצום של טקסט וקוד, מה שמאפשר לו ללמוד דפוסי שפה כלליים ולפתח הבנה רחבה של העולם.

כוונון עדין בפיקוח

בשלב זה, המודל מכוונן עדין על מערך נתונים קטן יותר וספציפי יותר, המותאם למשימה או לתחום מסוים. זה מאפשר למודל להתאים את הידע והכישורים שלו לדרישות הספציפיות של המשימה.

אופטימיזציה של העדפות ישירות

טכניקה זו כוללת אימון המודל לבצע אופטימיזציה ישירות להעדפות אנושיות, כפי שהן באות לידי ביטוי באמצעות משוב או דירוגים. זה עוזר להבטיח שהתפוקות של המודל תואמות לערכים ולציפיות אנושיים.

החוקרים מציינים כי טכניקות מתקדמות יותר, כגון Proximal Policy Optimization או Group Relative Policy Optimization, ייחקרו בעתיד כדי לשפר יכולות מתמטיות והסקה של שרשרת מחשבות.

ספריית ההסקה Bitnet.cpp

בהתחשב בערכת הכימות הייחודית של BitNet b1.58 2B4T, לא ניתן להשתמש במודל עם ספריות למידה עמוקה סטנדרטיות כמו llama.cpp והוא דורש ליבה מיוחדת. כדי להתמודד עם אתגר זה, מיקרוסופט פיתחה ספריית הסקה ייעודית בקוד פתוח, bitnet.cpp.

bitnet.cpp משמש כמסגרת ההסקה הרשמית עבור LLM של 1-ביט, כגון BitNet b1.58. הוא מציע חבילה של ליבות ממוטבות התומכות בהסקה מהירה וללא אובדן של מודלים של 1.58-ביט במעבדי CPU, עם תוכניות להרחיב את התמיכה ל-NPU ול-GPU בעתיד.

ספריית הסקה זו חיונית להפעלת הפריסה של BitNet b1.58 2B4T על מגוון רחב יותר של מכשירים ופלטפורמות, מה שהופך אותו לנגיש יותר למפתחים וחוקרים.

כיווני מחקר עתידיים

החוקרים מכירים בכך שחומרת GPU נוכחית אינה מותאמת למודלים של 1-ביט ושניתן להשיג רווחי ביצועים נוספים על ידי שילוב לוגיקה ייעודית לפעולות ביט נמוכות. זה מצביע על כך שארכיטקטורות חומרה עתידיות עשויות להיות מתוכננות במיוחד לתמוך ב-LLM של 1-ביט, מה שיוביל ליעילות וביצועים גדולים עוד יותר.

בנוסף לאופטימיזציות חומרה, כיווני מחקר עתידיים כוללים אימון מודלים גדולים יותר, הוספת יכולות רב-לשוניות ושילוב רב-מודיאלי והרחבת אורך חלון ההקשר. התקדמויות אלו ישפרו עוד יותר את היכולות והרבגוניות של BitNet b1.58 2B4T ו-LLM אחרים של 1-ביט.

השלכות והשפעה פוטנציאלית

לפיתוח של BitNet b1.58 2B4T יש השלכות משמעותיות על עתיד הבינה המלאכותית, במיוחד בתחום ה-AI הגנרטיבי. על ידי הדגמה שאפשר לאמן LLM בעלי ביצועים גבוהים באמצעות משקלים של 1-ביט בלבד, מיקרוסופט פתחה אפשרויות חדשות ליצירת מערכות AI יעילות ונגישות יותר.

פריצת דרך זו עשויה להוביל לפריסת מודלי AI על מגוון רחב יותר של מכשירים, כולל טלפונים חכמים, מכשירי IoT ופלטפורמות אחרות המוגבלות במשאבים. זה יכול גם לאפשר פיתוח של מערכות AI חסכוניות יותר באנרגיה, ולהפחית את ההשפעה הסביבתית שלהן.

יתר על כן, היכולת לאמן LLM עם משקלים של 1-ביט עשויה להקל על התאמה אישית של מודלי AI ליישומים ספציפיים. זה יכול להוביל לפיתוח של מערכות AI יעילות וידידותיות יותר למשתמש המותאמות לצרכים הייחודיים של משתמשים וארגונים בודדים.

סיכום

BitNet b1.58 2B4T של מיקרוסופט מייצג צעד משמעותי קדימה בחתירה לצורת AI יעילה ונגישה יותר. על ידי הדגמה שאפשר לאמן LLM בעלי ביצועים גבוהים באמצעות משקלים של 1-ביט בלבד, מיקרוסופט אתגרה חוכמה קונבנציונלית ופתחה אפשרויות חדשות לעתיד הבינה המלאכותית.

ככל שהמחקר בתחום זה נמשך, אנו יכולים לצפות לראות יישומים חדשניים עוד יותר של LLM של 1-ביט, שיובילו לעתיד שבו AI נפוצה, יעילה ומועילה יותר לחברה בכללותה.