גוגל חשפה את Gemma 3n, מודל שפה קטן ופורץ דרך מרובה מודלים הנגיש כעת בתצוגה מקדימה בקהילת LiteRT Hugging Face החדשנית, לצד מערך של מודלים שהושקו בעבר. Gemma 3n מתוכנן לעבד מגוון קלט רחב, כולל טקסט, תמונות, וידאו ושמע. יתרה מכך, הוא מפשט כוונון עדין, התאמה אישית באמצעות Retrieval-Augmented Generation (RAG) ו- Function Calling, כולם מופעלים על ידי AI Edge SDKs החדשניים.
Gemma 3n: חשיפת הכוח הטמון בפנים
Gemma 3n מוצעת בשני גרסאות פרמטר נפרדות: Gemma 3n 2B ו- Gemma 3n 4B. שתי החזרות מצוידות לטפל בקלט טקסט ותמונה, כאשר תמיכה בשמע מתוכננת להשתלב בעתיד הקרוב, על פי התחזיות של גוגל. זה מסמן קפיצה משמעותית בקנה מידה בהשוואה לקודמו, Gemma 3 1B הלא-מולטי מודלית, שהושקה מוקדם יותר השנה ודרשה רק 529MB לניהול מרשים של 2,585 טוקנים לשנייה במעבד גרפי נייד.
על פי המפרט הטכני של גוגל, Gemma 3n ממנפת הפעלה סלקטיבית של פרמטרים, טכניקה חדשנית המיועדת לניהול פרמטרים יעיל. זה מרמז ששני המודלים מקיפים מספר גדול יותר של פרמטרים מה- 2B או 4B המופעלים באופן פעיל במהלך הסקת מסקנות. גישה אסטרטגית זו מייעלת את ניצול המשאבים ומשפרת את הביצועים.
כוונון עדין וכימות: שחרור ההתאמה האישית
גוגל מדגישה את היכולת של מפתחים לכוונן את מודל הבסיס ולאחר מכן להמיר ולכמת אותו באמצעות כלי כימות מתקדמים הנגישים דרך Google AI Edge. זה מאפשר למפתחים להתאים את המודל ליישומים ספציפיים ולייעל את מאפייני הביצועים שלו.
שילוב RAG: העשרת מודלים של שפה בנתונים הקשריים
כחלופה לכוונון עדין, ניתן לפרוס מודלי Gemma 3n עבור Retrieval Augmented Generation (RAG) במכשיר, מתודולוגיה המעשירה מודל שפה עם נתונים ספציפיים ליישום. תוספת זו מתאפשרת על ידי ספריית AI Edge RAG, הבלעדית כרגע לאנדרואיד אך עם תוכניות להתרחב לפלטפורמות אחרות בצינור.
ספריית RAG פועלת באמצעות צינור יעיל המורכב מכמה שלבים מרכזיים:
- ייבוא נתונים: הכנסת נתונים רלוונטיים למערכת.
- חלוקה לאגדים ואינדוקס: פילוח וארגון הנתונים לשליפה יעילה.
- יצירת הטבעות: יצירת ייצוגי וקטור של הנתונים להבנה סמנטית.
- שליפת מידע: זיהוי וחילוץ מידע רלוונטי בהתבסס על שאילתות משתמשים.
- יצירת תגובה: יצירת תגובות קוהרנטיות ורלוונטיות הקשרית באמצעות LLM.
מסגרת חזקה זו מאפשרת התאמה אישית מקיפה של צינור RAG, הכוללת תמיכה במסדי נתונים מותאמים אישית, אסטרטגיות חלוקה לאגדים ופונקציות שליפה.
AI Edge On-device Function Calling SDK: גישור על הפער בין מודלים לפעולות בעולם האמיתי
במקביל לחשיפת Gemma 3n, גוגל הציגה את AI Edge On-device Function Calling SDK, שזמין בתחילה רק באנדרואיד. SDK זה מעצים מודלים להפעיל פונקציות ספציפיות, ובכך לבצע פעולות בעולם האמיתי.
כדי לשלב בצורה חלקה LLM עם פונקציה חיצונית, יש לתאר את הפונקציה בקפידה על ידי ציון שמה, תיאור תיאורי המבהיר מתי ה-LLM צריך להשתמש בה והפרמטרים הנדרשים. מטא נתונים אלה מכוסים באובייקט Tool
, אשר מועבר לאחר מכן למודל השפה הגדול באמצעות בנאי ה- GenerativeModel
. ה-Function Calling SDK משלב תמיכה בקבלת קריאות פונקציה מה-LLM בהתבסס על התיאור שסופק והעברת תוצאות ביצוע חזרה ל-LLM.
חקר הפוטנציאל: גלריית Google AI Edge
למי שרוצה להתעמק יותר בכלי הפריצה דרך האלה, גלריית Google AI Edge עומדת כמשאב רב ערך. יישום ניסיוני זה מציג מגוון מגוון של מודלים ומקל על עיבוד טקסט, תמונה ושמע.
צלילה עמוקה יותר: הניואנסים של Gemma 3n והמערכת האקולוגית שלה
הופעתה של Gemma 3n מסמנת צעד משמעותי באבולוציה של למידת מכונה במכשיר, ומציעה שילוב חזק של יעילות, יכולת הסתגלות ופונקציונליות. היכולות המולטי מודליות שלה, יחד עם תמיכה ב-RAG ו- Function Calling, פותחות אינספור אפשרויות למפתחים המבקשים ליצור יישומים חכמים ומודעים להקשר.
הפעלה סלקטיבית של פרמטרים: צלילה עמוקה
טכניקת ההפעלה הסלקטיבית של פרמטרים שבה משתמשת Gemma 3n מצריכה בדיקה מדוקדקת יותר.גישה חדשנית זו מאפשרת למודל להפעיל באופן דינמי רק את הפרמטרים הדרושים למשימה נתונה, ובכך למזער את התקורה החישובית ולמקסם את היעילות. זה חשוב במיוחד לפריסה במכשיר, שם המשאבים לרוב מוגבלים.
העיקרון הבסיסי מאחורי הפעלה סלקטיבית של פרמטרים טמון בתצפית שלא כל הפרמטרים ברשת עצבית חשובים במידה שווה לכל המשימות. על ידי הפעלה סלקטיבית רק של הפרמטרים הרלוונטיים ביותר, המודל יכול להשיג ביצועים דומים עם עלות חישובית מופחתת במידה ניכרת.
היישום של הפעלה סלקטיבית של פרמטרים כולל בדרך כלל מנגנון לקביעת אילו פרמטרים להפעיל עבור קלט נתון. ניתן להשיג זאת באמצעות טכניקות שונות, כגון:
- מנגנוני קשב: הקשבה לחלקים הרלוונטיים ביותר של הקלט והפעלת הפרמטרים המתאימים.
- מנגנוני שער: שימוש בפונקציית שער כדי לשלוט בזרימת המידע בחלקים שונים של הרשת.
- אימון דליל: אימון הרשת ללמוד חיבורים דלילים, כך שרק קבוצת משנה של הפרמטרים פעילה במהלך הסקת מסקנות.
הבחירה בטכניקה תלויה בארכיטקטורה הספציפית של המודל ובמאפיינים של המשימה. עם זאת, המטרה הכללית היא לזהות ולהפעיל רק את הפרמטרים הרלוונטיים ביותר עבור הקלט הנתון, ובכך להפחית את העלות החישובית ולשפר את היעילות.
RAG: הרחבת ידע והקשר
Retrieval Augmented Generation (RAG) מייצג שינוי פרדיגמה באופן שבו משתמשים במודלים של שפה. על ידי שילוב מקורות ידע חיצוניים, RAG מאפשר למודלים של שפה ליצור תגובות מושכלות, מדויקות ורלוונטיות יותר מבחינה הקשרית.
צינור RAG מורכב מכמה שלבים מרכזיים:
- אינדוקס נתונים: בשלב זה, מקור הידע החיצוני מאונדקס כדי לאפשר שליפה יעילה של מידע רלוונטי. זה כולל בדרך כלל יצירת ייצוג וקטור של כל מסמך במקור הידע, אשר יכול לשמש לאחר מכן כדי לזהות במהירות מסמכים הדומים לשאילתה נתונה.
- שליפת מידע: כאשר מתקבלת שאילתה, מערכת RAG שולפת את המסמכים הרלוונטיים ביותר ממקור הידע המאונדקס. זה נעשה בדרך כלל באמצעות אלגוריתם חיפוש דמיון, אשר משווה את ייצוג הוקטור של השאילתה לייצוגי הווקטור של המסמכים במקור הידע.
- הקשרי: המסמכים שנשלפו משמשים לאחר מכן כדי להרחיב את ההקשר של השאילתה. ניתן לעשות זאת פשוט על ידי שרשור המסמכים שנשלפו לשאילתה, או על ידי שימוש בטכניקה מתוחכמת יותר כדי לשלב את המידע מהמסמכים שנשלפו לייצוג השאילתה.
- יצירת תגובה: לבסוף, השאילתה המוגברת מוזנת למודל שפה, אשר יוצר תגובה המבוססת על המידע המשולב מהשאילתה והמסמכים שנשלפו.
RAG מציע מספר יתרונות על פני מודלים של שפה מסורתיים:
- דיוק מוגבר: על ידי שילוב ידע חיצוני, מודלי RAG יכולים ליצור תגובות מדויקות ועובדתיות יותר.
- הבנה טובה יותר של הקשר: מודלי RAG יכולים להבין טוב יותר את ההקשר של שאילתה על ידי מינוף המידע במסמכים שנשלפו.
- הפחתת הזיות: מודלי RAG נוטים פחות להזות או ליצור תגובות חסרות משמעות, מכיוון שהן מעוגנות בידע חיצוני.
- יכולת הסתגלות למידע חדש: מודלי RAG יכולים להסתגל בקלות למידע חדש פשוט על ידי עדכון מקור הידע המאונדקס.
Function Calling: אינטראקציה עם העולם האמיתי
AI Edge On-device Function Calling SDK מייצג צעד משמעותי לקראת הפעלת מודלים של שפה כדי לתקשר עם העולם האמיתי. על ידי מתן אפשרות למודלים להפעיל פונקציות חיצוניות, ה-SDK פותח מגוון רחב של אפשרויות ליצירת יישומים חכמים ומודעים להקשר.
תהליך קריאת הפונקציה כולל בדרך כלל את השלבים הבאים:
- הגדרת פונקציה: המפתח מגדיר את הפונקציות שהמודל של השפה יכול להפעיל. זה כולל ציון שם הפונקציה, תיאור של מה שהפונקציה עושה והפרמטרים שהפונקציה מקבלת.
- יצירת אובייקט כלי: המפתח יוצר אובייקט
Tool
המכסה את הגדרת הפונקציה. אובייקט זה מועבר לאחר מכן למודל השפה. - יצירת קריאת פונקציה: כאשר מודל השפה צריך לבצע פעולה בעולם האמיתי, הוא יוצר קריאת פונקציה. קריאה זו כוללת את שם הפונקציה להפעלה ואת ערכי הפרמטרים להעברה לפונקציה.
- ביצוע פונקציה: קריאת הפונקציה מבוצעתלאחר מכן על ידי המערכת. זה כולל בדרך כלל קריאה ל-API או שירות התואמים.
- העברת תוצאות: תוצאות ביצוע הפונקציה מועברות לאחר מכן חזרה למודל השפה.
- יצירת תגובה: לבסוף, מודל השפה משתמש בתוצאות ביצוע הפונקציה כדי ליצור תגובה.
ה- Function Calling SDK מאפשר למודלים של שפה לבצע מגוון רחב של משימות, כגון:
- גישה למידע ממקורות חיצוניים: המודל יכול לקרוא לפונקציות כדי לאחזר מידע ממסדי נתונים, APIs ומקורות חיצוניים אחרים.
- שליטה במכשירים ומכשירים: המודל יכול לקרוא לפונקציות כדי לשלוט במכשירי בית חכם, כגון אורות, תרמוסטטים ומכשירים.
- ביצוע עסקאות: המודל יכול לקרוא לפונקציות כדי לבצע עסקאות פיננסיות, כגון ביצוע תשלומים והעברת כספים.
- משימות אוטומטיות: המודל יכול לקרוא לפונקציות כדי לבצע משימות מורכבות באופן אוטומטי, כגון תזמון פגישות ושליחת מיילים.
גלריית Google AI Edge: תצוגת חדשנות
גלריית Google AI Edge משמשת כפלטפורמה חיונית להצגת היכולות של Gemma 3n והכלים הנלווים שלה. על ידי מתן סביבה אינטראקטיבית שבה מפתחים יכולים להתנסות בטכנולוגיות אלה, הגלריה מטפחת חדשנות ומאיצה את הפיתוח של יישומים חדשים.
הגלריה כוללת מגוון מגוון של מודלים והדגמות, המציגים את הפוטנציאל של Gemma 3n למשימות שונות, כגון:
- זיהוי תמונות: זיהוי אובייקטים וסצנות בתמונות.
- עיבוד שפה טבעית: הבנה ויצירה של שפה אנושית.
- זיהוי דיבור: תמלול שפה מדוברת לטקסט.
- עיבוד שמע: ניתוח וטיפול באותות שמע.
הגלריה מספקת גם גישה ל- AI Edge SDKs, המאפשרת למפתחים לשלב טכנולוגיות אלה ביישומים שלהם.
העתיד של למידת מכונה במכשיר
הופעתה של Gemma 3n והמערכת האקולוגית הנלווית שלה מבשרת על עידן חדש ללמידת מכונה במכשיר. על ידי שילוב יעילות, יכולת הסתגלות ופונקציונליות, Gemma 3n מעצימה מפתחים ליצור יישומים חכמים ומודעים להקשר שיכולים לפעול ישירות על מכשירים, ללא צורך בחיבור אינטרנט קבוע.
לכך יש השלכות עמוקות על תעשיות שונות, כולל:
- נייד: הפעלת יישומים ניידים חכמים ומגיבים יותר.
- IoT: הפעלת מכשירים חכמים שיכולים לפעול באופן עצמאי ואוטונומי.
- רכב: שיפור הבטיחות והנוחות של כלי רכב אוטונומיים.
- שירותי בריאות: שיפור הדיוק והיעילות של אבחון וטיפול רפואי.
ככל שטכנולוגיות למידת מכונה במכשיר ימשיכו להתפתח, אנו יכולים לצפות לראות יישומים חדשניים ובעלי השפעה עוד יותר צצים בשנים הבאות. Gemma 3n מייצג צעד משמעותי במסע זה, הסולל את הדרך לעתיד שבו מושכלת משולבת בצורה חלקה בחיי היומיום שלנו.