Pixtral-12B זמין כעת ב-Amazon Bedrock

מבט מעמיק על Pixtral 12B

Pixtral 12B, הניסיון הראשון של Mistral במודלים של שפה חזותית (VLMs), מציג ביצועים מרשימים במגוון מבחני ביצועים. על פי הערכות פנימיות של Mistral, הוא עולה בביצועיו על מודלים פתוחים אחרים ואף מתחרה במודלים גדולים בהרבה. Pixtral מתוכנן להבנת תמונות ומסמכים כאחד, ומציג יכולות מתקדמות במשימות ממוקדות-ראייה. אלה כוללות פירוש תרשימים ואיורים, מענה על שאלות לגבי תוכן מסמכים, השתתפות בהיגיון מולטימודאלי, ומעקב קפדני אחר הוראות. תכונה מרכזית של מודל זה היא היכולת שלו לעבד תמונות ברזולוציה ובפורמט המקוריים שלהן, מה שמבטיח טיפול בקלט באיכות גבוהה. יתרה מכך, ובניגוד לחלופות קוד פתוח רבות, Pixtral 12B משיג תוצאות מצוינות במבחני ביצועים מבוססי טקסט – מפגין מיומנות במעקב אחר הוראות, קידוד והיגיון מתמטי – מבלי לפגוע בביצועי המשימות המולטימודאליות שלו.

החדשנות מאחורי Pixtral 12B טמונה בארכיטקטורה החדשנית של Mistral, שתוכננה בקפידה הן ליעילות חישובית והן לביצועים גבוהים. המודל מורכב משני רכיבים עיקריים: מקודד ראייה של 400 מיליון פרמטרים, שתפקידו לבצע טוקניזציה לתמונות, ומפענח טרנספורמטור מולטימודאלי של 12 מיליארד פרמטרים. מפענח זה חוזה את אסימון הטקסט הבא בהתבסס על רצף נתון של טקסט ותמונות. מקודד הראייה מאומן במיוחד לטפל בגדלי תמונה משתנים באופן טבעי. זה מאפשר ל-Pixtral לפרש במדויק דיאגרמות, תרשימים ומסמכים ברזולוציה גבוהה תוך שמירה על מהירויות הסקה מהירות עבור תמונות קטנות יותר, כגון סמלים, תמונות קליפ ארט ומשוואות. ארכיטקטורה מעוצבת בקפידה זו תומכת בעיבוד של מספר שרירותי של תמונות בגדלים שונים, והכל בתוך חלון הקשר משמעותי של 128,000 אסימונים.

בעת שימוש במודלים בעלי משקל פתוח, הסכמי רישיון הם שיקול עליון. בדומה לגישת הרישוי של מודלים אחרים של Mistral כמו Mistral 7B, Mixtral 8x7B, Mixtral 8x22B ו-Mistral Nemo 12B, Pixtral 12B משוחרר תחת רישיון Apache 2.0 המתירני מבחינה מסחרית. זה מספק ללקוחות ארגוניים ולסטארט-אפים כאחד אפשרות VLM בעלת ביצועים גבוהים, ומעצים אותם לבנות יישומים מולטימודאליים מתוחכמים.

מדדי ביצועים ומבחני ביצועים: מבט מקרוב

Pixtral 12B מאומן בקפידה להבין הן תמונות טבעיות והן מסמכים. הוא השיג ציון של 52.5% במבחן הביצועים של Massive Multitask Language Understanding (MMLU), תוך שהוא עולה על מספר מודלים גדולים יותר, כפי שדווח על ידי Mistral. מבחן הביצועים MMLU משמש כמבחן קפדני, המעריך את יכולתו של מודל שפה להבין ולהשתמש בשפה במגוון רחב של נושאים. ה-MMLU כולל למעלה מ-10,000 שאלות רב-ברירה המקיפות דיסציפלינות אקדמיות שונות, כולל מתמטיקה, פילוסופיה, משפטים ורפואה.

Pixtral 12B מדגים יכולות חזקות במשימות כגון הבנת תרשימים ואיורים, מענה על שאלות המבוססות על תוכן מסמכים, השתתפות בהיגיון מולטימודאלי ודבקות בהוראות. יכולתו של המודל לקלוט תמונות ברזולוציה ובפורמט הטבעיים שלהן מספקת למשתמשים גמישות במספר האסימונים המשמשים לעיבוד תמונה. בנוסף, Pixtral יכול לעבד תמונות מרובות בתוך חלון ההקשר הנרחב שלו בן 128,000 האסימונים. יש לציין, ובניגוד למודלים קודמים של קוד פתוח, Pixtral אינו מקריב ביצועים במבחני ביצועים של טקסט כדי להצטיין במשימות מולטימודאליות, על פי ממצאי Mistral.

פריסת Pixtral 12B ב-Amazon Bedrock Marketplace: מדריך שלב אחר שלב

מסוף Amazon Bedrock מאפשר חיפוש אחר מודלים המותאמים למקרי שימוש או שפות ספציפיים. תוצאות החיפוש כוללות הן מודלים ללא שרת והן מודלים הזמינים דרך Amazon Bedrock Marketplace. משתמשים יכולים לחדד את החיפוש שלהם על ידי סינון תוצאות על סמך ספק, מודאליות (למשל, טקסט, תמונה או שמע), או משימה (למשל, סיווג או סיכום טקסט).

כדי לגשת ל-Pixtral 12B בתוך Amazon Bedrock Marketplace, בצע את השלבים המפורטים הבאים:

  1. נווט לקטלוג הדגמים: בתוך מסוף Amazon Bedrock, אתר ובחר ‘Model catalog’ תחת הסעיף ‘Foundation models’ בחלונית הניווט.

  2. סנן ובחר Pixtral 12B: חדד את רשימת הדגמים על ידי בחירת ‘Hugging Face’ כספק ולאחר מכן בחר את דגם Pixtral 12B. לחלופין, תוכל לחפש ישירות את ‘Pixtral’ בתיבת הקלט ‘Filter for a model’.

  3. סקור את פרטי הדגם: דף פרטי הדגם מספק מידע חיוני לגבי יכולות הדגם, מבנה התמחור והנחיות היישום. דף זה מציע הוראות שימוש מקיפות, כולל קריאות API לדוגמה וקטעי קוד כדי להקל על האינטגרציה. הוא גם מציג אפשרויות פריסה ומידע על רישוי כדי לייעל את תהליך שילוב Pixtral 12B ביישומים שלך.

  4. התחל פריסה: כדי להתחיל להשתמש ב-Pixtral 12B, לחץ על הלחצן ‘Deploy’.

  5. הגדר את הגדרות הפריסה: תתבקש להגדיר את פרטי הפריסה עבור Pixtral 12B. מזהה הדגם יאוכלס מראש לנוחיותך.

  6. קבל את הסכם רישיון משתמש הקצה (EULA): קרא בעיון וקבל את הסכם רישיון משתמש הקצה (EULA).

  7. שם נקודת קצה: ‘Endpoint Name’ מאוכלס אוטומטית; עם זאת, ללקוחות יש אפשרות לשנות את שם נקודת הקצה.

  8. מספר מופעים: ציין את המספר הרצוי של מופעים, בין 1 ל-100.

  9. סוג מופע: בחר את סוג המופע המועדף עליך. לביצועים מיטביים עם Pixtral 12B, מומלץ סוג מופע מבוסס GPU, כגון ml.g6.12xlarge.

  10. הגדרות מתקדמות (אופציונלי): לחלופין, תוכל להגדיר הגדרות אבטחה ותשתית מתקדמות. אלה כוללות רשתות virtual private cloud (VPC), הרשאות תפקיד שירות והגדרות הצפנה. בעוד שהגדרות ברירת המחדל מתאימות לרוב מקרי השימוש, עבור פריסות ייצור, מומלץ לבדוק הגדרות אלה כדי להבטיח התאמה לדרישות האבטחה והתאימות של הארגון שלך.

  11. פרוס את הדגם: לחץ על ‘Deploy’ כדי להתחיל את תהליך פריסת הדגם.

  12. עקוב אחר מצב הפריסה: לאחר השלמת הפריסה, ‘Endpoint status’ אמור לעבור ל-‘In Service’. לאחר שנקודת הקצה פעילה, תוכל לבדוק ישירות את היכולות של Pixtral 12B בתוך ה-playground של Amazon Bedrock.

  13. גש ל-Playground: בחר ‘Open in playground’ כדי לגשת לממשק אינטראקטיבי. ממשק זה מאפשר לך להתנסות בהנחיות שונות ולהתאים פרמטרים של מודל, כגון טמפרטורה ואורך מקסימלי.

ה-playground מספק סביבה מצוינת לחקור את יכולות ההיגיון ויצירת הטקסט של המודל לפני שילובו ביישומים שלך. הוא מציע משוב מיידי, המאפשר לך להבין כיצד המודל מגיב לתשומות שונות ולכוונן את ההנחיות שלך לקבלת תוצאות מיטביות.

בעוד שה-playground מאפשר בדיקה מהירה דרך ממשק המשתמש, הפעלה פרוגרמטית של המודל הפרוס באמצעות ממשקי API של Amazon Bedrock דורשת שימוש ב-ARN של נקודת הקצה כ-‘model-id’ ב-SDK של Amazon Bedrock.

בחינת מקרי שימוש של Pixtral 12B

חלק זה מתעמק בדוגמאות מעשיות ליכולות של Pixtral 12B, ומציג את הרבגוניות שלו באמצעות הנחיות לדוגמה.

היגיון לוגי חזותי: יישום רב עוצמה

אחד היישומים המשכנעים ביותר של מודלים של ראייה הוא היכולת שלהם לפתור בעיות היגיון לוגי או חידות חזותיות. מודלים של ראייה Pixtral 12B מדגימים מיומנות יוצאת דופן בהתמודדות עם שאלות היגיון לוגי. הבה נבחן דוגמה ספציפית כדי להמחיש יכולת זו. החוזק העיקרי הוא היכולת לא רק לראות את התמונה, אלא לחלץ את הדפוסים ולהחיל היגיון. יכולות מודל השפה הגדול משמשות למתן תגובה.

דוגמה:
דמיינו חידה חזותית שבה מוצג רצף של צורות, והמשימה היא לקבוע את הצורה הבאה ברצף בהתבסס על דפוס נסתר.

הנחיה: “נתח את רצף הצורות הבא וחזה את הצורה הבאה בסדרה. הסבר את ההיגיון שלך.”

מטען קלט: (תמונה המתארת את רצף הצורות)

פלט צפוי: Pixtral 12B באופן אידיאלי:

  1. יזהה את הדפוס: יבחין נכון בדפוס הבסיסי השולט ברצף הצורות. זה עשוי להיות כרוך בזיהוי שינויים בצורה, צבע, כיוון, או שילוב של גורמים אלה.
  2. יחזה את הצורה הבאה: בהתבסס על הדפוס שזוהה, יחזה במדויק את המאפיינים של הצורה הבאה ברצף.
  3. יסביר את ההיגיון: ינסח בבירור את הצעדים הלוגיים שננקטו כדי להגיע לחיזוי, ויסביר כיצד הדפוס שזוהה הוחל כדי לקבוע את הצורה הבאה.

דוגמה זו מדגישה את יכולתו של Pixtral 12B לא רק לעבד מידע חזותי אלא גם ליישם היגיון לוגי כדי לפרש את המידע ולבצע תחזיות. יכולת זו משתרעת מעבר לזיהוי דפוסים פשוט, וכוללת תרחישים מורכבים יותר הכוללים היגיון מרחבי, ניכויים מבוססי כללים ואפילו הבנת מושגים מופשטים.

מקרי שימוש והרחבות נוספים

מעבר לחידות חזותיות, ניתן ליישם את יכולות ההיגיון הלוגי החזותי של Pixtral 12B במגוון רחב של תרחישים בעולם האמיתי:

  • ניתוח ופרשנות נתונים: ניתוח תרשימים, גרפים ודיאגרמות כדי לחלץ תובנות ומגמות מרכזיות. לדוגמה, זיהוי מתאמים בין מערכי נתונים שונים המוצגים בהדמיה מורכבת.
  • ניתוח תמונות רפואיות: סיוע בפרשנות של תמונות רפואיות, כגון צילומי רנטגן, סריקות CT ו-MRI, על ידי זיהוי חריגות או דפוסים המעידים על מצבים ספציפיים.
  • רובוטיקה ומערכות אוטונומיות: לאפשר לרובוטים לנווט בסביבות מורכבות על ידי פירוש רמזים חזותיים וקבלת החלטות על סמך הבנתם את הסצנה.
  • אבטחה ומעקב: ניתוח צילומי וידאו כדי לזהות פעילויות חשודות או לזהות אובייקטים מעניינים.
  • חינוך והדרכה: יצירת חומרי למידה אינטראקטיביים המותאמים להבנת המשתמש בהתבסס על תגובותיו להנחיות חזותיות.
  • הבנת מסמכים: חילוץ נתונים מובנים ממסמכים מורכבים.

הרבגוניות של Pixtral 12B, בשילוב עם הנגישות של Amazon Bedrock, פותחת מגוון עצום של אפשרויות עבור מפתחים ועסקים המבקשים למנף את הכוח של מודלים של שפה חזותית. היכולת לעבד תמונות וטקסט באופן מאוחד, יחד עם יכולות היגיון חזקות, הופכת את Pixtral 12B לכלי רב ערך עבור מגוון רחב של יישומים. קלות הפריסה והרישוי המתירני מבחינה מסחרית משפרים עוד יותר את המשיכה שלו, והופכים אותו לאופציה אטרקטיבית הן למחקר והן למאמצים מסחריים.