קטגוריות של מודלי בינה מלאכותית
מודלי AI ניתנים לסיווג גס לארבע קטגוריות עיקריות:
- עיבוד שפה טהור (כללי)
- יצירתי (תמונה, וידאו, אודיו, טקסט, קוד)
- מבחין (ראייה ממוחשבת, ניתוח טקסט)
- למידת חיזוק
בעוד שמודלים רבים מתמחים בקטגוריה בודדת, אחרים מפגינים יכולות מולטימודליות בדרגות דיוק משתנות. כל מודל עובר אימון על מערכי נתונים ספציפיים, מה שמאפשר לו לבצע משימות הקשורות לנתונים שאליהם נחשף. הרשימה הבאה מתארת משימות נפוצות הקשורות לכל קטגוריה.
עיבוד שפה טהור
קטגוריה זו מתמקדת באפשרות למחשבים לפרש, להבין וליצור שפה אנושית באמצעות טוקניזציה ומודלים סטטיסטיים. צ’אטבוטים הם דוגמה מצוינת, כאשר ChatGPT, קיצור של ‘Generative Pre-trained Transformer’, הוא המחשה בולטת. רוב המודלים הללו מבוססים על ארכיטקטורות שנאים שאומנו מראש. מודלים אלה מצטיינים בהבנת הקשר, ניואנסים ועדינויות בשפה האנושית, מה שהופך אותם לאידיאליים עבור יישומים הדורשים אינטראקציה בשפה טבעית. ניתן להשתמש בהם למשימות כגון:
- ניתוח סנטימנט: קביעת הטון הרגשי של קטע טקסט, דבר שימושי להבנת משוב לקוחות או מדידת דעת קהל.
- סיכום טקסט: עיבוי כמויות גדולות של טקסט לסיכומים קצרים וקלים יותר לניהול, וחוסך זמן ומאמץ בעיבוד מידע.
- תרגום מכונה: תרגום אוטומטי של טקסט משפה אחת לאחרת, מה שמקל על התקשורת בין מחסומי שפה.
- מענה לשאלות: מתן תשובות לשאלות המוצגות בשפה טבעית, ומאפשר למשתמשים לגשת למידע במהירות ובקלות.
- יצירת תוכן: יצירת תוכן טקסטואלי מקורי, כגון מאמרים, פוסטים בבלוג או עדכוני מדיה חברתית.
הטכנולוגיה הבסיסית מאחורי מודלי עיבוד שפה טהורים כוללת אלגוריתמים מורכבים המנתחים את המבנה והמשמעות של השפה. אלגוריתמים אלה לומדים ממערכי נתונים עצומים של טקסט וקוד, ומאפשרים להם לזהות דפוסים ויחסים בין מילים וביטויים. לאחר מכן המודלים משתמשים בידע זה כדי ליצור טקסט חדש או להבין את המשמעות של טקסט קיים.
מודלים גנרטיביים
מודלים גנרטיביים, כולל אלה המייצרים תמונות, וידאו, אודיו, טקסט וקוד, משתמשים לעתים קרובות ברשתות יריבות גנרטיביות (GAN). GAN מורכבות משני מודלים משנה: גנרטור ומפלה. מודלים אלה יכולים לייצר תמונות, אודיו, טקסט וקוד מציאותיים המבוססים על הנתונים הנרחבים שאומנו עליהם. דיפוזיה יציבה היא טכניקה נפוצה ליצירת תמונות וסרטונים. ניתן להשתמש במודלים אלה עבור:
- יצירת תמונות: יצירת תמונות מציאותיות או אמנותיות מתיאורי טקסט או קלטים אחרים.
- יצירת וידאו: הפקת סרטונים קצרים מהנחיות טקסט או קלטים אחרים.
- יצירת אודיו: יצירת מוזיקה, דיבור או סוגים אחרים של אודיו מתיאורי טקסט או קלטים אחרים.
- יצירת טקסט: יצירת תוכן טקסטואלי מקורי, כגון שירים, תסריטים או קוד.
- יצירת קוד: יצירת קוד אוטומטית מתיאורי שפה טבעית של הפונקציונליות הרצויה.
מודל המשנה גנרטור ב-GAN אחראי ליצירת דגימות נתונים חדשות, בעוד שמודל המשנה מפלה מנסה להבחין בין דגימות נתונים אמיתיות לבין אלה שנוצרו על ידי הגנרטור. שני מודלי המשנה מאומנים באופן יריב, כאשר הגנרטור מנסה להטעות את המפלה והמפלה מנסה לזהות נכון דגימות נתונים אמיתיות. תהליך זה גורם לגנרטור להיות מסוגל יותר ויותר לייצר דגימות נתונים מציאותיות.
מודלים מבחינים
מודלים מבחינים, המשמשים בראייה ממוחשבת ובניתוח טקסט, משתמשים באלגוריתמים שנועדו ללמוד מחלקות נפרדות ממערכי נתונים לקבלת החלטות. דוגמאות כוללות ניתוח סנטימנט, זיהוי תווים אופטי (OCR) וסיווג תמונות. מודלים אלה נועדו להבחין בין קטגוריות שונות של נתונים, מה שהופך אותם לשימושיים עבור מגוון רחב של יישומים. ניתן להשתמש בהם עבור:
- סיווג תמונות: זיהוי האובייקטים או הסצנות הקיימים בתמונה.
- זיהוי אובייקטים: איתור וזיהוי אובייקטים ספציפיים בתוך תמונה או סרטון.
- ניתוח סנטימנט: קביעת הטון הרגשי של קטע טקסט.
- זיהוי תווים אופטי (OCR): המרת תמונות של טקסט לטקסט קריא במכונה.
- זיהוי הונאה: זיהוי עסקאות או פעילויות הונאה.
האלגוריתמים המשמשים במודלים מבחינים לומדים לזהות את התכונות החשובות ביותר להבחנה בין מחלקות נתונים שונות. ניתן להשתמש בתכונות אלה כדי ליצור מודל שיכול לסווג במדויק דגימות נתונים חדשות.
למידת חיזוק
מודלי למידת חיזוק משתמשים בשיטות ניסוי וטעייה ובקלט אנושי כדי להשיג תוצאות מכוונות מטרה, כגון ברובוטיקה, משחקים ונהיגה אוטונומית. גישה זו כוללת סוכן הלומד לקבל החלטות בסביבה כדי למקסם תגמול. הסוכן מקבל משוב בצורה של תגמולים או עונשים, שבהם הוא משתמש כדי להתאים את התנהגותו. תהליך זה מאפשר לסוכן ללמוד אסטרטגיות אופטימליות להשגת מטרותיו. ניתן להשתמש בלמידת חיזוק עבור:
- רובוטיקה: אימון רובוטים לבצע משימות מורכבות, כגון הליכה, תפיסת חפצים או ניווט בסביבות.
- משחקים: פיתוח סוכני AI שיכולים לשחק משחקים ברמה גבוהה.
- נהיגה אוטונומית: אימון מכוניות בנהיגה עצמית לנווט בכבישים ולהימנע ממכשולים.
- ניהול משאבים: אופטימיזציה של הקצאת משאבים, כגון אנרגיה או רוחב פס.
- המלצות מותאמות אישית: מתן המלצות מותאמות אישית למשתמשים על סמך התנהגותם בעבר.
תהליך הניסוי והטעייה מאפשר לסוכן לחקור אסטרטגיות שונות וללמוד אילו מהן יעילות ביותר. השימוש בתגמולים ועונשים מספק משוב המנחה את הסוכן להתנהגות אופטימלית.
הבנת מוסכמות שמות מודלים
ברגע שאתה מבין את הסוגים השונים של מודלי AI ואת המשימות שלהם בהתאמה, השלב הבא כולל הערכת האיכות והביצועים שלהם. זה מתחיל בהבנת האופן שבו מודלים נקראים. אמנם אין מוסכמה רשמית לקריאת מודלי AI, אך למודלים פופולריים יש בדרך כלל שם פשוט ואחריו מספר גרסה (לדוגמה, ChatGPT #, Claude #, Grok #, Gemini #).
למודלים קטנים יותר, בקוד פתוח, ספציפיים למשימות יש לעתים קרובות שמות מפורטים יותר. שמות אלה, שנמצאים לעתים קרובות בפלטפורמות כמו huggingface.co, כוללים בדרך כלל את שם הארגון, שם המודל, גודל הפרמטר וגודל ההקשר.
הנה כמה דוגמאות להמחשת זאת:
MISTRALAI/MISTRAL-SMALL-3.1-24B-INSTRUCT-2053
- Mistralai: הארגון האחראי לפיתוח המודל.
- Mistral-small: שם המודל עצמו.
- 3.1: מספר הגרסה של המודל.
- 24b-instruct: ספירת הפרמטרים, המציינת שהמודל אומן על 24 מיליארד נקודות נתונים ומיועד למשימות מעקב אחר הוראות.
- 2053: גודל ההקשר, או ספירת האסימונים, המייצג את כמות המידע שהמודל יכול לעבד בבת אחת.
Google/Gemma-3-27b
- Google: הארגון שמאחורי המודל.
- Gemma: שם המודל.
- 3: מספר הגרסה.
- 27b: גודל הפרמטרים, המציין שהמודל אומן על 27 מיליארד נקודות נתונים.
שיקולים מרכזיים
הבנת מוסכמות השמות מספקת תובנות חשובות לגבי היכולות של מודל והשימוש המיועד לו. שם הארגון מציין את המקור והאמינות של המודל. שם המודל עוזר להבחין בין מודלים שונים שפותחו על ידי אותו ארגון. מספר הגרסה מציין את רמת הפיתוח והעידון. גודל הפרמטר מספק אינדיקציה גסה למורכבות המודל וליכולת הלמידה שלו. גודל ההקשר קובע את אורך הקלט שהמודל יכול לעבד ביעילות.
פרטים נוספים שאתה עשוי להיתקל בהם כוללים את פורמט הכימות בביטים. פורמטי כימות גבוהים יותר דורשים יותר זיכרון RAM ואחסון מחשב כדי להפעיל את המודל. פורמטי כימות מיוצגים לעתים קרובות בסימון נקודה צפה, כגון 4, 6, 8 ו-16. פורמטים אחרים, כגון GPTQ, NF4 ו-GGML, מציינים שימוש עבור תצורות {חומרה} ספציפיות.
כימות: זה מתייחס לטכניקה של הפחתת הדיוק של המספרים המשמשים לייצוג הפרמטרים של המודל. זה יכול להפחית באופן משמעותי את גודל המודל ואת טביעת הרגל הזיכרון שלו, מה שמקל על הפריסה במכשירים מוגבלי משאבים. עם זאת, כימות יכול גם להוביל לירידה קלה בדיוק.
שיקולי חומרה: תצורות חומרה שונות עשויות להתאים יותר לפורמטי כימות שונים. לדוגמה, חומרה מסוימת עשויה להיות מותאמת לכימות של 4 ביט, בעוד שאחרות עשויות להתאים יותר לכימות של 8 ביט או 16 ביט.
הערכת דיוק מודלים
בעוד שכותרות חדשותיות על מהדורות מודלים חדשות יכולות להיות מרגשות, חשוב לגשת לתוצאות ביצועים נטענות בזהירות. נוף הביצועים של AI הוא תחרותי ביותר, וחברות מנפחות לעתים תוצאות ביצועים למטרות שיווקיות. דרך מהימנה יותר להעריך את איכות המודל היא לבחון ציונים וטבלאות הישגים ממבחנים סטנדרטיים.
בעוד שמספר מבחנים טוענים שהם סטנדרטיים, הערכת מודלי AI נותרה מאתגרת בשל האופי ‘הקופסה השחורה’ של מערכות אלה והמשתנים הרבים המעורבים. הגישה האמינה ביותר היא לאמת את התגובות והתוצאות של ה-AI מול מקורות עובדתיים ומדעיים.
אתרי טבלאות הישגים מציעים דירוגים ניתנים למיון עם קולות וציוני מרווח ביטחון, המבוטאים לעתים קרובות כאחוזים. מדדי ביצועים נפוצים כוללים הזנת שאלות למודל ה-AI ומדידת דיוק התגובות שלו. מדדי ביצועים אלה כוללים:
- אתגר הטיעון AI2 (ARC)
- HellaSwag
- MMLU (הבנת שפה מרובת משימות מאסיבית)
- TruthfulQA
- Winogrande
- GSM8K
- HumanEval
תיאורי מדדים
אתגר הטיעון AI2 (ARC): סט של 7787 שאלות מדעיות מרובות ברירה המיועדות לתלמידי בית ספר יסודי. מדד ביצועים זה בודק את יכולתו של המודל להסיק על מושגים מדעיים ולפתור בעיות.
HellaSwag: מדד ביצועים המעריך טיעון הגיוני באמצעות תרגילי השלמת משפטים. מדד ביצועים זה מאתגר את המודל להבין את ההקשר של משפט ולבחור את הסיום ההגיוני ביותר.
MMLU (הבנת שפה מרובת משימות מאסיבית): מדד ביצועים זה בודק את יכולתו של המודל לפתור בעיות על פני מגוון רחב של משימות, הדורש הבנת שפה נרחבת. המשימות מכסות מגוון נושאים מגוון, כולל מתמטיקה, היסטוריה, מדע ומשפטים.
TruthfulQA: מדד ביצועים זה מעריך את האמת של המודל, מעניש שקרים ומונע תשובות מתחמקות כמו ‘אני לא בטוח’. מדד ביצועים זה מעודד את המודל לספק תגובות מדויקות וכנות.
Winogrande: אתגר המבוסס על סכימת Winograd, הכולל שני משפטים כמעט זהים השונים זה מזה בהתבסס על מילת טריגר. מדד ביצועים זה בודק את יכולתו של המודל להבין הבדלים עדינים במשמעות ולפתור עמימות.
GSM8K: מערך נתונים של 8,000 שאלות מתמטיקה בבית ספר יסודי. מדד ביצועים זה בודק את יכולתו של המודל לפתור בעיות מתמטיות ולבצע חישובים.
HumanEval: מדד ביצועים זה מודד את יכולתו של המודל ליצור קוד Python נכון בתגובה ל-164 אתגרים. מדד ביצועים זה בודק את כישורי הקידוד של המודל ואת יכולתו להבין וליישם מושגי תכנות.
על ידי בחינה מדוקדקת של מדדי ביצועים אלה ואימות התגובות של ה-AI מול מקורות עובדתיים, אתה יכול לקבל הבנה מדויקת יותר של היכולות והמגבלות של מודל. לאחר מכן ניתן להשתמש במידע זה כדי לקבל החלטות מושכלות לגבי אילו מודלים מתאימים ביותר לצרכים הספציפיים שלך.