חלק 1: הדיון הלוגי על האינטליגנציה: פרספקטיבות פילוסופיות והיסטוריות
ה”לוגיקה הבסיסית” של בינה מלאכותית (AI) אינה מושג בודד וקבוע. במקום זאת, היא נובעת מדיון אינטלקטואלי שנמשך עשרות שנים על איך ליצור אינטליגנציה. כדי להבין AI, יש תחילה להתעמק במקורותיה האינטלקטואליים - הקונפליקט והמיזוג של שני בתי ספר פילוסופיים מרכזיים: סימבוליזם וקונקטיביזם. בתי ספר אלה מייצגים דעות מנוגדות באופן מובהק על אינטליגנציה, והגורלות המשתנים שלהם עיצבו את המסלול ההיסטורי והכיוון העתידי של כל תחום ה-AI.
1.1 שני בתי ספר למחשבה
הלוגיקה הקונסטרוקטיבית של בינה מלאכותית מתפתחת בשני נתיבים עיקריים: מניפולציה סימבולית מלמעלה למטה ולמידה ביו-מונחית מלמטה למעלה.
סימבוליזם (הלוגיקה “מלמעלה למטה”)
סימבוליזם, המכונה גם לוגיציזם או בית הספר למחשבים, מבוסס על האמונה המרכזית שמהות האינטליגנציה טמונה בתפעול סימבולים על פי מערכת של כללים ברורים וממוסדים. זוהי גישה “מלמעלה למטה”, עם הנחת היסוד שניתן לתמצת את תהליכי ההכרה והמחשבה האנושיים לפעולות סימבוליות. בראייה זו, אינטליגנציה נתפסת כתהליך של נימוק לוגי, וניתן להשוות את התודעה לתוכנית מחשב הפועלת על נתונים מובנים.
הביטוי הטיפוסי ביותר של בית ספר זה הוא מערכות מומחים. מערכות אלה נהנו מתור הזהב שלהן בשנות ה-70 וה-80 של המאה ה-20, וסימנו את ההצלחה המסחרית בקנה מידה גדול הראשונה של AI. הן שאפו לדמות את תהליכי קבלת ההחלטות של מומחים אנושיים בתחומים צרים ספציפיים (כגון אבחון רפואי או ניתוח כימי) באמצעות בסיס ידע המכיל מספר רב של כללי “אם-אז”. ההצלחה של מערכות מומחים הניעה את הסימבוליזם לשיאו, והפכה אותו כמעט שם נרדף ל-AI באותה תקופה.
קונקטיביזם (הלוגיקה “מלמטה למעלה”)
בניגוד לסימבוליזם, קונקטיביזם, המכונה גם בית הספר לביוניקה, טוען שאינטליגנציה היא תופעה מתהווה. היא אינה נשלטת על ידי בקר מרכזי או כללים מוגדרים מראש, אלא נובעת מהאינטראקציות המורכבות בין מספר רב של יחידות עיבוד פשוטות ומקושרות ביניהן (כלומר, נוירונים מלאכותיים). לוגיקה “מלמטה למעלה” זו שואבת השראה ממבנה המוח האנושי, מתוך אמונה שאינטליגנציה אינה מתוכנתת, אלא מתקבלת על ידי למידת תבניות מנתונים.
האמונה המרכזית של הקונקטיביזם היא שהתנהגויות מורכבות יכולות לנבוע מאינטראקציות מקומיות פשוטות, מבלי להזדקק לכללים גלובליים מפורשים. ההתגלמות הטכנולוגית המרכזית שלה היא רשתות עצביות מלאכותיות (ANNs). מודלים אלה לומדים קשרים מורכבים בין כניסות ויציאות על ידי אימון על כמויות גדולות של נתוני דגימה והתאמה מתמדת של ה”משקלים” (כלומר, חוזק הקשר) בין נוירונים.
1.2 מטוטלת ההיסטוריה: עלייה, חורף ותחייה
ההיסטוריה של פיתוח AI אינה אחת של התקדמות ליניארית, אלא דומה למטוטלת המתנדנדת קדימה ואחורה בין סימבוליזם לקונקטיביזם. תהליך זה מגלה לעומק שההצלחה או הכישלון של פרדיגמה תיאורטית תלויה לא רק בעומק הרעיונות שלה, אלא גם באילוצי הטכנולוגיה והתנאים הכלכליים של התקופה. הלוגיקה הבסיסית של AI אינה מתפתחת בוואקום, ומסלול הפיתוח שלה הוא תוצאה ישירה של יחסי הגומלין המורכבים בין (1)מחשבה פילוסופית מיינסטרימית, (2)כוח מחשוב זמין ו-(3)היתכנות כלכלית.
יתרונות מוקדמים וחורף ה-AI הראשון
בימים הראשונים של AI, קונקטיביזם הראה פוטנציאל גדול. עם זאת, בשנת 1969, מרווין מינסקי, דמות מובילה בסימבוליזם, פרסם את הספר “פרספטרונים”, שהפך לנקודת מפנה מרכזית בהיסטוריה. מינסקי הוכיח באופן מתמטי קפדני שרשתות העצבים הפשוטות החד-שכבתיות של אותה תקופה (כלומר, פרספטרונים) לא יכלו לפתור כמה מהבעיות הבסיסיות ביותר, כגון בעיית ה”או הבלעדי” הלוגית (XOR). ביקורת אקדמית מדויקת זו, בשילוב עם המחסור הכללי בכוח מחשוב מחשבים באותה תקופה, הכתה מכה קשה במחקר הקונקטיביסטי. מימון המחקר קוצץ באופן דרסטי, ומחקר רשתות עצביות נכנס לתקופה של קיפאון שנמשכה יותר מעשור, הידועה כ”חורף ה-AI” הראשון. בתקופה זו, הלוגיקה של הסימבוליזם תפסה עמדה דומיננטית מוחלטת.
תור הזהב של הסימבוליזם וחורף ה-AI השני
מערכות מומחים פרחו בשנות ה-80 של המאה ה-20, והעלו את הסימבוליזם לשיא היישומים המסחריים. עם זאת, המגבלות שלה נחשפו בהדרגה: בניית מערכות מומחים הייתה יקרה, תחזוקת בסיסי ידע הייתה קשה, הן לא יכלו להתמודד עם מידע מעורפל, ולא הייתה להן היכולת ללמוד באופן אוטומטי ידע חדש. בסופו של דבר, הכישלון המסחרי של “מכונות Lisp” ששימשו במיוחד להפעלת תוכנות סימבוליות של AI (כגון שפת Lisp) סימן את סוף העידן הזה. עלייתם של מחשבים למטרות כלליות (כגון ה-IBM PC) עם ביצועים חזקים יותר ומחירים נמוכים יותר הפכה את מכשירי החומרה הייעודיים הללו לבלתי תחרותיים, ותחום ה-AI נכנס אז לחורף השני. זה מוכיח שוב שאם לוגיקה תיאורטית תמשיך להתפתח, עליה להיות בעלת בסיס חומרתי חזק וחסכוני כתמיכה.
תחיית הקונקטיביזם
תחיית הקונקטיביזם לא הייתה מקרית, אלא הונעה על ידי שלושה גורמי מפתח:
פריצות דרך באלגוריתמים: במהלך ה”חורף”, הכנסת אלגוריתמי Backpropagation והמצאת מבני רשת מורכבים יותר, כגון רשתות זיכרון לטווח קצר ארוך (LSTMs), הניחו את הבסיס האלגוריתמי לאימון יעיל של רשתות עצביות.
מבול נתונים: הפופולריות של האינטרנט הביאה כמות חסרת תקדים של נתונים. נתונים אלה סיפקו “תזונה” מספקת לרשתות עצביות הדורשות מספר רב של דוגמאות לאימון.
מהפכת כוח המחשוב: מעבדים גרפיים (GPUs), שתוכננו בתחילה למשחקי וידאו, כוללים ארכיטקטורת מחשוב מקבילית מאסיבית שנמצאה מתאימה באופן מושלם לפעולות המטריצה המרכזיות ברשתות עצביות. הופעתם של GPUs שברה את צוואר הבקבוק של כוח המחשוב שפקד את הקונקטיביזם במשך עשרות שנים, ואפשרה לפוטנציאל התיאורטי שלו להתממש באמת.
לבסוף, התכנסות האלגוריתמים, הנתונים וכוח המחשוב הציתה את מהפכת הלמידה העמוקה, והפכה את הלוגיקה של הקונקטיביזם למיינסטרים הבלתי מעורער בתחום ה-AI כיום.
1.3 המבוי הסתום הפילוסופי: הבנה לעומת סימולציה
הוויכוח ההיסטורי בין שני בתי הספר הגדולים מוביל בסופו של דבר לשאלה פילוסופית עמוקה שנותרה בלתי פתורה עד היום: האם למכונה המסוגלת לדמות בצורה מושלמת התנהגות אינטליגנטית יש באמת את היכולת להבין?
מבחן טיורינג
“מבחן טיורינג” של אלן טיורינג מספק הגדרה אופרטיבית והתנהגותית של אינטליגנציה. המבחן כולל האם מכונה יכולה לנהל שיחה עם אדם, והאדם לא יכול לדעת אם זו מכונה או אדם; אז ניתן לראות במכונה אינטליגנטית. מבחן טיורינג עוקף את השאלה המהותית של “מהי אינטליגנציה” ופונה ל”איזו התנהגות צריכה אינטליגנציה להציג”.
ניסוי המחשבה “החדר הסיני”
הפילוסוף ג’ון סירל הציע את ניסוי המחשבה המפורסם “החדר הסיני” בשנת 1980, ופתח במתקפה עזה על הסימבוליזם ומבחן טיורינג. הניסוי מתוכנן כדלקמן: אדם שאינו מבין סינית נעול בחדר, והחדר מכיל מדריך מפורט של כללי עיבוד סיניים (שווה ערך לתוכנית). הוא מקבל פתקים עם תווים סיניים כתובים עליהם (קלט) דרך חלון, ואז עוקב בקפדנות אחר ההוראות במדריך הכללים כדי למצוא ולשלב את התווים המתאימים, ואז מעביר את התוצאות מהחלון (פלט). לאנשים מחוץ לחדר, תגובת החדר אינה שונה מזו של דובר סינית שפת אם
עם זאת, סירל ציין שהאדם בחדר מעולם לא הבין את המשמעות (סמנטיקה) של אף תו סיני מההתחלה ועד הסוף, וכל מה שהוא עשה היה מניפולציה סימבולית טהורה (תחביר). סירל הגיע למסקנה שפשוט תפעול סימבולים, לא משנה כמה מורכב, לעולם לא יכול לייצר “הבנה” אמיתית. טיעון זה מערער בעוצמה על השקפת ה”AI החזק” (כלומר, האמונה שמחשב שתוכנת כהלכה יכול להחזיק בתודעה).
כיום, ניתן לראות ב-AI מודרני שמיוצג על ידי מודלים שפה גדולים (LLMs) כגרסה משודרגת סופר של ה”חדר הסיני” במובן מסוים. הם מייצרים תשובות שנראות אינטליגנטיות על ידי התאמת סטטיסטית של דפוסים בכמויות עצומות של נתוני טקסט. הדיון אם הם באמת “מבינים” שפה או שהם רק “תוכים סטוכסטיים” מורכבים הוא המשך לוויכוח טיורינג לעומת סירל בזמנים מודרניים.
במשך זמן רב, סימבוליזם וקונקטיביזם נחשבו לשתי פרדיגמות שאינן תואמות זו את זו. עם זאת, “מלחמת” ההיסטוריה מגיעה לסיומה בצורה של סינתזה. הלוגיקה הבסיסית של העתיד אינה בחירה של זה או זה, אלא מיזוג של השניים. מגמה זו באה לידי ביטוי בעליית AI נוירו-סימבולי. תחום זה שואף לשלב את יכולות זיהוי הדפוסים העוצמתיות של רשתות עצביות עם יכולות הנימוק הלוגי הקפדניות של מערכות סימבוליות, במטרה לבנות מערכות חזקות יותר שיכולות גם ללמוד וגם לנמק. לדוגמה, סוכני AI מודרניים יכולים לקרוא לכלי סימבול חיצוניים (כגון מחשבונים, שאילתות מסד נתונים) כדי לשפר את היכולות שלהם, שהוא שילוב מעשי של מודלים עצביים וכלי סימבול.
בנוסף, ארכיטקטורת “תערובת של מומחים (MoE)“ במודלים שפה גדולים מודרניים מהדהדת גם את מערכות המומחים של הסימבוליזם ברעיון. מודל ה-MoE מורכב ממספר תת-רשתות “מומחים” מיוחדות ורשת “שערים”, האחראית לבחירת המומחה המתאים ביותר לטיפול בכל קלט. זה דומה מבחינה תפקודית למערכת סימבולית הקוראת למודולים פונקציונליים ספציפיים על פי כללים, אך היישום שלה הוא קונקטיביסטי לחלוטין - באמצעות למידה מקצה לקצה ואופטימיזציה דיפרנציאלית. זה מראה שהלוגיקה הבסיסית של AI עוברת מהתנגדות להשלמה, ויוצרת יכולות חזקות חסרות תקדים באמצעות מיזוג.
טבלה 1: השוואה של פרדיגמות AI בסיסיות: סימבוליזם לעומת קונקטיביזם
מאפיין | סימבוליזם (מלמעלה למטה) | קונקטיביזם (מלמטה למעלה) |
---|---|---|
עיקרון מרכזי | מושגת אינטליגנציה על ידי תפעול סימבולים וביצוע כללים פורמליים. | אינטליגנציה מתעוררת מאינטראקציה של מספר רב של יחידות פשוטות ומקושרות ביניהן. |
ייצוג ידע | בסיס ידע מפורש ומובנה (לדוגמה, כללי “אם-אז”). | ידע משתמע, מבוזר, המקודד במשקלים של קשרי רשת. |
שיטת נימוק | נימוק המבוסס על ניכוי לוגי, חיפוש וכללים היוריסטיים. | נימוק המבוסס על זיהוי דפוסים מונחה נתונים והיסק סטטיסטי. |
טכנולוגיות מפתח | מערכות מומחים, תכנות לוגי, גרפי ידע. | רשתות עצביות מלאכותיות, למידה עמוקה, מודלים שפה גדולים. |
יתרונות | פרשנות חזקה, קפדנות מבחינה לוגית, מצטיינת בתחומים מוגדרים היטב. | יכולת למידה חזקה, יכולה להתמודד עם נתונים מעורפלים ולא מובנים, יכולת הכללה טובה. |
חסרונות | צוואר בקבוק לרכישת ידע, יכולת חלשה להתמודד עם אי ודאות, מערכת שבירה. | בעיית “קופסה שחורה” (פרשנות לקויה), דורשת כמות גדולה של נתונים וכוח מחשוב, רגישות להתקפות יריבות. |
שיא היסטורי | עידן מערכות המומחים בשנות ה-70 וה-80 של המאה ה-20. | עידן הלמידה העמוקה משנת 2010 ועד היום. |
דמויות מייצגות | מרווין מינסקי, הרברט א. סימון, אלן ניואל. | ג’פרי הינטון, יאן לקון, ג’ון הופפילד, פיי-פיי לי. |
חלק 2: השפה האוניברסלית של AI מודרני: עקרונות מתמטיים מרכזיים
חשיפת המסתורין של AI מודרני מחייבת להבין שה”לוגיקה הבסיסית” שלו אינה שכל ישר או נימוק אנושי, אלא שפה מתמטית מדויקת ואוניברסלית. בפרט, AI הנשלט על ידי קונקטיביזם הוא בעיקרו מתמטיקה יישומית המונעת על ידי “נתונים, אלגוריתמים וכוח מחשוב”. ניתן לפרק את תהליכי יצירת האינטליגנציה, הלמידה והאופטימיזציה לסינרגיה של שלושה עמודי תווך מתמטיים: סטטיסטיקת הסתברות, אלגברה לינארית וחִשוּב.
2.1 האופי המתמטי של AI
ניתן בדרך כלל לתאר את המשימה המרכזית של בינה מלאכותית נוכחית כ: מציאת פתרון אופטימלי בקירוב במרחב בעיות מורכב רב מימדי. במקום לפתור בעיות על ידי ניסיון ממצה של כל האפשרויות, היא מיישמת שיטות מתמטיות כדי למצוא פתרון טוב מספיק. מתמטיקה מספקת ל-AI כלי מידול פורמליים ושפות תיאור מדעיות, והיא אבן הפינה לבנייה, הבנה ושיפור של מערכות AI.
2.2 עמוד תווך 1: הסתברות וסטטיסטיקה - הלוגיקה של אי הוודאות
תורת ההסתברות והסטטיסטיקה מספקת ל-AI מסגרת תיאורטית לנימוק בסביבות לא ודאיות ולמיצוי דפוסים מנתונים. מודלי AI הם בעיקר מערכות הסתברותיות הלומדות את ההתפלגות הבסיסית של נתונים כדי לבצע תחזיות והחלטות.
עם זאת, הופעתם של נתונים גדולים מציבה אתגר קשה ליסודות הסטטיסטיקה המסורתית. תיאוריות סטטיסטיות מסורתיות, כגון חוק המספרים הגדולים והמשפט המרכזי הגב
ול, מבוססות ברובן על ההנחות שדגימות הן “בלתי תלויות ומופצות באופן זהה” (i.i.d.) ושגודל המדגם n גדול בהרבה ממספר התכונות p (כלומר, p ≪ n). אבל בעידן הנתונים הגדולים, הנחות אלה נשברות לעתים קרובות. לדוגמה, במשימות זיהוי תמונות, תמונה ברזולוציה גבוהה עשויה להכיל מיליוני פיקסלים (תכונות p), בעוד שלערכת האימון עשויות להיות רק עשרות אלפי תמונות (דוגמאות n), מה שמוביל לבעיית “קללת המימדיות” שבה p ≫ n. במקרה זה, קל ליצור “מתאמי שווא” המבטלים שיטות סטטיסטיות מסורתיות.
עליית הלמידה העמוקה היא, במידה מסוימת, תגובה לאתגר זה. היא מספקת שיטה ללימוד אוטומטי של ייצוגי תכונות יעילים מנתונים רב מימדיים מבלי להסתמך על הנחות סטטיסטיות מסורתיות. עם זאת, ביסוס יסוד סטטיסטי מוצק לפרדיגמת נתונים חדשה זו הוא עדיין בעיה מתמטית עיקרית שצריך לפתור בדחיפות במחקר AI נוכחי.
2.3 עמוד תווך 2: אלגברה לינארית - הלוגיקה של הייצוג
אלגברה לינארית היא ה”שפה האוניברסלית” של עולם ה-AI, המספקת כלים בסיסיים לייצוג נתונים ומודלים. ברשתות עצביות, בין אם זה הקלט (כגון הפיקסלים של תמונה, וקטורי המילים של טקסט), הפרמטרים של המודל (משקלים) או הפלט הסופי, כולם מבוטאים כמבנה מספרי: וקטורים, מטריצות או טנסורים רב מימדיים.
פעולת הליבה ברשתות עצביות, כגון נוירון שממשקל ומסכם את כל התשומות שלו, היא בעיקרה הכפלה של מטריצות ווקטורים. הסיבה לכך ש-GPUs יכולים להאיץ מאוד אימון AI היא בדיוק בגלל שאותה ארכיטקטורת חומרה מותאמת מאוד לביצוע יעיל של פעולות אלגברה לינארית מקבילות בקנה מידה גדול אלה.
2.4 עמוד תווך 3: חשבון אינפיניטסימלי ואופטימיזציה - הלוגיקה של הלמידה
תהליך הלמידה של AI הוא בעיקרו בעיית אופטימיזציה מתמטית. המטרה היא למצוא קבוצה של פרמטרי מודל (לדוגמה, משקלים והטיות ברשת עצבית) המצמצמת את ההבדל בין תחזיות המודל לתשובות האמיתה. הבדל זה מכומת על ידי פונקציית הפסד.
Gradient Descent: מנוע הלמידה
Gradient Descent הוא האלגוריתם המרכזי להשגת מטרה זו והוא המנוע המניע את הלמידה של כמעט כל מודלי ה-AI המודרניים.
רעיון מרכזי: Gradient descent הוא אלגוריתם אופטימיזציה איטרטיבי שמטרתו למצוא את נקודת המינימום של פונקציית הפסד. ניתן להשוות תהליך זה באופן ציורי לאדם היורד הר בערפל סמיך. הוא לא יכול לראות איפה הנקודה הנמוכה ביותר בעמק, אבל הוא יכול לחוש את שיפוע הקרקע מתחת לרגליו. האסטרטגיה ההגיונית ביותר היא לנקוט בצעד קטן לאורך הכיוון התלול ביותר במורד הגבעה במיקום הנוכחי, ואז לחזור על התהליך הזה.
תהליך ספציפי:
אתחול: תחילה, הגדר באופן אקראי קבוצה ראשונית של פרמטרים של מודל (משקלים והטיות).
חשב הפסד: השתמש בפרמטרים הנוכחיים כדי לגרום למודל לבצע תחזיות על נתוני האימון, וחשב את השגיאה הכוללת (הפסד) בין התחזיות לתוויות האמיתיות.
חשב Gradient: השתמש בנגזרות חלקיות בחשבון אינפיניטסימלי כדי לחשב את הGradient של פונקציית ההפסד ביחס לכל פרמטר. הגרדיאנט הוא וקטור המצביע בכיוון של העלייה המהירה ביותר בערך פונקציית ההפסד.
עדכן פרמטרים: העבר כל פרמטר צעד קטן בכיוון ההפוך לגרדיאנט שלו. גודל הצעד הזה נשלט על ידי היפרפרמטר הנקרא קצב הלמידה (בדרך כלל מסומן כ-η ). נוסחת העדכון היא: פרמטרחדש = פרמטרישן − η × גרדיאנט.
חזור: חזור ברציפות על שלבים 2 עד 4 אלפי פעמים. כל איטרציה מכווננת את פרמטרי המודל, וגורמת לערך ההפסד לרדת בהדרגה. כאשר ערך ההפסד אינו יורד עוד באופן משמעותי, האלגוריתם “מתכנס” לנקודת מינימום מקומית או גלובלית, ותהליך הלמידה מסתיים.
גרסאות אלגוריתמים: בהתאם לכמות הנתונים המשמשת בכל איטרציה, ישנן גרסאות רבות של gradient descent, כגון Batch GD, Stochastic GD (SGD) ו-Mini-batch GD, המספקות פשרות שונות בין יעילות חישובית ויציבות התכנסות.
מתמטיקה היא השפה המאחדת שמחברת את כל פרדיגמות ה-AI המודרניות. בין אם זה רגרסיה לינארית פשוטה, מכונות וקטורים תומכים מורכבים או רשתות עצביות עמוקות ענקיות, הלוגיקה הבסיסית של הלמידה שלהן משותפת: הגדר מודל, הגדר פונקציית הפסד, ואז השתמש באלגוריתם אופטימיזציה (כגון gradient descent) כדי למצוא את הפרמטרים המצמצמים את פונקציית ההפסד. מסגרת מתמטית זו המבוססת על “מזעור הפסד” היא הלוגיקה המהותית האמיתית של האופן שבו מכונות לומדות מנתונים.
הלוגיקה המתמטית של AI מסמנת גם שינוי בסיסי מהלוגיקה המסורתית של תכנות. תכנות מסורתי הוא דטרמיניסטי ומדויק. AI, לעומת זאת, הוא הסתברותי ואפרוקסימטיבי. כפי שהראו מחקרים, מטרת ה-AI היא בדרך כלל לא למצוא פתרון מושלם להוכחה (שבלתי אפשרי לרוב עבור בעיות מורכבות בעולם האמיתי), אלא למצוא פתרון משוער שהוא “טוב מספיק”. המאפיין “קופסה שחורה” של AI הוא תוצאה ישירה של שינוי זה. אנו יכולים למדוד האם הוא יעיל על ידי הערכת ההפסד או הדיוק שלו, אך קשה להסביר כיצד הוא עובד עם לוגיקה ברורה צעד אחר צעד, כפי שאנו יכולים לעשות עם אלגוריתמים מסורתיים. הסיבה לכך היא שה”פתרון” של AI אינו מערכת של כללים קריאיים לאדם, אלא פונקציה מורכבת רב מימדית המקודדת על ידי מיליוני פרמטרים מספריים מותאמים. ה”लॉजिक” המובנית שלו מגולמת במורפולוגיה הגיאומטרית של המרחב הרב ממדי שנוצר על ידי פונקציית ההפסד, ולא בכללים הסמנטיים עצמם.
חלק 3: מתודולוגיות למידה - כיצד AI רוכש ידע
בהתבסס על העקרונות המתמטיים המרכזיים, AI פיתחה שלושה אסטרטגיות למידה עיקריות, או “פרדיגמות למידה”. פרדיגמות אלה מסווגות על סמך סוגי הנתונים ואותות המשוב הזמינים למערכת ה-AI במהלך האימון, כלומר: למידה מפוקחת, למידה לא מפוקחת ולמידת חיזוק.
3.1 למידה מפוקחת: למידה עם מנטור
למידה מפוקחת היא פרדיגמת הלמידה המכונה הנפוצה ביותר.
לוגיקת ליבה: המודל לומד מערכת נתונים מתויגת. במערכת נתונים זו, כל דגימת קלט משודכת במפורש לתשובת הפלט הנכונה. תהליך זה דומה לסטודנט המתכונן למבחן עם מערכת של תרגילים עם תשובות סטנדרטיות.
תהליך למידה: המודל מבצע תחזית עבור דגימת קלט, ואז משווה את התחזית לתווית האמיתית, ומחשב את השגיאה (הפסד). לאחר מכן, אלגוריתמי אופטימיזציה כגון gradient descent משמשים להתאמת הפרמטרים הפנימיים של המודל כדי להפחית שגיאה זו.
משימות ואלגוריתמים עיקריים:
סיווג: נבא תווית קטגוריה דיסקרטית. לדוגמה, לשפוט אם אימייל הוא “ספאם” או “לא ספאם”, או לזהות אם חיה בתמונה היא “חתול” או “כלב”. אלגוריתמים נפוצים כוללים רגרסיה לוגיסטית, עצי החלטה ומכונות וקטורים תומכות (SVM).
רגרסיה: נבא ערך מספרי רציף. לדוגמה, прогнозируя цену дома או את הטמפרטורה של מחר. אלגוריתמים נפוצים כוללים רגרסיה לינארית ויערות אקראיים.
דרישות נתונים: ההצלחה של למידה מפוקחת מסתמכת במידה רבה על כמות גדולה של נתונים מתויגים באופן ידני באיכות גבוהה. השגת נתונים מתויגים אלה היא בדרך כלל יקרה וגוזלת זמן, מה שהווה צוואר בקבוק עיקרי לשיטה זו.