לאלף את מוח הסיליקון: AI מקומי למשימות עיתונאיות

שירת הסירנה של הבינה המלאכותית הולכת ומתגברת, ומבטיחה יעילות ושינוי מהפכני בתעשיות רבות. אפשרות מפתה במיוחד היא הרצת מודלי AI חזקים ישירות על מחשבים אישיים, תוך עקיפת התלות בענן, דמי מנוי וחששות בנוגע לפרטיות נתונים. ענקיות כמו Google, Meta ו-Mistral AI הפכו מודלי שפה גדולים (LLMs) מתוחכמים לזמינים להורדה בחינם. אך האם נגישות זו מתורגמת לתועלת מעשית? האם המוחות הדיגיטליים הללו, המוגבלים לסיליקון של מחשב שולחני או נייד, יכולים באמת לשפר תהליכי עבודה מורכבים כמו כתיבה עיתונאית? דיווח זה מפרט ניסוי נרחב שנועד לענות בדיוק על שאלה זו.

הכנת הבמה: ניסוי ה-AI המקומי

במשך מספר חודשים, נעשה מאמץ ייעודי להעריך את הביצועים בעולם האמיתי של LLMs שונים הניתנים להורדה בחינם ופועלים לחלוטין על חומרה מקומית. רשימת המודלים שנבדקו הייתה מגוונת, ושיקפה את הנוף המתפתח במהירות של AI בקוד פתוח:

  • Google Gemma (במיוחד גרסה 3)
  • Meta Llama (גרסה 3.3)
  • Anthropic Claude (גרסה 3.7 Sonnet – למרות שבדרך כלל מבוסס ענן, הכללתו מרמזת על בדיקה רחבה)
  • איטרציות מרובות מ-Mistral AI (כולל Mistral, Mistral Small 3.1, Mistral Nemo ו-Mixtral)
  • IBM Granite (גרסה 3.2)
  • Alibaba Qwen (גרסה 2.5)
  • DeepSeek R1 (שכבת הסקה המיושמת לעתים קרובות על גרסאות מזוקקות של Qwen או Llama)

המטרה המרכזית הייתה שאפתנית אך מעשית: לקבוע אם בינות מלאכותיות אלו, המופעלות מקומית, יכולות להפוך תמלולי ראיונות גולמיים למאמרים מלוטשים וראויים לפרסום. הדבר כלל הערכה לא רק של ההיתכנות הטכנית – האם החומרה יכולה להתמודד עם העומס? – אלא גם של הפלט האיכותי – האם הטקסט שהתקבל היה שמיש? חשוב לציין מראש שהשגת מאמר אוטומטי לחלוטין ומוכן לפרסום התבררה כחמקמקה. המטרה העיקרית עברה להבנת היכולות והמגבלות האמיתיות של AI מקומי נוכחי באמצעות מקרה שימוש ספציפי ותובעני זה.

המתודולוגיה שנבחרה התרכזה סביב פרומפט (prompt) משמעותי. הוא כלל כ-1,500 טוקנים (tokens) (בערך 6,000 תווים או שני עמודים מלאים של טקסט) שפירטו בקפידה את מבנה המאמר, הסגנון והטון הרצויים. לסט הוראות זה נוסף תמלול הראיון עצמו, בממוצע כ-11,000 טוקנים לשיחה טיפוסית של 45 דקות. הגודל העצום של קלט משולב זה (לעתים קרובות מעל 12,500 טוקנים) בדרך כלל חורג ממגבלות השימוש החינמיות של פלטפורמות AI מקוונות רבות. מגבלה זו הדגישה את הרציונל לחקר פריסה מקומית, שבה העיבוד נשאר בחינם ללא קשר לגודל הקלט, מוגבל רק על ידי יכולות המכונה.

ביצוע בדיקות אלו כלל שימוש ב-LM Studio, תוכנת קהילה פופולרית המספקת ממשק דמוי צ’אטבוט ידידותי למשתמש לאינטראקציה עם LLMs הפועלים מקומית. LM Studio משלבת בנוחות פונקציות להורדת גרסאות מודל שונות, אם כי המקור העיקרי למודלים זמינים אלה בחינם נותר מאגר Hugging Face, מרכז מרכזי לקהילת ה-AI.

ניווט במבוך הטכני: חומרה, זיכרון וגודל מודל

המסע לעיבוד AI מקומי חשף במהירות יחסי גומלין מורכבים בין תוכנה לחומרה. האיכות והמהירות של פלט ה-AI היו קשורות קשר הדוק למשאבים הזמינים במכונת הבדיקה – Mac המצויד במערכת-על-שבב (SoC) Apple Silicon M1 Max ו-64 GB נדיבים של RAM. באופן קריטי, ארכיטקטורה זו כוללת Unified Memory Architecture (UMA), המאפשרת ל-48 GB של RAM להיות משותפים באופן דינמי בין ליבות המעבד (CPU), ליבות הגרפיקה (GPU – המשמשות להאצת וקטורים), וליבות יחידת העיבוד העצבית (NPU – המשמשות להאצת מטריצות).

מספר גורמים טכניים מרכזיים התגלו כמכריעים:

  1. פרמטרים של המודל: LLMs נמדדים לעתים קרובות לפי מספר הפרמטרים שלהם (מיליארדים, בדרך כלל). מודלים גדולים יותר בדרך כלל בעלי ידע וניואנסים רבים יותר. עם זאת, הם דורשים זיכרון רב יותר באופן משמעותי.
  2. קוונטיזציה (Quantization): מתייחסת לדיוק המשמש לאחסון הפרמטרים של המודל (למשל, 8-bit, 4-bit, 3-bit). דיוק סיביות נמוך יותר מפחית באופן דרסטי את טביעת הרגל בזיכרון ומגביר את מהירות העיבוד, אך לעתים קרובות על חשבון הדיוק ואיכות הפלט (הכנסת שגיאות, חזרתיות או שפה חסרת היגיון).
  3. חלון ההקשר (Context Window): מגדיר את כמות המידע המקסימלית (פרומפט + נתוני קלט) שה-AI יכול לשקול בבת אחת, נמדד בטוקנים. גודל החלון הנדרש מוכתב על ידי המשימה; במקרה זה, הפרומפט הגדול והתמלול הצריכו חלון משמעותי.
  4. RAM זמין: כמות הזיכרון מגבילה ישירות אילו מודלים (ובאיזו רמת קוונטיזציה) ניתן לטעון ולהריץ ביעילות.

הנקודה האופטימלית, שסיפקה את האיזון הטוב ביותר בין איכות להיתכנות במכונת הבדיקה בזמן ההערכה, הושגה באמצעות מודל Gemma של Google עם 27 מיליארד פרמטרים, שעבר קוונטיזציה ל-8 סיביות (גרסה ‘27B Q8_0’). תצורה זו פעלה בתוך חלון הקשר של 32,000 טוקנים, והתמודדה בנוחות עם קלט של כ-15,000 טוקנים (הוראות + תמלול). היא רצה על חומרת ה-Mac שצוינה, תוך שימוש ב-48 GB של זיכרון משותף.

בתנאים אופטימליים אלה, מהירות העיבוד נמדדה ב-6.82 טוקנים לשנייה. למרות שזה פונקציונלי, זה רחוק מלהיות מיידי. שיפורי מהירות מבלי להקריב את איכות הפלט תלויים בעיקר בחומרה מהירה יותר – במיוחד, SoCs עם מהירויות שעון גבוהות יותר (GHz) או מספר גדול יותר של ליבות עיבוד (CPU, GPU, NPU).

ניסיון לטעון מודלים עם פרמטרים רבים יותר באופן משמעותי (למשל, 32 מיליארד, 70 מיליארד) הגיע במהירות לתקרת הזיכרון. מודלים גדולים יותר אלה נכשלו בטעינה לחלוטין או הפיקו פלט קטוע קשות ובלתי שמיש (כמו פסקה אחת במקום מאמר מלא). לעומת זאת, שימוש במודלים עם פחות פרמטרים, תוך פינוי זיכרון, הביא לירידה ניכרת באיכות הכתיבה, שאופיינה בחזרתיות וברעיונות מנוסחים בצורה גרועה. באופן דומה, שימוש בקוונטיזציה אגרסיבית יותר (הפחתת פרמטרים ל-3, 4, 5 או 6 סיביות) הגביר את המהירות אך פגע קשות בפלט, והכניס טעויות דקדוקיות ואפילו מילים מומצאות.

גודל חלון ההקשר הנדרש, הנקבע על ידי נתוני הקלט, אינו נתון למשא ומתן עבור המשימה. אם נתוני הקלט דורשים חלון אשר, בשילוב עם גודל המודל והקוונטיזציה שנבחרו, חורג מה-RAM הזמין, המוצא היחיד הוא לבחור מודל קטן יותר, מה שבהכרח פוגע באיכות הפוטנציאלית של התוצאה הסופית כדי להישאר בגבולות הזיכרון.

החיפוש אחר איכות: כאשר מבנה פוגש תוכן (או חסרונו)

האם ה-AI שהופעל מקומית הצליח לייצר מאמרים שמישים? כן ולא. הטקסטים שנוצרו הציגו לעתים קרובות מבנה טוב באופן מפתיע. הם בדרך כלל דבקו בפורמט המבוקש, וכללו:

  • זווית או מיקוד ניתנים לזיהוי.
  • זרימה קוהרנטית דרך קטעים נושאיים.
  • ציטוטים ממוקמים כראוי מהתמלול.
  • כותרות מרתקות ומשפטי סיום.

עם זאת, פגם קריטי הופיע באופן עקבי בכל ה-LLMs שנבדקו, כולל אלה כמו DeepSeek R1, שתוכננו במיוחד להסקה משופרת: חוסר יכולת בסיסי להבחין נכון ולתעדף את הרלוונטיות של המידע בתוך הראיון. מודלי ה-AI החמיצו בעקביות את עיקר השיחה, והתמקדו בנקודות משניות או בפרטים שוליים.

התוצאה הייתה לעתים קרובות מאמרים שהיו תקינים מבחינה דקדוקית ומאורגנים היטב, אך בסופו של דבר שטחיים ולא מעניינים. במקרים מסוימים, ה-AI הקדיש קטעים משמעותיים ומנומקים היטב לקביעת המובן מאליו – לדוגמה, הרחבה באריכות על כך שהחברה המרואיינת פועלת בשוק עם מתחרים. הדבר הדגיש פער בין יכולת לשונית (יצירת משפטים קוהרנטיים) לבין הבנה אמיתית (הבנת חשיבות והקשר).

יתר על כן, הפלט הסגנוני השתנה במידה ניכרת בין המודלים:

  • Llama 3.x של Meta: בזמן הבדיקה, הפיק משפטים שהיו לעתים קרובות מסורבלים וקשים לפענוח.
  • מודלי Mistral ו-Gemma: הראו נטייה לסגנון ‘שפת שיווק’, תוך שימוש בשמות תואר מופרזים ומסגור חיובי אך חסרי תוכן קונקרטי ופרטים ספציפיים.
  • Qwen של Alibaba: באופן מפתיע, במסגרת מגבלות מערך הבדיקה, מודל סיני זה הפיק חלק מהפרוזה האסתטית ביותר בצרפתית (שפת צוות ההערכה המקורי).
  • Mixtral 8x7B: בתחילה, מודל ‘תערובת מומחים’ זה (המשלב שמונה מודלים קטנים יותר ומתמחים של 7 מיליארד פרמטרים) הראה הבטחה. עם זאת, התאמתו למגבלת הזיכרון של 48 GB דרשה קוונטיזציה אגרסיבית של 3 סיביות, מה שהוביל לשגיאות תחביר משמעותיות. גרסה שעברה קוונטיזציה של 4 סיביות (‘Q4_K_M’) הציעה פשרה טובה יותר בתחילה, אך עדכונים מאוחרים יותר לתוכנת LM Studio הגדילו את טביעת הרגל שלה בזיכרון, וגרמו גם לתצורה זו להפיק תוצאות קטועות.
  • Mistral Small 3.1: מודל עדכני יותר עם 24 מיליארד פרמטרים בקוונטיזציה של 8 סיביות התגלה כמתמודד חזק. איכות הפלט שלו התקרבה לזו של מודל Gemma 27B, והוא הציע יתרון מהירות קל, בעיבוד של 8.65 טוקנים לשנייה.

שונות זו מדגישה שבחירת LLM אינה נוגעת רק לגודל או למהירות; נתוני האימון הבסיסיים והארכיטקטורה משפיעים באופן משמעותי על סגנון הכתיבה שלו והטיות פוטנציאליות.

ארכיטקטורת חומרה: הגיבור הבלתי מושר של AI מקומי

הניסויים שפכו אור על גורם מכריע, שלעתים קרובות מתעלמים ממנו: ארכיטקטורת החומרה הבסיסית, ובמיוחד אופן הגישה לזיכרון. הביצועים המעולים שנצפו ב-Apple Silicon Mac לא נבעו רק מכמות ה-RAM אלא נשענו באופן קריטי על Unified Memory Architecture (UMA) שלו.

במערכת UMA, ליבות ה-CPU, ה-GPU וה-NPU חולקות כולן את אותו מאגר של RAM פיזי ויכולות לגשת לנתונים באותן כתובות זיכרון בו-זמנית. הדבר מבטל את הצורך להעתיק נתונים בין מאגרי זיכרון נפרדים המוקדשים למעבדים שונים (למשל, RAM מערכת עבור ה-CPU ו-VRAM ייעודי עבור כרטיס גרפי נפרד).

מדוע זה כל כך חשוב עבור LLMs?

  • יעילות: עיבוד LLM כרוך בחישוב אינטנסיבי על פני סוגים שונים של ליבות. UMA מאפשרת שיתוף נתונים חלק, ומפחיתה את ההשהיה והתקורה הקשורים לשכפול והעברת נתונים.
  • ניצול זיכרון: במערכות ללא UMA (כמו מחשב PC טיפוסי עם GPU נפרד), ייתכן שיהיה צורך לטעון את אותם נתונים הן ל-RAM הראשי של המערכת (עבור ה-CPU) והן ל-VRAM של ה-GPU. הדבר מפחית למעשה את הזיכרון השמיש עבור ה-LLM עצמו.

ההשלכה המעשית היא משמעותית. בעוד שה-Mac שנבדק יכול היה להריץ בנוחות מודל של 27 מיליארד פרמטרים, שעבר קוונטיזציה של 8 סיביות, תוך שימוש ב-48 GB של RAM UMA משותף, השגת ביצועים דומים במחשב PC ללא UMA עשויה לדרוש כמות כוללת גדולה יותר באופן משמעותי של RAM. לדוגמה, מחשב PC עם 48 GB RAM כולל המחולק ל-24 GB עבור ה-CPU ו-24 GB עבור ה-GPU עשוי להיות מסוגל להריץ ביעילות רק מודל קטן בהרבה של 13 מיליארד פרמטרים, בשל חלוקת הזיכרון ותקורה של שכפול נתונים.

יתרון ארכיטקטוני זה מסביר את ההובלה המוקדמת שמחשבי Mac עם שבבי Apple Silicon השיגו בתחום ה-AI המקומי. מתוך הכרה בכך, מתחרים כמו AMD הכריזו על סדרת ה-SoC שלהם Ryzen AI Max (צפויה בתחילת 2025) שנועדה לשלב גישת זיכרון מאוחדת דומה. נכון לזמן בדיקות אלו, ה-SoCs Core Ultra של Intel, למרות שילוב CPU, GPU ו-NPU, לא הציגו את אותה רמה של גישה לזיכרון מאוחד לחלוטין על פני כל סוגי הליבות. הבחנה חומרתית זו היא שיקול קריטי עבור כל מי שרציני לגבי הרצת LLMs גדולים ובעלי יכולת רבה יותר באופן מקומי.

הריקוד המורכב של הנדסת פרומפטים (Prompt Engineering)

לגרום ל-AI לבצע משימה מורכבת כמו הפיכת ראיון למאמר דורש יותר מסתם חומרה חזקה ומודל בעל יכולת; הוא דורש הדרכה מתוחכמת – האמנות והמדע של הנדסת פרומפטים (prompt engineering). יצירת הפרומפט הראשוני בן 1,500 הטוקנים שהנחה את ה-AI הייתה משימה משמעותית.

נקודת התחלה שימושית כללה הנדסה הפוכה (reverse engineering): הזנת ה-AI במאמר גמור שנכתב על ידי אדם לצד התמלול המתאים שלו ושאלה איזה פרומפט היה צריך להינתן כדי להשיג תוצאה זו. ניתוח הצעות ה-AI על פני מספר דוגמאות מגוונות סייע לזהות אלמנטים חיוניים עבור סט ההוראות.

עם זאת, הצעות פרומפט שנוצרו על ידי AI היו באופן עקבי קצרות מדי וחסרו את הפירוט הדרוש להנחיית יצירת מאמר מקיף. העבודה האמיתית הייתה בלקיחת הרמזים הראשוניים שסופקו על ידי ה-AI והרחבתם, תוך הטמעת ידע תחום עמוק על מבנה עיתונאי, טון, סגנון ושיקולים אתיים.

מספר לקחים לא אינטואיטיביים עלו:

  • בהירות על פני אלגנטיות: באופן מפתיע, כתיבת הפרומפט בסגנון טבעי וזורם יותר לעתים קרובות הפחיתה את הבנת ה-AI. מודלים התקשו עם עמימות, במיוחד כינויי גוף (‘הוא’, ‘זה’, ‘הדבר הזה’). הגישה היעילה ביותר כללה הקרבת קריאות אנושית למען דיוק מכונה, חזרה מפורשת על נושאים (‘המאמר צריך…’, ‘הטון של המאמר חייב…’, ‘מבוא המאמר צריך…’) כדי למנוע כל פרשנות שגויה פוטנציאלית.
  • הטבע החמקמק של היצירתיות: למרות עיצוב פרומפט קפדני שמטרתו לאפשר גמישות, המאמרים שנוצרו על ידי AI חלקו בעקביות ‘דמיון משפחתי’. לכידת רוחב היצירתיות האנושית והשונות הסגנונית בתוך פרומפט יחיד, או אפילו מספר פרומפטים מתחרים, התבררה כקשה במיוחד. נראה כי גיוון אמיתי דורש שינויים מהותיים יותר מאשר שינויים בפרומפט בלבד יכולים לספק.

הנדסת פרומפטים אינה משימה חד פעמית אלא תהליך איטרטיבי של עידון, בדיקה ושילוב לוגיקה עסקית ספציפית וניואנסים סגנוניים. היא דורשת שילוב של הבנה טכנית ומומחיות עמוקה בתחום הנושא.

שינוי עומס העבודה: פירוק פרדוקס ה-AI

הניסויים הובילו בסופו של דבר לתובנה קריטית, המכונה פרדוקס ה-AI: במצבו הנוכחי, כדי ש-AI יוכל להקל על חלק מעומס העבודה של המשתמש (כתיבת טיוטת המאמר), המשתמש נאלץ לעתים קרובות להשקיע יותר עבודה מקדימה.

הבעיה המרכזית נותרה חוסר היכולת של ה-AI לאמוד באופן מהימן רלוונטיות בתוך תמלול הראיון הגולמי. כדי להפיק מאמר רלוונטי, פשוט הזנת התמלול כולו לא הספיקה. צעד ביניים הכרחי התגלה: עיבוד מקדים ידני של התמלול. הדבר כלל:

  1. הסרת פטפוטים לא רלוונטיים, סטיות וחזרות מיותרות.
  2. פוטנציאל להוספת הערות הקשריות (גם אם אינן מיועדות למאמר הסופי) כדי להנחות את הבנת ה-AI.
  3. בחירה קפדנית ואולי סידור מחדש של קטעי מפתח.

‘אוצרות’ תמלול זו דורשת זמן ושיפוט אנושיים משמעותיים. הזמן שנחסך בכך שה-AI יצר טיוטה ראשונה קוזז למעשה, או אפילו עלה עליו, על ידי המשימה החדשה של הכנה קפדנית של נתוני הקלט שלו. עומס העבודה לא נעלם; הוא פשוט עבר מכתיבה ישירה להכנת נתונים ועידון פרומפטים.

יתר על כן, הפרומפט המפורט בן 1,500 הטוקנים היה ספציפי מאוד לסוג אחד של מאמר (למשל, ראיון על השקת מוצר). כיסוי המגוון הרחב של פורמטי מאמרים שעיתונאי מייצר מדי יום – פרופילי סטארט-אפ, ניתוחים אסטרטגיים, סיקור אירועים, תחקירים מרובי מקורות – ידרוש פיתוח, בדיקה ותחזוקה של פרומפט נפרד ומפורט באותה מידה לכל מקרה שימוש. הדבר מייצג השקעה הנדסית משמעותית מראש ומתמשכת.

גרוע מכך, ניסויים נרחבים אלה, שנמשכו למעלה משישה חודשים, רק גירדו את פני השטח. הם התמקדו בתרחיש הפשוט ביותר: יצירת מאמר מראיון יחיד, שנערך לעתים קרובות במסגרות מבוקרות כמו מסיבות עיתונאים שבהן נקודות המרואיין כבר מובנות במידה מסוימת. המשימות המורכבות הרבה יותר, אך הנפוצות, של סינתזת מידע מראיונות מרובים, שילוב מחקר רקע, או טיפול בשיחות פחות מובנות נותרו בלתי נחקרות בשל השקעת הזמן הנדרשת אפילו למקרה הבסיסי.

לכן, בעוד שהרצת LLMs באופן מקומי היא אפשרית מבחינה טכנית ומציעה יתרונות במונחים של עלות ופרטיות נתונים, התפיסה שהיא חוסכת בקלות זמן או מאמץ עבור עבודת ידע מורכבת כמו עיתונאות היא, בהתבסס על חקירה זו, אשליה כיום. המאמץ הנדרש פשוט משנה צורה, ועובר במעלה הזרם להכנת נתונים והנדסת פרומפטים ספציפית ביותר. באתגרים ספציפיים אלה – הבחנת רלוונטיות, דרישה לעיבוד מקדים נרחב – ה-AI שהופעל מקומית הציג ביצועים דומים לשירותים מקוונים בתשלום, מה שמרמז שאלו מגבלות יסוד של הדור הנוכחי של LLMs, ללא קשר לשיטת הפריסה. הדרך לסיוע AI חלק באמת בתחומים כאלה נותרה מורכבת ודורשת התפתחות נוספת הן ביכולות ה-AI והן בשיטות האינטראקציה שלנו איתם.