DeepSeek-R1 ב-32B? מבחן ל-QwQ של עליבאבא | he | בית

מאתגר את הענקים: מתמודד קומפקטי

QwQ, למרות שיש לו רק 32 מיליארד פרמטרים בהשוואה ל-671 מיליארד של DeepSeek R1, ממוצב כמודל ‘חשיבה’. עליבאבא טוענת שמודל קטן יחסית זה יכול לעלות על R1 במדדים ספציפיים, במיוחד בתחומים כמו מתמטיקה, קידוד וקריאה לפונקציות. טענה שאפתנית זו מצדיקה מבט מקרוב על הפעולה הפנימית והביצועים בעולם האמיתי של QwQ.

למידת חיזוק: המפתח ליכולת של QwQ

בדומה ל-DeepSeek R1, צוות Qwen השתמש בלמידת חיזוק (RL) כדי לחדד את יכולות החשיבה של QwQ בשרשרת המחשבות. שיטה זו משפרת את יכולתו של המודל לנתח ולפרק בעיות מורכבות צעד אחר צעד. הגישה המסורתית ב-RL כוללת תגמול המודל על תשובות נכונות, ובכך מחזקת תגובות מדויקות.

עם זאת, צוות Qwen נקט בגישה מתוחכמת יותר עם QwQ. הם שילבו מאמת דיוק ושרת ביצוע קוד. תוספת מכרעת זו מבטיחה שתגמולים יינתנו רק עבור פתרונות מתמטיים תקינים וקוד פונקציונלי. על ידי יישום תהליך אימות קפדני זה, הצוות שואף לטפח מודל המציג רמה גבוהה יותר של דיוק ואמינות.

טענות ביצועים: בדיקת מציאות

מאמצי צוות Qwen, לטענתם, הניבו מודל שמתעלה משמעותית על קטגוריית המשקל שלו. הם טוענים ש-QwQ משיג רמות ביצועים שוות, ובמקרים מסוימים אף עולות, על מודלים גדולים בהרבה.

עם זאת, עולם מדדי הביצועים של AI יכול להיות מורכב. חשוב להתקדם מעבר לנתונים המדווחים ולבחון כיצד טענות אלו מתורגמות לתרחישים מעשיים בעולם האמיתי.

בדיקה מעשית: QwQ במבחן

כדי להעריך את היכולות של QwQ, תוכננה סדרה של הנחיות בדיקה, המשתרעות על פני מגוון תחומים. אלה כללו ידע כללי, חשיבה מרחבית, פתרון בעיות, מתמטיקה ואתגרים אחרים הידועים כקשים אפילו עבור מודלי השפה הגדולים (LLMs) המתקדמים ביותר.

בשל דרישות הזיכרון המשמעותיות של המודל המלא, הבדיקה בוצעה בשתי תצורות. ראשית, המודל המלא הוערך באמצעות הדגמת QwQ ב-Hugging Face. זה איפשר הערכה של מלוא הפוטנציאל שלו. שנית, גרסה מכומתת של 4 סיביות נבדקה על GPU של 24GB (באופן ספציפי, Nvidia 3090 או AMD Radeon RX 7900XTX). תצורה זו נועדה לאמוד את ההשפעה של כימות על דיוק המודל, מה שהופך אותו לנגיש יותר למשתמשים עם חומרה פחות חזקה.

ידע כללי: עומד על שלו

בתגובה לרוב שאלות הידע הכללי, QwQ הפגין ביצועים דומים ל-R1 של DeepSeek בעל 671 מיליארד הפרמטרים ולמודלי חשיבה אחרים כמו o3-mini של OpenAI. המודל בדרך כלל לקח כמה שניות כדי לגבש את מחשבותיו לפני שסיפק תשובה לשאילתה. התנהגות זו אופיינית למודלי חשיבה, שמעדיפים שיקול דעת זהיר על פני תגובות מיידיות.

מצטיין במורכבות: לוגיקה, קידוד ומתמטיקה

המקום שבו QwQ באמת מתחיל לבדל את עצמו הוא בהתמודדות עם אתגרים מורכבים יותר הכוללים לוגיקה, קידוד או מתמטיקה. בואו נתעמק בתחומים אלה, נדגיש את נקודות החוזק שלו ונתייחס לכמה תחומים שבהם הוא נופל.

חשיבה מרחבית: ניווט במבוך

מבחן חשיבה מרחבית חדש יחסית, שפותח על ידי Homebrew Research כחלק מפרויקט AlphaMaze שלהם, שימש להערכת QwQ.

גם המופע המקומי של QwQ וגם המודל בגודל מלא פתרו בעקביות את החידות הללו בהצלחה. עם זאת, כל ריצה אכן דרשה כמה דקות להשלמה. זה מצביע על כך שבעוד ש-QwQ יכול להתמודד עם חשיבה מרחבית ביעילות, הוא לא בהכרח המהיר ביותר בה.

לעומת זאת, R1 של DeepSeek וה-distill של 32B שלו הפגינו התנהגויות שונות. שני המודלים פתרו בהצלחה את המבוך הראשון. עם זאת, R1 התקשה עם השני, בעוד שה-distill של 32B השיג שיעור הצלחה של 90% במבוך השני. שונות זו אינה בלתי צפויה לחלוטין, בהתחשב בכך ש-R1 וה-distill משתמשים במודלים בסיסיים נפרדים.

בעוד ש-QwQ הפגין ביצועים מעולים בהשוואה ל-DeepSeek במבחן הספציפי הזה, נצפתה התנהגות חריגה מסוימת עם מודל 4 הסיביות. בתחילה, הוא דרש כמעט פי שניים יותר אסימוני ‘מחשבה’ כדי להשלים את המבחן. זה הצביע בתחילה על הפסדים פוטנציאליים עקב כימות. עם זאת, חקירה נוספת גילתה שהמודל המכומת, במצבו הראשוני, הפגין ביצועים לא אופטימליים. התאמת ההיפרפרמטרים והרצה מחדש של הבדיקות פתרו בעיה זו, והדגימו את החשיבות של תצורה נכונה.

קידוד בירייה אחת: חוזק פוטנציאלי

QwQ משך תשומת לב רבה בשל הפוטנציאל שלו ביצירת קוד ‘בירייה אחת’ – היכולת לייצר קוד שמיש בניסיון הראשון. תחום מסוים זה נראה כנקודת חוזק משמעותית עבור המודל.

המודל הוטל עליו ליצור מחדש כמה משחקים פשוטים יחסית בפייתון באמצעות ספריית pygame. המשחקים שנבחרו היו פונג, Breakout, אסטרואידים ו-Flappy Bird.

QwQ טיפל בפונג וב-Breakout בקלות יחסית. לאחר מספר דקות של עיבוד, המודל יצר גרסאות עובדות של שני המשחקים.

עם זאת, כאשר הוטל עליו ליצור מחדש את אסטרואידים, QwQ נתקל בקשיים. למרות שהקוד שנוצר רץ, הגרפיקה ומכניקת המשחק היו לעתים קרובות מעוותות ובאגיות. לעומת זאת, R1, בניסיונו הראשון, יצר מחדש בנאמנות את משחק היריות הקלאסי בארקייד.

חשוב לקחת בחשבון את נתוני האימון עבור מודלים אלה. הם נחשפו לכמות עצומה של קוד מקור זמין בגלוי, שככל הנראה כולל רפרודוקציות של משחקים קלאסיים. זה מעלה את השאלה האם המודלים פשוט נזכרים במידע שנלמד ולא מפיקים באופן עצמאי מכניקת משחק מאפס. זה מדגיש את הטבע הבסיסי של רשתות עצביות מסיביות אלה, שבהן אינטליגנציה לכאורה נובעת לעתים קרובות מזיהוי תבניות נרחב.

אפילו עם מגבלות אלו, הביצועים של QwQ ביצירה מחדש של משחקי ארקייד קלאסיים מרשימים, במיוחד בהתחשב בספירת הפרמטרים שלו. הוא אולי לא משתווה ל-R1 בכל מבחן, אבל הוא מדגים רמה יוצאת דופן של יכולת. הביטוי ‘אין תחליף לנפח’, המשמש לעתים קרובות בעולם הרכב, עשוי להיות רלוונטי כאן. זה יכול להסביר מדוע עליבאבא מפתחת גרסת ‘Max’ של QwQ, אם כי לא סביר שהיא תהיה ניתנת להפעלה על חומרה צרכנית בקרוב.

בהשוואה ל-R1 Qwen 2.5 32B distill בגודל דומה של DeepSeek, ההחלטה של עליבאבא לשלב שרת ביצוע קוד בצינור למידת החיזוק שלה עשויה להעניק יתרון באתגרים הקשורים לתכנות.

מתמטיקה: יכולת עם הסתייגות

מבחינה היסטורית, LLMs התקשו במתמטיקה, תוצאה של האימון שלהם המתמקד בשפה. בעוד שמודלים חדשים יותר הראו שיפורים, QwQ עדיין מתמודד עם אתגרים, אם כי לא בהכרח מהסיבות שאפשר לצפות.

QwQ פתר בהצלחה את כל בעיות המתמטיקה שהוצגו בעבר ל-R1. זה מצביע על כך ש-QwQ יכול להתמודד עם חשבון בסיסי ואפילו קצת אלגברה. עם זאת, הבעיה טמונה ביעילות שלו. שימוש ב-LLM לחישובים מתמטיים נראה לא אינטואיטיבי כאשר מחשבונים וחישוב ישיר נשארים זמינים ומהירים משמעותית.
לדוגמה, פתרון משוואה פשוטה כמו 7*43 דרש מ-QwQ ליצור מעל 1,000 אסימונים, ולקח בערך 23 שניות ב-RTX 3090 Ti. זו משימה שניתן להשלים במחשבון כיס בשבריר מהזמן.

חוסר היעילות הופך בולט עוד יותר עם חישובים גדולים יותר. פתרון 3394*35979, בעיית כפל מעבר ליכולות של רוב המודלים שאינם מודלי חשיבה, לקח למופע המקומי של QwQ שלוש דקות ומעל 5,000 אסימונים כדי לחשב.

לפני תיקון ההיפרפרמטר, אותה משוואה דרשה תשע דקות מדהימות וכמעט 12,000 אסימונים.

המסקנה העיקרית כאן היא שבעוד שמודל עשוי להיות מסוגל לכפות את דרכו בכוח גס לתשובה הנכונה, זה לא בהכרח אומר שזה הכלי האופטימלי לתפקיד. גישה מעשית יותר תהיה לספק ל-QwQ גישה למחשבון פייתון. זה ממנף את החוזקות של המודל תוך העברת משימות עתירות חישוב לכלי מתאים יותר.

כאשר הוטל עליו לפתור את אותה משוואת 3394*35979 באמצעות כלים, זמן התגובה של QwQ צנח לשמונה שניות, מכיוון שהמחשבון טיפל בהרמה הכבדה.

השכיחות של ‘Wait’: הצצה לתהליך המחשבה

בחינת ‘המחשבות’ של QwQ מגלה הופעה תכופה של המילה ‘wait’, במיוחד במהלך משימות מורכבות או בעיות מילוליות. זה משקף את התהליך הפנימי של המודל של בדיקת עבודתו מול תוצאות חלופיות.

בעוד שהתנהגות זו נפוצה במודלי חשיבה, היא יכולה להיות מתסכלת במיוחד כאשר QwQ מייצר תשובה שגויה, אפילו לאחר שהפגין הבנה של התשובה הנכונה במהלך תהליך ה’מחשבה’ שלו.

בעיה זו נתקלה לעתים קרובות במהלך הבדיקה. אחת הדוגמאות הממחישות ביותר הייתה ההתאמה של AutoGen AI לבעיית הזאב, העז והכרוב הקלאסית. חידה זו מציגה אתגר אופטימיזציה של תחבורה עם טוויסט:

הפתרון מוטמע בתוך ההנחיה: עם שלושה תאים מאובטחים, החקלאי יכול להעביר את כל הפריטים בנסיעה אחת. עם זאת, בשל הדמיון של החידה לגרסה הקלאסית, מודלים מתעלמים לעתים קרובות מהתאים.

בבדיקות, QwQ נכשל בעקביות לפתור חידה זו בצורה נכונה. בחינת תהליך המחשבה שלו גילתה שהוא לא התעלם משלושת התאים. למעשה, הוא הכיר בהם אך דחה אותם כפשוטים מדי:

“Wait, if the farmer can take all three in one trip, then he can just do that and be done. But that would make the problem trivial, which is unlikely. So perhaps the compartments are separate but the boat can only carry two items plus the farmer?”

(“חכה, אם החקלאי יכול לקחת את כל השלושה בנסיעה אחת, אז הוא יכול פשוט לעשות את זה ולסיים. אבל זה יהפוך את הבעיה לטריוויאלית, וזה לא סביר. אז אולי התאים נפרדים אבל הסירה יכולה לשאת רק שני פריטים פלוס החקלאי?”)

ללא קשר לשאלה אם הבדיקה בוצעה על המודל המלא בענן או באופן מקומי, QwQ התקשה לפתור זאת בעקביות. זה מדגיש מגבלה פוטנציאלית ביכולות החשיבה שלו, שבה הוא עשוי לחשוב יתר על המידה או לפרש לא נכון את האילוצים של הבעיה.

רגישות להיפרפרמטרים: איזון עדין

בהשוואה למודלים אחרים, QwQ הפגין רגישות מוגברת לתצורה שלו. בתחילה, עליבאבא המליצה על פרמטרי דגימה ספציפיים:

Temperature: 0.6
TopP: 0.95
TopK: בין 20 ל-40

לאחר מכן, המלצות אלו עודכנו וכללו:

MinP: 0
Presence Penalty: בין 0 ל-2

בשל באג לכאורה בטיפול של Llama.cpp בפרמטרי דגימה (Llama.cpp משמש להפעלת הסקה על מודלים), היה צורך גם להשבית את עונש החזרה על ידי הגדרתו ל-1.

כפי שהוזכר קודם לכן, טיפול בבעיות תצורה אלו הביא לשיפור משמעותי, יותר מחצי ממספר אסימוני ה’חשיבה’ הנדרשים כדי להגיע לתשובה. עם זאת, נראה שבאג זה ספציפי לגרסאות מכומתות GGUF של המודל בעת הפעלה במנוע ההסקה Llama.cpp, המשמש יישומים פופולריים כמו Ollama ו-LM Studio.

עבור משתמשים שמתכננים להשתמש ב-Llama.cpp, מומלץ מאוד לעיין במדריך של Unsloth לתיקון סדר הדגימה.

תחילת העבודה עם QwQ: מדריך מעשי

למי שמעוניין להתנסות ב-QwQ, ההגדרה שלו ב-Ollama היא פשוטה יחסית. עם זאת, חשוב לציין שזה אכן דורש GPU עם כמות משמעותית של vRAM. המודל הופעל בהצלחה על 3090 Ti של 24GB עם חלון הקשר גדול מספיק לשימוש מעשי.

בעוד שניתן להפעיל את המודל על CPU וזיכרון מערכת, סביר להניח שזה יגרום לזמני תגובה איטיים במיוחד אלא אם כן משתמשים בתחנת עבודה או שרת מתקדמים.

דרישות מוקדמות:

מכונה המסוגלת להפעיל LLMs בגודל בינוני בכימות של 4 סיביות. מומלץ GPU תואם עם לפחות 24GB של vRAM. רשימה של כרטיסים נתמכים ניתן למצוא כאן.
עבור מחשבי Mac של Apple Silicon, מומלץ מינימום של 32GB זיכרון.

מדריך זה מניח היכרות בסיסית עם ממשק שורת הפקודה של עולם לינוקס ו-Ollama.

התקנת Ollama

Ollama הוא מפעיל מודלים פופולרי שמפשט את תהליך ההורדה וההגשה של LLMs על חומרה צרכנית. עבור משתמשי Windows או macOS, הורד והתקן אותו כמו כל יישום אחר מ-ollama.com.

עבור משתמשי לינוקס, Ollama מספקת שורה אחת נוחה להתקנה:

עודכן ב- 2025-03-18

# AIGC # Qwen # Alibaba