ביצועי DeepSeek-R1 בחבילת 32B? צלילה ל-QwQ של עליבאבא

כמה למידת חיזוק, המוגברת על ידי אימות נוסף, יכולה להעלות את היכולות של מודלי שפה גדולים (LLMs)? צוות Qwen של עליבאבא נמצא במסע לגלות זאת עם היצירה האחרונה שלהם, QwQ.

QwQ, מודל ‘היגיון’, מתגאה ב-32 מיליארד פרמטרים קומפקטיים יחסית. עם זאת, עליבאבא טוענת שהוא עולה על DeepSeek R1, עם 671 מיליארד הפרמטרים המאסיביים שלו, במדדים ספציפיים הקשורים למתמטיקה, קידוד וקריאה לפונקציות.

צוות Qwen, בדומה לגישה שננקטה עם R1, השתמש בלמידת חיזוק כדי לחדד את חשיבת שרשרת המחשבות של QwQ. שיטה זו משפרת את ניתוח הבעיות ואת יכולות הפירוק. למידת חיזוק מחזקת באופן מסורתי את ההיגיון הצעדי על ידי תגמול מודלים על תשובות נכונות, ובכך מטפחת תגובות מדויקות יותר. עם זאת, QwQ עושה צעד נוסף קדימה על ידי שילוב מאמת דיוק ושרת ביצוע קוד. זה מבטיח שתגמולים יוענקו אך ורק עבור פתרונות מתמטיים מדויקים וקוד פונקציונלי.

צוות Qwen טוען שגישה זו מביאה למודל שביצועיו עולים על גודלו, ומשיג ביצועים דומים, ולפעמים אף עולים, על מודלים גדולים בהרבה.

עם זאת, מדדי AI יכולים להיות מטעים. אז, בואו נבחן כיצד טענות אלו מתורגמות לתרחישים בעולם האמיתי ולאחר מכן נדריך אתכם כיצד להפעיל את QwQ באופן עצמאי.

הערכת ביצועים

העמדנו את QwQ בסדרה של הנחיות בדיקה, הכוללות ידע כללי, חשיבה מרחבית, פתרון בעיות, מתמטיקה ושאלות אחרות הידועות כמאתגרות אפילו את ה-LLMs המתקדמים ביותר.

בשל דרישות הזיכרון המשמעותיות של המודל המלא, ערכנו את הבדיקות שלנו בשתי תצורות כדי לתת מענה למשתמשים עם קיבולות RAM שונות. בתחילה, הערכנו את המודל המלא באמצעות הדגמת QwQ ב-Hugging Face. לאחר מכן, בדקנו גרסה מכומתת של 4 סיביות על GPU של 24 GB (Nvidia 3090 או AMD Radeon RX 7900XTX) כדי לאמוד את ההשפעה של כימות על הדיוק.

עבור רוב שאלות הידע הכללי, QwQ הציג ביצועים דומים ל-R1 של DeepSeek בעל 671 מיליארד הפרמטרים ולמודלים אחרים של חשיבה כמו o3-mini של OpenAI, ועצר לרגע כדי לגבש את מחשבותיו לפני מתן התשובה.

החוזקות של המודל, אולי באופן לא מפתיע, מתגלות כאשר מתמודדים עם אתגרים מורכבים יותר של היגיון, קידוד או מתמטיקה. בואו נתעמק בתחומים אלה לפני שנתייחס לכמה מהמגבלות שלו.

יכולת חשיבה מרחבית

התחלנו עם מבחן חשיבה מרחבית חדש יחסית שהומצא על ידי Homebrew Research כחלק מפרויקט AlphaMaze שלהם.

המבחן מציג למודל מבוך בפורמט טקסט, כפי שמוצג להלן. המשימה של המודל היא לנווט מהמקור ‘O’ אל היעד ‘T’.