QwQ-32B של עליבאבא: גילוי למידת חיזוק

הכוח של Reinforcement Learning

גישות מסורתיות לפיתוח מודלים של AI הסתמכו במידה רבה על אימון מוקדם ושיטות שלאחר האימון. עם זאת, צוות Qwen התקדם מעבר לטכניקות המקובלות הללו על ידי שילוב יכולות סוכן ישירות במודל ההיגיון. שילוב זה מאפשר ל-QwQ-32B לעסוק בחשיבה ביקורתית, להשתמש בכלים חיצוניים ולהתאים באופן דינמי את תהליך ההיגיון שלו בהתבסס על משוב מהסביבה שלו. זה מייצג צעד משמעותי קדימה ביצירת מערכות AI גמישות וחכמות יותר.

צוות Qwen מדגיש כי הרחבת RL טומנת בחובה פוטנציאל לפתוח שיפורי ביצועים העולים על היכולות של שיטות מסורתיות. מחקרים אחרונים כבר הוכיחו את יכולתו של RL לשפר משמעותית את יכולות ההיגיון של מודלים של AI, ו-QwQ-32B משמש כדוגמה משכנעת לפוטנציאל זה בפעולה.

גישור על הפער בין גודל לביצועים

אחד ההיבטים הבולטים ביותר של QwQ-32B הוא הביצועים שלו ביחס לגודלו. DeepSeek-R1, מודל ש-QwQ-32B מתחרה בו, מתהדר ב-671 מיליארד פרמטרים מדהימים (עם 37 מיליארד מופעלים). QwQ-32B, עם 32 מיליארד פרמטרים צנועים יחסית, משיג ביצועים דומים, תוך הדגשת רווחי היעילות המדהימים שהושגו באמצעות יישום אסטרטגי של RL. הישג זה מאתגר את ההנחה הוותיקה שגודל המודל הוא הגורם העיקרי לביצועים, ומצביע על כך שטכניקות אימון מתוחכמות יכולות לגשר על הפער בין גודל ליכולת.

מדדי ביצועים מצוינים

כדי להעריך בקפדנות את היכולות של QwQ-32B, צוות Qwen הכניס את המודל לחבילה מקיפה של מדדי ביצועים. מדדי ביצועים אלה, כולל AIME24, LiveCodeBench, LiveBench, IFEval ו-BFCL, תוכננו במיוחד כדי להעריך היבטים שונים של ביצועי AI, כולל היגיון מתמטי, מיומנות קידוד ויכולות פתרון בעיות כלליות. תוצאות ההערכות הללו מציירות תמונה משכנעת של החוזקות של QwQ-32B.

הנה מבט מקרוב על הביצועים של QwQ-32B בכל מדד ביצועים:

  • AIME24: מדד ביצועים זה מתמקד בהיגיון מתמטי. QwQ-32B השיג ציון של 79.5, מעט מאחורי הציון של DeepSeek-R1-671B של 79.8. יש לציין ששני המודלים עלו משמעותית על OpenAl-o1-mini, שקלע 63.6, כמו גם על המודלים המזוקקים.

  • LiveCodeBench: מדד ביצועים זה מעריך מיומנות קידוד. QwQ-32B קלע 63.4, ושיקף מקרוב את הציון של DeepSeek-R1-671B של 65.9. שוב, שני המודלים עלו על הביצועים של המודלים המזוקקים ו-OpenAl-o1-mini (53.8).

  • LiveBench: LiveBench, שנועד להעריך יכולות פתרון בעיות כלליות, ראה את QwQ-32B משיג ציון של 73.1, ועולה על הציון של DeepSeek-R1-671B של 71.6. תוצאה זו מחזקת עוד יותר את מעמדו של QwQ-32B כמתמודד חזק במשימות AI כלליות.

  • IFEval: מדד ביצועים זה מתמקד במעקב אחר הוראות והתאמה להעדפות אנושיות. QwQ-32B קלע 83.9 מרשים, כמעט זהה לציון של DeepSeek-R1-671B של 83.3. שני המודלים עלו משמעותית על OpenAl-o1-mini (59.1) ועל המודלים המזוקקים.

  • BFCL: מדד ביצועים זה בודק את יכולתו של מודל להתמודד עם תרחישים מורכבים בעולם האמיתי. QwQ-32B השיג ציון של 66.4, ועולה על הציון של DeepSeek-R1-671B של 62.8. תוצאה זו מדגימה את הפוטנציאל של QwQ-32B ליישומים מעשיים מעבר למדדי ביצועים אקדמיים בלבד.

תוצאות אלו מדגימות בעקביות את יכולתו של QwQ-32B להתחרות, ובמקרים מסוימים לעלות, על מודלים גדולים בהרבה. זה מדגיש את האפקטיביות של הגישה של צוות Qwen ואת הפוטנציאל הטרנספורמטיבי של RL בפיתוח AI.

הגישה החדשנית של צוות Qwen

ההצלחה של QwQ-32B יכולה להיות מיוחסת לתהליך ה-RL הרב-שלבי החדשני של צוות Qwen. תהליך זה מתחיל בנקודת ביקורת “התחלה קרה”, כלומר המודל מתחיל עם בסיס מאומן מראש, אך לאחר מכן הוא משתכלל משמעותית באמצעות RL. תהליך האימון מונע על ידי תגמולים מבוססי תוצאות, ומתמרץ את המודל לשפר את ביצועיו במשימות ספציפיות.

השלב הראשוני של האימון מתמקד בהרחבת RL למשימות מתמטיקה וקידוד. זה כרוך בשימוש במאמתי דיוק ובשרתי ביצוע קוד כדי לספק משוב ולהנחות את הלמידה של המודל. המודל לומד ליצור פתרונות מתמטיים נכונים ולכתוב קוד פונקציונלי על ידי קבלת תגמולים עבור תוצאות מוצלחות.

השלב השני מרחיב את היקף אימוני ה-RL כדי לכלול יכולות כלליות. שלב זה משלב תגמולים ממודלים כלליים של תגמול ומאמתים מבוססי כללים, ומרחיב את ההבנה של המודל לגבי משימות והוראות שונות. שלב זה הוא קריטי לפיתוח מודל AI מעוגל היטב שיכול להתמודד עם מגוון רחב של אתגרים.

צוות Qwen גילה ששלב שני זה של אימון RL, אפילו עם מספר קטן יחסית של צעדים, יכול לשפר משמעותית את ביצועי המודל על פני יכולות כלליות שונות. אלה כוללים מעקב אחר הוראות, התאמה להעדפות אנושיות וביצועי סוכן כלליים. חשוב לציין, שיפור זה ביכולות הכלליות אינו בא על חשבון הביצועים במתמטיקה ובקידוד, מה שמדגים את האפקטיביות של הגישה הרב-שלבית.

משקל פתוח ונגיש

במהלך שמקדם שיתוף פעולה ומחקר נוסף, צוות Qwen הפך את QwQ-32B למשקל פתוח. משמעות הדבר היא שהפרמטרים של המודל זמינים לציבור, ומאפשרים לחוקרים ולמפתחים לגשת, ללמוד ולבנות על עבודתו של צוות Qwen. המודל זמין ב-Hugging Face וב-ModelScope תחת רישיון Apache 2.0, רישיון מתירני המעודד שימוש ושינוי נרחבים. בנוסף, QwQ-32B נגיש דרך Qwen Chat, המספק ממשק ידידותי למשתמש לאינטראקציה עם המודל.

צעד לקראת AGI

הפיתוח של QwQ-32B מייצג צעד משמעותי קדימה במרדף אחר בינה מלאכותית כללית (AGI). צוות Qwen רואה במודל זה חקירה ראשונית של הרחבת RL כדי לשפר את יכולות ההיגיון, והם מתכננים להמשיך ולחקור את השילוב של סוכנים עם RL להיגיון ארוך טווח. זה כרוך בפיתוח מערכות AI שיכולות לתכנן ולבצע משימות מורכבות על פני תקופות ממושכות, יכולת מכרעת להשגת AGI.

הצוות בטוח ששילוב מודלים בסיסיים חזקים יותר עם RL, המופעל על ידי משאבי מחשוב מורחבים, יהיה גורם מפתח בפיתוח AGI. QwQ-32B משמש כהדגמה רבת עוצמה לפוטנציאל זה, ומציג את רווחי הביצועים המדהימים שניתן להשיג באמצעות יישום RL אסטרטגי. מאמצי המחקר והפיתוח המתמשכים של צוות Qwen, יחד עם אופי הקוד הפתוח של QwQ-32B, מבטיחים להאיץ את ההתקדמות בתחום ה-AI ולקרב אותנו למימוש של מכונות אינטליגנטיות באמת. ההתמקדות היא כבר לא רק בבניית מודלים גדולים יותר, אלא ביצירת מערכות אינטליגנטיות וגמישות יותר באמצעות טכניקות אימון חדשניות.