עליבאבא חושפת את Qwen-32B

Alibaba Unveils Qwen-32B: A Compact Powerhouse Challenging Larger Models

בהכרזה לילית מפתיעה, עליבאבא שחררה לקוד פתוח את מודל ההסקה העדכני ביותר שלה, Qwen-32B (QwQ-32B). עם 32 מיליארד פרמטרים, מודל זה מדגים ביצועים ברמה של DeepSeek-R1 המלא והגדול משמעותית, בעל 67.1 מיליארד פרמטרים.

הצוות של Qwen הדגיש בהכרזתו את המחקר שלהם בטכניקות למידת חיזוק (RL) הניתנות להרחבה. הם הצהירו, “אנו חוקרים שיטות להרחבת RL, והשגנו כמה תוצאות מרשימות המבוססות על Qwen2.5-32B שלנו. מצאנו שאימון RL יכול לשפר ביצועים באופן רציף, במיוחד במשימות מתמטיות וקידוד. צפינו שהמשך ההרחבה של RL יכול לעזור למודלים בגודל בינוני להשיג ביצועים הדומים למודלי MoE ענקיים. אנו מזמינים את כולם לשוחח עם המודל החדש שלנו ולספק לנו משוב!”

QwQ-32B זמין כעת ב-Hugging Face וב-ModelScope תחת רישיון הקוד הפתוח Apache 2.0. משתמשים יכולים גם ליצור אינטראקציה ישירה עם המודל דרך Qwen Chat. כלי הפריסה המקומי הפופולרי, Ollama, כבר שילב תמיכה, הנגישה באמצעות הפקודה: ollama run qwq.

במקביל לשחרור, צוות Qwen פרסם פוסט בבלוג שכותרתו “QwQ-32B: Harnessing the Power of Reinforcement Learning,” המפרט את ההתקדמות פורצת הדרך.

הפוסט בבלוג מדגיש את הפוטנציאל העצום של למידת חיזוק (RL) בקנה מידה גדול כדי להתעלות על שיטות קדם-אימון ואחרי-אימון מסורתיות בשיפור ביצועי המודל. מחקרים אחרונים, כגון השילוב של DeepSeek-R1 של נתוני התחלה קרה ואימון רב-שלבי, מציגים את היכולת של RL להגביר משמעותית את יכולות ההסקה, ולאפשר חשיבה מעמיקה יותר ופתרון בעיות מורכבות.

המחקר של צוות Qwen התמקד במינוף RL בקנה מידה גדול כדי להעלות את האינטליגנציה של מודלי שפה גדולים, שהגיע לשיאו ביצירת QwQ-32B. מודל זה, בעל 32 מיליארד פרמטרים, מתחרה באופן מדהים בביצועים של DeepSeek-R1 בעל 67.1 מיליארד פרמטרים (עם 37 מיליארד מופעלים). הצוות הדגיש, “הישג זה מדגיש את האפקטיביות של יישום למידת חיזוק על מודלי בסיס חזקים ומאומנים מראש.”

QwQ-32B משלב גם יכולות הקשורות לסוכנים, המאפשרות לו להעריך באופן ביקורתי את פעולותיו תוך שימוש בכלים ולהתאים את תהליך ההסקה שלו בהתבסס על משוב סביבתי. “אנו מקווים שהמאמצים שלנו יראו ששילוב מודלי בסיס חזקים עם למידת חיזוק בקנה מידה גדול עשוי להיות נתיב בר-קיימא לקראת Artificial General Intelligence (AGI),” הצהיר הצוות.

Model Performance: Benchmarking QwQ-32B

QwQ-32B עבר הערכה קפדנית במגוון מבחני ביצועים, המקיפים הסקה מתמטית, תכנות ויכולות כלליות. התוצאות מציגות את הביצועים של QwQ-32B בהשוואה למודלים מובילים אחרים, כולל DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini, וה-DeepSeek-R1 המקורי.

הממצאים בולטים. QwQ-32B מדגים ביצועים יוצאי דופן, אפילו עולה מעט על DeepSeek-R1-67B במבחני הביצועים LiveBench, IFEval ו-BFCL. זה מדגיש את היעילות והעוצמה של גישת למידת החיזוק שאומצה על ידי צוות Qwen.

Deep Dive into Reinforcement Learning

הפיתוח של QwQ-32B מינף למידת חיזוק בקנה מידה גדול שנבנתה על בסיס התחלה קרה. השלב הראשוני התרכז במיוחד באימון RL למשימות מתמטיות ותכנות. בניגוד לגישות מסורתיות המסתמכות על מודלי תגמול, צוות Qwen סיפק משוב לבעיות מתמטיות על ידי אימות נכונות התשובות שנוצרו. עבור משימות קידוד, המשוב נגזר משרת ביצוע קוד, שהעריך אם הקוד שנוצר עבר בהצלחה מקרי מבחן.

ככל שהאימון התקדם דרך איטרציות מרובות, QwQ-32B הציג שיפורי ביצועים עקביים בשני התחומים. תהליך זיקוק איטרטיבי זה, המונחה על ידי משוב ישיר על דיוק הפתרון, הוכח כיעיל ביותר.

לאחר שלב ה-RL הראשוני שהתמקד במתמטיקה ותכנות, הוצג שלב RL נוסף כדי לשפר את היכולות הכלליות. שלב זה השתמש במודלי תגמול כלליים ובמאמתים מבוססי כללים לאימון. התוצאות הצביעו על כך שאפילו מספר קטן של צעדים ב-RL כללי יכול להגביר את היכולות הכוללות מבלי להשפיע באופן משמעותי על הביצועים במשימות המתמטיות והתכנות שאומנו בעבר. זה מדגים את יכולת ההסתגלות והחוסן של המודל.

Future Directions: Expanding the Horizons of AI

צוות Qwen שיתף גם את תוכניותיהם העתידיות, והצהיר, “זהו הצעד הראשון של Qwen במינוף למידת חיזוק (RL) בקנה מידה גדול כדי לשפר את יכולות ההסקה. דרך המסע הזה, לא רק היינו עדים לפוטנציאל העצום של הרחבת RL, אלא גם זיהינו את האפשרויות הלא מנוצלות בתוך מודלי שפה מאומנים מראש. בעודנו פועלים לפיתוח הדור הבא של Qwen, אנו מאמינים ששילוב מודלי בסיס חזקים עוד יותר עם RL, המופעל על ידי משאבי מחשוב מורחבים, יקרב אותנו להשגת Artificial General Intelligence (AGI). יתר על כן, אנו בוחנים באופן פעיל את השילוב של סוכנים עם RL כדי לאפשר הסקה לטווח ארוך, במטרה לפתוח אינטליגנציה גדולה עוד יותר באמצעות זמן הסקה ממושך.” מחויבות זו לשיפור מתמיד ולחקירה מדגישה את מסירות הצוות לפרוץ את גבולות הבינה המלאכותית.

Community Reception: QwQ-32B Garners Widespread Acclaim

שחרורו של QwQ-32B התקבל בהתלהבות רבה ובמשוב חיובי. קהילת הבינה המלאכותית, כולל משתמשים רבים של Qwen, ציפתה בקוצר רוח לחשיפת המודל החדש הזה.

ההתרגשות האחרונה סביב DeepSeek הדגישה את העדפת הקהילה למודל המלא בשל המגבלות של הגרסה המזוקקת. עם זאת, המודל המלא בעל 67.1 מיליארד פרמטרים הציב אתגרי פריסה, במיוחד עבור התקני קצה עם משאבים מוגבלים. Qwen-32B, עם גודלו המופחת משמעותית, נותן מענה לחשש זה, ופותח אפשרויות לפריסה רחבה יותר.

משתמש אחד הגיב, “זה כנראה עדיין לא אפשרי בטלפונים ניידים, אבל מחשבי Mac עם זיכרון RAM גדול עשויים להיות מסוגלים להתמודד עם זה.” סנטימנט זה משקף את האופטימיות סביב הפוטנציאל להפעלת QwQ-32B במכשירים מוגבלי משאבים.

משתמש אחר פנה ישירות ל-Binyuan Hui, מדען במעבדת Tongyi של עליבאבא, ודחק בפיתוח מודלים קטנים עוד יותר. זה מדגיש את הביקוש למודלים של בינה מלאכותית קומפקטיים ויעילים יותר ויותר.

משתמשים שיתפו גם את חוויותיהם, ושיבחו את המהירות וההיענות של המודל. משתמש אחד הציג הדגמה, המדגישה את יכולות העיבוד המהירות של QwQ-32B.

Awni Hannun, חוקר למידת מכונה באפל, אישר ביצוע מוצלח של QwQ-32B ב-M4 Max, וציין את המהירות המרשימה שלו. אימות זה מחוקר בולט מחזק עוד יותר את טענות הביצועים של המודל.

צוות Qwen הפך גם גרסת תצוגה מקדימה של QwQ-32B לזמינה בממשק הצ’אט הרשמי שלהם, Qwen Chat, ומעודד משתמשים לבדוק ולספק משוב. גישה אינטראקטיבית זו מטפחת מעורבות קהילתית ומאפשרת הערכה בעולם האמיתי של יכולות המודל.

האימוץ המהיר של QwQ-32B על ידי הקהילה ושילובו בכלים פופולריים כמו Ollama מדגימים את המשמעות וההשפעה של המודל. השילוב של ביצועים חזקים, גודל מודל קטן יותר והשימוש החדשני בלמידת חיזוק מיקמו את QwQ-32B כהתקדמות משמעותית בתחום מודלי השפה הגדולים. אופי הקוד הפתוח של המודל מעודד עוד יותר שיתוף פעולה וחדשנות בתוך קהילת הבינה המלאכותית, וסולל את הדרך לפריצות דרך עתידיות. ההתמקדות בפריסה מעשית וביישומים בעולם האמיתי מדגישה את הפוטנציאל של QwQ-32B להשפיע באופן משמעותי מעבר למסגרות מחקר, ולהביא יכולות AI מתקדמות למגוון רחב יותר של משתמשים ומכשירים. מאמצי המחקר והפיתוח המתמשכים של צוות Qwen מבטיחים התקדמות מרגשת עוד יותר במרדף אחר AGI.