Qwen3: موج نو برنامه‌های هوش مصنوعی

Qwen3، مدل جدیدی از شرکت علی‌بابا، با انتشار متن‌باز خود، توجهات بسیاری را به خود جلب کرده است. این مدل، با اندازه پارامتر کوچکتر، هزینه‌های کمتر و عملکرد بالاتر نسبت به سایر مدل‌های پیشرو، خود را به عنوان یک رقیب قدرتمند در عرصه هوش مصنوعی جهانی معرفی کرده است.

توانمندسازی Agentهای هوش مصنوعی و برنامه‌ها

یکی از نکات برجسته Qwen3، پتانسیل آن در تسریع توسعه و استقرار Agentهای هوش مصنوعی و برنامه‌های مدل زبان بزرگ است. در ارزیابی‌های قابلیت‌های Agent مدل، Qwen3 امتیازهای قابل توجهی کسب کرده و از سایر مدل‌های برتر پیشی گرفته است. این نشان می‌دهد که Qwen3 می‌تواند مانع ورود به توسعه و استقرار Agentهای هوش مصنوعی را کاهش دهد و به طور بالقوه منجر به افزایش برنامه‌های نوآورانه شود.

تقاضای رو به رشد برای قابلیت‌های Tool-Calling در Agentهای هوش مصنوعی

Agentهای هوش مصنوعی به طور فزاینده‌ای برای خودکارسازی کارهای پیچیده و تعامل با دنیای واقعی مورد استفاده قرار می‌گیرند. قابلیت‌های مورد نیاز یک Agent هوش مصنوعی بستگی به پیچیدگی و خودمختاری کارهایی دارد که برای انجام آن‌ها طراحی شده است.

یک سیستم Agent هوش مصنوعی قوی معمولاً به قابلیت‌های زیر از مدل زیربنایی نیاز دارد:

  • درک و تولید زبان پایه: توانایی تفسیر دقیق دستورالعمل‌ها، درک زمینه و تولید پاسخ‌های زبان طبیعی.

  • استفاده و فراخوانی ابزار (Tool Use and Calling): توانایی درک و استفاده از ابزارهای خارجی، از جمله APIها، برای انجام وظایف خاص.

  • استدلال و برنامه‌ریزی: توانایی تقسیم اهداف پیچیده به وظایف فرعی کوچکتر و اجرای آن‌ها به ترتیب منطقی.

Qwen3 نیاز حیاتی به بهبود قابلیت‌های tool-calling در Agentهای هوش مصنوعی را برطرف می‌کند. این مدل می‌تواند ابزارهای خارجی را با دقت یکپارچه کند، هم در حالت‌های تفکر و هم در حالت‌های غیر تفکر، و آن را به یک مدل متن‌باز پیشرو برای وظایف پیچیده مبتنی بر Agent تبدیل می‌کند.

در ارزیابی‌های قابلیت‌های Agent مدل، Qwen3 نمره بالایی کسب کرده و از سایر مدل‌های برتر پیشی گرفته است. این نشان‌دهنده کاهش قابل توجه در موانع ورود برای توسعه و استقرار Agentهای هوش مصنوعی است.

Qwen3 به طور ذاتی از پروتکل MCP پشتیبانی می‌کند و دارای قابلیت‌های tool-calling قوی است. همراه با چارچوب Qwen-Agent، که قالب‌ها و تجزیه‌کننده‌های tool-calling را در بر می‌گیرد، فرآیند توسعه را ساده می‌کند و عملیات Agent کارآمد را در دستگاه‌های تلفن همراه و رایانه امکان‌پذیر می‌کند. توسعه‌دهندگان می‌توانند ابزارهای موجود را بر اساس فایل‌های پیکربندی MCP تعریف کرده و آن‌ها را با استفاده از چارچوب Qwen-Agent یا سایر ابزارهای سفارشی یکپارچه کنند. این امکان توسعه سریع Agentهای هوشمند با پایگاه‌های دانش و قابلیت‌های استفاده از ابزار را فراهم می‌کند.

علاوه بر این، Qwen3 عملکرد قوی در درک و تولید زبان پایه و همچنین توانایی‌های استدلال نشان می‌دهد.

این بدان معناست که با قابلیت‌های مدل معادل، هزینه فراخوانی مدل‌ها برای Agentها و صنایع کاربرد هوش مصنوعی کمتر است و فراخوانی راحت‌تر است، که ناگزیر باعث ظهور Agentها و برنامه‌های هوش مصنوعی جدیدتر خواهد شد.

تعهد به متن‌باز بودن

علی‌بابا با ارائه طیف متنوعی از مدل‌های Qwen3، تعهد خود را به جامعه متن‌باز مجدداً تأیید کرده است. این شامل دو مدل Mixture-of-Experts (MoE) با 30 میلیارد و 235 میلیارد پارامتر و همچنین شش مدل متراکم با اندازه‌های مختلف است.

مدل MoE با 30 میلیارد پارامتر، افزایش عملکرد قابل توجهی را به دست می‌آورد و عملکردی مشابه مدل Qwen2.5-32B نسل قبلی ارائه می‌دهد. مدل‌های متراکم نیز عملکرد بهبود یافته‌ای را نشان می‌دهند و حتی مدل‌های کوچکتر نیز به نتایج چشمگیری دست می‌یابند.

از آنجایی که تمام مدل‌های Qwen3 مدل‌های استدلال ترکیبی هستند، APIها می‌توانند در صورت لزوم تنظیم شوند تا ‘بودجه‌های فکری’ (یعنی حداکثر تعداد توکن‌های مورد انتظار برای تفکر عمیق) را برای انجام درجات مختلف تفکر تنظیم کنند و به طور انعطاف‌پذیر نیازهای متنوع برنامه‌های هوش مصنوعی و سناریوهای مختلف را برای عملکرد و هزینه برآورده کنند. شرکت‌های کوچک و متوسط و توسعه‌دهندگان هوش مصنوعی می‌توانند به طور انعطاف‌پذیر مدل‌ها را مطابق با نیازهای خود انتخاب کنند، که ناگزیر آستانه و هزینه استفاده از مدل‌های بزرگ را کاهش می‌دهد. این تیم‌ها با بودجه و پرسنل بسیار محدود می‌توانند منابع و انرژی بیشتری را به بازار و کشف نیازها و نقاط درد کاربر اختصاص دهند تا بتوانند برنامه‌های نوآورانه‌تری توسعه دهند.

زیربنای فناوری علی‌بابا

پس از 16 سال توسعه، علی‌بابا به طور جامع یک سیستم معماری فناوری کامل از سخت‌افزار زیربنایی تا محاسبات، ذخیره‌سازی، شبکه، پردازش داده‌ها، آموزش مدل و پلتفرم‌های استدلال را بازسازی کرده است و آن را به پلتفرم محاسبات ابری پیشرو در منطقه آسیا و اقیانوسیه تبدیل کرده است. علی‌بابا همچنین یکی از اولین شرکت‌های فناوری در جهان است که در تحقیقات مدل بزرگ سرمایه‌گذاری کرده است.

پیش از این، ژو جینگ‌رن در مصاحبه‌ای با رسانه‌ها اظهار داشت که توسعه مدل‌های بزرگ از پشتیبانی سیستم ابری جدایی‌ناپذیر است. چه آموزش و چه استدلال، هر پیشرفتی در مدل‌های بزرگ، در ظاهر، تکامل قابلیت‌های مدل است، اما در پشت آن همکاری و ارتقاء جامع کل محاسبات ابری و پلتفرم داده و مهندسی است. چندوجهی بودن نیز یک راه مهم برای AGI است.

به رسمیت شناختن بین‌المللی

انتشار Qwen3 در مقیاس جهانی مورد توجه قرار گرفته است. پس از انتشار Qwen 3 علی‌بابا، ایلان ماسک در پلتفرم رسانه اجتماعی X اظهار داشت که نسخه اولیه بتا Grok 3.5 هفته آینده برای مشترکین SuperGrok منتشر خواهد شد و ادعا کرد که این اولین هوش مصنوعی است که می‌تواند به طور دقیق به سؤالات مربوط به موتورهای موشکی یا فناوری الکتروشیمیایی پاسخ دهد.

پیشبرد نوآوری و دسترسی‌پذیری

سان مائوسونگ، معاون اجرایی مؤسسه هوش مصنوعی در دانشگاه تسینگ‌هوا و یک آکادمیسین خارجی آکادمی علوم و علوم انسانی اروپا، اظهار داشت که در سال‌های اخیر، چین مشارکت‌های قوی در توسعه هوش مصنوعی، به ویژه در زمینه مدل‌های بزرگ، داشته است. ظهور DeepSeek و مجموعه محصولات متن‌باز از Tongyi Qianwen به شدت مسیر متن‌باز مدل‌های بزرگ داخلی را ترویج کرده است، که بدون شک از اهمیت زیادی برای کاهش انحصارات فناوری، ترویج برابری فناوری و افزایش فراگیری هوش مصنوعی برخوردار است.

در حال حاضر، تعداد مدل‌های مشتق شده از Qwen در جوامع متن‌باز در داخل و خارج از کشور از 100000 فراتر رفته است و از سری مدل‌های Llama پیشی گرفته است و Tongyi Qianwen Qwen به عنوان بزرگترین گروه مدل زبان تولیدی در جهان رتبه بندی شده است. بر اساس آخرین لیست مدل‌های بزرگ متن‌باز جهانی Huggingface در 10 فوریه 2025، ده مدل بزرگ متن‌باز برتر، همگی مدل‌های مشتق شده بر اساس مدل‌های متن‌باز Tongyi Qianwen Qwen هستند.

سان مائوسونگ معتقد است که این بدان معناست که فرهنگ مدل بزرگ چین در سطح بین‌المللی به رسمیت شناخته شده است، که یک تغییر فرهنگی است. این بسیار ارزشمند است و نشان‌دهنده به رسمیت شناختن توسعه و فناوری مدل‌های بزرگ چین است.