مدل Qwen علی‌بابا، جاه‌طلبی‌های هوش مصنوعی چین

اکوسیستم در حال گسترش هوش مصنوعی چین

اسکات سینگر، محقق مدعو در برنامه فناوری و امور بین‌الملل در بنیاد کارنگی برای صلح بین‌المللی، می‌گوید: «این انتشار، رقابت گسترده‌تر اکوسیستم هوش مصنوعی پیشرو چین را برجسته می‌کند.» این اکوسیستم، چشم‌اندازی پر جنب و جوش است که توسط بازیگرانی مانند DeepSeek با مدل R1 و Tencent با مدل Hunyuan پر شده است. جک کلارک، یکی از بنیانگذاران Anthropic، مدل Hunyuan را در جنبه‌های خاصی “در سطح جهانی” دانسته است. با این حال، توجه به این نکته ضروری است که ارزیابی‌های مدل اخیر علی‌بابا هنوز در مراحل اولیه خود هستند. سینگر اشاره می‌کند که دشواری ذاتی در اندازه‌گیری قابلیت‌های مدل، همراه با این واقعیت که QwQ-32B تنها توسط علی‌بابا به صورت داخلی ارزیابی شده است، به این معنی است که “محیط اطلاعاتی در حال حاضر خیلی غنی نیست.”

عرضه مدل R1 دیپ‌سیک در ژانویه، موج‌هایی را در بازار سهام جهانی ایجاد کرده بود و اکوسیستم فناوری چین را در کانون توجه بین‌المللی قرار داد. این توجه با درک فزاینده در ایالات متحده از رقابت با چین برای دستیابی به هوش عمومی مصنوعی (AGI) بیشتر می‌شود. AGI نشان‌دهنده سطح فرضی پیچیدگی هوش مصنوعی است که در آن سیستم‌ها توانایی انجام طیف گسترده‌ای از وظایف شناختی، از طراحی گرافیک تا تحقیقات یادگیری ماشین، را در سطحی قابل مقایسه یا فراتر از توانایی‌های انسانی دارند.

پیامدهای استراتژیک AGI

به طور گسترده‌ای پیش‌بینی می‌شود که توسعه AGI یک مزیت نظامی و استراتژیک قابل توجهی را به هر نهادی - چه یک شرکت یا یک دولت - که ابتدا به آن دست یابد، اعطا کند. کاربردهای بالقوه چنین سیستمی گسترده و تحول‌آفرین هستند، از قابلیت‌های پیشرفته جنگ سایبری گرفته تا ایجاد سلاح‌های کشتار جمعی جدید.

تیم مسئول آخرین مدل علی‌بابا اعلام کرد: «ما مطمئن هستیم که ترکیب مدل‌های بنیادی قوی‌تر با یادگیری تقویتی که توسط منابع محاسباتی مقیاس‌بندی شده پشتیبانی می‌شود، ما را به دستیابی به AGI نزدیک‌تر می‌کند.» این پیگیری AGI یک موضوع مشترک است که در اکثر آزمایشگاه‌های پیشرو هوش مصنوعی جریان دارد. هدف اعلام شده DeepSeek “کشف رمز و راز AGI با کنجکاوی” است. به طور مشابه، ماموریت OpenAI این است که “اطمینان حاصل کند که هوش عمومی مصنوعی - سیستم‌های هوش مصنوعی که عموماً باهوش‌تر از انسان هستند - به نفع همه بشریت است.” مدیران عامل برجسته هوش مصنوعی ابراز امیدواری کرده‌اند که سیستم‌های شبیه AGI می‌توانند در دوره فعلی ریاست جمهوری ترامپ ظاهر شوند.

ظهور مجدد جک ما و چشم‌انداز فناوری چین

پیشرفت اخیر هوش مصنوعی علی‌بابا در پی حضور عمومی قابل توجه جک ما، بنیانگذار این شرکت، رخ می‌دهد. او به طور برجسته در ردیف جلو در جلسه ای بین رئیس جمهور شی جین پینگ و چهره های برجسته تجاری چین نشسته بود. این یک تغییر قابل توجه برای ما بود، که از سال 2020 عمدتاً از دید عموم کناره گیری کرده بود. انتقادات قبلی او از تنظیم کننده های دولتی و بانک های دولتی به دلیل مانع تراشی در نوآوری و عملکرد با “ذهنیت گروبرداری” ظاهراً منجر به دوره ای از کاهش دید شده بود.

در طول غیبت ما از کانون توجه، دولت چین مجموعه ای از اقدامات را با هدف صنعت فناوری اجرا کرد. مقررات سختگیرانه تری در مورد نحوه استفاده شرکت ها از داده ها و مشارکت در رقابت بازار اعمال شد. همزمان، دولت کنترل بیشتری بر پلتفرم های دیجیتال کلیدی اعمال کرد.

تغییر اولویت‌ها: از سرکوب فناوری تا احیای اقتصادی

تا سال 2022، یک تغییر محسوس در تمرکز دولت پدیدار شد. به نظر می‌رسید تهدید درک شده توسط صنعت فناوری در مقایسه با چالش قریب‌الوقوع رکود اقتصادی کاهش یافته است. سینگر توضیح می‌دهد: «این داستان رکود اقتصادی، و تلاش برای معکوس کردن آن، واقعاً بخش عمده‌ای از سیاست را در 18 ماه گذشته شکل داده است.» چین اکنون فعالانه به دنبال پذیرش فناوری پیشرفته است. گزارش‌ها حاکی از آن است که حداقل 13 دولت شهری و 10 شرکت انرژی دولتی، مدل‌های DeepSeek را در سیستم‌های عملیاتی خود ادغام کرده‌اند.

روند افزایش کارایی هوش مصنوعی

مدل علی‌بابا نمونه‌ای از یک روند مداوم در زمینه هوش مصنوعی است: افزایش مداوم عملکرد سیستم همراه با کاهش هزینه‌های عملیاتی. Epoch AI، یک سازمان تحقیقاتی غیرانتفاعی، تخمین می‌زند که قدرت محاسباتی مورد نیاز برای آموزش سیستم‌های هوش مصنوعی سالانه بیش از 4 برابر افزایش یافته است. با این حال، پیشرفت‌های همزمان در طراحی الگوریتم منجر به افزایش سه برابری کارایی آن توان محاسباتی در هر سال شده است. در عمل، این بدان معناست که یک سیستم هوش مصنوعی که ممکن است سال گذشته به 10000 تراشه کامپیوتری پیشرفته برای آموزش نیاز داشته باشد، امسال تنها با یک سوم آن تعداد قابل آموزش است.

نقش حیاتی تراشه‌های محاسباتی پیشرفته

با وجود این دستاوردهای چشمگیر در بهره‌وری، سینگر هشدار می‌دهد که تراشه‌های محاسباتی پیشرفته برای توسعه هوش مصنوعی پیشرفته ضروری هستند. این واقعیت، چالش مداوم ناشی از کنترل‌های صادراتی ایالات متحده بر روی این تراشه‌ها را برای شرکت‌های هوش مصنوعی چینی مانند علی‌بابا و DeepSeek برجسته می‌کند. مدیر عامل DeepSeek به طور خاص دسترسی به تراشه‌ها را، به جای منابع مالی یا استعداد، به عنوان گلوگاه اصلی خود شناسایی کرده است.

یک پارادایم جدید: “مدل‌های استدلال”

QwQ جدیدترین افزوده به نسل رو به رشدی از سیستم‌های هوش مصنوعی است که به عنوان “مدل‌های استدلال” طبقه‌بندی می‌شوند. برخی از کارشناسان این را یک تغییر پارادایم در زمینه هوش مصنوعی می‌دانند. پیش از این، سیستم‌های هوش مصنوعی از طریق ترکیبی از افزایش توان محاسباتی مورد استفاده برای آموزش و افزایش کمیت و کیفیت داده‌های آموزشی بهبود می‌یافتند.

این پارادایم جدید بر رویکرد متفاوتی تأکید دارد. این شامل گرفتن مدلی است که قبلاً آموزش اولیه را پشت سر گذاشته است - در این مورد، Qwen 2.5-32B - و سپس افزایش قابل توجه منابع محاسباتی اختصاص داده شده به سیستم هنگام پاسخ به یک پرس و جوی خاص. همانطور که تیم Qwen به زیبایی بیان می‌کند، “وقتی به مدل زمان داده می‌شود تا تأمل کند، سؤال کند و بازتاب دهد، درک مدل از ریاضیات و برنامه‌نویسی مانند گلی که به سمت خورشید باز می‌شود، شکوفا می‌شود.” این مشاهده با روندهای مشاهده شده در مدل‌های غربی همسو است، جایی که تکنیک‌هایی که اجازه می‌دهند زمان “تفکر” طولانی‌تری داشته باشند، منجر به بهبود عملکرد قابل توجهی در وظایف تحلیلی پیچیده شده است.

انتشار وزن باز و پویایی بازار

QwQ علی‌بابا تحت مدل “وزن باز” منتشر شده است. این بدان معناست که وزن‌ها، که اساساً مدل را تشکیل می‌دهند و به عنوان یک فایل کامپیوتری قابل دسترسی هستند، می‌توانند دانلود و به صورت محلی، حتی روی یک لپ‌تاپ پیشرفته، اجرا شوند. جالب توجه است، پیش‌نمایش این مدل که در نوامبر سال گذشته منتشر شد، توجه کمتری را به خود جلب کرد. سینگر خاطرنشان می‌کند که “بازار سهام عموماً نسبت به انتشار مدل‌ها واکنش نشان می‌دهد و نه به مسیر فناوری”، که انتظار می‌رود به پیشرفت سریع خود در هر دو طرف اقیانوس آرام ادامه دهد. او همچنین تأکید می‌کند: “اکوسیستم چین دارای تعداد زیادی بازیگر است که همگی مدل‌هایی را ارائه می‌دهند که بسیار قدرتمند و قانع‌کننده هستند، و مشخص نیست که در نهایت چه کسی به عنوان صاحب بهترین مدل ظاهر خواهد شد.”

بررسی دقیق معماری QwQ-32B

مدل QwQ-32B، در حالی که بر پایه Qwen 2.5-32B ساخته شده است، چندین تغییر کلیدی در معماری و بهبودهای آموزشی را در خود جای داده است که به قابلیت‌های استدلال بهبود یافته آن کمک می‌کند. این پیشرفت‌ها را می‌توان به طور کلی به دسته‌های زیر تقسیم کرد:

  • گسترش پنجره زمینه: پنجره زمینه، که مقدار متنی را که مدل می‌تواند به طور همزمان در نظر بگیرد تعیین می‌کند، احتمالاً به طور قابل توجهی گسترش یافته است. این به QwQ-32B اجازه می‌دهد تا متن‌های طولانی‌تر و پیچیده‌تر را پردازش و درک کند، که منجر به درک بهتر و پاسخ‌های دقیق‌تر می‌شود.

  • مکانیزم‌های توجه پیشرفته: مکانیزم توجه، یک جزء اصلی مدل‌های مبتنی بر ترانسفورماتور مانند QwQ-32B، احتمالاً اصلاح شده است. این می‌تواند شامل تکنیک‌هایی مانند توجه چند سر یا توجه پراکنده باشد، که به مدل اجازه می‌دهد تا به طور موثرتری بر اطلاعات مربوطه در متن ورودی تمرکز کند و نویز را فیلتر کند.

  • یادگیری تقویتی از بازخورد انسانی (RLHF): در حالی که به صراحت بیان نشده است، بسیار محتمل است که QwQ-32B با استفاده از RLHF تنظیم دقیق شده باشد. این تکنیک شامل آموزش مدل برای تولید خروجی‌هایی است که توسط ارزیاب‌های انسانی ترجیح داده می‌شوند، که منجر به بهبود در زمینه‌هایی مانند انسجام، سودمندی و بی‌ضرری می‌شود.

  • تنظیم دستورالعمل: QwQ-32B ممکن است تحت تنظیم دستورالعمل گسترده قرار گرفته باشد، فرآیندی که در آن مدل بر روی مجموعه‌ای متنوع از دستورالعمل‌ها و خروجی‌های مربوطه آموزش داده می‌شود. این به مدل کمک می‌کند تا به وظایف جدید تعمیم بهتری داشته باشد و دستورالعمل‌ها را با دقت بیشتری دنبال کند.

  • اعلان زنجیره فکر: این مدل به طور صریح برای استفاده از اعلان زنجیره فکر طراحی شده است، تکنیکی که در آن مدل تشویق می‌شود تا قبل از رسیدن به پاسخ نهایی، مجموعه‌ای از مراحل استدلال میانی را تولید کند. این امر استدلال سنجیده‌تر و منطقی‌تری را ترویج می‌کند.

پیامدها برای صنایع خاص

پیشرفت‌های QwQ-32B و سایر مدل‌های هوش مصنوعی چینی پیامدهای قابل توجهی برای صنایع مختلف، هم در داخل چین و هم در سطح جهانی دارد. برخی از بخش‌های کلیدی که احتمالاً تحت تأثیر قرار می‌گیرند عبارتند از:

  • تجارت الکترونیک: تجارت اصلی علی‌بابا، تجارت الکترونیک، از قابلیت‌های بهبود یافته هوش مصنوعی سود زیادی خواهد برد. این شامل زمینه‌هایی مانند توصیه‌های شخصی‌شده، ربات‌های گفتگوی خدمات مشتری، تشخیص تقلب و بهینه‌سازی زنجیره تامین می‌شود.

  • مالی: مدل‌های هوش مصنوعی می‌توانند برای وظایفی مانند ارزیابی ریسک، تشخیص تقلب، معاملات الگوریتمی و مدیریت ارتباط با مشتری استفاده شوند. توانایی‌های استدلال افزایش یافته مدل‌هایی مانند QwQ-32B می‌تواند منجر به پیش‌بینی‌های مالی دقیق‌تر و بهبود تصمیم‌گیری شود.

  • مراقبت‌های بهداشتی: هوش مصنوعی می‌تواند در کشف دارو، تشخیص بیماری، پزشکی شخصی و نظارت بر بیمار کمک کند. مدل‌های استدلال قدرتمندتر می‌توانند داده‌های پزشکی پیچیده را تجزیه و تحلیل کنند و بینش‌هایی را ارائه دهند که قبلاً غیرقابل دسترس بودند.

  • تولید: اتوماسیون مبتنی بر هوش مصنوعی، کنترل کیفیت و نگهداری پیش‌بینی‌کننده می‌تواند کارایی را افزایش داده و هزینه‌ها را در فرآیندهای تولید کاهش دهد.

  • حمل و نقل: وسایل نقلیه خودران، سیستم‌های مدیریت ترافیک و بهینه‌سازی لجستیک به شدت به هوش مصنوعی متکی هستند. پیشرفت در استدلال هوش مصنوعی می‌تواند به شبکه‌های حمل و نقل ایمن‌تر و کارآمدتر کمک کند.

  • آموزش: مدل‌های هوش مصنوعی به طور فزاینده‌ای برای ارائه پشتیبانی بهتر برای دانش‌آموزان و حتی تدریس خصوصی شخصی‌سازی شده، استفاده می‌شوند.

آینده رقابت و همکاری هوش مصنوعی

پیشرفت سریع مدل‌های هوش مصنوعی چینی مانند QwQ-32B سؤالات مهمی را در مورد آینده رقابت و همکاری هوش مصنوعی در مقیاس جهانی ایجاد می‌کند. در حالی که یک پویایی رقابتی بدون شک وجود دارد، به ویژه بین ایالات متحده و چین، مزایای بالقوه‌ای نیز برای همکاری و به اشتراک‌گذاری دانش وجود دارد.

  • منبع باز در مقابل منبع بسته: تصمیم علی‌بابا برای انتشار QwQ-32B به عنوان یک مدل وزن باز قابل توجه است. این در تضاد با رویکرد اتخاذ شده توسط برخی از شرکت‌های هوش مصنوعی غربی است که مدل‌های خود را به عنوان سیستم‌های اختصاصی و منبع بسته حفظ می‌کنند. مدل‌های منبع باز می‌توانند با اجازه دادن به محققان و توسعه‌دهندگان در سراسر جهان برای ساختن بر روی کارهای موجود، همکاری بیشتر و نوآوری را تسریع کنند.

  • اشتراک‌گذاری داده‌ها و استانداردسازی: توسعه سیستم‌های هوش مصنوعی قوی و قابل اعتماد به مقادیر زیادی داده نیاز دارد. همکاری بین‌المللی در زمینه اشتراک‌گذاری داده‌ها و ایجاد استانداردهای مشترک می‌تواند به نفع کل جامعه هوش مصنوعی باشد.

  • ملاحظات اخلاقی: با قدرتمندتر شدن سیستم‌های هوش مصنوعی، ملاحظات اخلاقی اهمیت فزاینده‌ای پیدا می‌کنند. گفتگوی جهانی و همکاری برای اطمینان از توسعه و استقرار مسئولانه هوش مصنوعی، با پادمان‌های مناسب برای کاهش خطرات احتمالی، ضروری است.

  • تبادل استعداد: زمینه هوش مصنوعی از یک مجموعه استعداد متنوع و توزیع شده در سطح جهانی سود می‌برد. تسهیل تبادل محققان و مهندسان بین کشورها می‌تواند انتقال دانش را ارتقا داده و پیشرفت را تسریع کند.

ظهور QwQ-32B و سایر مدل‌های پیشرفته هوش مصنوعی چینی، نقطه عطف مهمی در تکامل مداوم هوش مصنوعی است. این امر قابلیت‌های رو به رشد اکوسیستم فناوری چین را برجسته می‌کند و پیامدهای جهانی پیشرفت‌های هوش مصنوعی را نشان می‌دهد. سال‌های آینده احتمالاً شاهد پیشرفت سریع مداوم، رقابت شدید و افزایش درخواست‌ها برای همکاری بین‌المللی برای اطمینان از اینکه هوش مصنوعی به نفع کل بشریت است، خواهیم بود.