پیمایش محاسبات هوش مصنوعی: قمار تراشه داخلی Ant Group

مخاطرات بالا در رقابت جهانی سخت‌افزار هوش مصنوعی

چشم‌انداز توسعه هوش مصنوعی به طور فزاینده‌ای نه تنها با پیشرفت‌های الگوریتمی، بلکه با دسترسی به سخت‌افزار پیچیده مورد نیاز برای آموزش و اجرای مدل‌های عظیم تعریف می‌شود. در قلب این معادله سخت‌افزاری، واحد پردازش گرافیکی (GPU) قرار دارد، قطعه‌ای که در ابتدا برای رندر تصاویر طراحی شده بود اما اکنون برای نیازهای پردازش موازی هوش مصنوعی ضروری است. سال‌هاست که شرکت Nvidia به عنوان غول بی‌رقیب در این عرصه ایستاده است و GPUهای پیشرفته آن به استاندارد طلایی تبدیل شده‌اند و نوآوری را در سراسر Silicon Valley و فراتر از آن به پیش می‌برند. با این حال، این سلطه، شرکت و مشتریانش را مستقیماً در تیررس تنش‌های ژئوپلیتیکی قرار داده است.

اعمال کنترل‌های صادراتی سختگیرانه توسط Washington با هدف مهار دسترسی چین به فناوری پیشرفته نیمه‌هادی، اساساً بازار را تغییر شکل داده است. این محدودیت‌ها به طور خاص GPUهای با کارایی بالا، مانند آنهایی که توسط Nvidia تولید می‌شوند و برای کاربردهای پیشرفته هوش مصنوعی، از جمله آنهایی که پتانسیل استفاده نظامی دارند، حیاتی تلقی می‌شوند، هدف قرار می‌دهند. تأثیر فوری آن، تقلا در بخش فناوری نوظهور چین بود. شرکت‌هایی که به شدت در هوش مصنوعی سرمایه‌گذاری کرده‌اند، از غول‌های تثبیت‌شده گرفته تا استارت‌آپ‌های جاه‌طلب، با چشم‌انداز ناگهانی قطع شدن از ابزارهای ضروری که موج بعدی پیشرفت فناوری را هدایت می‌کنند، مواجه شدند. این یک ضرورت فوری ایجاد کرد: یافتن جایگزین‌های مناسب یا خطر عقب ماندن در یک میدان رقابتی جهانی. چالش صرفاً جایگزینی یک تراشه با تراشه دیگر نبود؛ بلکه شامل پیمایش در شبکه‌ای پیچیده از تفاوت‌های عملکردی، مسائل مربوط به سازگاری نرم‌افزار و مقیاس عظیمی بود که برای آموزش مدل‌هایی با صدها میلیارد یا حتی تریلیون‌ها پارامتر مورد نیاز است.

Ant Group مسیری به سوی استقلال محاسباتی ترسیم می‌کند

در پس‌زمینه این عدم قطعیت زنجیره تأمین و تشدید رقابت فناورانه، Ant Group، غول فین‌تک وابسته به Alibaba Group Holding، گام مهمی به سوی خودکفایی محاسباتی بیشتر برداشته است. افشاگری‌های اخیر، که در یک مقاله تحقیقاتی توسط تیم Ling این شرکت - بخشی که پیشگام ابتکارات مدل زبان بزرگ (LLM) آن است - شرح داده شده، نشان‌دهنده انحراف موفقیت‌آمیز از مسیر متمرکز بر Nvidia است. هسته اصلی این دستاورد در توانایی آنها برای آموزش مؤثر یک مدل هوش مصنوعی پیچیده با استفاده از GPUهای تولید داخل نهفته است.

مدل مورد بحث، به نام Ling-Plus-Base، سبک‌وزن نیست. این مدل با استفاده از معماری Mixture-of-Experts (MoE) طراحی شده است، تکنیکی که به دلیل کارایی آن در مقیاس‌بندی LLMها در حال افزایش محبوبیت است. Ling-Plus-Base با داشتن 300 میلیارد پارامتر قابل توجه، در لیگی قابل مقایسه با سایر مدل‌های برجسته جهانی عمل می‌کند. با این حال، تمایز حیاتی، سخت‌افزاری است که زیربنای آموزش آن را تشکیل می‌دهد. طبق یافته‌های تحقیق، این مدل قدرتمند را می‌توان بر روی آنچه تیم به عنوان ‘دستگاه‌های با عملکرد پایین‌تر’ توصیف می‌کند، به بلوغ رساند. این عبارت با دقت انتخاب شده مستقیماً به استفاده از واحدهای پردازشی اشاره دارد که خارج از محدوده محدودیت‌های صادراتی ایالات متحده قرار می‌گیرند و قویاً به استفاده از تراشه‌های طراحی و تولید شده در چین اشاره دارد.

این توسعه چیزی بیش از یک راه حل فنی است؛ بلکه نشان‌دهنده یک چرخش استراتژیک بالقوه است. Ant Group با نشان دادن ظرفیت آموزش مدل‌های پیشرفته بدون اتکای انحصاری به سخت‌افزارهای خارجی سطح بالا و محدود شده، نه تنها خطرات زنجیره تأمین را کاهش می‌دهد، بلکه به طور بالقوه کارایی‌های هزینه قابل توجهی را نیز باز می‌کند.

معادله اقتصادی: کاهش شدید هزینه‌های آموزش

یکی از قانع‌کننده‌ترین ارقام حاصل از تحقیقات تیم Ling، کاهش گزارش شده 20 درصدی هزینه‌های محاسباتی در مرحله حیاتی پیش‌آموزش مدل Ling-Plus-Base است. پیش‌آموزش به طور بدنامی منابع‌بر است و شامل تغذیه مدل با مجموعه داده‌های عظیم برای یادگیری الگوهای زبان، زمینه و دانش است. این بخش عمده‌ای از هزینه کلی مرتبط با توسعه LLMهای بنیادی را تشکیل می‌دهد. بنابراین، دستیابی به کاهش یک‌پنجم هزینه در این مرحله، به صرفه‌جویی قابل توجهی تبدیل می‌شود و به طور بالقوه سرمایه را برای تحقیقات بیشتر، توسعه یا استقرار در مقیاس بزرگ آزاد می‌کند.

این صرفه‌جویی در هزینه چگونه به دست می‌آید؟ در حالی که مقاله جزئیات دقیق تفکیک هزینه را ارائه نمی‌دهد، چندین عامل احتمالاً نقش دارند:

  1. تأمین سخت‌افزار: GPUهای تولید داخل، حتی اگر به صورت جداگانه از بهترین‌های Nvidia قدرت کمتری داشته باشند، ممکن است با قیمت خرید پایین‌تر عرضه شوند یا تخفیف‌های حجمی مطلوب‌تری در بازار چین ارائه دهند، به ویژه با توجه به عرضه محدود تراشه‌های پیشرفته Nvidia.
  2. بهره‌وری انرژی: اگرچه به صراحت بیان نشده است، بهینه‌سازی آموزش برای تراشه‌های داخلی که به طور بالقوه انرژی کمتری مصرف می‌کنند (هرچند شاید عملکرد کمتری در هر واحد داشته باشند) می‌تواند به کاهش هزینه‌های انرژی عملیاتی کمک کند، که عامل مهمی در اداره مراکز داده بزرگ است.
  3. بهینه‌سازی الگوریتمی و معماری: استفاده از خود معماری MoE کلیدی است. مدل‌های MoE فقط زیرشبکه‌های ‘متخصص’ خاصی را برای یک ورودی معین فعال می‌کنند، به جای درگیر کردن کل مدل مانند معماری‌های متراکم. این پراکندگی ذاتی می‌تواند به طور قابل توجهی بار محاسباتی را در طول آموزش و استنتاج کاهش دهد و دستیابی به نتایج خوب را حتی با قدرت پردازش خام کمتر در هر تراشه امکان‌پذیر می‌سازد. موفقیت Ant نشان‌دهنده نرم‌افزار پیچیده و تنظیم الگوریتمی برای به حداکثر رساندن کارایی سخت‌افزار داخلی موجود است.

این کاهش هزینه صرفاً یک مزیت حسابداری نیست؛ بلکه مانع ورود برای توسعه مدل‌های مقیاس بزرگ را کاهش می‌دهد و می‌تواند سرعت نوآوری هوش مصنوعی را در داخل شرکت و به طور بالقوه در سراسر اکوسیستم فناوری گسترده‌تر چین تسریع کند، اگر این روش‌ها قابل تکرار باشند.

برابری عملکرد: پر کردن شکاف سخت‌افزاری؟

صرفه‌جویی در هزینه جذاب است، اما اگر مدل هوش مصنوعی حاصل به طور قابل توجهی عملکرد ضعیفی داشته باشد، معنای کمی دارد. تیم Ling در Ant مستقیماً به این موضوع پرداخته و ادعا می‌کند که Ling-Plus-Base به عملکردی قابل مقایسه با سایر مدل‌های معتبر در این زمینه دست می‌یابد. به طور خاص، آنها ساخته خود را در برابر مدل‌هایی مانند Qwen2.5-72B-Instruct (توسعه یافته توسط شرکت مادر Alibaba) و DeepSeek-V2.5-1210-Chat، یکی دیگر از LLMهای برجسته چینی، محک زدند.

ادعای ‘عملکرد قابل مقایسه’ علی‌رغم استفاده از ‘دستگاه‌های با عملکرد پایین‌تر’ قابل توجه است. این نشان می‌دهد که Ant به طور بالقوه راه‌های مؤثری برای جبران هرگونه کمبود محاسباتی خام از طریق موارد زیر یافته است:

  • معماری پیشرفته مدل: طراحی MoE در اینجا نقش اساسی دارد و به طور کارآمد بار کاری را توزیع می‌کند.
  • بهینه‌سازی نرم‌افزار: تطبیق پشته نرم‌افزار آموزش (مانند چارچوب‌های موازی‌سازی و کتابخانه‌های عددی) به طور خاص برای معماری GPUهای داخلی مورد استفاده، حیاتی است. این اغلب شامل تلاش مهندسی قابل توجهی است.
  • گردآوری داده‌ها و تکنیک‌های آموزش: روش‌های پیچیده برای انتخاب داده‌های آموزشی و پالایش خود فرآیند آموزش می‌تواند به طور قابل توجهی بر کیفیت نهایی مدل تأثیر بگذارد و گاهی اوقات محدودیت‌های سخت‌افزاری را جبران کند.

مهم است که با ظرافت به ادعاهای عملکرد نزدیک شویم. ‘قابل مقایسه’ می‌تواند طیفی از نتایج را در معیارهای مختلف (مانند درک زبان، استدلال، تولید، کدنویسی) در بر گیرد. بدون دسترسی به نتایج دقیق معیارها در چندین آزمون استاندارد، مقایسه دقیق چالش‌برانگیز باقی می‌ماند. با این حال، خود این ادعا نشان‌دهنده اطمینان Ant است که رویکرد آن مستلزم یک مصالحه فلج‌کننده بین هزینه/دسترسی و قابلیت نیست. این یک مسیر برای حفظ رقابت‌پذیری حتی در محدودیت‌های ناشی از محدودیت‌های سخت‌افزاری را نشان می‌دهد.

خود محققان بر پیامدهای گسترده‌تر تأکید کردند: ‘این نتایج امکان‌سنجی آموزش مدل‌های MoE مقیاس بزرگ و پیشرفته را بر روی سخت‌افزار کم‌قدرت‌تر نشان می‌دهد و رویکردی انعطاف‌پذیرتر و مقرون‌به‌صرفه‌تر را برای توسعه مدل بنیادی با توجه به انتخاب منابع محاسباتی امکان‌پذیر می‌سازد.’ این به نوعی دموکراتیزه شدن اشاره دارد و به توسعه هوش مصنوعی پیشرفته اجازه می‌دهد حتی زمانی که دسترسی به اوج مطلق قدرت پردازش محدود است، ادامه یابد.

درک مزیت Mixture-of-Experts (MoE)

معماری Mixture-of-Experts (ترکیبی از متخصصان) در موفقیت گزارش شده Ant Group نقش محوری دارد. این نشان‌دهنده خروج از مدل‌های شبکه عصبی ‘متراکم’ سنتی است که در آن هر ورودی هر پارامتر را فعال می‌کند. در یک مدل MoE:

  • مدل از تعداد زیادی شبکه ‘متخصص’ کوچکتر و تخصصی تشکیل شده است.
  • یک مکانیزم ‘شبکه دروازه’ یا ‘روتر’ یاد می‌گیرد که داده‌های ورودی (توکن‌ها، در مورد LLMها) را به مرتبط‌ترین متخصص(ها) برای پردازش هدایت کند.
  • فقط متخصص(های) منتخب - اغلب فقط یک یا دو نفر از میان صدها نفر بالقوه - محاسبات را برای آن قطعه داده خاص انجام می‌دهند.

این رویکرد چندین مزیت کلیدی را ارائه می‌دهد، به ویژه در زمینه محدودیت‌های سخت‌افزاری:

  1. مقیاس‌پذیری: MoE به مدل‌ها اجازه می‌دهد تا به تعداد پارامترهای بسیار زیاد (تریلیون‌ها در حال امکان‌پذیر شدن هستند) بدون افزایش متناسب در هزینه محاسباتی برای پردازش هر توکن ورودی در طول استنتاج یا حتی در طول مراحل آموزش، رشد کنند. این به این دلیل است که تنها کسری از کل پارامترها در هر زمان معین فعال هستند.
  2. کارایی آموزش: در حالی که آموزش مدل‌های MoE پیچیدگی‌های خاص خود را دارد (مانند متعادل کردن بار بین متخصصان)، کاهش محاسبات در هر توکن می‌تواند به زمان آموزش سریع‌تر یا، همانطور که Ant نشان می‌دهد، توانایی آموزش مؤثر بر روی سخت‌افزار کم‌قدرت‌تر در بازه‌های زمانی معقول تبدیل شود.
  3. تخصص‌گرایی: هر متخصص به طور بالقوه می‌تواند در انواع مختلف داده‌ها، وظایف یا حوزه‌های دانش تخصص پیدا کند و به طور بالقوه منجر به خروجی‌های با کیفیت بالاتر در زمینه‌های خاص شود.

آزمایشگاه‌های پیشرو هوش مصنوعی در سراسر جهان MoE را پذیرفته‌اند، از جمله Google (GShard، Switch Transformer)، Mistral AI (مدل‌های Mixtral) و در چین، شرکت‌هایی مانند DeepSeek و Alibaba (که مدل‌های Qwen آن شامل عناصر MoE هستند). Ling-Plus-Base شرکت Ant آن را قاطعانه در این پیشگامی قرار می‌دهد و از نوآوری معماری برای پیمایش واقعیت‌های سخت‌افزاری استفاده می‌کند.

اکوسیستم سخت‌افزار داخلی: پر کردن خلاء Nvidia

در حالی که مقاله تحقیقاتی Ant از نام بردن صریح سخت‌افزار مورد استفاده خودداری کرد، گزارش‌های بعدی، به ویژه توسط Bloomberg، نشان داد که این شاهکار شامل تراشه‌های طراحی شده داخلی بوده است. این شامل پردازنده‌هایی است که به طور بالقوه از شرکت وابسته Ant، یعنی Alibaba، که واحد طراحی تراشه خود T-Head را دارد (تولید کننده CPUهایی مانند Yitian 710 و قبلاً در حال بررسی شتاب‌دهنده‌های هوش مصنوعی بود)، و به طور حیاتی، Huawei Technologies نشأت می‌گیرند.

Huawei، علی‌رغم مواجهه با تحریم‌های شدید خود ایالات متحده، به شدت در حال توسعه سری شتاب‌دهنده‌های هوش مصنوعی Ascend خود (مانند Ascend 910B) به عنوان جایگزینی مستقیم برای محصولات Nvidia در بازار چین بوده است. گزارش شده است که این تراشه‌ها توسط شرکت‌های بزرگ فناوری چینی در حال پذیرش هستند. توانایی Ant Group برای استفاده مؤثر از چنین سخت‌افزاری برای مدلی به بزرگی Ling-Plus-Base، نشان‌دهنده اعتبار قابل توجهی برای این جایگزین‌های داخلی خواهد بود.

ذکر این نکته ضروری است که Ant Group به طور کامل Nvidia را کنار نگذاشته است. گزارش‌ها حاکی از آن است که تراشه‌های Nvidia همچنان بخشی از جعبه ابزار توسعه هوش مصنوعی Ant هستند، که احتمالاً برای کارهایی استفاده می‌شوند که ویژگی‌های عملکردی خاص آنها یا اکوسیستم نرم‌افزاری بالغ (مانند CUDA) مزایایی را ارائه می‌دهند، یا برای سیستم‌های قدیمی. این حرکت لزوماً به معنای جایگزینی کامل یک شبه نیست، بلکه در مورد ایجاد مسیرهای موازی و قابل دوام است که آسیب‌پذیری استراتژیک را کاهش داده و هزینه‌ها را کنترل می‌کند. این رویکرد ترکیبی به شرکت اجازه می‌دهد تا ضمن پرورش استقلال، از بهترین ابزارهای موجود استفاده کند. خود Ant Group درجه‌ای از اختیار شرکتی را حفظ کرد و از اظهار نظر رسمی در مورد تراشه‌های خاص مورد استفاده خودداری کرد.

یک روند گسترده‌تر: تلاش جمعی چین برای خوداتکایی در هوش مصنوعی

ابتکار Ant Group به صورت مجزا رخ نمی‌دهد. این منعکس‌کننده یک فشار استراتژیک گسترده‌تر در سراسر بخش فناوری چین برای نوآوری پیرامون محدودیت‌های اعمال شده توسط کنترل‌های صادراتی ایالات متحده است. ‘جنگ فناوری’ تلاش‌ها برای دستیابی به خودکفایی بیشتر در فناوری‌های حیاتی، به ویژه نیمه‌هادی‌ها و هوش مصنوعی را تسریع کرده است.

سایر بازیگران اصلی اهداف مشابهی را دنبال می‌کنند:

  • ByteDance: شرکت مادر TikTok نیز طبق گزارش‌ها در تلاش است تا تراشه‌های جایگزین، از جمله گزینه‌های داخلی، را برای جاه‌طلبی‌های هوش مصنوعی خود که شامل الگوریتم‌های توصیه، هوش مصنوعی مولد و موارد دیگر می‌شود، تأمین و استفاده کند.
  • DeepSeek: این استارت‌آپ هوش مصنوعی که به خاطر مدل‌های قدرتمند منبع باز خود شناخته شده است، به صراحت به کارایی آموزش اشاره می‌کند و مدل‌هایی را با استفاده از معماری MoE توسعه داده است که با استراتژی‌هایی که کمتر به داشتن ناوگان عظیمی از تنها قدرتمندترین GPUها وابسته هستند، همسو است.
  • Baidu، Tencent و دیگران: همه شرکت‌های بزرگ ابری و فناوری چینی به شدت در هوش مصنوعی سرمایه‌گذاری می‌کنند و به ناچار در حال بررسی استراتژی‌های تنوع‌بخشی سخت‌افزاری، از جمله بهینه‌سازی برای تراشه‌های داخلی و به طور بالقوه توسعه سیلیکون سفارشی خود هستند.

پیام جمعی روشن است: در حالی که دسترسی به محصولات سطح بالای Nvidia همچنان مطلوب است، صنعت فناوری چین فعالانه در حال توسعه و اعتبارسنجی راه‌حل‌های جایگزین است. این شامل یک رویکرد چندجانبه است: پذیرش معماری‌های مدل کارآمد مانند MoE، بهینه‌سازی شدید نرم‌افزار برای بک‌اند‌های سخت‌افزاری مختلف، و حمایت از توسعه و پذیرش تراشه‌های تولید داخل.

فراتر از مدل‌های زبانی: گسترش هوش مصنوعی Ant در مراقبت‌های بهداشتی

تلاش‌های هوش مصنوعی Ant Group فراتر از LLMهای بنیادی است. همزمان با اخبار مربوط به کارایی‌های آموزشی آن، این شرکت از ارتقاء قابل توجهی در مجموعه راه‌حل‌های هوش مصنوعی خود که برای بخش مراقبت‌های بهداشتی طراحی شده‌اند، رونمایی کرد. این ابتکار از یک مدل هوش مصنوعی متمایز و خود توسعه یافته متمرکز بر مراقبت‌های بهداشتی استفاده می‌کند.

راه‌حل‌های ارتقا یافته دارای قابلیت‌های چندوجهی (پردازش انواع داده‌های مختلف مانند متن، تصاویر و به طور بالقوه سایر داده‌های پزشکی) و استدلال پزشکی پیچیده هستند. اینها در آنچه Ant به عنوان ‘ماشین‌های همه‌کاره’ توصیف می‌کند، ادغام شده‌اند، احتمالاً دستگاه‌ها یا پلتفرم‌هایی که برای محیط‌های بالینی یا مدیریت سلامت طراحی شده‌اند.

در حالی که به نظر می‌رسد از اخبار LLM Ling-Plus-Base جدا باشد، یک ارتباط بالقوه اساسی وجود دارد. توانایی آموزش مدل‌های هوش مصنوعی قدرتمند به صورت مقرون‌به‌صرفه‌تر، به طور بالقوه با استفاده از ترکیبی از سخت‌افزارها از جمله گزینه‌های داخلی، می‌تواند زیربنای دوام اقتصادی توسعه و استقرار مدل‌های تخصصی برای بخش‌هایی مانند مراقبت‌های بهداشتی باشد. کاهش هزینه‌های بنیادی توسعه هوش مصنوعی به منابع اجازه می‌دهد تا به برنامه‌های کاربردی خاص دامنه هدایت شوند و به طور بالقوه عرضه ابزارهای عملی هوش مصنوعی را در صنایع حیاتی تسریع کنند. این فشار در حوزه مراقبت‌های بهداشتی بر جاه‌طلبی Ant برای به کارگیری گسترده تخصص هوش مصنوعی خود، فراتر از ریشه‌های فین‌تک آن، تأکید می‌کند.

پیامدها برای آینده: دو شاخه شدن در جاده هوش مصنوعی؟

آموزش موفقیت‌آمیز یک مدل MoE مقیاس بزرگ توسط Ant Group با استفاده از GPUهای غیر Nvidia و احتمالاً داخلی، پیامدهای قابل توجهی دارد:

  • اعتبارسنجی برای تراشه‌های داخلی: این به عنوان یک نقطه اثبات حیاتی برای دوام شتاب‌دهنده‌های هوش مصنوعی طراحی شده چینی مانند Ascend هوآوی عمل می‌کند و به طور بالقوه پذیرش آنها را در چین افزایش می‌دهد.
  • چشم‌انداز رقابتی: این نشان می‌دهد که شرکت‌های چینی می‌توانند علی‌رغم محدودیت‌ها، با استفاده از نوآوری معماری و نرم‌افزاری، در توسعه هوش مصنوعی پیشرفته رقابتی باقی بمانند.
  • پویایی هزینه: کاهش هزینه 20 درصدی یک مزیت رقابتی بالقوه را برای شرکت‌هایی که قادر به استفاده مؤثر از سخت‌افزار جایگزین هستند، برجسته می‌کند و به طور بالقوه بر قیمت‌گذاری و دسترسی جهانی هوش مصنوعی تأثیر می‌گذارد.
  • موقعیت Nvidia: در حالی که Nvidia در سطح جهانی همچنان غالب است، این روند چالش‌هایی را که به دلیل مقررات و ظهور رقبای محلی در بازار قابل توجه چین با آن مواجه است، برجسته می‌کند. این ممکن است توسعه تراشه‌های سازگار با صادرات Nvidia را که برای چین طراحی شده‌اند تسریع کند، اما همچنین مسیر جایگزین را تأیید می‌کند.
  • انشعاب فناورانه؟: در بلندمدت، واگرایی مداوم در دسترسی به سخت‌افزار و بهینه‌سازی نرم‌افزار می‌تواند منجر به اکوسیستم‌های هوش مصنوعی تا حدی متمایز شود، با مدل‌ها و ابزارهایی که برای سیلیکون‌های زیربنایی مختلف بهینه شده‌اند.

سفری که تیم Ling در Ant Group طی کرده است، نمادی از تدبیر و کاردانی است که توسط محدودیت‌های ژئوپلیتیکی برانگیخته شده است. آنها با ترکیب هوشمندانه معماری‌های پیشرفته مدل مانند MoE با تمایل به بهینه‌سازی و استفاده از سخت‌افزار داخلی موجود، مسیری را ترسیم کرده‌اند که پیشرفت مداوم در زمینه حیاتی هوش مصنوعی را تضمین می‌کند و به طور بالقوه ساختارهای هزینه و وابستگی‌های استراتژیکی را که این صنعت را تعریف می‌کنند، تغییر شکل می‌دهد. این گواهی بر این ایده است که نوآوری اغلب در زیر فشار به پربارترین شکل خود شکوفا می‌شود.