مخاطرات بالا در رقابت جهانی سختافزار هوش مصنوعی
چشمانداز توسعه هوش مصنوعی به طور فزایندهای نه تنها با پیشرفتهای الگوریتمی، بلکه با دسترسی به سختافزار پیچیده مورد نیاز برای آموزش و اجرای مدلهای عظیم تعریف میشود. در قلب این معادله سختافزاری، واحد پردازش گرافیکی (GPU) قرار دارد، قطعهای که در ابتدا برای رندر تصاویر طراحی شده بود اما اکنون برای نیازهای پردازش موازی هوش مصنوعی ضروری است. سالهاست که شرکت Nvidia به عنوان غول بیرقیب در این عرصه ایستاده است و GPUهای پیشرفته آن به استاندارد طلایی تبدیل شدهاند و نوآوری را در سراسر Silicon Valley و فراتر از آن به پیش میبرند. با این حال، این سلطه، شرکت و مشتریانش را مستقیماً در تیررس تنشهای ژئوپلیتیکی قرار داده است.
اعمال کنترلهای صادراتی سختگیرانه توسط Washington با هدف مهار دسترسی چین به فناوری پیشرفته نیمههادی، اساساً بازار را تغییر شکل داده است. این محدودیتها به طور خاص GPUهای با کارایی بالا، مانند آنهایی که توسط Nvidia تولید میشوند و برای کاربردهای پیشرفته هوش مصنوعی، از جمله آنهایی که پتانسیل استفاده نظامی دارند، حیاتی تلقی میشوند، هدف قرار میدهند. تأثیر فوری آن، تقلا در بخش فناوری نوظهور چین بود. شرکتهایی که به شدت در هوش مصنوعی سرمایهگذاری کردهاند، از غولهای تثبیتشده گرفته تا استارتآپهای جاهطلب، با چشمانداز ناگهانی قطع شدن از ابزارهای ضروری که موج بعدی پیشرفت فناوری را هدایت میکنند، مواجه شدند. این یک ضرورت فوری ایجاد کرد: یافتن جایگزینهای مناسب یا خطر عقب ماندن در یک میدان رقابتی جهانی. چالش صرفاً جایگزینی یک تراشه با تراشه دیگر نبود؛ بلکه شامل پیمایش در شبکهای پیچیده از تفاوتهای عملکردی، مسائل مربوط به سازگاری نرمافزار و مقیاس عظیمی بود که برای آموزش مدلهایی با صدها میلیارد یا حتی تریلیونها پارامتر مورد نیاز است.
Ant Group مسیری به سوی استقلال محاسباتی ترسیم میکند
در پسزمینه این عدم قطعیت زنجیره تأمین و تشدید رقابت فناورانه، Ant Group، غول فینتک وابسته به Alibaba Group Holding، گام مهمی به سوی خودکفایی محاسباتی بیشتر برداشته است. افشاگریهای اخیر، که در یک مقاله تحقیقاتی توسط تیم Ling این شرکت - بخشی که پیشگام ابتکارات مدل زبان بزرگ (LLM) آن است - شرح داده شده، نشاندهنده انحراف موفقیتآمیز از مسیر متمرکز بر Nvidia است. هسته اصلی این دستاورد در توانایی آنها برای آموزش مؤثر یک مدل هوش مصنوعی پیچیده با استفاده از GPUهای تولید داخل نهفته است.
مدل مورد بحث، به نام Ling-Plus-Base، سبکوزن نیست. این مدل با استفاده از معماری Mixture-of-Experts (MoE) طراحی شده است، تکنیکی که به دلیل کارایی آن در مقیاسبندی LLMها در حال افزایش محبوبیت است. Ling-Plus-Base با داشتن 300 میلیارد پارامتر قابل توجه، در لیگی قابل مقایسه با سایر مدلهای برجسته جهانی عمل میکند. با این حال، تمایز حیاتی، سختافزاری است که زیربنای آموزش آن را تشکیل میدهد. طبق یافتههای تحقیق، این مدل قدرتمند را میتوان بر روی آنچه تیم به عنوان ‘دستگاههای با عملکرد پایینتر’ توصیف میکند، به بلوغ رساند. این عبارت با دقت انتخاب شده مستقیماً به استفاده از واحدهای پردازشی اشاره دارد که خارج از محدوده محدودیتهای صادراتی ایالات متحده قرار میگیرند و قویاً به استفاده از تراشههای طراحی و تولید شده در چین اشاره دارد.
این توسعه چیزی بیش از یک راه حل فنی است؛ بلکه نشاندهنده یک چرخش استراتژیک بالقوه است. Ant Group با نشان دادن ظرفیت آموزش مدلهای پیشرفته بدون اتکای انحصاری به سختافزارهای خارجی سطح بالا و محدود شده، نه تنها خطرات زنجیره تأمین را کاهش میدهد، بلکه به طور بالقوه کاراییهای هزینه قابل توجهی را نیز باز میکند.
معادله اقتصادی: کاهش شدید هزینههای آموزش
یکی از قانعکنندهترین ارقام حاصل از تحقیقات تیم Ling، کاهش گزارش شده 20 درصدی هزینههای محاسباتی در مرحله حیاتی پیشآموزش مدل Ling-Plus-Base است. پیشآموزش به طور بدنامی منابعبر است و شامل تغذیه مدل با مجموعه دادههای عظیم برای یادگیری الگوهای زبان، زمینه و دانش است. این بخش عمدهای از هزینه کلی مرتبط با توسعه LLMهای بنیادی را تشکیل میدهد. بنابراین، دستیابی به کاهش یکپنجم هزینه در این مرحله، به صرفهجویی قابل توجهی تبدیل میشود و به طور بالقوه سرمایه را برای تحقیقات بیشتر، توسعه یا استقرار در مقیاس بزرگ آزاد میکند.
این صرفهجویی در هزینه چگونه به دست میآید؟ در حالی که مقاله جزئیات دقیق تفکیک هزینه را ارائه نمیدهد، چندین عامل احتمالاً نقش دارند:
- تأمین سختافزار: GPUهای تولید داخل، حتی اگر به صورت جداگانه از بهترینهای Nvidia قدرت کمتری داشته باشند، ممکن است با قیمت خرید پایینتر عرضه شوند یا تخفیفهای حجمی مطلوبتری در بازار چین ارائه دهند، به ویژه با توجه به عرضه محدود تراشههای پیشرفته Nvidia.
- بهرهوری انرژی: اگرچه به صراحت بیان نشده است، بهینهسازی آموزش برای تراشههای داخلی که به طور بالقوه انرژی کمتری مصرف میکنند (هرچند شاید عملکرد کمتری در هر واحد داشته باشند) میتواند به کاهش هزینههای انرژی عملیاتی کمک کند، که عامل مهمی در اداره مراکز داده بزرگ است.
- بهینهسازی الگوریتمی و معماری: استفاده از خود معماری MoE کلیدی است. مدلهای MoE فقط زیرشبکههای ‘متخصص’ خاصی را برای یک ورودی معین فعال میکنند، به جای درگیر کردن کل مدل مانند معماریهای متراکم. این پراکندگی ذاتی میتواند به طور قابل توجهی بار محاسباتی را در طول آموزش و استنتاج کاهش دهد و دستیابی به نتایج خوب را حتی با قدرت پردازش خام کمتر در هر تراشه امکانپذیر میسازد. موفقیت Ant نشاندهنده نرمافزار پیچیده و تنظیم الگوریتمی برای به حداکثر رساندن کارایی سختافزار داخلی موجود است.
این کاهش هزینه صرفاً یک مزیت حسابداری نیست؛ بلکه مانع ورود برای توسعه مدلهای مقیاس بزرگ را کاهش میدهد و میتواند سرعت نوآوری هوش مصنوعی را در داخل شرکت و به طور بالقوه در سراسر اکوسیستم فناوری گستردهتر چین تسریع کند، اگر این روشها قابل تکرار باشند.
برابری عملکرد: پر کردن شکاف سختافزاری؟
صرفهجویی در هزینه جذاب است، اما اگر مدل هوش مصنوعی حاصل به طور قابل توجهی عملکرد ضعیفی داشته باشد، معنای کمی دارد. تیم Ling در Ant مستقیماً به این موضوع پرداخته و ادعا میکند که Ling-Plus-Base به عملکردی قابل مقایسه با سایر مدلهای معتبر در این زمینه دست مییابد. به طور خاص، آنها ساخته خود را در برابر مدلهایی مانند Qwen2.5-72B-Instruct (توسعه یافته توسط شرکت مادر Alibaba) و DeepSeek-V2.5-1210-Chat، یکی دیگر از LLMهای برجسته چینی، محک زدند.
ادعای ‘عملکرد قابل مقایسه’ علیرغم استفاده از ‘دستگاههای با عملکرد پایینتر’ قابل توجه است. این نشان میدهد که Ant به طور بالقوه راههای مؤثری برای جبران هرگونه کمبود محاسباتی خام از طریق موارد زیر یافته است:
- معماری پیشرفته مدل: طراحی MoE در اینجا نقش اساسی دارد و به طور کارآمد بار کاری را توزیع میکند.
- بهینهسازی نرمافزار: تطبیق پشته نرمافزار آموزش (مانند چارچوبهای موازیسازی و کتابخانههای عددی) به طور خاص برای معماری GPUهای داخلی مورد استفاده، حیاتی است. این اغلب شامل تلاش مهندسی قابل توجهی است.
- گردآوری دادهها و تکنیکهای آموزش: روشهای پیچیده برای انتخاب دادههای آموزشی و پالایش خود فرآیند آموزش میتواند به طور قابل توجهی بر کیفیت نهایی مدل تأثیر بگذارد و گاهی اوقات محدودیتهای سختافزاری را جبران کند.
مهم است که با ظرافت به ادعاهای عملکرد نزدیک شویم. ‘قابل مقایسه’ میتواند طیفی از نتایج را در معیارهای مختلف (مانند درک زبان، استدلال، تولید، کدنویسی) در بر گیرد. بدون دسترسی به نتایج دقیق معیارها در چندین آزمون استاندارد، مقایسه دقیق چالشبرانگیز باقی میماند. با این حال، خود این ادعا نشاندهنده اطمینان Ant است که رویکرد آن مستلزم یک مصالحه فلجکننده بین هزینه/دسترسی و قابلیت نیست. این یک مسیر برای حفظ رقابتپذیری حتی در محدودیتهای ناشی از محدودیتهای سختافزاری را نشان میدهد.
خود محققان بر پیامدهای گستردهتر تأکید کردند: ‘این نتایج امکانسنجی آموزش مدلهای MoE مقیاس بزرگ و پیشرفته را بر روی سختافزار کمقدرتتر نشان میدهد و رویکردی انعطافپذیرتر و مقرونبهصرفهتر را برای توسعه مدل بنیادی با توجه به انتخاب منابع محاسباتی امکانپذیر میسازد.’ این به نوعی دموکراتیزه شدن اشاره دارد و به توسعه هوش مصنوعی پیشرفته اجازه میدهد حتی زمانی که دسترسی به اوج مطلق قدرت پردازش محدود است، ادامه یابد.
درک مزیت Mixture-of-Experts (MoE)
معماری Mixture-of-Experts (ترکیبی از متخصصان) در موفقیت گزارش شده Ant Group نقش محوری دارد. این نشاندهنده خروج از مدلهای شبکه عصبی ‘متراکم’ سنتی است که در آن هر ورودی هر پارامتر را فعال میکند. در یک مدل MoE:
- مدل از تعداد زیادی شبکه ‘متخصص’ کوچکتر و تخصصی تشکیل شده است.
- یک مکانیزم ‘شبکه دروازه’ یا ‘روتر’ یاد میگیرد که دادههای ورودی (توکنها، در مورد LLMها) را به مرتبطترین متخصص(ها) برای پردازش هدایت کند.
- فقط متخصص(های) منتخب - اغلب فقط یک یا دو نفر از میان صدها نفر بالقوه - محاسبات را برای آن قطعه داده خاص انجام میدهند.
این رویکرد چندین مزیت کلیدی را ارائه میدهد، به ویژه در زمینه محدودیتهای سختافزاری:
- مقیاسپذیری: MoE به مدلها اجازه میدهد تا به تعداد پارامترهای بسیار زیاد (تریلیونها در حال امکانپذیر شدن هستند) بدون افزایش متناسب در هزینه محاسباتی برای پردازش هر توکن ورودی در طول استنتاج یا حتی در طول مراحل آموزش، رشد کنند. این به این دلیل است که تنها کسری از کل پارامترها در هر زمان معین فعال هستند.
- کارایی آموزش: در حالی که آموزش مدلهای MoE پیچیدگیهای خاص خود را دارد (مانند متعادل کردن بار بین متخصصان)، کاهش محاسبات در هر توکن میتواند به زمان آموزش سریعتر یا، همانطور که Ant نشان میدهد، توانایی آموزش مؤثر بر روی سختافزار کمقدرتتر در بازههای زمانی معقول تبدیل شود.
- تخصصگرایی: هر متخصص به طور بالقوه میتواند در انواع مختلف دادهها، وظایف یا حوزههای دانش تخصص پیدا کند و به طور بالقوه منجر به خروجیهای با کیفیت بالاتر در زمینههای خاص شود.
آزمایشگاههای پیشرو هوش مصنوعی در سراسر جهان MoE را پذیرفتهاند، از جمله Google (GShard، Switch Transformer)، Mistral AI (مدلهای Mixtral) و در چین، شرکتهایی مانند DeepSeek و Alibaba (که مدلهای Qwen آن شامل عناصر MoE هستند). Ling-Plus-Base شرکت Ant آن را قاطعانه در این پیشگامی قرار میدهد و از نوآوری معماری برای پیمایش واقعیتهای سختافزاری استفاده میکند.
اکوسیستم سختافزار داخلی: پر کردن خلاء Nvidia
در حالی که مقاله تحقیقاتی Ant از نام بردن صریح سختافزار مورد استفاده خودداری کرد، گزارشهای بعدی، به ویژه توسط Bloomberg، نشان داد که این شاهکار شامل تراشههای طراحی شده داخلی بوده است. این شامل پردازندههایی است که به طور بالقوه از شرکت وابسته Ant، یعنی Alibaba، که واحد طراحی تراشه خود T-Head را دارد (تولید کننده CPUهایی مانند Yitian 710 و قبلاً در حال بررسی شتابدهندههای هوش مصنوعی بود)، و به طور حیاتی، Huawei Technologies نشأت میگیرند.
Huawei، علیرغم مواجهه با تحریمهای شدید خود ایالات متحده، به شدت در حال توسعه سری شتابدهندههای هوش مصنوعی Ascend خود (مانند Ascend 910B) به عنوان جایگزینی مستقیم برای محصولات Nvidia در بازار چین بوده است. گزارش شده است که این تراشهها توسط شرکتهای بزرگ فناوری چینی در حال پذیرش هستند. توانایی Ant Group برای استفاده مؤثر از چنین سختافزاری برای مدلی به بزرگی Ling-Plus-Base، نشاندهنده اعتبار قابل توجهی برای این جایگزینهای داخلی خواهد بود.
ذکر این نکته ضروری است که Ant Group به طور کامل Nvidia را کنار نگذاشته است. گزارشها حاکی از آن است که تراشههای Nvidia همچنان بخشی از جعبه ابزار توسعه هوش مصنوعی Ant هستند، که احتمالاً برای کارهایی استفاده میشوند که ویژگیهای عملکردی خاص آنها یا اکوسیستم نرمافزاری بالغ (مانند CUDA) مزایایی را ارائه میدهند، یا برای سیستمهای قدیمی. این حرکت لزوماً به معنای جایگزینی کامل یک شبه نیست، بلکه در مورد ایجاد مسیرهای موازی و قابل دوام است که آسیبپذیری استراتژیک را کاهش داده و هزینهها را کنترل میکند. این رویکرد ترکیبی به شرکت اجازه میدهد تا ضمن پرورش استقلال، از بهترین ابزارهای موجود استفاده کند. خود Ant Group درجهای از اختیار شرکتی را حفظ کرد و از اظهار نظر رسمی در مورد تراشههای خاص مورد استفاده خودداری کرد.
یک روند گستردهتر: تلاش جمعی چین برای خوداتکایی در هوش مصنوعی
ابتکار Ant Group به صورت مجزا رخ نمیدهد. این منعکسکننده یک فشار استراتژیک گستردهتر در سراسر بخش فناوری چین برای نوآوری پیرامون محدودیتهای اعمال شده توسط کنترلهای صادراتی ایالات متحده است. ‘جنگ فناوری’ تلاشها برای دستیابی به خودکفایی بیشتر در فناوریهای حیاتی، به ویژه نیمههادیها و هوش مصنوعی را تسریع کرده است.
سایر بازیگران اصلی اهداف مشابهی را دنبال میکنند:
- ByteDance: شرکت مادر TikTok نیز طبق گزارشها در تلاش است تا تراشههای جایگزین، از جمله گزینههای داخلی، را برای جاهطلبیهای هوش مصنوعی خود که شامل الگوریتمهای توصیه، هوش مصنوعی مولد و موارد دیگر میشود، تأمین و استفاده کند.
- DeepSeek: این استارتآپ هوش مصنوعی که به خاطر مدلهای قدرتمند منبع باز خود شناخته شده است، به صراحت به کارایی آموزش اشاره میکند و مدلهایی را با استفاده از معماری MoE توسعه داده است که با استراتژیهایی که کمتر به داشتن ناوگان عظیمی از تنها قدرتمندترین GPUها وابسته هستند، همسو است.
- Baidu، Tencent و دیگران: همه شرکتهای بزرگ ابری و فناوری چینی به شدت در هوش مصنوعی سرمایهگذاری میکنند و به ناچار در حال بررسی استراتژیهای تنوعبخشی سختافزاری، از جمله بهینهسازی برای تراشههای داخلی و به طور بالقوه توسعه سیلیکون سفارشی خود هستند.
پیام جمعی روشن است: در حالی که دسترسی به محصولات سطح بالای Nvidia همچنان مطلوب است، صنعت فناوری چین فعالانه در حال توسعه و اعتبارسنجی راهحلهای جایگزین است. این شامل یک رویکرد چندجانبه است: پذیرش معماریهای مدل کارآمد مانند MoE، بهینهسازی شدید نرمافزار برای بکاندهای سختافزاری مختلف، و حمایت از توسعه و پذیرش تراشههای تولید داخل.
فراتر از مدلهای زبانی: گسترش هوش مصنوعی Ant در مراقبتهای بهداشتی
تلاشهای هوش مصنوعی Ant Group فراتر از LLMهای بنیادی است. همزمان با اخبار مربوط به کاراییهای آموزشی آن، این شرکت از ارتقاء قابل توجهی در مجموعه راهحلهای هوش مصنوعی خود که برای بخش مراقبتهای بهداشتی طراحی شدهاند، رونمایی کرد. این ابتکار از یک مدل هوش مصنوعی متمایز و خود توسعه یافته متمرکز بر مراقبتهای بهداشتی استفاده میکند.
راهحلهای ارتقا یافته دارای قابلیتهای چندوجهی (پردازش انواع دادههای مختلف مانند متن، تصاویر و به طور بالقوه سایر دادههای پزشکی) و استدلال پزشکی پیچیده هستند. اینها در آنچه Ant به عنوان ‘ماشینهای همهکاره’ توصیف میکند، ادغام شدهاند، احتمالاً دستگاهها یا پلتفرمهایی که برای محیطهای بالینی یا مدیریت سلامت طراحی شدهاند.
در حالی که به نظر میرسد از اخبار LLM Ling-Plus-Base جدا باشد، یک ارتباط بالقوه اساسی وجود دارد. توانایی آموزش مدلهای هوش مصنوعی قدرتمند به صورت مقرونبهصرفهتر، به طور بالقوه با استفاده از ترکیبی از سختافزارها از جمله گزینههای داخلی، میتواند زیربنای دوام اقتصادی توسعه و استقرار مدلهای تخصصی برای بخشهایی مانند مراقبتهای بهداشتی باشد. کاهش هزینههای بنیادی توسعه هوش مصنوعی به منابع اجازه میدهد تا به برنامههای کاربردی خاص دامنه هدایت شوند و به طور بالقوه عرضه ابزارهای عملی هوش مصنوعی را در صنایع حیاتی تسریع کنند. این فشار در حوزه مراقبتهای بهداشتی بر جاهطلبی Ant برای به کارگیری گسترده تخصص هوش مصنوعی خود، فراتر از ریشههای فینتک آن، تأکید میکند.
پیامدها برای آینده: دو شاخه شدن در جاده هوش مصنوعی؟
آموزش موفقیتآمیز یک مدل MoE مقیاس بزرگ توسط Ant Group با استفاده از GPUهای غیر Nvidia و احتمالاً داخلی، پیامدهای قابل توجهی دارد:
- اعتبارسنجی برای تراشههای داخلی: این به عنوان یک نقطه اثبات حیاتی برای دوام شتابدهندههای هوش مصنوعی طراحی شده چینی مانند Ascend هوآوی عمل میکند و به طور بالقوه پذیرش آنها را در چین افزایش میدهد.
- چشمانداز رقابتی: این نشان میدهد که شرکتهای چینی میتوانند علیرغم محدودیتها، با استفاده از نوآوری معماری و نرمافزاری، در توسعه هوش مصنوعی پیشرفته رقابتی باقی بمانند.
- پویایی هزینه: کاهش هزینه 20 درصدی یک مزیت رقابتی بالقوه را برای شرکتهایی که قادر به استفاده مؤثر از سختافزار جایگزین هستند، برجسته میکند و به طور بالقوه بر قیمتگذاری و دسترسی جهانی هوش مصنوعی تأثیر میگذارد.
- موقعیت Nvidia: در حالی که Nvidia در سطح جهانی همچنان غالب است، این روند چالشهایی را که به دلیل مقررات و ظهور رقبای محلی در بازار قابل توجه چین با آن مواجه است، برجسته میکند. این ممکن است توسعه تراشههای سازگار با صادرات Nvidia را که برای چین طراحی شدهاند تسریع کند، اما همچنین مسیر جایگزین را تأیید میکند.
- انشعاب فناورانه؟: در بلندمدت، واگرایی مداوم در دسترسی به سختافزار و بهینهسازی نرمافزار میتواند منجر به اکوسیستمهای هوش مصنوعی تا حدی متمایز شود، با مدلها و ابزارهایی که برای سیلیکونهای زیربنایی مختلف بهینه شدهاند.
سفری که تیم Ling در Ant Group طی کرده است، نمادی از تدبیر و کاردانی است که توسط محدودیتهای ژئوپلیتیکی برانگیخته شده است. آنها با ترکیب هوشمندانه معماریهای پیشرفته مدل مانند MoE با تمایل به بهینهسازی و استفاده از سختافزار داخلی موجود، مسیری را ترسیم کردهاند که پیشرفت مداوم در زمینه حیاتی هوش مصنوعی را تضمین میکند و به طور بالقوه ساختارهای هزینه و وابستگیهای استراتژیکی را که این صنعت را تعریف میکنند، تغییر شکل میدهد. این گواهی بر این ایده است که نوآوری اغلب در زیر فشار به پربارترین شکل خود شکوفا میشود.