پیشگامی Ant در هوش مصنوعی با تراشه‌های چینی

رویکرد نوآورانه Ant در آموزش مدل هوش مصنوعی

گروه Ant، غول فین‌تک تحت حمایت جک ما، با بهره‌گیری از نیمه‌رساناهای چینی، به یک موفقیت چشمگیر در زمینه هوش مصنوعی دست یافته است. این رویکرد نوآورانه، این شرکت را قادر ساخته تا تکنیک‌هایی را برای آموزش مدل‌های هوش مصنوعی توسعه دهد که منجر به کاهش چشمگیر 20 درصدی هزینه‌ها شده است. منابع آگاه فاش کرده‌اند که Ant از تراشه‌های داخلی، از جمله تراشه‌های شرکت وابسته خود یعنی Alibaba Group Holding Ltd. و Huawei Technologies Co.، برای آموزش مدل‌ها با استفاده از رویکرد یادگیری ماشین Mixture of Experts (MoE) استفاده کرده است.

نتایج به‌دست‌آمده توسط Ant با نتایج حاصل از استفاده از تراشه‌های Nvidia Corp.، مانند H800، پردازنده قدرتمندی که صادرات آن به چین توسط ایالات متحده محدود شده است، قابل مقایسه بود. در حالی که Ant همچنان از Nvidia برای توسعه هوش مصنوعی استفاده می‌کند، به طور فزاینده‌ای برای جدیدترین مدل‌های خود به جایگزین‌هایی از جمله Advanced Micro Devices Inc. (AMD) و تراشه‌های چینی متکی است.

ورود به رقابت هوش مصنوعی: چین در مقابل ایالات متحده

ورود Ant به عرصه توسعه مدل‌های هوش مصنوعی، این شرکت را مستقیماً در میان رقابت شدید بین شرکت‌های چینی و آمریکایی قرار می‌دهد. این رقابت از زمانی که DeepSeek پتانسیل آموزش مدل‌های بسیار توانمند را با کسری از هزینه‌های متحمل شده توسط غول‌های صنعتی مانند OpenAI و Alphabet Inc.’s Google، که میلیاردها دلار سرمایه‌گذاری کرده‌اند، نشان داد، تشدید شده است. دستاورد Ant بر عزم شرکت‌های چینی برای استفاده از جایگزین‌های داخلی برای پیشرفته‌ترین نیمه‌رساناهای Nvidia تأکید می‌کند.

وعده استنتاج هوش مصنوعی مقرون‌به‌صرفه

مقاله تحقیقاتی منتشر شده توسط Ant در این ماه، پتانسیل مدل‌های خود را برجسته می‌کند و ادعا می‌کند که عملکرد برتری در معیارهای خاصی در مقایسه با Meta Platforms Inc. دارد، اگرچه این ادعاها به طور مستقل توسط Bloomberg News تأیید نشده‌اند. با این وجود، اگر پلتفرم‌های Ant همانطور که تبلیغ می‌شوند عمل کنند، می‌توانند پیشرفت قابل توجهی در توسعه هوش مصنوعی چین باشند. این امر عمدتاً به دلیل توانایی آنها در کاهش چشمگیر هزینه استنتاج است، که فرآیند پشتیبانی از خدمات هوش مصنوعی است.

Mixture of Experts: تغییر دهنده بازی در هوش مصنوعی

با توجه به اینکه شرکت‌ها منابع قابل توجهی را به هوش مصنوعی اختصاص می‌دهند، مدل‌های MoE به عنوان یک رویکرد محبوب و کارآمد برجسته شده‌اند. این تکنیک، که توسط شرکت‌هایی مانند Google و استارت‌آپ مستقر در هانگژو DeepSeek به کار گرفته شده است، شامل تقسیم وظایف به مجموعه‌های کوچکتری از داده‌ها می‌شود. این شبیه به داشتن تیمی از متخصصان است که هر کدام بر بخش خاصی از یک کار تمرکز می‌کنند و در نتیجه فرآیند کلی را بهینه می‌کنند.

غلبه بر تنگنای GPU

به طور سنتی، آموزش مدل‌های MoE به شدت به تراشه‌های با کارایی بالا، مانند واحدهای پردازش گرافیکی (GPU) تولید شده توسط Nvidia متکی بوده است. هزینه گزاف این تراشه‌ها مانع بزرگی برای بسیاری از شرکت‌های کوچکتر بوده و پذیرش گسترده مدل‌های MoE را محدود کرده است. با این حال، Ant به طور مداوم در حال کار بر روی روش‌هایی برای آموزش مدل‌های زبان بزرگ (LLM) به طور کارآمدتر بوده است و به طور موثر این محدودیت را از بین می‌برد. عنوان مقاله تحقیقاتی آنها، که هدف آن مقیاس‌بندی یک مدل “بدون GPU های ممتاز” است، به وضوح این هدف را منعکس می‌کند.

به چالش کشیدن سلطه Nvidia

رویکرد Ant مستقیماً استراتژی غالب مورد حمایت جنسن هوانگ، مدیرعامل Nvidia را به چالش می‌کشد. هوانگ همواره استدلال کرده است که تقاضای محاسباتی، حتی با ظهور مدل‌های کارآمدتر مانند R1 DeepSeek، همچنان افزایش خواهد یافت. او معتقد است که شرکت‌ها به جای تراشه‌های ارزان‌تر برای کاهش هزینه‌ها، به تراشه‌های بهتری برای تولید درآمد بیشتر نیاز خواهند داشت. در نتیجه، Nvidia تمرکز خود را بر ساخت GPU های بزرگ با هسته‌های پردازشی، ترانزیستورها و ظرفیت حافظه افزایش یافته حفظ کرده است.

کمی‌سازی صرفه‌جویی در هزینه‌ها

Ant ارقام مشخصی را برای نشان دادن مقرون‌به‌صرفه بودن رویکرد بهینه‌شده خود ارائه کرده است. این شرکت اعلام کرد که آموزش 1 تریلیون توکن با استفاده از سخت‌افزار با کارایی بالا تقریباً 6.35 میلیون یوان (880,000 دلار) هزینه خواهد داشت. با این حال، با استفاده از سخت‌افزار با مشخصات پایین‌تر و تکنیک‌های بهینه‌شده خود، Ant می‌تواند این هزینه را به 5.1 میلیون یوان کاهش دهد. توکن‌ها واحدهای اطلاعاتی هستند که یک مدل برای یادگیری در مورد جهان و ارائه پاسخ‌های مرتبط به پرسش‌های کاربر پردازش می‌کند.

بهره‌گیری از پیشرفت‌های هوش مصنوعی برای راه‌حل‌های صنعتی

Ant قصد دارد از پیشرفت‌های اخیر خود در مدل‌های زبان بزرگ، به ویژه Ling-Plus و Ling-Lite، برای توسعه راه‌حل‌های هوش مصنوعی صنعتی برای بخش‌هایی مانند مراقبت‌های بهداشتی و مالی استفاده کند. این مدل‌ها برای رفع نیازهای خاص صنعت و ارائه راه‌حل‌های متناسب طراحی شده‌اند.

گسترش کاربردهای هوش مصنوعی در مراقبت‌های بهداشتی

تعهد Ant به مراقبت‌های بهداشتی در ادغام پلتفرم آنلاین چینی Haodf.com در خدمات هوش مصنوعی آن مشهود است. Ant از طریق ایجاد AI Doctor Assistant، قصد دارد از شبکه گسترده 290,000 پزشک Haodf با کمک به وظایفی مانند مدیریت سوابق پزشکی پشتیبانی کند. این کاربرد هوش مصنوعی پتانسیل بهبود قابل توجهی در کارایی و دقت در ارائه مراقبت‌های بهداشتی را دارد.

دستیار مبتنی بر هوش مصنوعی برای زندگی روزمره

فراتر از مراقبت‌های بهداشتی، Ant همچنین یک برنامه دستیار زندگی هوش مصنوعی به نام Zhixiaobao و یک سرویس مشاوره مالی هوش مصنوعی به نام Maxiaocai را توسعه داده است. این برنامه‌ها جاه‌طلبی Ant را برای ادغام هوش مصنوعی در جنبه‌های مختلف زندگی روزمره نشان می‌دهند و به کاربران کمک‌های شخصی و هوشمند ارائه می‌دهند.

محک‌زنی عملکرد: مدل‌های Ling در مقابل رقبا

Ant در مقاله تحقیقاتی خود ادعا می‌کند که مدل Ling-Lite در یک معیار کلیدی برای درک زبان انگلیسی از یکی از مدل‌های Llama متا پیشی گرفته است. علاوه بر این، هر دو مدل Ling-Lite و Ling-Plus عملکرد برتری را در مقایسه با معادل‌های DeepSeek در معیارهای زبان چینی نشان دادند. این امر موقعیت رقابتی Ant را در چشم‌انداز هوش مصنوعی برجسته می‌کند.

همانطور که رابین یو، مدیر ارشد فناوری شرکت ارائه‌دهنده راه‌حل‌های هوش مصنوعی مستقر در پکن، Shengshang Tech Co.، به درستی بیان کرد: “اگر یک نقطه حمله برای شکست دادن بهترین استاد کونگ فوی جهان پیدا کنید، همچنان می‌توانید بگویید که آنها را شکست داده‌اید، به همین دلیل است که کاربرد در دنیای واقعی مهم است.”

متن‌باز برای همکاری و نوآوری

Ant مدل‌های Ling را متن‌باز کرده است و همکاری و نوآوری را در جامعه هوش مصنوعی تقویت می‌کند. Ling-Lite شامل 16.8 میلیارد پارامتر است که تنظیمات قابل تنظیمی هستند که عملکرد مدل را کنترل می‌کنند. از سوی دیگر، Ling-Plus دارای 290 میلیارد پارامتر به طور قابل توجهی بزرگتر است که آن را در میان مدل‌های زبان بزرگتر قرار می‌دهد. برای ارائه زمینه، کارشناسان تخمین می‌زنند که GPT-4.5 ChatGPT تقریباً 1.8 تریلیون پارامتر دارد، در حالی که DeepSeek-R1 دارای 671 میلیارد پارامتر است.

رسیدگی به چالش‌ها در آموزش مدل

سفر Ant در توسعه این مدل‌ها بدون چالش نبوده است. این شرکت در زمینه‌های خاصی از آموزش، به ویژه در مورد ثبات، با مشکلاتی مواجه شد. حتی تغییرات جزئی در سخت‌افزار یا ساختار مدل می‌تواند منجر به مشکلاتی از جمله نوسانات در نرخ خطای مدل‌ها شود. این امر پیچیدگی و حساسیت دخیل در آموزش مدل‌های پیشرفته هوش مصنوعی را نشان می‌دهد.

استقرار در دنیای واقعی در مراقبت‌های بهداشتی

تعهد Ant به کاربردهای عملی با استقرار ماشین‌های مدل بزرگ متمرکز بر مراقبت‌های بهداشتی بیشتر نشان داده می‌شود. این ماشین‌ها در حال حاضر توسط هفت بیمارستان و ارائه‌دهنده مراقبت‌های بهداشتی در شهرهای بزرگ مانند پکن و شانگهای مورد استفاده قرار می‌گیرند. مدل بزرگ از DeepSeek R1، Qwen Alibaba و LLM خود Ant برای ارائه خدمات مشاوره پزشکی استفاده می‌کند.

عوامل هوش مصنوعی برای خدمات بهداشتی پیشرفته

علاوه بر ماشین‌های مدل بزرگ، Ant دو عامل هوش مصنوعی پزشکی را معرفی کرده است: Angel و Yibaoer. Angel در حال حاضر به بیش از 1000 مرکز پزشکی خدمات ارائه می‌دهد، در حالی که Yibaoer از خدمات بیمه درمانی پشتیبانی می‌کند. علاوه بر این، در سپتامبر سال گذشته، Ant سرویس AI Healthcare Manager را در برنامه پرداخت Alipay خود راه‌اندازی کرد و دامنه دسترسی خود را در بخش مراقبت‌های بهداشتی گسترش داد. این ابتکارات نشان‌دهنده تعهد Ant به استفاده از هوش مصنوعی برای دگرگونی و بهبود ارائه مراقبت‌های بهداشتی است.