رویکرد نوآورانه Ant در آموزش مدل هوش مصنوعی
گروه Ant، غول فینتک تحت حمایت جک ما، با بهرهگیری از نیمهرساناهای چینی، به یک موفقیت چشمگیر در زمینه هوش مصنوعی دست یافته است. این رویکرد نوآورانه، این شرکت را قادر ساخته تا تکنیکهایی را برای آموزش مدلهای هوش مصنوعی توسعه دهد که منجر به کاهش چشمگیر 20 درصدی هزینهها شده است. منابع آگاه فاش کردهاند که Ant از تراشههای داخلی، از جمله تراشههای شرکت وابسته خود یعنی Alibaba Group Holding Ltd. و Huawei Technologies Co.، برای آموزش مدلها با استفاده از رویکرد یادگیری ماشین Mixture of Experts (MoE) استفاده کرده است.
نتایج بهدستآمده توسط Ant با نتایج حاصل از استفاده از تراشههای Nvidia Corp.، مانند H800، پردازنده قدرتمندی که صادرات آن به چین توسط ایالات متحده محدود شده است، قابل مقایسه بود. در حالی که Ant همچنان از Nvidia برای توسعه هوش مصنوعی استفاده میکند، به طور فزایندهای برای جدیدترین مدلهای خود به جایگزینهایی از جمله Advanced Micro Devices Inc. (AMD) و تراشههای چینی متکی است.
ورود به رقابت هوش مصنوعی: چین در مقابل ایالات متحده
ورود Ant به عرصه توسعه مدلهای هوش مصنوعی، این شرکت را مستقیماً در میان رقابت شدید بین شرکتهای چینی و آمریکایی قرار میدهد. این رقابت از زمانی که DeepSeek پتانسیل آموزش مدلهای بسیار توانمند را با کسری از هزینههای متحمل شده توسط غولهای صنعتی مانند OpenAI و Alphabet Inc.’s Google، که میلیاردها دلار سرمایهگذاری کردهاند، نشان داد، تشدید شده است. دستاورد Ant بر عزم شرکتهای چینی برای استفاده از جایگزینهای داخلی برای پیشرفتهترین نیمهرساناهای Nvidia تأکید میکند.
وعده استنتاج هوش مصنوعی مقرونبهصرفه
مقاله تحقیقاتی منتشر شده توسط Ant در این ماه، پتانسیل مدلهای خود را برجسته میکند و ادعا میکند که عملکرد برتری در معیارهای خاصی در مقایسه با Meta Platforms Inc. دارد، اگرچه این ادعاها به طور مستقل توسط Bloomberg News تأیید نشدهاند. با این وجود، اگر پلتفرمهای Ant همانطور که تبلیغ میشوند عمل کنند، میتوانند پیشرفت قابل توجهی در توسعه هوش مصنوعی چین باشند. این امر عمدتاً به دلیل توانایی آنها در کاهش چشمگیر هزینه استنتاج است، که فرآیند پشتیبانی از خدمات هوش مصنوعی است.
Mixture of Experts: تغییر دهنده بازی در هوش مصنوعی
با توجه به اینکه شرکتها منابع قابل توجهی را به هوش مصنوعی اختصاص میدهند، مدلهای MoE به عنوان یک رویکرد محبوب و کارآمد برجسته شدهاند. این تکنیک، که توسط شرکتهایی مانند Google و استارتآپ مستقر در هانگژو DeepSeek به کار گرفته شده است، شامل تقسیم وظایف به مجموعههای کوچکتری از دادهها میشود. این شبیه به داشتن تیمی از متخصصان است که هر کدام بر بخش خاصی از یک کار تمرکز میکنند و در نتیجه فرآیند کلی را بهینه میکنند.
غلبه بر تنگنای GPU
به طور سنتی، آموزش مدلهای MoE به شدت به تراشههای با کارایی بالا، مانند واحدهای پردازش گرافیکی (GPU) تولید شده توسط Nvidia متکی بوده است. هزینه گزاف این تراشهها مانع بزرگی برای بسیاری از شرکتهای کوچکتر بوده و پذیرش گسترده مدلهای MoE را محدود کرده است. با این حال، Ant به طور مداوم در حال کار بر روی روشهایی برای آموزش مدلهای زبان بزرگ (LLM) به طور کارآمدتر بوده است و به طور موثر این محدودیت را از بین میبرد. عنوان مقاله تحقیقاتی آنها، که هدف آن مقیاسبندی یک مدل “بدون GPU های ممتاز” است، به وضوح این هدف را منعکس میکند.
به چالش کشیدن سلطه Nvidia
رویکرد Ant مستقیماً استراتژی غالب مورد حمایت جنسن هوانگ، مدیرعامل Nvidia را به چالش میکشد. هوانگ همواره استدلال کرده است که تقاضای محاسباتی، حتی با ظهور مدلهای کارآمدتر مانند R1 DeepSeek، همچنان افزایش خواهد یافت. او معتقد است که شرکتها به جای تراشههای ارزانتر برای کاهش هزینهها، به تراشههای بهتری برای تولید درآمد بیشتر نیاز خواهند داشت. در نتیجه، Nvidia تمرکز خود را بر ساخت GPU های بزرگ با هستههای پردازشی، ترانزیستورها و ظرفیت حافظه افزایش یافته حفظ کرده است.
کمیسازی صرفهجویی در هزینهها
Ant ارقام مشخصی را برای نشان دادن مقرونبهصرفه بودن رویکرد بهینهشده خود ارائه کرده است. این شرکت اعلام کرد که آموزش 1 تریلیون توکن با استفاده از سختافزار با کارایی بالا تقریباً 6.35 میلیون یوان (880,000 دلار) هزینه خواهد داشت. با این حال، با استفاده از سختافزار با مشخصات پایینتر و تکنیکهای بهینهشده خود، Ant میتواند این هزینه را به 5.1 میلیون یوان کاهش دهد. توکنها واحدهای اطلاعاتی هستند که یک مدل برای یادگیری در مورد جهان و ارائه پاسخهای مرتبط به پرسشهای کاربر پردازش میکند.
بهرهگیری از پیشرفتهای هوش مصنوعی برای راهحلهای صنعتی
Ant قصد دارد از پیشرفتهای اخیر خود در مدلهای زبان بزرگ، به ویژه Ling-Plus و Ling-Lite، برای توسعه راهحلهای هوش مصنوعی صنعتی برای بخشهایی مانند مراقبتهای بهداشتی و مالی استفاده کند. این مدلها برای رفع نیازهای خاص صنعت و ارائه راهحلهای متناسب طراحی شدهاند.
گسترش کاربردهای هوش مصنوعی در مراقبتهای بهداشتی
تعهد Ant به مراقبتهای بهداشتی در ادغام پلتفرم آنلاین چینی Haodf.com در خدمات هوش مصنوعی آن مشهود است. Ant از طریق ایجاد AI Doctor Assistant، قصد دارد از شبکه گسترده 290,000 پزشک Haodf با کمک به وظایفی مانند مدیریت سوابق پزشکی پشتیبانی کند. این کاربرد هوش مصنوعی پتانسیل بهبود قابل توجهی در کارایی و دقت در ارائه مراقبتهای بهداشتی را دارد.
دستیار مبتنی بر هوش مصنوعی برای زندگی روزمره
فراتر از مراقبتهای بهداشتی، Ant همچنین یک برنامه دستیار زندگی هوش مصنوعی به نام Zhixiaobao و یک سرویس مشاوره مالی هوش مصنوعی به نام Maxiaocai را توسعه داده است. این برنامهها جاهطلبی Ant را برای ادغام هوش مصنوعی در جنبههای مختلف زندگی روزمره نشان میدهند و به کاربران کمکهای شخصی و هوشمند ارائه میدهند.
محکزنی عملکرد: مدلهای Ling در مقابل رقبا
Ant در مقاله تحقیقاتی خود ادعا میکند که مدل Ling-Lite در یک معیار کلیدی برای درک زبان انگلیسی از یکی از مدلهای Llama متا پیشی گرفته است. علاوه بر این، هر دو مدل Ling-Lite و Ling-Plus عملکرد برتری را در مقایسه با معادلهای DeepSeek در معیارهای زبان چینی نشان دادند. این امر موقعیت رقابتی Ant را در چشمانداز هوش مصنوعی برجسته میکند.
همانطور که رابین یو، مدیر ارشد فناوری شرکت ارائهدهنده راهحلهای هوش مصنوعی مستقر در پکن، Shengshang Tech Co.، به درستی بیان کرد: “اگر یک نقطه حمله برای شکست دادن بهترین استاد کونگ فوی جهان پیدا کنید، همچنان میتوانید بگویید که آنها را شکست دادهاید، به همین دلیل است که کاربرد در دنیای واقعی مهم است.”
متنباز برای همکاری و نوآوری
Ant مدلهای Ling را متنباز کرده است و همکاری و نوآوری را در جامعه هوش مصنوعی تقویت میکند. Ling-Lite شامل 16.8 میلیارد پارامتر است که تنظیمات قابل تنظیمی هستند که عملکرد مدل را کنترل میکنند. از سوی دیگر، Ling-Plus دارای 290 میلیارد پارامتر به طور قابل توجهی بزرگتر است که آن را در میان مدلهای زبان بزرگتر قرار میدهد. برای ارائه زمینه، کارشناسان تخمین میزنند که GPT-4.5 ChatGPT تقریباً 1.8 تریلیون پارامتر دارد، در حالی که DeepSeek-R1 دارای 671 میلیارد پارامتر است.
رسیدگی به چالشها در آموزش مدل
سفر Ant در توسعه این مدلها بدون چالش نبوده است. این شرکت در زمینههای خاصی از آموزش، به ویژه در مورد ثبات، با مشکلاتی مواجه شد. حتی تغییرات جزئی در سختافزار یا ساختار مدل میتواند منجر به مشکلاتی از جمله نوسانات در نرخ خطای مدلها شود. این امر پیچیدگی و حساسیت دخیل در آموزش مدلهای پیشرفته هوش مصنوعی را نشان میدهد.
استقرار در دنیای واقعی در مراقبتهای بهداشتی
تعهد Ant به کاربردهای عملی با استقرار ماشینهای مدل بزرگ متمرکز بر مراقبتهای بهداشتی بیشتر نشان داده میشود. این ماشینها در حال حاضر توسط هفت بیمارستان و ارائهدهنده مراقبتهای بهداشتی در شهرهای بزرگ مانند پکن و شانگهای مورد استفاده قرار میگیرند. مدل بزرگ از DeepSeek R1، Qwen Alibaba و LLM خود Ant برای ارائه خدمات مشاوره پزشکی استفاده میکند.
عوامل هوش مصنوعی برای خدمات بهداشتی پیشرفته
علاوه بر ماشینهای مدل بزرگ، Ant دو عامل هوش مصنوعی پزشکی را معرفی کرده است: Angel و Yibaoer. Angel در حال حاضر به بیش از 1000 مرکز پزشکی خدمات ارائه میدهد، در حالی که Yibaoer از خدمات بیمه درمانی پشتیبانی میکند. علاوه بر این، در سپتامبر سال گذشته، Ant سرویس AI Healthcare Manager را در برنامه پرداخت Alipay خود راهاندازی کرد و دامنه دسترسی خود را در بخش مراقبتهای بهداشتی گسترش داد. این ابتکارات نشاندهنده تعهد Ant به استفاده از هوش مصنوعی برای دگرگونی و بهبود ارائه مراقبتهای بهداشتی است.