Иновативният подход на Ant за обучение на AI модели
Ant Group, финтех гигантът, подкрепян от Jack Ma, постигна значителен пробив в изкуствения интелект (AI), като използва китайски полупроводници. Този иновативен подход позволи на компанията да разработи техники за обучение на AI модели, което доведе до забележително намаляване на разходите с 20%. Източници, запознати с въпроса, разкриха, че Ant е използвал местни чипове, включително тези от свързаната с нея Alibaba Group Holding Ltd. и Huawei Technologies Co., за да обучава модели, използвайки подхода за машинно обучение Mixture of Experts (MoE).
Резултатите, постигнати от Ant, са сравними с тези, получени при използване на чипове на Nvidia Corp., като H800, мощен процесор, чийто износ за Китай е ограничен от САЩ. Докато Ant продължава да използва Nvidia за разработка на AI, компанията все повече разчита на алтернативи, включително Advanced Micro Devices Inc. (AMD) и китайски чипове, за най-новите си модели.
Включване в надпреварата за AI: Китай срещу САЩ
Навлизането на Ant в разработването на AI модели я поставя в центъра на ожесточената конкуренция между китайски и американски компании. Тази надпревара се засили, откакто DeepSeek демонстрира потенциала за обучение на високоспособни модели на малка част от разходите, направени от индустриални гиганти като OpenAI и Alphabet Inc.’s Google, които са инвестирали милиарди. Постижението на Ant подчертава решимостта на китайските компании да използват местни алтернативи на най-модерните полупроводници на Nvidia.
Обещанието за рентабилно AI заключение
Изследователската статия, публикувана от Ant този месец, подчертава потенциала на нейните модели, твърдейки превъзходна производителност в определени benchmarks в сравнение с Meta Platforms Inc., въпреки че тези твърдения не са независимо проверени от Bloomberg News. Независимо от това, ако платформите на Ant работят както се рекламира, те биха могли да представляват значителен напредък в развитието на китайския изкуствен интелект. Това се дължи предимно на способността им драстично да намалят разходите за извод (inferencing), което е процесът на поддържане на AI услуги.
Mixture of Experts: Промяна на играта в AI
Тъй като компаниите влагат значителни ресурси в AI, MoE моделите придобиха известност като популярен и ефективен подход. Тази техника, използвана от компании като Google и базирания в Ханджоу стартъп DeepSeek, включва разделяне на задачите на по-малки набори от данни. Това е аналогично на наличието на екип от специалисти, всеки от които се фокусира върху конкретен сегмент от дадена работа, като по този начин оптимизира цялостния процес.
Преодоляване на затруднението с GPU
Традиционно обучението на MoE модели разчита в голяма степен на високопроизводителни чипове, като например графичните процесори (GPU), произведени от Nvidia. Прекомерната цена на тези чипове е основна пречка за много по-малки фирми, ограничавайки широкото приемане на MoE модели. Ant обаче усърдно работи върху методи за по-ефективно обучение на големи езикови модели (LLMs), ефективно елиминирайки това ограничение. Заглавието на тяхната изследователска статия, което поставя за цел мащабиране на модел “без премиум GPU”, ясно отразява тази цел.
Оспорване на доминацията на Nvidia
Подходът на Ant директно оспорва преобладаващата стратегия, застъпвана от главния изпълнителен директор на Nvidia, Jensen Huang. Huang последователно твърди, че изчислителното търсене ще продължи да расте, дори с появата на по-ефективни модели като R1 на DeepSeek. Той вярва, че компаниите ще се нуждаят от по-добри чипове, за да генерират по-високи приходи, а не от по-евтини, за да намалят разходите. Следователно Nvidia запази фокуса си върху изграждането на големи GPU с подобрени процесорни ядра, транзистори и увеличен капацитет на паметта.
Количествено определяне на спестяванията на разходи
Ant предостави конкретни цифри, за да демонстрира рентабилността на своя оптимизиран подход. Компанията заяви, че обучението на 1 трилион токена, използвайки високопроизводителен хардуер, би струвало приблизително 6,35 милиона юана (880 000 долара). Въпреки това, използвайки хардуер с по-ниски спецификации и своите оптимизирани техники, Ant може да намали тези разходи до 5,1 милиона юана. Токените представляват единиците информация, които моделът обработва, за да научи за света и да предостави подходящи отговори на потребителски заявки.
Използване на пробивите в AI за индустриални решения
Ant планира да се възползва от последните си постижения в големите езикови модели, по-специално Ling-Plus и Ling-Lite, за да разработи индустриални AI решения за сектори като здравеопазване и финанси. Тези модели са предназначени да отговорят на специфичните нужди на индустрията и да предоставят персонализирани решения.
Разширяване на AI приложенията в здравеопазването
Ангажиментът на Ant към здравеопазването е очевиден в интегрирането на китайската онлайн платформа Haodf.com в нейните услуги за изкуствен интелект. Чрез създаването на AI Doctor Assistant, Ant има за цел да подпомогне обширната мрежа на Haodf от 290 000 лекари, като помага със задачи като управление на медицински досиета. Това приложение на AI има потенциала значително да подобри ефективността и точността в предоставянето на здравни грижи.
AI-базирана помощ за ежедневието
Освен здравеопазването, Ant разработи и приложение за AI “помощник в живота”, наречено Zhixiaobao, и услуга за финансови съвети с AI, наречена Maxiaocai. Тези приложения демонстрират амбицията на Ant да интегрира AI в различни аспекти на ежедневието, предоставяйки на потребителите персонализирана и интелигентна помощ.
Сравнителен анализ на производителността: Ling модели срещу конкуренти
В своята изследователска статия Ant твърди, че моделът Ling-Lite превъзхожда един от Llama моделите на Meta в ключов benchmark за разбиране на английски език. Освен това, както моделите Ling-Lite, така и Ling-Plus демонстрираха превъзходна производителност в сравнение с еквивалентите на DeepSeek на benchmarks за китайски език. Това подчертава конкурентната позиция на Ant в AI пейзажа.
Както Robin Yu, главен технологичен директор на базирания в Пекин доставчик на AI решения Shengshang Tech Co., уместно заяви: “Ако намерите една точка на атака, за да победите най-добрия кунг-фу майстор в света, все още можете да кажете, че сте ги победили, поради което приложението в реалния свят е важно.”
Отворен код за сътрудничество и иновации
Ant направи моделите Ling с отворен код, насърчавайки сътрудничеството и иновациите в рамките на AI общността. Ling-Lite се състои от 16,8 милиарда параметъра, които са регулируеми настройки, които контролират производителността на модела. Ling-Plus, от друга страна, може да се похвали със значително по-големи 290 милиарда параметъра, което го поставя сред по-големите езикови модели. За да се предостави контекст, експертите изчисляват, че GPT-4.5 на ChatGPT има приблизително 1,8 трилиона параметъра, докато DeepSeek-R1 има 671 милиарда.
Справяне с предизвикателствата при обучението на модели
Пътуването на Ant в разработването на тези модели не е било без предизвикателства. Компанията срещна трудности в определени области на обучението, особено по отношение на стабилността. Дори незначителни промени в хардуера или структурата на модела могат да доведат до проблеми, включително колебания в процента на грешки на моделите. Това подчертава сложността и чувствителността, свързани с обучението на усъвършенствани AI модели.
Внедряване в реалния свят в здравеопазването
Ангажиментът на Ant към практическите приложения е допълнително демонстриран от внедряването на машини с големи модели, фокусирани върху здравеопазването. Тези машини в момента се използват от седем болници и доставчици на здравни услуги в големи градове като Пекин и Шанхай. Големият модел използва DeepSeek R1, Qwen на Alibaba и собствения LLM на Ant, за да предоставя медицински консултантски услуги.
AI агенти за подобрени здравни услуги
В допълнение към машините с големи модели, Ant представи два медицински AI агента: Angel и Yibaoer. Angel вече е обслужил над 1000 медицински заведения, докато Yibaoer предоставя поддръжка за услуги за медицинско осигуряване. Освен това, през септември предходната година, Ant стартира услугата AI Healthcare Manager в рамките на своето приложение за плащания Alipay, разширявайки допълнително обхвата си в сектора на здравеопазването. Тези инициативи демонстрират отдадеността на Ant да използва AI за трансформиране и подобряване на предоставянето на здравни грижи.