Инновационный подход Ant к обучению ИИ-моделей
Ant Group, финтех-гигант, поддерживаемый Джеком Ма, добился значительного прорыва в области искусственного интеллекта, используя китайские полупроводники. Этот инновационный подход позволил компании разработать методы обучения моделей ИИ, что привело к значительному снижению затрат на 20%. Источники, знакомые с ситуацией, сообщили, что Ant использовала отечественные чипы, в том числе от своей дочерней компании Alibaba Group Holding Ltd. и Huawei Technologies Co., для обучения моделей с использованием подхода машинного обучения Mixture of Experts (MoE).
Результаты, достигнутые Ant, были сопоставимы с результатами, полученными при использовании чипов Nvidia Corp., таких как H800, мощного процессора, экспорт которого в Китай ограничен США. Хотя Ant продолжает использовать Nvidia для разработки ИИ, компания все больше полагается на альтернативы, включая Advanced Micro Devices Inc. (AMD) и китайские чипы, для своих новейших моделей.
Вступление в гонку ИИ: Китай против США
Выход Ant на рынок разработки ИИ-моделей ставит ее в центр острой конкуренции между китайскими и американскими компаниями. Эта гонка усилилась с тех пор, как DeepSeek продемонстрировал потенциал обучения высокопроизводительных моделей за небольшую часть затрат, понесенных такими отраслевыми гигантами, как OpenAI и Alphabet Inc.’s Google, которые инвестировали миллиарды. Достижение Ant подчеркивает решимость китайских компаний использовать местные альтернативы самым передовым полупроводникам Nvidia.
Перспективы экономически эффективного вывода ИИ
Исследовательская работа, опубликованная Ant в этом месяце, подчеркивает потенциал ее моделей, заявляя о превосходной производительности в определенных тестах по сравнению с Meta Platforms Inc., хотя эти утверждения не были независимо проверены Bloomberg News. Тем не менее, если платформы Ant будут работать так, как заявлено, они могут представлять собой значительный прогресс в развитии китайского искусственного интеллекта. Это в первую очередь связано с их способностью значительно снизить стоимость вывода, то есть процесса поддержки ИИ-сервисов.
Mixture of Experts: революция в ИИ
По мере того, как компании вкладывают значительные ресурсы в ИИ, модели MoE приобрели известность как популярный и эффективный подход. Этот метод, используемый такими компаниями, как Google и стартапом DeepSeek из Ханчжоу, включает разделение задач на меньшие наборы данных. Это аналогично наличию команды специалистов, каждый из которых фокусируется на определенном сегменте работы, тем самым оптимизируя общий процесс.
Преодоление узкого места GPU
Традиционно обучение моделей MoE в значительной степени зависело от высокопроизводительных чипов, таких как графические процессоры (GPU), производимые Nvidia. Заоблачная стоимость этих чипов была серьезным препятствием для многих небольших фирм, ограничивая широкое распространение моделей MoE. Ant, однако, усердно работала над методами более эффективного обучения больших языковых моделей (LLM), фактически устраняя это ограничение. Название их исследовательской работы, в которой поставлена цель масштабировать модель ‘без премиальных GPU’, четко отражает эту цель.
Бросая вызов доминированию Nvidia
Подход Ant напрямую бросает вызов преобладающей стратегии, которую отстаивает генеральный директор Nvidia Дженсен Хуанг. Хуанг последовательно утверждал, что вычислительный спрос будет продолжать расти, даже с появлением более эффективных моделей, таких как R1 от DeepSeek. Он считает, что компаниям потребуются более совершенные чипы для получения более высокой прибыли, а не более дешевые для снижения затрат. Следовательно, Nvidia сохранила свою ориентацию на создание больших GPU с улучшенными процессорными ядрами, транзисторами и увеличенной емкостью памяти.
Количественная оценка экономии затрат
Ant предоставила конкретные цифры, демонстрирующие экономическую эффективность своего оптимизированного подхода. Компания заявила, что обучение 1 триллиона токенов с использованием высокопроизводительного оборудования обойдется примерно в 6,35 миллиона юаней (880 000 долларов США). Однако, используя оборудование с более низкими характеристиками и свои оптимизированные методы, Ant может снизить эту стоимость до 5,1 миллиона юаней. Токены представляют собой единицы информации, которые модель обрабатывает, чтобы узнать о мире и предоставить релевантные ответы на запросы пользователей.
Использование прорывов в области ИИ для промышленных решений
Ant планирует извлечь выгоду из своих недавних достижений в области больших языковых моделей, в частности Ling-Plus и Ling-Lite, для разработки промышленных ИИ-решений для таких секторов, как здравоохранение и финансы. Эти модели предназначены для удовлетворения конкретных отраслевых потребностей и предоставления индивидуальных решений.
Расширение применения ИИ в здравоохранении
Приверженность Ant здравоохранению очевидна в интеграции китайской онлайн-платформы Haodf.com в ее сервисы искусственного интеллекта. Создавая AI Doctor Assistant, Ant стремится поддерживать обширную сеть Haodf, насчитывающую 290 000 врачей, помогая с такими задачами, как ведение медицинских записей. Это применение ИИ может значительно повысить эффективность и точность оказания медицинской помощи.
Помощь на базе ИИ в повседневной жизни
Помимо здравоохранения, Ant также разработала приложение-помощник на базе ИИ под названием Zhixiaobao и службу финансовых консультаций на базе ИИ под названием Maxiaocai. Эти приложения демонстрируют стремление Ant интегрировать ИИ в различные аспекты повседневной жизни, предоставляя пользователям персонализированную и интеллектуальную помощь.
Сравнительный анализ производительности: модели Ling против конкурентов
В своей исследовательской работе Ant утверждает, что модель Ling-Lite превзошла одну из моделей Llama от Meta в ключевом тесте на понимание английского языка. Кроме того, модели Ling-Lite и Ling-Plus продемонстрировали превосходную производительность по сравнению с эквивалентами DeepSeek в тестах на китайском языке. Это подчеркивает конкурентные позиции Ant в области ИИ.
Как метко заметил Робин Ю, главный технический директор пекинского поставщика ИИ-решений Shengshang Tech Co.: ‘Если вы найдете одну точку атаки, чтобы победить лучшего в мире мастера кунг-фу, вы все равно можете сказать, что победили их, поэтому реальное применение важно’.
Открытый исходный код для сотрудничества и инноваций
Ant сделала модели Ling с открытым исходным кодом, способствуя сотрудничеству и инновациям в сообществе ИИ. Ling-Lite содержит 16,8 миллиарда параметров, которые являются настраиваемыми параметрами, контролирующими производительность модели. Ling-Plus, с другой стороны, может похвастаться значительно большим количеством параметров - 290 миллиардами, что ставит ее в число более крупных языковых моделей. Для сравнения, эксперты оценивают, что GPT-4.5 ChatGPT имеет примерно 1,8 триллиона параметров, а DeepSeek-R1 - 671 миллиард.
Решение проблем в обучении моделей
Путь Ant к разработке этих моделей не обошелся без проблем. Компания столкнулась с трудностями в определенных областях обучения, особенно в отношении стабильности. Даже незначительные изменения в оборудовании или структуре модели могли привести к проблемам, включая колебания частоты ошибок моделей. Это подчеркивает сложность и чувствительность, связанные с обучением передовых моделей ИИ.
Реальное развертывание в здравоохранении
Приверженность Ant практическому применению еще раз демонстрируется развертыванием машин с большими моделями, ориентированными на здравоохранение. Эти машины в настоящее время используются семью больницами и поставщиками медицинских услуг в крупных городах, таких как Пекин и Шанхай. Большая модель использует DeepSeek R1, Qwen от Alibaba и собственную LLM Ant для предоставления консультационных услуг по медицинским вопросам.
ИИ-агенты для улучшения медицинских услуг
В дополнение к машинам с большими моделями Ant представила двух медицинских ИИ-агентов: Angel и Yibaoer. Angel уже обслужил более 1000 медицинских учреждений, а Yibaoer оказывает поддержку службам медицинского страхования. Кроме того, в сентябре прошлого года Ant запустила службу AI Healthcare Manager в своем платежном приложении Alipay, еще больше расширив свое присутствие в секторе здравоохранения. Эти инициативы демонстрируют стремление Ant использовать ИИ для преобразования и улучшения оказания медицинской помощи.