Ant Group: Ставка на китайские ИИ-чипы

Высокие ставки в глобальной гонке за аппаратным обеспечением ИИ

Ландшафт разработки искусственного интеллекта все больше определяется не только алгоритмическими прорывами, но и доступом к сложному аппаратному обеспечению, необходимому для обучения и запуска массивных моделей. В основе этого аппаратного уравнения лежит графический процессор (GPU), компонент, изначально разработанный для рендеринга изображений, но теперь незаменимый для требований параллельной обработки ИИ. В течение многих лет корпорация Nvidia была неоспоримым титаном в этой области, ее передовые GPU стали золотым стандартом, стимулируя инновации в Silicon Valley и за ее пределами. Однако это доминирование поставило компанию и ее клиентов прямо под перекрестный огонь геополитической напряженности.

Введение Вашингтоном строгих экспортных контролей, направленных на ограничение доступа Китая к передовым полупроводниковым технологиям, коренным образом изменило рынок. Эти ограничения конкретно нацелены на высокопроизводительные GPU, подобные тем, что производит Nvidia, которые считаются критически важными для передовых приложений ИИ, включая те, что имеют потенциальное военное применение. Непосредственным эффектом стала лихорадочная активность в бурно развивающемся технологическом секторе Китая. Компании, активно инвестирующие в ИИ, от признанных гигантов до амбициозных стартапов, столкнулись с внезапной перспективой быть отрезанными от основных инструментов, движущих следующую волну технологического прогресса. Это создало неотложную необходимость: найти жизнеспособные альтернативы или рисковать отставанием в глобально конкурентной области. Задача заключалась не просто в замене одного чипа другим; она включала навигацию по сложной сети различий в производительности, проблем совместимости программного обеспечения и огромного масштаба, необходимого для обучения моделей с сотнями миллиардов или даже триллионами параметров.

Ant Group прокладывает курс к вычислительной независимости

На фоне этой неопределенности в цепочках поставок и эскалации технологического соперничества Ant Group, финтех-гигант, связанный с Alibaba Group Holding, сигнализировал о значительном шаге к большей вычислительной самодостаточности. Недавние разоблачения, подробно изложенные в исследовательской работе команды Ling компании – подразделения, возглавляющего ее инициативы в области больших языковых моделей (LLM) – указывают на успешное отклонение от пути, ориентированного на Nvidia. Суть этого достижения заключается в их способности эффективно обучать сложную модель ИИ с использованием GPU отечественного производства.

Рассматриваемая модель, названная Ling-Plus-Base, не является легковесной. Она разработана с использованием архитектуры Mixture-of-Experts (MoE), техники, набирающей популярность благодаря своей эффективности в масштабировании LLM. Обладая внушительными 300 миллиардами параметров, Ling-Plus-Base работает в лиге, сравнимой с другими известными глобальными моделями. Однако решающим отличием является аппаратное обеспечение, лежащее в основе ее обучения. Согласно результатам исследования, эта мощная модель может быть доведена до зрелости на том, что команда описывает как ‘устройства с более низкой производительностью’. Эта тщательно подобранная фраза прямо указывает на использование процессорных блоков, которые выходят за рамки экспортных ограничений США, что убедительно подразумевает использование чипов, разработанных и произведенных в Китае.

Это развитие – больше, чем просто техническое обходное решение; оно представляет собой потенциальный стратегический поворот. Демонстрируя способность обучать передовые модели, не полагаясь исключительно на самое высокоуровневое, ограниченное иностранное оборудование, Ant Group не только снижает риски в цепочке поставок, но и потенциально открывает значительную экономию затрат.

Экономическое уравнение: сокращение затрат на обучение

Одной из самых убедительных цифр, вытекающих из исследования команды Ling, является сообщаемое снижение вычислительных затрат на 20 процентов на критическом этапе предварительного обучения модели Ling-Plus-Base. Предварительное обучение печально известно своей ресурсоемкостью, включающей подачу модели огромных наборов данных для изучения языковых паттернов, контекста и знаний. Оно составляет основную часть общих расходов, связанных с разработкой фундаментальных LLM. Таким образом, достижение сокращения затрат на одну пятую на этом этапе означает существенную экономию, потенциально высвобождая капитал для дальнейших исследований, разработок или развертывания в масштабе.

Как достигается эта экономия затрат? Хотя в статье не детализируется точная структура затрат, вероятно, способствуют несколько факторов:

  1. Закупка оборудования: GPU отечественного производства, даже если они менее мощные по отдельности, чем топовые предложения Nvidia, могут иметь более низкую закупочную цену или предлагать более выгодные оптовые скидки на китайском рынке, особенно учитывая ограниченное предложение высокопроизводительных чипов Nvidia.
  2. Энергоэффективность: Хотя это прямо не указано, оптимизация обучения для потенциально менее энергоемких (хотя, возможно, менее производительных на единицу) отечественных чипов может способствовать снижению эксплуатационных затрат на энергию, что является значительным фактором при эксплуатации крупных центров обработки данных.
  3. Алгоритмическая и архитектурная оптимизация: Использование самой архитектуры MoE является ключевым. Модели MoE активируют только определенные ‘экспертные’ подсети для данного входа, а не задействуют всю модель, как плотные архитектуры. Эта присущая разреженность может значительно снизить вычислительную нагрузку как во время обучения, так и во время вывода, делая возможным достижение хороших результатов даже с меньшей сырой вычислительной мощностью на чип. Успех Ant предполагает сложную настройку программного обеспечения и алгоритмов для максимизации эффективности доступного отечественного оборудования.

Это снижение затрат – не просто бухгалтерская выгода; оно снижает барьер для входа в разработку крупномасштабных моделей и может ускорить темпы инноваций в области ИИ внутри компании и, потенциально, во всей китайской технологической экосистеме, если методы окажутся воспроизводимыми.

Паритет производительности: преодоление разрыва в оборудовании?

Экономия затрат привлекательна, но она мало что значит, если результирующая модель ИИ значительно уступает в производительности. Команда Ling из Ant напрямую обращается к этому вопросу, утверждая, что Ling-Plus-Base достигает производительности, сравнимой с другими хорошо зарекомендовавшими себя моделями в этой области. В частности, они сравнили свое творение с такими моделями, как Qwen2.5-72B-Instruct (разработанной материнской компанией Alibaba) и DeepSeek-V2.5-1210-Chat, еще одной известной китайской LLM.

Утверждение о ‘сравнимой производительности’ несмотря на использование ‘устройств с более низкой производительностью’ заслуживает внимания. Оно предполагает, что Ant потенциально нашла эффективные способы компенсации любого дефицита сырой вычислительной мощности через:

  • Продвинутую архитектуру модели: Дизайн MoE играет здесь важную роль, эффективно распределяя рабочую нагрузку.
  • Оптимизацию программного обеспечения: Адаптация стека программного обеспечения для обучения (например, фреймворков параллелизации и числовых библиотек) специально под архитектуру используемых отечественных GPU имеет решающее значение. Это часто требует значительных инженерных усилий.
  • Курирование данных и техники обучения: Сложные методы отбора обучающих данных и совершенствования самого процесса обучения могут значительно повлиять на конечное качество модели, иногда компенсируя аппаратные ограничения.

Важно подходить к заявлениям о производительности с нюансами. ‘Сравнимый’ может охватывать диапазон результатов по различным бенчмаркам (например, понимание языка, рассуждение, генерация, кодирование). Без доступа к подробным результатам бенчмарков по нескольким стандартизированным тестам точное сравнение остается сложным. Однако само утверждение сигнализирует об уверенности Ant в том, что ее подход не требует критического компромисса между стоимостью/доступностью и возможностями. Оно демонстрирует путь к поддержанию конкурентоспособности даже в рамках ограничений, налагаемых аппаратными ограничениями.

Сами исследователи подчеркнули более широкие последствия: ‘Эти результаты демонстрируют осуществимость обучения передовых крупномасштабных моделей MoE на менее мощном оборудовании, обеспечивая более гибкий и экономически эффективный подход к разработке фундаментальных моделей в отношении выбора вычислительных ресурсов’. Это указывает на своего рода демократизацию, позволяющую продолжать разработку передового ИИ даже при ограниченном доступе к абсолютной вершине вычислительной мощности.

Понимание преимущества Mixture-of-Experts (MoE)

Архитектура Mixture-of-Experts занимает центральное место в сообщаемом успехе Ant Group. Она представляет собой отход от традиционных ‘плотных’ моделей нейронных сетей, где каждый вход активирует каждый параметр. В модели MoE:

  • Модель состоит из множества меньших, специализированных ‘экспертных’ сетей.
  • Механизм ‘управляющей сети’ или ‘маршрутизатора’ учится направлять входящие данные (токены, в случае LLM) к наиболее релевантному(ым) эксперту(ам) для обработки.
  • Только выбранный(е) эксперт(ы) – часто всего один или два из потенциально сотен – выполняют вычисления для этого конкретного фрагмента данных.

Этот подход предлагает несколько ключевых преимуществ, особенно актуальных в контексте аппаратных ограничений:

  1. Масштабируемость: MoE позволяет моделям расти до огромного количества параметров (триллионы становятся осуществимыми) без пропорционального увеличения вычислительных затрат на обработку каждого входного токена во время вывода или даже во время шагов обучения. Это происходит потому, что в любой момент времени активна только часть общих параметров.
  2. Эффективность обучения: Хотя обучение моделей MoE имеет свои сложности (например, балансировка нагрузки между экспертами), сокращение вычислений на токен может привести к более быстрому времени обучения или, как демонстрирует Ant, к способности эффективно обучаться на менее мощном оборудовании в разумные сроки.
  3. Специализация: Каждый эксперт потенциально может специализироваться на различных типах данных, задачах или областях знаний, что потенциально приводит к более высокому качеству результатов в конкретных областях.

Ведущие лаборатории ИИ по всему миру приняли MoE, включая Google (GShard, Switch Transformer), Mistral AI (модели Mixtral), а в Китае – компании, такие как DeepSeek и Alibaba (чьи модели Qwen включают элементы MoE). Ling-Plus-Base от Ant твердо ставит ее в этот авангард, используя архитектурные инновации для навигации по аппаратным реалиям.

Отечественная экосистема аппаратного обеспечения: заполнение пустоты Nvidia

Хотя в исследовательской работе Ant не указывалось явно используемое оборудование, последующие сообщения, в частности от Bloomberg, указывали, что достижение включало чипы отечественной разработки. Сюда входят процессоры, потенциально происходящие от аффилированной с Ant компании Alibaba, у которой есть собственное подразделение по разработке чипов T-Head (производящее CPU, такие как Yitian 710, и ранее исследовавшее ИИ-ускорители), и, что крайне важно, Huawei Technologies.

Huawei, несмотря на то, что сама столкнулась с интенсивными санкциями США, агрессивно разрабатывает свою серию ИИ-ускорителей Ascend (например, Ascend 910B) как прямую альтернативу предложениям Nvidia на китайском рынке. Сообщается, что эти чипы внедряются крупными китайскими технологическими фирмами. Способность Ant Group эффективно использовать такое оборудование для модели размером с Ling-Plus-Base стала бы значительным подтверждением этих отечественных альтернатив.

Крайне важно отметить, что Ant Group не полностью отказалась от Nvidia. Сообщения предполагают, что чипы Nvidia остаются частью инструментария разработки ИИ Ant, вероятно, используемые для задач, где их специфические характеристики производительности или зрелая программная экосистема (например, CUDA) предлагают преимущества, или для устаревших систем. Этот шаг не обязательно означает полную замену за одну ночь, а скорее создание жизнеспособных, параллельных путей, которые снижают стратегическую уязвимость и контролируют затраты. Этот гибридный подход позволяет компании использовать лучшие доступные инструменты, одновременно культивируя независимость. Сама Ant Group сохранила определенную корпоративную сдержанность, отказавшись официально комментировать конкретные используемые чипы.

Более широкая тенденция: коллективный рывок Китая к самодостаточности в ИИ

Инициатива Ant Group не происходит изолированно. Она отражает более широкий стратегический рывок во всем технологическом секторе Китая к инновациям в обход ограничений, налагаемых экспортным контролем США. ‘Технологическая война’ катализировала усилия по достижению большей самодостаточности в критически важных технологиях, особенно в полупроводниках и ИИ.

Другие крупные игроки преследуют схожие цели:

  • ByteDance: Материнская компания TikTok также, по сообщениям, работает над обеспечением и использованием альтернативных чипов, включая отечественные варианты, для своих амбиций в области ИИ, которые охватывают рекомендательные алгоритмы, генеративный ИИ и многое другое.
  • DeepSeek: Этот стартап в области ИИ, известный своими мощными моделями с открытым исходным кодом, явно упоминает эффективность обучения и разработал модели с использованием архитектуры MoE, что соответствует стратегиям, менее зависимым от наличия огромных парков только самых мощных GPU.
  • Baidu, Tencent и другие: Все крупные китайские облачные и технологические компании активно инвестируют в ИИ и неизбежно изучают стратегии диверсификации оборудования, включая оптимизацию под отечественные чипы и потенциальную разработку собственных специализированных кремниевых решений.

Коллективное послание ясно: хотя доступ к топовым продуктам Nvidia остается желательным, китайская технологическая индустрия активно разрабатывает и проверяет альтернативные решения. Это включает многосторонний подход: принятие эффективных архитектур моделей, таких как MoE, интенсивную оптимизацию программного обеспечения для различных аппаратных бэкендов, а также поддержку разработки и внедрения чипов отечественного производства.

За пределами языковых моделей: экспансия ИИ Ant в здравоохранение

Усилия Ant Group в области ИИ выходят за рамки фундаментальных LLM. Одновременно с новостями об эффективности обучения компания представила значительные обновления своего набора ИИ-решений, адаптированных для сектора здравоохранения. Эта инициатива использует отдельную, самостоятельно разработанную модель ИИ, ориентированную на здравоохранение.

Обновленные решения обладают мультимодальными возможностями (обработка различных типов данных, таких как текст, изображения и потенциально другие медицинские данные) и сложным медицинским рассуждением. Они интегрированы в то, что Ant описывает как ‘машины все-в-одном’, предположительно устройства или платформы, предназначенные для клинических условий или управления здоровьем.

Хотя это кажется отдельным от новостей о LLM Ling-Plus-Base, существует потенциальная скрытая связь. Способность обучать мощные модели ИИ более экономично, потенциально используя сочетание оборудования, включая отечественные варианты, может лежать в основе экономической жизнеспособности разработки и развертывания специализированных моделей для таких секторов, как здравоохранение. Снижение фундаментальных затрат на разработку ИИ позволяет направить ресурсы на приложения для конкретных областей, потенциально ускоряя внедрение практических инструментов ИИ в критически важных отраслях. Этот рывок в здравоохранение подчеркивает амбиции Ant по широкому применению своего опыта в области ИИ, выходя за рамки своих финтех-корней.

Последствия для будущего: развилка на пути ИИ?

Успешное обучение Ant Group крупномасштабной модели MoE с использованием не-Nvidia, вероятно, отечественных GPU, несет значительные последствия:

  • Подтверждение для отечественных чипов: Это служит важным доказательством жизнеспособности китайских ИИ-ускорителей, таких как Ascend от Huawei, потенциально стимулируя их внедрение в Китае.
  • Конкурентный ландшафт: Это демонстрирует, что китайские компании могут оставаться конкурентоспособными в передовой разработке ИИ несмотря на ограничения, используя архитектурные и программные инновации.
  • Динамика затрат: Снижение затрат на 20% подчеркивает потенциальное конкурентное преимущество для компаний, способных эффективно использовать альтернативное оборудование, потенциально влияя на глобальное ценообразование и доступность ИИ.
  • Позиция Nvidia: Хотя Nvidia остается доминирующей в мире, эта тенденция подчеркивает проблемы, с которыми она сталкивается на значительном китайском рынке из-за регулирования и роста местных конкурентов. Это может ускорить разработку Nvidia экспортно-совместимых чипов, адаптированных для Китая, но также подтверждает альтернативный путь.
  • Технологическая бифуркация?: В долгосрочной перспективе продолжающееся расхождение в доступе к оборудованию и оптимизации программного обеспечения может привести к частично различным экосистемам ИИ, с моделями и инструментами, оптимизированными для разного базового кремния.

Путь, пройденный командой Ling из Ant Group, символизирует находчивость, стимулируемую геополитическими ограничениями. Умно сочетая передовые архитектуры моделей, такие как MoE, с готовностью оптимизировать и использовать доступное отечественное оборудование, они проложили курс, обеспечивающий непрерывный прогресс в критически важной области искусственного интеллекта, потенциально изменяя структуры затрат и стратегические зависимости, определяющие отрасль. Это свидетельство идеи о том, что инновации часто процветают наиболее ярко под давлением.