Ant: IA com Chips Chineses

Abordagem Inovadora da Ant para o Treinamento de Modelos de IA

A Ant Group, gigante fintech apoiada por Jack Ma, alcançou um avanço significativo em inteligência artificial ao aproveitar semicondutores de fabricação chinesa. Essa abordagem inovadora permitiu à empresa desenvolver técnicas para treinar modelos de IA, resultando em uma notável redução de 20% nos custos. Fontes familiarizadas com o assunto revelaram que a Ant utilizou chips domésticos, incluindo aqueles de sua afiliada Alibaba Group Holding Ltd. e da Huawei Technologies Co., para treinar modelos usando a abordagem de aprendizado de máquina Mixture of Experts (MoE).

Os resultados alcançados pela Ant foram comparáveis aos obtidos com o uso de chips da Nvidia Corp., como o H800, um poderoso processador com exportação restrita para a China pelos EUA. Embora a Ant continue a usar a Nvidia para o desenvolvimento de IA, está cada vez mais contando com alternativas, incluindo Advanced Micro Devices Inc. (AMD) e chips chineses, para seus modelos mais recentes.

Entrando na Corrida da IA: China vs. EUA

A incursão da Ant no desenvolvimento de modelos de IA a coloca em meio a uma competição acirrada entre empresas chinesas e americanas. Essa corrida se intensificou desde que a DeepSeek demonstrou o potencial de treinar modelos altamente capazes a uma fração do custo incorrido por gigantes da indústria como OpenAI e Google da Alphabet Inc., que investiram bilhões. A conquista da Ant ressalta a determinação das empresas chinesas em utilizar alternativas de origem local aos semicondutores mais avançados da Nvidia.

A Promessa de Inferência de IA com Custo-Benefício

O artigo de pesquisa publicado pela Ant este mês destaca o potencial de seus modelos, alegando desempenho superior em certos benchmarks em comparação com a Meta Platforms Inc., embora essas alegações não tenham sido verificadas independentemente pela Bloomberg News. No entanto, se as plataformas da Ant funcionarem como anunciado, elas poderão representar um avanço significativo no desenvolvimento da inteligência artificial chinesa. Isso se deve principalmente à sua capacidade de reduzir drasticamente o custo da inferência, que é o processo de suporte a serviços de IA.

Mixture of Experts: Uma Mudança de Jogo na IA

À medida que as empresas investem recursos substanciais em IA, os modelos MoE ganharam destaque como uma abordagem popular e eficiente. Essa técnica, empregada por empresas como Google e a startup DeepSeek, com sede em Hangzhou, envolve a divisão de tarefas em conjuntos menores de dados. Isso é análogo a ter uma equipe de especialistas, cada um focando em um segmento específico de um trabalho, otimizando assim o processo geral.

Superando o Gargalo da GPU

Tradicionalmente, o treinamento de modelos MoE tem dependido fortemente de chips de alto desempenho, como as unidades de processamento gráfico (GPUs) fabricadas pela Nvidia. O custo proibitivo desses chips tem sido um grande obstáculo para muitas empresas menores, limitando a adoção generalizada de modelos MoE. A Ant, no entanto, tem trabalhado diligentemente em métodos para treinar modelos de linguagem grandes (LLMs) de forma mais eficiente, eliminando efetivamente essa restrição. O título de seu artigo de pesquisa, que define o objetivo de dimensionar um modelo “sem GPUs premium”, reflete claramente esse objetivo.

Desafiando o Domínio da Nvidia

A abordagem da Ant desafia diretamente a estratégia predominante defendida pelo CEO da Nvidia, Jensen Huang. Huang argumentou consistentemente que a demanda computacional continuará a crescer, mesmo com o surgimento de modelos mais eficientes como o R1 da DeepSeek. Ele acredita que as empresas precisarão de chips melhores para gerar maior receita, em vez de chips mais baratos para reduzir custos. Consequentemente, a Nvidia manteve seu foco na construção de grandes GPUs com núcleos de processamento aprimorados, transistores e maior capacidade de memória.

Quantificando a Economia de Custos

A Ant forneceu números concretos para demonstrar a relação custo-benefício de sua abordagem otimizada. A empresa afirmou que treinar 1 trilhão de tokens usando hardware de alto desempenho custaria aproximadamente 6,35 milhões de yuans (US$ 880.000). No entanto, ao utilizar hardware de especificação inferior e suas técnicas otimizadas, a Ant pode reduzir esse custo para 5,1 milhões de yuans. Tokens representam as unidades de informação que um modelo processa para aprender sobre o mundo e fornecer respostas relevantes às consultas do usuário.

Aproveitando os Avanços da IA para Soluções Industriais

A Ant planeja capitalizar seus recentes avanços em modelos de linguagem grandes, especificamente Ling-Plus e Ling-Lite, para desenvolver soluções de IA industrial para setores como saúde e finanças. Esses modelos são projetados para atender às necessidades específicas do setor e fornecer soluções personalizadas.

Expandindo as Aplicações de IA na Área da Saúde

O compromisso da Ant com a saúde é evidente em sua integração da plataforma online chinesa Haodf.com em seus serviços de inteligência artificial. Através da criação do AI Doctor Assistant, a Ant visa apoiar a extensa rede de 290.000 médicos da Haodf, auxiliando em tarefas como gerenciamento de registros médicos. Esta aplicação de IA tem o potencial de melhorar significativamente a eficiência e a precisão na prestação de cuidados de saúde.

Assistência com IA para a Vida Cotidiana

Além da saúde, a Ant também desenvolveu um aplicativo de ‘assistente de vida’ de IA chamado Zhixiaobao e um serviço de consultoria financeira de IA chamado Maxiaocai. Esses aplicativos demonstram a ambição da Ant de integrar a IA em vários aspectos da vida diária, fornecendo aos usuários assistência personalizada e inteligente.

Benchmarking de Desempenho: Modelos Ling vs. Concorrentes

Em seu artigo de pesquisa, a Ant afirma que o modelo Ling-Lite superou um dos modelos Llama da Meta em um benchmark chave para compreensão da língua inglesa. Além disso, os modelos Ling-Lite e Ling-Plus demonstraram desempenho superior em comparação com os equivalentes da DeepSeek em benchmarks de língua chinesa. Isso destaca a posição competitiva da Ant no cenário da IA.

Como Robin Yu, diretor de tecnologia da fornecedora de soluções de IA com sede em Pequim, Shengshang Tech Co., afirmou com propriedade: “Se você encontrar um ponto de ataque para vencer o melhor mestre de kung fu do mundo, você ainda pode dizer que os venceu, e é por isso que a aplicação no mundo real é importante.”

Código Aberto para Colaboração e Inovação

A Ant tornou os modelos Ling de código aberto, promovendo a colaboração e a inovação dentro da comunidade de IA. O Ling-Lite compreende 16,8 bilhões de parâmetros, que são configurações ajustáveis que controlam o desempenho do modelo. O Ling-Plus, por outro lado, possui 290 bilhões de parâmetros significativamente maiores, colocando-o entre os modelos de linguagem maiores. Para fornecer contexto, os especialistas estimam que o GPT-4.5 do ChatGPT tem aproximadamente 1,8 trilhão de parâmetros, enquanto o DeepSeek-R1 tem 671 bilhões.

Abordando os Desafios no Treinamento de Modelos

A jornada da Ant no desenvolvimento desses modelos não foi isenta de desafios. A empresa encontrou dificuldades em certas áreas de treinamento, particularmente em relação à estabilidade. Mesmo pequenas alterações no hardware ou na estrutura do modelo podem levar a problemas, incluindo flutuações na taxa de erro dos modelos. Isso ressalta a complexidade e a sensibilidade envolvidas no treinamento de modelos avançados de IA.

Implantação no Mundo Real na Área da Saúde

O compromisso da Ant com aplicações práticas é demonstrado ainda mais por sua implantação de máquinas de modelo grande focadas na saúde. Essas máquinas estão sendo utilizadas atualmente por sete hospitais e prestadores de serviços de saúde em grandes cidades como Pequim e Xangai. O modelo grande aproveita o DeepSeek R1, o Qwen da Alibaba e o próprio LLM da Ant para fornecer serviços de consultoria médica.

Agentes de IA para Serviços de Saúde Aprimorados

Além das máquinas de modelo grande, a Ant introduziu dois agentes médicos de IA: Angel e Yibaoer. Angel já atendeu mais de 1.000 instalações médicas, enquanto Yibaoer fornece suporte para serviços de seguro médico. Além disso, em setembro do ano anterior, a Ant lançou o serviço AI Healthcare Manager dentro de seu aplicativo de pagamentos Alipay, expandindo ainda mais seu alcance no setor de saúde. Essas iniciativas demonstram a dedicação da Ant em aproveitar a IA para transformar e melhorar a prestação de cuidados de saúde.