Ant de Jack Ma: IA con chips chinos

El enfoque innovador de Ant para el entrenamiento de modelos de IA

Ant Group, el gigante de tecnología financiera respaldado por Jack Ma, ha logrado un avance significativo en inteligencia artificial al aprovechar los semiconductores de fabricación china. Este enfoque innovador ha permitido a la empresa desarrollar técnicas para entrenar modelos de IA, lo que ha resultado en una notable reducción del 20% en los costos. Fuentes familiarizadas con el asunto han revelado que Ant utilizó chips nacionales, incluidos los de su filial Alibaba Group Holding Ltd. y Huawei Technologies Co., para entrenar modelos utilizando el enfoque de aprendizaje automático Mixture of Experts (MoE).

Los resultados obtenidos por Ant fueron comparables a los obtenidos con los chips de Nvidia Corp., como el H800, un potente procesador cuya exportación a China está restringida por Estados Unidos. Si bien Ant continúa utilizando Nvidia para el desarrollo de IA, depende cada vez más de alternativas, incluidas Advanced Micro Devices Inc. (AMD) y chips chinos, para sus últimos modelos.

Entrando en la carrera de la IA: China vs. EE. UU.

La incursión de Ant en el desarrollo de modelos de IA la sitúa directamente en medio de una acalorada competencia entre empresas chinas y estadounidenses. Esta carrera se ha intensificado desde que DeepSeek demostró el potencial de entrenar modelos altamente capaces a una fracción del costo incurrido por gigantes de la industria como OpenAI y Google de Alphabet Inc., que han invertido miles de millones. El logro de Ant subraya la determinación de las empresas chinas de utilizar alternativas de origen local a los semiconductores Nvidia más avanzados.

La promesa de una inferencia de IA rentable

El documento de investigación publicado por Ant este mes destaca el potencial de sus modelos, afirmando un rendimiento superior en ciertos puntos de referencia en comparación con Meta Platforms Inc., aunque estas afirmaciones no han sido verificadas de forma independiente por Bloomberg News. Sin embargo, si las plataformas de Ant funcionan como se anuncia, podrían representar un avance significativo en el desarrollo de la inteligencia artificial china. Esto se debe principalmente a su capacidad para reducir drásticamente el costo de la inferencia, que es el proceso de soporte de los servicios de IA.

Mixture of Experts: un cambio de juego en la IA

A medida que las empresas invierten recursos sustanciales en IA, los modelos MoE han ganado prominencia como un enfoque popular y eficiente. Esta técnica, empleada por empresas como Google y la startup DeepSeek, con sede en Hangzhou, implica dividir las tareas en conjuntos de datos más pequeños. Esto es análogo a tener un equipo de especialistas, cada uno de los cuales se enfoca en un segmento específico de un trabajo, optimizando así el proceso general.

Superando el cuello de botella de la GPU

Tradicionalmente, el entrenamiento de modelos MoE ha dependido en gran medida de chips de alto rendimiento, como las unidades de procesamiento de gráficos (GPU) fabricadas por Nvidia. El costo prohibitivo de estos chips ha sido un obstáculo importante para muchas empresas más pequeñas, lo que limita la adopción generalizada de los modelos MoE. Ant, sin embargo, ha estado trabajando diligentemente en métodos para entrenar modelos de lenguaje grandes (LLM) de manera más eficiente, eliminando efectivamente esta restricción. El título de su documento de investigación, que establece el objetivo de escalar un modelo “sin GPU premium”, refleja claramente este objetivo.

Desafiando el dominio de Nvidia

El enfoque de Ant desafía directamente la estrategia predominante defendida por el CEO de Nvidia, Jensen Huang. Huang ha argumentado constantemente que la demanda computacional seguirá creciendo, incluso con la aparición de modelos más eficientes como el R1 de DeepSeek. Él cree que las empresas requerirán mejores chips para generar mayores ingresos, en lugar de chips más baratos para reducir costos. En consecuencia, Nvidia ha mantenido su enfoque en la construcción de GPU grandes con núcleos de procesamiento mejorados, transistores y mayor capacidad de memoria.

Cuantificación del ahorro de costos

Ant ha proporcionado cifras concretas para demostrar la rentabilidad de su enfoque optimizado. La compañía declaró que entrenar 1 billón de tokens utilizando hardware de alto rendimiento costaría aproximadamente 6,35 millones de yuanes (880.000 dólares). Sin embargo, al utilizar hardware de menor especificación y sus técnicas optimizadas, Ant puede reducir este costo a 5,1 millones de yuanes. Los tokens representan las unidades de información que un modelo procesa para aprender sobre el mundo y proporcionar respuestas relevantes a las consultas de los usuarios.

Aprovechando los avances de la IA para soluciones industriales

Ant planea capitalizar sus recientes avances en modelos de lenguaje grandes, específicamente Ling-Plus y Ling-Lite, para desarrollar soluciones de IA industrial para sectores como la atención médica y las finanzas. Estos modelos están diseñados para abordar las necesidades específicas de la industria y proporcionar soluciones personalizadas.

Ampliación de las aplicaciones de IA en el sector sanitario

El compromiso de Ant con la atención médica es evidente en su integración de la plataforma china en línea Haodf.com en sus servicios de inteligencia artificial. A través de la creación de AI Doctor Assistant, Ant tiene como objetivo apoyar la extensa red de 290.000 médicos de Haodf ayudando con tareas como la gestión de registros médicos. Esta aplicación de la IA tiene el potencial de mejorar significativamente la eficiencia y la precisión en la prestación de atención médica.

Asistencia impulsada por IA para la vida cotidiana

Más allá de la atención médica, Ant también ha desarrollado una aplicación de ‘asistente de vida’ de IA llamada Zhixiaobao y un servicio de asesoramiento financiero de IA llamado Maxiaocai. Estas aplicaciones demuestran la ambición de Ant de integrar la IA en varios aspectos de la vida diaria, brindando a los usuarios asistencia personalizada e inteligente.

Evaluación comparativa del rendimiento: modelos Ling frente a la competencia

En su documento de investigación, Ant afirma que el modelo Ling-Lite superó a uno de los modelos Llama de Meta en un punto de referencia clave para la comprensión del idioma inglés. Además, los modelos Ling-Lite y Ling-Plus demostraron un rendimiento superior en comparación con los equivalentes de DeepSeek en los puntos de referencia del idioma chino. Esto destaca la posición competitiva de Ant en el panorama de la IA.

Como Robin Yu, director de tecnología del proveedor de soluciones de IA con sede en Beijing, Shengshang Tech Co., declaró acertadamente: “Si encuentras un punto de ataque para vencer al mejor maestro de kung fu del mundo, aún puedes decir que los venciste, por lo que la aplicación en el mundo real es importante”.

Código abierto para la colaboración y la innovación

Ant ha hecho que los modelos Ling sean de código abierto, fomentando la colaboración y la innovación dentro de la comunidad de IA. Ling-Lite comprende 16.800 millones de parámetros, que son configuraciones ajustables que controlan el rendimiento del modelo. Ling-Plus, por otro lado, cuenta con 290 mil millones de parámetros significativamente mayores, lo que lo ubica entre los modelos de lenguaje más grandes. Para proporcionar contexto, los expertos estiman que GPT-4.5 de ChatGPT tiene aproximadamente 1,8 billones de parámetros, mientras que DeepSeek-R1 tiene 671 mil millones.

Abordar los desafíos en el entrenamiento de modelos

El viaje de Ant en el desarrollo de estos modelos no ha estado exento de desafíos. La compañía encontró dificultades en ciertas áreas de capacitación, particularmente en lo que respecta a la estabilidad. Incluso las modificaciones menores en el hardware o la estructura del modelo podrían generar problemas, incluidas fluctuaciones en la tasa de error de los modelos. Esto subraya la complejidad y la sensibilidad involucradas en el entrenamiento de modelos de IA avanzados.

Despliegue en el mundo real en el sector sanitario

El compromiso de Ant con las aplicaciones prácticas se demuestra aún más con su despliegue de máquinas de modelos grandes centradas en la atención médica. Estas máquinas están siendo utilizadas actualmente por siete hospitales y proveedores de atención médica en las principales ciudades como Beijing y Shanghai. El modelo grande aprovecha DeepSeek R1, Qwen de Alibaba y el propio LLM de Ant para brindar servicios de consultoría médica.

Agentes de IA para servicios de atención médica mejorados

Además de las máquinas de modelos grandes, Ant ha introducido dos agentes médicos de IA: Angel e Yibaoer. Angel ya ha prestado servicios a más de 1.000 centros médicos, mientras que Yibaoer brinda soporte para servicios de seguros médicos. Además, en septiembre del año anterior, Ant lanzó el servicio AI Healthcare Manager dentro de su aplicación de pagos Alipay, expandiendo aún más su alcance en el sector de la salud. Estas iniciativas demuestran la dedicación de Ant a aprovechar la IA para transformar y mejorar la prestación de atención médica.