IA en China: Encrucijada de los 'Pequeños Tigres'

La rápida evolución de la tecnología de IA en China ha traído tanto entusiasmo como incertidumbre para muchas startups. Alguna vez rebosantes de metas ambiciosas, algunas empresas ahora están recalibrando sus estrategias, enfrentando las duras realidades de un mercado competitivo y con uso intensivo de recursos.

De Grandes Visiones a Giros Estratégicos

Una reciente carta interna del CEO de uno de los ‘Pequeños Tigres’ de la IA en China, Baichuan Intelligent, marcó el segundo aniversario de la compañía y destacó un cambio estratégico. El enfoque se reduciría, priorizando las aplicaciones médicas. Esto contrastaba fuertemente con su misión inicial de crear un modelo fundamental innovador similar a OpenAI, completo con aplicaciones innovadoras.

De manera similar, Li Kaifu, fundador de otro ‘Pequeño Tigre’, 01.AI, anunció en enero que su compañía adoptaría un enfoque ‘pequeño pero hermoso’. Esta fue una desviación notable de la gran visión de construir una plataforma AI 2.0 para acelerar la llegada de AGI.

Estos retiros estratégicos han alimentado la especulación, con algunos observadores que sugieren que estos ‘Pequeños Tigres’ se están volviendo más como ‘gatos enfermos’. En un entorno marcado por el cambio constante, ¿cómo pueden estas compañías asegurar su futuro?

Para responder a esta pregunta, el equipo editorial de Zhiwei buscó información de varios expertos, incluyendo especialistas en tecnología de modelos grandes, expertos en IA en finanzas y atención médica, y expertos en tecnología de IA de compañías líderes.

El Efecto DeepSeek y las Estrategias Cambiantes

El panorama de la IA cambió dramáticamente tras la explosiva popularidad de DeepSeek, un modelo que sacudió el mercado. Como un guerrero formidable, DeepSeek interrumpió el panorama, obligando a muchas compañías de IA a reevaluar sus posiciones y seguir diferentes caminos.

Sin embargo, esta transformación comenzó incluso antes de lo que muchos se dieron cuenta. Según Wang Wenguang, un experto en tecnología de modelos grandes, algunas compañías chinas de IA comenzaron a abandonar la búsqueda de la formación de modelos grandes incluso antes del lanzamiento de DeepSeek V3 y R1. Los costos eran simplemente demasiado altos, y estas compañías sintieron que no podían competir con alternativas disponibles gratuitamente y de código abierto como DeepSeek V2.5 y Qwen 70B de Alibaba.

Liang He, un experto de una empresa de servicios de tecnología de IA, añadió que aunque la mayoría de los ‘Pequeños Tigres’ todavía estaban entrenando modelos grandes a mediados de 2024, su inversión ya había disminuido significativamente. Para enero de 2025, con el lanzamiento de DeepSeek R1, muchas compañías más pequeñas se dieron cuenta de que no podían seguir el ritmo.

Este cambio abrupto causó un cambio importante en la dirección de los ‘Pequeños Tigres’, alejándose del desarrollo de AGI hacia enfoques más especializados.

Baichuan y 01.AI han abandonado el pre-entrenamiento de modelos grandes, centrándose en la IA médica y la aplicación industrial, respectivamente. MiniMax está reduciendo sus operaciones B2B y centrándose en los mercados extranjeros con generación de video C-end y otras aplicaciones. Zhipu, Moonshot AI y StepUp todavía están activos en la comunidad de código abierto, pero no han producido ningún modelo nuevo que supere a DeepSeek R1. Zhipu ha asegurado una considerable financiación y asociaciones gobierno-empresa, asegurando su supervivencia. El producto principal de Moonshot AI, Kimi, ha visto su posición amenazada por Yuanbao, haciendo que su posicionamiento sea cada vez más incómodo.

En general, los ‘Pequeños Tigres’ están convergiendo cada vez más con el mercado SaaS B2B, que algunos consideran ‘sin imaginación’.

La Atracción y las Limitaciones del Mercado B2B

01.AI anunció recientemente su intención de integrar completamente DeepSeek para crear una plataforma de modelo grande empresarial integral para varias industrias. Sin embargo, este movimiento ha sido recibido con escepticismo.

Jiang Shao, un experto en IA financiera, cree que el futuro de 01.AI es incierto debido a su amplio enfoque, la falta de competitividad tecnológica tras la aparición de DeepSeek y las capacidades de comercialización limitadas.

Wang Wenguang se hizo eco de este sentimiento, señalando que la barrera técnica de entrada para una plataforma de modelo grande integral es relativamente baja.

Wang compartió su experiencia de desarrollar una plataforma de este tipo de forma independiente en unos seis meses, vendiéndola a través de canales personales. Argumentó que aunque es difícil obtener beneficios de este producto como compañía, puede ser rentable como una aventura en solitario.

Wang colabora con varias compañías B2B que ofrecen servicios de modelos grandes pero carecen de una plataforma técnica. Proporciona su plataforma a un bajo costo, alrededor de 40,000 a 50,000 yuanes por licencia, recortando significativamente a las compañías más grandes.

Su plataforma, KAF (Knowledge-based Agent Factory), utiliza gráficos de conocimiento, bases de datos vectoriales y motores de búsqueda para entregar aplicaciones de modelos grandes y Agent. Permite a los usuarios crear asistentes de conocimiento o Agents personalizados sin codificación a través de la gestión de prompts y modelos. Wang señaló la prevalencia de plataformas similares en el mercado, lo que facilita su réplica.

Según Wang, una compañía que busca desarrollar una aplicación de modelo grande B2B puede crear rápidamente un producto contratando un pequeño equipo de personas capacitadas o asociándose con una compañía de IA externa. Este enfoque es significativamente más barato que entrenar un modelo grande.

Además del modelo de plataforma, las soluciones integradas proporcionan hardware, software y entornos de ejecución, ofreciendo funcionalidad lista para usar. Zhang Sensen, jefe del grupo de plataformas tecnológicas de Ping An Insurance, cree que las soluciones integradas tienen un mercado viable, particularmente entre las instituciones gubernamentales y educativas con capacidades de despliegue técnico limitadas. Estas soluciones priorizan la facilidad de uso y la autonomía técnica, ofreciendo beneficios como la seguridad de los datos, el cumplimiento de la privacidad y la optimización de hardware-software. También pueden usar chips producidos domésticamente, evitando restricciones y mejorando la eficiencia. Las compañías que son sensibles a los costos y se centran en el ROI pueden encontrar atractivas las soluciones integradas debido a sus ciclos de vida más largos.

El mercado SaaS doméstico ha enfrentado históricamente desafíos como los altos requisitos de personalización, los productos genéricos y homogeneizados, la intensa competencia, las bajas estrategias de precios y un enfoque en la monetización a corto plazo. Los clientes en este mercado a menudo tienen bajos niveles de digitalización y una voluntad limitada de pagar.

En contraste, el mercado SaaS internacional enfatiza la especialización, con compañías que se concentran en áreas específicas y brindan servicios en profundidad a clientes grandes y medianos con una mayor disposición a pagar.

El campo de los modelos grandes refleja estas tendencias. Los eventos recientes en el mercado SaaS internacional demuestran esto:

  • En febrero de 2025, MongoDB adquirió Voyage AI, una startup de IA de 17 meses de edad centrada en modelos de incrustación y re-clasificación, por $220 millones.
  • En 2024, Amazon anunció un acuerdo de licencia de tecnología con Adept, una startup de AI Agent de dos años de edad, con algunos miembros de Adept uniéndose al equipo AGI de Amazon.

Estas startups lograron el éxito al centrarse en un nicho específico dentro de la tecnología de modelos grandes. Tales ejemplos son raros en China. Muchas pequeñas y medianas empresas deben protegerse constantemente contra las compañías más grandes que entran en su espacio.

Wang Wenguang, basándose en su amplia experiencia en el mercado B2B, describió sus duras realidades. Señaló que si bien existe un gran mercado para las plataformas integrales, está fragmentado. Las compañías más pequeñas con menores costos operativos pueden ofrecer precios competitivos, recortando a las compañías más grandes. Esto reduce el precio de los servicios de aplicación. Incluso las compañías grandes se enfrentan a la competencia de otras startups y integradores tradicionales. Las compañías grandes pueden tener sus propios modelos grandes y ventajas de marca, pero se enfrentan a estrategias comerciales B2B similares.

Como dijo Wang, ‘También estoy usando DeepSeek, y muchas otras compañías están usando DeepSeek, así que no hay diferenciación. Hay tantos proveedores de nube en China, así que habrá al menos tantos competidores. El mercado B2B doméstico siempre ha sido así; para sobrevivir, o tienes que tener conexiones fuertes, un buen servicio o precios bajos’.

Liang He ofreció una evaluación concisa de las elecciones actuales y las perspectivas futuras de 01.AI:

  • La decisión de Li Kaifu de cambiar completamente el negocio de 01.AI a aplicaciones B2B y promover una plataforma de modelo grande empresarial integral es comercialmente sólida pero conducirá a una intensa competencia.
  • La necesidad de 01.AI de ofrecer productos de modelos grandes a precios más bajos que las compañías más grandes es el resultado de su falta de ventajas únicas en la capa de aplicación.
  • El movimiento de 01.AI a B2B señala una pérdida de imaginación y proyectos menos ‘sexys’. Esto es similar al destino de muchas compañías de visión por computadora de la ola anterior de IA en 2017.
  • 01.AI puede tener oportunidades si explora los mercados extranjeros.

En comparación con 01.AI, las opiniones sobre el futuro de Baichuan son menos pesimistas.

Sin embargo, la entrada de Baichuan en el campo médico carece de ventajas únicas, especialmente en los datos.

Jiang Shao dijo que el cambio de Baichuan a médico es simplemente una forma de sobrevivir. Sin embargo, en comparación con 01.AI, Baichuan al menos está intentando entrar en un nicho de mercado.

Zhang Sensen declaró que es más optimista sobre las compañías con datos médicos que desarrollan modelos grandes médicos que las compañías tecnológicas. Esto se aplica a cualquier compañía que busque crear un modelo grande específico de la industria. El desafío clave en la creación de modelos grandes médicos radica en los datos, no en el modelo en sí. Hay muchos hospitales excelentes en China que pueden afinar un modelo grande utilizando DeepSeek para su propio uso.

¿Cómo se pueden obtener datos médicos de manera efectiva? Jiang Shao dijo que las startups de tecnología de IA carecen de ventajas en los datos. Para crear modelos grandes médicos, es posible que necesiten colaborar con compañías que ya brindan servicios de TI a los hospitales.

Según los informes, uno de los ‘Pequeños Tigres’ se ha asociado exclusivamente con un gran foro de intercambio de médicos nacionales para entrenar modelos utilizando la gran cantidad de casos generados a partir de los intercambios de médicos.

Además de una perspectiva más optimista sobre los nichos de mercado, los expertos de la industria tienen esperanzas para el fundador de Baichuan, Wang Xiaochuan.

Liang He cree que si Wang Xiaochuan tiene éxito en especializarse en medicina depende de si quiere perseguir un ideal o ganar dinero. Él cree que Wang está más inclinado a perseguir un ideal, creando resultados innovadores de investigación de IA médica.

Wang Wenguang enfatizó la naturaleza anticuada de este mercado. Afirmó que si el objetivo es la comercialización a corto plazo, el campo médico también es altamente competitivo, similar al mercado B2B en general. Muchas compañías pueden usar gráficos de conocimiento, búsquedas vectoriales y modelos grandes para aplicaciones médicas.

Según las discusiones de Zhiwei con expertos en IA médica, la investigación médica en sí misma tiene importantes lagunas de conocimiento, y el nuevo conocimiento está creciendo rápidamente. Por lo tanto, existe un potencial significativo para usar modelos grandes para llevar a cabo investigación básica médica. Por ejemplo, el modelo AlphaFold para la predicción de la estructura de proteínas ha sido utilizado por más de 1.8 millones de científicos en todo el mundo para acelerar la investigación, incluido el desarrollo de materiales bio-renovables y el avance de la investigación genética, según Meis Medical.

Además de perseguir un ideal o ganar dinero, la startup de IA médica también se enfrenta a la pregunta de si crear o no un modelo grande médico general.

Zhang Sensen declaró que no ha habido un avance en los modelos grandes médicos generales en el mercado interno, principalmente debido a la dependencia de equipos médicos potentes para la recopilación y aplicación de datos a gran escala. Muchas instalaciones médicas en China no se han popularizado ampliamente, lo que dificulta que la IA realice diagnósticos precisos. Sin embargo, algunos hospitales fuertes, como la Mayo Clinic, han comenzado a explorar el lanzamiento de sus propios modelos grandes. Aunque es difícil ver oportunidades de ganancias a corto plazo, este tipo de modelos grandes pueden tener un profundo impacto en la industria médica a largo plazo.

La industria médica también se enfrenta al desafío del diagnóstico totalmente automatizado, especialmente en el mercado interno, donde el equipo es inadecuado y la IA no puede reemplazar completamente los métodos de diagnóstico tradicionales. La falta de equipos médicos generalizados, especialmente en áreas remotas, dificulta la cobertura completa de la tecnología médica, por lo que el diagnóstico totalmente automatizado sigue siendo un desafío importante.

La industria médica tiene requisitos estrictos de licencias y cumplimiento, y los modelos grandes deben abordar los problemas de cumplimiento al ingresar al campo médico. Los futuros servicios médicos C-end pueden combinar las técnicas de los médicos y la IA para mejorar la eficiencia del diagnóstico y el tratamiento, especialmente para las generaciones más jóvenes.

Finalmente, incluso sin tener en cuenta las características del mercado B2B doméstico, la competencia en las aplicaciones de modelos grandes dificulta la supervivencia en el mercado To B. Wang Wenguang afirmó que si bien los modelos de diseño para los productos To B de modelos grandes aún se están explorando, eventualmente convergerán. Esto es cierto no solo en China sino también en las compañías tecnológicas de Silicon Valley como OpenAI, Anthropic y Google. Siempre que no haya una diferencia significativa en el rendimiento de los modelos en sí, es imposible ganar dinero en este mercado, y eventualmente todos estarán al mismo nivel.

Esta es la razón por la cual DeepSeek R1 ha tenido su mayor impacto no en China sino en el extranjero, especialmente en las compañías tecnológicas de Silicon Valley. El mercado de valores de EE. UU. comenzó a experimentar una alta volatilidad y luego a disminuir después del lanzamiento de R1. La lógica central es simple: los modelos grandes de Silicon Valley han sido alcanzados por China. Si bien no los superan, la incapacidad de ampliar la brecha ha imposibilitado el soporte de valoraciones tan altas, lo que lleva a una disminución en los precios de las acciones.

Por supuesto, hay otra forma para que el mercado To B atraiga clientes: código abierto. Los modelos de ganancias principales para el código abierto incluyen proporcionar funciones de nivel de pago, alojamiento en la nube y servicios de valor agregado como consultoría y capacitación a nivel empresarial basados en la tecnología de código abierto.

El efecto más directo de los modelos grandes de código abierto es promover la popularización de la tecnología. Zhang Sensen declaró que el código abierto de DeepSeek ha acelerado significativamente la aplicación de modelos grandes por parte de las compañías. La alta gerencia apoya mucho la aplicación de modelos grandes. A medida que los modelos grandes funcionan bien en aplicaciones prácticas, especialmente en la reducción de la intervención humana y el aumento de la eficiencia, el apoyo seguirá aumentando.

La industria financiera, como la industria con la mejor calidad de datos, siempre ha tenido una rica acumulación técnica en IA y puede mantenerse al día rápidamente. Independientemente de DeepSeek, las finanzas implementarán la tecnología de IA. Sin embargo, con DeepSeek, la IA no solo permitirá los negocios centrales de la industria financiera, sino que también se utilizará en tareas y operaciones de oficina diarias que antes eran difíciles de realizar.

Las operaciones solían ser muy costosas. Por ejemplo, el análisis de la causa raíz anteriormente requería el monitoreo de operaciones tradicional y AIOps, así como la capacitación de modelos pequeños. Ahora, DeepSeek se puede usar en conjunto con bases de conocimiento para generar planes de aplicación para manejar el monitoreo, las alarmas, el análisis de autoservicio y la trazabilidad, el procesamiento automatizado y la mejora de la estabilidad, que es más flexible que AIOps.

Además, la cobertura de la IA de las operaciones se ha vuelto más amplia, con una mayor consideración por la interactividad y la iniciativa. Iniciativa significa permitir que la IA realice proactivamente las operaciones. Al pasar de depender de reglas, humanos o incluso experiencia personal, donde el nivel de experiencia humana determinaba el nivel de capacidades de las operaciones, ahora se pueden usar modelos de IA más ligeros para lograr esto directamente.

Aunque la tasa de alucinaciones de DeepSeek sigue siendo alta, incluso no significativamente diferente de otros modelos similares, sus capacidades de razonamiento y aplicación práctica pueden compensar los efectos negativos de las alucinaciones. Este problema se mejorará gradualmente a través de la afinación y la optimización utilizando RAG y otras tecnologías relacionadas.

El experto en tecnología de modelos grandes de Alibaba, Gao Peng, cree que el impacto de DeepSeek varía para las compañías grandes y pequeñas:

Los modelos grandes utilizados internamente por Alibaba siempre han sido los más avanzados de la industria, por lo que la aparición de DeepSeek no ha tenido un impacto significativo. Alibaba utiliza DeepSeek para la evaluación del rendimiento y la comparación, proporcionando más una inspiración técnica. La implementación de DeepSeek en Reasoning es relativamente rápida, y los detalles técnicos son más comunes. DeepSeek también ha sido influenciado por Qianwen.

En contraste, DeepSeek tiene un mayor impacto en las compañías pequeñas y medianas, ya que anteriormente no había ningún modelo que pudiera lograr el efecto de DeepSeek al tiempo que proporcionaba una implementación privada de bajo costo. Después del lanzamiento de DeepSeek, han surgido muchas compañías que venden máquinas integradas de DeepSeek. Sin embargo, DeepSeek no es el más barato en comparación con muchas máquinas integradas de modelos de código abierto, dependiendo de los estándares específicos.

En cualquier caso, el modelo grande de código abierto nacional ahora está prosperando y puede competir a nivel mundial. Sin embargo, según la implementación de modelos grandes de Ping An Insurance, Zhang Sensen cree que los modelos grandes de código abierto todavía tienen limitaciones insuperables:

Para nosotros, DeepSeek tiene principalmente una gran ventaja de costos. En términos de capacidades, puede ser mejor que otros modelos en escenarios de operaciones en términos de razonamiento, capacidad de generalización y comprensión contextual. Sin embargo, DeepSeek no funciona bien en escenarios más complejos, como el control de riesgos financieros. Esto se debe a que se requiere una afinación aún más detallada o incluso una optimización en conjunto con otros modelos. Por lo tanto, se necesita una afinación dirigida basada en escenarios de aplicación específicos para mejorar aún más el rendimiento del modelo.

Los modelos grandes autodesarrollados de Ping An se dividen en dos capas: el modelo grande de base subyacente y los modelos de dominio responsables de la banca, los seguros y otros negocios. Los modelos grandes utilizados internamente funcionan mejor que DeepSeek en el campo del conocimiento profesional, especialmente en campos específicos como las finanzas y la medicina, donde los modelos son más precisos. Sin embargo, DeepSeek todavía tiene una fuerte ventaja en la capacidad de razonamiento. En algunos escenarios, queremos usar DeepSeek para un intento a pequeña escala para ver si se puede ejecutar.

No hay una diferencia significativa entre Alibaba Qianwen, Baidu Wenxin y Zhipu ChatGLM y DeepSeek en este sentido. El juicio se basa en el hecho de que estos modelos no tienen una diferencia significativa con DeepSeek en la capacidad de razonamiento y la estructura de la base de conocimiento.

En general, el impacto de los modelos grandes de código abierto es actualmente limitado, y el ritmo de la competencia entre ellos es intenso.

Los Peligros del Mercado To C

Si bien la competencia es feroz en el mercado To B, esto no significa que la ruta To C ofrezca más esperanza.

La competencia en el mercado To C para modelos grandes también es muy feroz, pero es muy diferente del mercado To B.

El panorama del mercado está en constante cambio.

La monetización de To C es difícil.

Las aplicaciones más populares no necesariamente generan la mayor cantidad de ingresos. Por ejemplo, ChatGPT tiene los mayores ingresos, pero OpenAI todavía pierde $5 mil millones al año, mientras que es probable que muchas aplicaciones ‘copia’ de ChatGPT hayan logrado una rápida rentabilidad; después de que DeepSeek se hizo popular, los imitadores y falsificadores llegaron en masa.

Observar la situación de los ‘Pequeños Tigres’ desde el mercado C-end tampoco es optimista. La comunicación de Zhiwei con expertos de la industria generalmente cree que los grandes fabricantes traerán una gran presión de supervivencia.

Jiang Shao declaró que el que mejor se desempeña de los ‘Pequeños Tigres’ en el mercado de consumo es Kimi de Moonshot AI. Pero ahora, Yuanbao de Tencent ocupa el primer lugar, DeepSeek ocupa el segundo lugar y Doubao ocupa el tercer lugar. Las tres principales compañías casi ocupan la mayor parte de la cuota de mercado. Yuanbao de Tencent ha ganado una gran cantidad de tráfico de clientes con la ayuda del ecosistema WeChat, mientras que DeepSeek se ha destacado con su innovación tecnológica y su excelente rendimiento en múltiples escenarios.

Liang He declaró que la tecnología de modelos grandes de Kimi no es muy diferente de sus competidores, por lo que solo puede ser gratuita, lo que dificulta la comercialización de Moonshot. Como aplicación To C, no está claro en qué se diferencia de Yuanbao y Doubao. Además, Doubao puede ser apoyado por otros negocios de Byte, y Yuanbao puede ser apoyado por otros negocios de Tencent. Pueden invertir 100 mil millones para apoyar estas aplicaciones.

Jiang Shao agregó que los usuarios C-end están más preocupados por la facilidad de uso del producto, en lo que Tencent y Byte son mejores. Por supuesto, Alibaba también tiene oportunidades. Alibaba está incubando una aplicación llamada ‘AI Listening’, que utiliza la IA para el chat y la interacción, con el objetivo de reemplazar a Douyin en la plataforma de videos cortos. Aunque Douyin atrae a una gran cantidad de creadores para generar contenido de alta calidad, las aplicaciones de chat de IA tienen el potencial de atraer a grupos de usuarios al proporcionar experiencias más personalizadas e interactivas. La diferencia entre los dos radica en la creación de contenido y la interacción. Si Alibaba puede superar esto, también tiene la oportunidad de cambiar las cosas, pero es difícil decir si Tencent hace lo mismo.

En cuanto a MiniMax, las opiniones de la industria son ligeramente diferentes.

Liang He cree que Conch AI de MiniMax está obteniendo buenas ganancias en la actualidad. Ha encontrado su propio camino, pero aún no se sabe si este camino permitirá a MiniMax aumentar lo suficiente su valoración. Debido a su orientación a la aplicación, MiniMax está más relajado después de que DeepSeek salió. Si usan los modelos de DeepSeek, ahorrará los costos de investigación y desarrollo del modelo, y sus aplicaciones pueden seguir ganando dinero, incluso más.

Jiang Shao cree que MiniMax tiene una oportunidad si puede crear una aplicación popular más adelante, pero Alibaba puede superarla y hacer una aplicación popular primero, por lo que incluso si MiniMax tiene una oportunidad, la probabilidad no es alta.

En última instancia, la diferenciación de productos sigue siendo el punto de avance para las aplicaciones C-end.

Según el último informe de a16z ‘Top 100 Gen AI Consumer Apps’, muchas aplicaciones de bajo uso en realidad logran mejores ingresos. Algunos productos con poca versatilidad, como la identificación de plantas y la nutrición, atraen a usuarios de pago más que los productos generales.

Es difícil diferenciar los productos generales de IA. Los usuarios tienen poca voluntad de pagar, el ciclo de ganancias es largo, por lo que no pueden sobrevivir a las grandes compañías.

Y si la diferenciación no es lo suficientemente profunda verticalmente, también es fácil ser internalizada por el modelo grande base a través de actualizaciones de capacidad. Por ejemplo, las recientes capacidades de generación de imágenes de GPT-4o han traído un golpe de reducción de dimensionalidad a las nuevas empresas de texto a imagen como Midjourney. Esta capacidad de cobertura es a menudo aleatoria e impredecible, como dice el dicho, ‘Destruirte no tiene nada que ver contigo’.

La imitación a nivel de píxeles de los competidores y la rápida actualización de los modelos grandes base hacen que el escenario de las nuevas empresas de IA C-end casi siempre se mantenga solo por un corto tiempo.

En cuanto a cómo aprovechar la probabilidad extremadamente baja de convertirse en un éxito, los expertos de la industria creen unánimemente que ‘básicamente no hay experiencia que seguir’.

Los ‘Pequeños Tigres’ han entrado en la situación actual, en gran parte porque invirtieron demasiado en el modelo grande base y subestimaron la mano de obra, los recursos financieros y los recursos materiales necesarios para sobrevivir y sobresalir en esta pista, lo que dificulta la diferenciación en la pista de la aplicación.

Ahora, los ‘Pequeños Tigres’ están cada vez menos decididos a atacar AGI, y Li Kaifu ha declarado públicamente que solo DeepSeek, Ali y Byte quedarán en el modelo grande base nacional.

En este sentido, los expertos de la industria que se comunicaron con Zhiwei básicamente están de acuerdo con este punto de vista.

Jiang Shao dijo que las nuevas empresas de IA que aún continúan trabajando arduamente en la tecnología de modelos grandes básicamente deben morir. Lo más prometedor es definitivamente DeepSeek, el segundo es Alibaba y el tercero es ByteDance. Se espera que el primer lugar obtenga del 50% al 80% del tráfico, y los dos últimos pueden obtener el 10% del tráfico. El núcleo radica en quién hace AGI primero y quién es el ganador final.

DeepSeek es actualmente el más competitivo en el campo de los modelos grandes, y su innovación tecnológica y su rendimiento en aplicaciones prácticas son impecables. Alibaba y ByteDance también tienen una fuerte competitividad, especialmente en aplicaciones multiplataforma y recursos de datos. La clasificación se basa principalmente en las capacidades de innovación de cada compañía en tecnología básica, potencia de cómputo, recursos de datos y aplicaciones prácticas.

Los equipos de Zhipu y Kimi creen firmemente que continuar mejorando las capacidades del modelo base es el futuro. En contraste, creo que con los cambios en la demanda del mercado y la diversificación de los escenarios de aplicación, la ruta de simplemente fortalecer el modelo base puede ser limitada, y las rutas de desarrollo de modelos más flexibles y adaptables pueden ser más competitivas en el mercado.

La competencia en la tecnología de modelos grandes es extremadamente feroz, y las compañías con enormes inversiones eventualmente deben tener avances claros en innovación, potencia de cómputo, datos y optimización para mantener la competitividad. Otras compañías que no sigan el ritmo del progreso tecnológico o no puedan hacer frente a la demanda del mercado se eliminarán gradualmente.

Liang He dijo que solo DeepSeek, Ali y Byte quedarán en la compañía nacional de modelos grandes base en el futuro, basándose en el hecho de que estos tres tienen la fuerza y la determinación para invertir súper recursos en investigación y desarrollo. Para Byte, es imposible perder la oportunidad de los modelos grandes, de lo contrario, tendrá un gran impacto en su conjunto. Y la tecnología de DeepSeek no tendrá demasiadas barreras para Byte, pero DeepSeek actualmente tiene una mayor ventaja en la eficiencia de I+D. El modelo de código abierto Qianwen de Alibaba en sí mismo está en un alto nivel. Antes de que DeepSeek se hiciera popular, Qianwen y Llama básicamente se perseguían entre sí. Para Alibaba, el modelo Qianwen puede no ganar dinero, pero los negocios relacionados con la nube pueden ganar dinero, y Byte es similar, y puede continuar usando la tecnología de modelos grandes para optimizar continuamente la experiencia de Douyin y otras aplicaciones. Para las nuevas empresas de IA, si el modelo en sí no gana dinero, toca la raíz de la supervivencia.

Wang Wenguang dijo que la ventaja de DeepSeek radica principalmente en el idealismo tecnológico. Dentro de dos o tres meses antes y después del Festival de Primavera, el tráfico de DeepSeek fue enorme. Si quisiera comercializar, pronto alcanzaría la cima en el mundo, y otros modelos grandes como Doubao no tendrían ninguna oportunidad. Siempre que DeepSeek no abra el código de los métodos de optimización relacionados con la infraestructura en la reciente semana de código abierto, puede confiar en esto para ganar dinero en el futuro, de modo que otros no tengan ninguna oportunidad. DeepSeek no ha sido financiado y no necesita ser influenciado por los inversores. El idealismo tecnológico y el talento son las mayores barreras. En comparación con OpenAI, los resultados que OpenAI puede ver ahora son básicamente los resultados de la investigación antes de la disputa entre Altman e Ilya. Al menos los puntos de innovación se han determinado. Ahora, después de la partida del equipo original de idealistas, OpenAI en sí mismo casi no tiene innovación. Actualmente, la innovación de OpenAI está más en el nivel de la aplicación, como Deep Research. No hay barreras para la innovación en el nivel de la aplicación, por lo que tiene que competir con los competidores.

Wang Mu, un experto en tecnología de IA de grandes fábricas, le dijo a Zhiwei que a menos que haya dinero, talento y hardware, no hay necesidad de desperdiciar esfuerzos en el preentrenamiento de modelos grandes. DeepSeek tenía un clúster de 10,000 tarjetas ya en 2021 y no le falta dinero. En contraste, otras compañías pequeñas y medianas difícilmente pueden reunir esta condición.

Gao Peng declaró que las nuevas empresas de IA quieren sobrevivir, todavía tienen que recurrir a las aplicaciones. Pensé eso hace uno o dos años, y ahora puede ser demasiado tarde para cambiar. El primer lote de compañías de IA que se eliminarán a continuación serán aquellas que hagan modelos grandes base. El entrenamiento de modelos grandes en realidad tiene muchos detalles complejos y depende mucho de la acumulación de experiencia. Los detalles internos de la arquitectura Transformer generalmente se entienden bien, pero los documentos de los modelos de código abierto o de código cerrado básicamente no le dicen cómo se preparan los datos, cuáles son los detalles de los datos, cuán grande es la escala de datos y qué tan buena es la calidad de los datos. No hay un estándar unificado en la industria.

Abrir el código abierto a medias siempre ha sido una práctica típica en la pista de modelos grandes. Actualmente, hay muy pocos modelos grandes que divulgarán completamente el código, los pesos, los conjuntos de datos y el proceso de entrenamiento. Los más conocidos son OLMo, BLOOM, etc.

Sin embargo, incluso si recurrir a las aplicaciones puede sobrevivir? Del análisis anterior de la pista To B y la pista To C, es casi difícil para las nuevas empresas de IA formar sus propias barreras de la industria en las aplicaciones. En este sentido, Gao Peng declaró que la clave para formar sus propias barreras de la industria radica en qué datos tiene. Los modelos pueden ser utilizados por cualquiera. Los datos se dividen en dos aspectos: uno es la experiencia de campo del emprendedor y el otro son los datos en la mano.

Desde la perspectiva de la cultura corporativa, Gao Peng cree que la investigación y el desarrollo de modelos grandes base requiere un espíritu de trabajo duro experimental y de ingeniería. ‘Durante mucho tiempo antes, muchas nuevas empresas de IA nacionales fueron demasiado llamativas. Al hacer tecnología, primero debe hacerlo de manera discreta y luego promocionarlo de manera llamativa. Algunos equipos están compuestos en gran medida por la academia, pero las personas en la academia a veces estudian la tecnología de manera demasiado teórica. En términos de talento o equipo, el éxito de un equipo de modelos grandes depende principalmente de si el jefe entiende los modelos grandes. Si el jefe no entiende la tecnología de modelos grandes o no tiene la fe para persistir, porque no gana dinero, no funcionará en absoluto. El éxito de DeepSeek se basa más en un modo de organización de arriba hacia abajo. El jefe entiende muy bien los detalles técnicos y guía a todos a hacerlo juntos. Hay muy pocos modelos nacionales que cumplan con este modelo’.

Con respecto a la acalorada discusión de la industria sobre la predicción del ganador final del modelo grande base nacional, Gao Peng cree que este juicio es demasiado pronto. ‘No habrá mucha diferencia en las rutas técnicas de los jugadores que pueden participar en la competencia. Simplemente siga la arquitectura Transformer y haga una optimización detallada. Mamba y RWKV también tienen esperanza. La clave es hacer las cosas con firmeza, y el tiempo demostrará todo. El ganador final y los tres primeros no son fáciles de decir. La pila de tecnología de modelos grandes es algo muy complicado, y quién sabe si hay muchas personas que están haciendo silenciosamente una cosa, pero el tiempo aún no ha llegado’.

En la situación actual donde es difícil juzgar al ganador del modelo, los datos se han convertido en el foso más importante. Konstantine Buhler, socio de Sequoia Capital, dijo una vez que un error que OpenAI cometió en ChatGPT fue no permitir la edición de respuestas, lo que podría haber proporcionado datos de mayor calidad en el ciclo de retroalimentación y construido un foso más profundo.

Si los datos pueden permitir que cierta industria se desarrolle aún más con la ayuda de la IA o traer nuevas oportunidades de negocio en el presente también es muy importante. Zhang Sensen dijo que la madurez del aterrizaje de la IA está más cerca de las industrias financiera y de Internet. Soy más optimista sobre la oficina de IA, los asuntos gubernamentales de IA y el comercio electrónico de IA. Se basa principalmente en su alto grado de digitalización y la alta certeza del rendimiento.

‘Aunque el comercio electrónico es relativamente maduro, la IA continuará mejorando la eficiencia del comercio electrónico, especialmente en la recomendación de productos, el servicio al cliente y la optimización de la logística. La IA puede mejorar la eficiencia de las plataformas de comercio electrónico a través de un análisis de mercado más preciso y una optimización de la toma de decisiones. Esta mejora en la eficiencia no solo será la continuación del comercio minorista fuera de línea, sino que traerá nuevas formas de comercio electrónico, especialmente en el campo del comercio electrónico transfronterizo, la IA ayudará a su crecimiento explosivo’.

‘En contraste, la industria financiera experimentó una explosión de rendimiento en 2024, y todavía hay mucho margen para el crecimiento en 2025 a medida que se profundiza el negocio de la IA’.

‘Mirando a aquellas industrias donde el aterrizaje de la IA no es maduro, especialmente la fabricación inteligente, hay muchas cosas personalizadas, y los productos producidos por cada empresa son diferentes, y no hay un estándar unificado. Por lo tanto, es difícil para las empresas promover la automatización del trabajo de la IA, el precio de los datos es muy alto y los requisitos de precisión también son muy altos. Aunque el software industrial es básicamente la dirección de solución más temprana para el aterrizaje de la fabricación inteligente, tiene un mejor efecto. Sin embargo, la actualización de la IA de la industria manufacturera tiene una carga histórica. Los datos y el nivel de informatización de la mayor parte de la industria manufacturera no son suficientes, lo que los lleva a carecer de datos al hacer IA, especialmente la recopilación de muestras anormales es casi inexistente. La complejidad también es alta, como la gran cantidad de tipos de equipos y los estándares de datos inconsistentes, lo que lleva a una mala transferibilidad del algoritmo, a menudo ignorando algunos factores clave como la temperatura, los materiales o la influencia de algunas variables impredecibles. Además, las empresas tienen desviaciones en su atención a los datos de los sensores. Para varios datos de fallas de sensores, las empresas se centran principalmente en los datos que afectarán los resultados de la producción. De hecho, esos datos de sensores de borde es probable que se conviertan en un punto de apoyo para que aprovechemos la innovación y la comercialización de toda la industria manufacturera en el futuro. La IA puede descubrir posibles oportunidades de optimización a través del análisis de estos datos, promoviendo así el progreso de toda la industria’.

‘Además, los requisitos de capacidad de la industria manufacturera también son diferentes de otras industrias. Requiere el procesamiento en tiempo real de problemas, y la latencia de los modelos grandes es difícil de aceptar aquí. Por lo tanto, la fabricación inteligente no tiene retorno de la inversión a corto plazo. Por supuesto, el país definitivamente apoyará la IA de esta industria. Es posible que se produzca un aumento a gran escala en los próximos cinco años, y robot y la IA serán una combinación doble’.

Al final, para las nuevas empresas, ya sea que estén haciendo modelos grandes base o haciendo To B o To C, es difícil encontrar un foso sólido. Sin una acumulación a largo plazo de datos o experiencia técnica, es imposible formar una barrera competitiva.

Por lo tanto, una vez que una nueva empresa no logra hacer rodar la bola de nieve cuando es un poco famosa, es fácil declinar gradualmente y eventualmente no encontrar una razón para sobrevivir.

Cuando eligen una manzana dorada en algún momento, es solo que la diosa del destino está tomando una corta siesta.