Más allá de DeepSeek: IA Open Source China

El movimiento de código abierto de China se está consolidando rápidamente como una fuerza a tener en cuenta. Con modelos fundacionales como DeepSeek y Qwen de Alibaba liderando la carga, estableciendo nuevos puntos de referencia para las capacidades de código abierto chinas, un número creciente de pequeñas y medianas empresas (PYMEs) están aprovechando estos avances para desarrollar modelos verticales más pequeños, pero más potentes. Este aumento en la innovación ha acelerado el ritmo de las actualizaciones de modelos grandes en China, entregando constantemente desarrollos frescos y emocionantes. En contraste con el enfoque predominantemente de código cerrado prevalente en los Estados Unidos, las empresas chinas están adoptando el código abierto, mostrando su confianza tecnológica y siendo pioneras en un nuevo camino hacia la inclusión tecnológica y la colaboración global, expandiéndose continuamente a los mercados extranjeros y cambiando el panorama global de la IA de una ‘hegemonía unipolar’ a una ‘coexistencia multipolar’.

La Convergencia del Open Source Chino

A principios de febrero, cuando el gran modelo de código abierto chino DeepSeek encabezó las listas de descargas de mercados de aplicaciones en 140 países y regiones de todo el mundo, OpenAI acusó públicamente a DeepSeek de usar datos destilados de ChatGPT sin permiso.

En lugar de salvar la reputación de OpenAI, esta acusación fue recibida con un ridículo generalizado por parte de investigadores de todo el mundo.

Ahora, ha surgido otro contendiente, adoptando completamente el ‘buff’ de ‘destilación’.

El 13 de abril, Kunlun Wanwei lanzó los modelos de la serie Skywork-OR1 (Open Reasoner 1), superando a Qwen-32B de Alibaba en la misma escala y alineándose con DeepSeek-R1.

¿Cómo puede Kunlun Wanwei, una empresa con recursos financieros limitados, crear un gran modelo de nivel SOTA? La explicación oficial es que sus modelos se basan en DeepSeek-R1-Distill-Qwen-7B y DeepSeek-R1-Distill-Qwen-32B.

Como sugieren los nombres, los modelos de DeepSeek destilaron los modelos de la serie Qwen de Alibaba.

Si bien aprovecha los excelentes modelos de código abierto, Kunlun Wanwei también está contribuyendo a la comunidad de código abierto. A diferencia de DeepSeek, que solo abrió el código de los pesos del modelo, Kunlun Wanwei también ha abierto el código de sus conjuntos de datos y código de entrenamiento, alineándose más estrechamente con el concepto de ‘verdadero código abierto’. Esto significa que cualquier usuario puede intentar replicar su proceso de entrenamiento del modelo.

El logro de Kunlun Wanwei demuestra el aspecto más importante del código abierto: no solo proporciona a los usuarios un producto gratuito y fácilmente disponible, sino que también permite que más desarrolladores se apoyen en los hombros de sus predecesores, avanzando la tecnología de forma rápida y rentable.

De hecho, en medio de las discusiones de la industria del año pasado sobre el cuello de botella en el pre-entrenamiento de modelos grandes, el ritmo de iteración de los modelos grandes chinos se ha acelerado este año, con más y más empresas invirtiendo en código abierto.

Tongyi Qianwen de Alibaba Cloud abrió el código de su nuevo modelo visual Qwen2.5-VL en la víspera del Año Nuevo Chino y lanzó y abrió el código de su nuevo modelo de razonamiento Qwen-32B a principios de marzo, encabezando la lista de tendencias de la comunidad global principal de código abierto de IA Hugging Face el día en que se abrió el código.

Stepwise luego abrió el código de tres modelos grandes multimodales en aproximadamente un mes, el último de los cuales es el modelo de imagen a video Step-Video-TI2V, que admite la generación de videos con amplitud de movimiento controlable y movimiento de lente, y también viene con ciertas capacidades de generación de efectos especiales.

Zhipu anunció en abril que abriría el código de los modelos GLM de la serie 32B/9B, que cubren modelos base, de razonamiento y contemplativos, todos bajo el acuerdo de licencia MIT.

Incluso Baidu, que una vez fue de código cerrado, anunció que abriría completamente el código del gran modelo Wenxin el 30 de junio.

En comparación con la creciente prosperidad del ecosistema de código abierto doméstico, las empresas de modelos grandes estadounidenses se centran principalmente en el código cerrado, lo que ha brindado a los modelos grandes chinos una rara oportunidad de ir al extranjero. DeepSeek ha permitido a la empresa de educación indonesia Ruangguru optimizar su modelo de enseñanza a bajo costo; la empresa de tecnología de viajes B2B singapurense Atlas ha integrado Qwen en su sistema inteligente de atención al cliente para lograr soporte multilingüe las 24 horas, los 7 días de la semana.

¿Por qué Código Cerrado en EE. UU., Código Abierto en China?

La tendencia hacia el código cerrado en la industria de la IA de EE. UU. y la creciente apertura de la IA china son los resultados inevitables de los diferentes entornos de desarrollo de la IA en los dos países.

La industria de la IA de EE. UU. está liderada principalmente por gigantes tecnológicos y VC (capitalistas de riesgo), que tienen enormes expectativas de retornos de capital de la IA. Por lo tanto, las empresas de modelos de IA de EE. UU. generalmente tienen una fuerte creencia en la tecnología, es decir, buscar el liderazgo tecnológico, lograr un cierto grado de monopolio de mercado y luego crear enormes ganancias, y su ecosistema se inclina naturalmente hacia el código cerrado.

Tomando la historia de desarrollo de OpenAI como ejemplo, comenzó como una entidad sin fines de lucro durante su establecimiento, pero desde entonces se ha vuelto cada vez más cerrada. GPT-1 era completamente de código abierto, GPT-2 era parcialmente de código abierto y encontró oposición antes de ser completamente de código abierto, GPT-3 oficialmente se volvió de código cerrado, y luego GPT-4 fortaleció aún más la estrategia de código cerrado, con la arquitectura del modelo y los datos de entrenamiento completamente confidenciales, e incluso restringiendo la frecuencia de llamadas API de los usuarios corporativos.

Aunque OpenAI dijo que cerrar el código se basa en el cumplimiento y el control del abuso de la tecnología, el mercado generalmente cree que el evento histórico del cambio de OpenAI al código cerrado fue su alcance a una cooperación de cien mil millones de dólares con Microsoft, integrando GPT-3 en los servicios en la nube de Azure para formar un circuito cerrado de ‘tecnología-capital’.

Cuando Microsoft reveló por primera vez su inversión en OpenAI en su informe financiero en octubre del año pasado, dijo: ‘Hemos invertido en OpenAIGlobal, LLC, con un compromiso de inversión total de $13 mil millones, y la inversión se contabiliza utilizando el método de participación’.

El llamado método de participación también puede entenderse como que la inversión de Microsoft en OpenAI tiene como objetivo obtener rendimientos en lugar de pura investigación caritativa. Obviamente, la venta de API de alto precio de OpenAI a través de un ecosistema de código cerrado es su mayor fuente de ingresos actual, y se ha convertido en el mayor obstáculo para la falta de voluntad de OpenAI de abrir el código.

Anthropic, que se fundó a partir de la ‘división’ de OpenAI, ha estado decidida a tomar la ruta de código cerrado desde el principio, y su gran modelo de producto Claude ha adoptado completamente el modelo de código cerrado.

Incluso Llama de META, el único líder de código abierto en los Estados Unidos, agregó dos cláusulas anti-amigos al abrir el código:

  1. Los modelos de código abierto no se pueden utilizar para productos y servicios con más de 700 millones de usuarios activos mensuales antes de que META los apruebe.
  2. El contenido de salida de los modelos Llama no se puede utilizar para entrenar y mejorar otros modelos de lenguaje grandes.

Se puede ver que incluso para los modelos de código abierto, el propósito principal de Meta sigue siendo construir su propio ecosistema de IA en lugar de la inclusión técnica.

Estados Unidos ha elegido una estrategia de IA basada en código cerrado con código abierto como complemento a nivel de capital, lo que se puede decir que son consideraciones puramente comerciales. En contraste, el diseño de arriba hacia abajo de China ha dado importancia al código abierto desde el principio, lo que refleja un camino de la industria primero bajo el concepto de control independiente.

Ya en 2017, el gobierno chino publicó el ‘Plan de Desarrollo de Inteligencia Artificial de Nueva Generación’, que propuso claramente acelerar la integración profunda de la IA con la economía y la sociedad, e implementar la construcción de la ventaja de primer movimiento del desarrollo de la IA. En 2021, el contenido relacionado con el código abierto se incluyó explícitamente en el ‘14º Plan Quinquenal’ de China, lo que desencadenó la promoción activa de la innovación tecnológica por parte de los gobiernos locales.

Mei Hong, académico de la Academia de Ciencias de China, dijo una vez que el desarrollo futuro de los modelos de lenguaje debe depender de plataformas de código abierto. Solo en un entorno abierto se puede garantizar la seguridad y la confiabilidad de las cargas de datos y la integración empresarial para los usuarios en diversas industrias.

El ‘Plan de Acción Especial para el Empoderamiento Digital de las Pequeñas y Medianas Empresas (2025-2027)’ emitido por el Ministerio de Industria y Tecnología de la Información y otros cuatro departamentos en diciembre del año pasado apoya claramente a la Fundación Open Atom Open Source para establecer un ‘Proyecto Especial de Código Abierto de IA para Pequeñas y Medianas Empresas’ para proporcionar marcos de capacitación reproducibles y fáciles de promover, herramientas de prueba y otros recursos para reducir el umbral técnico para las empresas.

Un problema más realista es que, debido al posible bloqueo tecnológico por parte de Estados Unidos, China no puede simplemente ser un seguidor en el campo de la IA, sino que debe construir un ecosistema nacional independiente. Construir otro ecosistema de código cerrado bajo el ecosistema que Estados Unidos ya ha construido con el código cerrado como enfoque principal es lo mismo que construir un automóvil a puerta cerrada. Solo un ecosistema de código abierto puede ayudar rápidamente al desarrollo de la industria de la IA.

Además del apoyo de alto nivel, varios gobiernos locales también han realizado inversiones reales en dinero en el ecosistema de código abierto.

El Fondo Z, establecido conjuntamente por Zhipu y Beijing State-owned Assets, que se centra en la inversión en el ecosistema de modelos grandes, anunció que invertiría 300 millones de yuanes para apoyar el desarrollo de la comunidad de código abierto de IA en todo el mundo. Cualquier proyecto de inicio basado en modelos de código abierto (no limitado a los modelos de código abierto de Zhipu) puede presentar una solicitud.

La divergencia entre China y Estados Unidos en sus estrategias de código abierto y código cerrado para la industria de la IA es esencialmente una diferencia fundamental en la lógica de desarrollo. Estados Unidos está impulsado por el capital, y las demandas de búsqueda de ganancias de los gigantes tecnológicos y los VC han generado un ecosistema de código cerrado de ‘monopolio tecnológico-realización de alto precio’. Incluso si Meta intenta abrir el código, es difícil escapar de las cadenas de las barreras comerciales. China se basa en el diseño de alto nivel, con ‘equidad tecnológica + colaboración industrial’ como su concepto central, y construye un ecosistema abierto a través del empoderamiento de políticas, haciendo del código abierto una infraestructura básica para reducir los umbrales técnicos y promover la integración de la economía real. Esta elección estratégica no solo da forma a los diferentes caminos de las industrias de la IA en los dos países, sino que también anuncia la aceleración del ecosistema global de IA de la ‘competencia de monopolio’ al ‘abierto y ganar-ganar’.

Suficientemente Bueno es Suficiente

El ecosistema de código abierto de IA de China no solo está acelerando el desarrollo de la industrialización de la IA en China y el mundo, sino que también está poniendo la creencia de Estados Unidos en la tecnología primero en una incómoda trampa.

Frente a la creciente presión ejercida por el efecto DeepSeek, Meta lanzó Llama4 el 5 de abril, afirmando que es el modelo grande multimodal más potente de la historia.

Sin embargo, después de las pruebas reales, este es un modelo decepcionante. La longitud de contexto de 10 millones de tokens a menudo sale mal, la prueba inicial de la bola es difícil de completar y se produce el error de tamaño de comparación 9.11 > 9.9. A los pocos días del lanzamiento del modelo, los escándalos como las renuncias de ejecutivos y las trampas en las pruebas también fueron confirmados por empleados internos.

Más noticias prueban que se puede decir que Llama4 es un producto que Zuckerberg se apresuró a poner en los estantes. Entonces, la pregunta es, ¿por qué Zuckerberg tuvo que lanzarlo en abril?

Como se mencionó anteriormente, la industria de la IA de EE. UU. tiene una creencia confusa en la tecnología, creyendo que sus productos deben ser los más fuertes y avanzados, por lo que han comenzado una carrera armamentista. Sin embargo, el efecto marginal decreciente del entrenamiento de la IA ha provocado que los grandes fabricantes consuman enormes cantidades de costos, y no solo no se ha construido el umbral técnico, sino que han caído en el atolladero de los cuellos de botella de la potencia informática.

Después de que OpenAI lanzó la función de generación de imágenes de GPT-4o, Altman tuiteó unos días después que sus GPU se estaban ‘quemando’. Menos de una semana después de que se lanzara Gemini2.5, el jefe de GoogleAIStudio dijo que todavía estaban plagados de ‘límites de velocidad’, y los desarrolladores solo podían enviar 20 solicitudes por minuto. Parece que ninguna empresa puede hacer frente a las necesidades de inferencia de los modelos súper grandes.

De hecho, Estados Unidos está cayendo en un malentendido. El responsable del Instituto de Investigación Zhiyuan dijo: ‘Si un nuevo modelo utiliza 100 veces el costo para obtener un aumento de 10 puntos en la puntuación de referencia, entonces este nuevo modelo no tiene sentido para más del 80% de los escenarios de aplicación porque no hay rentabilidad’.

Las empresas de modelos grandes chinas están acelerando el ecosistema de código abierto. Parece que ya no están compitiendo por el primer puesto, sino que han ganado más clientes, especialmente clientes industriales, con su enfoque de ‘suficientemente bueno’.

En comparación con los presupuestos de decenas de millones para clientes gubernamentales y empresariales, muchas empresas e instituciones tienen necesidades urgentes de IA pero no tienen tantas soluciones existentes. Usar modelos de código abierto para desarrollar sus propias soluciones casi se ha convertido en su única opción:

  • Baosteel utiliza el ‘modelo grande + modelo pequeño’ para procesos clave de ingeniería metalúrgica para la alerta temprana inteligente de equipos de producción.
  • El ‘Coal Science Guardian Large Model ChinamjGPT’ del China Coal Science and Industry Group reduce el tiempo de inactividad de los equipos y los costos de mantenimiento en un 30% y un 20%, respectivamente.
  • Shanghai Mengbo Intelligent Internet of Things Technology ha creado una plataforma de aplicación de optimización de procesos de horno de recocido continuo y detección de corte de borde basada en un modelo grande ligero.
  • Mifei Technology ha realizado la predicción, el mantenimiento y la gestión inteligentes de los sistemas automatizados de manejo de materiales en las fábricas de obleas de semiconductores basados en la tecnología de modelos grandes.

Estos son todos los casos representativos de modelos de código abierto que se implementan en escenarios industriales.

Además de los usos industriales, el ecosistema de código abierto también puede ayudar a más empresas de bienestar público.

El Centro de Conservación de la Naturaleza Shanshui está comprometido con la protección de los leopardos de las nieves y los ecosistemas de la meseta. Las cámaras infrarrojas que instala toman una gran cantidad de fotos o videos cada trimestre. Es extremadamente ineficiente y requiere mucho tiempo depender de la identificación manual de las huellas de los leopardos de las nieves. Huawei Ascend está cooperando con el Centro de Conservación de la Naturaleza Shanshui para identificar las huellas de los leopardos de las nieves. Huawei ha abierto el código de los modelos y herramientas relevantes para el reconocimiento de especies de imágenes infrarrojas en Sanjiangyuan, lo que reduce el umbral para participar en el desarrollo de la IA y permite que más instituciones de investigación y protección que utilizan el modelo se beneficien. Las personas pueden trabajar juntas para optimizar el modelo en términos de conjuntos de datos, procesamiento de datos y limpieza de datos.

El Efecto ‘Bazar’ del Código Abierto

Eric Raymond, el abanderado del movimiento de software de código abierto, propuso una metáfora en su libro de 1999 ‘La Catedral y el Bazar’: El modelo de desarrollo de software tradicional, de código cerrado, es como construir una catedral. El software está cuidadosamente diseñado y construido por unos pocos expertos (arquitectos) en un entorno aislado y solo se lanza a los usuarios después de que finalmente se completa; El modelo de desarrollo de código abierto es como un bazar bullicioso, aparentemente caótico pero vibrante. El desarrollo de software es abierto, descentralizado y evolutivo.

El libro cree que para muchos tipos de proyectos de software, especialmente software complejo a nivel de sistema (como los núcleos del sistema operativo), el modelo de desarrollo de ‘bazar’ abierto, colaborativo y descentralizado, aunque pueda parecer caótico, en realidad es más eficiente, produce software de mayor calidad y más robusto que el modelo tradicional, cerrado y centralizado de ‘catedral’. Puede descubrir y corregir errores más rápido y absorber mejor los comentarios de los usuarios y las contribuciones de la comunidad a través de mecanismos como ‘lanzar temprano, lanzar a menudo’ y aprovechar la revisión por pares a gran escala (‘suficientes globos oculares’), promoviendo así la rápida iteración e innovación del software.

El enorme éxito de proyectos de código abierto como Linux ha verificado el punto de Raymond.

El movimiento de código abierto ha traído a Estados Unidos y al mundo un enorme valor que supera con creces su propia inversión. Un informe de investigación de 2024 de la Universidad de Harvard declaró: ‘El código abierto invirtió $4.15 mil millones y creó $8.8 billones en valor para las empresas (es decir, cada $1 invertido crea $2,000 en valor). Sin el código abierto, el gasto corporativo en software sería 3.5 veces lo que es ahora’.

Hoy, las empresas chinas han aprendido esto. Las empresas de IA estadounidenses parecen haberlo olvidado.

De hecho, para las empresas de modelos grandes chinas, incluso si no consideran los beneficios sociales, elegir abrazar el ecosistema de código abierto no es no rentable para las propias empresas.

Muchas empresas de modelos grandes le han dicho a Observer.com que el código abierto no significa renunciar a la comercialización. El código abierto todavía tiene la lógica de ganancias del código abierto. En comparación con si es de código abierto o no, cómo servir mejor a los clientes técnicamente es la cuestión clave.

Tomando a Zhipu AI como ejemplo, afirma ser la única empresa en China que compara completamente a OpenAI, pero en comparación con la estrategia de código cerrado de OpenAI, es uno de los profesionales más decididos de la estrategia de código abierto en la industria.

Zhipu tomó la iniciativa de abrir el código del primer modelo grande de Chat de China, ChatGLM-6B en 2023. Desde su creación hace casi seis años, Zhipu ha abierto el código de más de 55 modelos, con un volumen de descarga acumulado de casi 40 millones de veces en la comunidad internacional de código abierto.

Zhipu le dijo a Observer.com que Zhipu espera que su estrategia de código abierto contribuya a convertir a Beijing en una ‘capital global de código abierto’ para la inteligencia artificial.

Específicamente, a nivel comercial, Zhipu eligió atraer un ecosistema de desarrolladores a través del código abierto y proporcionar soluciones personalizadas pagas a clientes B-end y G-end.

Además de vender soluciones, vender API también es un enlace de ganancias importante.

Tomando a DeepSeek como ejemplo, el primer negocio del modelo de código abierto es la venta de API de alto rendimiento. Aunque los servicios básicos son gratuitos, las empresas pueden proporcionar servicios de API de alto rendimiento y cobrar según el uso. El precio de la API para DeepSeek-R1 es de 1 yuan por millón de tokens de entrada y 16 yuanes por millón de tokens de salida. Si se agota la cuota de tokens gratuitos o la API básica no puede satisfacer las necesidades, los usuarios tienden a usar la versión de pago para mantener la estabilidad de los procesos comerciales.

En comparación con las empresas que solo tienen servicios de modelos, Alibaba ha elegido otro modelo de monetización de código abierto: la agrupación de ecosistemas.

La serie Qwen de Alibaba, como pionera del código abierto, atrae a los desarrolladores a usar la computación en la nube y otra infraestructura a través del código abierto de modalidad completa, formando un escenario de circuito cerrado. Su modelo es solo una introducción en la etapa inicial, y los productos con precios marcados son en realidad servicios en la nube.

La aplicación de globalización de los modelos grandes de código abierto chinos ha pasado de ‘seguimiento tecnológico’ a ‘dominio del ecosistema’. Cuando Estados Unidos está atrapado en el dilema del ‘monopolio de código cerrado’ y el ‘código abierto fuera de control’, China está reconstruyendo la lógica subyacente del ecosistema global de código abierto de IA a través de ‘innovación de acuerdos + cultivo de escenarios’. El campo de batalla final de este juego no está en la competencia de la escala de parámetros, sino en el mercado de billones de dólares de la integración profunda de la tecnología de la IA y la economía real.