DeepSeek, un nombre que ha ascendido rápidamente desde una relativa oscuridad hasta convertirse en un punto focal en la conversación global sobre la IA, ha provocado un intenso debate y especulación dentro de los sectores tecnológico y financiero. El laboratorio chino de IA detrás de esta fuerza en auge ha interrumpido el orden establecido, lo que ha llevado a los analistas a cuestionar la sostenibilidad del dominio estadounidense en la carrera de la IA y la viabilidad a largo plazo de la demanda actual de chips de IA. Pero, ¿cuáles son los factores clave que han impulsado a DeepSeek a su prominencia actual?
El Génesis de DeepSeek: De Fondo de Cobertura a Laboratorio de IA
Los orígenes de DeepSeek están profundamente entrelazados con el mundo de las finanzas cuantitativas. Está respaldado por High-Flyer Capital Management, un fondo de cobertura chino reconocido por su utilización de la IA en la toma de decisiones comerciales basadas en datos.
Liang Wenfeng, un entusiasta de la IA con experiencia en el comercio durante su tiempo en la Zhejiang University, cofundó High-Flyer en 2015. En 2019, lanzó High-Flyer Capital Management como un fondo de cobertura con un enfoque específico en el desarrollo e implementación de algoritmos de IA para aplicaciones financieras.
En 2023, High-Flyer incubó a DeepSeek como un laboratorio de investigación de IA dedicado, que opera independientemente de su negocio financiero principal. Posteriormente, con High-Flyer como inversor clave, el laboratorio se escindió en una entidad separada, conservando el nombre DeepSeek.
Desde su inicio, DeepSeek priorizó el establecimiento de sus propios clústeres de centros de datos para facilitar el entrenamiento de modelos. Sin embargo, al igual que otras compañías de IA que operan en China, DeepSeek se ha enfrentado a desafíos debido a las restricciones de exportación de EE. UU. en hardware avanzado. En consecuencia, para entrenar sus modelos más recientes, la compañía tuvo que recurrir al uso de chips Nvidia H800, una variante menos poderosa de los chips H100 que están fácilmente disponibles para las compañías estadounidenses.
El equipo técnico de DeepSeek es conocido por su juventud y dinamismo. La compañía recluta activamente investigadores de IA doctorales de las principales universidades chinas. Además, DeepSeek emplea a personas de diversos orígenes, incluso aquellos sin experiencia en ciencias de la computación, para garantizar que su tecnología pueda comprender y atender eficazmente a una amplia gama de temas, según informó The New York Times.
Los Modelos de IA de DeepSeek: Desafiando el Status Quo
DeepSeek reveló su conjunto inicial de modelos, DeepSeek Coder, DeepSeek LLM y DeepSeek Chat, en noviembre de 2023. Sin embargo, fue el lanzamiento de su familia de modelos DeepSeek-V2 de próxima generación en la primavera lo que realmente capturó la atención de la industria de la IA.
DeepSeek-V2, un sistema versátil capaz de analizar tanto texto como imágenes, demostró un rendimiento impresionante en varios benchmarks de IA. En particular, logró este rendimiento a un costo significativamente menor en comparación con los modelos de la competencia disponibles en ese momento. Esto impulsó a los rivales nacionales de DeepSeek, incluidos ByteDance y Alibaba, a reducir los precios de algunos de sus modelos y ofrecer otros de forma completamente gratuita.
DeepSeek V3 ha mostrado un rendimiento superior en comparación con los modelos descargables de código abierto como Llama de Meta y los modelos "cerrados" accesibles solo a través de API, como GPT-4o de OpenAI.
Igualmente notable es el modelo de "razonamiento" R1 de DeepSeek. Lanzado en enero, DeepSeek afirma que R1 logra un rendimiento comparable al modelo o1 de OpenAI en benchmarks clave.
Como modelo de razonamiento, R1 incorpora mecanismos de autoverificación, lo que mitiga algunas de las trampas comunes asociadas con los modelos estándar. Si bien los modelos de razonamiento pueden requerir tiempos de procesamiento ligeramente más largos para llegar a soluciones (que van desde segundos hasta minutos), tienden a exhibir una mayor confiabilidad en dominios como la física, la ciencia y las matemáticas.
Sin embargo, los modelos de DeepSeek, incluidos R1 y DeepSeek V3, están sujetos a la supervisión del regulador de Internet de China, que garantiza que sus respuestas se alineen con los "valores socialistas centrales". Por ejemplo, en la aplicación de chatbot de DeepSeek, R1 no abordará preguntas relacionadas con la Plaza de Tiananmen o la autonomía de Taiwán.
En marzo, el tráfico del sitio web de DeepSeek superó los 16.5 millones de visitas. A pesar de una disminución del 25% en el tráfico en comparación con febrero, DeepSeek ocupó el segundo lugar en términos de visitas diarias, según David Carr, editor de Similarweb. Sin embargo, esta cifra aún palidece en comparación con ChatGPT, que superó los 500 millones de usuarios activos semanales en marzo.
Un Enfoque Disruptivo del Panorama de la IA
El modelo de negocio de DeepSeek sigue siendo algo enigmático. La compañía fija el precio de sus productos y servicios significativamente por debajo del valor de mercado, e incluso ofrece algunos de forma gratuita. Además, se ha resistido a la financiación externa a pesar del interés sustancial de las firmas de capital de riesgo.
DeepSeek atribuye su extrema competitividad de costos a los avances en la eficiencia. Sin embargo, algunos expertos han cuestionado la precisión de las cifras proporcionadas por la compañía.
En cualquier caso, los desarrolladores han adoptado los modelos de DeepSeek, que, si bien no son de código abierto en el sentido tradicional, están disponibles bajo licencias permisivas que permiten el uso comercial. Según Clem Delangue, CEO de Hugging Face, los desarrolladores en la plataforma han creado más de 500 modelos derivados de R1, acumulando un total combinado de 2.5 millones de descargas.
El éxito de DeepSeek frente a competidores más grandes y establecidos se ha descrito como "trastornando la IA" y "sobrevalorado". Los logros de la compañía fueron en parte responsables de una caída del 18% en el precio de las acciones de Nvidia en enero, y provocaron una respuesta pública del CEO de OpenAI, Sam Altman. En marzo, las oficinas del Departamento de Comercio de EE. UU. supuestamente prohibieron DeepSeek en los dispositivos gubernamentales, según Reuters.
Microsoft ha integrado DeepSeek en su servicio Azure AI Foundry, una plataforma que consolida los servicios de IA para las empresas. Durante la conferencia telefónica sobre las ganancias del primer trimestre de Meta, el CEO Mark Zuckerberg declaró que las inversiones en infraestructura de IA continuarían siendo una "ventaja estratégica" para la compañía, cuando se le preguntó sobre el impacto potencial de DeepSeek en el gasto en IA de Meta. En marzo, OpenAI etiquetó a DeepSeek como "subvencionado por el estado" y "controlado por el estado", recomendando que el gobierno de EE. UU. considere prohibir sus modelos.
Durante la conferencia telefónica sobre las ganancias del cuarto trimestre de Nvidia, el CEO Jensen Huang destacó la "excelente innovación" de DeepSeek, señalando que sus modelos de razonamiento requieren significativamente más potencia de computación, lo que beneficia a Nvidia.
Por el contrario, algunas compañías, países y gobiernos, incluidos Corea del Sur y el estado de Nueva York, han prohibido el uso de DeepSeek en los dispositivos gubernamentales.
En mayo, el vicepresidente y presidente de Microsoft, Brad Smith, testificó ante el Senado que a los empleados de Microsoft se les prohíbe usar DeepSeek debido a preocupaciones sobre la seguridad de los datos y la posible propaganda.
El Incierto Futuro de DeepSeek
La trayectoria futura de DeepSeek sigue siendo incierta. Si bien se anticipan más mejoras en los modelos, el gobierno de EE. UU. parece cada vez más cauteloso ante la influencia extranjera dañina percibida. En marzo, The Wall Street Journal informó que es probable que EE. UU. prohíba DeepSeek en los dispositivos gubernamentales.
El rápido ascenso de DeepSeek ha sacudido innegablemente los cimientos de la industria de la IA, lo que ha provocado una reevaluación de la dinámica competitiva y el potencial de innovación disruptiva. Queda por verse si puede mantener su impulso actual frente al creciente escrutinio y los desafíos regulatorios. Los próximos años serán fundamentales para determinar el impacto a largo plazo de DeepSeek en el panorama global de la IA. Su capacidad para navegar por la compleja interacción del avance tecnológico, las consideraciones geopolíticas y las preocupaciones éticas definirá en última instancia su legado. El mundo de la IA estará observando de cerca.
La historia de DeepSeek es un recordatorio de que en el mundo en rápida evolución de la inteligencia artificial, pueden surgir nuevos actores rápidamente y desafiar el orden establecido. El éxito de la compañía, impulsado por tecnología innovadora y la voluntad de interrumpir los modelos de negocio tradicionales, ha obligado a la industria a tomar nota. A medida que DeepSeek continúa desarrollando y expandiendo su alcance, sin duda jugará un papel importante en la configuración del futuro de la IA.