El Desafío DeepSeek
La presentación de DeepSeek-R1 en enero generó un considerable interés dentro de la comunidad tecnológica. Los modelos lingüísticos chinos anteriores, como Ernie de Baidu y Doubao de ByteDance, mostraron ser prometedores en aplicaciones en chino, matemáticas y codificación, pero estaban limitados por una menor competencia en inglés y una accesibilidad restringida. DeepSeek-R1, sin embargo, marcó un hito importante como el primer LLM chino en obtener reconocimiento internacional.
Uno de los aspectos más llamativos de DeepSeek-R1 fue su costo de desarrollo supuestamente bajo. En contraste con GPT-4o de OpenAI, que supuestamente costó más de US$100 millones para entrenar, los investigadores de DeepSeek afirmaron que su chatbot fue desarrollado por apenas US$5.6 millones. Además de alimentar la narrativa de la eficiencia, los ingenieros de DeepSeek entrenaron el modelo R1 utilizando CPU de gama media como la Nvidia H800, en lugar de los chips de primer nivel utilizados en modelos como GPT-4o o Claude de Anthropic. A pesar de las restricciones de EE. UU. a la exportación de chips de alto rendimiento a China, DeepSeek-R1 logró superar a otros bots líderes utilizando solo 2,048 procesadores distribuidos en 256 servidores.
Esta notable eficiencia y menor costo de desarrollo se atribuyeron en gran medida a sofisticadas técnicas de programación, incluyendo PTX, un lenguaje similar al ensamblaje que permite a los desarrolladores afinar el rendimiento y maximizar el uso del hardware.
Poco después de su lanzamiento, la aplicación DeepSeek-R1 subió a la cima de las clasificaciones de descarga gratuita de la App Store de Apple en EE. UU., superando a ChatGPT, TikTok y las plataformas de redes sociales de Meta. El Nasdaq experimentó una disminución, y las acciones de Nvidia se desplomaron tras el debut de DeepSeek-R1.
Cuestionando las Afirmaciones de DeepSeek
A pesar del entusiasmo inicial, muchos observadores han planteado preguntas sobre la validez de las afirmaciones de DeepSeek con respecto a su LLM. Los analistas han sugerido que las cifras indicadas probablemente solo tienen en cuenta los costos computacionales, mientras que excluyen o subestiman los gastos de infraestructura, hardware y recursos humanos.
Wesley Kuo, fundador y CEO de Ubitus, un proveedor de servicios de juegos en la nube e IA generativa con sede en Taipei, se hizo eco de estas preocupaciones, afirmando que el costo real es probablemente mucho mayor de lo que se informa. Ubitus, con el respaldo de Nvidia, apoyó el Proyecto TAME, un LLM localizado que utiliza caracteres chinos tradicionales. Proporcionaron CPU H100 y datos de juegos. Ubitus también colaboró con Foxlink y Shinfox Energy para establecer Ubilink.AI, construyendo el centro de servicios de supercomputación de IA alimentado con energía verde más grande de Taiwán en colaboración con Asus.
Kuo enfatiza la participación de la compañía en el desarrollo de aplicaciones y modelos LLM para gobiernos, incluido el gobierno japonés, en sectores como juegos, turismo y venta minorista, destacando el potencial de la IA para abordar la escasez de mano de obra y el envejecimiento de la población.
Preocupaciones sobre la Integridad de los Datos
Kuo se alinea con OpenAI y Microsoft al sugerir que DeepSeek puede haber adquirido datos a través de la destilación de modelos. Este proceso implica entrenar modelos lingüísticos más pequeños para imitar las salidas de modelos más grandes. OpenAI y Microsoft alegan que DeepSeek utilizó la interfaz de programación de aplicaciones de OpenAI para facilitar su desarrollo.
Kuo afirma que DeepSeek obtuvo datos de OpenAI y que hay malentendidos en torno a las afirmaciones de la compañía sobre la eficiencia. Señala que DeepSeek-R1, con sus 670 mil millones de parámetros, es significativamente más grande que Llama 3.1 405B de Meta AI. Los parámetros son valores numéricos internos que un modelo aprende durante el entrenamiento para hacer predicciones. Kuo también sugiere que los modelos de DeepSeek pueden haber sido destilados de Llama 3.1.
Más allá de estas refutaciones, también han surgido preocupaciones con respecto a las capacidades de DeepSeek-R1. Los expertos sugieren que, al igual que sus predecesores, R1 sobresale en funciones especializadas y específicas de tareas, pero se queda atrás de las versiones de GPT-4o en el rendimiento de propósito general.
Una limitación importante de los modelos de DeepSeek es la restricción al acceso libre a la información. Los usuarios descubrieron que las preguntas sobre temas políticos sensibles se encontraban con respuestas evasivas. En temas como el estatus de la minoría uigur de Xinjiang y Taiwán, las respuestas de DeepSeek reflejan las posiciones oficiales del Partido Comunista Chino. La investigación sugiere que una parte significativa de las salidas de DeepSeek están censuradas para suprimir la información relacionada con la democracia, los derechos humanos y las disputadas reclamaciones de soberanía de China.
La Alternativa de Taiwán: TAIDE y Más Allá
En respuesta, los LLM desarrollados en Taiwán, como TAME, han surgido como alternativas a DeepSeek dentro de la Sinósfera. El Motor de Diálogo de IA Confiable (TAIDE), lanzado en junio de 2023 por el Instituto Nacional de Investigación Aplicada, tiene como objetivo desarrollar un modelo alineado con las normas sociales, culturales y lingüísticas de Taiwán.
Si bien el trabajo en TAIDE parece haberse estancado, sirvió como un punto de referencia importante para el Proyecto TAME. TAME, desarrollado por el Laboratorio de Inteligencia y Comprensión de Máquinas (MiuLab) en la Universidad Nacional de Taiwán, con financiación de varias organizaciones, fue entrenado en 500 mil millones de tokens. Superó a sus competidores, incluyendo GPT-4o, en 39 evaluaciones, obteniendo puntuaciones más altas en exámenes de ingreso a la universidad, abogacía y medicina tradicional china.
Uno de los objetivos de TAME es promover la cultura local. Desbloquear las capacidades del idioma local es un paso significativo. Kuo menciona el desarrollo de un LLM de voz taiwanés basado en Whisper, que ha logrado resultados positivos en la comprensión del taiwanés oral. Se están realizando esfuerzos para desarrollar el reconocimiento del idioma hakka.
Estos esfuerzos han sido bien recibidos por instituciones en regiones donde estos idiomas son prevalentes. También hay esfuerzos para entrenar el modelo en el reconocimiento de idiomas indígenas, pero los datos limitados siguen siendo un obstáculo. Entrenar a la IA para que aprenda un nuevo idioma requiere una cantidad significativa de grabaciones de voz combinadas con texto.
Acceder a datos históricos en archivos gubernamentales presenta otra oportunidad. Sin embargo, algunos datos están protegidos por derechos de autor. El surgimiento de la inteligencia general artificial ofrece el potencial de ayudar en el renacimiento de idiomas en peligro de extinción y extintos.
La Búsqueda de la Soberanía de la IA
La intersección del lenguaje y la cultura subraya la importancia de la soberanía de la IA como un medio para reforzar la identidad taiwanesa, comunicar la narrativa de Taiwán y proteger su entorno de información.
Julian Chu, consultor de la industria y director del Market Intelligence & Consulting Institute (MIC), enfatiza el potencial de sesgo en los modelos LLM y los datos de entrenamiento. Señala que incluso cuando se usan caracteres tradicionales, las salidas LLM pueden reflejar el estilo de la República Popular China y no capturar la cultura de Taiwán. El objetivo es que las empresas taiwanesas utilicen el idioma o los datos taiwaneses para entrenar LLM y construir la soberanía de la IA.
Chu menciona el Modelo de Fundación Formosa (FFM-Llama2) como otro LLM prometedor de Taiwán. Lanzado en septiembre de 2023 por Taiwan Web Service, tenía como objetivo democratizar la IA. Foxconn también lanzó su LLM, FoxBrain, en marzo. Sin embargo, algunos comentaristas siguen siendo escépticos de las empresas de grandes corporaciones en LLM.
Lin Yen-ting, miembro del equipo de MiuLab que desarrolló TAME, enfatiza la necesidad de abordar la brecha en el entorno de información con respecto a Taiwán. Señala que DeepSeek-R1 y otros LLM chinos presentan una visión distorsionada de Taiwán. Los modelos desarrollados en EE. UU. también pueden tergiversar a veces a Taiwán. Los modelos de código abierto pueden no priorizar Taiwán, y los datos de entrenamiento están dominados por China.
Por lo tanto, es importante incorporar selectivamente contenido taiwanés y volver a entrenarlo en el modelo. Este enfoque proactivo garantiza que el paisaje cultural y lingüístico único de Taiwán esté representado con precisión en el ámbito digital, fomentando un sentido de identidad nacional y preservando su patrimonio distintivo frente al desarrollo global de la IA. Esta dedicación a preservar la identidad taiwanesa asegura que la cultura y los valores únicos de la nación insular no se vean ensombrecidos por narrativas dominantes.
Los desafíos inherentes a este esfuerzo son sustanciales. Construir un modelo de IA verdaderamente representativo requiere una inversión significativa de recursos, incluyendo el acceso a vastos conjuntos de datos de contenido localizado y experiencia en procesamiento del lenguaje natural. Además, la necesidad continua de contrarrestar la desinformación y la información sesgada requiere un proceso continuo de refinamiento y adaptación.
A pesar de estos desafíos, el compromiso de Taiwán con la soberanía de la IA sigue siendo firme. El desarrollo de TAME y otros LLM localizados representa un paso crucial para garantizar que el futuro de la inteligencia artificial refleje la identidad cultural única de la isla, los valores democráticos y el compromiso inquebrantable de preservar su lugar distintivo en el mundo. Al priorizar la soberanía de la IA, Taiwán no solo está salvaguardando su patrimonio cultural, sino que también se está posicionando como un actor clave en el panorama global de la IA, demostrando que el avance tecnológico puede alinearse con la preservación de la identidad cultural y los principios democráticos.
Continuando el Viaje
El camino hacia la completa soberanía de la IA está en curso. Una mayor investigación, desarrollo y colaboración son cruciales para superar los desafíos y garantizar el éxito a largo plazo de estas iniciativas. Al continuar priorizando la soberanía de la IA, Taiwán puede crear un paisaje digital que refleje verdaderamente su identidad cultural única y sus valores democráticos, sentando un ejemplo para otras naciones que se esfuerzan por mantener su lugar distintivo en un mundo cada vez más interconectado.