¿DeepSeek usó Gemini para entrenar su IA?

Bajo Escrutinio: ¿Contribuyó Gemini de Google al Entrenamiento de IA de DeepSeek?

Recientes especulaciones han surgido sugiriendo que DeepSeek, un laboratorio chino de IA, podría haber utilizado datos del modelo de IA Gemini de Google para entrenar su última iteración, el modelo de razonamiento de IA R1. Este modelo ha demostrado un fuerte rendimiento en pruebas de matemáticas y codificación. Mientras que DeepSeek ha permanecido en silencio con respecto a las fuentes de datos utilizadas para entrenar R1, varios investigadores de IA han propuesto que Gemini, o al menos partes de Gemini, jugó un papel.

Evidencia y Acusaciones

Sam Paech, un desarrollador con sede en Melbourne que se especializa en la creación de evaluaciones de "inteligencia emocional" para IA, ha presentado lo que él cree que es evidencia de que el modelo DeepSeek fue entrenado utilizando salidas generadas por Gemini. Paech notó en una publicación en X (anteriormente Twitter) que el modelo de DeepSeek, específicamente la versión R1-0528, exhibe una preferencia por el lenguaje y las expresiones similares a las favorecidas por Gemini 2.5 Pro de Google.

Además, otro desarrollador, que opera bajo el seudónimo del creador de SpeechMap, una "evaluación de la libertad de expresión" para IA, ha observado que los "pensamientos" generados por el modelo DeepSeek mientras trabaja hacia las conclusiones se asemejan mucho a los rastros de Gemini. Esta observación añade otra capa de intriga a las afirmaciones.

Esta no es la primera vez que DeepSeek se ha enfrentado a acusaciones de aprovechar datos de modelos de IA competidores. En diciembre, los desarrolladores notaron que el modelo V3 de DeepSeek frecuentemente se identificaba como ChatGPT, la popular plataforma de chatbot de OpenAI. Esto sugirió que el modelo había sido entrenado en registros de chat de ChatGPT, lo que generó preocupaciones sobre las prácticas de uso de datos.

Acusaciones Más Profundas: Destilación y Exfiltración de Datos

A principios de este año, OpenAI compartió con el Financial Times que habían descubierto evidencia que vinculaba a DeepSeek con el uso de una técnica llamada destilación. La destilación implica el entrenamiento de modelos de IA extrayendo datos de modelos más grandes y sofisticados. Bloomberg informó que Microsoft, un colaborador e inversor clave en OpenAI, había detectado una exfiltración significativa de datos a través de las cuentas de desarrolladores de OpenAI a finales de 2024. OpenAI cree que estas cuentas están conectadas a DeepSeek.

La destilación, si bien no es inherentemente poco ética, se vuelve problemática cuando viola los términos de servicio. Los términos de OpenAI prohíben explícitamente a los clientes utilizar las salidas del modelo de la compañía para desarrollar sistemas de IA competidores. Esto plantea serias preguntas sobre el cumplimiento de DeepSeek con estos términos.

Las Turbias Aguas de los Datos de Entrenamiento de IA

Es importante reconocer que los modelos de IA a menudo se identifican erróneamente y convergen en palabras y frases similares. Esto se debe a la naturaleza de la web abierta, que sirve como la principal fuente de datos de entrenamiento para muchas empresas de IA. La web está cada vez más saturada de contenido generado por IA. Las granjas de contenido están utilizando IA para producir clickbait, y los bots están inundando plataformas como Reddit y X con publicaciones generadas por IA.

Esta "contaminación" hace que sea increíblemente desafiante filtrar eficazmente las salidas de IA de los conjuntos de datos de entrenamiento, lo que complica aún más la cuestión de si DeepSeek utilizó intencionalmente los datos de Gemini.

Opiniones y Perspectivas de Expertos

A pesar de los desafíos para probar definitivamente las afirmaciones, algunos expertos en IA creen que es plausible que DeepSeek se haya entrenado con datos de Gemini de Google. Nathan Lambert, un investigador del instituto de investigación de IA sin fines de lucro AI2, declaró en X: "Si yo fuera DeepSeek, definitivamente crearía una tonelada de datos sintéticos del mejor modelo de API que existe. [DeepSeek] tiene pocos GPU y mucho dinero. Literalmente es efectivamente más poder de computación para ellos".

La perspectiva de Lambert destaca los potenciales incentivos económicos para que DeepSeek aproveche los modelos de IA existentes para mejorar sus propias capacidades, particularmente dadas sus limitaciones de recursos.

Medidas de Seguridad y Contramedidas

Las empresas de IA han estado intensificando las medidas de seguridad, en parte para prevenir prácticas como la destilación. OpenAI, en abril, comenzó a exigir a las organizaciones que completaran un proceso de verificación de identidad para acceder a ciertos modelos avanzados. Este proceso implica el envío de una identificación emitida por el gobierno de un país admitido por la API de OpenAI. China está notablemente ausente de esta lista.

En otra medida, Google recientemente comenzó a "resumir" los rastros generados por los modelos disponibles a través de su plataforma de desarrolladores AI Studio. Esta acción hace que sea más difícil entrenar modelos rivales en rastros de Gemini de manera efectiva. De manera similar, Anthropic anunció en mayo que comenzaría a resumir los rastros de su propio modelo, citando la necesidad de proteger sus "ventajas competitivas". Estas medidas indican una creciente conciencia del potencial de uso indebido de las salidas de modelos de IA y un esfuerzo proactivo para mitigar tales riesgos.

Implicaciones y Consecuencias

Las acusaciones contra DeepSeek plantean preguntas significativas sobre la ética y la legalidad de las prácticas de entrenamiento de IA. Si DeepSeek realmente utilizó datos de Gemini para entrenar su modelo R1, podría enfrentar repercusiones legales y daños a su reputación. Esta situación también destaca la necesidad de una mayor transparencia y regulación en la industria de la IA, particularmente con respecto al abastecimiento y uso de datos.

Las acusaciones contra DeepSeek subrayan un dilema crítico: cómo equilibrar el deseo de innovación y avance en la IA con la necesidad de proteger la propiedad intelectual y garantizar una competencia justa. La industria de la IA está evolucionando rápidamente, y las directrices claras y los marcos éticos son esenciales para navegar por el complejo panorama legal y ético. Las empresas deben ser transparentes sobre sus fuentes de datos y adherirse a los acuerdos de términos de servicio para mantener la confianza y evitar posibles responsabilidades legales.

Además, el problema del contenido generado por IA que contamina los conjuntos de datos de entrenamiento presenta un desafío importante para toda la comunidad de IA. A medida que los modelos de IA se vuelven más hábiles para generar texto, imágenes y otras formas de contenido convincentes, se vuelve cada vez más difícil distinguir entre los datos generados por humanos y los generados por IA. Esta "contaminación" podría conducir a una homogeneización de los modelos de IA, donde todos comienzan a exhibir sesgos y limitaciones similares.

Para abordar este desafío, las empresas de IA deben invertir en técnicas de filtrado de datos más sofisticadas y explorar fuentes de datos de entrenamiento alternativas. También deben ser más transparentes sobre la composición de sus conjuntos de datos de entrenamiento y los métodos utilizados para filtrar el contenido generado por IA.

La controversia de DeepSeek subraya la urgente necesidad de una discusión más matizada sobre el futuro del entrenamiento de IA. A medida que los modelos de IA se vuelven más poderosos y los datos se vuelven más escasos, las empresas pueden verse tentadas a tomar atajos e involucrarse en prácticas poco éticas o ilegales. Sin embargo, tales prácticas en última instancia socavan la sostenibilidad a largo plazo y la confiabilidad de la industria de la IA.

Se necesita un esfuerzo colaborativo que involucre a investigadores, formuladores de políticas y líderes de la industria para desarrollar directrices éticas y marcos legales que promuevan el desarrollo responsable de la IA. Estas directrices deben abordar cuestiones como el abastecimiento de datos, la transparencia y la rendición de cuentas. También deben incentivar a las empresas a invertir en prácticas de entrenamiento de IA éticas y sostenibles.

Consideraciones clave para el futuro del entrenamiento de IA:

  • Transparencia: Las empresas deben ser transparentes sobre las fuentes de datos utilizadas para entrenar sus modelos de IA y los métodos utilizados para filtrar el contenido generado por IA.
  • Ética: El desarrollo de la IA debe adherirse a principios éticos que promuevan la equidad, la rendición de cuentas y el respeto por la propiedad intelectual.
  • Regulación: Los formuladores de políticas deben crear marcos legales claros que aborden los desafíos únicos que plantea el entrenamiento de IA.
  • Colaboración: Los investigadores, los formuladores de políticas y los líderes de la industria deben colaborar para desarrollar directrices éticas y mejores prácticas para el desarrollo de la IA.
  • Diversidad de Datos: El entrenamiento de IA debe priorizar la diversidad de datos para reducir el sesgo y mejorar el rendimiento general de los modelos de IA.
  • Sostenibilidad: El entrenamiento de IA debe llevarse a cabo de manera sostenible, minimizando su impacto ambiental.
  • Seguridad: Las medidas de seguridad deben proteger los modelos de IA y los datos de entrenamiento del acceso y uso no autorizados.

Al abordar estas consideraciones clave, la industria de la IA puede garantizar que el desarrollo de la IA se lleve a cabo de manera responsable y ética, promoviendo la innovación al tiempo que mitiga los riesgos potenciales.

El Camino a Seguir

Las acusaciones formuladas contra DeepSeek sirven como una llamada de atención para la comunidad de IA. Subrayan la necesidad crucial de una mayor transparencia, conducta ética y salvaguardias sólidas en el desarrollo de la IA. A medida que la IA continúa渗透 en varios aspectos de nuestras vidas, es imperativo que establezcamos límites claros y directrices éticas para garantizar su uso responsable y beneficioso.

El caso DeepSeek, independientemente de su resultado final, sin duda dará forma al discurso en curso en torno a la ética de la IA e influirá en la trayectoria futura del desarrollo de la IA. Sirve como un recordatorio de que la búsqueda de la innovación debe ser templada con un compromiso con los principios éticos y un reconocimiento de las posibles consecuencias de nuestras acciones. El futuro de la IA depende de nuestra capacidad para navegar por estos complejos desafíos con sabiduría y previsión.