El implacable avance del desarrollo de la inteligencia artificial, encabezado por gigantes como OpenAI, choca frecuentemente con principios largamente establecidos de propiedad intelectual y titularidad de datos. Esta colisión ha vuelto a encender la controversia, con nuevas acusaciones que sugieren que el modelo insignia más reciente de OpenAI, GPT-4o, podría haber sido entrenado utilizando materiales con derechos de autor secuestrados tras muros de pago (paywalls), potencialmente sin obtener los permisos necesarios. Estas afirmaciones provienen de un grupo de vigilancia recién establecido, el AI Disclosures Project, añadiendo otra capa de complejidad al ya intrincado debate sobre el origen ético de los datos para entrenar sistemas sofisticados de IA.
El ladrido del perro guardián: Acusaciones del AI Disclosures Project
Lanzado en 2024, el AI Disclosures Project se posiciona como una entidad sin ánimo de lucro dedicada a escudriñar las prácticas, a menudo opacas, dentro de la industria de la IA. Entre sus fundadores se encuentran figuras notables como el empresario de medios Tim O’Reilly, fundador de O’Reilly Media, una prominente editorial de libros técnicos, y el economista Ilan Strauss. Esta conexión con O’Reilly Media es particularmente relevante, ya que el informe bomba inicial del proyecto se centra específicamente en la presunta presencia de contenido de libros de O’Reilly protegidos por paywall dentro del conjunto de datos de entrenamiento de GPT-4o.
La afirmación central de su estudio es provocadora: a pesar de la ausencia de cualquier acuerdo de licencia conocido entre OpenAI y O’Reilly Media, el modelo GPT-4o exhibe un nivel marcadamente alto de familiaridad con contenido derivado directamente de los libros con derechos de autor de O’Reilly. Esta familiaridad, sostiene el informe, sugiere fuertemente que estos materiales de pago fueron incorporados al vasto corpus de datos utilizado para construir las capacidades del modelo. El estudio destaca una diferencia significativa en comparación con modelos más antiguos de OpenAI, particularmente GPT-3.5 Turbo, lo que implica un posible cambio o expansión en las prácticas de adquisición de datos previas al desarrollo de GPT-4o.
Las implicaciones son sustanciales. Si el contenido propietario y de pago está siendo ingerido por modelos de IA sin autorización o compensación, plantea cuestiones fundamentales sobre la ley de derechos de autor en la era de la IA generativa. Los editores y autores dependen de modelos de suscripción o compra, basados en la exclusividad de su contenido. El presunto uso de este material para entrenamiento podría verse como un menoscabo de estos modelos de negocio, devaluando potencialmente el mismo contenido cuya creación requiere una inversión significativa. Esta acusación específica va más allá del raspado (scraping) de sitios web disponibles públicamente, aventurándose en el territorio del acceso a contenido explícitamente destinado a clientes de pago.
Mirando dentro de la caja negra: El ataque de inferencia de membresía
Para fundamentar sus afirmaciones, los investigadores del AI Disclosures Project emplearon una técnica sofisticada conocida como “ataque de inferencia de membresía” (membership inference attack), utilizando específicamente un método que llaman DE-COP. La idea central detrás de este enfoque es probar si un modelo de IA ha “memorizado” o al menos desarrollado una fuerte familiaridad con fragmentos específicos de texto. En esencia, el ataque sondea al modelo para ver si puede distinguir de manera fiable entre pasajes de texto originales (en este caso, de libros de O’Reilly) y versiones parafraseadas cuidadosamente construidas de esos mismos pasajes, generadas por otra IA.
La lógica subyacente es que si un modelo muestra consistentemente una capacidad superior al azar para identificar el texto original escrito por humanos en comparación con una paráfrasis cercana, implica que el modelo ha encontrado ese texto original antes, probablemente durante su fase de entrenamiento. Es similar a probar si alguien reconoce una fotografía específica y poco conocida que afirma no haber visto nunca; el reconocimiento consistente sugiere una exposición previa.
La escala de la prueba del AI Disclosures Project fue considerable. Utilizaron 13.962 extractos de párrafos distintos extraídos de 34 libros diferentes de O’Reilly Media. Estos extractos representaban el tipo de contenido especializado y de alto valor que típicamente se encuentra detrás del paywall de la editorial. El estudio midió luego el rendimiento tanto de GPT-4o como de su predecesor, GPT-3.5 Turbo, en esta tarea de diferenciación.
Los resultados, tal como se presentan en el informe, fueron sorprendentes. GPT-4o demostró una capacidad significativamente mayor para reconocer el contenido de pago de O’Reilly. Su rendimiento se cuantificó utilizando una puntuación AUROC (Área Bajo la Curva Característica Operativa del Receptor), una métrica común para evaluar el rendimiento de clasificadores binarios. GPT-4o alcanzó una puntuación AUROC del 82%. En contraste, GPT-3.5 Turbo obtuvo una puntuación justo por encima del 50%, lo que es esencialmente equivalente a adivinar al azar, indicando poco o ningún reconocimiento específico del material probado. Esta marcada diferencia, argumenta el informe, proporciona evidencia convincente, aunque indirecta, de que el contenido de pago formó parte de la dieta de entrenamiento de GPT-4o. Una puntuación del 82% sugiere una señal fuerte, mucho más allá de lo que se esperaría por casualidad o conocimiento generalizado.
Advertencias necesarias y preguntas sin respuesta
Si bien los hallazgos presentan una narrativa convincente, los coautores del estudio, incluido el investigador de IA Sruly Rosenblat, reconocen encomiablemente las posibles limitaciones inherentes a su metodología y la naturaleza compleja del entrenamiento de IA. Una advertencia significativa que plantean es la posibilidad de ingesta indirecta de datos. Es concebible, señalan, que los usuarios de ChatGPT (la popular interfaz de OpenAI) pudieran haber copiado y pegado extractos de libros de pago de O’Reilly directamente en la interfaz de chat para diversos fines, como hacer preguntas sobre el texto o solicitar resúmenes. Si esto ocurrió con suficiente frecuencia, el modelo podría haber aprendido el contenido indirectamente a través de las interacciones del usuario, en lugar de mediante la inclusión directa en el conjunto de datos de entrenamiento inicial. Desenredar la exposición directa del entrenamiento del aprendizaje indirecto a través de las indicaciones del usuario sigue siendo un desafío significativo en la forense de IA.
Además, el alcance del estudio no se extendió a las iteraciones de modelos más recientes o especializadas de OpenAI que podrían haberse desarrollado o lanzado simultáneamente o posteriormente al ciclo principal de entrenamiento de GPT-4o. Modelos que potencialmente incluyen GPT-4.5 (si existe bajo esa nomenclatura específica o nivel de capacidad) y modelos centrados en el razonamiento como o3-mini y o1 no fueron sometidos a los mismos ataques de inferencia de membresía. Esto deja abierta la cuestión de si las prácticas de obtención de datos podrían haber evolucionado aún más, o si estos modelos más nuevos exhiben patrones similares de familiaridad con el contenido de pago. Los rápidos ciclos de iteración en el desarrollo de IA significan que cualquier análisis instantáneo corre el riesgo de quedar ligeramente obsoleto casi de inmediato.
Estas limitaciones no invalidan necesariamente los hallazgos centrales del estudio, pero añaden capas cruciales de matiz. Demostrar definitivamente qué reside dentro de los terabytes de datos utilizados para entrenar un modelo fundacional es notoriamente difícil. Los ataques de inferencia de membresía ofrecen evidencia probabilística, sugiriendo probabilidad en lugar de ofrecer certeza absoluta. OpenAI, al igual que otros laboratorios de IA, protege celosamente la composición de sus datos de entrenamiento, citando preocupaciones propietarias y sensibilidades competitivas.
Un conflicto más amplio: Batallas de derechos de autor en la arena de la IA
Las acusaciones formuladas por el AI Disclosures Project no existen en el vacío. Representan la última escaramuza en un conflicto mucho más amplio y continuo entre los desarrolladores de IA y los creadores sobre el uso de material protegido por derechos de autor para fines de entrenamiento. OpenAI, junto con otros actores prominentes como Google, Meta y Microsoft, se encuentra envuelta en múltiples demandas de alto perfil. Estos desafíos legales, presentados por autores, artistas, organizaciones de noticias y otros titulares de derechos, generalmente alegan una infracción generalizada de derechos de autor derivada del raspado e ingestión no autorizados de grandes cantidades de texto e imágenes de Internet para entrenar modelos de IA generativa.
La defensa central a menudo montada por las compañías de IA se basa en la doctrina de ‘fair use’ (uso legítimo) (en los Estados Unidos) o excepciones similares en otras jurisdicciones. Argumentan que usar obras protegidas por derechos de autor para entrenamiento constituye un uso “transformativo”: los modelos de IA no están simplemente reproduciendo las obras originales, sino que están utilizando los datos para aprender patrones, estilos e información para generar resultados completamente nuevos. Bajo esta interpretación, el proceso de entrenamiento en sí, destinado a crear una nueva y poderosa herramienta, debería ser permisible sin requerir licencias para cada pieza de datos ingerida.
Sin embargo, los titulares de derechos impugnan vehementemente esta visión. Argumentan que la escala masiva de la copia involucrada, la naturaleza comercial de los productos de IA que se están construyendo y el potencial de que los resultados de la IA compitan directamente con las obras originales y las suplanten, pesan fuertemente en contra de una conclusión de uso legítimo. La disputa es que las compañías de IA están construyendo empresas multimillonarias a costa del trabajo creativo sin compensar a los creadores.
En este contexto litigioso, OpenAI ha buscado proactivamente mitigar algunos riesgos cerrando acuerdos de licencia con varios proveedores de contenido. Se han anunciado acuerdos con importantes editores de noticias (como Associated Press y Axel Springer), plataformas de redes sociales (como Reddit) y bibliotecas de medios de stock (como Shutterstock). Estos acuerdos proporcionan a OpenAI acceso legítimo a conjuntos de datos específicos a cambio de pago, reduciendo potencialmente su dependencia de datos raspados de la web potencialmente infractores. Según se informa, la compañía también ha contratado a periodistas, encargándoles ayudar a refinar y mejorar la calidad y fiabilidad de los resultados de sus modelos, lo que sugiere una conciencia de la necesidad de información de alta calidad, potencialmente curada.
El efecto dominó: Preocupaciones sobre el ecosistema de contenido
El informe del AI Disclosures Project extiende sus preocupaciones más allá de las implicaciones legales inmediatas para OpenAI. Enmarca el problema como una amenaza sistémica que podría afectar negativamente la salud y diversidad de todo el ecosistema de contenido digital. El estudio postula un ciclo de retroalimentación potencialmente dañino: si las empresas de IA pueden usar libremente contenido de alta calidad creado profesionalmente (incluido material de pago) sin compensar a los creadores, se erosiona la viabilidad financiera de producir dicho contenido en primer lugar.
La creación de contenido profesional, ya sea periodismo de investigación, manuales técnicos detallados, escritura de ficción o investigación académica, a menudo requiere tiempo, experienciae inversión financiera significativos. Los muros de pago y los modelos de suscripción son frecuentemente mecanismos esenciales para financiar este trabajo. Si las fuentes de ingresos que respaldan estos esfuerzos disminuyen porque el contenido se utiliza efectivamente para entrenar sistemas de IA competidores sin remuneración, el incentivo para crear contenido diverso y de alta calidad podría disminuir. Esto podría llevar a un público menos informado, una reducción de los recursos de conocimiento especializado y potencialmente una Internet dominada por contenido de menor calidad o generado por IA que carece de experiencia y verificación humanas.
En consecuencia, el AI Disclosures Project aboga firmemente por una mayor transparencia y rendición de cuentas por parte de las empresas de IA con respecto a sus prácticas de datos de entrenamiento. Piden la implementación de políticas sólidas y marcos regulatorios potenciales que aseguren que los creadores de contenido sean compensados justamente cuando su trabajo contribuye al desarrollo de modelos comerciales de IA. Esto se hace eco de llamamientos más amplios de grupos de creadores de todo el mundo que buscan mecanismos, ya sea a través de acuerdos de licencia, sistemas de regalías o negociación colectiva, para garantizar que reciban una parte del valor generado por los sistemas de IA entrenados con su propiedad intelectual. El debate se centra en encontrar un equilibrio sostenible donde la innovación en IA pueda florecer junto con un ecosistema próspero para la creatividad humana y la generación de conocimiento. La resolución de las batallas legales en curso y el potencial de nueva legislación o estándares de la industria serán críticos para dar forma a este equilibrio futuro. La cuestión de cómo rastrear la procedencia de los datos y atribuir valor en modelos de IA masivos y complejos sigue siendo un obstáculo técnico y ético significativo.