Antecedentes
La Ley de IA Europea (Reglamento (UE) 2024/1689, o la ‘Ley de IA’) impone obligaciones específicas a los proveedores de modelos de IA de propósito general (‘GPAI’). Estos modelos, incluidos los de la familia GPT, Llama y Gemini, deben cumplir con requisitos como la documentación exhaustiva y el establecimiento de una política que garantice el cumplimiento de la ley de derechos de autor de la UE.
Para facilitar el cumplimiento de estas estipulaciones, la Ley de IA anticipa el desarrollo de Códigos de Práctica adaptados para los modelos GPAI. Tras una invitación de la Oficina de IA, varios expertos y partes interesadas formaron cuatro grupos de trabajo dedicados a redactar un Código de Prácticas inicial. La aprobación de este Código por parte de la Comisión de la UE le otorgaría ‘validez general’ en toda la UE. La adopción del Código de Prácticas de GPAI aprobado ofrece a las empresas un medio para demostrar el cumplimiento proactivo, mitigando potencialmente el escrutinio regulatorio y las sanciones asociadas.
La Oficina de IA publicó recientemente el tercer borrador del Código de Prácticas (‘3er Borrador’) producido por estos grupos de trabajo. Este borrador abarca varias áreas clave:
- Compromisos
- Transparencia
- Derechos de autor
- Seguridad y protección
La versión final de este Código de Prácticas está programada para su publicación el 2 de mayo de 2025.
Este documento profundizará en los detalles significativos dentro de la sección de derechos de autor del 3er Borrador. Un cambio notable con respecto al segundo borrador (‘2º Borrador’) es el enfoque simplificado y conciso del 3er Borrador. Un cambio clave es que el 3er Borrador generalmente exige que los esfuerzos de cumplimiento sean proporcionales al tamaño y las capacidades del proveedor, a diferencia del 2º Borrador.
¿Para quién es relevante esto?
El Código de Prácticas se dirige principalmente a los proveedores de modelos GPAI. Estos modelos se caracterizan por su significativa generalidad y su capacidad para ejecutar de manera competente un amplio espectro de tareas distintas. Esto abarca a los proveedores de modelos de lenguaje grandes y conocidos como GPT (OpenAI), Llama (Meta), Gemini (Google) y Mistral (Mistral AI). Sin embargo, los proveedores de modelos más pequeños también pueden estar bajo su ámbito, siempre que sus modelos puedan utilizarse para una amplia gama de tareas. Además, las empresas que ajustan los modelos para sus aplicaciones específicas también podrían clasificarse como proveedores de modelos GPAI.
Los ‘proveedores intermedios’, o empresas que integran modelos GPAI en sus sistemas de IA, también deben familiarizarse con el Código de Prácticas. Este Código está a punto de convertirse en un cuasi-estándar para los modelos GPAI, definiendo las expectativas para los desarrolladores de sistemas de IA con respecto a las capacidades del modelo GPAI. Esta comprensión puede ser crucial durante las negociaciones de contratos con los proveedores de modelos GPAI.
Conceptos clave del Código de Prácticas sobre la ley de derechos de autor
Los proveedores de modelos GPAI están obligados a establecer una política que garantice el cumplimiento de la ley de derechos de autor de la UE (Art. 53 (1) (c) Ley de IA). Dada la novedad de este requisito, ha faltado orientación práctica sobre la estructura y el contenido de dicha política. El Código de Prácticas tiene como objetivo abordar esta brecha.
El Código de Prácticas exige que los proveedores implementen las siguientes medidas:
Política de derechos de autor
Los proveedores que firmen el Código de Prácticas (‘Signatarios’) están obligados a formular, mantener e implementar una política de derechos de autor que se ajuste a la ley de derechos de autor de la UE. Este requisito se deriva directamente de la Ley de IA. Los Signatarios también deben asegurarse de que sus organizaciones cumplan con esta política de derechos de autor.
Una desviación significativa del 2º Borrador es que el 3er Borrador ya no exige la publicación de la política de derechos de autor. Simplemente se anima a los Signatarios a hacerlo. Este requisito reducido es lógico, ya que la propia Ley de IA no obliga a los proveedores de modelos a publicar sus políticas de derechos de autor.
Rastreo web de contenido con derechos de autor
A los Signatarios generalmente se les permite emplear rastreadores web con fines de minería de texto y datos (‘TDM’) para recopilar datos de entrenamiento para sus modelos GPAI. Sin embargo, deben asegurarse de que estos rastreadores respeten las tecnologías diseñadas para restringir el acceso a materiales con derechos de autor, como los muros de pago.
Además, los Signatarios están obligados a excluir los ‘dominios de piratería’, que son fuentes en línea que se dedican principalmente a la distribución de materiales que infringen los derechos de autor.
Rastreo web e identificación y cumplimiento de las exclusiones voluntarias de TDM
Los Signatarios deben asegurarse de que los rastreadores web identifiquen y respeten las exclusiones voluntarias de TDM declaradas por los titulares de derechos. Si bien la ley de derechos de autor de la UE generalmente permite la TDM, los titulares de derechos conservan el derecho a optar por no participar. Para el contenido web, esta exclusión voluntaria debe ser legible por máquina. El 3er Borrador detalla los requisitos para los rastreadores web, especificando que deben identificar y cumplir con el protocolo robots.txt ampliamente adoptado. Además, los rastreadores web deben adherirse a otras exclusiones voluntarias de TDM legibles por máquina relevantes, como los metadatos establecidos como un estándar de la industria o las soluciones comúnmente utilizadas por los titulares de derechos.
Se requiere que los Signatarios tomen medidas razonables para informar a los titulares de derechos sobre los rastreadores web en uso y cómo estos rastreadores manejan las directivas de robots.txt. Esta información se puede difundir a través de varios canales, como un feed web. En particular, el 3er Borrador ya no incluye la obligación de publicar esta información.
Identificación y cumplimiento de una exclusión voluntaria de TDM para contenido no rastreado en la web
Los proveedores de modelos GPAI también pueden adquirir conjuntos de datos de terceros en lugar de realizar ellos mismos el rastreo web. Mientras que el 2º Borrador exigía una diligencia debida de derechos de autor de los conjuntos de datos de terceros, el 3er Borrador requiere esfuerzos razonables para obtener información sobre si los rastreadores web utilizados para recopilar la información cumplieron con los protocolos robots.txt.
Mitigar el riesgo para evitar la producción de resultados que infrinjan los derechos de autor
Un riesgo significativo asociado con el uso de la IA es la posibilidad de que la IA genere resultados que infrinjan los derechos de autor. Esto podría implicar la duplicación de código o imágenes encontradas en línea que están protegidas por derechos de autor.
Se requiere que los Signatarios hagan esfuerzos razonables para mitigar este riesgo. Esto representa un enfoque más indulgente en comparación con el 2º Borrador, que prescribía medidas para evitar el ‘sobreajuste’. El 3er Borrador adopta una postura más neutral desde el punto de vista tecnológico, enfatizando los esfuerzos razonables.
Además, los Signatarios deben incorporar una cláusula en sus términos y condiciones (o documentos similares) para los proveedores de sistemas de IA intermedios, prohibiendo el uso de su modelo GPAI de una manera que infrinja los derechos de autor.
Designación de un punto de contacto
Se requiere que los Signatarios proporcionen un punto de contacto para los titulares de derechos. También deben establecer un mecanismo que permita a los titulares de derechos presentar quejas sobre infracciones de derechos de autor.
Según el 3er Borrador, los Signatarios tienen la opción de negarse a procesar quejas que se consideren infundadas o excesivas.
Profundizando: Un examen más granular de las disposiciones sobre derechos de autor
El 3er Borrador, aunque aparentemente simplificado, introduce matices y cambios de énfasis que merecen una mirada más cercana. Analicemos cada sección más a fondo:
Política de derechos de autor: El cambio de la publicación al estímulo
El mandato inicial de publicar la política de derechos de autor, presente en el 2º Borrador, generó preocupaciones sobre posibles desventajas competitivas y la exposición de información confidencial. El cambio del 3er Borrador a estimular la publicación, en lugar de exigirla, reconoce estas preocupaciones. Este cambio permite a los proveedores mantener un grado de confidencialidad con respecto a sus estrategias internas de cumplimiento, al tiempo que promueve la transparencia. Sin embargo, el aspecto de ‘estímulo’ todavía ejerce una presión sutil sobre los proveedores para que sean abiertos sobre sus políticas, lo que podría conducir a un estándar de publicación de facto con el tiempo.
Rastreo web: Equilibrio entre la adquisición de datos y el respeto de los derechos de autor
El permiso explícito para el rastreo web, junto con el requisito de respetar las restricciones de acceso como los muros de pago, refleja un delicado acto de equilibrio. La Ley de IA reconoce la importancia de los datos para entrenar modelos de IA, pero también subraya la necesidad de respetar los derechos de los creadores de contenido. La exclusión de los ‘dominios de piratería’ es una adición crucial, que apunta explícitamente a las fuentes que participan activamente en la infracción de los derechos de autor. Esta disposición refuerza el principio de que el desarrollo de la IA no debe basarse en la base de actividades ilegales.
Exclusiones voluntarias de TDM: La especificidad técnica del cumplimiento
El énfasis del 3er Borrador en el protocolo robots.txt y otros mecanismos de exclusión voluntaria legibles por máquina destaca los aspectos técnicos del cumplimiento. Esta especificidad proporciona claridad tanto para los proveedores de GPAI como para los titulares de derechos. Para los proveedores, describe los pasos concretos que deben tomar para garantizar que sus rastreadores respeten las solicitudes de exclusión voluntaria. Para los titulares de derechos, aclara cómo pueden señalar eficazmente sus preferencias con respecto a la TDM. La inclusión de metadatos ‘estándar de la industria’ y soluciones ‘ampliamente adoptadas’ reconoce que el panorama de los mecanismos de exclusión voluntaria está evolucionando y que la flexibilidad es necesaria.
Contenido no rastreado en la web: Cambio de responsabilidad y diligencia debida
El cambio de ‘diligencia debida de derechos de autor’ a ‘esfuerzos razonables para obtener información’ con respecto a los conjuntos de datos de terceros representa un cambio sutil pero significativo en la responsabilidad. Mientras que el 2º Borrador imponía una carga más pesada a los proveedores de GPAI para investigar activamente el estado de los derechos de autor de los conjuntos de datos, el 3er Borrador se centra en verificar si el proceso de recopilación de datos (por parte del tercero) respetó robots.txt. Esto reconoce implícitamente que los proveedores de GPAI pueden no siempre tener control directo sobre las prácticas de adquisición de datos de terceros, pero aún tienen la responsabilidad de preguntar sobre el cumplimiento.
Mitigación de resultados infractores: De ‘sobreajuste’ a ‘esfuerzos razonables’
El alejamiento del término ‘sobreajuste’ es un cambio bienvenido. El ‘sobreajuste’, un término técnico en el aprendizaje automático, se refiere a un modelo que funciona bien con los datos de entrenamiento pero mal con los datos nuevos. Si bien el sobreajuste puede contribuir a la infracción de los derechos de autor (por ejemplo, al memorizar y reproducir material con derechos de autor), no es la única causa. El enfoque más amplio del 3er Borrador en los ‘esfuerzos razonables para mitigar el riesgo’ abarca una gama más amplia de posibles escenarios de infracción y permite una mayor flexibilidad en la implementación. Este cambio también reconoce que la prevención perfecta de la infracción de los derechos de autor puede ser inalcanzable, y un enfoque basado en el riesgo es más práctico.
Punto de contacto y mecanismo de quejas: Agilización del proceso
El requisito de un punto de contacto designado y un mecanismo de quejas proporciona a los titulares de derechos una vía clara para abordar posibles infracciones de derechos de autor. La capacidad de los Signatarios para rechazar quejas ‘infundadas o excesivas’ es una adición práctica, que evita que el sistema se vea abrumado por reclamos frívolos. Esta disposición ayuda a garantizar que el mecanismo de quejas siga siendo una herramienta viable y eficiente para abordar las preocupaciones legítimas sobre los derechos de autor.
Las implicaciones más amplias y las consideraciones futuras
El 3er Borrador del Código de Prácticas de GPAI representa un paso significativo hacia la operacionalización de las disposiciones sobre derechos de autor de la Ley de IA. Proporciona una claridad y orientación muy necesarias para los proveedores de GPAI, al tiempo que busca proteger los derechos de los creadores de contenido. Sin embargo, quedan varias implicaciones más amplias y consideraciones futuras:
El estándar de ‘esfuerzos razonables’: El uso repetido de la frase ‘esfuerzos razonables’ introduce un grado de subjetividad. Lo que constituye ‘razonable’ probablemente estará sujeto a interpretación y puede evolucionar con el tiempo a través de desafíos legales y mejores prácticas de la industria. Esta ambigüedad podría generar incertidumbre para los proveedores, pero también permite flexibilidad y adaptación a diferentes contextos.
El papel de los proveedores intermedios: Si bien el Código se dirige principalmente a los proveedores de GPAI, los proveedores intermedios tienen un interés personal en comprender sus disposiciones. El Código establece expectativas para la calidad y el cumplimiento de los modelos GPAI, lo que puede informar las negociaciones de contratos y las evaluaciones de riesgos. Los proveedores intermedios también pueden enfrentar una presión indirecta para garantizar que su uso de los modelos GPAI se alinee con los principios del Código.
La evolución de la tecnología: El rápido ritmo del desarrollo de la IA significa que el Código de Prácticas deberá ser un documento vivo. Pueden surgir nuevas técnicas para la adquisición de datos, el entrenamiento de modelos y la generación de resultados, lo que requerirá actualizaciones de las disposiciones del Código. La referencia a los metadatos ‘estándar de la industria’ y las soluciones ‘ampliamente adoptadas’ reconoce esta necesidad de adaptación continua.
Armonización internacional: La Ley de IA de la UE es una legislación pionera, pero no opera en el vacío. Otras jurisdicciones también están lidiando con los desafíos de regular la IA. La armonización internacional de las regulaciones de IA, incluidas las disposiciones sobre derechos de autor, será crucial para evitar la fragmentación y garantizar la igualdad de condiciones para los desarrolladores de IA.
El impacto en la innovación: El Código de Prácticas tiene como objetivo lograr un equilibrio entre la promoción de la innovación en IA y la protección de los derechos de autor. Sin embargo, el impacto de estas regulaciones en el ritmo y la dirección del desarrollo de la IA aún está por verse. Algunos argumentan que las regulaciones excesivamente estrictas podrían sofocar la innovación, mientras que otros sostienen que se necesitan reglas claras para fomentar el desarrollo responsable de la IA.
Cumplimiento y supervisión: ¿Cómo se verificará la adhesión? La eficacia de los códigos dependerá en gran medida de los mecanismos establecidos para el cumplimiento y la supervisión.
El 3er Borrador del Código de Prácticas de GPAI es un documento complejo y en evolución con implicaciones de gran alcance. Representa un esfuerzo significativo para abordar los desafíos del cumplimiento de los derechos de autor en la era de la IA, pero también es un trabajo en progreso. El diálogo continuo entre las partes interesadas, incluidos los proveedores de GPAI, los titulares de derechos, los responsables políticos y la comunidad de IA en general, será esencial para garantizar que el Código logre sus objetivos previstos y siga siendo relevante frente al rápido cambio tecnológico.