La situación del desarrollo de la IA vuelve a estar envuelta en un enfrentamiento legal, ya que un grupo de destacadas organizaciones de noticias y medios de comunicación han presentado una demanda por infracción de derechos de autor y marcas registradas contra la startup de IA generativa Cohere. Presentada ante el Tribunal de Distrito de los Estados Unidos para el Distrito Sur de Nueva York en febrero de 2025, la demanda nombra a más de una docena de demandantes, incluidas publicaciones muy respetadas como Forbes, The Guardian y Los Angeles Times. El quid de la cuestión es la utilización por parte de Cohere de la tecnología Retrieval-Augmented Generation (RAG), que, según los demandantes, implica el uso no autorizado de su material protegido por derechos de autor para construir bases de datos y generar resultados.
La Tecnología RAG Bajo Escrutinio
Retrieval-Augmented Generation (RAG) surgió como una posible solución a algunos desafíos inherentes asociados con los modelos de lenguaje grande (LLMs). Propuesta por Patrick Lewis y sus colegas en 2020, RAG tiene como objetivo mitigar problemas como la alucinación (la generación de información factualmente incorrecta o sin sentido), el conocimiento obsoleto y la falta de transparencia en el razonamiento del modelo. Curiosamente, Patrick Lewis es actualmente investigador en Cohere, y continúa su trabajo en la tecnología RAG. La adopción de RAG ha sido generalizada, con importantes actores como Microsoft, Google, Amazon y NVIDIA integrándola en sus sistemas de IA.
La demanda presentada por los editores de noticias se centra en varias alegaciones clave de infracción de derechos de autor contra Cohere. Estas afirmaciones destacan las complejas cuestiones legales que rodean el uso de material protegido por derechos de autor en la formación y el funcionamiento de los modelos de IA generativa.
Reclamaciones de Infracción de Copyright Contra Cohere
Las alegaciones de los demandantes contra Cohere se pueden dividir en cuatro categorías principales:
1. Entrenamiento del Modelo de IA
El núcleo del argumento de los demandantes gira en torno a cómo Cohere entrenó su modelo de lenguaje grande, conocido como la "Familia Command". Afirman que Cohere realizó una "extracción" exhaustiva de texto de Internet, incluido contenido protegido por derechos de autor de las publicaciones de los demandantes. Estos datos extraídos se utilizaron luego para crear los conjuntos de datos necesarios para entrenar el modelo Familia Command. Además, los demandantes alegan que Cohere utilizó conjuntos de datos de terceros como el C4 de Common Crawl, que contienen cantidades significativas de su material protegido por derechos de autor, sin obtener los permisos necesarios.
El uso de material protegido por derechos de autor en el entrenamiento de modelos de IA se ha convertido en una cuestión polémica. Los desarrolladores de IA suelen argumentar que dicho uso se encuentra dentro de la doctrina del "uso legítimo" (fair use), que permite el uso limitado de material protegido por derechos de autor para fines tales como la crítica, los comentarios, la información periodística, la enseñanza, la erudición o la investigación. Sin embargo, los titulares de derechos de autor argumentan que la extracción y el uso a gran escala de su contenido con fines comerciales, como el entrenamiento de modelos de IA, va más allá del alcance del uso legítimo. Esta batalla legal probablemente dependerá de si el tribunal está de acuerdo con la evaluación de los demandantes. La clave será determinar si el “scrapeo” masivo con fines comerciales transgrede los límites del fair use, inclinando la balanza hacia una infracción de los derechos de autor.
2. Uso en Tiempo Real / RAG
Otro aspecto clave de la demanda se centra en cómo los servicios de Cohere, en particular su interfaz Chat, utilizan la tecnología RAG en tiempo real. Los demandantes alegan que los modelos de Cohere extraen contenido de fuentes externas, incluidos sus sitios web, para generar respuestas a las consultas de los usuarios. Esta extracción en tiempo real, según los demandantes, constituye una infracción de los derechos de autor, especialmente cuando los modelos de Cohere evitan los muros de pago o ignoran las directivas "robots.txt", que son comandos que indican a los rastreadores web (incluidos los utilizados por los modelos de IA) que no extraigan contenido específico de un sitio web.
La elusión de muros de pago y directivas robots.txt plantea serias cuestiones éticas y legales. Los muros de pago están diseñados para proteger el contenido protegido por derechos de autor y garantizar que los editores sean compensados por su trabajo. Las directivas robots.txt son un mecanismo estándar para que los propietarios de sitios web controlen cómo se accede a su contenido y se utiliza mediante rastreadores web. Al ignorar estas salvaguardias, Cohere está acusado de demostrar una falta de respeto por las leyes de derechos de autor y los derechos de los creadores de contenido. Este punto subraya la importancia de respetar las normativas establecidas para la protección de la propiedad intelectual en la era digital.
3. Resultados Infringentes
Los demandantes sostienen que los servicios de Cohere proporcionan resultados infractores en forma de copias, extractos sustanciales o resúmenes sustitutivos de sus obras protegidas por derechos de autor en respuesta a las consultas de los usuarios. Citan ejemplos de resultados de Cohere Chat donde el panel "Under the Hood" muestra artículos completos o parciales copiados directamente de los sitios web de los demandantes.
Los demandantes argumentan que estos resultados, ya sean copias textuales o resúmenes, sustituyen directamente la necesidad de que los usuarios visiten los artículos originales. Esto, a su vez, perjudica los ingresos por suscripción digital y publicidad de los que dependen los demandantes para mantener sus negocios. El núcleo de este argumento es que los modelos de IA de Cohere están actuando esencialmente como distribuidores no autorizados de contenido protegido por derechos de autor, privando a los editores originales de su debida compensación. Se genera una competencia desleal que erosiona el valor del contenido original y pone en riesgo la sostenibilidad de la industria de noticias.
4. Adaptación No Autorizada
Además de mostrar partes de las obras de los demandantes en el panel "Under the Hood", los servicios de Cohere también proporcionan resúmenes o abstracts de estas obras. Los demandantes argumentan que el nivel de detalle en estos resúmenes es tan extenso que esencialmente reemplazan las obras originales, excediendo los límites del uso legítimo.
La ley de derechos de autor protege no solo la reproducción literal de obras protegidas por derechos de autor, sino también la creación de obras derivadas, que son adaptaciones o transformaciones del original. Los demandantes argumentan que los resúmenes de Cohere son tan completos que constituyen obras derivadas no autorizadas, infringiendo su derecho exclusivo a crear y distribuir adaptaciones de su material protegido por derechos de autor. La creación de resúmenes detallados que sustituyen la necesidad del acceso a la obra original, representa una infracción de los derechos de autor y un perjuicio económico para los titulares de los derechos.
Responsabilidad Secundaria por las Acciones del Usuario
Más allá de la demanda por infracción directa de los derechos de autor, los demandantes también argumentan que Cohere es secundariamente responsable de los actos infractores de sus usuarios. Argumentan que los servicios de Cohere facilitan la reproducción, exhibición y distribución de las obras de los demandantes por parte de los usuarios, y que Cohere no puede eludir la responsabilidad atribuyendo únicamente la infracción a las acciones del usuario. La base de esta afirmación es que el producto de Cohere genera respuestas solo después de que un usuario ingresa un aviso, lo que convierte a la empresa en participante de la actividad infractora.
Este argumento de responsabilidad secundaria es significativo porque busca responsabilizar a los desarrolladores de IA por las acciones de sus usuarios, incluso cuando esos usuarios son los que participan directamente en la infracción de los derechos de autor. Si tiene éxito, este argumento podría tener implicaciones de gran alcance para el desarrollo y la implementación de tecnologías de IA, ya que requeriría que los desarrolladores implementen salvaguardias para evitar que sus usuarios infrinjan los derechos de autor. La creación de mecanismos para prevenir la infracción por parte de los usuarios se convierte en una obligación para los desarrolladores de IA, lo que implica una mayor responsabilidad en la gestión y control del uso de sus tecnologías.
Reclamaciones de Infracción de Marca Registrada
La demanda se extiende más allá de la infracción de los derechos de autor para incluir reclamaciones de infracción de marca registrada. Los demandantes alegan que la práctica de Cohere de atribuir fuentes constituye una infracción de marca registrada porque utiliza las marcas registradas conocidas de los demandantes sin permiso o las asocia con contenido erróneo generado por IA. Esto, argumentan, conduce a daños a la reputación de la marca de los demandantes y a una dilución de su carácter distintivo.
Las marcas registradas son símbolos, diseños o frases registrados legalmente para representar a una empresa o producto. El uso no autorizado de una marca registrada puede causar confusión entre los consumidores y dañar la reputación de la marca. Los demandantes argumentan que el uso de Cohere de sus marcas registradas en conjunto con contenido generado por IA podría inducir a error a los usuarios haciéndoles creer que los demandantes respaldan o están afiliados a los servicios de Cohere, lo cual no es el caso. La protección de las marcas registradas es fundamental para salvaguardar la reputación y el valor de las empresas, y su uso no autorizado puede generar confusión y dañar la imagen de las marcas.
El Contexto Más Amplio: RAG y el Futuro de la Ley de Copyright de la IA
Esta demanda contra Cohere no es un incidente aislado. Sigue a una demanda anterior por infracción de derechos de autor en los EE. UU. en octubre de 2024 que también se centró en la aplicación RAG en los servicios de IA. Este número creciente de casos destaca la creciente tensión entre los desarrolladores de IA y los titulares de derechos de autor a medida que la arquitectura RAG se vuelve más frecuente en los servicios de IA.
Las batallas legales en torno a la tecnología RAG probablemente se convertirán en un problema importante en el futuro de la ley de copyright de la IA. RAG presenta desafíos únicos porque implica la recuperación y el uso en tiempo real de material protegido por derechos de autor para generar resultados. Esto plantea preguntas complejas sobre el alcance del uso legítimo, la responsabilidad de los desarrolladores de IA por las acciones de los usuarios y la protección de la propiedad intelectual en la era de la inteligencia artificial. La necesidad de un marco legal claro y actualizado se vuelve imperativa para abordar los desafíos planteados por la IA y su impacto en los derechos de autor.
El resultado de estas demandas podría tener un profundo impacto en el desarrollo y la implementación de tecnologías de IA. Si los tribunales fallan a favor de los titulares de derechos de autor, los desarrolladores de IA podrían verse obligados a implementar salvaguardias más estrictas para evitar la infracción de los derechos de autor, lo que podría aumentar el costo y la complejidad del desarrollo de modelos de IA. Por otro lado, si los tribunales fallan a favor de los desarrolladores de IA, los titulares de derechos de autor podrían necesitar encontrar nuevas formas de proteger su propiedad intelectual frente a tecnologías de IA cada vez más sofisticadas. Se necesita un equilibrio entre la promoción de la innovación y la protección de los derechos de propiedad intelectual para garantizar un desarrollo sostenible de la IA.
El enfrentamiento entre los editores de noticias y Cohere sirve como una coyuntura crítica en el debate en curso sobre IA, derechos de autor y el futuro de la creación de contenido. El resultado de este caso, junto con otros similares, indudablemente dará forma al panorama legal para la IA generativa y su interacción con el material protegido por derechos de autor en los años venideros. A medida que la IA continúa evolucionando y se integra cada vez más en varios aspectos de nuestras vidas, es esencial lograr un equilibrio entre la promoción de la innovación y la protección de los derechos de los creadores de contenido. Los tribunales, los legisladores y la comunidad de IA deben trabajar juntos para establecer pautas y regulaciones claras que fomenten la creatividad al tiempo que garantizan que se respete la propiedad intelectual. La colaboración entre los diferentes actores involucrados es fundamental para crear un marco legal justo y equilibrado que fomente la innovación y proteja los derechos de propiedad intelectual.
La industria de las noticias, en particular, enfrenta un conjunto único de desafíos en la era de la IA. A medida que los modelos de IA se vuelven cada vez más capaces de generar contenido de noticias, es crucial que los editores sean compensados por el uso de su material protegido por derechos de autor y que se proteja la integridad de sus marcas. La demanda contra Cohere representa un esfuerzo de los editores de noticias para hacer valer sus derechos.