A paisagem do desenvolvimento de IA está mais uma vez envolvida em um confronto legal, pois um grupo de importantes organizações de notícias e mídia lançou uma ação judicial por direitos autorais e violação de marca registrada contra a startup de IA generativa Cohere. Apresentada no Tribunal Distrital dos EUA para o Distrito Sul de Nova York em fevereiro de 2025, a ação nomeia mais de uma dúzia de demandantes, incluindo publicações respeitadas como Forbes, The Guardian e Los Angeles Times. No centro da questão está a utilização da tecnologia Retrieval-Augmented Generation (RAG) pela Cohere, que os demandantes alegam envolver o uso não autorizado de seu material protegido por direitos autorais para construir bancos de dados e gerar resultados.
Tecnologia RAG Sob Exame Minucioso
Retrieval-Augmented Generation (RAG) surgiu como uma solução potencial para alguns desafios inerentes associados a grandes modelos de linguagem (LLMs). Proposto por Patrick Lewis e seus colegas em 2020, o RAG visa mitigar problemas como alucinação (a geração de informações factualmente incorretas ou sem sentido), conhecimento desatualizado e falta de transparência no raciocínio do modelo. Curiosamente, o próprio Patrick Lewis é atualmente um pesquisador da Cohere, continuando seu trabalho na tecnologia RAG. A adoção do RAG tem sido generalizada, com grandes players como Microsoft, Google, Amazon e NVIDIA integrando-o em seus sistemas de IA.
A ação movida pelas editoras de notícias centra-se em várias alegações-chave de violação de direitos autorais contra a Cohere. Essas alegações destacam as complexas questões legais que envolvem o uso de material protegido por direitos autorais no treinamento e operação de modelos de IA generativa.
Alegações de Violação de Direitos Autorais Contra a Cohere
As alegações dos demandantes contra a Cohere podem ser divididas em quatro categorias principais:
1. Treinamento do Modelo de IA
O núcleo do argumento dos demandantes gira em torno de como a Cohere treinou seu grande modelo de linguagem, conhecido como "Command Family". Eles afirmam que a Cohere se envolveu em uma extensa "raspagem" de texto da internet, incluindo conteúdo protegido por direitos autorais das publicações dos demandantes. Esses dados raspados foram então usados para criar os conjuntos de dados necessários para treinar o modelo Command Family. Além disso, os demandantes alegam que a Cohere utilizou conjuntos de dados de terceiros, como o C4 da Common Crawl, que contêm quantidades significativas de seu material protegido por direitos autorais, sem obter as permissões necessárias.
O uso de material protegido por direitos autorais no treinamento de modelos de IA se tornou uma questão controversa. Os desenvolvedores de IA frequentemente argumentam que tal uso se enquadra na doutrina do "uso justo", que permite o uso limitado de material protegido por direitos autorais para fins como crítica, comentário, reportagem, ensino, bolsa de estudos ou pesquisa. No entanto, os detentores de direitos autorais argumentam que a raspagem e o uso em larga escala de seu conteúdo para fins comerciais, como o treinamento de modelos de IA, vão além do escopo do uso justo. Esta batalha legal provavelmente dependerá se o tribunal concorda com a avaliação dos demandantes.
2. Uso em Tempo Real / RAG
Outro aspecto fundamental da ação se concentra em como os serviços da Cohere, particularmente sua interface de Chat, utilizam a tecnologia RAG em tempo real. Os demandantes alegam que os modelos da Cohere raspam conteúdo de fontes externas, incluindo seus sites, para gerar respostas às consultas dos usuários. Essa raspagem em tempo real, de acordo com os demandantes, constitui violação de direitos autorais, especialmente quando os modelos da Cohere ignoram paywalls ou ignoram as diretivas "robots.txt", que são comandos que instruem os rastreadores da web (incluindo aqueles usados por modelos de IA) a não raspar conteúdo específico de um site.
O desvio de paywalls e diretivas robots.txt levanta sérias questões éticas e legais. Os paywalls são projetados para proteger conteúdo protegido por direitos autorais e garantir que os editores sejam compensados por seu trabalho. As diretivas Robots.txt são um mecanismo padrão para que os proprietários de sites controlem como seu conteúdo é acessado e usado por rastreadores da web. Ao ignorar essas salvaguardas, a Cohere é acusada de demonstrar desrespeito pelas leis de direitos autorais e pelos direitos dos criadores de conteúdo.
3. Resultados Infratores
Os demandantes alegam que os serviços da Cohere fornecem resultados infratores na forma de cópias, trechos substanciais ou resumos substitutivos de suas obras protegidas por direitos autorais em resposta às consultas dos usuários. Eles citam exemplos de resultados do Cohere Chat onde o painel "Under the Hood" exibe artigos completos ou parciais copiados diretamente dos sites dos demandantes.
Os demandantes argumentam que esses resultados, sejam eles cópias textuais ou resumos, substituem diretamente a necessidade de os usuários visitarem os artigos originais. Isso, por sua vez, prejudica a assinatura digital e a receita de publicidade de que os demandantes dependem para sustentar seus negócios. O cerne desse argumento é que os modelos de IA da Cohere estão essencialmente atuando como distribuidores não autorizados de conteúdo protegido por direitos autorais, privando os editores originais de sua compensação legítima.
4. Adaptação Não Autorizada
Além de exibir partes das obras dos demandantes no painel "Under the Hood", os serviços da Cohere também fornecem resumos ou abstracts dessas obras. Os demandantes argumentam que o nível de detalhe nesses resumos é tão extenso que eles essencialmente substituem as obras originais, excedendo os limites do uso justo.
A lei de direitos autorais protege não apenas a reprodução textual de obras protegidas por direitos autorais, mas também a criação de obras derivadas, que são adaptações ou transformações do original. Os demandantes argumentam que os resumos da Cohere são tão abrangentes que constituem obras derivadas não autorizadas, infringindo seu direito exclusivo de criar e distribuir adaptações de seu material protegido por direitos autorais.
Responsabilidade Secundária pelas Ações do Usuário
Além da alegação de violação direta de direitos autorais, os demandantes também argumentam que a Cohere é secundariamente responsável pelos atos infratores de seus usuários. Eles argumentam que os serviços da Cohere facilitam a reprodução, exibição e distribuição das obras dos demandantes pelos usuários, e que a Cohere não pode se esquivar da responsabilidade atribuindo a infração exclusivamente às ações do usuário. A base para essa alegação é que o produto da Cohere gera respostas somente depois que um usuário insere um prompt, tornando a empresa uma participante da atividade infratora.
Este argumento de responsabilidade secundária é significativo porque busca responsabilizar os desenvolvedores de IA pelas ações de seus usuários, mesmo quando esses usuários são os que estão diretamente envolvidos na violação de direitos autorais. Se bem-sucedido, este argumento poderia ter implicações de longo alcance para o desenvolvimento e a implantação de tecnologias de IA, pois exigiria que os desenvolvedores implementassem salvaguardas para impedir que seus usuários infringissem os direitos autorais.
Alegações de Violação de Marca Registrada
A ação se estende além da violação de direitos autorais para incluir alegações de violação de marca registrada. Os demandantes alegam que a prática da Cohere de atribuir fontes constitui violação de marca registrada porque usa as marcas registradas bem conhecidas dos demandantes sem permissão ou as associa a conteúdo errôneo gerado por IA. Isso, segundo eles, leva a danos à reputação da marca dos demandantes e a uma diluição de sua distinção.
Marcas registradas são símbolos, desenhos ou frases legalmente registradas para representar uma empresa ou produto. O uso não autorizado de uma marca registrada pode causar confusão entre os consumidores e danificar a reputação da marca. Os demandantes argumentam que o uso da Cohere de suas marcas registradas em conjunto com conteúdo gerado por IA pode induzir os usuários a acreditar que os demandantes endossam ou são afiliados aos serviços da Cohere, o que não é o caso.
O Contexto Mais Amplo: RAG e o Futuro da Lei de Direitos Autorais de IA
Esta ação judicial contra a Cohere não é um incidente isolado. Ela segue uma ação judicial anterior de direitos autorais nos EUA em outubro de 2024 que também se concentrou na aplicação do RAG em serviços de IA. Este número crescente de casos destaca a crescente tensão entre desenvolvedores de IA e detentores de direitos autorais, à medida que a arquitetura RAG se torna mais prevalente em serviços de IA.
As batalhas legais em torno da tecnologia RAG provavelmente se tornarão uma questão significativa no futuro da lei de direitos autorais de IA. O RAG apresenta desafios únicos porque envolve a recuperação e o uso em tempo real de material protegido por direitos autorais para gerar resultados. Isso levanta questões complexas sobre o escopo do uso justo, a responsabilidade dos desenvolvedores de IA pelas ações do usuário e a proteção da propriedade intelectual na era da inteligência artificial.
O resultado dessas ações judiciais pode ter um impacto profundo no desenvolvimento e implantação de tecnologias de IA. Se os tribunais decidirem a favor dos detentores de direitos autorais, os desenvolvedores de IA podem ser forçados a implementar salvaguardas mais rigorosas para impedir a violação de direitos autorais, o que poderia aumentar o custo e a complexidade do desenvolvimento de modelos de IA. Por outro lado, se os tribunais decidirem a favor dos desenvolvedores de IA, os detentores de direitos autorais podem precisar encontrar novas maneiras de proteger sua propriedade intelectual em face de tecnologias de IA cada vez mais sofisticadas.
O conflito entre editores de notícias e a Cohere serve como um momento crítico no debate contínuo sobre IA, direitos autorais e o futuro da criação de conteúdo. O resultado deste caso, juntamente com outros como ele, sem dúvida moldará o cenário jurídico para a IA generativa e sua interação com material protegido por direitos autorais nos próximos anos. À medida que a IA continua a evoluir e se torna mais integrada em vários aspectos de nossas vidas, é essencial encontrar um equilíbrio entre promover a inovação e proteger os direitos dos criadores de conteúdo. Os tribunais, os legisladores e a comunidade da IA devem trabalhar juntos para estabelecer diretrizes e regulamentos claros que promovam a criatividade, garantindo ao mesmo tempo o respeito pela propriedade intelectual.
O setor de notícias, em particular, enfrenta um conjunto único de desafios na era da IA. À medida que os modelos de IA se tornam cada vez mais capazes de gerar conteúdo de notícias, é crucial que os editores sejam compensados pelo uso de seu material protegido por direitos autorais e que a integridade de suas marcas seja protegida. A ação judicial contra a Cohere representa um esforço dos editores de notícias para reivindicar seus direitos e garantir que seu trabalho não seja explorado por empresas de IA sem a devida autorização.