Código GPAI: Rascunho 3 e Direitos Autorais

Contexto

O Regulamento Europeu para Inteligência Artificial (Regulamento (UE) 2024/1689, ou ‘AI Act’) impõe obrigações específicas aos fornecedores de modelos de IA de propósito geral (‘GPAI’). Estes modelos, incluindo os da família GPT, Llama e Gemini, devem aderir a requisitos como documentação abrangente e o estabelecimento de uma política que garanta a conformidade com a lei de direitos autorais da UE.

Para facilitar a adesão a estas estipulações, o AI Act antecipa o desenvolvimento de Códigos de Prática adaptados para modelos GPAI. Após um convite do AI Office, vários especialistas e partes interessadas formaram quatro grupos de trabalho dedicados à elaboração de um Código de Prática inicial. A aprovação deste Código pela Comissão da UE conceder-lhe-ia ‘validade geral’ em toda a UE. A adoção do Código de Prática GPAI aprovado oferece às empresas um meio de demonstrar conformidade proativa, potencialmente mitigando o escrutínio regulatório e as penalidades associadas.

O AI Office lançou recentemente o terceiro rascunho do Código de Prática (‘3rd Draft’) produzido por estes grupos de trabalho. Este rascunho abrange diversas áreas-chave:

  • Compromissos
  • Transparência
  • Direitos Autorais
  • Segurança e Proteção

A versão final deste Código de Prática está prevista para ser lançada em 2 de maio de 2025.

Este documento irá aprofundar os detalhes significativos dentro da seção de direitos autorais do 3rd Draft. Uma mudança notável em relação ao segundo rascunho (‘2nd Draft’) é a abordagem simplificada e concisa do 3rd Draft. Uma alteração fundamental é que o 3rd Draft geralmente exige que os esforços de conformidade sejam proporcionais ao tamanho e às capacidades do fornecedor, ao contrário do 2nd Draft.

Para quem isto é relevante?

O Código de Prática visa principalmente os fornecedores de modelos GPAI. Estes modelos são caracterizados pela sua generalidade significativa e pela sua capacidade de executar proficientemente um amplo espectro de tarefas distintas. Isto abrange fornecedores de modelos de linguagem grandes e bem conhecidos, como GPT (OpenAI), Llama (Meta), Gemini (Google) e Mistral (Mistral AI). No entanto, fornecedores de modelos menores também podem estar sob sua alçada, desde que seus modelos possam ser utilizados para uma gama diversificada de tarefas. Além disso, as empresas que ajustam modelos para as suas aplicações específicas também podem ser classificadas como fornecedores de modelos GPAI.

Os ‘fornecedores downstream’, ou empresas que integram modelos GPAI nos seus sistemas de IA, também devem familiarizar-se com o Código de Prática. Este Código está prestes a tornar-se um quase-padrão para modelos GPAI, definindo as expectativas para os desenvolvedores de sistemas de IA em relação às capacidades do modelo GPAI. Este entendimento pode ser crucial durante as negociações de contrato com fornecedores de modelos GPAI.

Conceitos-chave do Código de Prática sobre a Lei de Direitos Autorais

Os fornecedores de modelos GPAI são obrigados a estabelecer uma política que garanta a conformidade com a lei de direitos autorais da UE (Art. 53 (1) (c) AI Act). Dada a novidade deste requisito, a orientação prática sobre a estrutura e o conteúdo de tal política tem sido escassa. O Código de Prática visa colmatar esta lacuna.

O Código de Prática exige que os fornecedores implementem as seguintes medidas:

Política de Direitos Autorais

Os fornecedores que assinam o Código de Prática (‘Signatários’) são obrigados a formular, manter e implementar uma política de direitos autorais que esteja alinhada com a lei de direitos autorais da UE. Este requisito é derivado diretamente do AI Act. Os Signatários também devem garantir que as suas organizações aderem a esta política de direitos autorais.

Um desvio significativo do 2nd Draft é que o 3rd Draft já não exige a publicação da política de direitos autorais. Os Signatários são meramente encorajados a fazê-lo. Este requisito reduzido é lógico, uma vez que o próprio AI Act não obriga os fornecedores de modelos a publicar as suas políticas de direitos autorais.

Rastreamento da Web de Conteúdo Protegido por Direitos Autorais

Os Signatários são geralmente autorizados a empregar rastreadores da web para fins de mineração de texto e dados (‘TDM’) para reunir dados de treinamento para seus modelos GPAI. No entanto, eles devem garantir que esses rastreadores respeitem as tecnologias projetadas para restringir o acesso a materiais protegidos por direitos autorais, como paywalls.

Além disso, os Signatários são obrigados a excluir ‘domínios de pirataria’, que são fontes online que se envolvem principalmente na distribuição de materiais que infringem direitos autorais.

Rastreamento da Web e Identificação e Cumprimento de Opt-outs de TDM

Os Signatários devem garantir que os rastreadores da web identifiquem e respeitem os opt-outs de TDM declarados pelos detentores de direitos. Embora a lei de direitos autorais da UE geralmente permita o TDM, os detentores de direitos mantêm o direito de optar por não participar. Para conteúdo da web, este opt-out deve ser legível por máquina. O 3rd Draft elabora os requisitos para rastreadores da web, especificando que eles devem identificar e cumprir o protocolo robots.txt amplamente adotado. Além disso, os rastreadores da web devem aderir a outros opt-outs de TDM legíveis por máquina relevantes, como metadados estabelecidos como um padrão da indústria ou soluções comumente usadas pelos detentores de direitos.

Os Signatários são obrigados a tomar medidas razoáveis para informar os detentores de direitos sobre os rastreadores da web em uso e como esses rastreadores lidam com as diretivas robots.txt. Esta informação pode ser disseminada através de vários canais, como um feed da web. Notavelmente, o 3rd Draft já não inclui a obrigação de publicar esta informação.

Identificação e Cumprimento de um Opt-out de TDM para Conteúdo Não Rasteado na Web

Os fornecedores de modelos GPAI também podem adquirir conjuntos de dados de terceiros em vez de conduzir o rastreamento da web eles mesmos. Enquanto o 2nd Draft exigia uma due diligence de direitos autorais de conjuntos de dados de terceiros, o 3rd Draft exige esforços razoáveis para obter informações sobre se os rastreadores da web usados para coletar as informações cumpriram os protocolos robots.txt.

Mitigar o Risco para Evitar a Produção de Saída que Infringe Direitos Autorais

Um risco significativo associado ao uso de IA é o potencial de a IA gerar saída que infrinja direitos autorais. Isso pode envolver a duplicação de código ou imagens encontradas online que são protegidas por direitos autorais.

Os Signatários são obrigados a fazer esforços razoáveis para mitigar este risco. Isso representa uma abordagem mais branda em comparação com o 2nd Draft, que prescrevia medidas para evitar o ‘overfitting’. O 3rd Draft adota uma postura mais neutra em termos de tecnologia, enfatizando os esforços razoáveis.

Além disso, os Signatários devem incorporar uma cláusula nos seus termos e condições (ou documentos semelhantes) para fornecedores de sistemas de IA downstream, proibindo o uso do seu modelo GPAI de uma forma que infrinja direitos autorais.

Designação de um Ponto de Contato

Os Signatários são obrigados a fornecer um ponto de contato para os detentores de direitos. Eles também devem estabelecer um mecanismo que permita aos detentores de direitos apresentar reclamações sobre infrações de direitos autorais.

De acordo com o 3rd Draft, os Signatários têm a opção de recusar o processamento de reclamações consideradas infundadas ou excessivas.

Aprofundando: Um Exame Mais Granular das Disposições sobre Direitos Autorais

O 3rd Draft, embora aparentemente simplificado, introduz nuances e mudanças de ênfase que merecem uma análise mais detalhada. Vamos dissecar cada seção mais a fundo:

Política de Direitos Autorais: A Mudança da Publicação para o Encorajamento

O mandato inicial para publicar a política de direitos autorais, presente no 2nd Draft, levantou preocupações sobre potenciais desvantagens competitivas e a exposição de informações confidenciais. A mudança do 3rd Draft para encorajar a publicação, em vez de exigi-la, reconhece essas preocupações. Esta alteração permite que os fornecedores mantenham um grau de confidencialidade em relação às suas estratégias internas de conformidade, ao mesmo tempo que promove a transparência. No entanto, o aspecto do “encorajamento” ainda coloca uma pressão subtil sobre os fornecedores para serem abertos sobre as suas políticas, potencialmente levando a um padrão de facto de publicação ao longo do tempo.

Rastreamento da Web: Equilibrando a Aquisição de Dados com o Respeito aos Direitos Autorais

A permissão explícita para rastreamento da web, juntamente com a exigência de respeitar as restrições de acesso, como paywalls, reflete um delicado ato de equilíbrio. O AI Act reconhece a importância dos dados para treinar modelos de IA, mas também sublinha a necessidade de respeitar os direitos dos criadores de conteúdo. A exclusão de ‘domínios de pirataria’ é uma adição crucial, visando explicitamente fontes que se envolvem ativamente na violação de direitos autorais. Esta disposição reforça o princípio de que o desenvolvimento da IA não deve ser construído sobre a base de atividades ilegais.

Opt-outs de TDM: A Especificidade Técnica da Conformidade

A ênfase do 3rd Draft no protocolo robots.txt e outros mecanismos de opt-out legíveis por máquina destaca os aspectos técnicos da conformidade. Esta especificidade fornece clareza tanto para os fornecedores de GPAI como para os detentores de direitos. Para os fornecedores, descreve as etapas concretas que devem tomar para garantir que os seus rastreadores respeitem os pedidos de opt-out. Para os detentores de direitos, esclarece como podem sinalizar efetivamente as suas preferências em relação ao TDM. A inclusão de metadados ‘padrão da indústria’ e soluções ‘amplamente adotadas’ reconhece que o cenário dos mecanismos de opt-out está a evoluir e que a flexibilidade é necessária.

Conteúdo Não Rasteado na Web: Mudança de Responsabilidade e Due Diligence

A mudança de ‘due diligence de direitos autorais’ para ‘esforços razoáveis para obter informações’ sobre conjuntos de dados de terceiros representa uma mudança subtil, mas significativa, na responsabilidade. Enquanto o 2nd Draft colocava um ónus maior sobre os fornecedores de GPAI para investigar ativamente o status de direitos autorais dos conjuntos de dados, o 3rd Draft concentra-se em verificar se o processo de coleta de dados (pelo terceiro) respeitou o robots.txt. Isso reconhece implicitamente que os fornecedores de GPAI podem nem sempre ter controle direto sobre as práticas de aquisição de dados de terceiros, mas ainda têm a responsabilidade de se informar sobre a conformidade.

Mitigação de Saída que Infringe: De ‘Overfitting’ a ‘Esforços Razoáveis’

O afastamento do termo ‘overfitting’ é uma mudança bem-vinda. ‘Overfitting’, um termo técnico em aprendizado de máquina, refere-se a um modelo que tem um bom desempenho em dados de treinamento, mas um desempenho ruim em novos dados. Embora o overfitting possa contribuir para a violação de direitos autorais (por exemplo, memorizando e reproduzindo material protegido por direitos autorais), não é a única causa. O foco mais amplo do 3rd Draft em ‘esforços razoáveis para mitigar o risco’ abrange uma gama mais ampla de cenários potenciais de infração e permite mais flexibilidade na implementação. Esta mudança também reconhece que a prevenção perfeita da violação de direitos autorais pode ser inatingível, e uma abordagem baseada no risco é mais prática.

Ponto de Contato e Mecanismo de Reclamação: Simplificando o Processo

A exigência de um ponto de contato designado e um mecanismo de reclamação fornece aos detentores de direitos um caminho claro para lidar com potenciais violações de direitos autorais. A capacidade dos Signatários de recusar reclamações ‘infundadas ou excessivas’ é uma adição prática, impedindo que o sistema seja sobrecarregado por reivindicações frívolas. Esta disposição ajuda a garantir que o mecanismo de reclamação permaneça uma ferramenta viável e eficiente para lidar com preocupações legítimas de direitos autorais.

As Implicações Mais Amplas e Considerações Futuras

O 3rd Draft do Código de Prática GPAI representa um passo significativo para operacionalizar as disposições de direitos autorais do AI Act. Ele fornece clareza e orientação muito necessárias para os fornecedores de GPAI, ao mesmo tempo que procura proteger os direitos dos criadores de conteúdo. No entanto, várias implicações mais amplas e considerações futuras permanecem:

  • O Padrão de ‘Esforços Razoáveis’: O uso repetido da frase ‘esforços razoáveis’ introduz um grau de subjetividade. O que constitui ‘razoável’ provavelmente estará sujeito a interpretação e pode evoluir ao longo do tempo através de desafios legais e melhores práticas da indústria. Esta ambiguidade pode levar à incerteza para os fornecedores, mas também permite flexibilidade e adaptação a diferentes contextos.

  • O Papel dos Fornecedores Downstream: Embora o Código vise principalmente os fornecedores de GPAI, os fornecedores downstream têm um interesse em compreender as suas disposições. O Código define expectativas para a qualidade e conformidade dos modelos GPAI, o que pode informar as negociações de contrato e as avaliações de risco. Os fornecedores downstream também podem enfrentar pressão indireta para garantir que o seu uso de modelos GPAI esteja alinhado com os princípios do Código.

  • A Evolução da Tecnologia: O ritmo rápido do desenvolvimento da IA significa que o Código de Prática precisará ser um documento vivo. Novas técnicas para aquisição de dados, treinamento de modelos e geração de saída podem surgir, exigindo atualizações nas disposições do Código. A referência a metadados ‘padrão da indústria’ e soluções ‘amplamente adotadas’ reconhece esta necessidade de adaptação contínua.

  • Harmonização Internacional: O EU AI Act é uma legislação pioneira, mas não está a operar no vácuo. Outras jurisdições também estão a lidar com os desafios da regulamentação da IA. A harmonização internacional das regulamentações de IA, incluindo as disposições de direitos autorais, será crucial para evitar a fragmentação e garantir um campo de atuação nivelado para os desenvolvedores de IA.

  • O Impacto na Inovação: O Código de Prática visa encontrar um equilíbrio entre promover a inovação em IA e proteger os direitos autorais. No entanto, o impacto destas regulamentações no ritmo e na direção do desenvolvimento da IA ainda está para ser visto. Alguns argumentam que regulamentações excessivamente rigorosas podem sufocar a inovação, enquanto outros afirmam que regras claras são necessárias para promover o desenvolvimento responsável da IA.

  • Aplicação e Monitorização: Como será verificada a adesão? A eficácia dos códigos dependerá em grande parte dos mecanismos implementados para aplicação e monitorização.

O 3rd Draft do Código de Prática GPAI é um documento complexo e em evolução com implicações de longo alcance. Representa um esforço significativo para enfrentar os desafios da conformidade com os direitos autorais na era da IA, mas também é um trabalho em andamento. O diálogo contínuo entre as partes interessadas, incluindo fornecedores de GPAI, detentores de direitos, legisladores e a comunidade de IA em geral, será essencial para garantir que o Código atinja os seus objetivos pretendidos e permaneça relevante face à rápida mudança tecnológica.