GPT-4o da OpenAI sob escrutínio por dados pagos

O avanço implacável do desenvolvimento da inteligência artificial, liderado por gigantes como a OpenAI, colide frequentemente com princípios há muito estabelecidos de propriedade intelectual e posse de dados. Esta colisão gerou novamente controvérsia, com novas alegações a surgir de que o mais recente modelo emblemático da OpenAI, o GPT-4o, pode ter sido treinado utilizando materiais protegidos por direitos de autor sequestrados atrás de paywalls, potencialmente sem garantir as permissões necessárias. Estas alegações provêm de um grupo de vigilância recém-estabelecido, o AI Disclosures Project, adicionando outra camada de complexidade ao já intrincado debate em torno da origem ética dos dados para treinar sistemas de IA sofisticados.

O Latido do Cão de Guarda: Alegações do AI Disclosures Project

Lançado em 2024, o AI Disclosures Project posiciona-se como uma entidade sem fins lucrativos dedicada a escrutinar as práticas frequentemente opacas dentro da indústria de IA. Os seus fundadores incluem figuras notáveis como o empresário de media Tim O’Reilly, fundador da O’Reilly Media, uma proeminente editora de livros técnicos, e o economista Ilan Strauss. Esta ligação à O’Reilly Media é particularmente relevante, uma vez que o relatório bombástico inicial do projeto se foca especificamente na alegada presença de conteúdo de livros da O’Reilly protegidos por paywall no conjunto de dados de treino do GPT-4o.

A afirmação central do seu estudo é provocadora: apesar da ausência de qualquer acordo de licenciamento conhecido entre a OpenAI e a O’Reilly Media, o modelo GPT-4o exibe um nível marcadamente elevado de familiaridade com conteúdo derivado diretamente dos livros protegidos por direitos de autor da O’Reilly. Esta familiaridade, sustenta o relatório, sugere fortemente que estes materiais protegidos por paywall foram incorporados no vasto corpus de dados utilizado para construir as capacidades do modelo. O estudo destaca uma diferença significativa em comparação com modelos mais antigos da OpenAI, particularmente o GPT-3.5 Turbo, implicando uma potencial mudança ou expansão nas práticas de aquisição de dados que levaram ao desenvolvimento do GPT-4o.

As implicações são substanciais. Se conteúdo proprietário e pago está a ser ingerido por modelos de IA sem autorização ou compensação, levanta questões fundamentais sobre a lei de direitos de autor na era da IA generativa. Editores e autores dependem de modelos de subscrição ou compra, baseados na exclusividade do seu conteúdo. O alegado uso deste material para treino pode ser visto como minando estes modelos de negócio, potencialmente desvalorizando o próprio conteúdo que requer um investimento significativo para ser criado. Esta acusação específica vai além da extração de websites publicamente disponíveis, aventurando-se no território do acesso a conteúdo explicitamente destinado a clientes pagantes.

Espreitando Dentro da Caixa Negra: O Membership Inference Attack

Para substanciar as suas alegações, os investigadores do AI Disclosures Project empregaram uma técnica sofisticada conhecida como ‘membership inference attack’, utilizando especificamente um método que chamam DE-COP. A ideia central por trás desta abordagem é testar se um modelo de IA ‘memorizou’ ou pelo menos desenvolveu uma forte familiaridade com peças específicas de texto. Essencialmente, o ataque sonda o modelo para ver se consegue distinguir de forma fiável entre passagens de texto originais (neste caso, de livros da O’Reilly) e versões parafraseadas cuidadosamente construídas dessas mesmas passagens, geradas por outra IA.

A lógica subjacente é que, se um modelo demonstra consistentemente uma capacidade superior ao acaso de identificar o texto original de autoria humana em comparação com uma paráfrase próxima, isso implica que o modelo encontrou esse texto original antes – provavelmente durante a sua fase de treino. É semelhante a testar se alguém reconhece uma fotografia específica e menos conhecida que afirma nunca ter visto; o reconhecimento consistente sugere exposição prévia.

A escala do teste do AI Disclosures Project foi considerável. Utilizaram 13.962 excertos de parágrafos distintos retirados de 34 livros diferentes da O’Reilly Media. Estes excertos representavam o tipo de conteúdo especializado e de alto valor tipicamente encontrado atrás do paywall da editora. O estudo mediu então o desempenho tanto do GPT-4o como do seu predecessor, GPT-3.5 Turbo, nesta tarefa de diferenciação.

Os resultados, tal como apresentados no relatório, foram impressionantes. O GPT-4o demonstrou uma capacidade significativamente aumentada de reconhecer o conteúdo pago da O’Reilly. O seu desempenho foi quantificado utilizando uma pontuação AUROC (Area Under the Receiver Operating Characteristic curve), uma métrica comum para avaliar o desempenho de classificadores binários. O GPT-4o alcançou uma pontuação AUROC de 82%. Em contraste, o GPT-3.5 Turbo pontuou pouco acima de 50%, o que é essencialmente equivalente a adivinhação aleatória – indicando pouco ou nenhum reconhecimento específico do material testado. Esta diferença gritante, argumenta o relatório, fornece evidências convincentes, embora indiretas, de que o conteúdo protegido por paywall fez de facto parte da dieta de treino do GPT-4o. Uma pontuação de 82% sugere um sinal forte, muito além do que seria esperado por acaso ou conhecimento generalizado.

Ressalvas Necessárias e Questões por Responder

Embora as descobertas apresentem uma narrativa convincente, os coautores do estudo, incluindo o investigador de IA Sruly Rosenblat, reconhecem louvavelmente as potenciais limitações inerentes à sua metodologia e à natureza complexa do treino de IA. Uma ressalva significativa que levantam é a possibilidade de ingestão indireta de dados. É concebível, observam eles, que utilizadores do ChatGPT (a popular interface da OpenAI) possam ter copiado e colado excertos de livros pagos da O’Reilly diretamente na interface de chat para vários fins, como fazer perguntas sobre o texto ou pedir resumos. Se isto ocorreu com frequência suficiente, o modelo poderia ter aprendido o conteúdo indiretamente através das interações do utilizador, em vez de através da inclusão direta no conjunto de dados de treino inicial. Deslindar a exposição direta ao treino da aprendizagem indireta através de prompts do utilizador continua a ser um desafio significativo na forense de IA.

Além disso, o âmbito do estudo não se estendeu às iterações de modelos mais recentes ou especializados da OpenAI que possam ter sido desenvolvidos ou lançados simultaneamente ou subsequentemente ao ciclo de treino principal do GPT-4o. Modelos potencialmente incluindo o GPT-4.5 (se existir sob essa nomenclatura específica ou nível de capacidade) e modelos focados em raciocínio como o3-mini e o1 não foram sujeitos aos mesmos ‘membership inference attacks’. Isto deixa em aberto a questão de saber se as práticas de origem de dados podem ter evoluído ainda mais, ou se estes modelos mais recentes exibem padrões semelhantes de familiaridade com conteúdo protegido por paywall. Os rápidos ciclos de iteração no desenvolvimento de IA significam que qualquer análise instantânea corre o risco de ficar ligeiramente desatualizada quase imediatamente.

Estas limitações não invalidam necessariamente as descobertas centrais do estudo, mas acrescentam camadas cruciais de nuance. Provar definitivamente o que reside nos terabytes de dados usados para treinar um modelo de fundação é notoriamente difícil. Os ‘membership inference attacks’ oferecem evidências probabilísticas, sugerindo probabilidade em vez de oferecer certeza absoluta. A OpenAI, como outros laboratórios de IA, guarda zelosamente a composição dos seus dados de treino, citando preocupações proprietárias e sensibilidades competitivas.

Um Conflito Mais Amplo: Batalhas de Direitos de Autor na Arena da IA

As alegações levantadas pelo AI Disclosures Project não existem num vácuo. Representam a mais recente escaramuça num conflito muito mais amplo e contínuo entre desenvolvedores de IA e criadores sobre o uso de material protegido por direitos de autor para fins de treino. A OpenAI, juntamente com outros intervenientes proeminentes como Google, Meta e Microsoft, encontra-se envolvida em múltiplos processos judiciais de alto perfil. Estes desafios legais, movidos por autores, artistas, organizações de notícias e outros detentores de direitos, geralmente alegam violação generalizada de direitos de autor decorrente da extração e ingestão não autorizadas de vastas quantidades de texto e imagens da internet para treinar modelos de IA generativa.

A defesa central frequentemente montada pelas empresas de IA baseia-se na doutrina do ‘fair use’ (nos Estados Unidos) ou exceções semelhantes noutras jurisdições. Argumentam que usar obras protegidas por direitos de autor para treino constitui um uso ‘transformativo’ – os modelos de IA não estão meramente a reproduzir as obras originais, mas estão a usar os dados para aprender padrões, estilos e informações para gerar resultados inteiramente novos. Sob esta interpretação, o próprio processo de treino, destinado a criar uma nova ferramenta poderosa, deveria ser permissível sem exigir licenças para cada pedaço de dados ingerido.

No entanto, os detentores de direitos contestam veementemente esta visão. Argumentam que a escala pura da cópia envolvida, a natureza comercial dos produtos de IA a serem construídos e o potencial para os resultados da IA competirem diretamente com e suplantarem as obras originais pesam fortemente contra uma conclusão de ‘fair use’. A alegação é que as empresas de IA estão a construir empresas multibilionárias à custa do trabalho criativo sem compensar os criadores.

Neste cenário litigioso, a OpenAI procurou proativamente mitigar alguns riscos ao fechar acordos de licenciamento com vários fornecedores de conteúdo. Foram anunciados acordos com grandes editoras de notícias (como a Associated Press e a Axel Springer), plataformas de redes sociais (como o Reddit) e bibliotecas de media de stock (como a Shutterstock). Estes acordos fornecem à OpenAI acesso legítimo a conjuntos de dados específicos em troca de pagamento, reduzindo potencialmente a sua dependência de dados extraídos da web potencialmente infratores. A empresa também terá contratado jornalistas, encarregando-os de ajudar a refinar e melhorar a qualidade e fiabilidade dos resultados dos seus modelos, sugerindo uma consciência da necessidade de input de alta qualidade, potencialmente curado.

O Efeito Dominó: Preocupações com o Ecossistema de Conteúdo

O relatório do AI Disclosures Project estende as suas preocupações para além das implicações legais imediatas para a OpenAI. Enquadra a questão como uma ameaça sistémica que poderia impactar negativamente a saúde e a diversidade de todo o ecossistema de conteúdo digital. O estudo postula um ciclo de feedback potencialmente prejudicial: se as empresas de IA podem usar livremente conteúdo de alta qualidade, criado profissionalmente (incluindo material protegido por paywall) sem compensar os criadores, isso corrói a viabilidade financeira de produzir tal conteúdo em primeiro lugar.

A criação de conteúdo profissional – seja jornalismo investigativo, manuais técnicos aprofundados, escrita de ficção ou pesquisa académica – requer frequentemente tempo, perícia e investimento financeiro significativos. Paywalls e modelos de subscrição são frequentemente mecanismos essenciais para financiar este trabalho. Se os fluxos de receita que apoiam estes esforços diminuírem porque o conteúdo está efetivamente a ser usado para treinar sistemas de IA concorrentes sem remuneração, o incentivo para criar conteúdo diversificado e de alta qualidade pode diminuir. Isto poderia levar a um público menos informado, a uma redução nos recursos de conhecimento especializado e, potencialmente, a uma internet dominada por conteúdo de menor qualidade ou gerado por IA, carente de perícia e verificação humanas.

Consequentemente, o AI Disclosures Project defende fortemente maior transparência e responsabilização por parte das empresas de IA relativamente às suas práticas de dados de treino. Apelam à implementação de políticas robustas e, potencialmente, de quadros regulamentares que garantam que os criadores de conteúdo sejam justamente compensados quando o seu trabalho contribui para o desenvolvimento de modelos de IA comerciais. Isto ecoa apelos mais amplos de grupos de criadores em todo o mundo que procuram mecanismos – seja através de acordos de licenciamento, sistemas de royalties ou negociação coletiva – para garantir que recebem uma parte do valor gerado pelos sistemas de IA treinados na sua propriedade intelectual. O debate centra-se em encontrar um equilíbrio sustentável onde a inovação em IA possa florescer ao lado de um ecossistema próspero para a criatividade humana e a geração de conhecimento. A resolução das batalhas legais em curso e o potencial para nova legislação ou normas da indústria serão críticos na definição deste equilíbrio futuro. A questão de como rastrear a proveniência dos dados e atribuir valor em modelos de IA massivos e complexos permanece um obstáculo técnico e ético significativo.