La marche incessante du développement de l’intelligence artificielle, menée par des géants comme OpenAI, se heurte fréquemment aux principes établis de longue date de la propriété intellectuelle et de la propriété des données. Cette collision a une fois de plus suscité la controverse, avec de nouvelles allégations selon lesquelles le dernier modèle phare d’OpenAI, GPT-4o, pourrait avoir été entraîné en utilisant des matériaux protégés par le droit d’auteur, séquestrés derrière des paywalls, potentiellement sans obtenir les autorisations nécessaires. Ces affirmations proviennent d’un groupe de surveillance nouvellement créé, l’AI Disclosures Project, ajoutant une autre couche de complexité au débat déjà complexe entourant l’approvisionnement éthique des données pour l’entraînement de systèmes d’IA sophistiqués.
L’aboiement du chien de garde : Allégations de l’AI Disclosures Project
Lancé en 2024, l’AI Disclosures Project se positionne comme une entité à but non lucratif dédiée à l’examen minutieux des pratiques souvent opaques au sein de l’industrie de l’IA. Ses fondateurs comprennent des personnalités notables telles que l’entrepreneur des médias Tim O’Reilly, fondateur d’O’Reilly Media, un éditeur de premier plan de livres techniques, et l’économiste Ilan Strauss. Ce lien avec O’Reilly Media est particulièrement pertinent, car le rapport initial explosif du projet se concentre spécifiquement sur la présence présumée du contenu de livres payants d’O’Reilly dans l’ensemble de données d’entraînement de GPT-4o.
L’affirmation centrale de leur étude est provocatrice : malgré l’absence de tout accord de licence connu entre OpenAI et O’Reilly Media, le modèle GPT-4o présente un niveau de familiarité nettement élevé avec le contenu dérivé directement des livres protégés par le droit d’auteur d’O’Reilly. Cette familiarité, soutient le rapport, suggère fortement que ces matériaux payants ont été incorporés dans le vaste corpus de données utilisé pour construire les capacités du modèle. L’étude souligne une différence significative par rapport aux anciens modèles d’OpenAI, en particulier GPT-3.5 Turbo, impliquant un changement potentiel ou une expansion des pratiques d’acquisition de données menant au développement de GPT-4o.
Les implications sont substantielles. Si du contenu propriétaire et payant est ingéré par des modèles d’IA sans autorisation ni compensation, cela soulève des questions fondamentales sur le droit d’auteur à l’ère de l’IA générative. Les éditeurs et les auteurs s’appuient sur des modèles d’abonnement ou d’achat, fondés sur l’exclusivité de leur contenu. L’utilisation présumée de ce matériel pour l’entraînement pourrait être considérée comme sapant ces modèles économiques, dévalorisant potentiellement le contenu même qui nécessite un investissement important pour être créé. Cette accusation spécifique va au-delà du scraping de sites web accessibles au public, s’aventurant sur le territoire de l’accès à du contenu explicitement destiné aux clients payants.
Regarder à l’intérieur de la boîte noire : L’attaque par inférence d’appartenance
Pour étayer leurs affirmations, les chercheurs de l’AI Disclosures Project ont employé une technique sophistiquée connue sous le nom d’’attaque par inférence d’appartenance’ (‘membership inference attack’), en utilisant spécifiquement une méthode qu’ils appellent DE-COP. L’idée centrale derrière cette approche est de tester si un modèle d’IA a ‘mémorisé’ ou au moins développé une forte familiarité avec des morceaux de texte spécifiques. Essentiellement, l’attaque sonde le modèle pour voir s’il peut distinguer de manière fiable entre des passages de texte originaux (dans ce cas, issus des livres O’Reilly) et des versions paraphrasées soigneusement construites de ces mêmes passages, générées par une autre IA.
La logique sous-jacente est que si un modèle montre constamment une capacité supérieure au hasard à identifier le texte original rédigé par un humain par rapport à une paraphrase proche, cela implique que le modèle a déjà rencontré ce texte original – probablement pendant sa phase d’entraînement. C’est un peu comme tester si quelqu’un reconnaît une photographie spécifique et peu connue qu’il prétend n’avoir jamais vue ; une reconnaissance constante suggère une exposition antérieure.
L’échelle du test de l’AI Disclosures Project était considérable. Ils ont utilisé 13 962 extraits de paragraphes distincts tirés de 34 livres différents d’O’Reilly Media. Ces extraits représentaient le type de contenu spécialisé et de grande valeur que l’on trouve généralement derrière le paywall de l’éditeur. L’étude a ensuite mesuré les performances de GPT-4o et de son prédécesseur, GPT-3.5 Turbo, sur cette tâche de différenciation.
Les résultats, tels que présentés dans le rapport, étaient frappants. GPT-4o a démontré une capacité significativement accrue à reconnaître le contenu payant d’O’Reilly. Sa performance a été quantifiée à l’aide d’un score AUROC (Area Under the Receiver Operating Characteristic curve), une métrique courante pour évaluer la performance des classificateurs binaires. GPT-4o a atteint un score AUROC de 82%. En revanche, GPT-3.5 Turbo a obtenu un score juste au-dessus de 50%, ce qui équivaut essentiellement à une supposition aléatoire – indiquant peu ou pas de reconnaissance spécifique du matériel testé. Cette différence marquée, selon le rapport, fournit des preuves convaincantes, bien qu’indirectes, que le contenu payant faisait effectivement partie du régime d’entraînement de GPT-4o. Un score de 82% suggère un signal fort, bien au-delà de ce qui serait attendu par hasard ou par connaissance généralisée.
Mises en garde nécessaires et questions sans réponse
Bien que les résultats présentent un récit convaincant, les co-auteurs de l’étude, y compris le chercheur en IA Sruly Rosenblat, reconnaissent de manière louable les limitations potentielles inhérentes à leur méthodologie et à la nature complexe de l’entraînement de l’IA. Une mise en garde importante qu’ils soulèvent est la possibilité d’une ingestion indirecte de données. Il est concevable, notent-ils, que les utilisateurs de ChatGPT (l’interface populaire d’OpenAI) aient pu copier et coller des extraits de livres payants d’O’Reilly directement dans l’interface de chat à diverses fins, telles que poser des questions sur le texte ou demander des résumés. Si cela s’est produit assez fréquemment, le modèle aurait pu apprendre le contenu indirectement par le biais des interactions des utilisateurs, plutôt que par une inclusion directe dans l’ensemble de données d’entraînement initial. Démêler l’exposition directe à l’entraînement de l’apprentissage indirect via les invites des utilisateurs reste un défi important en criminalistique de l’IA.
De plus, la portée de l’étude ne s’est pas étendue aux itérations de modèles les plus récentes ou spécialisées d’OpenAI qui auraient pu être développées ou publiées simultanément ou ultérieurement au cycle d’entraînement principal de GPT-4o. Les modèles incluant potentiellement GPT-4.5 (s’il existe sous cette nomenclature spécifique ou ce niveau de capacité) et les modèles axés sur le raisonnement comme o3-mini et o1 n’ont pas été soumis aux mêmes attaques par inférence d’appartenance. Cela laisse ouverte la question de savoir si les pratiques d’approvisionnement en données ont pu évoluer davantage, ou si ces nouveaux modèles présentent des schémas de familiarité similaires avec le contenu payant. Les cycles d’itération rapides dans le développement de l’IA signifient que toute analyse instantanée risque d’être légèrement dépassée presque immédiatement.
Ces limitations n’invalident pas nécessairement les conclusions principales de l’étude, mais elles ajoutent des couches cruciales de nuance. Prouver définitivement ce qui réside dans les téraoctets de données utilisés pour entraîner un modèle de fondation est notoirement difficile. Les attaques par inférence d’appartenance offrent des preuves probabilistes, suggérant une vraisemblance plutôt qu’une certitude absolue. OpenAI, comme d’autres laboratoires d’IA, garde la composition de ses données d’entraînement secrète, invoquant des préoccupations propriétaires et des sensibilités concurrentielles.
Un conflit plus large : Les batailles du droit d’auteur dans l’arène de l’IA
Les allégations formulées par l’AI Disclosures Project n’existent pas dans le vide. Elles représentent la dernière escarmouche d’un conflit beaucoup plus large et continu entre les développeurs d’IA et les créateurs concernant l’utilisation de matériel protégé par le droit d’auteur à des fins d’entraînement. OpenAI, ainsi que d’autres acteurs de premier plan comme Google, Meta et Microsoft, se retrouvent impliqués dans plusieurs procès très médiatisés. Ces contestations judiciaires, intentées par des auteurs, des artistes, des organes de presse et d’autres détenteurs de droits, allèguent généralement une violation généralisée du droit d’auteur découlant du scraping et de l’ingestion non autorisés de grandes quantités de texte et d’images provenant d’Internet pour entraîner des modèles d’IA générative.
La défense principale souvent avancée par les entreprises d’IA repose sur la doctrine de l’usage loyal (‘fair use’) (aux États-Unis) ou des exceptions similaires dans d’autres juridictions. Elles soutiennent que l’utilisation d’œuvres protégées par le droit d’auteur pour l’entraînement constitue un usage ‘transformatif’ – les modèles d’IA ne se contentent pas de reproduire les œuvres originales mais utilisent les données pour apprendre des motifs, des styles et des informations afin de générer des sorties entièrement nouvelles. Selon cette interprétation, le processus d’entraînement lui-même, visant à créer un nouvel outil puissant, devrait être autorisé sans nécessiter de licences pour chaque élément de données ingéré.
Cependant, les détenteurs de droits contestent vivement ce point de vue. Ils soutiennent que l’ampleur même de la copie impliquée, la nature commerciale des produits d’IA en cours de construction et le potentiel des sorties d’IA à concurrencer directement et à supplanter les œuvres originales pèsent lourdement contre une conclusion d’usage loyal. L’argument est que les entreprises d’IA construisent des entreprises de plusieurs milliards de dollars sur le dos du travail créatif sans rémunérer les créateurs.
Dans ce contexte litigieux, OpenAI a cherché de manière proactive à atténuer certains risques en concluant des accords de licence (‘licensing deals’) avec divers fournisseurs de contenu. Des accords ont été annoncés avec de grands éditeurs de presse (comme l’Associated Press et Axel Springer), des plateformes de médias sociaux (telles que Reddit) et des banques d’images (comme Shutterstock). Ces accords fournissent à OpenAI un accès légitime à des ensembles de données spécifiques en échange d’un paiement, réduisant potentiellement sa dépendance à l’égard de données potentiellement contrefaites extraites du web. L’entreprise aurait également embauché des journalistes, les chargeant d’aider à affiner et à améliorer la qualité et la fiabilité des sorties de ses modèles, suggérant une prise de conscience de la nécessité d’entrées de haute qualité, potentiellement organisées.
L’effet d’entraînement : Préoccupations pour l’écosystème de contenu
Le rapport de l’AI Disclosures Project étend ses préoccupations au-delà des implications juridiques immédiates pour OpenAI. Il présente le problème comme une menace systémique qui pourrait avoir un impact négatif sur la santé et la diversité de l’ensemble de l’écosystème de contenu numérique. L’étude postule une boucle de rétroaction potentiellement dommageable : si les entreprises d’IA peuvent librement utiliser du contenu de haute qualité, créé par des professionnels (y compris du matériel payant) sans rémunérer les créateurs, cela érode la viabilité financière de la production de ce type de contenu en premier lieu.
La création de contenu professionnel – qu’il s’agisse de journalisme d’investigation, de manuels techniques approfondis, d’écriture de fiction ou de recherche universitaire – nécessite souvent beaucoup de temps, d’expertise et d’investissements financiers. Les paywalls et les modèles d’abonnement sont fréquemment des mécanismes essentiels pour financer ce travail. Si les flux de revenus soutenant ces efforts diminuent parce que le contenu est effectivement utilisé pour entraîner des systèmes d’IA concurrents sans rémunération, l’incitation à créer un contenu diversifié et de haute qualité pourrait décliner. Cela pourrait conduire à un public moins informé, à une réduction des ressources de connaissances spécialisées et potentiellement à un internet dominé par un contenu de moindre qualité ou généré par l’IA, manquant d’expertise humaine et de vérification.
Par conséquent, l’AI Disclosures Project plaide fortement pour une plus grande transparence et responsabilité de la part des entreprises d’IA concernant leurs pratiques en matière de données d’entraînement. Ils appellent à la mise en œuvre de politiques robustes et potentiellement de cadres réglementaires garantissant que les créateurs de contenu sont équitablement rémunérés lorsque leur travail contribue au développement de modèles d’IA commerciaux. Cela fait écho aux appels plus larges des groupes de créateurs du monde entier qui recherchent des mécanismes – que ce soit par le biais d’accords de licence, de systèmes de redevances ou de négociations collectives – pour s’assurer qu’ils reçoivent une part de la valeur générée par les systèmes d’IA entraînés sur leur propriété intellectuelle. Le débat porte sur la recherche d’un équilibre durable où l’innovation en IA peut prospérer aux côtés d’un écosystème florissant pour la créativité humaine et la génération de connaissances. La résolution des batailles juridiques en cours et le potentiel de nouvelles législations ou normes industrielles seront essentiels pour façonner cet équilibre futur. La question de savoir comment tracer la provenance des données et attribuer de la valeur dans des modèles d’IA massifs et complexes reste un obstacle technique et éthique important.