Code de pratique GPAI : 3e projet

Contexte

Le règlement européen sur l’IA (règlement (UE) 2024/1689, ou ‘AI Act’) impose des obligations spécifiques aux fournisseurs de modèles d’IA à usage général (‘GPAI’). Ces modèles, y compris ceux des familles GPT, Llama et Gemini, doivent respecter des exigences telles qu’une documentation complète et la mise en place d’une politique garantissant le respect du droit d’auteur de l’UE.

Pour faciliter le respect de ces stipulations, l’AI Act prévoit l’élaboration de codes de pratique adaptés aux modèles GPAI. Suite à une invitation de l’AI Office, divers experts et parties prenantes ont formé quatre groupes de travail chargés de rédiger un premier code de pratique. L’approbation de ce code par la Commission européenne lui conférerait une ‘validité générale’ dans toute l’UE. L’adoption du code de pratique GPAI approuvé offre aux entreprises un moyen de démontrer une conformité proactive, ce qui pourrait atténuer le contrôle réglementaire et les sanctions associées.

L’AI Office a récemment publié le troisième projet de code de pratique (‘3rd Draft’) produit par ces groupes de travail. Ce projet englobe plusieurs domaines clés :

  • Engagements
  • Transparence
  • Droit d’auteur
  • Sûreté et sécurité

La version finale de ce code de pratique devrait être publiée le 2 mai 2025.

Ce document se penchera sur les détails importants de la section relative au droit d’auteur du 3e projet. Un changement notable par rapport au deuxième projet (‘2nd Draft’) est l’approche simplifiée et concise du 3e projet. Un changement clé est que le 3e projet exige généralement que les efforts de conformité soient proportionnels à la taille et aux capacités du fournisseur, contrairement au 2e projet.

À qui cela s’adresse-t-il ?

Le code de pratique cible principalement les fournisseurs de modèles GPAI. Ces modèles se caractérisent par leur grande généralité et leur capacité à exécuter avec compétence un large éventail de tâches distinctes. Cela englobe les fournisseurs de modèles de langage de grande taille bien connus comme GPT (OpenAI), Llama (Meta), Gemini (Google) et Mistral (Mistral AI). Toutefois, les fournisseurs de modèles plus petits peuvent également être concernés, à condition que leurs modèles puissent être utilisés pour un large éventail de tâches. En outre, les entreprises qui affinent les modèles pour leurs applications spécifiques pourraient également être classées comme fournisseurs de modèles GPAI.

Les ‘fournisseurs en aval’, ou les entreprises qui intègrent des modèles GPAI dans leurs systèmes d’IA, devraient également se familiariser avec le code de pratique. Ce code est appelé à devenir une quasi-norme pour les modèles GPAI, définissant les attentes des développeurs de systèmes d’IA concernant les capacités des modèles GPAI. Cette compréhension peut être cruciale lors des négociations contractuelles avec les fournisseurs de modèles GPAI.

Concepts clés du code de pratique sur le droit d’auteur

Les fournisseurs de modèles GPAI sont tenus d’établir une politique garantissant le respect du droit d’auteur de l’UE (art. 53 (1) (c) AI Act). Étant donné la nouveauté de cette exigence, des conseils pratiques sur la structure et le contenu d’une telle politique ont fait défaut. Le code de pratique vise à combler cette lacune.

Le code de pratique exige que les fournisseurs mettent en œuvre les mesures suivantes :

Politique en matière de droit d’auteur

Les fournisseurs qui signent le code de pratique (‘Signataires’) sont tenus de formuler, de maintenir et de mettre en œuvre une politique en matière de droit d’auteur conforme au droit d’auteur de l’UE. Cette exigence découle directement de l’AI Act. Les signataires doivent également veiller à ce que leurs organisations respectent cette politique en matière de droit d’auteur.

Un changement important par rapport au 2e projet est que le 3e projet n’exige plus la publication de la politique en matière de droit d’auteur. Les signataires sont simplement encouragés à le faire. Cette exigence réduite est logique, car l’AI Act lui-même n’oblige pas les fournisseurs de modèles à publier leurs politiques en matière de droit d’auteur.

Exploration du Web de contenu protégé par le droit d’auteur

Les signataires sont généralement autorisés à utiliser des robots d’exploration Web à des fins d’exploration de textes et de données (‘TDM’) afin de recueillir des données d’entraînement pour leurs modèles GPAI. Toutefois, ils doivent s’assurer que ces robots d’exploration respectent les technologies conçues pour restreindre l’accès aux documents protégés par le droit d’auteur, telles que les paywalls.

En outre, les signataires sont tenus d’exclure les ‘domaines de piratage’, qui sont des sources en ligne qui se livrent principalement à la distribution de documents portant atteinte au droit d’auteur.

Exploration du Web et identification et respect des options de retrait TDM

Les signataires doivent s’assurer que les robots d’exploration Web identifient et respectent les options de retrait TDM déclarées par les titulaires de droits. Bien que le droit d’auteur de l’UE autorise généralement le TDM, les titulaires de droits conservent le droit de se retirer. Pour le contenu Web, ce retrait doit être lisible par machine. Le 3e projet précise les exigences relatives aux robots d’exploration Web, en spécifiant qu’ils doivent identifier et respecter le protocole robots.txt largement adopté. En outre, les robots d’exploration Web doivent respecter les autres options de retrait TDM lisibles par machine pertinentes, telles que les métadonnées établies comme une norme industrielle ou les solutions couramment utilisées par les titulaires de droits.

Les signataires sont tenus de prendre des mesures raisonnables pour informer les titulaires de droits sur les robots d’exploration Web utilisés et sur la manière dont ces robots traitent les directives robots.txt. Ces informations peuvent être diffusées par différents canaux, tels qu’un flux Web. Il est à noter que le 3e projet ne prévoit plus d’obligation de publier ces informations.

Identification et respect d’une option de retrait TDM pour le contenu non exploré sur le Web

Les fournisseurs de modèles GPAI peuvent également acquérir des ensembles de données auprès de tiers plutôt que de procéder eux-mêmes à l’exploration du Web. Alors que le 2e projet exigeait une diligence raisonnable en matière de droit d’auteur pour les ensembles de données tiers, le 3e projet exige des efforts raisonnables pour obtenir des informations sur la question de savoir si les robots d’exploration Web utilisés pour recueillir les informations respectaient les protocoles robots.txt.

Atténuer le risque pour empêcher la production de résultats portant atteinte au droit d’auteur

Un risque important associé à l’utilisation de l’IA est la possibilité que l’IA génère des résultats qui enfreignent les droits d’auteur. Il peut s’agir de la duplication de code ou d’images trouvées en ligne qui sont protégées par le droit d’auteur.

Les signataires sont tenus de faire des efforts raisonnables pour atténuer ce risque. Cela représente une approche plus souple par rapport au 2e projet, qui prescrivait des mesures pour éviter le ‘surapprentissage’. Le 3e projet adopte une position plus neutre sur le plan technologique, en mettant l’accent sur les efforts raisonnables.

En outre, les signataires doivent inclure une clause dans leurs conditions générales (ou documents similaires) pour les fournisseurs de systèmes d’IA en aval, interdisant l’utilisation de leur modèle GPAI d’une manière qui enfreint le droit d’auteur.

Désignation d’un point de contact

Les signataires sont tenus de fournir un point de contact pour les titulaires de droits. Ils doivent également mettre en place un mécanisme permettant aux titulaires de droits de déposer des plaintes concernant les violations du droit d’auteur.

En vertu du 3e projet, les signataires ont la possibilité de refuser de traiter les plaintes jugées non fondées ou excessives.

Analyse approfondie : Un examen plus granulaire des dispositions relatives au droit d’auteur

Le 3e projet, bien qu’apparemment simplifié, introduit des nuances et des changements d’orientation qui méritent un examen plus approfondi. Disséquons chaque section plus en détail :

Politique en matière de droit d’auteur : Le passage de la publication à l’encouragement

L’obligation initiale de publier la politique en matière de droit d’auteur, présente dans le 2e projet, a soulevé des préoccupations concernant les désavantages concurrentiels potentiels et la divulgation d’informations sensibles. Le passage du 3e projet à l’encouragement de la publication, plutôt qu’à son exigence, prend en compte ces préoccupations. Ce changement permet aux fournisseurs de maintenir un certain degré de confidentialité concernant leurs stratégies internes de conformité, tout en promouvant la transparence. Toutefois, l’aspect ‘encouragement’ exerce toujours une pression subtile sur les fournisseurs pour qu’ils soient ouverts sur leurs politiques, ce qui pourrait conduire à une norme de publication de facto au fil du temps.

Exploration du Web : Équilibrer l’acquisition de données et le respect du droit d’auteur

L’autorisation explicite de l’exploration du Web, associée à l’obligation de respecter les restrictions d’accès telles que les paywalls, reflète un équilibre délicat. L’AI Act reconnaît l’importance des données pour l’entraînement des modèles d’IA, mais il souligne également la nécessité de respecter les droits des créateurs de contenu. L’exclusion des ‘domaines de piratage’ est un ajout crucial, ciblant explicitement les sources qui se livrent activement à la violation du droit d’auteur. Cette disposition renforce le principe selon lequel le développement de l’IA ne doit pas être fondé sur des activités illégales.

Options de retrait TDM : La spécificité technique de la conformité

L’accent mis par le 3e projet sur le protocole robots.txt et d’autres mécanismes d’opt-out lisibles par machine met en évidence les aspects techniques de la conformité. Cette spécificité apporte de la clarté tant aux fournisseurs de GPAI qu’aux titulaires de droits. Pour les fournisseurs, elle décrit les mesures concrètes qu’ils doivent prendre pour s’assurer que leurs robots d’exploration respectent les demandes d’opt-out. Pour les titulaires de droits, elle clarifie la manière dont ils peuvent signaler efficacement leurs préférences concernant le TDM. L’inclusion de métadonnées ‘standard de l’industrie’ et de solutions ‘largement adoptées’ reconnaît que le paysage des mécanismes d’opt-out est en évolution et que la flexibilité est nécessaire.

Contenu non exploré sur le Web : Transfert de responsabilité et diligence raisonnable

Le passage de la ‘diligence raisonnable en matière de droit d’auteur’ aux ‘efforts raisonnables pour obtenir des informations’ concernant les ensembles de données tiers représente un changement subtil mais significatif de responsabilité. Alors que le 2e projet imposait aux fournisseurs de GPAI une charge plus lourde pour enquêter activement sur le statut du droit d’auteur des ensembles de données, le 3e projet se concentre sur la vérification du respect du protocole robots.txt par le processus de collecte de données (par le tiers). Cela reconnaît implicitement que les fournisseurs de GPAI peuvent ne pas toujours avoir un contrôle direct sur les pratiques d’acquisition de données des tiers, mais qu’ils ont toujours la responsabilité de s’enquérir de la conformité.

Atténuation des résultats portant atteinte au droit d’auteur : Du ‘surapprentissage’ aux ‘efforts raisonnables’

L’abandon du terme ‘surapprentissage’ est un changement bienvenu. Le ‘surapprentissage’, un terme technique en apprentissage automatique, fait référence à un modèle qui fonctionne bien sur les données d’entraînement mais mal sur les nouvelles données. Bien que le surapprentissage puisse contribuer à la violation du droit d’auteur (par exemple, en mémorisant et en reproduisant du matériel protégé par le droit d’auteur), ce n’est pas la seule cause. L’accent plus large mis par le 3e projet sur les ‘efforts raisonnables pour atténuer les risques’ englobe un plus large éventail de scénarios de violation potentiels et permet une plus grande flexibilité dans la mise en œuvre. Ce changement reconnaît également que la prévention parfaite de la violation du droit d’auteur peut être inaccessible et qu’une approche fondée sur le risque est plus pratique.

Point de contact et mécanisme de plainte : Rationalisation du processus

L’exigence d’un point de contact désigné et d’un mécanisme de plainte offre aux titulaires de droits une voie claire pour traiter les violations potentielles du droit d’auteur. La possibilité pour les signataires de refuser les plaintes ‘non fondées ou excessives’ est un ajout pratique, empêchant le système d’être submergé par des réclamations frivoles. Cette disposition contribue à garantir que le mécanisme de plainte reste un outil viable et efficace pour traiter les préoccupations légitimes en matière de droit d’auteur.

Implications plus larges et considérations futures

Le 3e projet de code de pratique GPAI représente une étape importante vers l’opérationnalisation des dispositions relatives au droit d’auteur de l’AI Act. Il fournit des orientations et des éclaircissements indispensables aux fournisseurs de GPAI, tout en cherchant à protéger les droits des créateurs de contenu. Toutefois, plusieurs implications plus larges et considérations futures subsistent :

  • La norme des ‘efforts raisonnables’ : L’utilisation répétée de l’expression ‘efforts raisonnables’ introduit un certain degré de subjectivité. Ce qui constitue des ‘efforts raisonnables’ sera probablement sujet à interprétation et pourrait évoluer au fil du temps par le biais de contestations judiciaires et de meilleures pratiques de l’industrie. Cette ambiguïté pourrait entraîner une incertitude pour les fournisseurs, mais elle permet également une flexibilité et une adaptation à différents contextes.

  • Le rôle des fournisseurs en aval : Bien que le code cible principalement les fournisseurs de GPAI, les fournisseurs en aval ont tout intérêt à comprendre ses dispositions. Le code définit les attentes en matière de qualité et de conformité des modèles GPAI, ce qui peut éclairer les négociations contractuelles et les évaluations des risques. Les fournisseurs en aval peuvent également faire face à une pression indirecte pour s’assurer que leur utilisation des modèles GPAI est conforme aux principes du code.

  • L’évolution de la technologie : Le rythme rapide du développement de l’IA signifie que le code de pratique devra être un document évolutif. De nouvelles techniques d’acquisition de données, d’entraînement de modèles et de génération de résultats peuvent émerger, nécessitant des mises à jour des dispositions du code. La référence aux métadonnées ‘standard de l’industrie’ et aux solutions ‘largement adoptées’ reconnaît ce besoin d’adaptation continue.

  • Harmonisation internationale : L’AI Act de l’UE est une législation pionnière, mais elle n’opère pas dans le vide. D’autres juridictions sont également aux prises avec les défis de la réglementation de l’IA. L’harmonisation internationale des réglementations en matière d’IA, y compris les dispositions relatives au droit d’auteur, sera cruciale pour éviter la fragmentation et garantir des conditions de concurrence équitables pour les développeurs d’IA.

  • L’impact sur l’innovation : Le code de pratique vise à trouver un équilibre entre la promotion de l’innovation en matière d’IA et la protection du droit d’auteur. Toutefois, l’impact de ces réglementations sur le rythme et l’orientation du développement de l’IA reste à voir. Certains soutiennent que des réglementations trop strictes pourraient étouffer l’innovation, tandis que d’autres affirment que des règles claires sont nécessaires pour favoriser le développement responsable de l’IA.

  • Application et surveillance: Comment l’adhésion sera-t-elle vérifiée ? L’efficacité des codes dépendra largement des mécanismes mis en place pour l’application et la surveillance.

Le 3e projet de code de pratique GPAI est un document complexe et évolutif qui a des implications considérables. Il représente un effort important pour relever les défis de la conformité au droit d’auteur à l’ère de l’IA, mais c’est aussi un travail en cours. Un dialogue permanent entre les parties prenantes, y compris les fournisseurs de GPAI, les titulaires de droits, les décideurs et la communauté de l’IA au sens large, sera essentiel pour garantir que le code atteigne les objectifs visés et reste pertinent face à l’évolution rapide de la technologie.