IA : former ou ne pas former ?

La prolifération des exceptions au droit d’auteur pour la formation de l’IA

La prolifération rapide des grands modèles de langage (LLM) a déclenché un débat mondial acharné sur le droit d’auteur et l’utilisation autorisée des données pour la formation de l’intelligence artificielle. Au cœur de cette controverse se trouve une question fondamentale : les entreprises d’IA devraient-elles avoir un accès illimité aux documents protégés par le droit d’auteur à des fins de formation, ou les droits des créateurs de contenu devraient-ils être prioritaires ?

Ces dernières années, un nombre croissant de pays ont introduit des exceptions dans leurs lois sur le droit d’auteur spécifiquement pour faciliter l’exploration de textes et de données (text and data mining) par les entreprises d’IA. Ces exceptions visent à favoriser l’innovation dans le domaine de l’intelligence artificielle en permettant aux LLM d’être formés sur de vastes ensembles de données sans avoir besoin de l’autorisation explicite de chaque détenteur de droit d’auteur.

Singapour, par exemple, a modifié sa loi sur le droit d’auteur en 2021 pour créer une telle exception. Cette décision a permis aux développeurs d’IA du pays d’accéder et de traiter des œuvres protégées par le droit d’auteur dans le but de former leurs modèles. Aujourd’hui, d’autres juridictions en Asie, notamment Hong Kong et l’Indonésie, envisagent des modifications législatives similaires.

La perspective chinoise : une affaire de contrefaçon historique

La Chine, un acteur majeur dans le paysage mondial de l’IA, est également aux prises avec les complexités du droit d’auteur à l’ère des LLM. Une affaire historique, iQiyi contre MiniMax, a mis cette question en évidence.

Dans cette affaire, iQiyi, une importante plateforme de streaming vidéo, a poursuivi MiniMax, une entreprise d’IA, pour avoir prétendument utilisé ses documents vidéo protégés par le droit d’auteur pour former des modèles d’IA sans autorisation. Ce procès marque un développement significatif en tant que première affaire de contrefaçon de LLM vidéo d’IA en Chine, soulignant les préoccupations croissantes concernant l’utilisation non autorisée de contenu protégé par le droit d’auteur dans le développement des technologies d’IA.

L’industrie indienne de l’édition conteste les pratiques de formation des LLM

Le débat s’étend au-delà de l’Asie. En Inde, plusieurs maisons d’édition ont intenté une action en justice contre des développeurs de LLM, alléguant que ces modèles sont formés sur des données extraites (scraped data) qui incluent leurs œuvres protégées par le droit d’auteur. Ces affaires soulignent la tension entre le désir de faire progresser les capacités de l’IA et la nécessité de protéger les droits de propriété intellectuelle des créateurs.

Au-delà de la simple ingestion : les nuances de la formation des LLM

Les défis posés par la formation des LLM sont bien plus complexes que le simple fait d’ingérer et de traiter des données. Les affaires indiennes et les dispositions étroitement définies de la loi de Singapour mettent en évidence la nature multiforme de cette question.

De nombreux propriétaires de propriété intellectuelle restreignent explicitement l’accès et l’utilisation de leurs œuvres protégées par le droit d’auteur, tandis que d’autres ne consentent pas à un tel accès et à une telle reproduction. Un nombre important de créateurs s’appuient sur des modèles de licence comme élément central de leur activité, et l’utilisation non autorisée de leurs œuvres pour la formation de l’IA sape directement ces modèles.

De plus, le fait qu’une grande partie de la formation puisse se produire dans le cloud soulève des questions juridictionnelles complexes. Déterminer quelles lois s’appliquent lorsque les données sont traitées au-delà des frontières internationales ajoute une autre couche de complexité à un paysage juridique déjà complexe.

En fin de compte, le problème central tourne autour de la manière dont les LLM sécurisent leurs données de formation et de savoir si, et comment, ils doivent indemniser les détenteurs de droits d’auteur pour leur utilisation.

Les organisations américaines de droit d’auteur s’opposent aux exceptions légales

Le débat ne se limite pas aux pays individuels ; il s’est également étendu à l’arène internationale. Une coalition de près de 50 associations professionnelles et groupes industriels aux États-Unis, connue sous le nom de Digital Creators Coalition, a exprimé de vives objections à la création d’exceptions légales pour la formation des LLM dans les lois sur le droit d’auteur sans dispositions d’autorisation ou de compensation.

Ces organisations ont soumis des commentaires au United States Trade Representative (USTR), exhortant l’agence à aborder cette question dans son examen annuel Special 301, qui examine les pratiques de protection et d’application de la propriété intellectuelle dans le monde. La coalition a fourni une liste de pays qui ont mis en œuvre ou proposent de telles exceptions, soulignant l’ampleur mondiale de cette préoccupation.

Le débat américain : la position d’OpenAI et les contradictions internes

Même aux États-Unis, le débat reste très vif. OpenAI, la société à l’origine du populaire ChatGPT, a ajouté sa voix à la discussion en soumettant une lettre ouverte au White House Office of Science and Technology.

Dans cette lettre, OpenAI plaide pour le droit d’extraire des données (scrape data) d’Internet en vertu des principes de l’utilisation équitable (fair use), plaidant effectivement pour un large accès aux documents protégés par le droit d’auteur à des fins de formation. Cependant, paradoxalement, OpenAI suggère également que les développeurs de LLM étrangers devraient être empêchés de faire de même, potentiellement par le biais des politiques d’exportation américaines. Cette position révèle une contradiction interne, plaidant pour un accès ouvert pour elle-même tout en cherchant à limiter l’accès des autres.

La voie à suivre : un débat continu

À l’approche de 2025, le débat sur le droit d’auteur et la formation de l’IA va certainement s’intensifier. Avec l’émergence continue de nouveaux LLM à travers le monde, le besoin d’un cadre juridique clair et équilibré devient de plus en plus urgent.

Le paysage juridique actuel est un patchwork de lois nationales, certaines avec des exceptions explicites pour la formation de l’IA et d’autres dépourvues de telles dispositions. Cette incohérence crée de l’incertitude tant pour les développeurs d’IA que pour les détenteurs de droits d’auteur, entravant l’innovation et sapant potentiellement les droits des créateurs.

Considérations clés pour un cadre équilibré :

  • Transparence et responsabilité : Les développeurs de LLM doivent être transparents sur les sources de données utilisées pour former leurs modèles et responsables de toute utilisation non autorisée de matériel protégé par le droit d’auteur.
  • Juste compensation : Des mécanismes de compensation des détenteurs de droits d’auteur pour l’utilisation de leurs œuvres dans la formation de l’IA devraient être explorés. Cela pourrait impliquer des accords de licence, une gestion collective des droits ou d’autres solutions innovantes.
  • Harmonisation internationale : Les efforts visant à harmoniser les lois sur le droit d’auteur relatives à la formation de l’IA dans différentes juridictions réduiraient l’incertitude juridique et faciliteraient la collaboration transfrontalière.
  • Équilibrer l’innovation et les droits des créateurs : Le cadre juridique doit trouver un équilibre entre la promotion de l’innovation dans l’IA et la protection des droits des créateurs. Cela nécessite un examen attentif des différents intérêts en jeu.
  • Le rôle de l’utilisation équitable (fair use) : L’applicabilité des principes de l’utilisation équitable à la formation de l’IA doit être clarifiée. Cela peut impliquer la définition de critères spécifiques pour déterminer si l’utilisation de matériel protégé par le droit d’auteur à des fins de formation est considérée comme une utilisation équitable.

La discussion en cours sur le droit d’auteur et la formation de l’IA met en évidence les défis de l’adaptation des cadres juridiques existants aux technologies en évolution rapide. Trouver une solution qui équilibre les intérêts de toutes les parties prenantes nécessitera un dialogue continu, une collaboration et une volonté de s’adapter au paysage changeant de l’ère numérique. L’avenir du développement de l’IA, et la protection des œuvres créatives, pourraient bien dépendre de l’issue de ce débat crucial. La question de la formation restera longtemps d’actualité.