Le paysage du développement de l’IA est une fois de plus embourbé dans une épreuve de force juridique, alors qu’un groupe d’organisations de presse et de médias de premier plan a intenté une action en justice pour violation du droit d’auteur et de la marque contre la startup d’IA générative Cohere. Déposée auprès du tribunal de district des États-Unis pour le district sud de New York en février 2025, la plainte nomme plus d’une douzaine de plaignants, dont des publications très respectées comme Forbes, The Guardian et le Los Angeles Times. Au cœur du problème se trouve l’utilisation par Cohere de la technologie de génération augmentée par récupération (Retrieval-Augmented Generation - RAG), que les plaignants allèguent impliquer l’utilisation non autorisée de leur matériel protégé par le droit d’auteur pour construire des bases de données et générer des sorties.
La technologie RAG sous surveillance
La génération augmentée par récupération (RAG) est apparue comme une solution potentielle à certains défis inhérents associés aux grands modèles linguistiques (LLM). Proposée par Patrick Lewis et ses collègues en 2020, RAG vise à atténuer les problèmes tels que l’hallucination (la génération d’informations factuellement incorrectes ou absurdes), les connaissances obsolètes et le manque de transparence dans le raisonnement du modèle. Il est intéressant de noter que Patrick Lewis lui-même est actuellement chercheur chez Cohere, poursuivant son travail sur la technologie RAG. L’adoption de RAG s’est généralisée, avec des acteurs majeurs comme Microsoft, Google, Amazon et NVIDIA l’intégrant dans leurs systèmes d’IA.
La poursuite intentée par les éditeurs de presse est axée sur plusieurs allégations clés de violation du droit d’auteur contre Cohere. Ces allégations mettent en évidence les questions juridiques complexes entourant l’utilisation de matériel protégé par le droit d’auteur dans la formation et le fonctionnement des modèles d’IA génératifs.
Allégations de violation du droit d’auteur contre Cohere
Les allégations des plaignants contre Cohere peuvent être divisées en quatre catégories principales:
1. Entraînement du modèle d’IA
Le cœur de l’argument des plaignants tourne autour de la façon dont Cohere a entraîné son grand modèle linguistique, connu sous le nom de "Command Family". Ils affirment que Cohere s’est livré à un "scraping" extensif de texte sur Internet, y compris du contenu protégé par le droit d’auteur provenant des publications des plaignants. Ces données "scrapées" ont ensuite été utilisées pour créer les ensembles de données nécessaires à l’entraînement du modèle Command Family. En outre, les plaignants allèguent que Cohere a utilisé des ensembles de données tiers comme C4 de Common Crawl, qui contiennent des quantités importantes de leur matériel protégé par le droit d’auteur, sans obtenir les autorisations nécessaires.
L’utilisation de matériel protégé par le droit d’auteur dans l’entraînement des modèles d’IA est devenue une question litigieuse. Les développeurs d’IA soutiennent souvent qu’une telle utilisation relève de la doctrine de "l’utilisation équitable" (fair use), qui permet l’utilisation limitée de matériel protégé par le droit d’auteur à des fins telles que la critique, le commentaire, le reportage, l’enseignement, l’érudition ou la recherche. Cependant, les détenteurs de droits d’auteur soutiennent que le "scraping" et l’utilisation à grande échelle de leur contenu à des fins commerciales, comme l’entraînement de modèles d’IA, vont au-delà de la portée de l’utilisation équitable. Cette bataille juridique dépendra probablement du fait que le tribunal est d’accord avec l’évaluation des plaignants.
2. Utilisation en temps réel / RAG
Un autre aspect clé de la poursuite se concentre sur la façon dont les services de Cohere, en particulier son interface de Chat, utilisent la technologie RAG en temps réel. Les plaignants allèguent que les modèles de Cohere "scrapent" le contenu de sources externes, y compris leurs sites Web, pour générer des réponses aux requêtes des utilisateurs. Ce "scraping" en temps réel, selon les plaignants, constitue une violation du droit d’auteur, en particulier lorsque les modèles de Cohere contournent les murs payants ou ignorent les directives "robots.txt", qui sont des commandes qui demandent aux robots d’indexation Web (y compris ceux utilisés par les modèles d’IA) de ne pas "scraper" un contenu spécifique d’un site Web.
Le contournement des murs payants et des directives robots.txt soulève de sérieuses questions éthiques et juridiques. Les murs payants sont conçus pour protéger le contenu protégé par le droit d’auteur et garantir que les éditeurs sont rémunérés pour leur travail. Les directives Robots.txt sont un mécanisme standard permettant aux propriétaires de sites Web de contrôler la façon dont leur contenu est consulté et utilisé par les robots d’indexation Web. En ignorant ces garanties, Cohere est accusé de faire preuve d’un mépris pour les lois sur le droit d’auteur et les droits des créateurs de contenu.
3. Sorties contrefaisantes
Les plaignants soutiennent que les services de Cohere fournissent des sorties contrefaisantes sous la forme de copies, d’extraits importants ou de résumés de substitution de leurs œuvres protégées par le droit d’auteur en réponse aux requêtes des utilisateurs. Ils citent des exemples de sorties de Cohere Chat où le panneau "Under the Hood" affiche des articles complets ou partiels copiés directement à partir des sites Web des plaignants.
Les plaignants soutiennent que ces sorties, qu’il s’agisse de copies intégrales ou de résumés, se substituent directement à la nécessité pour les utilisateurs de visiter les articles originaux. Ceci, à son tour, nuit aux revenus d’abonnement numérique et de publicité sur lesquels les plaignants comptent pour maintenir leurs activités. Le cœur de cet argument est que les modèles d’IA de Cohere agissent essentiellement comme des distributeurs non autorisés de contenu protégé par le droit d’auteur, privant les éditeurs originaux de leur juste compensation.
4. Adaptation non autorisée
En plus d’afficher des portions des œuvres des plaignants dans le panneau "Under the Hood", les services de Cohere fournissent également des résumés ou des extraits de ces œuvres. Les plaignants soutiennent que le niveau de détail dans ces résumés est si étendu qu’ils remplacent essentiellement les œuvres originales, dépassant les limites de l’utilisation équitable.
La loi sur le droit d’auteur protège non seulement la reproduction textuelle des œuvres protégées par le droit d’auteur, mais aussi la création d’œuvres dérivées, qui sont des adaptations ou des transformations de l’original. Les plaignants soutiennent que les résumés de Cohere sont si complets qu’ils constituent des œuvres dérivées non autorisées, violant leur droit exclusif de créer et de distribuer des adaptations de leur matériel protégé par le droit d’auteur.
Responsabilité secondaire pour les actions des utilisateurs
Au-delà de la demande de violation directe du droit d’auteur, les plaignants soutiennent également que Cohere est secondairement responsable des actes contrefaisants de ses utilisateurs. Ils soutiennent que les services de Cohere facilitent la reproduction, l’affichage et la distribution des œuvres des plaignants par les utilisateurs, et que Cohere ne peut pas se soustraire à sa responsabilité en attribuant uniquement la violation aux actions des utilisateurs. La base de cette affirmation est que le produit de Cohere génère des réponses uniquement après qu’un utilisateur a entré une invite, faisant de l’entreprise un participant à l’activité contrefaisante.
Cet argument de la responsabilité secondaire est important car il cherche à tenir les développeurs d’IA responsables des actions de leurs utilisateurs, même lorsque ces utilisateurs sont ceux qui se livrent directement à la violation du droit d’auteur. Si elle réussit, cet argument pourrait avoir des implications considérables pour le développement et le déploiement des technologies d’IA, car il obligerait les développeurs à mettre en œuvre des garanties pour empêcher leurs utilisateurs de violer le droit d’auteur.
Allégations de violation de marque
La poursuite s’étend au-delà de la violation du droit d’auteur pour inclure des allégations de violation de marque. Les plaignants allèguent que la pratique de Cohere d’attribuer des sources constitue une violation de marque car elle utilise les marques bien connues des plaignants sans autorisation ou les associe à un contenu erroné généré par l’IA. Ceci, selon eux, entraîne des dommages à la réputation de la marque des plaignants et une dilution de leur caractère distinctif.
Les marques de commerce sont des symboles, des dessins ou des phrases légalement enregistrés pour représenter une entreprise ou un produit. L’utilisation non autorisée d’une marque de commerce peut semer la confusion chez les consommateurs et nuire à la réputation de la marque. Les plaignants soutiennent que l’utilisation par Cohere de leurs marques de commerce conjointement avec du contenu généré par l’IA pourrait induire les utilisateurs en erreur en leur faisant croire que les plaignants approuvent ou sont affiliés aux services de Cohere, ce qui n’est pas le cas.
Le contexte plus large: RAG et l’avenir du droit d’auteur de l’IA
Cette poursuite contre Cohere n’est pas un incident isolé. Il fait suite à une poursuite antérieure pour violation du droit d’auteur aux États-Unis en octobre 2024 qui portait également sur l’application RAG dans les services d’IA. Ce nombre croissant de cas met en évidence la tension croissante entre les développeurs d’IA et les détenteurs de droits d’auteur à mesure que l’architecture RAG devient plus répandue dans les services d’IA.
Les batailles juridiques entourant la technologie RAG deviendront probablement une question importante dans l’avenir du droit d’auteur de l’IA. RAG présente des défis uniques car il implique la récupération et l’utilisation en temps réel de matériel protégé par le droit d’auteur pour générer des sorties. Cela soulève des questions complexes sur la portée de l’utilisation équitable, la responsabilité des développeurs d’IA pour les actions des utilisateurs et la protection de la propriété intellectuelle à l’ère de l’intelligence artificielle.
L’issue de ces poursuites pourrait avoir une incidence profonde sur le développement et le déploiement des technologies d’IA. Si les tribunaux se prononcent en faveur des détenteurs de droits d’auteur, les développeurs d’IA pourraient être contraints de mettre en œuvre des garanties plus strictes pour prévenir la violation du droit d’auteur, ce qui pourrait augmenter les coûts et la complexité du développement de modèles d’IA. D’un autre côté, si les tribunaux se prononcent en faveur des développeurs d’IA, les détenteurs de droits d’auteur devront peut-être trouver de nouvelles façons de protéger leur propriété intellectuelle face à des technologies d’IA de plus en plus sophistiquées.
L’affrontement entre les éditeurs de presse et Cohere constitue un moment critique dans le débat en cours sur l’IA, le droit d’auteur et l’avenir de la création de contenu. L’issue de cette affaire, ainsi que d’autres affaires similaires, façonnera sans aucun doute le paysage juridique de l’IA générative et son interaction avec le matériel protégé par le droit d’auteur pour les années à venir. À mesure que l’IA continue d’évoluer et de s’intégrer davantage dans divers aspects de nos vies, il est essentiel de trouver un équilibre entre la promotion de l’innovation et la protection des droits des créateurs de contenu. Les tribunaux, les législateurs et la communauté de l’IA doivent travailler ensemble pour établir des lignes directrices et des règlements clairs qui favorisent la créativité tout en assurant le respect de la propriété intellectuelle.
L’industrie de la presse, en particulier, fait face à un ensemble unique de défis à l’ère de l’IA. À mesure que les modèles d’IA deviennent de plus en plus capables de générer du contenu d’information, il est essentiel que les éditeurs soient rémunérés pour l’utilisation de leur matériel protégé par le droit d’auteur et que l’intégrité de leurs marques soit protégée. La poursuite contre Cohere représente un effort des éditeurs de presse pour affirmer leurs droits et s’assurer que leur travail n’est pas exploité par les entreprises d’IA sans autorisation appropriée.