La Mascarade de l'IA 'Open Source' : Appel à l'Intégrité

Dévaloriser un Concept Fondamental : L'Érosion de l''Open Source'

Le terme ‘open source’ était autrefois un phare dans les paysages technologiques et scientifiques. Il représentait une éthique puissante fondée sur la transparence, l’accès sans entraves, l’amélioration collaborative et le principe fondamental de la reproductibilité. Pour des générations de chercheurs et de développeurs, il signifiait un engagement envers le savoir partagé et le progrès collectif. Des outils statistiques fondamentaux trouvés dans des environnements comme R Studio, qui permettent d’innombrables analyses dans diverses disciplines, aux plateformes de simulation sophistiquées telles qu’OpenFOAM, utilisées pour démêler les complexités de la dynamique des fluides, le logiciel open source a été un catalyseur indispensable de l’innovation. Il a accéléré la découverte en permettant aux scientifiques du monde entier d’inspecter, de vérifier, de modifier et de s’appuyer sur le travail des autres, garantissant que les découvertes pouvaient être reproduites et validées – le fondement même de la méthode scientifique.

Cependant, une ombre plane désormais sur cette désignation de confiance, projetée par le domaine en plein essor de l’intelligence artificielle. Comme souligné dans des discussions critiques récentes, y compris celles notées par des publications comme Nature, une tendance préoccupante a émergé où d’éminents développeurs d’IA adoptent l’étiquette ‘open source’ pour leurs modèles tout en retenant simultanément des composants cruciaux nécessaires à une véritable ouverture. Cette pratique risque de diluer le sens du terme, le transformant d’un symbole de transparence en un slogan marketing potentiellement trompeur. Le problème central réside souvent dans la nature unique des systèmes d’IA modernes. Contrairement aux logiciels traditionnels où le code source est primordial, la puissance et le comportement des grands modèles d’IA sont inextricablement liés aux vastes ensembles de données utilisés pour leur entraînement et aux architectures complexes qui les définissent. Lorsque l’accès à ces données d’entraînement ou aux informations détaillées sur la construction et la pondération du modèle est restreint, l’affirmation d’être ‘open source’ sonne creux, indépendamment du fait qu’une partie du code du modèle soit rendue disponible. Cette divergence frappe au cœur de la philosophie open source, créant une illusion d’accessibilité tout en obscurcissant les éléments les plus vitaux pour un examen et une réplication indépendants.

L'Impératif d'une Véritable Ouverture dans l'IA Scientifique

Les enjeux liés au maintien d’une véritable ouverture dans l’IA, en particulier dans le domaine scientifique, ne pourraient être plus élevés. La science prospère grâce à la capacité de vérifier indépendamment les résultats, de comprendre les méthodologies et de s’appuyer sur les travaux antérieurs. Lorsque les outils eux-mêmes – des modèles d’IA de plus en plus sophistiqués – deviennent des boîtes noires, ce processus fondamental est compromis. S’appuyer sur des systèmes d’IA dont le fonctionnement interne, les biais des données d’entraînement ou les modes de défaillance potentiels sont opaques introduit un niveau d’incertitude inacceptable dans la recherche. Comment un scientifique peut-il fonder en toute confiance ses conclusions sur le résultat d’une IA si les facteurs qui façonnent ce résultat sont inconnus ou invérifiables ? Comment la communauté peut-elle faire confiance aux découvertes générées par des systèmes propriétaires qui ne peuvent être audités ou reproduits indépendamment ?

Le succès historique des logiciels open source en science offre un contraste saisissant et une référence claire. La transparence inhérente aux projets open source traditionnels a favorisé la confiance et permis un examen par les pairs robuste. Les chercheurs pouvaient examiner les algorithmes, comprendre leurs limites et les adapter à des besoins spécifiques. Cet écosystème collaboratif a accéléré les progrès dans des domaines allant de la bioinformatique à l’astrophysique. Le potentiel de l’IA pour révolutionner la découverte scientifique est immense, promettant d’analyser des ensembles de données complexes, de générer des hypothèses et de simuler des processus complexes à des échelles sans précédent. Cependant, la réalisation de ce potentiel dépend du maintien des mêmes principes de transparence et de reproductibilité qui ont toujours sous-tendu l’avancement scientifique. Une évolution vers des systèmes d’IA fermés et propriétaires, même ceux se faisant passer pour ‘ouverts’, menace de fragmenter la communauté de recherche, d’entraver la collaboration et, finalement, de ralentir le rythme de la découverte en érigeant des barrières à la compréhension et à la validation. L’entreprise scientifique exige des outils qui ne sont pas seulement puissants, mais aussi transparents et dignes de confiance.

L'Énigme des Données : Le Défi de la Transparence de l'IA

Au cœur du débat sur l’’open source’ dans l’IA se trouve la question critique des données d’entraînement. Contrairement aux logiciels conventionnels principalement définis par leur code, les grands modèles de langage (LLM) et autres systèmes d’IA fondamentaux sont fondamentalement façonnés par les ensembles de données colossaux qu’ils ingèrent au cours de leur développement. Les caractéristiques, les biais et la provenance de ces données influencent profondément le comportement du modèle, ses capacités et ses limites potentielles. Une véritable ouverture en IA nécessite donc un niveau de transparence concernant ces données qui va bien au-delà de la simple publication des poids du modèle ou du code d’inférence.

De nombreux modèles actuellement commercialisés sous l’égide ‘open source’ sont manifestement insuffisants sur ce front. Prenons des exemples marquants comme la série Llama de Meta, Phi-2 de Microsoft ou Mixtral de Mistral AI. Bien que ces entreprises publient certains composants, permettant aux développeurs d’exécuter ou d’affiner les modèles, elles imposent souvent des restrictions importantes ou fournissent peu de détails sur les données d’entraînement sous-jacentes. Les ensembles de données impliqués peuvent être massifs, propriétaires, extraits du web avec peu de curation, ou soumis à des contraintes de licence, rendant la publication publique complète difficile voire impossible. Cependant, sans informations complètes sur :

  • Sources des Données : D’où proviennent les informations ? Étaient-ce principalement du texte, des images, du code ? De quels sites web, livres ou bases de données ?
  • Curation des Données : Comment les données ont-elles été filtrées, nettoyées et traitées ? Quels critères ont été utilisés pour inclure ou exclure des informations ?
  • Caractéristiques des Données : Quels sont les biais connus dans les données (par exemple, démographiques, culturels, linguistiques) ? Quelle période couvrent-elles ?
  • Étapes de Prétraitement : Quelles transformations ont été appliquées aux données avant l’entraînement ?

…il devient extrêmement difficile pour les chercheurs indépendants de comprendre pleinement le comportement du modèle, de reproduire son développement ou d’évaluer de manière critique ses biais potentiels et ses points de défaillance. Ce manque de transparence des données est la principale raison pour laquelle de nombreuses versions actuelles d’IA ‘open source’ ne respectent pas l’esprit, sinon la lettre, de la véritable ouverture établie dans le monde du logiciel. En revanche, des initiatives comme le modèle OLMo de l’Allen Institute for AI ou des efforts communautaires tels que CrystalCoder de LLM360 ont fait des efforts plus concertés pour offrir une plus grande transparence concernant leurs données et leurs méthodologies d’entraînement, établissant une norme plus élevée et plus alignée sur les valeurs traditionnelles de l’open source.

'Openwashing' : Étiquetage Stratégique ou Contournement Réglementaire ?

L’appropriation de l’étiquette ‘open source’ par des entités qui n’en adoptent pas pleinement les principes a suscité des inquiétudes concernant l’’openwashing‘. Ce terme décrit la pratique consistant à exploiter les connotations positives de l’ouverture à des fins de relations publiques ou d’avantage stratégique, sans s’engager au niveau de transparence et d’accessibilité associé. Pourquoi les entreprises pourraient-elles s’engager dans cette voie ? Plusieurs facteurs pourraient être en jeu. La marque ‘open source’ jouit d’une bienveillance considérable, suggérant un engagement envers la communauté et le progrès partagé, ce qui peut être attrayant pour les développeurs et les clients.

De plus, comme l’ont noté Nature et d’autres observateurs, les paysages réglementaires pourraient involontairement encourager un tel comportement. L’emblématique AI Act de l’Union Européenne, finalisé en 2024, comprend des dispositions qui imposent des exigences plus strictes aux systèmes d’IA à haut risque et à usage général. Cependant, il contient également des exemptions potentielles ou des exigences allégées pour les modèles d’IA publiés sous licences open source. Cela crée une échappatoire potentielle où les entreprises pourraient stratégiquement étiqueter leurs modèles comme ‘open source’ – même si des composants clés comme les données d’entraînement restent restreints – spécifiquement pour naviguer dans les obstacles réglementaires et éviter des obligations de conformité plus strictes.

Ce potentiel d’arbitrage réglementaire est profondément préoccupant. Si l’’openwashing’ permet à des systèmes d’IA puissants de contourner l’examen destiné à garantir la sécurité, l’équité et la responsabilité, cela sape l’objectif même de la réglementation. Cela place également la communauté scientifique dans une position précaire. Les chercheurs pourraient être attirés par ces systèmes nominalement ‘ouverts’ en raison de leur accessibilité par rapport aux offres commerciales entièrement fermées, pour se retrouver dépendants d’outils dont les méthodologies restent opaques et invérifiables. Cette dépendance risque de compromettre l’intégrité scientifique, rendant plus difficile de garantir que la recherche est reproductible, impartiale et construite sur une base solide et compréhensible. L’attrait d’une étiquette familière pourrait masquer des restrictions sous-jacentes qui entravent une véritable enquête scientifique.

Redéfinir l'Ouverture pour l'Ère de l'IA : Le Cadre OSAID

Reconnaissant l’inadéquation des définitions traditionnelles de l’open source face aux défis uniques posés par l’IA, l’Open Source Initiative (OSI) – un gardien de longue date des principes open source – s’est lancée dans un effort mondial crucial. Leur objectif est d’établir une définition claire et robuste spécifiquement adaptée à l’intelligence artificielle : la Définition de l’IA Open Source (OSAID 1.0). Cette initiative représente une étape vitale vers la reconquête du sens de ‘ouvert’ dans le contexte de l’IA et l’établissement de normes sans ambiguïté pour la transparence et la responsabilité.

Une innovation clé dans le cadre OSAID proposé est le concept d’’information sur les données‘ (‘data information’). Reconnaissant que la publication complète d’ensembles de données d’entraînement massifs pourrait souvent être impraticable ou légalement interdite en raison de préoccupations liées à la confidentialité, aux restrictions de droits d’auteur ou à l’échelle pure, OSAID se concentre sur l’obligation de divulgation complète concernant les données. Cela inclut des exigences pour les développeurs de fournir des informations détaillées concernant :

  1. Sources et Composition : Identifier clairement les origines des données d’entraînement.
  2. Caractéristiques : Documenter les caractéristiques connues, les limitations et les biais potentiels dans les données.
  3. Méthodes de Préparation : Expliquer les processus utilisés pour nettoyer, filtrer et préparer les données pour l’entraînement.

Même si les données brutes ne peuvent pas être partagées, fournir ces métadonnées permet aux chercheurs et aux auditeurs d’obtenir des informations critiques sur les facteurs qui ont façonné le modèle d’IA. Cela facilite une meilleure compréhension des biais potentiels, permet des évaluations des risques plus éclairées et fournit une base pour tenter une réplication ou des études comparatives.

Au-delà de l’information sur les données, l’effort de l’OSI, parallèlement au plaidoyer d’organisations comme Open Future, promeut une évolution plus large vers un modèle de ‘communs de données’ (‘data-commons’). Cela envisage un avenir où les ensembles de données essentiels pour l’entraînement de l’IA sont curés et mis à disposition de manière plus ouverte et équitable, favorisant un écosystème plus transparent et collaboratif pour le développement de l’IA, en particulier au sein de la communauté de recherche. La définition OSAID vise à fournir une référence claire par rapport à laquelle les systèmes d’IA peuvent être évalués, allant au-delà des étiquettes superficielles pour évaluer un engagement authentique envers l’ouverture.

Une Responsabilité Collective : Promouvoir une Véritable Transparence de l'IA

Le défi d’assurer une véritable ouverture en IA ne peut être résolu par les seules définitions ; il exige une action concertée de multiples parties prenantes. La communauté scientifique, en tant que développeurs et principaux utilisateurs d’outils d’IA sophistiqués, porte une responsabilité importante. Les chercheurs doivent s’engager activement dans des initiatives comme OSAID 1.0, comprendre ses principes et plaider pour leur adoption. Ils doivent évaluer de manière critique les affirmations d’’ouverture’ des modèles d’IA qu’ils envisagent d’utiliser, en privilégiant ceux qui offrent une plus grande transparence concernant les données d’entraînement et les méthodologies, même si cela nécessite de résister à l’attrait de systèmes apparemment pratiques mais opaques. Exprimer le besoin d’outils d’IA vérifiables et reproductibles dans les publications, les conférences et les discussions institutionnelles est primordial.

Les agences de financement public et les organismes gouvernementaux ont également un rôle essentiel à jouer. Ils exercent une influence considérable par le biais des exigences de subvention et des politiques d’approvisionnement. Des institutions comme les National Institutes of Health (NIH) aux États-Unis, qui exigent déjà des licences ouvertes pour les données de recherche générées grâce à leur financement, fournissent un précédent précieux. De même, des exemples comme l’exigence italienne pour les organismes de l’administration publique de prioriser les logiciels open source démontrent comment la politique peut stimuler l’adoption. Ces principes peuvent et doivent être étendus au domaine de l’IA. Les gouvernements et les organismes de financement devraient envisager de :

  • Exiger l’adhésion à des normes robustes d’IA Open Source (comme OSAID) pour la recherche et le développement en IA financés par des fonds publics.
  • Investir dans la création d’ensembles de données véritablement ouverts et de haute qualité – des ‘communs de données’ – adaptés à l’entraînement de modèles d’IA axés sur la recherche.
  • S’assurer que les réglementations, comme l’EU AI Act, sont mises en œuvre de manière à prévenir l’’openwashing’ et à tenir tous les systèmes d’IA puissants responsables, indépendamment de leurs revendications de licence.

En fin de compte, la sauvegarde de l’avenir de l’IA dans la recherche nécessite un front uni. Les scientifiques doivent exiger la transparence, les institutions doivent mettre en œuvre des politiques qui privilégient une véritable ouverture, et les régulateurs doivent veiller à ce que l’étiquette ‘open source’ signifie un engagement significatif envers la responsabilité, et non une échappatoire commode. Sans ces efforts collectifs, l’immense potentiel de l’IA pour la découverte scientifique risque d’être compromis par un paysage dominé par des systèmes fermés et propriétaires, sapant fondamentalement la nature collaborative et vérifiable du progrès scientifique lui-même. L’intégrité de la recherche future est en jeu.