Une équipe de chercheurs a réalisé ce que beaucoup jugeaient impossible : la création d’un modèle d’IA entièrement formé à partir de données d’origine éthique. Cette réalisation révolutionnaire, menée par des experts d’institutions prestigieuses telles que le MIT, l’Université Cornell et l’Université de Toronto, présente un projet viable et responsable pour l’avenir du développement de l’IA. Le secret ? Un ensemble de données méticuleusement organisé, composé uniquement de contenu sous licence ouverte ou du domaine public.
La Tâche Héracléenne de L’Approvisionnement en Données Éthiques
Le voyage vers cette oasis d’IA éthique était loin d’être une promenade de santé. Comme les chercheurs l’admettent volontiers, le véritable goulot d’étranglement n’était pas la puissance de calcul, mais le simple effort humain. Le processus d’assemblage du Common Pile v0.1, un ensemble de données expansif dépassant les huit téraoctets, a exigé un nettoyage manuel et un reformatage minutieux pour le rendre approprié à la formation en IA. Imaginez-vous en train de passer au crible des piles d’informations numériques virtuellement infinies, à la recherche de tout type d’erreur qui pourrait corrompre l’ensemble de données.
Mais le véritable défi résidait dans la double vérification méticuleuse du statut du droit d’auteur. Dans le royaume chaotique de l’Internet, la délivrance de licences erronées est la norme, transformant la vérification du droit d’auteur en une tâche de Sisyphe.
"Ce n’est pas un truc où vous pouvez simplement augmenter les ressources dont vous disposez", a déclaré Stella Biderman, co-auteure de l’étude, à WaPo. "Nous utilisons des outils automatisés, mais toutes nos affaires ont été annotées manuellement à la fin de la journée et vérifiées par des personnes. Et c’est vraiment difficile."
Le processus de filtrage de téraoctets de données à la recherche de problèmes de droits d’auteur n’est pas facile. Les chercheurs ne pouvaient pas simplement ajouter plus de puces d’ordinateur au processus et espérer une solution. Au lieu de cela, ils devaient vérifier et annoter manuellement toutes les données.
Triomphe sur L’Adversité: La Naissance d’une IA Éthique
Malgré les obstacles intimidants, Biderman et son équipe dévouée ont persévéré. Une fois la tâche ardue de la création du Common Pile terminée, ils ont libéré son potentiel pour former un Large Language Model (LLM) de sept milliards de paramètres. L’IA résultante s’est non seulement montrée à la hauteur des références de l’industrie telles que Llama 1 et Llama 2 7B de Meta, mais elle l’a également fait avec une conscience éthique propre.
Mais le paysage de la recherche en IA évolue aussi vite qu’une balle. Il est important de se rappeler que Meta a sorti Llama 1 et Llama 2 il y a quelques années, une éternité relative dans le monde de l’IA.
Le fait qu’une équipe mince et déterminée ait pu obtenir des résultats comparables avec des ressources limitées témoigne de leur ingéniosité. Une découverte particulièrement inspirée a été un trésor de plus de 130 000 livres en langue anglaise dans la Bibliothèque du Congrès qui avaient été négligés auparavant.
Les Eaux Troubles de L’IA et du Droit D’Auteur
Le droit d’auteur reste une question éthique et juridique épineuse à l’ère de l’IA. Les géants de l’industrie comme OpenAI et Google ont amassé de vastes ensembles de données en dévorant tout ce qui est en vue, des articles de presse aux publications personnelles sur les médias sociaux. Cette pratique a suscité des critiques de toutes parts. Des auteurs ont même intenté des poursuites, alléguant l’utilisation illégale de livres protégés par le droit d’auteur pour former des modèles d’IA.
L’industrie technologique soutient que de telles pratiques constituent une utilisation équitable, arguant que le développement de l’IA serait "impossible" sans un accès illimité aux données. Cette dernière recherche inflige une cinglante réprimande à ce récit de la Silicon Valley.
Bien que cette réalisation marque une étape importante, elle n’élimine pas toutes les considérations éthiques. Les grands modèles linguistiques, avec leur potentiel de déplacement des travailleurs humains, soulèvent encore des questions fondamentales sur l’avenir du travail. De plus, l’utilisation d’œuvres du domaine public peut ne pas plaire à tout le monde, en particulier à ceux dont les contributions créatives sont maintenant régurgitées par l’IA.
Même dans un avenir hypothétique où les entreprises d’IA seraient obligées de demander l’autorisation ou de fournir une compensation pour l’utilisation des données, les détenteurs de droits d’auteur pourraient encore subir des pressions indues pour autoriser la formation en IA. Les immenses ressources qui peuvent être mobilisées lors de la formation de modèles d’IA signifient que la plupart des détenteurs de droits d’auteur ne seraient pas en mesure de résister à la pression des grandes entreprises d’IA pour leur permettre d’utiliser les données.
Vers la Transparence et la Responsabilité dans L’IA
Biderman, cependant, reste pragmatique. Elle ne se fait aucune illusion sur le fait que des entreprises comme OpenAI adopteront soudainement l’approvisionnement en données éthiques. Au lieu de cela, elle espère que son travail encouragera une plus grande transparence dans l’utilisation des données. Quels ensembles de données ont été utilisés pour former quels produits d’IA ? Connaître la réponse à cette question pourrait avoir des implications importantes pour l’avenir de l’IA.
"Même une transparence partielle a une énorme valeur sociale et une valeur scientifique modérée", a-t-elle déclaré à WaPo.
Actuellement, les ensembles de données exacts utilisés pour former une IA donnée sont des secrets étroitement gardés. La seule façon de reproduire un modèle d’IA est soit de se faire dire exactement comment le modèle d’IA actuel a été créé, soit de faire de l’ingénierie inverse sur le modèle d’IA, ce qui pourrait prendre beaucoup de temps et d’efforts.
Un Changement de Paradigme dans le Développement de L’IA
Les implications de cette recherche s’étendent bien au-delà du domaine de l’éthique de l’IA. Cela signifie un changement fondamental dans la façon dont l’IA peut être développée, démontrant que les considérations éthiques et les progrès technologiques ne doivent pas s’exclure mutuellement. En donnant la priorité à la transparence, à l’approvisionnement responsable en données et à la surveillance humaine, nous pouvons forger un avenir où l’IA est au service de l’humanité, et non l’inverse.
Aborder les Préoccupations Éthiques et les Impacts Sociétaux
L’argument de l’industrie technologique selon lequel l’utilisation éthique des données est un obstacle insurmontable a maintenant été résolument contesté. Le succès de ce projet souligne la faisabilité de la construction de modèles d’IA sur une base éthique solide. Cependant, les dimensions éthiques du développement de l’IA vont au-delà des questions de droit d’auteur. Les impacts socio-économiques de l’IA, y compris le déplacement d’emplois et les préjugés algorithmiques, exigent un examen attentif.
Les considérations éthiques qui affectent les modèles d’IA vont au-delà de la simple source. Nous devons également vérifier que les données ne rendent pas les modèles d’IA biaisés envers ou contre un segment de la population.
Promouvoir la Transparence et la Responsabilité
Pour favoriser la confiance et assurer une innovation responsable, l’industrie de l’IA doit adopter la transparence et la responsabilité. Les entreprises doivent être ouvertes sur les sources de données utilisées pour former leurs modèles et les méthodologies employées pour atténuer les préjugés. Des audits indépendants et une surveillance externe peuvent encore améliorer la responsabilité et prévenir les manquements à l’éthique.
La transparence de l’IA peut être mise en œuvre pour vérifier que les ensembles de données contiennent une distribution suffisamment large pour éviter les biais dans le modèle d’IA. La responsabilité de l’IA peut être mise en œuvre par des audits externes pour vérifier les manquements potentiels à l’éthique.
Collaboration et Solutions Open Source
Le développement d’une IA d’origine éthique nécessite une collaboration et des solutions open source. En partageant les ensembles de données, les méthodologies et les meilleures pratiques, les chercheurs et les développeurs peuvent accélérer les progrès et relever collectivement les défis du développement éthique de l’IA. Les initiatives open source peuvent également permettre aux petites organisations et aux particuliers de participer à la révolution de l’IA, garantissant ainsi que les avantages de cette technologie sont partagés plus équitablement.
La Promesse d’un Avenir Meilleur
La création d’un modèle d’IA formé entièrement à partir de données d’origine éthique représente une étape importante dans la quête d’une IA responsable et bénéfique. Cette réalisation révolutionnaire prouve non seulement que le développement éthique de l’IA est possible, mais fournit également une feuille de route à suivre pour les autres. En adoptant la transparence, la collaboration et un engagement envers les principes éthiques, nous pouvons libérer le plein potentiel de l’IA tout en protégeant les valeurs humaines et en promouvant un avenir plus juste et équitable.