Biologie générative : réécrire le code de la vie

Déchiffrer le langage de l’ADN

L’avènement de l’IA générative, illustré par des outils tels que ChatGPT, a révolutionné notre interaction avec la technologie. La puissance de ces modèles réside fondamentalement dans leur capacité à prédire le prochain jeton dans une séquence, qu’il s’agisse d’un mot ou d’une partie de mot. Cette tâche, apparemment simple, permet, lorsqu’elle est mise à l’échelle et affinée, de générer un texte cohérent et contextuellement pertinent. Mais que se passerait-il si cette technologie révolutionnaire pouvait être appliquée à un langage bien plus fondamental que n’importe quel dialecte humain – le langage de la vie elle-même ?

L’ADN, le plan directeur de tous les organismes vivants, est composé de nucléotides, représentés par les lettres A, C, G et T. Ces nucléotides s’associent pour former la structure emblématique de la double hélice. Au sein de cette structure se trouvent des gènes et des séquences régulatrices, tous soigneusement emballés dans des chromosomes, qui constituent collectivement le génome. Chaque espèce sur Terre possède une séquence génomique unique, et, en fait, chaque individu au sein d’une espèce a sa propre variation distincte.

Alors que les différences entre les individus d’une même espèce sont relativement mineures, ne représentant qu’une fraction du génome total, les variations entre les espèces sont beaucoup plus substantielles. Par exemple, le génome humain comprend environ 3 milliards de paires de bases. Une comparaison entre deux humains aléatoires révèle une différence d’environ 3 millions de paires de bases, soit seulement 0,1 %. Cependant, si l’on compare le génome humain à celui de notre plus proche parent, le chimpanzé, la différence passe à environ 30 millions de paires de bases, soit environ 1 %.

Ces variations apparemment minimes expliquent la vaste diversité génétique que nous observons, non seulement chez les humains, mais aussi dans tout le spectre de la vie. Ces dernières années, les scientifiques ont fait des progrès significatifs dans le séquençage des génomes de milliers d’espèces, améliorant constamment notre compréhension de ce langage complexe. Cependant, nous ne faisons encore qu’effleurer la surface de sa complexité.

Evo 2 : Un ChatGPT pour l’ADN

Le modèle Evo 2 de l’Arc Institute représente une avancée significative dans l’application de l’IA générative au domaine de la biologie. Ce modèle, récemment publié, est une prouesse d’ingénierie remarquable. Il a été entraîné sur un nombre stupéfiant de 9,3 billions de paires de bases d’ADN, un ensemble de données dérivé d’un atlas génomique soigneusement organisé englobant tous les domaines de la vie. Pour mettre cela en perspective, on estime que GPT-4 a été entraîné sur environ 6,5 billions de jetons, tandis que LLaMA 3 de Meta et DeepSeek V3 ont tous deux été entraînés sur environ 15 billions de jetons. En termes de volume de données d’entraînement, Evo 2 se situe au même niveau que les principaux modèles de langage.

Prédire l’impact des mutations

L’une des capacités clés d’Evo 2 est sa capacité à prédire les effets des mutations au sein d’un gène. Les gènes contiennent généralement les instructions que les cellules utilisent pour construire des protéines, les éléments constitutifs fondamentaux de la vie. Le processus complexe de la façon dont ces protéines se replient en structures fonctionnelles est un autre défi de prédiction complexe, célèbrement abordé par AlphaFold de DeepMind. Mais que se passe-t-il lorsque la séquence d’un gène est modifiée ?

Les mutations peuvent avoir un large éventail de conséquences. Certaines sont catastrophiques, conduisant à des protéines non fonctionnelles ou à de graves défauts de développement. D’autres sont nuisibles, provoquant des changements subtils mais préjudiciables. De nombreuses mutations sont neutres, n’ayant aucun effet perceptible sur l’organisme. Et quelques rares peuvent même être bénéfiques, conférant un avantage dans certains environnements. Le défi consiste à déterminer dans quelle catégorie se situe une mutation particulière.

C’est là qu’Evo 2 démontre ses capacités remarquables. Dans une variété de tâches de prédiction de variants, il égale ou même surpasse les performances des modèles existants et hautement spécialisés. Cela signifie qu’il peut prédire efficacement quelles mutations sont susceptibles d’être pathogènes, ou quelles variantes de gènes cancéreux connus, tels que BRCA1 (associé au cancer du sein), sont cliniquement significatives.

Ce qui est encore plus remarquable, c’est qu’Evo 2 n’a pas été spécifiquement entraîné sur des données de variants humains. Son entraînement était basé uniquement sur le génome de référence humain standard. Pourtant, il peut toujours déduire avec précision quelles mutations sont susceptibles d’être nocives chez l’homme. Cela suggère que le modèle a appris les contraintes évolutives fondamentales qui régissent les séquences génomiques. Il a développé une compréhension de ce à quoi ressemble l’ADN “normal” dans différentes espèces et contextes.

Apprentissage des caractéristiques biologiques à partir de données brutes

Les capacités d’Evo 2 vont au-delà de la simple reconnaissance de motifs dans les séquences d’ADN. Il a démontré sa capacité à apprendre des caractéristiques biologiques directement à partir des données d’entraînement brutes, sans aucune programmation ou orientation explicite. Ces caractéristiques comprennent :

  • Éléments génétiques mobiles : Séquences d’ADN qui peuvent se déplacer dans le génome.
  • Motifs régulateurs : Courtes séquences qui contrôlent l’expression des gènes.
  • Structure secondaire des protéines : Les modèles de repliement local des protéines.

Il s’agit d’une réalisation vraiment remarquable. Cela signifie qu’Evo 2 ne se contente pas de lire les séquences d’ADN ; il saisit des informations structurelles d’ordre supérieur qui n’étaient pas explicitement fournies dans les données d’entraînement. Cela est comparable à la façon dont ChatGPT peut générer des phrases grammaticalement correctes sans avoir été explicitement enseigné les règles de grammaire. De même, Evo 2 peut compléter un segment d’un génome avec une structure biologique valide, même sans qu’on lui dise ce qu’est un gène ou une protéine.

Génération de nouvelles séquences d’ADN

Tout comme les modèles GPT peuvent générer du nouveau texte, Evo 2 peut générer des séquences d’ADN entièrement nouvelles. Cela ouvre des possibilités passionnantes dans le domaine de la biologie synthétique, où les scientifiques visent à concevoir et à modifier des systèmes biologiques pour diverses applications.

Evo 2 a déjà été utilisé pour générer :

  • Génomes mitochondriaux : L’ADN trouvé dans les mitochondries, les centrales énergétiques des cellules.
  • Génomes bactériens : Le matériel génétique complet des bactéries.
  • Parties de génomes de levure : Sections de l’ADN de la levure, un organisme couramment utilisé dans la recherche et l’industrie.

Ces capacités pourraient être inestimables dans la conception d’organismes pour :

  • Bioproduction : Production de composés précieux à l’aide de microbes modifiés.
  • Capture du carbone : Développement d’organismes capables d’éliminer efficacement le dioxyde de carbone de l’atmosphère.
  • Synthèse de médicaments : Création de nouvelles voies de production de produits pharmaceutiques.

Cependant, il est important de reconnaître les limites actuelles d’Evo 2, tout comme les premières versions des grands modèles de langage. Bien qu’il puisse générer des séquences d’ADN biologiquement plausibles, il n’y a aucune garantie que ces séquences seront fonctionnelles sans validation expérimentale. La génération d’ADN nouveau et fonctionnel reste un défi important. Mais compte tenu des progrès rapides des modèles de langage, de GPT-3 à des modèles plus avancés comme DeepSeek, il est facile d’envisager un avenir où les outils de biologie générative deviendront de plus en plus sophistiqués et puissants.

Open-Source et avancement rapide

Un aspect important d’Evo 2 est sa nature open-source. Les paramètres du modèle, le code de pré-entraînement, le code d’inférence et l’ensemble complet des données sur lesquelles il a été entraîné sont tous disponibles publiquement. Cela favorise la collaboration et accélère les progrès dans le domaine.

La vitesse de développement dans ce domaine est également remarquable. Evo 1, le prédécesseur d’Evo 2, a été publié quelques mois auparavant, en novembre 2024. Il s’agissait déjà d’une réalisation importante, entraînée sur des génomes procaryotes avec environ 300 milliards de jetons et une fenêtre contextuelle de 131 000 paires de bases. Cependant, ses fonctionnalités étaient comparativement limitées.

Aujourd’hui, quelques mois plus tard, Evo 2 est arrivé, avec une augmentation de 30 fois de la taille des données d’entraînement, une expansion de huit fois de la fenêtre contextuelle et des capacités entièrement nouvelles. Cette évolution rapide reflète les améliorations étonnamment rapides que nous avons observées dans les modèles de langage, qui sont passés d’hallucinations fréquentes à la résolution de tâches complexes à un niveau de compétence humaine en quelques années seulement.

Tout comme les modèles GPT ont révolutionné la génération de langage, ces modèles de langage ADN sont sur le point de transformer notre compréhension du code de la vie lui-même. Les applications potentielles sont vastes et profondes, promettant de révolutionnerdes domaines allant de la médecine à l’agriculture en passant par les sciences de l’environnement. L’avenir de la biologie n’a jamais été aussi passionnant. Le progrès rapide de l’IA générative est maintenant appliqué au code le plus fondamental. Le progrès rapide reflète l’avancement des LLM.