Biologia Generativa: Re-escrevendo o Código da Vida

Decifrando a Linguagem do DNA

O DNA, o plano de todos os organismos vivos, é composto por nucleótidos, representados pelas letras A, C, G e T. Estes nucleótidos emparelham-se para formar a icónica estrutura de dupla hélice. Dentro desta estrutura encontram-se genes e sequências regulatórias, todos cuidadosamente embalados em cromossomas, que coletivamente constituem o genoma. Cada espécie na Terra possui uma sequência genómica única e, na verdade, cada indivíduo dentro de uma espécie tem a sua própria variação distinta.

Embora as diferenças entre indivíduos da mesma espécie sejam relativamente pequenas, representando uma mera fração do genoma total, as variações entre espécies são muito mais substanciais. Por exemplo, o genoma humano compreende aproximadamente 3 mil milhões de pares de bases. Uma comparação entre dois humanos aleatórios revela uma diferença de cerca de 3 milhões de pares de bases – uns meros 0,1%. No entanto, ao comparar o genoma humano com o do nosso parente mais próximo, o chimpanzé, a diferença salta para aproximadamente 30 milhões de pares de bases, ou cerca de 1%.

Estas variações aparentemente pequenas explicam a vasta diversidade genética que observamos, não só entre os humanos, mas em todo o espectro da vida. Nos últimos anos, os cientistas fizeram progressos significativos na sequenciação dos genomas de milhares de espécies, melhorando continuamente a nossa compreensão desta linguagem intrincada. No entanto, ainda estamos apenas a começar a arranhar a superfície da sua complexidade.

Evo 2: Um ChatGPT para DNA

O modelo Evo 2 do Arc Institute representa um salto significativo na aplicação da IA generativa ao reino da biologia. Este modelo, lançado recentemente, é um feito notável de engenharia. Foi treinado com impressionantes 9,3 triliões de pares de bases de DNA, um conjunto de dados derivado de um atlas genómico cuidadosamente selecionado que abrange todos os domínios da vida. Para colocar isto em perspetiva, estima-se que o GPT-4 tenha sido treinado com cerca de 6,5 triliões de tokens, enquanto o LLaMA 3 da Meta e o DeepSeek V3 foram ambos treinados com aproximadamente 15 triliões de tokens. Em termos de volume de dados de treino, o Evo 2 está lado a lado com os principais modelos de linguagem.

Prevendo o Impacto das Mutações

Uma das principais capacidades do Evo 2 é a sua capacidade de prever os efeitos das mutações dentro de um gene. Os genes normalmente contêm as instruções que as células usam para construir proteínas, os blocos de construção fundamentais da vida. O processo intrincado de como estas proteínas se dobram em estruturas funcionais é outro desafio de previsão complexo, famosamente abordado pelo AlphaFold da DeepMind. Mas o que acontece quando a sequência de um gene é alterada?

As mutações podem ter uma ampla gama de consequências. Algumas são catastróficas, levando a proteínas não funcionais ou defeitos graves de desenvolvimento. Outras são prejudiciais, causando alterações subtis, mas prejudiciais. Muitas mutações são neutras, não tendo efeito discernível no organismo. E algumas raras podem até ser benéficas, conferindo uma vantagem em certos ambientes. O desafio reside em determinar em qual categoria uma determinada mutação se enquadra.

É aqui que o Evo 2 demonstra as suas notáveis capacidades. Numa variedade de tarefas de previsão de variantes, ele iguala ou até supera o desempenho de modelos existentes e altamente especializados. Isto significa que ele pode prever efetivamente quais mutações são provavelmente patogénicas, ou quais variantes de genes de cancro conhecidos, como o BRCA1 (associado ao cancro da mama), são clinicamente significativas.

O que é ainda mais notável é que o Evo 2 não foi especificamente treinado com dados de variantes humanas. O seu treino foi baseado unicamente no genoma de referência humano padrão. No entanto, ele ainda pode inferir com precisão quais mutações são provavelmente prejudiciais em humanos. Isto sugere que o modelo aprendeu as restrições evolutivas fundamentais que governam as sequências genómicas. Ele desenvolveu uma compreensão do que o DNA ‘normal’ parece em diferentes espécies e contextos.

Aprendendo Características Biológicas a Partir de Dados Brutos

As capacidades do Evo 2 vão além do simples reconhecimento de padrões em sequências de DNA. Ele demonstrou a capacidade de aprender características biológicas diretamente dos dados brutos de treino, sem qualquer programação ou orientação explícita. Estas características incluem:

  • Elementos genéticos móveis: Sequências de DNA que podem mover-se dentro do genoma.
  • Motivos regulatórios: Sequências curtas que controlam a expressão génica.
  • Estrutura secundária da proteína: Os padrões de dobramento local das proteínas.

Este é um feito verdadeiramente notável. Significa que o Evo 2 não está apenas a ler sequências de DNA; está a compreender informações estruturais de ordem superior que não foram explicitamente fornecidas nos dados de treino. Isto é paralelo à forma como o ChatGPT pode gerar frases gramaticalmente corretas sem ter sido explicitamente ensinado regras gramaticais. Da mesma forma, o Evo 2 pode completar um segmento de um genoma com uma estrutura biológica válida, mesmo sem ser informado do que é um gene ou uma proteína.

Gerando Novas Sequências de DNA

Assim como os modelos GPT podem gerar novo texto, o Evo 2 pode gerar sequências de DNA inteiramente novas. Isto abre possibilidades empolgantes no campo da biologia sintética, onde os cientistas pretendem projetar e criar sistemas biológicos para várias aplicações.

O Evo 2 já foi usado para gerar:

  • Genomas mitocondriais: O DNA encontrado nas mitocôndrias, as centrais de energia das células.
  • Genomas bacterianos: O material genético completo das bactérias.
  • Partes de genomas de levedura: Secções do DNA da levedura, um organismo comumente usado em pesquisa e indústria.

Estas capacidades podem ser inestimáveis no projeto de organismos para:

  • Biofabricação: Produção de compostos valiosos usando micróbios projetados.
  • Captura de carbono: Desenvolvimento de organismos que podem remover eficientemente o dióxido de carbono da atmosfera.
  • Síntese de fármacos: Criação de novas vias para a produção de produtos farmacêuticos.

No entanto, é importante reconhecer as limitações atuais do Evo 2, muito parecido com as primeiras versões dos grandes modelos de linguagem. Embora possa gerar sequências de DNA biologicamente plausíveis, não há garantia de que estas sequências sejam funcionais sem validação experimental. Gerar DNA novo e funcional continua a ser um desafio significativo. Mas considerando o rápido progresso nos modelos de linguagem, do GPT-3 a modelos mais avançados como o DeepSeek, é fácil imaginar um futuro onde as ferramentas de biologia generativa se tornem cada vez mais sofisticadas e poderosas.

Código Aberto e Avanço Rápido

Um aspeto significativo do Evo 2 é a sua natureza de código aberto. Os parâmetros do modelo, o código de pré-treino, o código de inferência e o conjunto de dados completo com o qual foi treinado estão todos disponíveis publicamente. Isto promove a colaboração e acelera o progresso no campo.

A velocidade de desenvolvimento nesta área também é digna de nota. O Evo 1, o predecessor do Evo 2, foi lançado apenas alguns meses antes, em novembro de 2024. Já era uma conquista significativa, treinado em genomas procarióticos com cerca de 300 biliões de tokens e uma janela de contexto de 131.000 pares de bases. No entanto, a sua funcionalidade era comparativamente limitada.

Agora, apenas alguns meses depois, o Evo 2 chegou, ostentando um aumento de 30 vezes no tamanho dos dados de treino, uma expansão de oito vezes da janela de contexto e capacidades totalmente novas. Esta rápida evolução espelha as melhorias surpreendentemente rápidas que vimos nos modelos de linguagem, que passaram de alucinações frequentes para lidar com tarefas complexas com proficiência de nível humano em apenas alguns anos.

Assim como os modelos GPT revolucionaram a geração de linguagem, estes modelos de linguagem de DNA estão prestes a transformar a nossa compreensão do código da própria vida. As aplicações potenciais são vastas e de longo alcance, prometendo revolucionar campos que vão da medicina à agricultura e à ciência ambiental. O futuro da biologia nunca pareceu tão empolgante. O rápido progresso da IA generativa está agora a ser aplicado ao código mais fundamental. O rápido progresso está a espelhar o avanço dos LLMs.