以 ChatGPT 为代表的生成式 AI 的出现,彻底改变了我们与技术互动的方式。这些模型的核心力量在于它们能够预测序列中的下一个标记,无论是单词还是单词的一部分。这个看似简单的任务,经过大规模扩展和改进后,可以生成连贯且与上下文相关的文本。但是,如果这项突破性技术可以应用于一种比任何人类方言都更基础的语言——生命本身的语言呢?
破译 DNA 的语言
DNA 是所有生物体的蓝图,由核苷酸组成,用字母 A、C、G 和 T 表示。这些核苷酸配对形成标志性的双螺旋结构。在这个结构中存在着基因和调控序列,它们都被整齐地包装成染色体,共同构成了基因组。地球上的每个物种都有一个独特的基因组序列,事实上,一个物种内的每个个体都有自己独特的变异。
虽然同一物种的个体之间的差异相对较小,仅占整个基因组的一小部分,但物种之间的差异要大得多。例如,人类基因组大约包含 30 亿个碱基对。两个随机的人之间的比较显示出大约 300 万个碱基对的差异——仅为 0.1%。然而,当比较人类基因组与我们最近的亲戚黑猩猩的基因组时,差异跃升至大约 3000 万个碱基对,即约 1%。
这些看似微小的差异解释了我们观察到的巨大遗传多样性,不仅在人类之间,而且在整个生命谱系中。近年来,科学家们在对数千个物种的基因组进行测序方面取得了重大进展,稳步提高了我们对这种复杂语言的理解。然而,我们仍然只是触及了其复杂性的表面。
Evo 2:DNA 的 ChatGPT
Arc Institute 的 Evo 2 模型代表了将生成式 AI 应用于生物学领域的重大飞跃。这个最近发布的模型是一项了不起的工程壮举。它接受了惊人的 9.3 万亿 DNA 碱基对的训练,这个数据集来自一个精心策划的基因组图谱,涵盖了所有生命领域。为了更直观地理解,据估计 GPT-4 接受了大约 6.5 万亿个标记的训练,而 Meta 的 LLaMA 3 和 DeepSeek V3 都接受了大约 15 万亿个标记的训练。在训练数据量方面,Evo 2 与领先的语言模型并驾齐驱。
预测突变的影响
Evo 2 的关键能力之一是它能够预测基因内突变的影响。基因通常包含细胞用来构建蛋白质的指令,蛋白质是生命的基本组成部分。这些蛋白质如何折叠成功能结构的复杂过程是另一个复杂的预测挑战,DeepMind 的 AlphaFold 已经出色地解决了这个问题。但是当基因序列发生改变时会发生什么呢?
突变可能产生广泛的后果。有些是灾难性的,导致蛋白质无功能或严重的生长缺陷。另一些是有害的,导致细微但有害的变化。许多突变是中性的,对生物体没有明显的影响。少数甚至可能是有益的,在某些环境中赋予优势。挑战在于确定特定突变属于哪个类别。
这就是 Evo 2 展示其卓越能力的地方。在各种变异预测任务中,它与现有的高度专业化的模型性能相当甚至更胜一筹。这意味着它可以有效地预测哪些突变可能是致病的,或者已知癌症基因(如 BRCA1,与乳腺癌相关)的哪些变异具有临床意义。
更值得注意的是,Evo 2 并没有专门针对人类变异数据进行训练。它的训练完全基于标准的人类参考基因组。然而,它仍然可以准确地推断出哪些突变可能对人类有害。这表明该模型已经学习了控制基因组序列的基本进化约束。它已经理解了不同物种和背景下“正常”DNA 的样子。
从原始数据中学习生物学特征
Evo 2 的能力不仅仅是识别 DNA 序列中的模式。它已经展示了直接从原始训练数据中学习生物学特征的能力,而无需任何明确的编程或指导。这些特征包括:
- **移动遗传元件:**可以在基因组内移动的 DNA 序列。
- **调控基序:**控制基因表达的短序列。
- **蛋白质二级结构:**蛋白质的局部折叠模式。
这是一项真正了不起的成就。这意味着 Evo 2 不仅仅是在读取 DNA 序列;它正在掌握训练数据中没有明确提供的高阶结构信息。这与 ChatGPT 能够生成语法正确的句子而无需明确学习语法规则的方式类似。同样,Evo 2 可以用有效的生物结构完成基因组片段,即使没有被告知什么是基因或蛋白质。
生成新的 DNA 序列
正如 GPT 模型可以生成新文本一样,Evo 2 可以生成全新的 DNA 序列。这为合成生物学领域开辟了令人兴奋的可能性,科学家们的目标是设计和改造生物系统以用于各种应用。
Evo 2 已经被用于生成:
- **线粒体基因组:**线粒体中的 DNA,线粒体是细胞的能量工厂。
- **细菌基因组:**细菌的完整遗传物质。
- **酵母基因组的一部分:**酵母 DNA 的片段,酵母是研究和工业中常用的生物体。
这些能力在设计生物体方面可能具有非常宝贵的价值,可用于:
- **生物制造:**使用工程微生物生产有价值的化合物。
- **碳捕获:**开发能够有效去除大气中二氧化碳的生物体。
- **药物合成:**创建生产药物的新途径。
然而,重要的是要认识到 Evo 2 目前的局限性,就像大型语言模型的早期版本一样。虽然它可以生成生物学上合理的 DNA 序列,但不能保证这些序列在没有实验验证的情况下具有功能。生成新的、功能性的 DNA 仍然是一个重大挑战。但考虑到语言模型从 GPT-3 到 DeepSeek 等更高级模型的快速发展,很容易想象未来生成生物学工具将变得越来越复杂和强大。
开源和快速发展
Evo 2 的一个重要方面是它的开源性质。模型参数、预训练代码、推理代码以及它所训练的完整数据集都是公开可用的。这促进了合作并加速了该领域的进展。
该领域的发展速度也值得注意。Evo 1,Evo 2 的前身,在几个月前的 2024 年 11 月发布。它已经是一项重大成就,在原核生物基因组上进行了训练,拥有大约 3000 亿个标记和 131,000 个碱基对的上下文窗口。然而,它的功能相对有限。
现在,仅仅几个月后,Evo 2 就出现了,训练数据量增加了 30 倍,上下文窗口扩大了 8 倍,并具有全新的功能。这种快速发展反映了我们在语言模型中看到的惊人快速改进,这些模型在短短几年内就从频繁的幻觉转变为以人类水平的能力处理复杂任务。
正如 GPT 模型彻底改变了语言生成一样,这些 DNA 语言模型也有望改变我们对生命密码本身的理解。潜在的应用是广泛而深远的,有望彻底改变从医学到农业再到环境科学的各个领域。生物学的未来从未如此令人兴奋。