以 ChatGPT 為代表的生成式 AI 的出現,徹底改變了我們與科技互動的方式。這些模型的核心力量在於它們能夠預測序列中的下一個 token,無論是單字還是單字的一部分。這個看似簡單的任務,在規模化和精細化之後,可以生成連貫且符合上下文的文本。但是,如果這項突破性的技術可以應用於一種比任何人類方言都更為基礎的語言——生命本身的語言呢?
解讀 DNA 的語言
DNA 是所有生物體的藍圖,由核苷酸組成,以字母 A、C、G 和 T 表示。這些核苷酸配對形成標誌性的雙螺旋結構。在這個結構中存在著基因和調控序列,它們都被整齊地包裝成染色體,共同構成了基因組。地球上的每個物種都擁有獨特的基因組序列,事實上,每個物種內的每個個體都有其獨特的變異。
雖然同一物種個體之間的差異相對較小,僅佔整個基因組的一小部分,但物種之間的差異卻大得多。例如,人類基因組大約包含 30 億個鹼基對。比較兩個隨機的人,會發現大約 300 萬個鹼基對的差異——僅為 0.1%。然而,當比較人類基因組與我們最親近的親戚黑猩猩的基因組時,差異會躍升至大約 3000 萬個鹼基對,約為 1%。
這些看似微小的差異,不僅解釋了我們在人類之間觀察到的巨大遺傳多樣性,也解釋了整個生命範圍內的遺傳多樣性。近年來,科學家們在數千個物種的基因組測序方面取得了重大進展,穩步提高了我們對這種複雜語言的理解。然而,我們仍然只是觸及了其複雜性的表面。
Evo 2:DNA 的 ChatGPT
Arc Institute 的 Evo 2 模型代表了將生成式 AI 應用於生物學領域的重大飛躍。這個最近發布的模型,是一項了不起的工程壯舉。它接受了驚人的 9.3 兆 DNA 鹼基對的訓練,這個數據集來自一個精心策劃的基因組圖譜,涵蓋了所有生命領域。為了更直觀地理解,GPT-4 估計接受了約 6.5 兆 token 的訓練,而 Meta 的 LLaMA 3 和 DeepSeek V3 都接受了約 15 兆 token 的訓練。就訓練數據量而言,Evo 2 與領先的語言模型並駕齊驅。
預測突變的影響
Evo 2 的關鍵能力之一是它能夠預測基因內突變的影響。基因通常包含細胞用來構建蛋白質的指令,蛋白質是生命的基本組成部分。這些蛋白質如何摺疊成功能結構的複雜過程是另一個複雜的預測挑戰,DeepMind 的 AlphaFold 著名地解決了這個問題。但是當基因序列發生改變時會發生什麼呢?
突變可能產生廣泛的後果。有些是災難性的,導致蛋白質無功能或嚴重的發育缺陷。有些是有害的,會導致細微但有害的變化。許多突變是中性的,對生物體沒有明顯的影響。還有少數甚至可能是有益的,在某些環境中賦予優勢。挑戰在於確定特定突變屬於哪個類別。
這就是 Evo 2 展示其卓越能力的地方。在各種變異預測任務中,它與現有的高度專業化模型的性能相當,甚至超越了它們。這意味著它可以有效地預測哪些突變可能是致病的,或者已知癌症基因(如 BRCA1,與乳腺癌相關)的哪些變異具有臨床意義。
更了不起的是,Evo 2 並沒有專門針對人類變異數據進行訓練。它的訓練僅基於標準的人類參考基因組。然而,它仍然可以準確地推斷出哪些突變可能對人類有害。這表明該模型已經學習了控制基因組序列的基本進化約束。它已經發展出對不同物種和環境中’正常’ DNA 樣子的理解。
從原始數據中學習生物學特徵
Evo 2 的能力不僅僅是識別 DNA 序列中的模式。它已經展示了直接從原始訓練數據中學習生物學特徵的能力,而無需任何明確的編程或指導。這些特徵包括:
- **移動遺傳元件:**可以在基因組內移動的 DNA 序列。
- **調控基序:**控制基因表達的短序列。
- **蛋白質二級結構:**蛋白質的局部摺疊模式。
這是一項真正了不起的成就。這意味著 Evo 2 不僅僅是在讀取 DNA 序列;它正在掌握未在訓練數據中明確提供的高階結構信息。這與 ChatGPT 可以在沒有明確學習語法規則的情況下生成語法正確的句子的方式相似。同樣,Evo 2 可以在沒有被告知基因或蛋白質是什麼的情況下,用有效的生物結構完成基因組片段。
生成新的 DNA 序列
正如 GPT 模型可以生成新文本一樣,Evo 2 可以生成全新的 DNA 序列。這為合成生物學領域開闢了令人興奮的可能性,科學家們旨在設計和工程化生物系統以用於各種應用。
Evo 2 已經被用於生成:
- **線粒體基因組:**線粒體中發現的 DNA,線粒體是細胞的能量工廠。
- **細菌基因組:**細菌的完整遺傳物質。
- **酵母基因組的一部分:**酵母 DNA 的片段,酵母是研究和工業中常用的生物體。
這些能力在設計生物體方面可能具有無價的價值,可用於:
- **生物製造:**使用工程微生物生產有價值的化合物。
- **碳捕獲:**開發能夠有效去除大氣中二氧化碳的生物體。
- **藥物合成:**創建生產藥物的新途徑。
然而,重要的是要承認 Evo 2 目前的局限性,就像早期版本的大型語言模型一樣。雖然它可以生成生物學上合理的 DNA 序列,但不能保證這些序列在沒有實驗驗證的情況下具有功能。生成新的、功能性的 DNA 仍然是一個重大挑戰。但考慮到語言模型從 GPT-3 到 DeepSeek 等更高級模型的快速發展,很容易設想未來生成生物學工具將變得越來越複雜和強大。
開源和快速發展
Evo 2 的一個重要方面是它的開源性質。模型參數、預訓練代碼、推理代碼以及它所訓練的完整數據集都是公開可用的。這促進了合作並加速了該領域的進展。
這個領域的發展速度也值得注意。Evo 1,Evo 2 的前身,僅在幾個月前的 2024 年 11 月發布。它已經是一項重大成就,在原核生物基因組上進行了約 3000 億 token 的訓練,上下文窗口為 131,000 個鹼基對。然而,它的功能相對有限。
現在,僅僅幾個月後,Evo 2 就已經問世,其訓練數據大小增加了 30 倍,上下文窗口擴大了 8 倍,並具有全新的功能。這種快速的演變反映了我們在語言模型中看到的驚人快速的改進,這些模型在短短幾年內就從頻繁的幻覺轉變為以人類水平的能力處理複雜任務。
正如 GPT 模型徹底改變了語言生成一樣,這些 DNA 語言模型也有望改變我們對生命密碼本身的理解。潛在的應用是廣泛而深遠的,有望徹底改變從醫學到農業再到環境科學的各個領域。生物學的未來從未如此令人興奮。
生成式AI的快速進步現在正被應用於最基礎的密碼。這種快速進步正反映出大型語言模型的進展。