Membaca Bahasa DNA
DNA, pelan tindakan semua organisma hidup, terdiri daripada nukleotida, yang diwakili oleh huruf A, C, G, dan T. Nukleotida ini berpasangan untuk membentuk struktur heliks berganda yang ikonik. Di dalam struktur ini terdapat gen dan jujukan pengawalseliaan, semuanya dibungkus dengan kemas ke dalam kromosom, yang secara kolektif membentuk genom. Setiap spesies di Bumi mempunyai jujukan genom yang unik, dan, sebenarnya, setiap individu dalam spesies mempunyai variasi tersendiri.
Walaupun perbezaan antara individu daripada spesies yang sama agak kecil, mewakili hanya sebahagian kecil daripada jumlah genom, variasi antara spesies adalah jauh lebih besar. Sebagai contoh, genom manusia terdiri daripada kira-kira 3 bilion pasangan bes. Perbandingan antara dua manusia rawak mendedahkan perbezaan kira-kira 3 juta pasangan bes – hanya 0.1%. Walau bagaimanapun, apabila membandingkan genom manusia dengan saudara terdekat kita, cimpanzi, perbezaannya melonjak kepada kira-kira 30 juta pasangan bes, atau kira-kira 1%.
Variasi yang kelihatan kecil ini menyumbang kepada kepelbagaian genetik yang luas yang kita perhatikan, bukan sahaja di kalangan manusia tetapi merentasi keseluruhan spektrum kehidupan. Dalam tahun-tahun kebelakangan ini, saintis telah mencapai kemajuan yang ketara dalam penjujukan genom beribu-ribu spesies, terus meningkatkan pemahaman kita tentang bahasa yang rumit ini. Walau bagaimanapun, kita masih baru sahaja mula menggaru permukaan kerumitannya.
Evo 2: ChatGPT untuk DNA
Model Evo 2 Arc Institute mewakili satu lonjakan ketara ke hadapan dalam menggunakan AI generatif ke alam biologi. Model ini, yang dikeluarkan baru-baru ini, adalah satu kejayaan kejuruteraan yang luar biasa. Ia dilatih pada 9.3 trilion pasangan bes DNA yang mengejutkan, set data yang diperoleh daripada atlas genom yang disusun rapi merangkumi semua domain kehidupan. Untuk meletakkan ini dalam perspektif, GPT-4 dianggarkan telah dilatih pada sekitar 6.5 trilion token, manakala LLaMA 3 Meta dan DeepSeek V3 kedua-duanya dilatih pada kira-kira 15 trilion token. Dari segi volum data latihan, Evo 2 berdiri bahu-membahu dengan model bahasa terkemuka.
Meramalkan Kesan Mutasi
Salah satu keupayaan utama Evo 2 ialah keupayaannya untuk meramalkan kesan mutasi dalam gen. Gen biasanya mengandungi arahan yang digunakan oleh sel untuk membina protein, blok binaan asas kehidupan. Proses rumit bagaimana protein ini melipat menjadi struktur berfungsi adalah satu lagi cabaran ramalan yang kompleks, yang terkenal ditangani oleh AlphaFold DeepMind. Tetapi apa yang berlaku apabila urutan gen diubah?
Mutasi boleh mempunyai pelbagai akibat. Sesetengahnya adalah malapetaka, membawa kepada protein yang tidak berfungsi atau kecacatan perkembangan yang teruk. Yang lain berbahaya, menyebabkan perubahan yang halus tetapi memudaratkan. Banyak mutasi adalah neutral, tidak mempunyai kesan yang ketara ke atas organisma. Dan segelintir yang jarang berlaku boleh memberi manfaat, memberikan kelebihan dalam persekitaran tertentu. Cabarannya terletak pada menentukan kategori mana mutasi tertentu jatuh.
Di sinilah Evo 2 menunjukkan kebolehannya yang luar biasa. Dalam pelbagai tugas ramalan varian, ia sepadan atau malah mengatasi prestasi model sedia ada yang sangat khusus. Ini bermakna ia boleh meramalkan mutasi mana yang berkemungkinan patogenik, atau varian gen kanser yang diketahui, seperti BRCA1 (dikaitkan dengan kanser payudara), adalah penting secara klinikal.
Apa yang lebih luar biasa ialah Evo 2 tidak dilatih secara khusus pada data varian manusia. Latihannya adalah berdasarkan semata-mata pada genom rujukan manusia standard. Namun, ia masih boleh membuat kesimpulan dengan tepat mutasi mana yang berkemungkinan berbahaya kepada manusia. Ini menunjukkan bahawa model itu telah mempelajari kekangan evolusi asas yang mengawal jujukan genom. Ia telah membangunkan pemahaman tentang rupa DNA ‘normal’ merentas spesies dan konteks yang berbeza.
Mempelajari Ciri Biologi daripada Data Mentah
Keupayaan Evo 2 melangkaui hanya mengenali corak dalam jujukan DNA. Ia telah menunjukkan keupayaan untuk mempelajari ciri biologi secara langsung daripada data latihan mentah, tanpa sebarang pengaturcaraan atau bimbingan yang jelas. Ciri-ciri ini termasuk:
- Unsur genetik mudah alih: Jujukan DNA yang boleh bergerak di dalam genom.
- Motif pengawalseliaan: Jujukan pendek yang mengawal ekspresi gen.
- Struktur sekunder protein: Corak lipatan tempatan protein.
Ini adalah pencapaian yang benar-benar luar biasa. Ia menandakan bahawa Evo 2 bukan sahaja membaca jujukan DNA; ia memahami maklumat struktur peringkat tinggi yang tidak diberikan secara jelas dalam data latihan. Ini selari dengan cara ChatGPT boleh menjana ayat yang betul dari segi tatabahasa tanpa diajar secara jelas peraturan tatabahasa. Begitu juga, Evo 2 boleh melengkapkan segmen genom dengan struktur biologi yang sah, walaupun tanpa diberitahu apa itu gen atau protein.
Menjana Jujukan DNA Novel
Sama seperti model GPT boleh menjana teks baharu, Evo 2 boleh menjana jujukan DNA yang sama sekali baharu. Ini membuka kemungkinan yang menarik dalam bidang biologi sintetik, di mana saintis berhasrat untuk mereka bentuk dan merekayasa sistem biologi untuk pelbagai aplikasi.
Evo 2 telah pun digunakan untuk menjana:
- Genom mitokondria: DNA yang terdapat dalam mitokondria, kuasa sel.
- Genom bakteria: Bahan genetik lengkap bakteria.
- Bahagian genom yis: Bahagian DNA yis, organisma yang biasa digunakan dalam penyelidikan dan industri.
Keupayaan ini boleh menjadi sangat berharga dalam mereka bentuk organisma untuk:
- Biopembuatan: Menghasilkan sebatian berharga menggunakan mikrob tereka bentuk.
- Penangkapan karbon: Membangunkan organisma yang boleh mengeluarkan karbon dioksida daripada atmosfera dengan cekap.
- Sintesis ubat: Mencipta laluan baharu untuk menghasilkan farmaseutikal.
Walau bagaimanapun, adalah penting untuk mengakui batasan semasa Evo 2, sama seperti versi awal model bahasa besar. Walaupun ia boleh menjana jujukan DNA yang munasabah secara biologi, tiada jaminan bahawa jujukan ini akan berfungsi tanpa pengesahan eksperimen. Menjana DNA novel dan berfungsi kekal sebagai cabaran yang ketara. Tetapi memandangkan kemajuan pesat dalam model bahasa, daripada GPT-3 kepada model yang lebih maju seperti DeepSeek, adalah mudah untuk membayangkan masa depan di mana alat biologi generatif menjadi semakin canggih dan berkuasa.
Sumber Terbuka dan Kemajuan Pantas
Aspek penting Evo 2 ialah sifat sumber terbukanya. Parameter model, kod pra-latihan, kod inferens dan set data lengkap yang dilatih semuanya tersedia secara umum. Ini memupuk kerjasama dan mempercepatkan kemajuan dalam bidang tersebut.
Kepantasan pembangunan dalam bidang ini juga perlu diberi perhatian. Evo 1, pendahulu kepada Evo 2, telah dikeluarkan hanya beberapa bulan sebelum ini, pada November 2024. Ia sudah menjadi pencapaian yang ketara, dilatih pada genom prokariotik dengan sekitar 300 bilion token dan tetingkap konteks 131,000 pasangan bes. Walau bagaimanapun, fungsinya agak terhad.
Kini, hanya beberapa bulan kemudian, Evo 2 telah tiba, dengan peningkatan 30 kali ganda dalam saiz data latihan, pengembangan lapan kali ganda tetingkap konteks, dan keupayaan yang sama sekali baharu. Evolusi pesat ini mencerminkan peningkatan yang sangat pantas yang telah kita lihat dalam model bahasa, yang beralih daripada halusinasi yang kerap kepada menangani tugas yang kompleks pada tahap kecekapan manusia dalam masa beberapa tahun sahaja.
Sama seperti model GPT merevolusikan penjanaan bahasa, model bahasa DNA ini bersedia untuk mengubah pemahaman kita tentang kod kehidupan itu sendiri. Aplikasi yang berpotensi adalah luas dan meluas, menjanjikan untuk merevolusikan bidang yang terdiri daripada perubatan kepada pertanian kepada sains alam sekitar. Masa depan biologi tidak pernah kelihatan lebih menarik.