Memecahkan Bahasa DNA
DNA, cetak biru dari semua organisme hidup, terdiri dari nukleotida, yang diwakili oleh huruf A, C, G, dan T. Nukleotida ini berpasangan untuk membentuk struktur heliks ganda yang ikonik. Di dalam struktur ini terdapat gen dan sekuens regulator, semuanya dikemas rapi ke dalam kromosom, yang secara kolektif membentuk genom. Setiap spesies di Bumi memiliki sekuens genom yang unik, dan, pada kenyataannya, setiap individu dalam suatu spesies memiliki variasi yang berbeda.
Sementara perbedaan antara individu dari spesies yang sama relatif kecil, hanya mewakili sebagian kecil dari total genom, variasi antar spesies jauh lebih substansial. Misalnya, genom manusia terdiri dari sekitar 3 miliar pasangan basa. Perbandingan antara dua manusia acak mengungkapkan perbedaan sekitar 3 juta pasangan basa – hanya 0,1%. Namun, ketika membandingkan genom manusia dengan kerabat terdekat kita, simpanse, perbedaannya melonjak menjadi sekitar 30 juta pasangan basa, atau sekitar 1%.
Variasi yang tampaknya kecil ini menjelaskan keanekaragaman genetik yang luas yang kita amati, tidak hanya di antara manusia tetapi di seluruh spektrum kehidupan. Dalam beberapa tahun terakhir, para ilmuwan telah membuat langkah signifikan dalam mengurutkan genom ribuan spesies, terus meningkatkan pemahaman kita tentang bahasa yang rumit ini. Namun, kita baru mulai menggores permukaan kompleksitasnya.
Evo 2: ChatGPT untuk DNA
Model Evo 2 dari Arc Institute mewakili lompatan signifikan dalam menerapkan AI generatif ke ranah biologi. Model ini, yang dirilis baru-baru ini, merupakan prestasi rekayasa yang luar biasa. Model ini dilatih pada 9,3 triliun pasangan basa DNA yang mencengangkan, sebuah dataset yang berasal dari atlas genom yang dikurasi dengan cermat yang mencakup semua domain kehidupan. Sebagai perbandingan, GPT-4 diperkirakan telah dilatih pada sekitar 6,5 triliun token, sementara LLaMA 3 Meta dan DeepSeek V3 keduanya dilatih pada sekitar 15 triliun token. Dalam hal volume data pelatihan, Evo 2 berdiri bahu-membahu dengan model bahasa terkemuka.
Memprediksi Dampak Mutasi
Salah satu kemampuan utama Evo 2 adalah kemampuannya untuk memprediksi efek mutasi dalam gen. Gen biasanya berisi instruksi yang digunakan sel untuk membangun protein, blok bangunan dasar kehidupan. Proses rumit tentang bagaimana protein ini melipat menjadi struktur fungsional adalah tantangan prediksi kompleks lainnya, yang terkenal ditangani oleh AlphaFold DeepMind. Tapi apa yang terjadi ketika urutan gen diubah?
Mutasi dapat memiliki berbagai konsekuensi. Beberapa bersifat katastropik, menyebabkan protein non-fungsional atau cacat perkembangan yang parah. Yang lain berbahaya, menyebabkan perubahan halus namun merugikan. Banyak mutasi bersifat netral, tidak memiliki efek yang terlihat pada organisme. Dan beberapa yang langka bahkan bisa bermanfaat, memberikan keuntungan dalam lingkungan tertentu. Tantangannya terletak pada penentuan kategori mana yang menjadi tempat mutasi tertentu.
Di sinilah Evo 2 menunjukkan kemampuannya yang luar biasa. Dalam berbagai tugas prediksi varian, ia cocok atau bahkan melampaui kinerja model yang ada dan sangat terspesialisasi. Ini berarti ia dapat secara efektif memprediksi mutasi mana yang mungkin patogen, atau varian gen kanker yang diketahui, seperti BRCA1 (terkait dengan kanker payudara), yang signifikan secara klinis.
Yang lebih luar biasa adalah bahwa Evo 2 tidak dilatih secara khusus pada data varian manusia. Pelatihannya hanya didasarkan pada genom referensi manusia standar. Namun, ia masih dapat secara akurat menyimpulkan mutasi mana yang mungkin berbahaya pada manusia. Ini menunjukkan bahwa model tersebut telah mempelajari kendala evolusi fundamental yang mengatur sekuens genom. Ia telah mengembangkan pemahaman tentang seperti apa DNA ‘normal’ di berbagai spesies dan konteks.
Mempelajari Fitur Biologis dari Data Mentah
Kemampuan Evo 2 lebih dari sekadar mengenali pola dalam sekuens DNA. Ia telah menunjukkan kemampuan untuk mempelajari fitur biologis langsung dari data pelatihan mentah, tanpa pemrograman atau panduan eksplisit apa pun. Fitur-fitur ini meliputi:
- Elemen genetik bergerak: Sekuens DNA yang dapat bergerak di dalam genom.
- Motif regulator: Sekuens pendek yang mengontrol ekspresi gen.
- Struktur sekunder protein: Pola pelipatan lokal protein.
Ini adalah pencapaian yang benar-benar luar biasa. Ini menandakan bahwa Evo 2 tidak hanya membaca sekuens DNA; ia memahami informasi struktural tingkat tinggi yang tidak secara eksplisit disediakan dalam data pelatihan. Ini sejajar dengan cara ChatGPT dapat menghasilkan kalimat yang benar secara tata bahasa tanpa diajari aturan tata bahasa secara eksplisit. Demikian pula, Evo 2 dapat melengkapi segmen genom dengan struktur biologis yang valid, bahkan tanpa diberitahu apa itu gen atau protein.
Menghasilkan Sekuens DNA Baru
Sama seperti model GPT dapat menghasilkan teks baru, Evo 2 dapat menghasilkan sekuens DNA yang sama sekali baru. Ini membuka kemungkinan menarik di bidang biologi sintetik, di mana para ilmuwan bertujuan untuk merancang dan merekayasa sistem biologis untuk berbagai aplikasi.
Evo 2 telah digunakan untuk menghasilkan:
- Genom mitokondria: DNA yang ditemukan di mitokondria, pembangkit tenaga sel.
- Genom bakteri: Materi genetik lengkap bakteri.
- Bagian dari genom ragi: Bagian dari DNA ragi, organisme yang umum digunakan dalam penelitian dan industri.
Kemampuan ini bisa sangat berharga dalam merancang organisme untuk:
- Biomanufaktur: Memproduksi senyawa berharga menggunakan mikroba rekayasa.
- Penangkapan karbon: Mengembangkan organisme yang dapat secara efisien menghilangkan karbon dioksida dari atmosfer.
- Sintesis obat: Menciptakan jalur baru untuk memproduksi obat-obatan.
Namun, penting untuk mengakui keterbatasan Evo 2 saat ini, seperti versi awal model bahasa besar. Meskipun dapat menghasilkan sekuens DNA yang masuk akal secara biologis, tidak ada jaminan bahwa sekuens ini akan berfungsi tanpa validasi eksperimental. Menghasilkan DNA baru yang fungsional tetap menjadi tantangan yang signifikan. Tetapi mengingat kemajuan pesat dalam model bahasa, dari GPT-3 ke model yang lebih maju seperti DeepSeek, mudah untuk membayangkan masa depan di mana alat biologi generatif menjadi semakin canggih dan kuat.
Sumber Terbuka dan Kemajuan Pesat
Aspek penting dari Evo 2 adalah sifatnya yang open-source. Parameter model, kode pretraining, kode inferensi, dan dataset lengkap yang dilatih semuanya tersedia untuk umum. Ini mendorong kolaborasi dan mempercepat kemajuan di lapangan.
Kecepatan perkembangan di bidang ini juga patut diperhatikan. Evo 1, pendahulu Evo 2, dirilis hanya beberapa bulan sebelumnya, pada November 2024. Itu sudah merupakan pencapaian yang signifikan, dilatih pada genom prokariotik dengan sekitar 300 miliar token dan jendela konteks 131.000 pasangan basa. Namun, fungsinya relatif terbatas.
Sekarang, hanya beberapa bulan kemudian, Evo 2 telah tiba, membanggakan peningkatan 30 kali lipat dalam ukuran data pelatihan, perluasan delapan kali lipat dari jendela konteks, dan kemampuan yang sama sekali baru. Evolusi yang cepat ini mencerminkan peningkatan yang sangat cepat yang telah kita lihat dalam model bahasa, yang bertransisi dari sering berhalusinasi ke menangani tugas-tugas kompleks pada tingkat kemahiran manusia hanya dalam beberapa tahun.
Sama seperti model GPT merevolusi pembuatan bahasa, model bahasa DNA ini siap untuk mengubah pemahaman kita tentang kode kehidupan itu sendiri. Aplikasi potensialnya sangat luas dan menjangkau jauh, menjanjikan untuk merevolusi bidang-bidang mulai dari kedokteran hingga pertanian hingga ilmu lingkungan. Masa depan biologi tidak pernah terlihat lebih menarik.