DNA Dilini Çözmek
ChatGPT gibi araçlarla örneklendirilen üretken yapay zekânın gelişi, teknolojiyle etkileşim biçimimizde devrim yarattı. Bu modellerin gücünün özünde, bir kelime veya bir kelimenin bir parçası olsun, bir dizideki bir sonraki belirteci tahmin etme yetenekleri yatar. Bu görünüşte basit görev, büyütüldüğünde ve geliştirildiğinde, tutarlı ve bağlamsal olarak alakalı metinlerin üretilmesini sağlar. Peki ya bu çığır açan teknoloji, herhangi bir insan lehçesinden çok daha temel bir dile - yaşamın diline - uygulanabilseydi?
DNA, tüm canlı organizmaların planı, A, C, G ve T harfleriyle temsil edilen nükleotidlerden oluşur. Bu nükleotidler, ikonik çift sarmal yapıyı oluşturmak için eşleşirler. Bu yapı içinde, hepsi genomu oluşturan kromozomlar halinde düzgün bir şekilde paketlenmiş genler ve düzenleyici diziler bulunur. Dünyadaki her türün benzersiz bir genomik dizisi vardır ve aslında bir tür içindeki her bireyin kendi farklı varyasyonu vardır.
Aynı türün bireyleri arasındaki farklılıklar, toplam genomun yalnızca küçük bir kısmını temsil eden nispeten küçük olsa da, türler arasındaki varyasyonlar çok daha önemlidir. Örneğin, insan genomu kabaca 3 milyar baz çiftinden oluşur. Rastgele iki insan arasındaki bir karşılaştırma, yaklaşık 3 milyon baz çiftlik bir fark ortaya koyuyor - sadece %0,1. Bununla birlikte, insan genomunu en yakın akrabamız olan şempanzeninkiyle karşılaştırırken, fark yaklaşık 30 milyon baz çiftine veya yaklaşık %1’e yükseliyor.
Bu görünüşte küçük varyasyonlar, yalnızca insanlar arasında değil, tüm yaşam yelpazesinde gözlemlediğimiz geniş genetik çeşitliliği açıklar. Son yıllarda, bilim adamları binlerce türün genomlarını dizilemede önemli adımlar attılar ve bu karmaşık dili anlamamızı istikrarlı bir şekilde geliştirdiler. Ancak, karmaşıklığının yüzeyini daha yeni kazımaya başlıyoruz.
Evo 2: DNA için bir ChatGPT
Arc Institute’un Evo 2 modeli, üretken yapay zekânın biyoloji alanına uygulanmasında önemli bir sıçramayı temsil ediyor. Yakın zamanda yayınlanan bu model, mühendisliğin dikkate değer bir başarısıdır. Yaşamın tüm alanlarını kapsayan, özenle seçilmiş bir genomik atlastan türetilen şaşırtıcı bir 9,3 trilyon DNA baz çifti veri kümesi üzerinde eğitildi. Bunu perspektife koymak gerekirse, GPT-4’ün yaklaşık 6,5 trilyon belirteç üzerinde eğitildiği tahmin edilirken, Meta’nın LLaMA 3 ve DeepSeek V3’ü yaklaşık 15 trilyon belirteç üzerinde eğitildi. Eğitim verisi hacmi açısından Evo 2, önde gelen dil modelleriyle omuz omuzadır.
Mutasyonların Etkisini Tahmin Etmek
Evo 2’nin temel yeteneklerinden biri, bir gen içindeki mutasyonların etkilerini tahmin etme yeteneğidir. Genler tipik olarak hücrelerin yaşamın temel yapı taşları olan proteinleri inşa etmek için kullandığı talimatları içerir. Bu proteinlerin işlevsel yapılara nasıl katlandığına dair karmaşık süreç, DeepMind’ın AlphaFold’u tarafından ünlü bir şekilde ele alınan bir başka karmaşık tahmin sorunudur. Peki bir genin dizisi değiştiğinde ne olur?
Mutasyonların çok çeşitli sonuçları olabilir. Bazıları felakettir, işlevsel olmayan proteinlere veya ciddi gelişimsel kusurlara yol açar. Diğerleri zararlıdır, ince ama zararlı değişikliklere neden olur. Birçok mutasyon nötrdür, organizma üzerinde fark edilebilir bir etkisi yoktur. Ve nadir görülen birkaçı, belirli ortamlarda bir avantaj sağlayarak faydalı bile olabilir. Zorluk, belirli bir mutasyonun hangi kategoriye girdiğini belirlemekte yatmaktadır.
İşte Evo 2’nin dikkate değer yeteneklerini gösterdiği yer burasıdır. Çeşitli varyant tahmin görevlerinde, mevcut, son derece uzmanlaşmış modellerin performansını eşleştirir ve hatta aşar. Bu, hangi mutasyonların patojenik olma olasılığının yüksek olduğunu veya BRCA1 (meme kanseri ile ilişkili) gibi bilinen kanser genlerinin hangi varyantlarının klinik olarak önemli olduğunu etkili bir şekilde tahmin edebileceği anlamına gelir.
Daha da dikkat çekici olan şey, Evo 2’nin insan varyant verileri üzerinde özel olarak eğitilmemiş olmasıdır. Eğitimi yalnızca standart insan referans genomuna dayanıyordu. Yine de, insanlarda hangi mutasyonların zararlı olma olasılığının yüksek olduğunu doğru bir şekilde çıkarabilir. Bu, modelin genomik dizileri yöneten temel evrimsel kısıtlamaları öğrendiğini göstermektedir. Farklı türler ve bağlamlarda ‘normal’ DNA’nın neye benzediğine dair bir anlayış geliştirmiştir.
Ham Verilerden Biyolojik Özellikleri Öğrenmek
Evo 2’nin yetenekleri, DNA dizilerindeki kalıpları tanımaktan öteye uzanır. Herhangi bir açık programlama veya rehberlik olmaksızın, doğrudan ham eğitim verilerinden biyolojik özellikleri öğrenme yeteneğini göstermiştir. Bu özellikler şunları içerir:
- Mobil genetik elementler: Genom içinde hareket edebilen DNA dizileri.
- Düzenleyici motifler: Gen ekspresyonunu kontrol eden kısa diziler.
- Protein ikincil yapısı: Proteinlerin yerel katlanma modelleri.
Bu gerçekten dikkate değer bir başarıdır. Evo 2’nin sadece DNA dizilerini okumadığını; eğitim verilerinde açıkça sağlanmayan daha yüksek dereceli yapısal bilgileri kavradığını gösterir. Bu, ChatGPT’nin dilbilgisi kuralları açıkça öğretilmeden dilbilgisi açısından doğru cümleler üretebilme şekline paraleldir. Benzer şekilde, Evo 2, bir genin veya bir proteinin ne olduğu söylenmeden bile, bir genom segmentini geçerli bir biyolojik yapıyla tamamlayabilir.
Yeni DNA Dizileri Oluşturmak
GPT modellerinin yeni metinler üretebildiği gibi, Evo 2 de tamamen yeni DNA dizileri üretebilir. Bu, bilim adamlarının çeşitli uygulamalar için biyolojik sistemler tasarlamayı ve mühendisliğini yapmayı amaçladığı sentetik biyoloji alanında heyecan verici olasılıklar açar.
Evo 2, şunları üretmek için zaten kullanılmıştır:
- Mitokondriyal genomlar: Hücrelerin güç merkezleri olan mitokondrilerde bulunan DNA.
- Bakteriyel genomlar: Bakterilerin tam genetik materyali.
- Maya genomlarının parçaları: Araştırma ve endüstride yaygın olarak kullanılan bir organizma olan mayanın DNA’sının bölümleri.
Bu yetenekler, aşağıdakiler için organizmalar tasarlamada paha biçilmez olabilir:
- Biyolojik üretim: Mühendislik ürünü mikroplar kullanarak değerli bileşikler üretmek.
- Karbon yakalama: Atmosferden karbondioksiti verimli bir şekilde uzaklaştırabilen organizmalar geliştirmek.
- İlaç sentezi: İlaç üretimi için yeni yollar oluşturmak.
Bununla birlikte, büyük dil modellerinin ilk sürümleri gibi, Evo 2’nin mevcut sınırlamalarını kabul etmek önemlidir. Biyolojik olarak makul DNA dizileri üretebilse de, bu dizilerin deneysel doğrulama olmadan işlevsel olacağının garantisi yoktur. Yeni, işlevsel DNA üretmek önemli bir zorluk olmaya devam ediyor. Ancak, GPT-3’ten DeepSeek gibi daha gelişmiş modellere kadar dil modellerindeki hızlı ilerleme göz önüne alındığında, üretken biyoloji araçlarının giderek daha karmaşık ve güçlü hale geldiği bir geleceği hayal etmek kolaydır.
Açık Kaynak ve Hızlı Gelişme
Evo 2’nin önemli bir yönü, açık kaynaklı doğasıdır. Model parametreleri, ön eğitim kodu, çıkarım kodu ve üzerinde eğitildiği tam veri kümesi herkese açıktır. Bu, işbirliğini teşvik eder ve alandaki ilerlemeyi hızlandırır.
Bu alandaki gelişme hızı da dikkate değerdir. Evo 2’nin selefi olan Evo 1, sadece birkaç ay önce, Kasım 2024’te piyasaya sürüldü. Prokaryotik genomlar üzerinde yaklaşık 300 milyar belirteç ve 131.000 baz çiftlik bir bağlam penceresi ile eğitilmiş, zaten önemli bir başarıydı. Ancak, işlevselliği nispeten sınırlıydı.
Şimdi, sadece aylar sonra, Evo 2, eğitim verisi boyutunda 30 kat artış, bağlam penceresinde sekiz kat genişleme ve tamamen yeni yeteneklerle geldi. Bu hızlı evrim, dil modellerinde gördüğümüz şaşırtıcı derecede hızlı iyileşmeleri yansıtıyor; bu modeller, sık sık halüsinasyonlardan sadece birkaç yıl içinde karmaşık görevleri insan düzeyinde yeterlilikle ele almaya geçti.
GPT modellerinin dil üretiminde devrim yarattığı gibi, bu DNA dili modelleri de yaşamın kodunu anlama biçimimizi dönüştürmeye hazırlanıyor. Potansiyel uygulamalar geniş ve geniş kapsamlıdır, tıptan tarıma ve çevre bilimine kadar uzanan alanlarda devrim yaratmayı vaat ediyor. Biyolojinin geleceği hiç bu kadar heyecan verici görünmemişti.