Entschlüsselung der Sprache der DNA
DNA, der Bauplan aller lebenden Organismen, besteht aus Nukleotiden, die durch die Buchstaben A, C, G und T dargestellt werden. Diese Nukleotide paaren sich und bilden die ikonische Doppelhelixstruktur. Innerhalb dieser Struktur liegen Gene und regulatorische Sequenzen, die alle ordentlich in Chromosomen verpackt sind, welche zusammen das Genom bilden. Jede Art auf der Erde besitzt eine einzigartige Genomsequenz, und tatsächlich hat jedes Individuum innerhalb einer Art seine eigene, unterschiedliche Variation.
Während die Unterschiede zwischen Individuen derselben Art relativ gering sind und nur einen Bruchteil des gesamten Genoms ausmachen, sind die Variationen zwischen den Arten weitaus größer. Das menschliche Genom umfasst beispielsweise etwa 3 Milliarden Basenpaare. Ein Vergleich zwischen zwei zufälligen Menschen zeigt einen Unterschied von etwa 3 Millionen Basenpaaren – lediglich 0,1 %. Vergleicht man jedoch das menschliche Genom mit dem unseres nächsten Verwandten, dem Schimpansen, steigt der Unterschied auf etwa 30 Millionen Basenpaare, also etwa 1 %.
Diese scheinbar kleinen Variationen sind für die enorme genetische Vielfalt verantwortlich, die wir nicht nur beim Menschen, sondern im gesamten Spektrum des Lebens beobachten. In den letzten Jahren haben Wissenschaftler bedeutende Fortschritte bei der Sequenzierung der Genome Tausender Arten gemacht und unser Verständnis dieser komplexen Sprache stetig verbessert. Allerdings kratzen wir immer noch nur an der Oberfläche ihrer Komplexität.
Evo 2: Ein ChatGPT für DNA
Das Evo 2-Modell des Arc Institute stellt einen bedeutenden Fortschritt bei der Anwendung generativer KI im Bereich der Biologie dar. Dieses kürzlich veröffentlichte Modell ist eine bemerkenswerte technische Leistung. Es wurde mit erstaunlichen 9,3 Billionen DNA-Basenpaaren trainiert, einem Datensatz, der aus einem sorgfältig kuratierten Genomatlas stammt, der alle Bereiche des Lebens umfasst. Um dies ins rechte Licht zu rücken: GPT-4 wurde schätzungsweise mit rund 6,5 Billionen Token trainiert, während Metas LLaMA 3 und DeepSeek V3 beide mit etwa 15 Billionen Token trainiert wurden. In Bezug auf das Trainingsdatenvolumen steht Evo 2 den führenden Sprachmodellen in nichts nach.
Vorhersage der Auswirkungen von Mutationen
Eine der wichtigsten Fähigkeiten von Evo 2 ist seine Fähigkeit, die Auswirkungen von Mutationen innerhalb eines Gens vorherzusagen. Gene enthalten typischerweise die Anweisungen, die Zellen verwenden, um Proteine zu konstruieren, die Grundbausteine des Lebens. Der komplizierte Prozess, wie sich diese Proteine zu funktionalen Strukturen falten, ist eine weitere komplexe Vorhersageherausforderung, die bekanntermaßen von DeepMinds AlphaFold angegangen wird. Aber was passiert, wenn die Sequenz eines Gens verändert wird?
Mutationen können eine Vielzahl von Folgen haben. Einige sind katastrophal und führen zu nicht-funktionalen Proteinen oder schweren Entwicklungsstörungen. Andere sind schädlich und verursachen subtile, aber nachteilige Veränderungen. Viele Mutationen sind neutral und haben keine erkennbare Wirkung auf den Organismus. Und einige wenige können sogar vorteilhaft sein und in bestimmten Umgebungen einen Vorteil verschaffen. Die Herausforderung besteht darin, zu bestimmen, in welche Kategorie eine bestimmte Mutation fällt.
Hier zeigt Evo 2 seine bemerkenswerten Fähigkeiten. In einer Vielzahl von Varianten-Vorhersageaufgaben erreicht oder übertrifft es sogar die Leistung bestehender, hochspezialisierter Modelle. Das bedeutet, dass es effektiv vorhersagen kann, welche Mutationen wahrscheinlich pathogen sind oder welche Varianten bekannter Krebsgene, wie BRCA1 (assoziiert mit Brustkrebs), klinisch signifikant sind.
Noch bemerkenswerter ist, dass Evo 2 nicht speziell mit menschlichen Variantendaten trainiert wurde. Sein Training basierte ausschließlich auf dem Standard-Referenzgenom des Menschen. Dennoch kann es immer noch genau ableiten, welche Mutationen beim Menschen wahrscheinlich schädlich sind. Dies deutet darauf hin, dass das Modell die grundlegenden evolutionären Zwänge gelernt hat, die Genomsequenzen bestimmen. Es hat ein Verständnis dafür entwickelt, wie ‘normale’ DNA in verschiedenen Arten und Kontexten aussieht.
Lernen biologischer Merkmale aus Rohdaten
Die Fähigkeiten von Evo 2 gehen über das bloße Erkennen von Mustern in DNA-Sequenzen hinaus. Es hat die Fähigkeit bewiesen, biologische Merkmale direkt aus den rohen Trainingsdaten zu lernen, ohne explizite Programmierung oder Anleitung. Zu diesen Merkmalen gehören:
- Mobile genetische Elemente: DNA-Sequenzen, die sich innerhalb des Genoms bewegen können.
- Regulatorische Motive: Kurze Sequenzen, die die Genexpression steuern.
- Protein-Sekundärstruktur: Die lokalen Faltungsmuster von Proteinen.
Dies ist eine wirklich bemerkenswerte Leistung. Es bedeutet, dass Evo 2 nicht nur DNA-Sequenzen liest, sondern auch Strukturinformationen höherer Ordnung erfasst, die in den Trainingsdaten nicht explizit bereitgestellt wurden. Dies ähnelt der Art und Weise, wie ChatGPT grammatikalisch korrekte Sätze generieren kann, ohne dass ihm explizit Grammatikregeln beigebracht wurden. Ebenso kann Evo 2 ein Segment eines Genoms mit einer gültigen biologischen Struktur vervollständigen, auch ohne dass ihm gesagt wird, was ein Gen oder ein Protein ist.
Generierung neuartiger DNA-Sequenzen
So wie GPT-Modelle neuen Text generieren können, kann Evo 2 völlig neue DNA-Sequenzen generieren. Dies eröffnet spannende Möglichkeiten im Bereich der synthetischen Biologie, wo Wissenschaftler darauf abzielen, biologische Systeme für verschiedene Anwendungen zu entwerfen und zu entwickeln.
Evo 2 wurde bereits verwendet, um Folgendes zu generieren:
- Mitochondriale Genome: Die DNA, die in Mitochondrien, den Kraftwerken der Zellen, gefunden wird.
- Bakterielle Genome: Das gesamte genetische Material von Bakterien.
- Teile von Hefegenomen: Abschnitte der DNA von Hefe, einem häufig verwendeten Organismus in Forschung und Industrie.
Diese Fähigkeiten könnten bei der Entwicklung von Organismen für folgende Zwecke von unschätzbarem Wert sein:
- Bioproduktion: Herstellung wertvoller Verbindungen mit Hilfe von gentechnisch veränderten Mikroben.
- Kohlenstoffabscheidung: Entwicklung von Organismen, die Kohlendioxid effizient aus der Atmosphäre entfernen können.
- Arzneimittelsynthese: Schaffung neuer Wege zur Herstellung von Pharmazeutika.
Es ist jedoch wichtig, die aktuellen Einschränkungen von Evo 2 anzuerkennen, ähnlich wie bei den frühen Versionen großer Sprachmodelle. Obwohl es biologisch plausible DNA-Sequenzen generieren kann, gibt es keine Garantie dafür, dass diese Sequenzen ohne experimentelle Validierung funktionsfähig sind. Die Generierung neuartiger, funktionaler DNA bleibt eine große Herausforderung. Aber angesichts der rasanten Fortschritte bei Sprachmodellen, von GPT-3 bis hin zu fortschrittlicheren Modellen wie DeepSeek, ist es leicht, sich eine Zukunft vorzustellen, in der generative Biologie-Tools immer ausgefeilter und leistungsfähiger werden.
Open-Source und rasante Entwicklung
Ein wesentlicher Aspekt von Evo 2 ist seine Open-Source-Natur. Die Modellparameter, der Vortrainingscode, der Inferenzcode und der vollständige Datensatz, mit dem es trainiert wurde, sind alle öffentlich verfügbar. Dies fördert die Zusammenarbeit und beschleunigt den Fortschritt auf diesem Gebiet.
Die Entwicklungsgeschwindigkeit in diesem Bereich ist ebenfalls bemerkenswert. Evo 1, der Vorgänger von Evo 2, wurde erst wenige Monate zuvor, im November 2024, veröffentlicht. Es war bereits eine bedeutende Leistung, trainiert mit prokaryotischen Genomen mit rund 300 Milliarden Token und einem Kontextfenster von 131.000 Basenpaaren. Seine Funktionalität war jedoch vergleichsweise begrenzt.
Jetzt, nur wenige Monate später, ist Evo 2 da und bietet eine 30-fache Steigerung der Trainingsdatengröße, eine achtfache Erweiterung des Kontextfensters und völlig neue Fähigkeiten. Diese rasante Entwicklung spiegelt die erstaunlich schnellen Verbesserungen wider, die wir bei Sprachmodellen gesehen haben, die in nur wenigen Jahren von häufigen Halluzinationen zur Bewältigung komplexer Aufgaben auf menschlichem Niveau übergegangen sind.
So wie GPT-Modelle die Sprachgenerierung revolutioniert haben, sind diese DNA-Sprachmodelle bereit, unser Verständnis des Codes des Lebens selbst zu verändern. Die potenziellen Anwendungen sind vielfältig und weitreichend und versprechen, Bereiche von der Medizin über die Landwirtschaft bis hin zur Umweltwissenschaft zu revolutionieren. Die Zukunft der Biologie sah noch nie so aufregend aus.
Der rasante Fortschritt der generativen KI wird nun auf den grundlegendsten Code angewendet. Der rasante Fortschritt spiegelt die Weiterentwicklung von LLMs wider.