Biologia generatywna: Nowy kod życia

Rozszyfrowywanie języka DNA

DNA, plan wszystkich żywych organizmów, składa się z nukleotydów, reprezentowanych przez litery A, C, G i T. Te nukleotydy łączą się w pary, tworząc ikoniczną strukturę podwójnej helisy. W tej strukturze znajdują się geny i sekwencje regulatorowe, wszystkie starannie upakowane w chromosomy, które wspólnie tworzą genom. Każdy gatunek na Ziemi posiada unikalną sekwencję genomową, a w rzeczywistości każdy osobnik w obrębie gatunku ma swoją własną, odrębną wariację.

Podczas gdy różnice między osobnikami tego samego gatunku są stosunkowo niewielkie, stanowiąc zaledwie ułamek całego genomu, różnice między gatunkami są znacznie bardziej znaczące. Na przykład genom ludzki składa się z około 3 miliardów par zasad. Porównanie dwóch losowych ludzi ujawnia różnicę około 3 milionów par zasad – zaledwie 0,1%. Jednak porównując genom ludzki z genomem naszego najbliższego krewnego, szympansa, różnica wzrasta do około 30 milionów par zasad, czyli około 1%.

Te pozornie niewielkie różnice odpowiadają za ogromną różnorodność genetyczną, którą obserwujemy nie tylko wśród ludzi, ale w całym spektrum życia. W ostatnich latach naukowcy poczynili znaczne postępy w sekwencjonowaniu genomów tysięcy gatunków, stale poprawiając nasze zrozumienie tego skomplikowanego języka. Jednak wciąż jesteśmy dopiero na początku drogi do zrozumienia jego złożoności.

Evo 2: ChatGPT dla DNA

Model Evo 2 Arc Institute stanowi znaczący krok naprzód w stosowaniu generatywnej AI w dziedzinie biologii. Ten model, wydany niedawno, jest niezwykłym osiągnięciem inżynieryjnym. Został wytrenowany na oszałamiającej liczbie 9,3 biliona par zasad DNA, zestawie danych pochodzącym ze starannie dobranego atlasu genomowego obejmującego wszystkie domeny życia. Dla porównania, szacuje się, że GPT-4 został wytrenowany na około 6,5 biliona tokenów, podczas gdy LLaMA 3 Meta i DeepSeek V3 zostały wytrenowane na około 15 bilionach tokenów. Pod względem objętości danych treningowych Evo 2 dorównuje wiodącym modelom językowym.

Przewidywanie wpływu mutacji

Jedną z kluczowych możliwości Evo 2 jest zdolność do przewidywania skutków mutacji w genie. Geny zazwyczaj zawierają instrukcje, których komórki używają do konstruowania białek, podstawowych budulców życia. Złożony proces fałdowania się tych białek w funkcjonalne struktury jest kolejnym złożonym wyzwaniem predykcyjnym, słynnie rozwiązanym przez AlphaFold firmy DeepMind. Ale co się dzieje, gdy sekwencja genu zostaje zmieniona?

Mutacje mogą mieć szeroki zakres konsekwencji. Niektóre są katastrofalne, prowadząc do niefunkcjonalnych białek lub poważnych wad rozwojowych. Inne są szkodliwe, powodując subtelne, ale szkodliwe zmiany. Wiele mutacji jest neutralnych, nie mając zauważalnego wpływu na organizm. A nieliczne mogą być nawet korzystne, dając przewagę w pewnych środowiskach. Wyzwaniem jest określenie, do której kategorii należy dana mutacja.

W tym miejscu Evo 2 demonstruje swoje niezwykłe umiejętności. W różnych zadaniach przewidywania wariantów dorównuje, a nawet przewyższa wydajność istniejących, wysoce wyspecjalizowanych modeli. Oznacza to, że może skutecznie przewidywać, które mutacje mogą być patogenne lub które warianty znanych genów raka, takich jak BRCA1 (związany z rakiem piersi), są klinicznie istotne.

Co jeszcze bardziej niezwykłe, Evo 2 nie został specjalnie wytrenowany na danych o wariantach ludzkich. Jego szkolenie opierało się wyłącznie na standardowym ludzkim genomie referencyjnym. Mimo to może dokładnie wnioskować, które mutacje mogą być szkodliwe dla ludzi. Sugeruje to, że model nauczył się fundamentalnych ograniczeń ewolucyjnych, które rządzą sekwencjami genomowymi. Rozwinął zrozumienie tego, jak wygląda ‘normalne’ DNA w różnych gatunkach i kontekstach.

Uczenie się cech biologicznych z surowych danych

Możliwości Evo 2 wykraczają poza proste rozpoznawanie wzorców w sekwencjach DNA. Wykazał on zdolność do uczenia się cech biologicznych bezpośrednio z surowych danych treningowych, bez żadnego wyraźnego programowania lub wskazówek. Te cechy obejmują:

  • Mobilne elementy genetyczne: Sekwencje DNA, które mogą przemieszczać się w obrębie genomu.
  • Motywy regulatorowe: Krótkie sekwencje, które kontrolują ekspresję genów.
  • Drugorzędowa struktura białek: Lokalne wzorce fałdowania białek.

To naprawdę niezwykłe osiągnięcie. Oznacza to, że Evo 2 nie tylko odczytuje sekwencje DNA; rozumie informacje strukturalne wyższego rzędu, które nie zostały wyraźnie podane w danych treningowych. Jest to analogiczne do sposobu, w jaki ChatGPT może generować poprawne gramatycznie zdania, nie ucząc się jawnie reguł gramatycznych. Podobnie Evo 2 może uzupełnić segment genomu o prawidłową strukturę biologiczną, nawet jeśli nie powiedziano mu, czym jest gen lub białko.

Generowanie nowych sekwencji DNA

Podobnie jak modele GPT mogą generować nowy tekst, Evo 2 może generować całkowicie nowe sekwencje DNA. Otwiera to ekscytujące możliwości w dziedzinie biologii syntetycznej, gdzie naukowcy dążą do projektowania i inżynierii systemów biologicznych do różnych zastosowań.

Evo 2 został już użyty do wygenerowania:

  • Genomów mitochondrialnych: DNA znajdującego się w mitochondriach, elektrowniach komórek.
  • Genomów bakteryjnych: Kompletnego materiału genetycznego bakterii.
  • Części genomów drożdży: Sekcji DNA drożdży, organizmu powszechnie używanego w badaniach i przemyśle.

Te możliwości mogą być nieocenione w projektowaniu organizmów do:

  • Bioprodukcji: Wytwarzania cennych związków przy użyciu zmodyfikowanych mikrobów.
  • Wychwytywania dwutlenku węgla: Opracowywania organizmów, które mogą skutecznie usuwać dwutlenek węgla z atmosfery.
  • Syntezy leków: Tworzenia nowych ścieżek produkcji farmaceutyków.

Jednak ważne jest, aby uznać obecne ograniczenia Evo 2, podobnie jak wczesne wersje dużych modeli językowych. Chociaż może generować biologicznie wiarygodne sekwencje DNA, nie ma gwarancji, że te sekwencje będą funkcjonalne bez eksperymentalnej walidacji. Generowanie nowych, funkcjonalnych DNA pozostaje znaczącym wyzwaniem. Ale biorąc pod uwagę szybki postęp w modelach językowych, od GPT-3 do bardziej zaawansowanych modeli, takich jak DeepSeek, łatwo wyobrazić sobie przyszłość, w której narzędzia biologii generatywnej staną się coraz bardziej wyrafinowane i potężne.

Open-Source i szybki postęp

Istotnym aspektem Evo 2 jest jego otwartoźródłowy charakter. Parametry modelu, kod pretreningowy, kod wnioskowania i kompletny zestaw danych, na którym został wytrenowany, są publicznie dostępne. Sprzyja to współpracy i przyspiesza postęp w tej dziedzinie.

Szybkość rozwoju w tym obszarze jest również godna uwagi. Evo 1, poprzednik Evo 2, został wydany zaledwie kilka miesięcy wcześniej, w listopadzie 2024 roku. Był już znaczącym osiągnięciem, wytrenowanym na genomach prokariotycznych z około 300 miliardami tokenów i oknem kontekstowym o długości 131 000 par zasad. Jednak jego funkcjonalność była stosunkowo ograniczona.

Teraz, zaledwie kilka miesięcy później, pojawił się Evo 2, szczycący się 30-krotnym wzrostem rozmiaru danych treningowych, ośmiokrotnym rozszerzeniem okna kontekstowego i zupełnie nowymi możliwościami. Ta szybka ewolucja odzwierciedla zadziwiająco szybkie ulepszenia, które widzieliśmy w modelach językowych, które przeszły od częstych halucynacji do radzenia sobie ze złożonymi zadaniami na poziomie ludzkiej biegłości w ciągu zaledwie kilku lat.

Podobnie jak modele GPT zrewolucjonizowały generowanie języka, te modele języka DNA są gotowe do przekształcenia naszego rozumienia kodu samego życia. Potencjalne zastosowania są ogromne i dalekosiężne, obiecując zrewolucjonizować dziedziny od medycyny po rolnictwo i naukę o środowisku. Przyszłość biologii nigdy nie wyglądała tak ekscytująco. Szybki postęp generatywnej AI jest teraz stosowany do najbardziej fundamentalnego kodu. Szybki postęp odzwierciedla rozwój LLM.