Расшифровка языка ДНК
ДНК, основа всех живых организмов, состоит из нуклеотидов, обозначаемых буквами A, C, G и T. Эти нуклеотиды соединяются, образуя знаковую структуру двойной спирали. Внутри этой структуры находятся гены и регуляторные последовательности, аккуратно упакованные в хромосомы, которые в совокупности составляют геном. Каждый вид на Земле обладает уникальной геномной последовательностью, и, фактически, каждый индивидуум внутри вида имеет свои собственные отличительные вариации.
Хотя различия между особями одного и того же вида относительно невелики и составляют лишь малую долю от общего генома, вариации между видами гораздо более существенны. Например, геном человека состоит примерно из 3 миллиардов пар оснований. Сравнение двух случайных людей выявляет разницу примерно в 3 миллиона пар оснований – всего 0,1%. Однако при сравнении генома человека с геномом нашего ближайшего родственника, шимпанзе, разница возрастает примерно до 30 миллионов пар оснований, или около 1%.
Эти, казалось бы, небольшие вариации обуславливают огромное генетическое разнообразие, которое мы наблюдаем не только среди людей, но и во всем спектре жизни. В последние годы ученые добились значительных успехов в секвенировании геномов тысяч видов, неуклонно улучшая наше понимание этого сложного языка. Однако мы все еще только начинаем постигать всю его сложность.
Evo 2: ChatGPT для ДНК
Модель Evo 2 от Arc Institute представляет собой значительный шаг вперед в применении генеративного ИИ в области биологии. Эта модель, выпущенная недавно, является выдающимся достижением инженерной мысли. Она была обучена на ошеломляющих 9,3 триллионах пар оснований ДНК – наборе данных, полученном из тщательно отобранного геномного атласа, охватывающего все домены жизни. Для сравнения, GPT-4, по оценкам, был обучен примерно на 6,5 триллионах токенов, в то время как LLaMA 3 от Meta и DeepSeek V3 были обучены примерно на 15 триллионах токенов. По объему обучающих данных Evo 2 стоит в одном ряду с ведущими языковыми моделями.
Прогнозирование влияния мутаций
Одной из ключевых возможностей Evo 2 является способность предсказывать эффекты мутаций в гене. Гены обычно содержат инструкции, которые клетки используют для построения белков, основных строительных блоков жизни. Сложный процесс того, как эти белки сворачиваются в функциональные структуры, является еще одной сложной задачей прогнозирования, блестяще решенной AlphaFold от DeepMind. Но что происходит, когда последовательность гена изменяется?
Мутации могут иметь широкий спектр последствий. Некоторые из них катастрофичны, приводя к нефункциональным белкам или серьезным дефектам развития. Другие вредны, вызывая тонкие, но пагубные изменения. Многие мутации нейтральны, не оказывая заметного влияния на организм. И редкие из них могут быть даже полезными, давая преимущество в определенных условиях. Задача состоит в том, чтобы определить, к какой категории относится та или иная мутация.
Именно здесь Evo 2 демонстрирует свои замечательные способности. В различных задачах прогнозирования вариантов она соответствует или даже превосходит производительность существующих, узкоспециализированных моделей. Это означает, что она может эффективно предсказывать, какие мутации, вероятно, будут патогенными, или какие варианты известных генов рака, таких как BRCA1 (связанный с раком молочной железы), являются клинически значимыми.
Что еще более примечательно, так это то, что Evo 2 не была специально обучена на данных о вариантах человека. Ее обучение основывалось исключительно на стандартном эталонном геноме человека. Тем не менее, она все еще может точно определить, какие мутации, вероятно, будут вредными для человека. Это говорит о том, что модель изучила фундаментальные эволюционные ограничения, которые управляют геномными последовательностями. Она развила понимание того, как выглядит ‘нормальная’ ДНК у разных видов и в разных контекстах.
Изучение биологических особенностей из необработанных данных
Возможности Evo 2 выходят за рамки простого распознавания паттернов в последовательностях ДНК. Она продемонстрировала способность изучать биологические особенности непосредственно из необработанных обучающих данных, без какого-либо явного программирования или руководства. Эти особенности включают:
- Мобильные генетические элементы: Последовательности ДНК, которые могут перемещаться внутри генома.
- Регуляторные мотивы: Короткие последовательности, которые контролируют экспрессию генов.
- Вторичная структура белка: Локальные паттерны сворачивания белков.
Это поистине выдающееся достижение. Оно означает, что Evo 2 не просто читает последовательности ДНК; она постигает структурную информацию более высокого порядка, которая не была явно представлена в обучающих данных. Это похоже на то, как ChatGPT может генерировать грамматически правильные предложения, не будучи явно обученным правилам грамматики. Аналогично, Evo 2 может завершить сегмент генома с действительной биологической структурой, даже не зная, что такое ген или белок.
Генерация новых последовательностей ДНК
Подобно тому, как модели GPT могут генерировать новый текст, Evo 2 может генерировать совершенно новые последовательности ДНК. Это открывает захватывающие возможности в области синтетической биологии, где ученые стремятся проектировать и конструировать биологические системы для различных применений.
Evo 2 уже использовалась для генерации:
- Митохондриальных геномов: ДНК, обнаруженной в митохондриях, энергетических станциях клеток.
- Бактериальных геномов: Полного генетического материала бактерий.
- Частей геномов дрожжей: Участков ДНК дрожжей, широко используемого организма в исследованиях и промышленности.
Эти возможности могут быть неоценимы при проектировании организмов для:
- Биопроизводства: Производства ценных соединений с использованием сконструированных микробов.
- Улавливания углерода: Разработки организмов, которые могут эффективно удалять углекислый газ из атмосферы.
- Синтеза лекарств: Создания новых путей для производства фармацевтических препаратов.
Однако важно признать текущие ограничения Evo 2, во многом похожие на ранние версии больших языковых моделей. Хотя она может генерировать биологически правдоподобные последовательности ДНК, нет никакой гарантии, что эти последовательности будут функциональными без экспериментальной проверки. Генерация новых, функциональных ДНК остается серьезной проблемой. Но, учитывая быстрый прогресс в языковых моделях, от GPT-3 до более продвинутых моделей, таких как DeepSeek, легко представить себе будущее, в котором инструменты генеративной биологии станут все более сложными и мощными.
Открытый исходный код и быстрое развитие
Важным аспектом Evo 2 является ее открытый исходный код. Параметры модели, код предварительного обучения, код вывода и полный набор данных, на котором она была обучена, находятся в открытом доступе. Это способствует сотрудничеству и ускоряет прогресс в этой области.
Скорость развития в этой области также заслуживает внимания. Evo 1, предшественница Evo 2, была выпущена всего несколько месяцев назад, в ноябре 2024 года. Она уже была значительным достижением, обученная на геномах прокариот с примерно 300 миллиардами токенов и контекстным окном в 131 000 пар оснований. Однако ее функциональность была сравнительно ограничена.
Теперь, всего несколько месяцев спустя, появилась Evo 2, которая может похвастаться 30-кратным увеличением размера обучающих данных, восьмикратным расширением контекстного окна и совершенно новыми возможностями. Этабыстрая эволюция отражает поразительно быстрые улучшения, которые мы наблюдали в языковых моделях, которые перешли от частых галлюцинаций к решению сложных задач на уровне человека всего за несколько лет.
Подобно тому, как модели GPT произвели революцию в генерации языка, эти языковые модели ДНК готовы изменить наше понимание самого кода жизни. Потенциальные применения обширны и далеко идущи, обещая революционизировать области от медицины до сельского хозяйства и науки об окружающей среде. Будущее биологии никогда не выглядело более захватывающим.