Разчитане на езика на ДНК
ДНК, планът на всички живи организми, е съставена от нуклеотиди, представени с буквите A, C, G и T. Тези нуклеотиди се сдвояват, за да образуват емблематичната структура на двойната спирала. В рамките на тази структура се намират гени и регулаторни последователности, всички спретнато опаковани в хромозоми, които заедно съставляват генома. Всеки вид на Земята притежава уникална геномна последователност и всъщност всеки индивид в рамките на даден вид има своя собствена различна вариация.
Докато разликите между индивидите от един и същи вид са относително малки, представляващи само малка част от общия геном, вариациите между видовете са много по-съществени. Например, човешкият геном се състои от приблизително 3 милиарда базови двойки. Сравнението между двама случайни човека разкрива разлика от около 3 милиона базови двойки – само 0,1%. Въпреки това, когато сравняваме човешкия геном с този на най-близкия ни роднина, шимпанзето, разликата нараства до приблизително 30 милиона базови двойки, или около 1%.
Тези привидно малки вариации обясняват огромното генетично разнообразие, което наблюдаваме, не само сред хората, но и в целия спектър на живота. През последните години учените постигнаха значителен напредък в секвенирането на геномите на хиляди видове, като непрекъснато подобряват разбирането ни за този сложен език. Въпреки това, ние все още сме едва в началото на разгадаването на неговата сложност.
Evo 2: ChatGPT за ДНК
Моделът Evo 2 на Arc Institute представлява значителен скок напред в прилагането на генеративния AI в областта на биологията. Този модел, пуснат наскоро, е забележително инженерно постижение. Той е обучен на изумителните 9,3 трилиона ДНК базови двойки, набор от данни, извлечен от внимателно подбран геномен атлас, обхващащ всички области на живота. За да поставим това в перспектива, GPT-4 се оценява, че е обучен на около 6,5 трилиона токена, докато LLaMA 3 на Meta и DeepSeek V3 са обучени на приблизително 15 трилиона токена. По отношение на обема на данните за обучение, Evo 2 стои рамо до рамо с водещите езикови модели.
Предсказване на въздействието на мутациите
Една от ключовите възможности на Evo 2 е способността му да предсказва ефектите от мутациите в рамките на даден ген. Гените обикновено съдържат инструкциите, които клетките използват за изграждане на протеини, основните градивни елементи на живота. Сложният процес на това как тези протеини се сгъват във функционални структури е друго сложно предизвикателство за предсказване, известно адресирано от AlphaFold на DeepMind. Но какво се случва, когато последователността на даден ген се промени?
Мутациите могат да имат широк спектър от последствия. Някои са катастрофални, водещи до нефункционални протеини или тежки дефекти в развитието. Други са вредни, причинявайки фини, но вредни промени. Много мутации са неутрални, без забележим ефект върху организма. И малко на брой могат дори да бъдат полезни, предоставяйки предимство в определени среди. Предизвикателството се състои в определянето към коя категория попада дадена мутация.
Това е мястото, където Evo 2 демонстрира своите забележителни способности. В различни задачи за предсказване на варианти, той съответства или дори надминава производителността на съществуващите, високо специализирани модели. Това означава, че може ефективно да предскаже кои мутации е вероятно да бъдат патогенни или кои варианти на известни ракови гени, като BRCA1 (свързан с рак на гърдата), са клинично значими.
Още по-забележително е, че Evo 2 не е специално обучен върху данни за човешки варианти. Обучението му се основава единствено на стандартния човешки референтен геном. И все пак, той все още може точно да заключи кои мутации е вероятно да бъдат вредни за хората. Това предполага, че моделът е научил фундаменталните еволюционни ограничения, които управляват геномните последователности. Той е развил разбиране за това как изглежда “нормалната” ДНК в различните видове и контексти.
Изучаване на биологични характеристики от необработени данни
Възможностите на Evo 2 се простират отвъд простото разпознаване на модели в ДНК последователности. Той е демонстрирал способността да изучава биологични характеристики директно от необработените данни за обучение, без никакво изрично програмиране или насоки. Тези характеристики включват:
- Подвижни генетични елементи: ДНК последователности, които могат да се движат в генома.
- Регулаторни мотиви: Кратки последователности, които контролират генната експресия.
- Вторична структура на протеините: Локалните модели на сгъване на протеините.
Това е наистина забележително постижение. То означава, че Evo 2 не просто чете ДНК последователности; той схваща структурна информация от по-висок порядък, която не е била изрично предоставена в данните за обучение. Това е паралелно на начина, по който ChatGPT може да генерира граматически правилни изречения, без да е бил изрично обучен на граматически правила. По същия начин, Evo 2 може да завърши сегмент от геном с валидна биологична структура, дори без да му е казано какво е ген или протеин.
Генериране на нови ДНК последователности
Точно както GPT моделите могат да генерират нов текст, Evo 2 може да генерира изцяло нови ДНК последователности. Това отваря вълнуващи възможности в областта на синтетичната биология, където учените се стремят да проектират и конструират биологични системи за различни приложения.
Evo 2 вече е използван за генериране на:
- Митохондриални геноми: ДНК, открита в митохондриите, енергийните централи на клетките.
- Бактериални геноми: Пълният генетичен материал на бактериите.
- Части от геноми на дрожди: Секции от ДНК на дрожди, често използван организъм в изследванията и индустрията.
Тези възможности биха могли да бъдат безценни при проектирането на организми за:
- Биопроизводство: Производство на ценни съединения с помощта на конструирани микроби.
- Улавяне на въглерод: Разработване на организми, които могат ефективно да отстраняват въглеродния диоксид от атмосферата.
- Синтез на лекарства: Създаване на нови пътища за производство на фармацевтични продукти.
Важно е обаче да се признаят настоящите ограничения на Evo 2, подобно на ранните версии на големите езикови модели. Въпреки че може да генерира биологично правдоподобни ДНК последователности, няма гаранция, че тези последователности ще бъдат функционални без експериментална проверка. Генерирането на нови, функционални ДНК остава значително предизвикателство. Но като се има предвид бързият напредък в езиковите модели, от GPT-3 до по-напреднали модели като DeepSeek, е лесно да си представим бъдеще, в което инструментите за генеративна биология стават все по-сложни и мощни.
Отворен код и бърз напредък
Значителен аспект на Evo 2 е неговата природа с отворен код. Параметрите на модела, кодът за предварително обучение, кодът за извод и пълният набор от данни, върху който е обучен, са публично достъпни. Това насърчава сътрудничеството и ускорява напредъка в областта.
Скоростта на развитие в тази област също е забележителна. Evo 1, предшественикът на Evo 2, беше пуснат само няколко месеца по-рано, през ноември 2024 г. Той вече беше значително постижение, обучен върху прокариотни геноми с около 300 милиарда токена и контекстен прозорец от 131 000 базови двойки. Функционалността му обаче беше сравнително ограничена.
Сега, само месеци по-късно, Evo 2 пристигна, можейки да се похвали с 30-кратно увеличение на размера на данните за обучение, осемкратно разширяване на контекстния прозорец и изцяло нови възможности. Тази бърза еволюция отразява удивително бързите подобрения, които видяхме в езиковите модели, които преминаха от чести халюцинации към справяне със сложни задачи на ниво човешка компетентност само за няколко години.
Точно както GPT моделите революционизираха генерирането на език, тези ДНК езикови модели са готови да трансформират нашето разбиране за самия код на живота. Потенциалните приложения са огромни и широкообхватни, обещавайки да революционизират области, вариращи от медицината до селското стопанство и науката за околната среда. Бъдещето на биологията никога не е изглеждало по-вълнуващо.
Бързият напредък на генеративния AI сега се прилага към най-фундаменталния код. Бързият напредък отразява развитието на LLM.