DNA 언어 해독하기
ChatGPT와 같은 도구로 대표되는 생성 AI의 출현은 우리가 기술과 상호 작용하는 방식을 혁신했습니다. 이러한 모델의 핵심적인 힘은 단어든 단어의 일부든 시퀀스의 다음 토큰을 예측하는 능력에 있습니다. 이 겉보기에는 단순한 작업이 확장되고 개선되면 일관되고 문맥에 맞는 텍스트를 생성할 수 있습니다. 그러나 이 획기적인 기술이 인간의 방언보다 훨씬 더 근본적인 언어, 즉 생명 자체의 언어에 적용될 수 있다면 어떨까요?
DNA는 모든 생명체의 청사진이며, A, C, G, T 문자로 표시되는 뉴클레오타이드로 구성됩니다. 이러한 뉴클레오타이드는 쌍을 이루어 상징적인 이중 나선 구조를 형성합니다. 이 구조 내에는 유전자와 조절 서열이 있으며, 모두 염색체로 깔끔하게 포장되어 게놈을 구성합니다. 지구상의 모든 종은 고유한 게놈 서열을 가지고 있으며, 실제로 한 종 내의 모든 개체는 고유한 변이를 가지고 있습니다.
같은 종의 개체 간의 차이는 상대적으로 작아서 전체 게놈의 극히 일부만을 나타내지만, 종 간의 변이는 훨씬 더 큽니다. 예를 들어, 인간 게놈은 약 30억 개의 염기쌍으로 구성됩니다. 무작위로 두 사람을 비교하면 약 300만 염기쌍(0.1%)의 차이가 나타납니다. 그러나 인간 게놈을 가장 가까운 친척인 침팬지의 게놈과 비교하면 차이가 약 3천만 염기쌍, 즉 약 1%로 증가합니다.
이러한 겉보기에는 작은 변이가 인간뿐만 아니라 전체 생명체 스펙트럼에서 관찰되는 광대한 유전적 다양성을 설명합니다. 최근 몇 년 동안 과학자들은 수천 종의 게놈을 시퀀싱하는 데 상당한 진전을 이루어 이 복잡한 언어에 대한 이해를 꾸준히 향상시켰습니다. 그러나 우리는 여전히 그 복잡성의 표면만을 긁고 있을 뿐입니다.
Evo 2: DNA를 위한 ChatGPT
Arc Institute의 Evo 2 모델은 생성 AI를 생물학 영역에 적용하는 데 있어 중요한 도약을 나타냅니다. 최근에 출시된 이 모델은 놀라운 엔지니어링 업적입니다. 모든 생명 영역을 포괄하는 신중하게 선별된 게놈 아틀라스에서 파생된 9조 3천억 개의 DNA 염기쌍이라는 놀라운 데이터 세트에 대해 훈련되었습니다. 이를 비교하자면, GPT-4는 약 6조 5천억 개의 토큰으로 훈련된 것으로 추정되며, Meta의 LLaMA 3와 DeepSeek V3는 모두 약 15조 개의 토큰으로 훈련되었습니다. 훈련 데이터 양 측면에서 Evo 2는 선도적인 언어 모델과 어깨를 나란히 합니다.
돌연변이의 영향 예측
Evo 2의 주요 기능 중 하나는 유전자 내 돌연변이의 영향을 예측하는 능력입니다. 유전자는 일반적으로 세포가 생명의 기본 구성 요소인 단백질을 구성하는 데 사용하는 지침을 포함합니다. 이러한 단백질이 기능적 구조로 접히는 복잡한 과정은 DeepMind의 AlphaFold가 해결한 또 다른 복잡한 예측 과제입니다. 그러나 유전자의 서열이 변경되면 어떻게 될까요?
돌연변이는 광범위한 결과를 초래할 수 있습니다. 일부는 치명적이어서 기능하지 않는 단백질이나 심각한 발달 결함을 초래합니다. 다른 것들은 해롭고 미묘하지만 해로운 변화를 일으킵니다. 많은 돌연변이는 중립적이며 유기체에 뚜렷한 영향을 미치지 않습니다. 그리고 드물게 일부는 특정 환경에서 이점을 제공하여 유익할 수도 있습니다. 문제는 특정 돌연변이가 어떤 범주에 속하는지 결정하는 것입니다.
여기서 Evo 2는 놀라운 능력을 보여줍니다. 다양한 변이 예측 작업에서 기존의 고도로 전문화된 모델의 성능과 일치하거나 심지어 능가합니다. 즉, 어떤 돌연변이가 병원성이 있을 가능성이 있는지, 또는 BRCA1(유방암과 관련됨)과 같이 알려진 암 유전자의 어떤 변이가 임상적으로 중요한지 효과적으로 예측할 수 있습니다.
더욱 놀라운 것은 Evo 2가 인간 변이 데이터에 대해 특별히 훈련되지 않았다는 것입니다. 훈련은 표준 인간 참조 게놈만을 기반으로 했습니다. 그럼에도 불구하고 어떤 돌연변이가 인간에게 해로울 가능성이 있는지 정확하게 추론할 수 있습니다. 이는 모델이 게놈 서열을 지배하는 근본적인 진화적 제약을 학습했음을 시사합니다. 다양한 종과 맥락에서 “정상적인” DNA가 어떻게 보이는지에 대한 이해를 발전시켰습니다.
원시 데이터에서 생물학적 특징 학습
Evo 2의 기능은 단순히 DNA 서열의 패턴을 인식하는 것 이상으로 확장됩니다. 명시적인 프로그래밍이나 안내 없이 원시 훈련 데이터에서 직접 생물학적 특징을 학습하는 능력을 입증했습니다. 이러한 기능은 다음과 같습니다.
- 이동성 유전 요소: 게놈 내에서 이동할 수 있는 DNA 서열.
- 조절 모티프: 유전자 발현을 조절하는 짧은 서열.
- 단백질 2차 구조: 단백질의 국소 접힘 패턴.
이것은 정말 놀라운 업적입니다. Evo 2가 DNA 서열을 읽는 것뿐만 아니라 훈련 데이터에 명시적으로 제공되지 않은 고차 구조 정보를 파악하고 있음을 의미합니다. 이는 ChatGPT가 문법 규칙을 명시적으로 배우지 않고도 문법적으로 올바른 문장을 생성할 수 있는 방식과 유사합니다. 마찬가지로 Evo 2는 유전자나 단백질이 무엇인지 알지 못하더라도 유효한 생물학적 구조로 게놈의 한 부분을 완성할 수 있습니다.
새로운 DNA 서열 생성
GPT 모델이 새로운 텍스트를 생성할 수 있는 것처럼 Evo 2는 완전히 새로운 DNA 서열을 생성할 수 있습니다. 이는 과학자들이 다양한 응용 분야를 위해 생물학적 시스템을 설계하고 엔지니어링하는 것을 목표로 하는 합성 생물학 분야에서 흥미로운 가능성을 열어줍니다.
Evo 2는 이미 다음을 생성하는 데 사용되었습니다.
- 미토콘드리아 게놈: 세포의 발전소인 미토콘드리아에서 발견되는 DNA.
- 박테리아 게놈: 박테리아의 완전한 유전 물질.
- 효모 게놈의 일부: 연구 및 산업에서 일반적으로 사용되는 유기체인 효모 DNA의 섹션.
이러한 기능은 다음을 위한 유기체를 설계하는 데 매우 유용할 수 있습니다.
- 바이오 제조: 엔지니어링된 미생물을 사용하여 귀중한 화합물 생산.
- 탄소 포집: 대기에서 이산화탄소를 효율적으로 제거할 수 있는 유기체 개발.
- 약물 합성: 의약품 생산을 위한 새로운 경로 생성.
그러나 초기 버전의 대규모 언어 모델과 마찬가지로 Evo 2의 현재 한계를 인식하는 것이 중요합니다. 생물학적으로 그럴듯한 DNA 서열을 생성할 수 있지만 이러한 서열이 실험적 검증 없이 기능할 것이라는 보장은 없습니다. 새롭고 기능적인 DNA를 생성하는 것은 여전히 중요한 과제입니다. 그러나 GPT-3에서 DeepSeek와 같은 고급 모델로의 언어 모델의 빠른 발전을 고려할 때 생성 생물학 도구가 점점 더 정교해지고 강력해지는 미래를 쉽게 상상할 수 있습니다.
오픈 소스 및 빠른 발전
Evo 2의 중요한 측면은 오픈 소스 특성입니다. 모델 매개변수, 사전 훈련 코드, 추론 코드 및 훈련된 전체 데이터 세트를 모두 공개적으로 사용할 수 있습니다. 이는 협업을 촉진하고 해당 분야의 발전을 가속화합니다.
이 분야의 개발 속도도 주목할 만합니다. Evo 2의 전신인 Evo 1은 불과 몇 달 전인 2024년 11월에 출시되었습니다. 약 3천억 개의 토큰과 131,000개의 염기쌍의 컨텍스트 창을 가진 원핵생물 게놈에 대해 훈련된 이미 상당한 성과였습니다. 그러나 기능은 비교적 제한적이었습니다.
이제 불과 몇 달 후, Evo 2가 도착하여 훈련 데이터 크기가 30배 증가하고 컨텍스트 창이 8배 확장되었으며 완전히 새로운 기능을 자랑합니다. 이러한 빠른 진화는 언어 모델에서 본 놀랍도록 빠른 개선을 반영하며, 이는 잦은 환각에서 불과 몇 년 만에 인간 수준의 숙련도로 복잡한 작업을 처리하는 것으로 전환되었습니다.
GPT 모델이 언어 생성을 혁신한 것처럼 이러한 DNA 언어 모델은 생명 코드 자체에 대한 우리의 이해를 변화시킬 준비가 되어 있습니다. 잠재적인 응용 분야는 광범위하고 광범위하며 의학에서 농업, 환경 과학에 이르기까지 다양한 분야를 혁신할 것을 약속합니다. 생물학의 미래는 그 어느 때보다 흥미진진해 보입니다.