DNAの言語を解読する
ChatGPTのようなツールに代表される生成AIの出現は、私たちがテクノロジーと対話する方法に革命をもたらしました。これらのモデルの力の核心は、単語であろうと単語の一部であろうと、シーケンス内の次のトークンを予測する能力にあります。この一見単純なタスクは、スケールアップされ、洗練されると、一貫性があり、文脈に関連するテキストの生成を可能にします。しかし、この画期的なテクノロジーが、人間のどんな方言よりもはるかに基本的な言語、つまり生命自体の言語に適用できるとしたらどうでしょうか?
DNAは、すべての生物の設計図であり、A、C、G、Tの文字で表されるヌクレオチドで構成されています。これらのヌクレオチドは対になって、象徴的な二重らせん構造を形成します。この構造内には、遺伝子と調節配列があり、すべて染色体にきちんとパッケージ化されており、これらが集合的にゲノムを構成します。地球上のすべての種は固有のゲノム配列を持っており、実際、種内のすべての個体はそれぞれ異なるバリエーションを持っています。
同じ種の個体間の違いは比較的小さく、ゲノム全体のほんの一部を表していますが、種間のバリエーションははるかに大きいです。例えば、ヒトゲノムは約30億の塩基対で構成されています。2人のランダムな人間を比較すると、約300万塩基対の違いが見られます。これはわずか0.1%です。しかし、ヒトゲノムを最も近い親戚であるチンパンジーのゲノムと比較すると、その違いは約3000万塩基対、つまり約1%に跳ね上がります。
これらの一見小さなバリエーションは、人間だけでなく、生命のスペクトル全体で見られる広大な遺伝的多様性を説明しています。近年、科学者たちは何千もの種のゲノムを配列決定する上で大きな進歩を遂げ、この複雑な言語の理解を着実に向上させてきました。しかし、私たちはまだその複雑さの表面をかじり始めたばかりです。
Evo 2: DNAのためのChatGPT
Arc InstituteのEvo 2モデルは、生成AIを生物学の領域に適用する上で大きな飛躍を表しています。最近リリースされたこのモデルは、驚くべきエンジニアリングの偉業です。これは、生命のすべてのドメインを網羅する慎重にキュレーションされたゲノムアトラスから派生した、驚異的な9.3兆のDNA塩基対でトレーニングされました。これを perspective に入れると、GPT-4は約6.5兆のトークンでトレーニングされたと推定され、MetaのLLaMA 3とDeepSeek V3はどちらも約15兆のトークンでトレーニングされました。トレーニングデータの量に関しては、Evo 2は主要な言語モデルと肩を並べています。
変異の影響を予測する
Evo 2の主要な機能の1つは、遺伝子内の変異の影響を予測する能力です。遺伝子は通常、細胞が生命の基本的な構成要素であるタンパク質を構築するために使用する指示を含んでいます。これらのタンパク質が機能的な構造に折りたたまれる複雑なプロセスは、DeepMindのAlphaFoldによって見事に対処された、もう1つの複雑な予測の課題です。しかし、遺伝子の配列が変化するとどうなるでしょうか?
変異は、さまざまな結果をもたらす可能性があります。一部は壊滅的で、機能しないタンパク質や深刻な発達上の欠陥につながります。他のものは有害であり、微妙だが有害な変化を引き起こします。多くの変異は中立であり、生物に識別可能な影響を与えません。そして、まれに、特定の環境で有利になるなど、有益なものもあります。課題は、特定の変異がどのカテゴリーに分類されるかを決定することにあります。
ここでEvo 2は、その驚くべき能力を発揮します。さまざまなバリアント予測タスクにおいて、既存の高度に特殊化されたモデルのパフォーマンスに匹敵するか、それを上回ることさえあります。これは、どの変異が病原性である可能性が高いか、またはBRCA1(乳がんと関連)などの既知のがん遺伝子のどのバリアントが臨床的に重要であるかを効果的に予測できることを意味します。
さらに注目すべきは、Evo 2が人間のバリアントデータで特にトレーニングされていないことです。そのトレーニングは、標準的なヒト参照ゲノムのみに基づいていました。それでも、どの変異が人間にとって有害である可能性が高いかを正確に推測できます。これは、モデルがゲノム配列を支配する基本的な進化上の制約を学習したことを示唆しています。さまざまな種や文脈で「正常な」DNAがどのように見えるかについての理解を発展させてきました。
生のデータから生物学的特徴を学習する
Evo 2の機能は、DNA配列のパターンを認識するだけにとどまりません。明示的なプログラミングやガイダンスなしに、生のトレーニングデータから直接生物学的特徴を学習する能力を示しています。これらの機能には、以下が含まれます。
- 可動遺伝因子: ゲノム内を移動できるDNA配列。
- 調節モチーフ: 遺伝子発現を制御する短い配列。
- タンパク質の二次構造: タンパク質の局所的な折りたたみパターン。
これは本当に注目すべき成果です。これは、Evo 2が単にDNA配列を読んでいるのではなく、トレーニングデータで明示的に提供されなかった高次の構造情報を把握していることを意味します。これは、ChatGPTが文法規則を明示的に教えられていなくても、文法的に正しい文を生成できる方法と類似しています。同様に、Evo 2は、遺伝子やタンパク質が何であるかを伝えられなくても、有効な生物学的構造を持つゲノムのセグメントを完成させることができます。
新規DNA配列の生成
GPTモデルが新しいテキストを生成できるのと同様に、Evo 2はまったく新しいDNA配列を生成できます。これは、科学者がさまざまなアプリケーションのために生物学的システムを設計およびエンジニアリングすることを目指す合成生物学の分野で、エキサイティングな可能性を開きます。
Evo 2はすでに以下の生成に使用されています。
- ミトコンドリアゲノム: 細胞の発電所であるミトコンドリアに見られるDNA。
- 細菌ゲノム: 細菌の完全な遺伝物質。
- 酵母ゲノムの一部: 研究や産業で一般的に使用される生物である酵母のDNAのセクション。
これらの機能は、以下のための生物の設計に非常に貴重なものとなる可能性があります。
- バイオ製造: エンジニアリングされた微生物を使用して貴重な化合物を生産する。
- 炭素回収: 大気から二酸化炭素を効率的に除去できる生物を開発する。
- 薬物合成: 医薬品を生産するための新しい経路を作成する。
ただし、大規模言語モデルの初期バージョンと同様に、Evo 2の現在の制限を認識することが重要です。生物学的に妥当なDNA配列を生成できますが、これらの配列が実験的な検証なしに機能するという保証はありません。新規で機能的なDNAの生成は、依然として重要な課題です。しかし、GPT-3からDeepSeekのようなより高度なモデルへの言語モデルの急速な進歩を考えると、生成生物学ツールがますます洗練され、強力になる未来を容易に想像できます。
オープンソースと急速な進歩
Evo 2の重要な側面は、そのオープンソースの性質です。モデルパラメータ、事前トレーニングコード、推論コード、およびトレーニングに使用された完全なデータセットはすべて、公的に利用可能です。これは、コラボレーションを促進し、この分野の進歩を加速させます。
この分野の開発のスピードも注目に値します。Evo 2の前身であるEvo 1は、わずか数か月前の2024年11月にリリースされました。これはすでに、約3000億のトークンと131,000塩基対のコンテキストウィンドウを持つ原核生物ゲノムでトレーニングされた、重要な成果でした。しかし、その機能は比較的限られていました。
それからわずか数か月後、Evo 2が登場し、トレーニングデータサイズが30倍、コンテキストウィンドウが8倍に拡大し、まったく新しい機能が追加されました。この急速な進化は、言語モデルで見られた驚くほど速い改善を反映しており、頻繁な幻覚からわずか数年で人間レベルの習熟度で複雑なタスクに取り組むように移行しました。
GPTモデルが言語生成に革命をもたらしたように、これらのDNA言語モデルは、生命のコード自体の理解を変革する態勢を整えています。潜在的なアプリケーションは広大で広範囲に及び、医学から農業、環境科学に至るまでの分野に革命をもたらすことを約束します。生物学の未来は、これまでになくエキサイティングに見えます。