Sinh học tạo sinh: Viết lại mã sự sống

Giải mã ngôn ngữ của DNA

DNA, bản thiết kế của mọi sinh vật sống, được cấu tạo từ các nucleotide, được biểu thị bằng các chữ cái A, C, G và T. Các nucleotide này bắt cặp với nhau để tạo thành cấu trúc chuỗi xoắn kép mang tính biểu tượng. Bên trong cấu trúc này chứa các gen và trình tự điều hòa, tất cả được đóng gói gọn gàng vào các nhiễm sắc thể, tạo thành bộ gen. Mỗi loài trên Trái đất sở hữu một trình tự bộ gen độc đáo, và trên thực tế, mỗi cá thể trong một loài có biến thể riêng biệt của riêng mình.

Trong khi sự khác biệt giữa các cá thể cùng loài là tương đối nhỏ, chỉ chiếm một phần nhỏ trong tổng số bộ gen, thì sự khác biệt giữa các loài lớn hơn nhiều. Ví dụ, bộ gen của con người bao gồm khoảng 3 tỷ cặp base. So sánh giữa hai người ngẫu nhiên cho thấy sự khác biệt khoảng 3 triệu cặp base – chỉ 0,1%. Tuy nhiên, khi so sánh bộ gen của người với loài có quan hệ họ hàng gần nhất của chúng ta, tinh tinh, sự khác biệt tăng lên khoảng 30 triệu cặp base, hay khoảng 1%.

Những biến thể dường như nhỏ bé này giải thích cho sự đa dạng di truyền rộng lớn mà chúng ta quan sát được, không chỉ ở người mà trên toàn bộ phạm vi của sự sống. Trong những năm gần đây, các nhà khoa học đã đạt được những tiến bộ đáng kể trong việc giải trình tự bộ gen của hàng ngàn loài, dần dần cải thiện sự hiểu biết của chúng ta về ngôn ngữ phức tạp này. Tuy nhiên, chúng ta vẫn chỉ mới bắt đầu khám phá bề nổi của sự phức tạp của nó.

Evo 2: Một ChatGPT cho DNA

Mô hình Evo 2 của Arc Institute đại diện cho một bước tiến đáng kể trong việc áp dụng AI tạo sinh vào lĩnh vực sinh học. Mô hình này, được phát hành gần đây, là một kỳ công kỹ thuật đáng chú ý. Nó đã được huấn luyện trên 9,3 nghìn tỷ cặp base DNA đáng kinh ngạc, một tập dữ liệu có nguồn gốc từ một tập bản đồ gen được quản lý cẩn thận bao gồm tất cả các domain của sự sống. Để dễ hình dung, GPT-4 ước tính đã được huấn luyện trên khoảng 6,5 nghìn tỷ token, trong khi LLaMA 3 của Meta và DeepSeek V3 đều được huấn luyện trên khoảng 15 nghìn tỷ token. Về khối lượng dữ liệu huấn luyện, Evo 2 sánh ngang với các mô hình ngôn ngữ hàng đầu.

Dự đoán tác động của đột biến

Một trong những khả năng chính của Evo 2 là khả năng dự đoán ảnh hưởng của đột biến trong gen. Các gen thường chứa các hướng dẫn mà tế bào sử dụng để xây dựng protein, các khối xây dựng cơ bản của sự sống. Quá trình phức tạp về cách các protein này gấp lại thành các cấu trúc chức năng là một thách thức dự đoán phức tạp khác, nổi tiếng được giải quyết bởi AlphaFold của DeepMind. Nhưng điều gì xảy ra khi trình tự của một gen bị thay đổi?

Đột biến có thể có nhiều hậu quả khác nhau. Một số là thảm họa, dẫn đến protein không hoạt động hoặc các khiếm khuyết phát triển nghiêm trọng. Những đột biến khác có hại, gây ra những thay đổi nhỏ nhưng bất lợi. Nhiều đột biến là trung tính, không có ảnh hưởng rõ rệt đến sinh vật. Và một số ít thậm chí có thể có lợi, mang lại lợi thế trong một số môi trường nhất định. Thách thức nằm ở việc xác định đột biến cụ thể thuộc loại nào.

Đây là nơi Evo 2 thể hiện khả năng vượt trội của mình. Trong một loạt các nhiệm vụ dự đoán biến thể, nó phù hợp hoặc thậm chí vượt qua hiệu suất của các mô hình hiện có, có tính chuyên môn hóa cao. Điều này có nghĩa là nó có thể dự đoán hiệu quả những đột biến nào có khả năng gây bệnh, hoặc những biến thể nào của các gen ung thư đã biết, chẳng hạn như BRCA1 (liên quan đến ung thư vú), có ý nghĩa lâm sàng.

Điều đáng chú ý hơn nữa là Evo 2 không được huấn luyện cụ thể trên dữ liệu biến thể của con người. Việc huấn luyện của nó chỉ dựa trên bộ gen tham chiếu tiêu chuẩn của con người. Tuy nhiên, nó vẫn có thể suy luận chính xác những đột biến nào có khả năng gây hại ở người. Điều này cho thấy rằng mô hình đã học được các ràng buộc tiến hóa cơ bản chi phối trình tự bộ gen. Nó đã phát triển sự hiểu biết về DNA ‘bình thường’ trông như thế nào ở các loài và bối cảnh khác nhau.

Học các đặc điểm sinh học từ dữ liệu thô

Khả năng của Evo 2 vượt xa việc chỉ nhận ra các mẫu trong trình tự DNA. Nó đã chứng minh khả năng học các đặc điểm sinh học trực tiếp từ dữ liệu huấn luyện thô, mà không cần bất kỳ lập trình hoặc hướng dẫn rõ ràng nào. Các tính năng này bao gồm:

  • Các yếu tố di truyền di động: Các trình tự DNA có thể di chuyển xung quanh trong bộ gen.
  • Motif điều hòa: Các trình tự ngắn kiểm soát sự biểu hiện gen.
  • Cấu trúc bậc hai của protein: Các kiểu gấp cục bộ của protein.

Đây là một thành tựu thực sự đáng chú ý. Nó có nghĩa là Evo 2 không chỉ đọc trình tự DNA; nó đang nắm bắt thông tin cấu trúc bậc cao hơn không được cung cấp rõ ràng trong dữ liệu huấn luyện. Điều này tương tự như cách ChatGPT có thể tạo ra các câu đúng ngữ pháp mà không cần được dạy rõ ràng các quy tắc ngữ pháp. Tương tự, Evo 2 có thể hoàn thành một đoạn của bộ gen với cấu trúc sinh học hợp lệ, ngay cả khi không được cho biết gen hay protein là gì.

Tạo trình tự DNA mới

Giống như các mô hình GPT có thể tạo văn bản mới, Evo 2 có thể tạo ra các trình tự DNA hoàn toàn mới. Điều này mở ra những khả năng thú vị trong lĩnh vực sinh học tổng hợp, nơi các nhà khoa học hướng tới việc thiết kế và kỹ thuật các hệ thống sinh học cho các ứng dụng khác nhau.

Evo 2 đã được sử dụng để tạo ra:

  • Bộ gen ty thể: DNA được tìm thấy trong ty thể, nhà máy năng lượng của tế bào.
  • Bộ gen vi khuẩn: Vật liệu di truyền hoàn chỉnh của vi khuẩn.
  • Các phần của bộ gen nấm men: Các phần DNA của nấm men, một sinh vật thường được sử dụng trong nghiên cứu và công nghiệp.

Những khả năng này có thể là vô giá trong việc thiết kế các sinh vật cho:

*Sản xuất sinh học: Sản xuất các hợp chất có giá trị bằng cách sử dụng vi khuẩn biến đổi gen.

  • Thu giữ carbon: Phát triển các sinh vật có thể loại bỏ carbon dioxide khỏi khí quyển một cách hiệu quả.
  • Tổng hợp thuốc: Tạo ra các con đường mới để sản xuất dược phẩm.

Tuy nhiên, điều quan trọng là phải thừa nhận những hạn chế hiện tại của Evo 2, giống như các phiên bản đầu tiên của các mô hình ngôn ngữ lớn. Mặc dù nó có thể tạo ra các trình tự DNA hợp lý về mặt sinh học, nhưng không có gì đảm bảo rằng các trình tự này sẽ hoạt động mà không cần xác nhận thực nghiệm. Tạo ra DNA mới, có chức năng vẫn là một thách thức đáng kể. Nhưng xem xét sự tiến bộ nhanh chóng trong các mô hình ngôn ngữ, từ GPT-3 đến các mô hình tiên tiến hơn như DeepSeek, thật dễ dàng để hình dung một tương lai nơi các công cụ sinh học tạo sinh trở nên ngày càng tinh vi và mạnh mẽ.

Mã nguồn mở và sự tiến bộ nhanh chóng

Một khía cạnh quan trọng của Evo 2 là tính chất mã nguồn mở của nó. Các tham số mô hình, mã tiền huấn luyện, mã suy luận và tập dữ liệu hoàn chỉnh mà nó đã được huấn luyện đều có sẵn công khai. Điều này thúc đẩy sự hợp tác và tăng tốc tiến độ trong lĩnh vực này.

Tốc độ phát triển trong lĩnh vực này cũng rất đáng chú ý. Evo 1, tiền thân của Evo 2, đã được phát hành chỉ vài tháng trước đó, vào tháng 11 năm 2024. Nó đã là một thành tựu đáng kể, được huấn luyện trên bộ gen của sinh vật nhân sơ với khoảng 300 tỷ token và cửa sổ ngữ cảnh là 131.000 cặp base. Tuy nhiên, chức năng của nó tương đối hạn chế.

Giờ đây, chỉ vài tháng sau, Evo 2 đã xuất hiện, tự hào với kích thước dữ liệu huấn luyện tăng gấp 30 lần, mở rộng cửa sổ ngữ cảnh gấp tám lần và các khả năng hoàn toàn mới. Sự phát triển nhanh chóng này phản ánh những cải tiến nhanh chóng đáng kinh ngạc mà chúng ta đã thấy trong các mô hình ngôn ngữ, đã chuyển từ việc thường xuyên ảo giác sang giải quyết các nhiệm vụ phức tạp ở mức độ thành thạo của con người chỉ trong vài năm.

Giống như các mô hình GPT đã cách mạng hóa việc tạo ngôn ngữ, các mô hình ngôn ngữ DNA này đã sẵn sàng để thay đổi sự hiểu biết của chúng ta về mã của chính sự sống. Các ứng dụng tiềm năng là rất lớn và sâu rộng, hứa hẹn sẽ cách mạng hóa các lĩnh vực từ y học đến nông nghiệp đến khoa học môi trường. Tương lai của sinh học chưa bao giờ thú vị hơn thế.
Sự tiến bộ nhanh chóng của AI tạo sinh hiện đang được áp dụng cho mã cơ bản nhất. Sự tiến bộ nhanh chóng này phản ánh sự phát triển của các LLM.