ביולוגיה גנרטיבית: שכתוב קוד החיים

פענוח שפת ה-DNA

ה-DNA, התוכנית של כל האורגניזמים החיים, מורכב מנוקלאוטידים, המיוצגים על ידי האותיות A, C, G ו-T. נוקלאוטידים אלה מצטרפים ליצירת מבנה הסליל הכפול האייקוני. בתוך מבנה זה שוכנים גנים ורצפים רגולטוריים, כולם ארוזים בצורה מסודרת בכרומוזומים, המהווים ביחד את הגנום. לכל מין על פני כדור הארץ יש רצף גנומי ייחודי, ולמעשה, לכל פרט בתוך מין יש וריאציה מובחנת משלו.

בעוד שההבדלים בין פרטים מאותו מין הם קטנים יחסית, המייצגים רק חלק זעיר מהגנום הכולל, ההבדלים בין מינים הם הרבה יותר משמעותיים. לדוגמה, הגנום האנושי כולל כ-3 מיליארד זוגות בסיסים. השוואה בין שני בני אדם אקראיים מגלה הבדל של כ-3 מיליון זוגות בסיסים - רק 0.1%. עם זאת, כאשר משווים את הגנום האנושי לזה של קרוב המשפחה הקרוב ביותר שלנו, השימפנזה, ההבדל קופץ לכ-30 מיליון זוגות בסיסים, או כ-1%.

הבדלים קטנים לכאורה אלה אחראים למגוון הגנטי העצום שאנו צופים בו, לא רק בקרב בני אדם אלא בכל קשת החיים. בשנים האחרונות, מדענים עשו צעדים משמעותיים בריצוף הגנום של אלפי מינים, ושיפרו בהתמדה את הבנתנו את השפה המורכבת הזו. עם זאת, אנחנו עדיין רק מתחילים לגרד את פני השטח של המורכבות שלה.

Evo 2: ChatGPT עבור DNA

מודל Evo 2 של מכון Arc מייצג קפיצת מדרגה משמעותית ביישום בינה מלאכותית גנרטיבית לתחום הביולוגיה. מודל זה, שפורסם לאחרונה, הוא הישג הנדסי יוצא דופן. הוא אומן על 9.3 טריליון זוגות בסיסי DNA מדהימים, מערך נתונים שמקורו באטלס גנומי שנאסף בקפידה ומקיף את כל תחומי החיים. כדי לשים את זה בפרספקטיבה, GPT-4 הוערך שאומן על כ-6.5 טריליון טוקנים, בעוד ש-LLaMA 3 של Meta ו-DeepSeek V3 אומנו שניהם על כ-15 טריליון טוקנים. מבחינת נפח נתוני האימון, Evo 2 עומד כתף אל כתף עם מודלי השפה המובילים.

חיזוי השפעת מוטציות

אחת היכולות המרכזיות של Evo 2 היא היכולת לחזות את ההשפעות של מוטציות בתוך גן. גנים מכילים בדרך כלל את ההוראות שבהן תאים משתמשים כדי לבנות חלבונים, אבני הבניין הבסיסיות של החיים. התהליך המורכב של האופן שבו חלבונים אלה מתקפלים למבנים פונקציונליים הוא אתגר חיזוי מורכב נוסף, שטופל בצורה מפורסמת על ידי AlphaFold של DeepMind. אבל מה קורה כאשר רצף של גן משתנה?

למוטציות יכולות להיות מגוון רחב של השלכות. חלקן קטסטרופליות, ומובילות לחלבונים לא מתפקדים או לפגמים התפתחותיים חמורים. אחרות מזיקות, וגורמות לשינויים עדינים אך מזיקים. מוטציות רבות הן ניטרליות, ואין להן השפעה ניכרת על האורגניזם. ומעטות נדירות יכולות אפילו להיות מועילות, ולהעניק יתרון בסביבות מסוימות. האתגר טמון בקביעה לאיזו קטגוריה משתייכת מוטציה מסוימת.

כאן Evo 2 מדגים את יכולותיו המדהימות. במגוון משימות חיזוי וריאנטים, הוא משתווה או אפילו עולה על הביצועים של מודלים קיימים ומתמחים ביותר. משמעות הדבר היא שהוא יכול לחזות ביעילות אילו מוטציות צפויות להיות פתוגניות, או אילו וריאנטים של גנים סרטניים ידועים, כגון BRCA1 (הקשור לסרטן השד), הם משמעותיים מבחינה קלינית.

מה שעוד יותר מדהים הוא ש-Evo 2 לא אומן במיוחד על נתוני וריאנטים אנושיים. האימון שלו התבסס אך ורק על גנום הייחוס האנושי הסטנדרטי. עם זאת, הוא עדיין יכול להסיק במדויק אילו מוטציות צפויות להיות מזיקות בבני אדם. זה מצביע על כך שהמודל למד את האילוצים האבולוציוניים הבסיסיים השולטים ברצפים גנומיים. הוא פיתח הבנה של איך DNA “נורמלי” נראה במינים ובהקשרים שונים.

למידת תכונות ביולוגיות מנתונים גולמיים

היכולות של Evo 2 חורגות מעבר לזיהוי פשוט של דפוסים ברצפי DNA. הוא הוכיח את היכולת ללמוד תכונות ביולוגיות ישירות מנתוני האימון הגולמיים, ללא כל תכנות או הדרכה מפורשים. תכונות אלה כוללות:

  • אלמנטים גנטיים ניידים: רצפי DNA שיכולים לנוע בתוך הגנום.
  • מוטיבים רגולטוריים: רצפים קצרים השולטים בביטוי גנים.
  • מבנה שניוני של חלבון: דפוסי הקיפול המקומיים של חלבונים.

זהו הישג יוצא דופן באמת. זה מסמל ש-Evo 2 לא רק קורא רצפי DNA; הוא תופס מידע מבני מסדר גבוה יותר שלא סופק במפורש בנתוני האימון. זה מקביל לאופן שבו ChatGPT יכול ליצור משפטים נכונים מבחינה דקדוקית מבלי שלמד במפורש כללי דקדוק. באופן דומה, Evo 2 יכול להשלים קטע של גנום עם מבנה ביולוגי תקף, גם מבלי שנאמר לו מהו גן או חלבון.

יצירת רצפי DNA חדשים

בדיוק כפי שמודלי GPT יכולים ליצור טקסט חדש, Evo 2 יכול ליצור רצפי DNA חדשים לגמרי. זה פותח אפשרויות מרגשות בתחום הביולוגיה הסינתטית, שבו מדענים שואפים לתכנן ולהנדס מערכות ביולוגיות עבור יישומים שונים.

Evo 2 כבר שימש ליצירת:

  • גנומים מיטוכונדריאליים: ה-DNA שנמצא במיטוכונדריה, תחנות הכוח של התאים.
  • גנומים חיידקיים: החומר הגנטי השלם של חיידקים.
  • חלקים מגנומים של שמרים: קטעים מה-DNA של שמרים, אורגניזם נפוץ במחקר ובתעשייה.

יכולות אלה עשויות להיות בעלות ערך רב בתכנון אורגניזמים עבור:

  • ייצור ביולוגי: ייצור תרכובות יקרות ערך באמצעות חיידקים מהונדסים.
  • לכידת פחמן: פיתוח אורגניזמים שיכולים להסיר ביעילות פחמן דו חמצני מהאטמוספירה.
  • סינתזת תרופות: יצירת מסלולים חדשים לייצור תרופות.

עם זאת, חשוב להכיר במגבלות הנוכחיות של Evo 2, בדומה לגרסאות המוקדמות של מודלי שפה גדולים. בעוד שהוא יכול ליצור רצפי DNA סבירים מבחינה ביולוגית, אין ערובה לכך שרצפים אלה יהיו פונקציונליים ללא אימות ניסיוני. יצירת DNA חדשני ופונקציונלי נותרה אתגר משמעותי. אבל בהתחשב בהתקדמות המהירה במודלי שפה, מ-GPT-3 למודלים מתקדמים יותר כמו DeepSeek, קל לדמיין עתיד שבו כלי ביולוגיה גנרטיבית יהפכו למתוחכמים וחזקים יותר ויותר.

קוד פתוח והתקדמות מהירה

היבט משמעותי של Evo 2 הוא אופיו כקוד פתוח. פרמטרי המודל, קוד האימון המקדים, קוד ההסקה ומערך הנתונים המלא שעליו הוא אומן זמינים כולם לציבור. זה מטפח שיתוף פעולה ומאיץ את ההתקדמות בתחום.

מהירות הפיתוח בתחום זה ראויה לציון גם כן. Evo 1, קודמו של Evo 2, שוחרר רק כמה חודשים קודם לכן, בנובמבר 2024. הוא כבר היה הישג משמעותי, שאומן על גנומים פרוקריוטיים עם כ-300 מיליארד טוקנים וחלון הקשר של 131,000 זוגות בסיסים. עם זאת, הפונקציונליות שלו הייתה מוגבלת יחסית.

כעת, חודשים ספורים לאחר מכן, הגיע Evo 2, המתגאה בגידול של פי 30 בגודל נתוני האימון, הרחבה של פי שמונה של חלון ההקשר ויכולות חדשות לגמרי. אבולוציה מהירה זו משקפת את השיפורים המהירים להפליא שראינו במודלי שפה, שעברו מהזיות תכופות להתמודדות עם משימות מורכבות ברמה אנושית תוך שנים ספורות.

בדיוק כפי שמודלי GPT חוללו מהפכה ביצירת שפה, מודלי שפת DNA אלה עומדים לשנות את הבנתנו את קוד החיים עצמו. היישומים הפוטנציאליים הם עצומים ומרחיקי לכת, ומבטיחים לחולל מהפכה בתחומים שונים, החל מרפואה ועד חקלאות ועד מדעי הסביבה. עתיד הביולוגיה מעולם לא נראה מרגש יותר. ההתקדמות המהירה של בינה מלאכותית גנרטיבית מיושמת כעת על הקוד הבסיסי ביותר. ההתקדמות המהירה משקפת את זו של מודלי שפה גדולים (LLMs).