زیست‌شناسی مولد: بازنویسی کد حیات

رمزگشایی زبان DNA

DNA، نقشه اولیه تمام موجودات زنده، از نوکلئوتیدها تشکیل شده است که با حروف A، C، G و T نشان داده می‌شوند. این نوکلئوتیدها جفت می‌شوند تا ساختار مارپیچ دوگانه نمادین را تشکیل دهند. در داخل این ساختار، ژن‌ها و توالی‌های تنظیمی قرار دارند که همگی به طور منظمی در کروموزوم‌ها بسته‌بندی شده‌اند، که مجموعاً ژنوم را تشکیل می‌دهند. هر گونه روی زمین دارای یک توالی ژنومی منحصر به فرد است و در واقع، هر فرد در یک گونه دارای تنوع متمایز خود است.

در حالی که تفاوت‌های بین افراد یک گونه نسبتاً جزئی است و تنها بخش کوچکی از کل ژنوم را نشان می‌دهد، تنوع بین گونه‌ها بسیار بیشتر است. به عنوان مثال، ژنوم انسان تقریباً 3 میلیارد جفت باز را شامل می‌شود. مقایسه بین دو انسان تصادفی، تفاوتی در حدود 3 میلیون جفت باز را نشان می‌دهد - یعنی فقط 0.1٪. با این حال، هنگام مقایسه ژنوم انسان با نزدیکترین خویشاوند ما، شامپانزه، این تفاوت به حدود 30 میلیون جفت باز یا حدود 1٪ می‌رسد.

این تغییرات به ظاهر کوچک، تنوع ژنتیکی گسترده‌ای را که مشاهده می‌کنیم، نه تنها در میان انسان‌ها، بلکه در کل طیف حیات، توضیح می‌دهد. در سال‌های اخیر، دانشمندان پیشرفت‌های چشمگیری در توالی‌یابی ژنوم هزاران گونه داشته‌اند و به طور پیوسته درک ما از این زبان پیچیده را بهبود می‌بخشند. با این حال، ما هنوز در ابتدای راه درک پیچیدگی آن هستیم.

Evo 2: یک ChatGPT برای DNA

مدل Evo 2 موسسه Arc، جهشی قابل توجه در استفاده از هوش مصنوعی مولد در حوزه زیست‌شناسی است. این مدل که اخیراً منتشر شده، یک شاهکار مهندسی قابل توجه است. این مدل بر روی 9.3 تریلیون جفت باز DNA آموزش داده شده است، مجموعه داده‌ای که از یک اطلس ژنومی با دقت انتخاب شده و شامل تمام حوزه‌های حیات است، به دست آمده است. برای درک بهتر این موضوع، تخمین زده می‌شود که GPT-4 بر روی حدود 6.5 تریلیون توکن آموزش داده شده است، در حالی که LLaMA 3 متا و DeepSeek V3 هر دو بر روی تقریباً 15 تریلیون توکن آموزش داده شده‌اند. از نظر حجم داده‌های آموزشی، Evo 2 هم‌رده با مدل‌های زبانی پیشرو است.

پیش‌بینی تأثیر جهش‌ها

یکی از قابلیت‌های کلیدی Evo 2، توانایی آن در پیش‌بینی اثرات جهش در یک ژن است. ژن‌ها معمولاً حاوی دستورالعمل‌هایی هستند که سلول‌ها برای ساخت پروتئین‌ها، واحدهای سازنده اساسی حیات، از آنها استفاده می‌کنند. فرآیند پیچیده نحوه تا شدن این پروتئین‌ها به ساختارهای عملکردی، چالش پیش‌بینی پیچیده دیگری است که توسط AlphaFold دیپ‌مایند به طور مشهوری مورد بررسی قرار گرفته است. اما وقتی توالی یک ژن تغییر می‌کند چه اتفاقی می‌افتد؟

جهش‌ها می‌توانند طیف گسترده‌ای از پیامدها را داشته باشند. برخی فاجعه‌بار هستند و منجر به پروتئین‌های غیرعملکردی یا نقص‌های شدید رشدی می‌شوند. برخی دیگر مضر هستند و باعث تغییرات ظریف اما زیان‌آور می‌شوند. بسیاری از جهش‌ها خنثی هستند و هیچ تأثیر قابل تشخیصی بر ارگانیسم ندارند. و تعداد کمی از آنها حتی می‌توانند مفید باشند و مزیتی را در محیط‌های خاص ایجاد کنند. چالش در تعیین این است که یک جهش خاص در کدام دسته قرار می‌گیرد.

اینجاست که Evo 2 توانایی‌های قابل توجه خود را نشان می‌دهد. در انواع وظایف پیش‌بینی واریانت، عملکرد آن با مدل‌های موجود و بسیار تخصصی مطابقت دارد یا حتی از آنها پیشی می‌گیرد. این بدان معناست که می‌تواند به طور موثر پیش‌بینی کند که کدام جهش‌ها احتمالاً بیماری‌زا هستند، یا کدام واریانت‌های ژن‌های سرطانی شناخته شده، مانند BRCA1 (مرتبط با سرطان سینه)، از نظر بالینی معنی‌دار هستند.

نکته قابل توجه‌تر این است که Evo 2 به طور خاص بر روی داده‌های واریانت انسانی آموزش داده نشده است. آموزش آن صرفاً بر اساس ژنوم مرجع استاندارد انسانی بوده است. با این حال، هنوز هم می‌تواند به طور دقیق استنباط کند که کدام جهش‌ها احتمالاً در انسان مضر هستند. این نشان می‌دهد که این مدل، محدودیت‌های تکاملی اساسی را که بر توالی‌های ژنومی حاکم است، آموخته است. این مدل درکی از اینکه DNA “عادی” در گونه‌ها و زمینه‌های مختلف چگونه به نظر می‌رسد، ایجاد کرده است.

یادگیری ویژگی‌های بیولوژیکی از داده‌های خام

قابلیت‌های Evo 2 فراتر از تشخیص الگوها در توالی‌های DNA است. این مدل توانایی یادگیری ویژگی‌های بیولوژیکی را مستقیماً از داده‌های خام آموزشی، بدون هیچ برنامه‌نویسی یا راهنمایی صریح، نشان داده است. این ویژگی‌ها عبارتند از:

  • عناصر ژنتیکی متحرک: توالی‌های DNA که می‌توانند در ژنوم حرکت کنند.
  • موتیف‌های تنظیمی: توالی‌های کوتاهی که بیان ژن را کنترل می‌کنند.
  • ساختار ثانویه پروتئین: الگوهای تاخوردگی موضعی پروتئین‌ها.

این یک دستاورد واقعاً قابل توجه است. این نشان می‌دهد که Evo 2 فقط توالی‌های DNA را نمی‌خواند. بلکه اطلاعات ساختاری مرتبه بالاتری را درک می‌کند که به طور صریح در داده‌های آموزشی ارائه نشده است. این مشابه روشی است که ChatGPT می‌تواند جملات صحیح گرامری را بدون اینکه به طور صریح قواعد دستور زبان را آموخته باشد، تولید کند. به طور مشابه، Evo 2 می‌تواند یک بخش از ژنوم را با یک ساختار بیولوژیکی معتبر تکمیل کند، حتی بدون اینکه به آن گفته شود ژن یا پروتئین چیست.

تولید توالی‌های DNA جدید

همانطور که مدل‌های GPT می‌توانند متن جدید تولید کنند، Evo 2 می‌تواند توالی‌های DNA کاملاً جدیدی تولید کند. این امر امکانات هیجان‌انگیزی را در زمینه زیست‌شناسی مصنوعی ایجاد می‌کند، جایی که دانشمندان قصد دارند سیستم‌های بیولوژیکی را برای کاربردهای مختلف طراحی و مهندسی کنند.

Evo 2 قبلاً برای تولید موارد زیر استفاده شده است:

  • ژنوم‌های میتوکندریایی: DNA موجود در میتوکندری، نیروگاه‌های سلول‌ها.
  • ژنوم‌های باکتریایی: کل ماده ژنتیکی باکتری‌ها.
  • بخش‌هایی از ژنوم‌های مخمر: بخش‌هایی از DNA مخمر، ارگانیسمی که معمولاً در تحقیقات و صنعت استفاده می‌شود.

این قابلیت‌ها می‌تواند در طراحی ارگانیسم‌ها برای موارد زیر ارزشمند باشد:

  • تولید زیستی: تولید ترکیبات ارزشمند با استفاده از میکروب‌های مهندسی شده.
  • جذب کربن: توسعه ارگانیسم‌هایی که می‌توانند به طور موثر دی‌اکسید کربن را از جو حذف کنند.
  • سنتز دارو: ایجاد مسیرهای جدید برای تولید داروها.

با این حال، مهم است که محدودیت‌های فعلی Evo 2 را، مانند نسخه‌های اولیه مدل‌های زبانی بزرگ، بشناسیم. در حالی که می‌تواند توالی‌های DNA قابل قبولی از نظر بیولوژیکی تولید کند، هیچ تضمینی وجود ندارد که این توالی‌ها بدون تأیید تجربی، عملکردی باشند. تولید DNA جدید و کاربردی همچنان یک چالش مهم است. اما با توجه به پیشرفت سریع مدل‌های زبانی، از GPT-3 تا مدل‌های پیشرفته‌تر مانند DeepSeek، به راحتی می‌توان آینده‌ای را تصور کرد که در آن ابزارهای زیست‌شناسی مولد به طور فزاینده‌ای پیچیده و قدرتمند می‌شوند.

متن‌باز و پیشرفت سریع

یکی از جنبه‌های مهم Evo 2، ماهیت متن‌باز آن است. پارامترهای مدل، کد پیش‌آموزش، کد استنتاج و مجموعه داده کاملی که بر روی آن آموزش داده شده است، همگی در دسترس عموم هستند. این امر همکاری را تقویت می‌کند و پیشرفت در این زمینه را تسریع می‌بخشد.

سرعت توسعه در این زمینه نیز قابل توجه است. Evo 1، نسخه قبلی Evo 2، تنها چند ماه قبل، در نوامبر 2024 منتشر شد. این مدل در حال حاضر یک دستاورد مهم بود که بر روی ژنوم‌های پروکاریوتی با حدود 300 میلیارد توکن و یک پنجره متنی 131000 جفت باز آموزش داده شده بود. با این حال، عملکرد آن نسبتاً محدود بود.

اکنون، تنها چند ماه بعد، Evo 2 با افزایش 30 برابری اندازه داده‌های آموزشی، گسترش هشت برابری پنجره متنی و قابلیت‌های کاملاً جدید، وارد شده است. این تکامل سریع، منعکس‌کننده پیشرفت‌های شگفت‌انگیز سریعی است که در مدل‌های زبانی شاهد بوده‌ایم، که در عرض چند سال از توهمات مکرر به انجام وظایف پیچیده در سطح مهارت انسانی رسیدند.

همانطور که مدل‌های GPT تولید زبان را متحول کردند، این مدل‌های زبانی DNA نیز آماده‌اند تا درک ما از کد حیات را متحول کنند. کاربردهای بالقوه گسترده و دور از دسترس هستند و نویدبخش انقلابی در زمینه‌هایی از پزشکی گرفته تا کشاورزی و علوم محیطی هستند. آینده زیست‌شناسی هرگز هیجان‌انگیزتر از این نبوده است.