رمزگشایی زبان DNA
DNA، نقشه اولیه تمام موجودات زنده، از نوکلئوتیدها تشکیل شده است که با حروف A، C، G و T نشان داده میشوند. این نوکلئوتیدها جفت میشوند تا ساختار مارپیچ دوگانه نمادین را تشکیل دهند. در داخل این ساختار، ژنها و توالیهای تنظیمی قرار دارند که همگی به طور منظمی در کروموزومها بستهبندی شدهاند، که مجموعاً ژنوم را تشکیل میدهند. هر گونه روی زمین دارای یک توالی ژنومی منحصر به فرد است و در واقع، هر فرد در یک گونه دارای تنوع متمایز خود است.
در حالی که تفاوتهای بین افراد یک گونه نسبتاً جزئی است و تنها بخش کوچکی از کل ژنوم را نشان میدهد، تنوع بین گونهها بسیار بیشتر است. به عنوان مثال، ژنوم انسان تقریباً 3 میلیارد جفت باز را شامل میشود. مقایسه بین دو انسان تصادفی، تفاوتی در حدود 3 میلیون جفت باز را نشان میدهد - یعنی فقط 0.1٪. با این حال، هنگام مقایسه ژنوم انسان با نزدیکترین خویشاوند ما، شامپانزه، این تفاوت به حدود 30 میلیون جفت باز یا حدود 1٪ میرسد.
این تغییرات به ظاهر کوچک، تنوع ژنتیکی گستردهای را که مشاهده میکنیم، نه تنها در میان انسانها، بلکه در کل طیف حیات، توضیح میدهد. در سالهای اخیر، دانشمندان پیشرفتهای چشمگیری در توالییابی ژنوم هزاران گونه داشتهاند و به طور پیوسته درک ما از این زبان پیچیده را بهبود میبخشند. با این حال، ما هنوز در ابتدای راه درک پیچیدگی آن هستیم.
Evo 2: یک ChatGPT برای DNA
مدل Evo 2 موسسه Arc، جهشی قابل توجه در استفاده از هوش مصنوعی مولد در حوزه زیستشناسی است. این مدل که اخیراً منتشر شده، یک شاهکار مهندسی قابل توجه است. این مدل بر روی 9.3 تریلیون جفت باز DNA آموزش داده شده است، مجموعه دادهای که از یک اطلس ژنومی با دقت انتخاب شده و شامل تمام حوزههای حیات است، به دست آمده است. برای درک بهتر این موضوع، تخمین زده میشود که GPT-4 بر روی حدود 6.5 تریلیون توکن آموزش داده شده است، در حالی که LLaMA 3 متا و DeepSeek V3 هر دو بر روی تقریباً 15 تریلیون توکن آموزش داده شدهاند. از نظر حجم دادههای آموزشی، Evo 2 همرده با مدلهای زبانی پیشرو است.
پیشبینی تأثیر جهشها
یکی از قابلیتهای کلیدی Evo 2، توانایی آن در پیشبینی اثرات جهش در یک ژن است. ژنها معمولاً حاوی دستورالعملهایی هستند که سلولها برای ساخت پروتئینها، واحدهای سازنده اساسی حیات، از آنها استفاده میکنند. فرآیند پیچیده نحوه تا شدن این پروتئینها به ساختارهای عملکردی، چالش پیشبینی پیچیده دیگری است که توسط AlphaFold دیپمایند به طور مشهوری مورد بررسی قرار گرفته است. اما وقتی توالی یک ژن تغییر میکند چه اتفاقی میافتد؟
جهشها میتوانند طیف گستردهای از پیامدها را داشته باشند. برخی فاجعهبار هستند و منجر به پروتئینهای غیرعملکردی یا نقصهای شدید رشدی میشوند. برخی دیگر مضر هستند و باعث تغییرات ظریف اما زیانآور میشوند. بسیاری از جهشها خنثی هستند و هیچ تأثیر قابل تشخیصی بر ارگانیسم ندارند. و تعداد کمی از آنها حتی میتوانند مفید باشند و مزیتی را در محیطهای خاص ایجاد کنند. چالش در تعیین این است که یک جهش خاص در کدام دسته قرار میگیرد.
اینجاست که Evo 2 تواناییهای قابل توجه خود را نشان میدهد. در انواع وظایف پیشبینی واریانت، عملکرد آن با مدلهای موجود و بسیار تخصصی مطابقت دارد یا حتی از آنها پیشی میگیرد. این بدان معناست که میتواند به طور موثر پیشبینی کند که کدام جهشها احتمالاً بیماریزا هستند، یا کدام واریانتهای ژنهای سرطانی شناخته شده، مانند BRCA1 (مرتبط با سرطان سینه)، از نظر بالینی معنیدار هستند.
نکته قابل توجهتر این است که Evo 2 به طور خاص بر روی دادههای واریانت انسانی آموزش داده نشده است. آموزش آن صرفاً بر اساس ژنوم مرجع استاندارد انسانی بوده است. با این حال، هنوز هم میتواند به طور دقیق استنباط کند که کدام جهشها احتمالاً در انسان مضر هستند. این نشان میدهد که این مدل، محدودیتهای تکاملی اساسی را که بر توالیهای ژنومی حاکم است، آموخته است. این مدل درکی از اینکه DNA “عادی” در گونهها و زمینههای مختلف چگونه به نظر میرسد، ایجاد کرده است.
یادگیری ویژگیهای بیولوژیکی از دادههای خام
قابلیتهای Evo 2 فراتر از تشخیص الگوها در توالیهای DNA است. این مدل توانایی یادگیری ویژگیهای بیولوژیکی را مستقیماً از دادههای خام آموزشی، بدون هیچ برنامهنویسی یا راهنمایی صریح، نشان داده است. این ویژگیها عبارتند از:
- عناصر ژنتیکی متحرک: توالیهای DNA که میتوانند در ژنوم حرکت کنند.
- موتیفهای تنظیمی: توالیهای کوتاهی که بیان ژن را کنترل میکنند.
- ساختار ثانویه پروتئین: الگوهای تاخوردگی موضعی پروتئینها.
این یک دستاورد واقعاً قابل توجه است. این نشان میدهد که Evo 2 فقط توالیهای DNA را نمیخواند. بلکه اطلاعات ساختاری مرتبه بالاتری را درک میکند که به طور صریح در دادههای آموزشی ارائه نشده است. این مشابه روشی است که ChatGPT میتواند جملات صحیح گرامری را بدون اینکه به طور صریح قواعد دستور زبان را آموخته باشد، تولید کند. به طور مشابه، Evo 2 میتواند یک بخش از ژنوم را با یک ساختار بیولوژیکی معتبر تکمیل کند، حتی بدون اینکه به آن گفته شود ژن یا پروتئین چیست.
تولید توالیهای DNA جدید
همانطور که مدلهای GPT میتوانند متن جدید تولید کنند، Evo 2 میتواند توالیهای DNA کاملاً جدیدی تولید کند. این امر امکانات هیجانانگیزی را در زمینه زیستشناسی مصنوعی ایجاد میکند، جایی که دانشمندان قصد دارند سیستمهای بیولوژیکی را برای کاربردهای مختلف طراحی و مهندسی کنند.
Evo 2 قبلاً برای تولید موارد زیر استفاده شده است:
- ژنومهای میتوکندریایی: DNA موجود در میتوکندری، نیروگاههای سلولها.
- ژنومهای باکتریایی: کل ماده ژنتیکی باکتریها.
- بخشهایی از ژنومهای مخمر: بخشهایی از DNA مخمر، ارگانیسمی که معمولاً در تحقیقات و صنعت استفاده میشود.
این قابلیتها میتواند در طراحی ارگانیسمها برای موارد زیر ارزشمند باشد:
- تولید زیستی: تولید ترکیبات ارزشمند با استفاده از میکروبهای مهندسی شده.
- جذب کربن: توسعه ارگانیسمهایی که میتوانند به طور موثر دیاکسید کربن را از جو حذف کنند.
- سنتز دارو: ایجاد مسیرهای جدید برای تولید داروها.
با این حال، مهم است که محدودیتهای فعلی Evo 2 را، مانند نسخههای اولیه مدلهای زبانی بزرگ، بشناسیم. در حالی که میتواند توالیهای DNA قابل قبولی از نظر بیولوژیکی تولید کند، هیچ تضمینی وجود ندارد که این توالیها بدون تأیید تجربی، عملکردی باشند. تولید DNA جدید و کاربردی همچنان یک چالش مهم است. اما با توجه به پیشرفت سریع مدلهای زبانی، از GPT-3 تا مدلهای پیشرفتهتر مانند DeepSeek، به راحتی میتوان آیندهای را تصور کرد که در آن ابزارهای زیستشناسی مولد به طور فزایندهای پیچیده و قدرتمند میشوند.
متنباز و پیشرفت سریع
یکی از جنبههای مهم Evo 2، ماهیت متنباز آن است. پارامترهای مدل، کد پیشآموزش، کد استنتاج و مجموعه داده کاملی که بر روی آن آموزش داده شده است، همگی در دسترس عموم هستند. این امر همکاری را تقویت میکند و پیشرفت در این زمینه را تسریع میبخشد.
سرعت توسعه در این زمینه نیز قابل توجه است. Evo 1، نسخه قبلی Evo 2، تنها چند ماه قبل، در نوامبر 2024 منتشر شد. این مدل در حال حاضر یک دستاورد مهم بود که بر روی ژنومهای پروکاریوتی با حدود 300 میلیارد توکن و یک پنجره متنی 131000 جفت باز آموزش داده شده بود. با این حال، عملکرد آن نسبتاً محدود بود.
اکنون، تنها چند ماه بعد، Evo 2 با افزایش 30 برابری اندازه دادههای آموزشی، گسترش هشت برابری پنجره متنی و قابلیتهای کاملاً جدید، وارد شده است. این تکامل سریع، منعکسکننده پیشرفتهای شگفتانگیز سریعی است که در مدلهای زبانی شاهد بودهایم، که در عرض چند سال از توهمات مکرر به انجام وظایف پیچیده در سطح مهارت انسانی رسیدند.
همانطور که مدلهای GPT تولید زبان را متحول کردند، این مدلهای زبانی DNA نیز آمادهاند تا درک ما از کد حیات را متحول کنند. کاربردهای بالقوه گسترده و دور از دسترس هستند و نویدبخش انقلابی در زمینههایی از پزشکی گرفته تا کشاورزی و علوم محیطی هستند. آینده زیستشناسی هرگز هیجانانگیزتر از این نبوده است.