فك رموز لغة الحمض النووي
الحمض النووي (DNA)، مخطط جميع الكائنات الحية، يتكون من النيوكليوتيدات، التي يرمز لها بالأحرف A و C و G و T. تتزاوج هذه النيوكليوتيدات لتشكيل هيكل الحلزون المزدوج الشهير. داخل هذا الهيكل تكمن الجينات والتسلسلات التنظيمية، وكلها معبأة بدقة في الكروموسومات، والتي تشكل مجتمعة الجينوم. يمتلك كل نوع على وجه الأرض تسلسلًا جينوميًا فريدًا، وفي الواقع، كل فرد داخل النوع لديه تباين مميز خاص به.
في حين أن الاختلافات بين أفراد النوع الواحد طفيفة نسبيًا، وتمثل جزءًا صغيرًا فقط من إجمالي الجينوم، فإن الاختلافات بين الأنواع أكثر أهمية. على سبيل المثال، يتكون الجينوم البشري من حوالي 3 مليارات زوج قاعدي. تكشف المقارنة بين شخصين عشوائيين عن اختلاف يبلغ حوالي 3 ملايين زوج قاعدي - أي 0.1٪ فقط. ومع ذلك، عند مقارنة الجينوم البشري بجينوم أقرب أقربائنا، الشمبانزي، يقفز الاختلاف إلى ما يقرب من 30 مليون زوج قاعدي، أو حوالي 1٪.
هذه الاختلافات التي تبدو صغيرة تفسر التنوع الجيني الهائل الذي نلاحظه، ليس فقط بين البشر ولكن عبر طيف الحياة بأكمله. في السنوات الأخيرة، حقق العلماء خطوات كبيرة في تسلسل جينومات آلاف الأنواع، مما أدى إلى تحسين فهمنا لهذه اللغة المعقدة بشكل مطرد. ومع ذلك، ما زلنا نبدأ فقط في خدش سطح تعقيدها.
Evo 2: ChatGPT للحمض النووي
يمثل نموذج Evo 2 من معهد Arc Institute قفزة كبيرة إلى الأمام في تطبيق الذكاء الاصطناعي التوليدي على مجال علم الأحياء. هذا النموذج، الذي تم إصداره مؤخرًا، هو إنجاز هندسي رائع. تم تدريبه على 9.3 تريليون زوج قاعدي من الحمض النووي، وهي مجموعة بيانات مشتقة من أطلس جينومي منسق بعناية يشمل جميع مجالات الحياة. لوضع هذا في منظوره الصحيح، يُقدر أن GPT-4 قد تم تدريبه على حوالي 6.5 تريليون رمز، في حين تم تدريب LLaMA 3 من Meta و DeepSeek V3 على ما يقرب من 15 تريليون رمز. من حيث حجم بيانات التدريب، يقف Evo 2 جنبًا إلى جنب مع نماذج اللغة الرائدة.
التنبؤ بتأثير الطفرات
إحدى القدرات الرئيسية لـ Evo 2 هي قدرته على التنبؤ بآثار الطفرات داخل الجين. تحتوي الجينات عادةً على التعليمات التي تستخدمها الخلايا لبناء البروتينات، وهي اللبنات الأساسية للحياة. العملية المعقدة لكيفية طي هذه البروتينات في هياكل وظيفية هي تحدٍ آخر للتنبؤ المعقد، وقد عالجته DeepMind’s AlphaFold بشكل مشهور. ولكن ماذا يحدث عندما يتغير تسلسل الجين؟
يمكن أن يكون للطفرات مجموعة واسعة من العواقب. بعضها كارثي، مما يؤدي إلى بروتينات غير وظيفية أو عيوب نمو شديدة. البعض الآخر ضار، مما يسبب تغييرات طفيفة ولكنها ضارة. العديد من الطفرات محايدة، وليس لها أي تأثير ملحوظ على الكائن الحي. ويمكن لعدد قليل منها أن يكون مفيدًا، مما يمنح ميزة في بيئات معينة. يكمن التحدي في تحديد الفئة التي تقع فيها طفرة معينة.
هنا يظهر Evo 2 قدراته الرائعة. في مجموعة متنوعة من مهام التنبؤ بالمتغيرات، فإنه يطابق أو حتى يتجاوز أداء النماذج الحالية والمتخصصة للغاية. هذا يعني أنه يمكنه التنبؤ بشكل فعال بالطفرات التي من المحتمل أن تكون مسببة للأمراض، أو المتغيرات الجينية المعروفة للسرطان، مثل BRCA1 (المرتبط بسرطان الثدي)، ذات الأهمية السريرية.
الأمر الأكثر إثارة للدهشة هو أن Evo 2 لم يتم تدريبه بشكل خاص على بيانات المتغيرات البشرية. كان تدريبه يعتمد فقط على الجينوم المرجعي البشري القياسي. ومع ذلك، لا يزال بإمكانه الاستدلال بدقة على الطفرات التي من المحتمل أن تكون ضارة بالبشر. يشير هذا إلى أن النموذج قد تعلم القيود التطورية الأساسية التي تحكم التسلسلات الجينومية. لقد طور فهمًا لما يبدو عليه الحمض النووي ‘الطبيعي’ عبر الأنواع والسياقات المختلفة.
تعلم السمات البيولوجية من البيانات الخام
تمتد قدرات Evo 2 إلى ما هو أبعد من مجرد التعرف على الأنماط في تسلسلات الحمض النووي. لقد أظهر القدرة على تعلم السمات البيولوجية مباشرة من بيانات التدريب الخام، دون أي برمجة أو توجيه صريح. وتشمل هذه الميزات:
- العناصر الجينية المتنقلة: تسلسلات الحمض النووي التي يمكن أن تتحرك داخل الجينوم.
- الزخارف التنظيمية: تسلسلات قصيرة تتحكم في التعبير الجيني.
- البنية الثانوية للبروتين: أنماط الطي المحلية للبروتينات.
هذا إنجاز رائع حقًا. إنه يعني أن Evo 2 لا يقرأ فقط تسلسلات الحمض النووي؛ إنه يستوعب معلومات هيكلية عالية المستوى لم يتم توفيرها صراحة في بيانات التدريب. هذا يوازي الطريقة التي يمكن بها لـ ChatGPT إنشاء جمل صحيحة نحويًا دون أن يتم تدريسه بشكل صريح قواعد النحو. وبالمثل، يمكن لـ Evo 2 إكمال جزء من الجينوم بهيكل بيولوجي صالح، حتى بدون إخباره بما هو الجين أو البروتين.
توليد تسلسلات DNA جديدة
مثلما يمكن لنماذج GPT إنشاء نص جديد، يمكن لـ Evo 2 إنشاء تسلسلات DNA جديدة تمامًا. يفتح هذا إمكانيات مثيرة في مجال البيولوجيا التركيبية، حيث يهدف العلماء إلى تصميم وهندسة الأنظمة البيولوجية لمختلف التطبيقات.
تم استخدام Evo 2 بالفعل لإنشاء:
- جينومات الميتوكوندريا: الحمض النووي الموجود في الميتوكوندريا، وهي مراكز قوة الخلايا.
- جينومات بكتيرية: المادة الوراثية الكاملة للبكتيريا.
- أجزاء من جينومات الخميرة: أقسام من الحمض النووي للخميرة، وهي كائن حي شائع الاستخدام في البحث والصناعة.
يمكن أن تكون هذه القدرات لا تقدر بثمن في تصميم الكائنات الحية من أجل:
- التصنيع الحيوي: إنتاج مركبات قيمة باستخدام ميكروبات مهندسة.
- احتجاز الكربون: تطوير كائنات حية يمكنها إزالة ثاني أكسيد الكربون بكفاءة من الغلاف الجوي.
- تخليق الأدوية: إنشاء مسارات جديدة لإنتاج الأدوية.
ومع ذلك، من المهم الاعتراف بالقيود الحالية لـ Evo 2، مثل الإصدارات المبكرة من نماذج اللغات الكبيرة. في حين أنه يمكنه إنشاء تسلسلات DNA معقولة بيولوجيًا، فلا يوجد ضمان بأن هذه التسلسلات ستكون وظيفية دون التحقق التجريبي. يظل توليد DNA وظيفي جديد تحديًا كبيرًا. ولكن بالنظر إلى التقدم السريع في نماذج اللغة، من GPT-3 إلى نماذج أكثر تقدمًا مثل DeepSeek، فمن السهل تصور مستقبل تصبح فيه أدوات البيولوجيا التوليدية متطورة وقوية بشكل متزايد.
مفتوح المصدر والتقدم السريع
أحد الجوانب الهامة لـ Evo 2 هو طبيعته مفتوحة المصدر. معلمات النموذج، ورمز التدريب المسبق، ورمز الاستدلال، ومجموعة البيانات الكاملة التي تم تدريبه عليها، كلها متاحة للجمهور. هذا يعزز التعاون ويسرع التقدم في هذا المجال.
سرعة التطور في هذا المجال جديرة بالملاحظة أيضًا. تم إصدار Evo 1، سلف Evo 2، قبل بضعة أشهر فقط، في نوفمبر 2024. لقد كان بالفعل إنجازًا مهمًا، حيث تم تدريبه على جينومات بدائية النواة بحوالي 300 مليار رمز ونافذة سياق تبلغ 131000 زوج قاعدي. ومع ذلك، كانت وظائفه محدودة نسبيًا.
الآن، بعد أشهر قليلة فقط، وصل Evo 2، ويتميز بزيادة قدرها 30 ضعفًا في حجم بيانات التدريب، وتوسيع ثمانية أضعاف لنافذة السياق، وقدرات جديدة تمامًا. يعكس هذا التطور السريع التحسينات السريعة المذهلة التي شهدناها في نماذج اللغة، والتي انتقلت من الهلوسة المتكررة إلى معالجة المهام المعقدة بكفاءة على مستوى الإنسان في غضون سنوات قليلة.
مثلما أحدثت نماذج GPT ثورة في توليد اللغة، فإن نماذج لغة الحمض النووي هذه مهيأة لتحويل فهمنا لشيفرة الحياة نفسها. التطبيقات المحتملة واسعة وبعيدة المدى، وتعد بإحداث ثورة في مجالات تتراوح من الطب إلى الزراعة إلى العلوم البيئية. لم يكن مستقبل علم الأحياء يبدو أكثر إثارة من أي وقت مضى.