जीवन की संहिता को पुनः लिखना

DNA की भाषा को समझना

DNA, सभी जीवित जीवों का ब्लूप्रिंट, न्यूक्लियोटाइड्स से बना होता है, जिन्हें A, C, G, और T अक्षरों द्वारा दर्शाया जाता है। ये न्यूक्लियोटाइड्स मिलकर प्रतिष्ठित डबल हेलिक्स संरचना बनाते हैं। इस संरचना के भीतर जीन और नियामक अनुक्रम होते हैं, जो सभी गुणसूत्रों में बड़े करीने से पैक किए जाते हैं, जो सामूहिक रूप से जीनोम का निर्माण करते हैं। पृथ्वी पर प्रत्येक प्रजाति का एक अद्वितीय जीनोमिक अनुक्रम होता है, और वास्तव में, एक प्रजाति के भीतर प्रत्येक व्यक्ति का अपना विशिष्ट रूपांतर होता है।

जबकि एक ही प्रजाति के व्यक्तियों के बीच अंतर अपेक्षाकृत मामूली होते हैं, जो कुल जीनोम के एक छोटे से अंश का प्रतिनिधित्व करते हैं, प्रजातियों के बीच भिन्नताएं कहीं अधिक महत्वपूर्ण होती हैं। उदाहरण के लिए, मानव जीनोम में लगभग 3 बिलियन बेस पेयर होते हैं। दो यादृच्छिक मनुष्यों के बीच तुलना लगभग 3 मिलियन बेस पेयर का अंतर दर्शाती है - केवल 0.1%। हालांकि, जब मानव जीनोम की तुलना हमारे निकटतम रिश्तेदार, चिंपैंजी से की जाती है, तो अंतर लगभग 30 मिलियन बेस पेयर या लगभग 1% तक बढ़ जाता है।

ये प्रतीत होने वाले छोटे परिवर्तन न केवल मनुष्यों के बीच, बल्कि जीवन के पूरे स्पेक्ट्रम में देखी जाने वाली विशाल आनुवंशिक विविधता के लिए जिम्मेदार हैं। हाल के वर्षों में, वैज्ञानिकों ने हजारों प्रजातियों के जीनोम को अनुक्रमित करने में महत्वपूर्ण प्रगति की है, जिससे इस जटिल भाषा की हमारी समझ में लगातार सुधार हो रहा है। हालाँकि, हम अभी भी इसकी जटिलता की सतह को खरोंचना शुरू कर रहे हैं।

Evo 2: DNA के लिए एक ChatGPT

Arc Institute का Evo 2 मॉडल जीव विज्ञान के क्षेत्र में जेनरेटिव AI को लागू करने में एक महत्वपूर्ण छलांग का प्रतिनिधित्व करता है। यह मॉडल, हाल ही में जारी किया गया, इंजीनियरिंग का एक उल्लेखनीय कारनामा है। इसे 9.3 ट्रिलियन DNA बेस पेयर पर प्रशिक्षित किया गया था, जो जीवन के सभी डोमेन को शामिल करते हुए एक सावधानीपूर्वक क्यूरेट किए गए जीनोमिक एटलस से प्राप्त डेटासेट है। इसे परिप्रेक्ष्य में रखने के लिए, GPT-4 का अनुमान लगभग 6.5 ट्रिलियन टोकन पर प्रशिक्षित किया गया है, जबकि Meta के LLaMA 3 और DeepSeek V3 दोनों को लगभग 15 ट्रिलियन टोकन पर प्रशिक्षित किया गया था। प्रशिक्षण डेटा वॉल्यूम के संदर्भ में, Evo 2 अग्रणी भाषा मॉडल के साथ कंधे से कंधा मिलाकर खड़ा है।

उत्परिवर्तन के प्रभाव की भविष्यवाणी करना

Evo 2 की प्रमुख क्षमताओं में से एक जीन के भीतर उत्परिवर्तन के प्रभावों की भविष्यवाणी करने की क्षमता है। जीन में आमतौर पर वे निर्देश होते हैं जिनका उपयोग कोशिकाएं प्रोटीन बनाने के लिए करती हैं, जो जीवन के मूलभूत निर्माण खंड हैं। इन प्रोटीनों के कार्यात्मक संरचनाओं में कैसे मुड़ते हैं, इसकी जटिल प्रक्रिया एक और जटिल भविष्यवाणी चुनौती है, जिसे DeepMind के AlphaFold द्वारा प्रसिद्ध रूप से संबोधित किया गया है। लेकिन क्या होता है जब एक जीन का अनुक्रम बदल जाता है?

उत्परिवर्तन के परिणामों की एक विस्तृत श्रृंखला हो सकती है। कुछ विनाशकारी होते हैं, जिससे गैर-कार्यात्मक प्रोटीन या गंभीर विकासात्मक दोष होते हैं। अन्य हानिकारक होते हैं, जिससे सूक्ष्म लेकिन हानिकारक परिवर्तन होते हैं। कई उत्परिवर्तन तटस्थ होते हैं, जिनका जीव पर कोई स्पष्ट प्रभाव नहीं पड़ता है। और कुछ दुर्लभ भी फायदेमंद हो सकते हैं, जो कुछ वातावरणों में लाभ प्रदान करते हैं। चुनौती यह निर्धारित करने में निहित है कि कोई विशेष उत्परिवर्तन किस श्रेणी में आता है।

यहीं पर Evo 2 अपनी उल्लेखनीय क्षमताओं का प्रदर्शन करता है। विभिन्न प्रकार के वेरिएंट भविष्यवाणी कार्यों में, यह मौजूदा, अत्यधिक विशिष्ट मॉडल के प्रदर्शन से मेल खाता है या उससे भी आगे निकल जाता है। इसका मतलब है कि यह प्रभावी ढंग से भविष्यवाणी कर सकता है कि कौन से उत्परिवर्तन रोगजनक होने की संभावना है, या ज्ञात कैंसर जीन के कौन से वेरिएंट, जैसे BRCA1 (स्तन कैंसर से जुड़ा), नैदानिक ​​​​रूप से महत्वपूर्ण हैं।

इससे भी अधिक उल्लेखनीय यह है कि Evo 2 को विशेष रूप से मानव वेरिएंट डेटा पर प्रशिक्षित नहीं किया गया था। इसका प्रशिक्षण पूरी तरह से मानक मानव संदर्भ जीनोम पर आधारित था। फिर भी, यह अभी भी सटीक रूप से अनुमान लगा सकता है कि कौन से उत्परिवर्तन मनुष्यों में हानिकारक होने की संभावना है। इससे पता चलता है कि मॉडल ने मौलिक विकासवादी बाधाओं को सीखा है जो जीनोमिक अनुक्रमों को नियंत्रित करते हैं। इसने विभिन्न प्रजातियों और संदर्भों में ‘सामान्य’ DNA कैसा दिखता है, इसकी समझ विकसित की है।

कच्चे डेटा से जैविक विशेषताओं को सीखना

Evo 2 की क्षमताएं केवल DNA अनुक्रमों में पैटर्न को पहचानने से परे हैं। इसने किसी भी स्पष्ट प्रोग्रामिंग या मार्गदर्शन के बिना, सीधे कच्चे प्रशिक्षण डेटा से जैविक विशेषताओं को सीखने की क्षमता का प्रदर्शन किया है। इन विशेषताओं में शामिल हैं:

  • मोबाइल आनुवंशिक तत्व: DNA अनुक्रम जो जीनोम के भीतर घूम सकते हैं।
  • नियामक रूपांकन: छोटे अनुक्रम जो जीन अभिव्यक्ति को नियंत्रित करते हैं।
  • प्रोटीन माध्यमिक संरचना: प्रोटीन के स्थानीय तह पैटर्न।

यह वास्तव में एक उल्लेखनीय उपलब्धि है। यह दर्शाता है कि Evo 2 न केवल DNA अनुक्रमों को पढ़ रहा है; यह उच्च-क्रम संरचनात्मक जानकारी को समझ रहा है जो प्रशिक्षण डेटा में स्पष्ट रूप से प्रदान नहीं की गई थी। यह उस तरीके के समानांतर है जिस तरह ChatGPT व्याकरण के नियमों को स्पष्ट रूप से सिखाए बिना व्याकरणिक रूप से सही वाक्य उत्पन्न कर सकता है। इसी तरह, Evo 2 एक जीन या प्रोटीन क्या है, यह बताए बिना भी जीनोम के एक खंड को एक वैध जैविक संरचना के साथ पूरा कर सकता है।

नवीन DNA अनुक्रम उत्पन्न करना

जैसे GPT मॉडल नया टेक्स्ट उत्पन्न कर सकते हैं, वैसे ही Evo 2 पूरी तरह से नए DNA अनुक्रम उत्पन्न कर सकता है। यह सिंथेटिक जीव विज्ञान के क्षेत्र में रोमांचक संभावनाएं खोलता है, जहां वैज्ञानिकों का लक्ष्य विभिन्न अनुप्रयोगों के लिए जैविक प्रणालियों को डिजाइन और इंजीनियर करना है।

Evo 2 का उपयोग पहले ही उत्पन्न करने के लिए किया जा चुका है:

  • माइटोकॉन्ड्रियल जीनोम: माइटोकॉन्ड्रिया में पाया जाने वाला DNA, कोशिकाओं के पावरहाउस।
  • बैक्टीरियल जीनोम: बैक्टीरिया की पूरी आनुवंशिक सामग्री।
  • यीस्ट जीनोम के भाग: यीस्ट के DNA के खंड, अनुसंधान और उद्योग में आमतौर पर इस्तेमाल किया जाने वाला जीव।

ये क्षमताएं जीवों को डिजाइन करने में अमूल्य हो सकती हैं:

  • बायोमैन्युफैक्चरिंग: इंजीनियर सूक्ष्मजीवों का उपयोग करके मूल्यवान यौगिकों का उत्पादन करना।
  • कार्बन कैप्चर: ऐसे जीवों का विकास करना जो वातावरण से कार्बन डाइऑक्साइड को कुशलतापूर्वक हटा सकें।
  • दवा संश्लेषण: फार्मास्यूटिकल्स के उत्पादन के लिए नए रास्ते बनाना।

हालांकि, Evo 2 की वर्तमान सीमाओं को स्वीकार करना महत्वपूर्ण है, ठीक वैसे ही जैसे बड़े भाषा मॉडल के शुरुआती संस्करण। जबकि यह जैविक रूप से प्रशंसनीय DNA अनुक्रम उत्पन्न कर सकता है, इस बात की कोई गारंटी नहीं है कि ये अनुक्रम प्रायोगिक सत्यापन के बिना कार्यात्मक होंगे। उपन्यास, कार्यात्मक DNA उत्पन्न करना एक महत्वपूर्ण चुनौती बनी हुई है। लेकिन भाषा मॉडल में तेजी से प्रगति को देखते हुए, GPT-3 से लेकर DeepSeek जैसे अधिक उन्नत मॉडल तक, यह कल्पना करना आसान है कि भविष्य में जेनरेटिव बायोलॉजी टूल तेजी से परिष्कृत और शक्तिशाली होते जाएंगे।

ओपन-सोर्स और तीव्र प्रगति

Evo 2 का एक महत्वपूर्ण पहलू इसकी ओपन-सोर्स प्रकृति है। मॉडल पैरामीटर, प्रीट्रेनिंग कोड, इंफरेंस कोड और जिस संपूर्ण डेटासेट पर इसे प्रशिक्षित किया गया था, वह सभी सार्वजनिक रूप से उपलब्ध हैं। यह सहयोग को बढ़ावा देता है और क्षेत्र में प्रगति को तेज करता है।

इस क्षेत्र में विकास की गति भी उल्लेखनीय है। Evo 1, Evo 2 का पूर्ववर्ती, कुछ महीने पहले, नवंबर 2024 में जारी किया गया था। यह पहले से ही एक महत्वपूर्ण उपलब्धि थी, जिसे लगभग 300 बिलियन टोकन और 131,000 बेस पेयर की संदर्भ विंडो के साथ प्रोकैरियोटिक जीनोम पर प्रशिक्षित किया गया था। हालाँकि, इसकी कार्यक्षमता तुलनात्मक रूप से सीमित थी।

अब, कुछ ही महीनों बाद, Evo 2 आ गया है, जिसमें प्रशिक्षण डेटा आकार में 30 गुना वृद्धि, संदर्भ विंडो का आठ गुना विस्तार और पूरी तरह से नई क्षमताएं हैं। यह तीव्र विकास भाषा मॉडल में देखे गए आश्चर्यजनक रूप से तेज़ सुधारों को दर्शाता है, जो कुछ ही वर्षों में लगातार मतिभ्रम से मानव-स्तर की दक्षता पर जटिल कार्यों से निपटने के लिए संक्रमण कर गए।

जैसे GPT मॉडल ने भाषा पीढ़ी में क्रांति ला दी, वैसे ही ये DNA भाषा मॉडल जीवन के कोड की हमारी समझ को बदलने के लिए तैयार हैं। संभावित अनुप्रयोग विशाल और दूरगामी हैं, जो चिकित्सा से लेकर कृषि से लेकर पर्यावरण विज्ञान तक के क्षेत्रों में क्रांति लाने का वादा करते हैं। जीव विज्ञान का भविष्य इतना रोमांचक कभी नहीं रहा।
जेनरेटिव AI की तीव्र प्रगति को अब सबसे मौलिक कोड पर लागू किया जा रहा है। तीव्र प्रगति LLMs की प्रगति को प्रतिबिंबित कर रही है।