जीवशास्त्राची पुनर्रचना

DNA च्या भाषेचा उलगडा

DNA, सर्व सजीवांचा आधार, न्यूक्लियोटाइड्स (nucleotides) पासून बनलेला असतो, जे A, C, G, आणि T या अक्षरांनी दर्शवले जातात. हे न्यूक्लियोटाइड्स जोड्या बनवून प्रसिद्ध दुहेरी हेलिक्स (double helix) रचना तयार करतात. या संरचनेत जीन्स (genes) आणि नियामक अनुक्रम (regulatory sequences) असतात, जे सर्व क्रोमोसोममध्ये (chromosomes) व्यवस्थित पॅक केलेले असतात, आणि एकत्रितपणे जीनोम (genome) बनवतात. पृथ्वीवरील प्रत्येक प्रजातीचा एक अद्वितीय जीनोमिक अनुक्रम असतो, आणि खरं तर, एका प्रजातीच्या प्रत्येक व्यक्तीमध्ये स्वतःचे विशिष्ट மாறுபாடு असते.

एकाच प्रजातीच्या व्यक्तींमधील फरक तुलनेने किरकोळ असतात, जे एकूण जीनोमचा एक छोटासा भाग दर्शवतात, तर प्रजातींमधील फरक खूप मोठे असतात. उदाहरणार्थ, मानवी जीनोममध्ये अंदाजे 3 अब्ज बेस जोड्या (base pairs) असतात. दोन यादृच्छिक मानवांची तुलना केल्यास सुमारे 3 दशलक्ष बेस जोड्यांचा फरक दिसून येतो - केवळ 0.1%. तथापि, मानवी जीनोमची तुलना आपल्या सर्वात जवळच्या नातेवाईक, चिंपांझीशी (chimpanzee) केल्यास, हा फरक सुमारे 30 दशलक्ष बेस जोड्यांपर्यंत वाढतो, किंवा सुमारे 1%.

हे আপাতतः छोटे फरक केवळ मानवांमध्येच नव्हे तर जीवनाच्या संपूर्ण स्पेक्ट्रममध्ये (spectrum) दिसणाऱ्या विशाल अनुवांशिक विविधतेसाठी (genetic diversity) जबाबदार आहेत. अलिकडच्या वर्षांत, शास्त्रज्ञांनी हजारो प्रजातींचे जीनोम अनुक्रमित (sequence) करण्यात महत्त्वपूर्ण प्रगती केली आहे, ज्यामुळे या गुंतागुंतीच्या भाषेबद्दलची आपली समज सतत सुधारत आहे. तथापि, आपण अद्याप त्याच्या जटिलतेच्या पृष्ठभागावर फक्त ओरखडे काढण्यास सुरुवात केली आहे.

Evo 2: DNA साठी एक ChatGPT

Arc Institute चा Evo 2 मॉडेल जीवशास्त्राच्या क्षेत्रात जनरेटिव्ह AI लागू करण्याच्या दिशेने एक महत्त्वपूर्ण झेप दर्शवतो. हे मॉडेल, जे अलीकडेच प्रसिद्ध झाले, अभियांत्रिकीचे एक उल्लेखनीय কীরतीमान आहे. याला 9.3 ट्रिलियन DNA बेस जोड्यांवर प्रशिक्षित केले गेले, जो डेटा जीवनाच्या सर्व क्षेत्रांचा समावेश असलेल्या काळजीपूर्वक तयार केलेल्या जीनोमिक ॲटलास (genomic atlas) मधून घेण्यात आला आहे. हे किती मोठे आहे, हे समजून घेण्यासाठी, GPT-4 ला अंदाजे 6.5 ट्रिलियन टोकन्सवर (tokens) प्रशिक्षित केले गेले, तर Meta च्या LLaMA 3 आणि DeepSeek V3 या दोन्हीना अंदाजे 15 ट्रिलियन टोकन्सवर प्रशिक्षित केले गेले. प्रशिक्षणासाठी वापरलेल्या डेटाच्या आकारमानाच्या बाबतीत, Evo 2 आघाडीच्या भाषा मॉडेल्सच्या बरोबरीने उभे आहे.

उत्परिवर्तनांच्या (Mutations) परिणामाचा अंदाज

Evo 2 ची एक प्रमुख क्षमता म्हणजे जीनमधील उत्परिवर्तनांचे (mutations) परिणाम वर्तवण्याची क्षमता. जीन्समध्ये सामान्यत: पेशींना प्रथिने (proteins) तयार करण्यासाठी लागणाऱ्या सूचना असतात, जे जीवनाचे मूलभूत बिल्डिंग ब्लॉक्स (building blocks) आहेत. ही प्रथिने कार्यक्षम संरचनांमध्ये कशी दुमडली जातात, ही प्रक्रिया আরেকটি जटिल अंदाज आहे, ज्याचे उत्तर DeepMind च्या AlphaFold ने यशस्वीरित्या दिले आहे. पण जेव्हा जीन्सचा क्रम बदलतो तेव्हा काय होते?

उत्परिवर्तनांचे (mutations) विविध परिणाम होऊ शकतात. काही विनाशकारी असतात, ज्यामुळे प्रथिने অকার্যকর होतात किंवा गंभीर विकासात्मक दोष (developmental defects) निर्माण होतात. इतर हानिकारक असतात, ज्यामुळे सूक्ष्म पण हानिकारक बदल होतात. अनेक उत्परिवर्तने तटस्थ (neutral) असतात, ज्यांचा सजीवांवर कोणताही दृश्य परिणाम होत नाही. आणि काही दुर्मिळ उत्परिवर्तने फायदेशीर देखील असू शकतात, ज्यामुळे विशिष्ट वातावरणात फायदा होतो. एखादे विशिष्ट उत्परिवर्तन कोणत्या श्रेणीत येते हे ठरवणे हे खरे आव्हान आहे.

या ठिकाणी Evo 2 आपल्या उल्लेखनीय क्षमता दर्शवतो. विविध प्रकारच्या व्हेरिएंट (variant) भविष्यवाणी कार्यात, ते विद्यमान, अत्यंत विशिष्ट मॉडेल्सच्या कामगिरीशी जुळते किंवा त्यांना मागे टाकते. याचा अर्थ असा की ते प्रभावीपणे अंदाज लावू शकते की कोणती उत्परिवर्तने रोगजनक (pathogenic) होण्याची शक्यता आहे, किंवा BRCA1 (स्तनाच्या कर्करोगाशी संबंधित) सारख्या ज्ञात कर्करोगाच्या जीन्सचे कोणते प्रकार वैद्यकीयदृष्ट्या महत्त्वपूर्ण आहेत.

आणखी विशेष गोष्ट म्हणजे Evo 2 ला मानवी व्हेरिएंट (variant) डेटावर विशेषतः प्रशिक्षित केलेले नाही. त्याचे प्रशिक्षण केवळ प्रमाणित मानवी संदर्भ जीनोमवर (reference genome) आधारित होते. तरीही, ते मानवांमध्ये कोणती उत्परिवर्तने हानिकारक असण्याची शक्यता आहे याचा अचूक अंदाज लावू शकते. हे सूचित करते की मॉडेलने जीनोमिक अनुक्रमांवर नियंत्रण ठेवणारे मूलभूत उत्क्रांतीवादी (evolutionary) निर्बंध शिकले आहेत. विविध प्रजाती आणि संदर्भांमध्ये “सामान्य” DNA कसे दिसते याबद्दल मॉडेलने एक समज विकसित केली आहे.

कच्च्या ডেটাमधून (Raw Data) जैविक वैशिष्ट्ये शिकणे

Evo 2 च्या क्षमता केवळ DNA अनुक्रमांमधील नमुने ओळखण्यापलीकडे जातात. कोणत्याही स्पष्ट प्रोग्रामिंग (programming) किंवा मार्गदर्शनाशिवाय, कच्च्या प्रशिक्षण ডেটাमधून (raw data) थेट जैविक वैशिष्ट्ये (biological features) शिकण्याची क्षमता या मॉडेलने दर्शविली आहे. या वैशिष्ट्यांमध्ये हे समाविष्ट आहे:

  • मोबाइल आनुवंशिक घटक (Mobile genetic elements): DNA अनुक्रम जे जीनोममध्ये फिरू शकतात.
  • नियामक आकृतिबंध (Regulatory motifs): लहान अनुक्रम जे जीन अभिव्यक्ती (gene expression) नियंत्रित करतात.
  • प्रोटीन दुय्यम संरचना (Protein secondary structure): प्रथिनांच्या स्थानिक फोल्डिंग (folding) पद्धती.

ही खरोखरच एक उल्लेखनीय कामगिरी आहे. याचा अर्थ असा की Evo 2 केवळ DNA अनुक्रम वाचत नाही; तर ते उच्च-स्तरीय संरचनात्मक माहिती (structural information) देखील समजून घेत आहे जी प्रशिक्षण डेटामध्ये स्पष्टपणे प्रदान केलेली नव्हती. हे ChatGPT ज्या प्रकारे व्याकरण नियमांचे स्पष्टपणे शिक्षण न घेता व्याकरणदृष्ट्या अचूक वाक्ये तयार करू शकते, त्याच्याशी समांतर आहे. त्याचप्रमाणे, Evo 2 ला जीन किंवा प्रथिन म्हणजे काय हे न सांगता, जीनोमचा एक भाग वैध जैविक संरचनेसह पूर्ण करू शकते.

नवीन DNA अनुक्रम तयार करणे

जसे GPT मॉडेल्स नवीन मजकूर तयार करू शकतात, त्याचप्रमाणे Evo 2 पूर्णपणे नवीन DNA अनुक्रम तयार करू शकते. हे सिंथेटिक जीवशास्त्राच्या (synthetic biology) क्षेत्रात रोमांचक शक्यता उघडते, जिथे शास्त्रज्ञ विविध उपयोगांसाठी जैविक प्रणाली डिझाइन (design) आणि इंजिनियर (engineer) करण्याचे लक्ष्य ठेवतात.

Evo 2 चा वापर यापूर्वीच यासाठी केला गेला आहे:

  • माइटोकॉन्ड्रियल जीनोम (Mitochondrial genomes): पेशींचे ऊर्जा केंद्र (powerhouses) असलेल्या माइटोकॉन्ड्रियामध्ये (mitochondria) आढळणारे DNA.
  • बॅक्टेरियल जीनोम (Bacterial genomes): बॅक्टेरियाचे (bacteria) संपूर्ण अनुवांशिक साहित्य.
  • यीस्ट जीनोमचे भाग (Parts of yeast genomes): यीस्टच्या (yeast) DNA चे विभाग, जे संशोधन आणि उद्योगात सामान्यतः वापरले जाणारे जीव आहे.

या क्षमता यासाठी जीव तयार करण्यात अमूल्य असू शकतात:

  • बायोमैन्युफॅक्चरिंग (Biomanufacturing): इंजिनियर्ड सूक्ष्मजंतूंचा (engineered microbes) वापर करून मौल्यवान संयुगे (compounds) तयार करणे.
  • कार्बन कॅप्चर (Carbon capture): वातावरणातील कार्बन डायऑक्साइड (carbon dioxide) कार्यक्षमतेने काढून टाकणारे जीव विकसित करणे.
  • औषध संश्लेषण (Drug synthesis): औषधे तयार करण्यासाठी नवीन मार्ग तयार करणे.

तथापि, Evo 2 च्या सध्याच्या मर्यादा ओळखणे महत्त्वाचे आहे, अगदी मोठ्या भाषा मॉडेल्सच्या (large language models) सुरुवातीच्या आवृत्त्यांप्रमाणे. जरी ते जैविकदृष्ट्या संभाव्य DNA अनुक्रम तयार करू शकत असले, तरी प्रायोगिक प्रमाणीकरणाशिवाय (experimental validation) हे अनुक्रम कार्यक्षम असतील याची कोणतीही हमी नाही. नवीन, कार्यक्षम DNA तयार करणे हे अजूनही एक मोठे आव्हान आहे. परंतु GPT-3 पासून DeepSeek सारख्या अधिक प्रगत मॉडेल्सपर्यंत भाषा मॉडेल्समधील जलद प्रगती लक्षात घेता, भविष्यात जनरेटिव्ह बायोलॉजी (generative biology) साधने अधिकाधिक अत्याधुनिक आणि शक्तिशाली होतील याची कल्पना करणे सोपे आहे.

ओपन-सोर्स (Open-Source) आणि जलद प्रगती

Evo 2 चा एक महत्त्वाचा पैलू म्हणजे त्याचे ओपन-सोर्स स्वरूप. मॉडेल पॅरामीटर्स (parameters), प्रीट्रेनिंग कोड (pretraining code), इन्फरन्स कोड (inference code) आणि ज्यावर ते प्रशिक्षित केले गेले तो संपूर्ण डेटासेट (dataset) सार्वजनिकपणे उपलब्ध आहे. हे सहकार्याला प्रोत्साहन देते आणि क्षेत्रातील प्रगतीला गती देते.

या क्षेत्रातील विकासाचा वेग देखील उल्लेखनीय आहे. Evo 1, Evo 2 चा पूर्ववर्ती (predecessor), काही महिन्यांपूर्वी, नोव्हेंबर 2024 मध्ये प्रसिद्ध झाला होता. हे आधीच एक महत्त्वपूर्ण यश होते, जे प्रोकेरियोटिक जीनोमवर (prokaryotic genomes) सुमारे 300 अब्ज टोकन्स आणि 131,000 बेस जोड्यांच्या संदर्भ विंडोसह (context window) प्रशिक्षित केले गेले होते. तथापि, त्याची कार्यक्षमता तुलनेने मर्यादित होती.

आता, काही महिन्यांनंतरच, Evo 2 आले आहे, जे प्रशिक्षणासाठी वापरलेल्या डेटा आकारात 30 पट वाढ, संदर्भ विंडोचा आठपट विस्तार आणि पूर्णपणे नवीन क्षमतांनी युक्त आहे. ही जलद उत्क्रांती भाषा मॉडेल्समध्ये आपण पाहिलेल्या आश्चर्यकारकपणे जलद सुधारणांशी मिळतीजुळती आहे, ज्यांनी वारंवार चुका (hallucinations) करण्यापासून ते अवघ्या काही वर्षांत मानवी-स्तरावर जटिल कार्ये हाताळण्यापर्यंत प्रगती केली.

ज्याप्रमाणे GPT मॉडेल्सने भाषा निर्मितीमध्ये क्रांती घडवून आणली, त्याचप्रमाणे हे DNA भाषा मॉडेल्स जीवनाच्या कोडबद्दलच्या आपल्या समजात बदल घडवून आणण्यासाठी सज्ज आहेत. याचे संभाव्य उपयोग विस्तीर्ण आणि दूरगामी आहेत, जे औषध, शेती आणि पर्यावरण विज्ञान यांसारख्या क्षेत्रांमध्ये क्रांती घडवून आणण्याचे वचन देतात. जीवशास्त्राचे भविष्य यापूर्वी कधीही इतके रोमांचक दिसले नव्हते.