உயிரியல் குறியீட்டை மாற்றி எழுதுதல்

DNA-வின் மொழியைப் புரிந்துகொள்ளுதல்

DNA, அனைத்து உயிரினங்களின் வரைபடம், நியூக்ளியோடைட்களால் ஆனது, அவை A, C, G, மற்றும் T ஆகிய எழுத்துக்களால் குறிக்கப்படுகின்றன. இந்த நியூக்ளியோடைட்கள் ஜோடியாக இணைந்து, புகழ்பெற்ற இரட்டை ஹெலிக்ஸ் அமைப்பை உருவாக்குகின்றன. இந்த அமைப்பிற்குள் மரபணுக்கள் மற்றும் ஒழுங்குபடுத்தும் வரிசைகள் உள்ளன, இவை அனைத்தும் குரோமோசோம்களுக்குள் அழகாக தொகுக்கப்பட்டுள்ளன, இவை அனைத்தும் சேர்ந்து மரபணுவை உருவாக்குகின்றன. பூமியில் உள்ள ஒவ்வொரு இனமும் ஒரு தனித்துவமான மரபணு வரிசையைக் கொண்டுள்ளது, உண்மையில், ஒரு இனத்திற்குள் உள்ள ஒவ்வொரு தனிநபரும் தங்களின் சொந்த வேறுபட்ட மாறுபாட்டைக் கொண்டுள்ளனர்.

ஒரே இனத்தைச் சேர்ந்த தனிநபர்களுக்கிடையேயான வேறுபாடுகள் ஒப்பீட்டளவில் சிறியவை என்றாலும், மொத்த மரபணுவின் ஒரு சிறிய பகுதியை மட்டுமே குறிக்கின்றன, இனங்களுக்கிடையேயான வேறுபாடுகள் மிகவும் கணிசமானவை. உதாரணமாக, மனித மரபணு சுமார் 3 பில்லியன் அடிப்படை ஜோடிகளைக் கொண்டுள்ளது. இரண்டு சீரற்ற மனிதர்களுக்கிடையேயான ஒப்பீடு சுமார் 3 மில்லியன் அடிப்படை ஜோடிகளின் வித்தியாசத்தை வெளிப்படுத்துகிறது - வெறும் 0.1%. இருப்பினும், மனித மரபணுவை நம்முடைய நெருங்கிய உறவினரான சிம்பன்சியுடன் ஒப்பிடும்போது, வித்தியாசம் சுமார் 30 மில்லியன் அடிப்படை ஜோடிகளாக உயர்கிறது, அல்லது சுமார் 1%.

இந்த சிறிய மாறுபாடுகள் நாம் காணும் பரந்த மரபணு வேறுபாட்டிற்குக் காரணமாகின்றன, மனிதர்களிடையே மட்டுமல்ல, வாழ்வின் முழு நிறமாலையிலும். சமீபத்திய ஆண்டுகளில், விஞ்ஞானிகள் ஆயிரக்கணக்கான இனங்களின் மரபணுக்களை வரிசைப்படுத்துவதில் குறிப்பிடத்தக்க முன்னேற்றங்களைச் அடைந்துள்ளனர், இந்த சிக்கலான மொழியைப் பற்றிய நமது புரிதலை சீராக மேம்படுத்தி வருகின்றனர். இருப்பினும், நாம் இன்னும் அதன் சிக்கலான தன்மையின் மேற்பரப்பை மட்டுமே கீறத் தொடங்கியுள்ளோம்.

Evo 2: DNA-விற்கான ஒரு ChatGPT

Arc Institute-ன் Evo 2 மாதிரி, உயிரியல் துறையில் உருவாக்க AI-ஐப் பயன்படுத்துவதில் ஒரு குறிப்பிடத்தக்க முன்னேற்றத்தைக் குறிக்கிறது. சமீபத்தில் வெளியிடப்பட்ட இந்த மாதிரி, பொறியியலின் ஒரு குறிப்பிடத்தக்க சாதனையாகும். இது அனைத்து உயிரினங்களையும் உள்ளடக்கிய கவனமாக தொகுக்கப்பட்ட மரபணு அட்லஸிலிருந்து பெறப்பட்ட 9.3 டிரில்லியன் DNA அடிப்படை ஜோடிகளைக் கொண்ட ஒரு வியக்கத்தக்க தரவுத்தொகுப்பில் பயிற்றுவிக்கப்பட்டது. இதை ஒரு கண்ணோட்டத்தில் வைக்க, GPT-4 சுமார் 6.5 டிரில்லியன் டோக்கன்களில் பயிற்றுவிக்கப்பட்டதாக மதிப்பிடப்பட்டுள்ளது, அதே நேரத்தில் Meta-வின் LLaMA 3 மற்றும் DeepSeek V3 இரண்டும் சுமார் 15 டிரில்லியன் டோக்கன்களில் பயிற்றுவிக்கப்பட்டன. பயிற்சி தரவு அளவைப் பொறுத்தவரை, Evo 2 முன்னணி மொழி மாதிரிகளுடன் தோளோடு தோள் நிற்கிறது.

பிறழ்வுகளின் தாக்கத்தை கணித்தல்

Evo 2-வின் முக்கிய திறன்களில் ஒன்று, ஒரு மரபணுவுக்குள் ஏற்படும் பிறழ்வுகளின் விளைவுகளைக் கணிக்கும் திறன் ஆகும். மரபணுக்கள் பொதுவாக செல்கள் புரதங்களை உருவாக்க பயன்படுத்தும் வழிமுறைகளைக் கொண்டிருக்கின்றன, இவை வாழ்வின் அடிப்படை கட்டுமானத் தொகுதிகள். இந்த புரதங்கள் எவ்வாறு செயல்பாட்டு கட்டமைப்புகளாக மடிகின்றன என்பது மற்றொரு சிக்கலான கணிப்பு சவாலாகும், இது DeepMind-ன் AlphaFold மூலம் புகழ்பெற்ற முறையில் தீர்க்கப்பட்டது. ஆனால் ஒரு மரபணுவின் வரிசை மாற்றப்படும்போது என்ன நடக்கும்?

பிறழ்வுகள் பரந்த அளவிலான விளைவுகளை ஏற்படுத்தலாம். சில பேரழிவு தரக்கூடியவை, செயல்படாத புரதங்கள் அல்லது கடுமையான வளர்ச்சி குறைபாடுகளுக்கு வழிவகுக்கும். மற்றவை தீங்கு விளைவிப்பவை, நுட்பமான ஆனால் தீங்கு விளைவிக்கும் மாற்றங்களை ஏற்படுத்துகின்றன. பல பிறழ்வுகள் நடுநிலையானவை, உயிரினத்தின் மீது எந்தவிதமான புலப்படக்கூடிய விளைவையும் ஏற்படுத்தாது. மேலும் அரிதான சில நன்மை பயக்கும், சில சூழல்களில் ஒரு நன்மையை அளிக்கின்றன. ஒரு குறிப்பிட்ட பிறழ்வு எந்த வகைக்குள் வருகிறது என்பதை தீர்மானிப்பதில் தான் சவால் உள்ளது.

இங்குதான் Evo 2 தனது குறிப்பிடத்தக்க திறன்களை நிரூபிக்கிறது. பல்வேறு மாறுபாடு கணிப்பு பணிகளில், இது ஏற்கனவே உள்ள, மிகவும் சிறப்பு வாய்ந்த மாதிரிகளின் செயல்திறனைப் பொருத்துகிறது அல்லது மிஞ்சுகிறது. இதன் பொருள், எந்த பிறழ்வுகள் நோய்க்கிருமிகளாக இருக்கக்கூடும், அல்லது BRCA1 (மார்பக புற்றுநோயுடன் தொடர்புடையது) போன்ற அறியப்பட்ட புற்றுநோய் மரபணுக்களின் எந்த வகைகள் மருத்துவ ரீதியாக குறிப்பிடத்தக்கவை என்பதை இது திறம்பட கணிக்க முடியும்.

இன்னும் குறிப்பிடத்தக்க விஷயம் என்னவென்றால், Evo 2 மனித மாறுபாடு தரவுகளில் குறிப்பாக பயிற்றுவிக்கப்படவில்லை. அதன் பயிற்சி முற்றிலும் நிலையான மனித குறிப்பு மரபணுவை அடிப்படையாகக் கொண்டது. ஆயினும்கூட, மனிதர்களில் எந்த பிறழ்வுகள் தீங்கு விளைவிக்கும் என்பதை இது இன்னும் துல்லியமாக ஊகிக்க முடியும். மாதிரி மரபணு வரிசைகளை நிர்வகிக்கும் அடிப்படை பரிணாம தடைகளை கற்றுக்கொண்டது என்பதை இது அறிவுறுத்துகிறது. இது வெவ்வேறு இனங்கள் மற்றும் சூழல்களில் ‘இயல்பான’ DNA எப்படி இருக்கும் என்பதைப் பற்றிய புரிதலை உருவாக்கியுள்ளது.

மூலத் தரவுகளிலிருந்து உயிரியல் அம்சங்களைக் கற்றுக்கொள்ளுதல்

Evo 2-வின் திறன்கள் DNA வரிசைகளில் உள்ள வடிவங்களை அங்கீகரிப்பதை விட அதிகமாகும். எந்தவொரு வெளிப்படையான நிரலாக்கமோ அல்லது வழிகாட்டுதலோ இல்லாமல், மூல பயிற்சி தரவுகளிலிருந்து நேரடியாக உயிரியல் அம்சங்களைக் கற்றுக்கொள்ளும் திறனை இது நிரூபித்துள்ளது. இந்த அம்சங்கள் பின்வருமாறு:

  • நகரும் மரபணு கூறுகள்: மரபணுவுக்குள் நகரக்கூடிய DNA வரிசைகள்.
  • ஒழுங்குபடுத்தும் மையக்கருத்துக்கள்: மரபணு வெளிப்பாட்டைக் கட்டுப்படுத்தும் குறுகிய வரிசைகள்.
  • புரத இரண்டாம் நிலை அமைப்பு: புரதங்களின் உள்ளூர் மடிப்பு வடிவங்கள்.

இது உண்மையிலேயே ஒரு குறிப்பிடத்தக்க சாதனை. Evo 2 DNA வரிசைகளைப் படிப்பது மட்டுமல்ல; பயிற்சி தரவுகளில் வெளிப்படையாக வழங்கப்படாத உயர்-வரிசை கட்டமைப்பு தகவல்களை அது புரிந்துகொள்கிறது என்பதைக் குறிக்கிறது. இது ChatGPT வெளிப்படையாக இலக்கண விதிகள் கற்பிக்கப்படாமல் இலக்கண ரீதியாக சரியான வாக்கியங்களை உருவாக்கக்கூடிய வழியை ஒத்திருக்கிறது. இதேபோல், Evo 2 ஒரு மரபணு அல்லது புரதம் என்றால் என்ன என்று சொல்லப்படாமலேயே, ஒரு மரபணுவின் ஒரு பகுதியை சரியான உயிரியல் அமைப்புடன் முடிக்க முடியும்.

புதிய DNA வரிசைகளை உருவாக்குதல்

GPT மாதிரிகள் புதிய உரையை உருவாக்கக்கூடியது போலவே, Evo 2 முற்றிலும் புதிய DNA வரிசைகளை உருவாக்க முடியும். இது செயற்கை உயிரியல் துறையில் அற்புதமான சாத்தியங்களைத் திறக்கிறது, அங்கு விஞ்ஞானிகள் பல்வேறு பயன்பாடுகளுக்கு உயிரியல் அமைப்புகளை வடிவமைத்து பொறியியல் செய்வதை நோக்கமாகக் கொண்டுள்ளனர்.

Evo 2 ஏற்கனவே உருவாக்க பயன்படுத்தப்பட்டுள்ளது:

  • மைட்டோகாண்ட்ரியல் மரபணுக்கள்: மைட்டோகாண்ட்ரியாவில் காணப்படும் DNA, செல்களின் ஆற்றல் நிலையங்கள்.
  • பாக்டீரியா மரபணுக்கள்: பாக்டீரியாவின் முழுமையான மரபணு பொருள்.
  • ஈஸ்ட் மரபணுக்களின் பகுதிகள்: ஈஸ்டின் DNA-வின் பிரிவுகள், ஆராய்ச்சி மற்றும் தொழில்துறையில் பொதுவாகப் பயன்படுத்தப்படும் ஒரு உயிரினம்.

இந்த திறன்கள் உயிரினங்களை வடிவமைப்பதில் விலைமதிப்பற்றதாக இருக்கும்:

  • உயிரி உற்பத்தி: பொறியியல் செய்யப்பட்ட நுண்ணுயிரிகளைப் பயன்படுத்தி மதிப்புமிக்க சேர்மங்களை உருவாக்குதல்.
  • கார்பன் பிடிப்பு: வளிமண்டலத்திலிருந்து கார்பன் டை ஆக்சைடை திறம்பட அகற்றக்கூடிய உயிரினங்களை உருவாக்குதல்.
  • மருந்து தொகுப்பு: மருந்துகளை உற்பத்தி செய்வதற்கான புதிய பாதைகளை உருவாக்குதல்.

இருப்பினும், Evo 2-வின் தற்போதைய வரம்புகளை ஒப்புக்கொள்வது முக்கியம், பெரிய மொழி மாதிரிகளின் ஆரம்ப பதிப்புகளைப் போலவே. இது உயிரியல் ரீதியாக நம்பத்தகுந்த DNA வரிசைகளை உருவாக்க முடியும் என்றாலும், இந்த வரிசைகள் சோதனை சரிபார்ப்பு இல்லாமல் செயல்படும் என்பதற்கு எந்த உத்தரவாதமும் இல்லை. புதிய, செயல்பாட்டு DNA-வை உருவாக்குவது ஒரு குறிப்பிடத்தக்க சவாலாகவே உள்ளது. ஆனால் மொழி மாதிரிகளில் விரைவான முன்னேற்றத்தை கருத்தில் கொண்டு, GPT-3 முதல் DeepSeek போன்ற மேம்பட்ட மாதிரிகள் வரை, உருவாக்க உயிரியல் கருவிகள் பெருகிய முறையில் அதிநவீனமாகவும் சக்திவாய்ந்ததாகவும் மாறும் ஒரு எதிர்காலத்தை கற்பனை செய்வது எளிது.

திறந்த மூல மற்றும் விரைவான முன்னேற்றம்

Evo 2-வின் ஒரு குறிப்பிடத்தக்க அம்சம் அதன் திறந்த மூல இயல்பு. மாதிரி அளவுருக்கள், முன் பயிற்சி குறியீடு, அனுமான குறியீடு மற்றும் அது பயிற்றுவிக்கப்பட்ட முழுமையான தரவுத்தொகுப்பு அனைத்தும் பொதுவில் கிடைக்கின்றன. இது ஒத்துழைப்பை வளர்க்கிறது மற்றும் துறையில் முன்னேற்றத்தை துரிதப்படுத்துகிறது.

இந்த பகுதியில் வளர்ச்சியின் வேகமும் குறிப்பிடத்தக்கது. Evo 2-வின் முன்னோடியான Evo 1, சில மாதங்களுக்கு முன்பு, நவம்பர் 2024-ல் வெளியிடப்பட்டது. இது ஏற்கனவே ஒரு குறிப்பிடத்தக்க சாதனையாக இருந்தது, சுமார் 300 பில்லியன் டோக்கன்கள் மற்றும் 131,000 அடிப்படை ஜோடிகளின் சூழல் சாளரத்துடன் புரோகாரியோடிக் மரபணுக்களில் பயிற்றுவிக்கப்பட்டது. இருப்பினும், அதன் செயல்பாடு ஒப்பீட்டளவில் குறைவாக இருந்தது.

இப்போது, சில மாதங்களுக்குப் பிறகு, Evo 2 வந்துவிட்டது, பயிற்சி தரவு அளவில் 30 மடங்கு அதிகரிப்பு, சூழல் சாளரத்தின் எட்டு மடங்கு விரிவாக்கம் மற்றும் முற்றிலும் புதிய திறன்களைக் கொண்டுள்ளது. இந்த விரைவான பரிணாமம், மொழி மாதிரிகளில் நாம் கண்ட வியக்கத்தக்க வேகமான முன்னேற்றங்களை பிரதிபலிக்கிறது, அவை அடிக்கடி பிரமைகளில் இருந்து சில ஆண்டுகளில் மனித-நிலை தேர்ச்சியுடன் சிக்கலான பணிகளைச் சமாளிக்கும் நிலைக்கு மாறியுள்ளன.

GPT மாதிரிகள் மொழி உருவாக்கத்தில் புரட்சியை ஏற்படுத்தியது போலவே, இந்த DNA மொழி மாதிரிகள் வாழ்வின் குறியீட்டைப் பற்றிய நமது புரிதலை மாற்றியமைக்க உள்ளன. சாத்தியமான பயன்பாடுகள் பரந்த மற்றும் தொலைநோக்குடையவை, மருத்துவம் முதல் விவசாயம் வரை சுற்றுச்சூழல் அறிவியல் வரையிலான துறைகளில் புரட்சியை ஏற்படுத்தும் என்று உறுதியளிக்கின்றன. உயிரியலின் எதிர்காலம் இதைவிட உற்சாகமாக இருந்ததில்லை.