জেনারেটিভ বায়োলজি: জীবনের কোড পুনরায় লেখা

ডিএনএ-র ভাষা বোঝা

জেনারেটিভ AI-এর আবির্ভাব, ChatGPT-র মতো সরঞ্জামগুলির দ্বারা উদাহরণস্বরূপ, প্রযুক্তির সাথে আমাদের যোগাযোগের পদ্ধতিতে বিপ্লব এনেছে। এই মডেলগুলির শক্তির মূলে রয়েছে একটি অনুক্রমের পরবর্তী টোকেন, তা শব্দ হোক বা শব্দের অংশ, তা অনুমান করার ক্ষমতা। এই আপাতদৃষ্টিতে সহজ কাজটি, যখন বড় আকারে এবং পরিমার্জিত করা হয়, তখন সুসংগত এবং প্রাসঙ্গিকভাবে প্রাসঙ্গিক টেক্সট তৈরি করতে দেয়। কিন্তু এই যুগান্তকারী প্রযুক্তি যদি মানুষের উপভাষার চেয়ে অনেক বেশি মৌলিক একটি ভাষায় প্রয়োগ করা যেত – জীবনের নিজের ভাষায়?

DNA, সমস্ত জীবন্ত প্রাণীর ব্লুপ্রিন্ট, নিউক্লিওটাইড দ্বারা গঠিত, যা A, C, G, এবং T অক্ষর দ্বারা উপস্থাপিত হয়। এই নিউক্লিওটাইডগুলি জোড়া লেগে আইকনিক ডাবল হেলিক্স গঠন তৈরি করে। এই কাঠামোর মধ্যে জিন এবং নিয়ন্ত্রক ক্রমগুলি রয়েছে, সমস্ত সুন্দরভাবে ক্রোমোজোমে প্যাকেজ করা, যা সম্মিলিতভাবে জিনোম গঠন করে। পৃথিবীর প্রতিটি প্রজাতির একটি অনন্য জিনোমিক ক্রম রয়েছে এবং প্রকৃতপক্ষে, একটি প্রজাতির প্রতিটি ব্যক্তির নিজস্ব স্বতন্ত্র ভিন্নতা রয়েছে।

যদিও একই প্রজাতির ব্যক্তিদের মধ্যে পার্থক্য তুলনামূলকভাবে কম, যা মোট জিনোমের একটি সামান্য ভগ্নাংশকে প্রতিনিধিত্ব করে, প্রজাতির মধ্যে ভিন্নতা অনেক বেশি তাৎপর্যপূর্ণ। উদাহরণস্বরূপ, মানুষের জিনোম প্রায় 3 বিলিয়ন বেস পেয়ার নিয়ে গঠিত। দুজন এলোমেলো মানুষের মধ্যে তুলনা করলে প্রায় 3 মিলিয়ন বেস পেয়ারের পার্থক্য দেখা যায় – মাত্র 0.1%। যাইহোক, যখন মানুষের জিনোমকে আমাদের নিকটতম আত্মীয়, শিম্পাঞ্জির সাথে তুলনা করা হয়, তখন পার্থক্য প্রায় 30 মিলিয়ন বেস পেয়ারে উন্নীত হয়, বা প্রায় 1%।

এই আপাতদৃষ্টিতে ছোট পরিবর্তনগুলি শুধুমাত্র মানুষের মধ্যেই নয়, জীবনের সমগ্র বর্ণালী জুড়ে আমরা যে বিশাল জেনেটিক বৈচিত্র্য পর্যবেক্ষণ করি তার জন্য দায়ী। সাম্প্রতিক বছরগুলিতে, বিজ্ঞানীরা হাজার হাজার প্রজাতির জিনোম সিকোয়েন্স করার ক্ষেত্রে উল্লেখযোগ্য অগ্রগতি অর্জন করেছেন, ক্রমাগতভাবে এই জটিল ভাষা সম্পর্কে আমাদের বোধগম্যতা উন্নত করছেন। যাইহোক, আমরা এখনও এর জটিলতার পৃষ্ঠে আঁচড় কাটতে শুরু করেছি।

Evo 2: DNA-এর জন্য একটি ChatGPT

আর্ক ইনস্টিটিউটের Evo 2 মডেলটি জীববিজ্ঞানের ক্ষেত্রে জেনারেটিভ AI প্রয়োগ করার ক্ষেত্রে একটি উল্লেখযোগ্য অগ্রগতি উপস্থাপন করে। সম্প্রতি প্রকাশিত এই মডেলটি ইঞ্জিনিয়ারিংয়ের একটি অসাধারণ কীর্তি। এটিকে 9.3 ট্রিলিয়ন DNA বেস পেয়ারের একটি বিস্ময়কর ডেটাসেটের উপর প্রশিক্ষণ দেওয়া হয়েছিল, যা জীবনের সমস্ত ক্ষেত্রকে অন্তর্ভুক্ত করে একটি সাবধানে তৈরি করা জিনোমিক অ্যাটলাস থেকে প্রাপ্ত। এটিকে পরিপ্রেক্ষিতে রাখতে, GPT-4 কে প্রায় 6.5 ট্রিলিয়ন টোকেনের উপর প্রশিক্ষণ দেওয়া হয়েছে বলে অনুমান করা হয়, যেখানে Meta-এর LLaMA 3 এবং DeepSeek V3 উভয়কেই প্রায় 15 ট্রিলিয়ন টোকেনের উপর প্রশিক্ষণ দেওয়া হয়েছিল। প্রশিক্ষণের ডেটা ভলিউমের দিক থেকে, Evo 2 শীর্ষস্থানীয় ভাষা মডেলগুলির সাথে কাঁধে কাঁধ মিলিয়ে দাঁড়িয়ে আছে।

মিউটেশনের প্রভাবের পূর্বাভাস

Evo 2-এর মূল ক্ষমতাগুলির মধ্যে একটি হল একটি জিনের মধ্যে মিউটেশনের প্রভাবগুলি অনুমান করার ক্ষমতা। জিনগুলিতে সাধারণত কোষগুলি যে প্রোটিন তৈরি করে, জীবনের মৌলিক বিল্ডিং ব্লকগুলি, তার জন্য নির্দেশাবলী থাকে। এই প্রোটিনগুলি কীভাবে কার্যকরী কাঠামোতে ভাঁজ হয় তার জটিল প্রক্রিয়াটি আরেকটি জটিল ভবিষ্যদ্বাণী চ্যালেঞ্জ, যা DeepMind-এর AlphaFold দ্বারা বিখ্যাতভাবে সমাধান করা হয়েছে। কিন্তু যখন একটি জিনের ক্রম পরিবর্তন করা হয় তখন কী ঘটে?

মিউটেশনের বিস্তৃত পরিসরের পরিণতি হতে পারে। কিছু বিপর্যয়কর, যা অ-কার্যকরী প্রোটিন বা গুরুতর বিকাশের ত্রুটির দিকে পরিচালিত করে। অন্যরা ক্ষতিকারক, সূক্ষ্ম কিন্তু ক্ষতিকর পরিবর্তন ঘটায়। অনেকগুলি মিউটেশন নিরপেক্ষ, জীবের উপর কোন লক্ষণীয় প্রভাব ফেলে না। এবং বিরল কিছু এমনকি উপকারী হতে পারে, নির্দিষ্ট পরিবেশে একটি সুবিধা প্রদান করে। চ্যালেঞ্জটি হল একটি নির্দিষ্ট মিউটেশন কোন বিভাগে পড়ে তা নির্ধারণ করা।

এখানেই Evo 2 তার অসাধারণ ক্ষমতা প্রদর্শন করে। বিভিন্ন ভ্যারিয়েন্ট ভবিষ্যদ্বাণী কার্যে, এটি বিদ্যমান, অত্যন্ত বিশেষায়িত মডেলগুলির কর্মক্ষমতার সাথে মেলে বা এমনকি অতিক্রম করে। এর মানে হল যে এটি কার্যকরভাবে ভবিষ্যদ্বাণী করতে পারে কোন মিউটেশনগুলি প্যাথোজেনিক হওয়ার সম্ভাবনা রয়েছে, বা পরিচিত ক্যান্সার জিনগুলির কোন রূপগুলি, যেমন BRCA1 (স্তন ক্যান্সারের সাথে যুক্ত), ক্লিনিক্যালি তাৎপর্যপূর্ণ।

আরও উল্লেখযোগ্য বিষয় হল যে Evo 2 বিশেষভাবে মানুষের ভ্যারিয়েন্ট ডেটার উপর প্রশিক্ষিত ছিল না। এর প্রশিক্ষণ শুধুমাত্র স্ট্যান্ডার্ড হিউম্যান রেফারেন্স জিনোমের উপর ভিত্তি করে ছিল। তবুও, এটি এখনও সঠিকভাবে অনুমান করতে পারে যে কোন মিউটেশনগুলি মানুষের মধ্যে ক্ষতিকারক হওয়ার সম্ভাবনা রয়েছে। এটি পরামর্শ দেয় যে মডেলটি মৌলিক বিবর্তনীয় সীমাবদ্ধতাগুলি শিখেছে যা জিনোমিক ক্রমগুলিকে নিয়ন্ত্রণ করে। এটি বিভিন্ন প্রজাতি এবং প্রসঙ্গে “স্বাভাবিক” DNA কেমন দেখায় সে সম্পর্কে একটি বোধগম্যতা তৈরি করেছে।

কাঁচা ডেটা থেকে জৈবিক বৈশিষ্ট্য শেখা

Evo 2-এর ক্ষমতা শুধুমাত্র DNA সিকোয়েন্সের প্যাটার্ন চেনার মধ্যেই সীমাবদ্ধ নয়। এটি কোনও সুস্পষ্ট প্রোগ্রামিং বা নির্দেশনা ছাড়াই সরাসরি কাঁচা প্রশিক্ষণ ডেটা থেকে জৈবিক বৈশিষ্ট্যগুলি শিখতে সক্ষম হয়েছে। এই বৈশিষ্ট্যগুলির মধ্যে রয়েছে:

  • মোবাইল জেনেটিক উপাদান: DNA সিকোয়েন্স যা জিনোমের মধ্যে ঘুরে বেড়াতে পারে।
  • নিয়ন্ত্রক মোটিফ: ছোট সিকোয়েন্স যা জিনের অভিব্যক্তি নিয়ন্ত্রণ করে।
  • প্রোটিনের সেকেন্ডারি গঠন: প্রোটিনের স্থানীয় ভাঁজ প্যাটার্ন।

এটি সত্যিই একটি অসাধারণ অর্জন। এটি বোঝায় যে Evo 2 শুধুমাত্র DNA সিকোয়েন্স পড়ছে না; এটি উচ্চ-স্তরের কাঠামোগত তথ্য উপলব্ধি করছে যা প্রশিক্ষণ ডেটাতে স্পষ্টভাবে সরবরাহ করা হয়নি। এটি ChatGPT-র ব্যাকরণের নিয়মগুলি স্পষ্টভাবে না শিখিয়ে ব্যাকরণগতভাবে সঠিক বাক্য তৈরি করার পদ্ধতির সমান্তরাল। একইভাবে, Evo 2 একটি জিন বা প্রোটিন কী তা না বলে একটি জিনোমের একটি অংশকে একটি বৈধ জৈবিক কাঠামো দিয়ে সম্পূর্ণ করতে পারে।

নতুন DNA সিকোয়েন্স তৈরি করা

ঠিক যেমন GPT মডেলগুলি নতুন টেক্সট তৈরি করতে পারে, Evo 2 সম্পূর্ণ নতুন DNA সিকোয়েন্স তৈরি করতে পারে। এটি সিন্থেটিক বায়োলজির ক্ষেত্রে উত্তেজনাপূর্ণ সম্ভাবনার দ্বার উন্মোচন করে, যেখানে বিজ্ঞানীরা বিভিন্ন অ্যাপ্লিকেশনের জন্য জৈবিক সিস্টেম ডিজাইন এবং ইঞ্জিনিয়ার করার লক্ষ্য রাখেন।

Evo 2 ইতিমধ্যেই তৈরি করতে ব্যবহৃত হয়েছে:

  • মাইটোকন্ড্রিয়াল জিনোম: মাইটোকন্ড্রিয়াতে পাওয়া DNA, কোষের পাওয়ার হাউস।
  • ব্যাকটেরিয়াল জিনোম: ব্যাকটেরিয়ার সম্পূর্ণ জেনেটিক উপাদান।
  • ইস্ট জিনোমের অংশ: ইস্টের DNA-এর বিভাগ, গবেষণা এবং শিল্পে সাধারণত ব্যবহৃত একটি জীব।

এই ক্ষমতাগুলি নিম্নলিখিতগুলির জন্য জীব ডিজাইন করতে অমূল্য হতে পারে:

  • বায়োম্যানুফ্যাকচারিং: ইঞ্জিনিয়ারড মাইক্রোব ব্যবহার করে মূল্যবান যৌগ উত্পাদন করা।
  • কার্বন ক্যাপচার: এমন জীব তৈরি করা যা বায়ুমণ্ডল থেকে দক্ষতার সাথে কার্বন ডাই অক্সাইড অপসারণ করতে পারে।
  • ড্রাগ সংশ্লেষণ: ফার্মাসিউটিক্যালস উত্পাদনের জন্য নতুন পথ তৈরি করা।

যাইহোক, Evo 2-এর বর্তমান সীমাবদ্ধতাগুলি স্বীকার করা গুরুত্বপূর্ণ, অনেকটা বৃহৎ ভাষা মডেলগুলির প্রাথমিক সংস্করণগুলির মতো। যদিও এটি জৈবিকভাবে যুক্তিসঙ্গত DNA সিকোয়েন্স তৈরি করতে পারে, তবে পরীক্ষামূলক বৈধতা ছাড়া এই সিকোয়েন্সগুলি কার্যকরী হবে এমন কোনও গ্যারান্টি নেই। নতুন, কার্যকরী DNA তৈরি করা একটি উল্লেখযোগ্য চ্যালেঞ্জ। কিন্তু ভাষা মডেলগুলির দ্রুত অগ্রগতি বিবেচনা করে, GPT-3 থেকে DeepSeek-এর মতো আরও উন্নত মডেলগুলিতে, এটি এমন একটি ভবিষ্যতের কল্পনা করা সহজ যেখানে জেনারেটিভ বায়োলজি সরঞ্জামগুলি ক্রমবর্ধমানভাবে অত্যাধুনিক এবং শক্তিশালী হয়ে উঠবে।

ওপেন-সোর্স এবং দ্রুত অগ্রগতি

Evo 2-এর একটি উল্লেখযোগ্য দিক হল এর ওপেন-সোর্স প্রকৃতি। মডেলের প্যারামিটার, প্রিট্রেনিং কোড, ইনফারেন্স কোড এবং এটি যে সম্পূর্ণ ডেটাসেটের উপর প্রশিক্ষিত হয়েছিল তা সবই সর্বজনীনভাবে উপলব্ধ। এটি সহযোগিতা বাড়ায় এবং ক্ষেত্রের অগ্রগতি ত্বরান্বিত করে।

এই ক্ষেত্রে উন্নয়নের গতিও উল্লেখযোগ্য। Evo 1, Evo 2-এর পূর্বসূরি, মাত্র কয়েক মাস আগে, নভেম্বর 2024-এ প্রকাশিত হয়েছিল। এটি ইতিমধ্যেই একটি উল্লেখযোগ্য অর্জন ছিল, যা প্রায় 300 বিলিয়ন টোকেন এবং 131,000 বেস পেয়ারের একটি কনটেক্সট উইন্ডো সহ প্রোক্যারিওটিক জিনোমের উপর প্রশিক্ষিত। যাইহোক, এর কার্যকারিতা তুলনামূলকভাবে সীমিত ছিল।

এখন, মাত্র কয়েক মাস পরে, Evo 2 এসেছে, প্রশিক্ষণের ডেটা আকারে 30-গুণ বৃদ্ধি, কনটেক্সট উইন্ডোর আটগুণ সম্প্রসারণ এবং সম্পূর্ণ নতুন ক্ষমতা নিয়ে গর্ব করছে। এই দ্রুত বিবর্তনটি ভাষা মডেলগুলিতে আমরা যে বিস্ময়করভাবে দ্রুত উন্নতি দেখেছি তার প্রতিফলন করে, যা মাত্র কয়েক বছরের মধ্যে ঘন ঘন হ্যালুসিনেশন থেকে মানব-স্তরের দক্ষতায় জটিল কাজগুলি মোকাবেলা করার দিকে রূপান্তরিত হয়েছে।

ঠিক যেমন GPT মডেলগুলি ভাষা তৈরিতে বিপ্লব ঘটিয়েছে, তেমনি এই DNA ভাষা মডেলগুলি জীবনের কোড সম্পর্কে আমাদের বোধগম্যতাকে রূপান্তরিত করতে প্রস্তুত। সম্ভাব্য অ্যাপ্লিকেশনগুলি বিশাল এবং সুদূরপ্রসারী, যা চিকিৎসা থেকে কৃষি থেকে পরিবেশ বিজ্ঞান পর্যন্ত ক্ষেত্রগুলিতে বিপ্লব ঘটানোর প্রতিশ্রুতি দেয়। জীববিজ্ঞানের ভবিষ্যত কখনও এত উত্তেজনাপূর্ণ ছিল না।
জেনারেটিভ AI-এর দ্রুত অগ্রগতি এখন সবচেয়ে মৌলিক কোডে প্রয়োগ করা হচ্ছে। দ্রুত অগ্রগতি LLM-গুলির অগ্রগতির মতোই।