Maendeleo ya akili bandia (AI) generative, yanayoonyeshwa na zana kama vile ChatGPT, yamebadilisha jinsi tunavyoingiliana na teknolojia. Kiini cha uwezo wa mifumo hii ni uwezo wao wa kutabiri herufi inayofuata katika mfuatano, iwe neno au sehemu ya neno. Kazi hii inayoonekana kuwa rahisi, inapoongezwa ukubwa na kuboreshwa, inaruhusu uzalishaji wa maandishi yenye mshikamano na yanayohusiana na muktadha. Lakini vipi ikiwa teknolojia hii ya kimapinduzi inaweza kutumika kwa lugha ya msingi zaidi kuliko lahaja yoyote ya kibinadamu – lugha ya uhai wenyewe?
Kufumbua Lugha ya DNA
DNA, ramani ya viumbe hai vyote, imeundwa na nukleotidi, zinazowakilishwa na herufi A, C, G, na T. Nukleotidi hizi huungana na kuunda muundo wa hesi mbili. Ndani ya muundo huu kuna jeni na mfuatano wa udhibiti, zote zikiwa zimefungwa vizuri katika kromosomu, ambazo kwa pamoja huunda jenomu. Kila spishi Duniani ina mfuatano wa kipekee wa jenomu, na, kwa kweli, kila mtu ndani ya spishi ana tofauti yake tofauti.
Ingawa tofauti kati ya watu wa spishi moja ni ndogo, zikiwakilisha sehemu ndogo tu ya jenomu yote, tofauti kati ya spishi ni kubwa zaidi. Kwa mfano, jenomu ya binadamu inajumuisha takriban jozi bilioni 3 za msingi. Ulinganisho kati ya binadamu wawili bila mpangilio unaonyesha tofauti ya takriban jozi milioni 3 za msingi - 0.1% tu. Hata hivyo, tunapolinganisha jenomu ya binadamu na ile ya jamaa yetu wa karibu, sokwe, tofauti huongezeka hadi takriban jozi milioni 30 za msingi, au karibu 1%.
Tofauti hizi zinazoonekana kuwa ndogo huchangia utofauti mkubwa wa kijenetiki tunaouona, si tu miongoni mwa wanadamu bali katika wigo mzima wa maisha. Katika miaka ya hivi karibuni, wanasayansi wamepiga hatua kubwa katika kupanga jenomu za maelfu ya spishi, na kuboresha uelewa wetu wa lugha hii tata. Hata hivyo, bado tunaanza tu kuchunguza utata wake.
Evo 2: ChatGPT ya DNA
Mfumo wa Evo 2 wa Taasisi ya Arc unawakilisha hatua kubwa mbele katika kutumia AI generative katika uwanja wa biolojia. Mfumo huu, uliotolewa hivi karibuni, ni kazi ya ajabu ya uhandisi. Ilifunzwa kwa jozi za msingi za DNA trilioni 9.3, seti ya data iliyotokana na atlasi ya jenomu iliyoratibiwa kwa uangalifu inayojumuisha nyanja zote za maisha. Ili kuweka hili katika mtazamo, GPT-4 inakadiriwa kuwa ilifunzwa kwa takriban tokeni trilioni 6.5, wakati LLaMA 3 ya Meta na DeepSeek V3 zote zilifunzwa kwa takriban tokeni trilioni 15. Kwa upande wa ujazo wa data ya mafunzo, Evo 2 inasimama bega kwa bega na mifumo inayoongoza ya lugha.
Kutabiri Athari za Mabadiliko ya Jeni
Moja ya uwezo muhimu wa Evo 2 ni uwezo wake wa kutabiri athari za mabadiliko ya jeni ndani ya jeni. Jeni kwa kawaida huwa na maagizo ambayo seli hutumia kuunda protini, vizuizi vya msingi vya ujenzi wa maisha. Mchakato mgumu wa jinsi protini hizi zinavyokunjwa katika miundo inayofanya kazi ni changamoto nyingine ngumu ya utabiri, ambayo ilishughulikiwa na AlphaFold ya DeepMind. Lakini nini kinatokea wakati mfuatano wa jeni unabadilishwa?
Mabadiliko ya jeni yanaweza kuwa na matokeo mbalimbali. Baadhi ni ya janga, na kusababisha protini zisizofanya kazi au kasoro kali za ukuaji. Nyingine ni hatari, na kusababisha mabadiliko madogo lakini yenye madhara. Mabadiliko mengi ya jeni hayana upande wowote, hayana athari inayoonekana kwa kiumbe. Na machache yanaweza kuwa ya manufaa, yakitoa faida katika mazingira fulani. Changamoto iko katika kuamua ni aina gani ya mabadiliko ya jeni fulani.
Hapa ndipo Evo 2 inaonyesha uwezo wake wa ajabu. Katika kazi mbalimbali za utabiri wa lahaja, inalingana au hata kuzidi utendaji wa mifumo iliyopo, iliyobobea sana. Hii inamaanisha kuwa inaweza kutabiri kwa ufanisi ni mabadiliko gani ya jeni yanayoweza kusababisha magonjwa, au ni lahaja gani za jeni zinazojulikana za saratani, kama vile BRCA1 (inayohusishwa na saratani ya matiti), ni muhimu kiafya.
Kinachoshangaza zaidi ni kwamba Evo 2 haikufunzwa mahsusi kwa data ya lahaja ya binadamu. Mafunzo yake yalitokana tu na jenomu ya kawaida ya marejeleo ya binadamu. Hata hivyo, bado inaweza kukadiria kwa usahihi ni mabadiliko gani ya jeni yanayoweza kuwa na madhara kwa wanadamu. Hii inaonyesha kuwa mfumo umejifunza vikwazo vya msingi vya mageuzi vinavyotawala mfuatano wa jenomu. Imeendeleza uelewa wa jinsi DNA “ya kawaida” inavyoonekana katika spishi na miktadha tofauti.
Kujifunza Sifa za Kibiolojia kutoka kwa Data Ghafi
Uwezo wa Evo 2 unaenea zaidi ya kutambua tu mifumo katika mfuatano wa DNA. Imeonyesha uwezo wa kujifunza sifa za kibiolojia moja kwa moja kutoka kwa data ghafi ya mafunzo, bila programu yoyote ya wazi au mwongozo. Vipengele hivi ni pamoja na:
- Vipengele vya kijenetiki vinavyohamishika: Mfuatano wa DNA ambao unaweza kuzunguka ndani ya jenomu.
- Motifu za udhibiti: Mfuatano mfupi unaodhibiti usemi wa jeni.
- Muundo wa sekondari wa protini: Mifumo ya kukunja ya ndani ya protini.
Hili ni jambo la ajabu sana. Inaashiria kuwa Evo 2 haisomi tu mfuatano wa DNA; inashika habari ya muundo wa kiwango cha juu ambayo haikutolewa wazi katika data ya mafunzo. Hii inafanana na jinsi ChatGPT inaweza kutoa sentensi sahihi za kisarufi bila kufundishwa wazi sheria za sarufi. Vile vile, Evo 2 inaweza kukamilisha sehemu ya jenomu yenye muundo halali wa kibiolojia, hata bila kuambiwa jeni au protini ni nini.
Kuzalisha Mfuatano Mpya wa DNA
Kama vile mifumo ya GPT inavyoweza kutoa maandishi mapya, Evo 2 inaweza kutoa mfuatano mpya kabisa wa DNA. Hii inafungua uwezekano wa kusisimua katika uwanja wa biolojia sintetiki, ambapo wanasayansi wanalenga kubuni na kuhandisi mifumo ya kibiolojia kwa matumizi mbalimbali.
Evo 2 tayari imetumika kuzalisha:
- Jenomu za mitochondrial: DNA inayopatikana katika mitochondria, vituo vya nguvu vya seli.
- Jenomu za bakteria: Nyenzo kamili ya kijenetiki ya bakteria.
- Sehemu za jenomu za chachu: Sehemu za DNA ya chachu, kiumbe kinachotumiwa sana katika utafiti na tasnia.
Uwezo huu unaweza kuwa muhimu sana katika kubuni viumbe kwa:
- Utengenezaji wa kibiolojia: Kuzalisha misombo muhimu kwa kutumia vijidudu vilivyoundwa.
- Ukamataji wa kaboni: Kuendeleza viumbe ambavyo vinaweza kuondoa kaboni dioksidi kutoka angahewa kwa ufanisi.
- Usanisi wa dawa: Kuunda njia mpya za kuzalisha dawa.
Hata hivyo, ni muhimu kutambua mapungufu ya sasa ya Evo 2, kama vile matoleo ya awali ya mifumo mikubwa ya lugha. Ingawa inaweza kutoa mfuatano wa DNA unaokubalika kibiolojia, hakuna hakikisho kwamba mfuatano huu utafanya kazi bila uthibitisho wa majaribio. Kuzalisha DNA mpya, inayofanya kazi bado ni changamoto kubwa. Lakini kwa kuzingatia maendeleo ya haraka katika mifumo ya lugha, kutoka GPT-3 hadi mifumo ya hali ya juu zaidi kama DeepSeek, ni rahisi kufikiria mustakabali ambapo zana za biolojia generative zinazidi kuwa za kisasa na zenye nguvu.
Chanzo Huria na Maendeleo ya Haraka
Kipengele muhimu cha Evo 2 ni asili yake ya chanzo huria. Vigezo vya mfumo, msimbo wa mafunzo ya awali, msimbo wa uelekezaji, na seti kamili ya data ambayo ilifunzwa vyote vinapatikana hadharani. Hii inakuza ushirikiano na kuharakisha maendeleo katika uwanja huu.
Kasi ya maendeleo katika eneo hili pia inafaa kuzingatiwa. Evo 1, mtangulizi wa Evo 2, ilitolewa miezi michache tu iliyopita, mnamo Novemba 2024. Tayari ilikuwa mafanikio makubwa, iliyofunzwa kwa jenomu za prokaryotic zenye takriban tokeni bilioni 300 na dirisha la muktadha la jozi za msingi 131,000. Hata hivyo, utendaji wake ulikuwa mdogo.
Sasa, miezi michache tu baadaye, Evo 2 imefika, ikijivunia ongezeko la mara 30 la ukubwa wa data ya mafunzo, upanuzi wa mara nane wa dirisha la muktadha, na uwezo mpya kabisa. Mageuzi haya ya haraka yanaakisi maboresho ya kushangaza ya haraka ambayo tumeona katika mifumo ya lugha, ambayo yalihama kutoka kwa maono ya mara kwa mara hadi kushughulikia kazi ngumu katika kiwango cha ustadi wa binadamu katika miaka michache tu.
Kama vile mifumo ya GPT ilivyobadilisha uzalishaji wa lugha, mifumo hii ya lugha ya DNA iko tayari kubadilisha uelewa wetu wa kanuni ya uhai wenyewe. Matumizi yanayowezekana ni makubwa na yanafikia mbali, yakiahidi kuleta mapinduzi katika nyanja kuanzia dawa hadi kilimo hadi sayansi ya mazingira. Mustakabali wa biolojia haujawahi kuonekana wa kusisimua zaidi.