ถอดรหัสภาษาของ DNA
DNA ซึ่งเป็นแม่พิมพ์ของสิ่งมีชีวิตทั้งหมด ประกอบด้วยนิวคลีโอไทด์ ซึ่งแสดงด้วยตัวอักษร A, C, G และ T นิวคลีโอไทด์เหล่านี้จับคู่กันเพื่อสร้างโครงสร้างเกลียวคู่ที่เป็นสัญลักษณ์ ภายในโครงสร้างนี้มียีนและลำดับการควบคุม ทั้งหมดบรรจุไว้อย่างเรียบร้อยในโครโมโซม ซึ่งรวมกันเป็นจีโนม สิ่งมีชีวิตทุกชนิดบนโลกมีลำดับจีโนมที่ไม่เหมือนใคร และในความเป็นจริง ทุกคนในสปีชีส์เดียวกันก็มีความแตกต่างกัน
แม้ว่าความแตกต่างระหว่างบุคคลในสปีชีส์เดียวกันจะค่อนข้างน้อย ซึ่งคิดเป็นเพียงเศษเสี้ยวของจีโนมทั้งหมด แต่ความแตกต่างระหว่างสปีชีส์นั้นมีมากกว่ามาก ตัวอย่างเช่น จีโนมของมนุษย์ประกอบด้วยคู่เบสประมาณ 3 พันล้านคู่ การเปรียบเทียบระหว่างมนุษย์สองคนที่สุ่มมา พบว่ามีความแตกต่างกันประมาณ 3 ล้านคู่เบส ซึ่งเป็นเพียง 0.1% เท่านั้น อย่างไรก็ตาม เมื่อเปรียบเทียบจีโนมของมนุษย์กับจีโนมของลิงชิมแปนซี ซึ่งเป็นญาติสนิทที่สุดของเรา ความแตกต่างจะเพิ่มขึ้นเป็นประมาณ 30 ล้านคู่เบส หรือประมาณ 1%
ความแตกต่างที่ดูเหมือนเล็กน้อยเหล่านี้ก่อให้เกิดความหลากหลายทางพันธุกรรมอันกว้างใหญ่ที่เราสังเกตเห็น ไม่เพียงแต่ในมนุษย์เท่านั้น แต่ยังรวมถึงสิ่งมีชีวิตทั้งหมดด้วย ในช่วงไม่กี่ปีที่ผ่านมา นักวิทยาศาสตร์ได้ก้าวหน้าอย่างมากในการจัดลำดับจีโนมของสิ่งมีชีวิตหลายพันชนิด ซึ่งช่วยพัฒนาความเข้าใจของเราเกี่ยวกับภาษาที่ซับซ้อนนี้อย่างต่อเนื่อง อย่างไรก็ตาม เรายังคงอยู่ในช่วงเริ่มต้นของการทำความเข้าใจความซับซ้อนของมันเท่านั้น
Evo 2: ChatGPT สำหรับ DNA
Evo 2 โมเดลของ Arc Institute แสดงถึงความก้าวหน้าครั้งสำคัญในการประยุกต์ใช้ generative AI กับขอบเขตของชีววิทยา โมเดลนี้ซึ่งเปิดตัวเมื่อเร็ว ๆ นี้ เป็นความสำเร็จที่น่าทึ่งของวิศวกรรม ได้รับการฝึกฝนด้วยคู่เบส DNA จำนวน 9.3 ล้านล้านคู่ ซึ่งเป็นชุดข้อมูลที่ได้มาจากแผนที่จีโนมที่คัดสรรมาอย่างดีซึ่งครอบคลุมทุกโดเมนของชีวิต เพื่อให้เห็นภาพนี้ GPT-4 คาดว่าจะได้รับการฝึกฝนด้วยโทเค็นประมาณ 6.5 ล้านล้านโทเค็น ในขณะที่ LLaMA 3 ของ Meta และ DeepSeek V3 ได้รับการฝึกฝนด้วยโทเค็นประมาณ 15 ล้านล้านโทเค็น ในแง่ของปริมาณข้อมูลการฝึกอบรม Evo 2 เทียบเท่ากับโมเดลภาษาชั้นนำ
การทำนายผลกระทบของการกลายพันธุ์
หนึ่งในความสามารถหลักของ Evo 2 คือความสามารถในการทำนายผลกระทบของการกลายพันธุ์ภายในยีน โดยทั่วไปแล้วยีนจะมีคำแนะนำที่เซลล์ใช้ในการสร้างโปรตีน ซึ่งเป็นส่วนประกอบพื้นฐานของชีวิต กระบวนการที่ซับซ้อนของวิธีที่โปรตีนเหล่านี้พับเป็นโครงสร้างการทำงานเป็นอีกหนึ่งความท้าทายในการทำนายที่ซับซ้อน ซึ่ง AlphaFold ของ DeepMind ได้แก้ไขอย่างมีชื่อเสียง แต่จะเกิดอะไรขึ้นเมื่อลำดับของยีนมีการเปลี่ยนแปลง?
การกลายพันธุ์สามารถมีผลกระทบได้หลากหลาย บางอย่างเป็นหายนะ นำไปสู่โปรตีนที่ไม่ทำงานหรือข้อบกพร่องในการพัฒนาอย่างรุนแรง บางอย่างเป็นอันตราย ทำให้เกิดการเปลี่ยนแปลงเล็กน้อยแต่เป็นอันตราย การกลายพันธุ์หลายอย่างเป็นกลาง ไม่มีผลกระทบที่มองเห็นได้ต่อสิ่งมีชีวิต และมีเพียงไม่กี่อย่างที่อาจเป็นประโยชน์ ให้ข้อได้เปรียบในบางสภาพแวดล้อม ความท้าทายอยู่ที่การพิจารณาว่าการกลายพันธุ์ใดอยู่ในหมวดหมู่ใด
นี่คือจุดที่ Evo 2 แสดงให้เห็นถึงความสามารถที่น่าทึ่ง ในงานการทำนายตัวแปรที่หลากหลาย มันเทียบเท่าหรือเหนือกว่าประสิทธิภาพของโมเดลที่มีอยู่ ซึ่งมีความเชี่ยวชาญสูง ซึ่งหมายความว่าสามารถทำนายได้อย่างมีประสิทธิภาพว่าการกลายพันธุ์ใดมีแนวโน้มที่จะก่อให้เกิดโรค หรือตัวแปรใดของยีนมะเร็งที่รู้จัก เช่น BRCA1 (เกี่ยวข้องกับมะเร็งเต้านม) มีความสำคัญทางคลินิก
สิ่งที่น่าทึ่งยิ่งกว่าคือ Evo 2 ไม่ได้รับการฝึกฝนโดยเฉพาะกับข้อมูลตัวแปรของมนุษย์ การฝึกอบรมนั้นขึ้นอยู่กับจีโนมอ้างอิงของมนุษย์มาตรฐานเท่านั้น แต่ก็ยังสามารถอนุมานได้อย่างแม่นยำว่าการกลายพันธุ์ใดมีแนวโน้มที่จะเป็นอันตรายในมนุษย์ สิ่งนี้ชี้ให้เห็นว่าแบบจำลองได้เรียนรู้ข้อจำกัดเชิงวิวัฒนาการพื้นฐานที่ควบคุมลำดับจีโนม ได้พัฒนาความเข้าใจว่า DNA ที่ “ปกติ” มีลักษณะอย่างไรในสปีชีส์และบริบทที่แตกต่างกัน
การเรียนรู้คุณสมบัติทางชีวภาพจากข้อมูลดิบ
ความสามารถของ Evo 2 ขยายไปไกลกว่าการจดจำรูปแบบในลำดับ DNA ได้แสดงให้เห็นถึงความสามารถในการเรียนรู้คุณสมบัติทางชีวภาพโดยตรงจากข้อมูลการฝึกอบรมดิบ โดยไม่มีการเขียนโปรแกรมหรือคำแนะนำที่ชัดเจน คุณสมบัติเหล่านี้รวมถึง:
- Mobile genetic elements: ลำดับ DNA ที่สามารถเคลื่อนที่ไปมาภายในจีโนมได้
- Regulatory motifs: ลำดับสั้น ๆ ที่ควบคุมการแสดงออกของยีน
- Protein secondary structure: รูปแบบการพับเฉพาะที่ของโปรตีน
นี่คือความสำเร็จที่น่าทึ่งอย่างแท้จริง มันบ่งบอกว่า Evo 2 ไม่ได้เป็นเพียงการอ่านลำดับ DNA เท่านั้น มันกำลังทำความเข้าใจข้อมูลโครงสร้างลำดับที่สูงกว่าซึ่งไม่ได้ระบุไว้อย่างชัดเจนในข้อมูลการฝึกอบรม สิ่งนี้คล้ายคลึงกับวิธีที่ ChatGPT สามารถสร้างประโยคที่ถูกต้องตามหลักไวยากรณ์ได้โดยไม่ต้องได้รับการสอนกฎไวยากรณ์อย่างชัดเจน ในทำนองเดียวกัน Evo 2 สามารถเติมเต็มส่วนของจีโนมด้วยโครงสร้างทางชีวภาพที่ถูกต้อง แม้ว่าจะไม่ได้บอกว่ายีนหรือโปรตีนคืออะไร
การสร้างลำดับ DNA ใหม่
เช่นเดียวกับที่โมเดล GPT สามารถสร้างข้อความใหม่ได้ Evo 2 ก็สามารถสร้างลำดับ DNA ใหม่ทั้งหมดได้ สิ่งนี้เปิดโอกาสที่น่าตื่นเต้นในสาขาชีววิทยาสังเคราะห์ ซึ่งนักวิทยาศาสตร์มีเป้าหมายที่จะออกแบบและสร้างระบบชีวภาพสำหรับการใช้งานที่หลากหลาย
Evo 2 ได้ถูกนำมาใช้เพื่อสร้าง:
- Mitochondrial genomes: DNA ที่พบในไมโตคอนเดรีย ซึ่งเป็นแหล่งพลังงานของเซลล์
- Bacterial genomes: สารพันธุกรรมทั้งหมดของแบคทีเรีย
- Parts of yeast genomes: ส่วนของ DNA ของยีสต์ ซึ่งเป็นสิ่งมีชีวิตที่ใช้กันทั่วไปในการวิจัยและอุตสาหกรรม
ความสามารถเหล่านี้อาจมีค่าอย่างยิ่งในการออกแบบสิ่งมีชีวิตสำหรับ:
- Biomanufacturing: การผลิตสารประกอบที่มีค่าโดยใช้จุลินทรีย์ที่ได้รับการออกแบบทางวิศวกรรม
- Carbon capture: การพัฒนาสิ่งมีชีวิตที่สามารถกำจัดก๊าซคาร์บอนไดออกไซด์ออกจากชั้นบรรยากาศได้อย่างมีประสิทธิภาพ
- Drug synthesis: การสร้างวิถีทางใหม่สำหรับการผลิตยา
อย่างไรก็ตาม สิ่งสำคัญคือต้องรับทราบข้อจำกัดในปัจจุบันของ Evo 2 เช่นเดียวกับโมเดลภาษาขนาดใหญ่รุ่นแรก ๆ แม้ว่าจะสามารถสร้างลำดับ DNA ที่เป็นไปได้ทางชีวภาพได้ แต่ก็ไม่มีการรับประกันว่าลำดับเหล่านี้จะทำงานได้โดยไม่ต้องมีการตรวจสอบจากการทดลอง การสร้าง DNA ใหม่ที่ใช้งานได้ยังคงเป็นความท้าทายที่สำคัญ แต่เมื่อพิจารณาถึงความก้าวหน้าอย่างรวดเร็วในโมเดลภาษา จาก GPT-3 ไปจนถึงโมเดลขั้นสูงกว่า เช่น DeepSeek จึงเป็นเรื่องง่ายที่จะจินตนาการถึงอนาคตที่เครื่องมือชีววิทยากำเนิดมีความซับซ้อนและทรงพลังมากขึ้น
โอเพนซอร์สและความก้าวหน้าอย่างรวดเร็ว
ลักษณะสำคัญของ Evo 2 คือลักษณะโอเพนซอร์ส พารามิเตอร์ของโมเดล โค้ดการฝึกอบรมล่วงหน้า โค้ดการอนุมาน และชุดข้อมูลทั้งหมดที่ได้รับการฝึกฝนนั้นเปิดเผยต่อสาธารณะ สิ่งนี้ส่งเสริมการทำงานร่วมกันและเร่งความก้าวหน้าในสาขานี้
ความเร็วในการพัฒนาในพื้นที่นี้ก็น่าสังเกตเช่นกัน Evo 1 ซึ่งเป็นรุ่นก่อนของ Evo 2 ได้รับการเผยแพร่เมื่อไม่กี่เดือนก่อนหน้านี้ ในเดือนพฤศจิกายน 2024 มันเป็นความสำเร็จที่สำคัญอยู่แล้ว โดยได้รับการฝึกฝนบนจีโนมโปรคาริโอตที่มีโทเค็นประมาณ 300 พันล้านโทเค็นและหน้าต่างบริบท 131,000 คู่เบส อย่างไรก็ตาม ฟังก์ชันการทำงานของมันค่อนข้างจำกัด
ตอนนี้ เพียงไม่กี่เดือนต่อมา Evo 2 ก็มาถึง โดยมีขนาดข้อมูลการฝึกอบรมเพิ่มขึ้น 30 เท่า การขยายหน้าต่างบริบทแปดเท่า และความสามารถใหม่ทั้งหมด วิวัฒนาการอย่างรวดเร็วนี้สะท้อนให้เห็นถึงการปรับปรุงที่รวดเร็วอย่างน่าอัศจรรย์ที่เราได้เห็นในโมเดลภาษา ซึ่งเปลี่ยนจากการเกิดภาพหลอนบ่อยครั้งไปสู่การจัดการกับงานที่ซับซ้อนในระดับความสามารถของมนุษย์ในเวลาเพียงไม่กี่ปี
เช่นเดียวกับที่โมเดล GPT ปฏิวัติการสร้างภาษา โมเดลภาษา DNA เหล่านี้ก็พร้อมที่จะเปลี่ยนแปลงความเข้าใจของเราเกี่ยวกับรหัสแห่งชีวิต การใช้งานที่เป็นไปได้นั้นกว้างใหญ่และกว้างไกล สัญญาว่าจะปฏิวัติสาขาต่าง ๆ ตั้งแต่การแพทย์ไปจนถึงการเกษตรไปจนถึงวิทยาศาสตร์สิ่งแวดล้อม อนาคตของชีววิทยาไม่เคยดูน่าตื่นเต้นเท่านี้มาก่อน