سفر یک داروی بالقوه نجاتبخش، از جرقهای در ذهن یک محقق تا رسیدن به بالین بیمار، به طرز بدنامی طولانی، طاقتفرسا و به شکلی سرسامآور گران است. این یک هزارتو از تعاملات مولکولی، مسیرهای بیولوژیکی، آزمایشهای بالینی و موانع نظارتی است. شکست رایج است، موفقیت نادر و به سختی به دست میآید. برای دههها، صنعت داروسازی با این واقعیت دست و پنجه نرم کرده و به دنبال راههایی برای سادهسازی فرآیند، کاهش هزینهها و مهمتر از همه، تسریع در ارائه درمانهای مؤثر بوده است. اکنون، غول فناوری Google در حال ورود بیشتر به این عرصه پیچیده است و ابزار قدرتمند جدیدی را پیشنهاد میکند که بر پایههای هوش مصنوعی ساخته شده است: TxGemma. این فقط یک الگوریتم دیگر نیست؛ بلکه به عنوان یک کاتالیزور متنباز موقعیتدهی شده است که به طور خاص برای باز کردن گرههای توسعه درمانی طراحی شده است.
از هوش مصنوعی عمومیگرا تا ابزار تخصصی کشف دارو
ورود Google به کاربرد مدلهای زبان بزرگ (LLMs) در علوم زیستی کاملاً جدید نیست. معرفی Tx-LLM در اکتبر 2023 گام مهمی بود که یک مدل عمومیگرا را با هدف کمک به جنبههای مختلف توسعه دارو ارائه میداد. با این حال، پیچیدگیهای زیستشناسی و شیمی نیازمند ابزارهای تخصصیتری هستند. با درک این موضوع، مهندسان Google بر اساس کار خود، با بهرهگیری از معماری مدلهای معتبر Gemma خود، TxGemma را ایجاد کردهاند.
تمایز حیاتی در آموزش نهفته است. در حالی که LLMهای عمومی از حجم وسیعی از متن و کد یاد میگیرند، TxGemma به دقت بر روی دادههای مستقیماً مرتبط با توسعه درمانها آموزش دیده است. این آموزش متمرکز، درک دقیقی از زبان و منطق کشف دارو را به مدل القا میکند. این مدل نه تنها برای پردازش اطلاعات، بلکه برای درک و پیشبینی ویژگیهای پیچیده نامزدهای دارویی بالقوه در طول چرخه عمرشان طراحی شده است. آن را مانند گذار از یک هوش مصنوعی همهچیزدان به هوش مصنوعی دارای دکترای تخصصی در علوم دارویی در نظر بگیرید.
تصمیم برای انتشار TxGemma به عنوان یک پروژه متنباز به ویژه قابل توجه است. به جای نگه داشتن این فناوری بالقوه تحولآفرین پشت دیوارهای اختصاصی، Google از جامعه تحقیقاتی جهانی - دانشگاهیان، استارتآپهای بیوتک و شرکتهای داروسازی معتبر به طور یکسان - دعوت میکند تا از مدلها استفاده، آنها را تطبیق داده و اصلاح کنند. این رویکرد مشارکتی به توسعهدهندگان اجازه میدهد تا TxGemma را بر روی مجموعه دادههای خود تنظیم دقیق کنند، آن را برای سوالات تحقیقاتی خاص و خطوط لوله اختصاصی خود سفارشی سازند و به طور بالقوه سرعت نوآوری سریعتر و توزیعشدهتری را تقویت کنند.
تنظیم قدرت هوش مصنوعی: اندازههای مدل و قابلیتهای پیشبینی
با درک اینکه منابع محاسباتی در محیطهای تحقیقاتی مختلف به طور چشمگیری متفاوت است، Google یک راه حل یکسان برای همه ارائه نکرده است. TxGemma در مجموعهای طبقهبندی شده از مدلها عرضه میشود که به محققان امکان میدهد تعادل بهینه بین قدرت محاسباتی و توانایی پیشبینی را انتخاب کنند:
- ۲ میلیارد پارامتر: گزینهای نسبتاً سبک، مناسب برای محیطهایی با سختافزار محدودتر یا برای کارهایی که نیاز به تحلیل کمتر پیچیدهای دارند.
- ۹ میلیارد پارامتر: یک مدل میانرده که گام قابل توجهی در قابلیت ارائه میدهد و عملکرد را با نیازهای محاسباتی قابل مدیریت متعادل میکند.
- ۲۷ میلیارد پارامتر: مدل پرچمدار، طراحی شده برای حداکثر عملکرد در کارهای پیچیده، که به منابع سختافزاری قابل توجهی نیاز دارد اما عمیقترین بینشها را نوید میدهد.
مفهوم ‘پارامترها’ در این مدلها را میتوان به عنوان دستگیرهها و شمارهگیرهایی در نظر گرفت که هوش مصنوعی برای یادگیری و پیشبینی از آنها استفاده میکند. پارامترهای بیشتر به طور کلی امکان ثبت الگوها و ظرافتهای پیچیدهتر در دادهها را فراهم میکنند که منجر به دقت بالقوه بالاتر و قابلیتهای پیچیدهتر میشود، البته به قیمت افزایش نیازهای محاسباتی برای آموزش و استنتاج.
نکته مهم این است که هر دسته اندازه شامل یک نسخه ‘پیشبینی’ (predict) است. اینها اسبهای کاری هستند که برای وظایف خاص و حیاتی که خط لوله توسعه دارو را مشخص میکنند، تنظیم دقیق شدهاند:
- طبقهبندی (Classification): این وظایف شامل انجام پیشبینیهای دستهای است. یک مثال کلاسیک ارائه شده توسط Google تعیین این است که آیا یک مولکول خاص احتمالاً از سد خونی-مغزی (blood-brain barrier) عبور میکند یا خیر. این یک سوال نگهبان حیاتی در توسعه درمان برای اختلالات عصبی مانند بیماری Alzheimer’s یا Parkinson’s است. دارویی که نتواند به هدف خود در مغز برسد، صرف نظر از سایر خواصش، بیاثر است. TxGemma قصد دارد این نفوذپذیری را زودتر پیشبینی کند و زمان و منابع ارزشمندی را که در غیر این صورت ممکن است صرف نامزدهای غیرقابل دوام شود، صرفهجویی کند. سایر وظایف طبقهبندی میتواند شامل پیشبینی سمیت، حلالیت یا پایداری متابولیک باشد.
- رگرسیون (Regression): به جای دستهها، وظایف رگرسیون مقادیر عددی پیوسته را پیشبینی میکنند. یک مثال اصلی، پیشبینی میل ترکیبی اتصال (binding affinity) دارو است - یعنی اینکه یک مولکول دارویی بالقوه چقدر قوی به هدف بیولوژیکی مورد نظر خود (مانند یک پروتئین خاص) متصل میشود. میل ترکیبی اتصال بالا اغلب پیشنیازی برای اثربخشی دارو است. پیشبینی دقیق این مقدار به صورت محاسباتی میتواند به اولویتبندی مولکولها برای آزمایشهای تجربی بیشتر کمک کند و کار آزمایشگاهی را بر روی امیدوارکنندهترین نامزدها متمرکز کند. سایر وظایف رگرسیون ممکن است شامل پیشبینی سطوح دوز یا نرخ جذب باشد.
- تولید (Generation): این قابلیت به هوش مصنوعی اجازه میدهد تا ساختارهای مولکولی جدید یا موجودیتهای شیمیایی را بر اساس محدودیتهای داده شده پیشنهاد دهد. به عنوان مثال، Google اشاره میکند که مدل میتواند به عقب کار کند: با توجه به محصول مورد نظر یک واکنش شیمیایی، TxGemma میتواند واکنشدهندهها یا مواد اولیه لازم را پیشنهاد دهد. این قدرت تولیدی میتواند به طور قابل توجهی اکتشاف فضای شیمیایی را تسریع کند، به شیمیدانان در طراحی مسیرهای سنتز کمک کند یا حتی چارچوبهای مولکولی کاملاً جدید با خواص مورد نظر را پیشنهاد دهد.
این توانایی پیشبینی چند وجهی، TxGemma را نه تنها به عنوان یک ابزار تحلیلی، بلکه به عنوان یک شرکتکننده فعال در فرآیند علمی قرار میدهد که قادر به اطلاعرسانی تصمیمات در چندین مقطع حیاتی است.
سنجش: معیارهای عملکرد و پیامدها
انتشار یک ابزار جدید یک چیز است؛ نشان دادن اثربخشی آن چیز دیگری است. Google دادههای عملکردی را به اشتراک گذاشته است، به ویژه برای بزرگترین مدل ‘پیشبینی’ ۲۷ میلیارد پارامتری خود، که پیشرفتهای قابل توجهی را نشان میدهد. طبق ارزیابیهای داخلی آنها، این مدل پرچمدار TxGemma نه تنها از مدل قبلی خود، Tx-LLM، پیشی میگیرد، بلکه اغلب در طیف وسیعی از وظایف با آن برابری میکند یا از آن فراتر میرود.
اعداد ذکر شده قانعکننده هستند: مدل ۲۷ میلیارد پارامتری TxGemma طبق گزارشها، عملکرد برتر یا قابل مقایسهای نسبت به Tx-LLM در ۶۴ مورد از ۶۶ وظیفه معیار نشان داده و در ۴۵ مورد از آنها به طور فعال از آن بهتر عمل کرده است. این نشاندهنده جهش قابل توجهی در قابلیت عمومیگرایی در حوزه درمانی است.
شاید حتی چشمگیرتر، عملکرد TxGemma نسبت به مدلهای بسیار تخصصی و تکوظیفهای باشد. اغلب انتظار میرود مدلهای هوش مصنوعی که منحصراً برای یک کار خاص آموزش دیدهاند (مانند پیشبینی حلالیت یا سمیت) در آن کار خاص از مدلهای عمومیتر بهتر عمل کنند. با این حال، دادههای Google نشان میدهد که TxGemma ۲۷ میلیارد پارامتری در ۵۰ وظیفه مختلف با این مدلهای تخصصی رقابت میکند یا آنها را شکست میدهد و در ۲۶ مورد به صراحت از آنها پیشی میگیرد.
این در عمل به چه معناست؟ این نشان میدهد که محققان ممکن است نیازی به مجموعهای از دهها ابزار هوش مصنوعی مختلف و با تمرکز محدود نداشته باشند. یک مدل عمومیگرای قدرتمند و به خوبی آموزشدیده مانند TxGemma میتواند به طور بالقوه به عنوان یک پلتفرم یکپارچه عمل کند که قادر به مدیریت چالشهای پیشبینی متنوع در جریان کار کشف دارو است. این میتواند جریانهای کاری را ساده کند، نیاز به ادغام چندین سیستم مجزا را کاهش دهد و دید جامعتری از مشخصات بالقوه یک نامزد دارویی ارائه دهد. توانایی یک مدل واحد، هرچند بزرگ، برای رقابت مؤثر با متخصصان وظیفهمحور، قدرت دادههای آموزشی گسترده و متمرکز بر دامنه و معماری مدل پیچیده را برجسته میکند. این به آیندهای اشاره دارد که در آن پلتفرمهای هوش مصنوعی یکپارچه به مراکز اصلی تحقیق و توسعه دارویی تبدیل میشوند.
فراتر از اعداد: تعامل در گفتگوی علمی با TxGemma-Chat
در حالی که دقت پیشبینی بسیار مهم است، فرآیند علمی اغلب شامل چیزی بیش از دریافت پاسخ صحیح است. این شامل درک چرا یک پاسخ صحیح است، کاوش در فرضیههای جایگزین و درگیر شدن در اصلاحات تکراری است. برای پرداختن به این موضوع، Google همچنین مدلهای TxGemma-Chat را معرفی کرده است که در پیکربندیهای پارامتری ۹ میلیارد و ۲۷ میلیارد در دسترس هستند.
این نسخههای مکالمهای نشاندهنده تکامل قابل توجهی در نحوه تعامل محققان با هوش مصنوعی در آزمایشگاه هستند. به جای اینکه صرفاً دادهها را وارد کرده و پیشبینی دریافت کنند، دانشمندان میتوانند با TxGemma-Chat وارد گفتگو شوند. آنها میتوانند از مدل بخواهند استدلال پشت نتیجهگیریهایش را توضیح دهد. به عنوان مثال، اگر مدل میل ترکیبی اتصال پایینی را برای یک مولکول پیشبینی کند، یک محقق میتواند بپرسد چرا به این نتیجه رسیده است، و به طور بالقوه بینشهایی در مورد ویژگیهای ساختاری خاص یا تعاملاتی که پیشبینی را هدایت میکنند، کشف کند.
این قابلیت، هوش مصنوعی را از یک پیشبینیکننده جعبه سیاه به یک همکار بالقوه تبدیل میکند. محققان میتوانند سوالات پیچیده و چندوجهی بپرسند که فراتر از طبقهبندی یا رگرسیون ساده است. تصور کنید از مدل در مورد اثرات بالقوه خارج از هدف سوال کنید، خلاصهای از مقالات مرتبط در مورد یک مسیر بیولوژیکی خاص بخواهید، یا برای بهبود خواص یک ترکیب پیشرو، ایدهپردازی کنید.
این تعاملات مکالمهای پتانسیل تسریع چشمگیر چرخه تحقیق را دارند. به جای صرف ساعتها برای جستجوی دستی پایگاههای داده یا کنار هم قرار دادن اطلاعات از منابع مختلف، محققان میتوانند از TxGemma-Chat برای سنتز سریع اطلاعات، تولید فرضیه و عیبیابی استفاده کنند. این عنصر تعاملی میتواند درک عمیقتری را تقویت کند و به طور بالقوه مسیرهای تحقیقاتی جدیدی را که در غیر این صورت ممکن است نادیده گرفته شوند، جرقه بزند. این امر ماهیت مشارکتی تیمهای علمی انسانی را منعکس میکند و یک شریک هوش مصنوعی را اضافه میکند که قادر به پردازش حجم عظیمی از اطلاعات و بیان ‘فرآیند فکری’ خود است.
بافتن همه چیز با هم: چارچوب Agentic-Tx و ابزار یکپارچه
کشف داروی واقعی به ندرت شامل وظایف پیشبینی مجزا میشود. این یک فرآیند پیچیده و چند مرحلهای است که نیازمند ادغام اطلاعات از منابع متنوع، انجام تحلیلهای متوالی و دسترسی به دانش بهروز است. با درک این موضوع، Google همچنین Agentic-Tx را اعلام کرد، یک چارچوب پیچیدهتر که بر اساس مدل قدرتمند Gemini 1.5 Pro خود ساخته شده است.
Agentic-Tx برای غلبه بر محدودیتهای کلیدی ذاتی بسیاری از مدلهای هوش مصنوعی مستقل طراحی شده است: دسترسی به اطلاعات خارجی و بلادرنگ و اجرای وظایف استدلالی پیچیده و چند مرحلهای. این کمتر شبیه یک ابزار واحد و بیشتر شبیه یک عامل هوشمند یا دستیار تحقیق عمل میکند که مجهز به یک جعبه ابزار مجازی برای مقابله با چالشهای علمی پیچیده است.
این جعبه ابزار به طرز چشمگیری گسترده است و منابع و قابلیتهای مختلفی را ادغام میکند:
- TxGemma به عنوان یک ابزار: قدرت پیشبینی و استدلال خود TxGemma به عنوان یکی از ابزارهای اصلی در چارچوب Agentic-Tx گنجانده شده است و به عامل اجازه میدهد از دانش درمانی تخصصی خود استفاده کند.
- قابلیتهای جستجوی عمومی: Agentic-Tx میتواند به پایگاههای دانش خارجی گسترده، از جمله PubMed (پایگاه داده اصلی برای مقالات زیستپزشکی)، Wikipedia و وب گستردهتر دسترسی پیدا کند. این تضمین میکند که تحلیلهای عامل با آخرین یافتههای تحقیقاتی و زمینه علمی عمومی آگاهانه انجام میشود.
- ابزارهای مولکولی خاص: ادغام با ابزارهای تخصصی امکان دستکاری و تجزیه و تحلیل مستقیم دادههای مولکولی را فراهم میکند و به طور بالقوه وظایفی مانند تجسم ساختار یا محاسبه ویژگیها را انجام میدهد.
- ابزارهای ژن و پروتئین: دسترسی به پایگاههای داده و ابزارهای متمرکز بر ژنومیک و پروتئومیک، عامل را قادر میسازد تا زمینه بیولوژیکی حیاتی مانند عملکرد ژن، تعاملات پروتئینی و تجزیه و تحلیل مسیر را در بر گیرد.
با هماهنگ کردن این ۱۸ ابزار متمایز، Agentic-Tx قصد دارد جریانهای کاری تحقیقاتی پیچیدهای را که نیازمند مراحل متوالی و ادغام اطلاعات هستند، مدیریت کند. به عنوان مثال، یک محقق ممکن است از Agentic-Tx بخواهد اهداف دارویی بالقوه برای یک بیماری خاص را شناسایی کند، آخرین مقالات مربوط به آن اهداف را بازیابی کند، از TxGemma برای پیشبینی میل ترکیبی اتصال مهارکنندههای شناخته شده استفاده کند، اثرات بالقوه خارج از هدف را با استفاده از پایگاههای داده پروتئین تجزیه و تحلیل کند و در نهایت، یافتههارا با شواهد پشتیبان خلاصه کند. این رویکرد یکپارچه و مبتنی بر عامل، نحوه برخورد محققان انسانی با مشکلات پیچیده را منعکس میکند، اما با پتانسیل پردازش و تجزیه و تحلیل اطلاعات بسیار سریعتر.
درهای باز: دسترسی و آینده مشارکتی
یک ابزار قدرتمند تنها در صورتی مفید است که در دسترس باشد. Google در حال حاضر TxGemma را از طریق پلتفرمهای معتبری مانند Vertex AI Model Garden و مرکز محبوب متنباز Hugging Face به راحتی در دسترس جامعه تحقیقاتی قرار میدهد. این امر مانع ورود را کاهش میدهد و به محققان در سراسر جهان اجازه میدهد تا به راحتی شروع به آزمایش و ادغام TxGemma در کار خود کنند.
تأکید بر ماهیت متنباز مدلها یک استراتژی عمدی برای تقویت مشارکت جامعه است. Google صراحتاً انتظار خود را بیان میکند که محققان نه تنها از TxGemma استفاده کنند، بلکه بر روی آن تکرار کنند، آن را بیشتر تنظیم دقیق کنند و بهبودهای خود را منتشر کنند. این یک چرخه فضیلتمند ایجاد میکند: همانطور که جامعه مدلها را بهبود میبخشد، توانایی جمعی برای تسریع کشف دارو رشد میکند. تکنیکهای جدید، سازگاریهای تخصصی و بهبودهای عملکردی میتوانند به اشتراک گذاشته شوند و به طور بالقوه سریعتر از آنچه هر سازمان واحدی به تنهایی میتواند به دست آورد، منجر به پیشرفتهای چشمگیر شوند.
این اخلاق مشارکتی نوید عظیمی برای مقابله با چالشهای دلهرهآور توسعه درمانی دارد. با تجمیع منابع و تخصص پیرامون یک پلتفرم هوش مصنوعی مشترک و قدرتمند، جامعه تحقیقاتی جهانی میتواند به طور مؤثرتری در جهت هدف مشترک رساندن سریعتر درمانهای مؤثر به بیماران کار کند. تأثیر بالقوه فراتر از سرعت صرف است؛ دموکراتیک کردن دسترسی به چنین ابزارهای پیشرفتهای میتواند آزمایشگاههای کوچکتر و محققان در محیطهای با منابع محدود را توانمند سازد و دامنه نوآوری را گسترش دهد. چشمانداز نهایی، چشماندازی است که در آن هوش مصنوعی به عنوان یک شتابدهنده قدرتمند عمل میکند، جدولهای زمانی را کوتاه میکند، نرخ شکست را کاهش میدهد و در نهایت، از طریق توسعه سریعتر داروهای حیاتی، جانهای بیشتری را نجات میدهد. مسیر پیش رو نه تنها شامل اصلاح الگوریتمها، بلکه ساختن یک اکوسیستم پر جنب و جوش در اطراف آنهاست.