محققان با استفاده از هوش مصنوعی توانستهاند ۷۰,۵۰۰ ویروس که قبلاً برای علم ناشناخته بودند را شناسایی کنند. بسیاری از این ویروسها عجیب و غریب هستند و در دریاچههای نمکی، چشمههای آب گرم و سایر محیطهای شدید زندگی میکنند. این ویروسهای RNA با استفاده از متاژنو میکروبی، که در آن دانشمندان تمام ژنومهای موجود در محیط را بدون نیاز به کشت ویروسهای فردی نمونهبرداری میکنند، شناسایی شدند. این روش پتانسیل هوش مصنوعی را برای کشف «ماده تاریک» دنیای ویروسهای RNA نشان میدهد.
ویروسها میکروارگانیسمهای فراوانی هستند که به حیوانات، گیاهان و حتی باکتریها حمله میکنند، اما تنها درصد کمی از آنها شناسایی و توصیف شدهاند. آرتیم بابایان، ویروسشناس محاسباتی در دانشگاه تورنتو کانادا، میگوید: «در واقع، یک چاه بیپایان از ویروسها برای کشف وجود دارد.» برخی از این ویروسها میتوانند باعث بیماری در انسانها شوند، به این معنی که توصیف آنها میتواند به توضیح بیماریهای مرموز کمک کند.
مطالعات قبلی از یادگیری ماشین برای یافتن ویروسهای جدید در دادههای توالییابی استفاده کردهاند. مطالعه اخیر که این هفته در نشریه Cell منتشر شده است، این کار را یک قدم جلوتر برده و از آن برای بررسی ساختارهای پروتئینی پیشبینی شده استفاده کرده است.
مدل هوش مصنوعی شامل ابزاری برای پیشبینی پروتئین به نام ESMFold است که توسط محققان Meta (که قبلاً به عنوان فیسبوک شناخته میشد و در منلو پارک کالیفرنیا مستقر است) توسعه یافته است. یک سیستم هوش مصنوعی مشابه به نام AlphaFold نیز توسط محققان Google DeepMind در لندن توسعه یافته است که اخیراً برنده جایزه نوبل شیمی شدهاند.
ویروسهای نادیدهگرفته شده
در سال ۲۰۲۲، بابایان و همکارانش ۵.۷ میلیون نمونه ژنومی را که در پایگاههای داده عمومی آرشیو شده بودند، جستجو کردند و تقریباً ۱۳۲,۰۰۰ ویروس RNA جدید شناسایی کردند. گروههای دیگر نیز تلاشهای مشابهی انجام دادهاند.
اما ویروسهای RNA به سرعت تکامل مییابند، بنابراین روشهای موجود برای شناسایی این ویروسها در دادههای توالییابی احتمالاً بسیاری از آنها را نادیده میگیرند. یک روش رایج این است که به دنبال بخشی از ژنوم بگردند که یک پروتئین کلیدی مورد استفاده در تکثیر RNA به نام RNA-dependent RNA polymerase (RdRp) را کد میکند. اما اگر توالیای که این پروتئین را در یک ویروس کد میکند، به طرز چشمگیری با هر توالی شناختهشدهای متفاوت باشد، محققان آن را شناسایی نخواهند کرد.
شی مانگ، زیستشناس تکاملی در دانشگاه Sun Yat-sen در شنژن چین و یکی از نویسندگان مطالعه Cell، و همکارانش به جستجوی ویروسهای ناشناخته در نمونههای ژنومی عمومی پرداختند.
آنها مدلی به نام LucaProt توسعه دادند که از معماری «ترنسفورمر» استفاده میکند و دادههای توالییابی و پیشبینی پروتئین ESMFold را به آن وارد کردند. سپس مدل خود را برای شناسایی RdRpهای ویروسی آموزش دادند و از آن برای یافتن توالیهایی که این آنزیمها را کد میکنند، استفاده کردند – شواهدی مبنی بر اینکه آن توالیها به یک ویروس تعلق دارند – در مجموعه بزرگی از دادههای ژنومی. با استفاده از این روش، آنها حدود ۱۶۰,۰۰۰ ویروس RNA شناسایی کردند که برخی از آنها به طور استثنایی بلند بودند و در محیطهای شدید مانند چشمههای آب گرم، دریاچههای نمکی و هوا یافت شدند. تقریباً نیمی از آنها قبلاً توصیف نشده بودند. بابایان میگوید: «ما جیبهای کوچکی از تنوع ویروسهای RNA پیدا کردیم که واقعاً در دوردستهای فضای تکاملی قرار دارند.»
جکی ماها، ویروسشناس تکاملی در مرکز آمادگی بیماریهای استرالیایی CSIRO در Geelong، میگوید: «این یک رویکرد واقعاً امیدوارکننده برای گسترش ویروسسرا است.» توصیف ویروسها به محققان کمک خواهد کرد تا منشاء میکروبها و چگونگی تکامل آنها در میزبانهای مختلف را درک کنند.
گسترش مجموعه ویروسهای شناختهشده باعث میشود یافتن ویروسهای مشابه آسانتر شود. بابایان میگوید: «به یک باره، میتوانید چیزهایی را ببینید که قبلاً نمیتوانستید.»
تیم محققان نتوانستند میزبانهای ویروسهایی که شناسایی کردند را تعیین کنند، که نیاز به بررسی بیشتر دارد، به گفته ماها. محققان بهویژه علاقهمندند بدانند آیا هیچیک از ویروسهای جدید، آرکئا را عفونت میکنند یا خیر؛ یک شاخه کامل از درخت حیات که هیچ ویروس RNAای بهطور واضح نشان داده نشده است که آن را عفونت کند.
شی در حال حاضر در حال توسعه مدلی برای پیشبینی میزبانهای این ویروسهای RNA جدید شناسایی شده است. او امیدوار است که این کمک خواهد کرد تا محققان نقش ویروسها در زیستگاههای محیطی خود را درک کنند.
منبع: https://www.nature.com/articles/d41586-024-03320-6