地中海伊奥利亚群岛帕纳雷亚火山岛玄武岩器官的观察。
一些新发现的病毒生活在热液喷口和其他极端环境中。鸣谢:亚历克西斯·罗森菲尔德/盖蒂
研究人员利用人工智能(AI)发现了70,500种科学上未知的病毒,其中许多都很奇怪,与已知的物种完全不同。使用宏基因组学来识别RNA病毒,在宏基因组学中,科学家对环境中存在的所有基因组进行采样,而不必培养单个病毒。这种方法显示了人工智能探索RNA病毒宇宙“暗物质”的潜力。
病毒是无处不在的微生物,它们感染动物、植物甚至细菌,然而只有一小部分被鉴定和描述。加拿大多伦多大学的计算病毒学家Artem 说,病毒“本质上是一个无底洞”。他说,其中一些病毒可能导致人类疾病,这意味着描述它们的特征可能有助于解释神秘的疾病。
之前的研究使用机器学习在测序数据中寻找新病毒。发表在本周《细胞》杂志上的最新研究将这项工作向前推进了一步,并将其用于预测蛋白质结构1。
人工智能模型包含一个名为的蛋白质预测工具,由Meta(原脸书,总部位于加利福尼亚州门洛帕克)的研究人员开发。伦敦谷歌的研究人员开发了一个类似的人工智能系统,他们本周获得了诺贝尔化学奖。
遗漏的病毒
2022年,和他的同事搜索了公共数据库中存档的570万个基因组样本,并确定了近132,000种新的RNA病毒2。其他团体也做出了类似的努力。
但是RNA病毒进化很快,所以现有的在基因组序列数据中识别RNA病毒的方法可能会漏掉许多。一种常见的方法是寻找基因组中编码RNA复制中使用的关键蛋白质的一段,称为RNA依赖的RNA聚合酶(RdRp)。但是,如果病毒中编码这种蛋白质的序列与任何已知的序列都非常不同,研究人员就不会识别它。
中国深圳中山大学的进化生物学家石莽是这项细胞研究的合著者,他和他的同事们在公开的基因组样本中寻找以前未被识别的病毒。
他们开发了一个名为的模型,使用支持的“”架构,并向其输入测序和蛋白质预测数据。然后,他们训练他们的模型识别病毒RdRps,并使用它在大部分基因组数据中找到编码这些酶的序列——这些序列属于病毒的证据。使用这种方法,他们鉴定了大约160,000种RNA病毒,包括一些在极端环境中发现的超长RNA病毒,如温泉、盐湖和空气。其中不到一半以前从未被描述过。巴巴安说,他们发现了“在进化空间中非常遥远的小块RNA病毒生物多样性”。
位于吉朗的澳大利亚联邦科学与工业研究组织(CSIRO)疾病预防中心的进化病毒学家杰基·马哈尔( Mahar)说:“这是一种非常有前途的扩大病毒圈的方法。她说,病毒特征将有助于研究人员了解微生物的起源以及它们如何在不同的宿主中进化。
说,扩大已知病毒库可以更容易地发现更多相似的病毒。“突然之间,你可以看到以前看不到的东西。”
Mahar说,该小组无法确定他们所识别的病毒的宿主,这需要进一步调查。研究人员特别想知道是否有任何新病毒感染古菌,古菌是生命之树的一个完整分支,没有明确显示RNA病毒会感染它。
史现在正在开发一个模型来预测这些新发现的RNA病毒的宿主。他希望这将有助于研究人员理解病毒在其环境生态位中的作用。
doi:
参考
1.侯,徐等。细胞(2024)。
文章
谷歌学术
2.埃德加,R. C .等人《自然》602,142–147(2022)。
文章
谷歌学术
3.扎耶德等人的《科学》376,156–162(2022)。
文章
谷歌学术
有话要说...