折叠的蛋白质
加利福尼亚州大学的生物化学家格雷戈里·韦斯(GregoryWeiss)在他的文章《可以吃的科学:关于食物10件你不知道的事》中表示,他们利用蛋白质折叠技术,可以让熟鸡蛋“重获新生”。不过,研究蛋白质折叠并不仅仅是为了让鸡蛋重生,更重要的意义在于揭示生命体内的第二套遗传密码——折叠密码。 蛋白质是生物体内一切功能的执行者,人体内的任何功能,从催化化学反应到抵御外来病毒、细菌等都是蛋白质作用的结果,蛋白质折叠就是生命活动的最基本过程。随着对一些疑难病与罕见病研究的深入,研究人员发现,只有蛋白质折叠形成正确的三维空间结构才可能具有正常的生物学功能,如果这些生物大分子的折叠在体内发生了故障,形成了错误的空间结构,不但将丧失其生物学功能,还会导致上面这些疾病的发生。 细胞作为生命体的基本单位,每个活细胞执行功能的背后,都有大量的通过特殊途径折叠的蛋白质在执行着非常专一的任务,但是如果此生物功能的源头出现了错误就会引起麻烦,比如细胞的死亡带来神经变性疾病,或者癌细胞不受控制的生长。因此,了解如何防止蛋白质的错误折叠,以及如何拯救错误折叠的蛋白质就成为分子生物学领域非常重要的研究课题。 这些研究与人类罕见病与疑难杂症的治疗息息相关,比如“渐冻症”就是因为蛋白质的错误折叠而带来的不良疾病。渐冻症会让患者表现出进行性加重的骨骼肌无力、萎缩等,就像是一点点被冻住了一样。渐冻症会让患者在不失去思考能力的同时丧失行动能力。著名的物理学家霍金就不幸罹患了这一种疾病。 2014年,全世界掀起一场风靡全球的旨在关注渐冻症并为其患者捐款的公益活动——ALS冰桶挑战赛”,总捐款超过2亿美金。2019年,这项挑战的发起者皮特弗雷茨在家人陪伴下离世,此前,他经历了与渐冻症长达7年的抗争。 而经过科研人员多年的研究,研究人员发现,渐冻症的解法可能就在核孔蛋白上。科研人员们认为渐冻症和核孔蛋白组成的核孔复合体有着极强的关联,如果能够进一步了解核孔蛋白和核孔复合体,就有可能找到根治渐冻症的方案。 虽然确定核孔复合体的结构并不容易,核孔复合体由超过1000条、30多种不同的核孔蛋白组成,每条蛋白的大小只有数纳米,这些蛋白质以极其复杂的结构折叠并相互交错。但不可否认研究蛋白质折叠的巨大价值——蛋白质折叠研究可以帮助人们按照自己的意愿设计出需要的、具有特定功能的蛋白质,还可以找出阿兹海默症、渐冻症以及帕金森氏症等疾病的致病原理和治疗方法。 转机的出现 在过去,虽然科学家们也清楚蛋白质对于人体生理功能的重要性,但由于一个蛋白质折叠的可能形状太过庞大,因此,一直以来,科学家对于蛋白质结构的研究进展都非常缓慢。 一个只有100个氨基酸的蛋白质,已经是一个非常小的蛋白质了,但就是这么小的蛋白质,可以产生的可能形状的种类依然是一个天文数字,大约是一个1后面跟着300个0。这也正是蛋白质折叠一直被认为是一个即使大型超级计算机也无法解决的难题的原因。 从1994年开始,为了监测这种超越超级计算机能力的蛋白质折叠过程,科学界每年都会举办一次蛋白质结构预测关键评估(CASP)大赛。直到2018年DeepMind的开发者们推出了一款人工智能——AlphaFold。 AlphaFold是一款可以通过挖掘大量的数据集来确定蛋白质碱基对与它们的化学键的角之间的可能距离的人工智能,而这也正是蛋白质折叠的基础。 2018年,AlphaFold首次参加了CASP大赛,并摘得头魁。在2018年的比赛中,AlphaFold需要与其他参赛的人工智能比赛,解决43个蛋白质折叠的问题。最终,AlphaFold答对了25个,而获得第二名的人工智能只勉强答对了3个。AlphaFold的诞生,成为了蛋白质结构解析领域里程碑,也彻底改变了成千上万生物学家的研究。 2020年,DeepMind发布了AlphaFold软件的第二个版本。相较于第二个版本,2018年的更早版本并不够好,不能取代使用实验方法解析的结构,而AlphaFold2的预测结果平均而言已与实验结果相差无几。当时,AlphaFold2再一次在CASP大赛上一举夺魁。 正是在AlphaFold的助力下,哈佛大学吴皓实验室的彼得罗·丰塔纳团队在2022年攻克了破解渐冻症的关键——核孔蛋白这一天文级难题。丰塔纳的研究团队取得了关键性的进展:他们不仅成功预测出了之前没有被探究清楚的一批核孔蛋白的结构,还首次绘制出了核孔复合体的胞质环的模型图。这生物信息学突破,为攻克像渐冻症等罕见、难治的神经退行性疾病,点亮了希望。 更重要的是,如此关键的发现和研究,对于AlphaFold来说却并不是一件难事。2021年7月,DeepMind这一谷歌旗下的人工智能公司就在《自然》中发表文章称,其深度学习程序AlphaFold已经预测出了35万种蛋白质结构,涵盖了约98.5%的人类蛋白质组和20种生物的蛋白质,并开源了它的数据库。这一举动在生物学和计算机两大领域掀起波澜,并在当年入选《自然》年度十大科学事件。 科学家认为,DeepMind预测蛋白质3D结构的深度学习程序将颠覆生物学,让药物发现与蛋白质结构预测加速升级。仅一年后,AlphaFold的数据库就实现了200倍扩容,截至目前,地球上已知的所有生物总共2.14亿种蛋白质的结构都已经被AlphaFold预测出来。 蛋白质折叠技术的未来 AlphaFold的提出显然对生命科学有巨大的促进作用。一方面,它能够快速准确地根据氨基酸序列预测蛋白质的三维结构,因此可以有效弥补现有结构生物学技术的缺陷。另一方面,通过对AlphaFold的进一步研究,人们可以更好地理解蛋白质序列和结构间的映射关系,并对疾病有更深入的认识。 目前已有很多研究组开始把AlphaFold2应用于药物开发和蛋白质设计领域。比如,2021年,DeepMind与EBI合作,建立了基于AlphaFold2预测结果的数据库AlphaFold DB。该数据库中已经储备了近一百万蛋白质的预测结构,为生命科学各个领域的科学家们提供重要的蛋白质结构信息。这一行为很可能会改变很多领域的科研范式,促进分子层面的研究从以序列为基础转变为基于序列和结构的研究,从而加快生命科学定量化的步伐。 当然,AlphaFold2还有一定的局限性。首先,它在很多蛋白上的预测精度还有待进一步提高,因为毕竟只有十几万个蛋白质的空间构型,人类是确凿无疑的知道是什么样的,而哪怕只针对这十几万个蛋白质,AlphaFold2通过碱基序列预测的三维构型也和实测结果有所出入,有一些结果和实际情况偏差得非常离谱,尽管概率并不是很高。 因此,就算科学家对AlphaFold2比较信任,也依然不敢只凭它的计算结果就开展后续的研发工作。比如研发新药,科学家筛选新的蛋白质结构时,会用AlphaFold2跑出一个初步的结果,但这个结果只是一个不错的提示,告诉科学家哪些部位可能是关键。此后,科学家会再利用传统方法精确测定。 其次,AlphaFold2模拟的是从多重序列比对到三维结构的映射关系,并没有解决从单一序列到三维结构的映射关系,因此蛋白质折叠问题还没有完美解决。最后,也是最重要的一点,针对一个特定的目标蛋白,AlphaFold2仅提供有限的结构模型,不能揭示其结构的动态变化。而动态结构才是真正决定功能的基础。 但不可否认,蛋白质折叠技术的影响依然是巨大而深远的。未来,人类对生命演化方面的理解会更加深刻。此前,演化是以基因突变为基础的,于是基因型相似的物种就拥有演化上较近的亲缘关系,依照这种方法,尤其适合判断相邻较近的几种生物的亲缘关系。 因为蛋白质构型变化的速度比碱基变化得慢。碱基序列的突变会导致某个氨基酸的变化,但往往不会导致更大结构的蛋白质发生功能上的彻底改变,还需要积累更多的基因突变,相应的蛋白质才会发生明显改变。而使用AlphaFold2这样的工具从蛋白质空间构型的差异上去判断,就能找到时间跨度上更远的亲缘关系。 AlphaFold算法还包含植物、细菌、动物和其他生物的预测结构,为众多重要问题的解决提供了许多新机会,包括可持续性发展、粮食不安全和被忽视的疾病等方面,已经对人类健康产生了重大而直接的影响。同时,伴随AI与蛋白质结构、功能的预测和设计结合愈加深入,相关产业中的应用空间也在逐渐打开。
有话要说...