【结构预测】Cell |跨生物域的蛋白质同源寡聚化图谱

2024-02-09
微生物疗法
众所周知,蛋白质的同源寡聚化在细胞的多种生命活动中发挥重要作用。然而,对于蛋白质寡聚体结构的预测仍存在挑战。近日,Cell杂志刊发了一篇名为“An atlas of protein homo-oligomerization across domains of life”的文章,研究者们发展了一种先预测同源二聚体结构,进而推断蛋白同源寡聚体结构的新策略,并应用于古细菌、细菌和真核细胞来源的蛋白质组中,为我们提供了蛋白质组层面的对于蛋白质同源寡聚化的认识。——背景——蛋白质复合物的组装和生物分子网络的形成构成了细胞生命活动的基础。在最基础的层面,蛋白质的组装是通过同质寡聚化实现的,即蛋白质的多个相同拷贝对称地相互作用形成高阶结构。这些同源多聚体(homomers)具有独特的结构和功能特性(图1A)。它们可以作为重复的结构原件参与细胞骨架的形成,也可以形成如环、桶、笼等形状进而发挥功能。而且,蛋白质同源多聚体中的多条蛋白链提供了多价性,在蛋白结合,特别是生物分子凝聚体的生成中可能发挥重要作用。从功能上看,多聚体的形成也可以与变构调节相偶联,还可以被环境因素如pH,翻译后修饰(PTM)所调节。因此,对同源多聚体的了解构成了对蛋白结构和功能理解的基础,特别是对人类疾病相关突变的理解和建模。例如,水通道蛋白形成环状通道允许水通过细胞膜,而破坏环组装的突变与肾源性尿崩症有关。除了对蛋白功能理解的帮助,对同源多聚体的了解也有助于揭示蛋白质复合物和生物分子网络的进化关系。机器学习方法的进展极大地促进了蛋白质结构预测的准确度。这些方法已经规模化应用,使得整个蛋白质组中的蛋白结构都变得可用。机器学习方法已被应用于蛋白质复合物结构预测以及人源和酵母源的异源多聚体结构预测。然而,在蛋白质组范围内系统地预测同源寡聚体的结构仍存在两个挑战:第一个挑战是预测模型在预测前需要输入同源寡聚体中蛋白的分子数,但这个数目常常是未知的;第二个挑战是随着分子数的增长,预测模型对算力和存储空间的需求将成指数增加,使得规模化地预测大寡聚体的结构非常困难。在本研究中,研究人员克服了这些挑战,系统地生成了假定的同源二聚体的结构,并对它们进行了分析,以确定那些具有生理相关性的结构。后者随后独立于AlphaFold2进行处理,以预测包括环和细丝在内的高阶结构。研究人员计算了烈火古菌(Pyrococcus furiosus)、大肠杆菌(Escherichia coli)、酿酒酵母(Saccharomyces cerevisiae)和人类(Homo sapiens)蛋白质组的同源寡聚体结构。结果数据集包括872个,2,181, 1,196和3,946个同源寡聚体,覆盖了分析的蛋白质组的20%-45%。这说明蛋白质组中相当一部分蛋白经历了同源寡聚化过程,也说明了这一过程在蛋白质结构、功能和进化上的重要性。而且,作者通过实验手段对预测出的一些结构进行了验证,确认了预测的准确性。研究者通过对预测结果的系统分析,最终发现:(1)coiled-coil 区是人类蛋白质组四级结构进化的主要推动者;(2)人类蛋白质组中同源寡聚体的相互作用界面比蛋白质表面含有疾病突变的可能性高70%;(3)在原核生物和真核生物中,相当一部分同源和异聚寡聚蛋白复合物是对称的。——实验结果——用AlphaFold2预测同源二聚体作者首先评估了AlphaFold2识别和预测同源二聚体结构的准确度并决定选择AlphaFold2而不是multimer的权重用于后续预测。之后作者建立了一个包含349个单体和77个同源二聚体的非冗余数据集(这些结构不存在于AlphaFold2的训练集中)。作者发现,多个指标的预测与X-射线晶体学来源的单体和二聚体数据非常吻合。在区分生理上相关的同源二聚体和单体时,有两个指标特别有用:第一个是接触中氨基酸的平均预测对齐误差(PAE)(图1C),第二个是氨基酸之间的接触数(图1D)。作者将这两个指标结合在一个逻辑回归模型中,该模型显示AlphaFold2二聚体与生理相关的概率非常高。而通过人工检查那些预测与实验不符的二聚体,发现一些也存在于晶格中(如PDB: 6HH9),另一些则是由于实验结构中删除了二聚化的结构域(如PDB: 7B2S和6JUZ),还有一些则是因为存在破坏聚集的点突变(如PDB: 7BVJ)。以上评估表明,AlphaFold2能够准确地预测同源二聚体的结构,作者也可以从中有效地区分生理同源二聚体和人工复合物。这些结果也促使作者将其应用于跨蛋白质组的同聚物发现。图1,AlphaFold2预测同源二聚体的结构具有很高的准确性在蛋白质组范围内发现同源二聚体蛋白质结构推断在计算上是昂贵的,并且很难适用于蛋白质组范围内的大型复合物。为了克服这一局限,作者采用了一种分层方法,先预测同源二聚体,随后分析它们是否基于二聚体的内部对称性形成更大的结构。他们共生成156,065个同源二聚体模型,分别覆盖了烈火古菌(Pyrococcus furiosus)、大肠杆菌(Escherichia coli)、酿酒酵母(Saccharomyces cerevisiae)和人类(Homo sapiens)蛋白组的99.8%、98.2%、94.7%和89.7%。接着作者分析了预测所得模型中亚基间的相互作用,并用上述计算生理相关性的方法筛选出872、2,181、1,196和3,946个同源二聚体,分别占四种蛋白质组的43%,44%,21%和21%(图2A)。这些预测的结构中,有一些没有已解析的同源结构,说明它们可能是新的四级结构类型(图2B)。而对于那些有同源结构的预测结构,预测结果和实验结果则展现出良好的一致性(图2C)。接着作者比较了直接预测的单体结构和二聚体结构中的单体结构的相似性,发现这种相似性很高,仅有不到4%的同源二聚体链显示出与单体结构高度不同的结构(图2D)。作者认为这种程度的相似性是出乎意料的,因为数据集中的很大一部分结构需要由分子间数十个残基的接触来稳定(图2E)。这也说明,AlphaFold预测的结构很大程度上保留了其寡聚时具有的特征,虽然是按照单体的形式预测的。图2,在蛋白质组范围内发现同源二聚体通过分析所得结构,作者发现分别有247和500个二聚体结构与人类蛋白质组的二聚体具有结构同源性。反之,人类蛋白质组中的475和626个二聚体分别与P. furus或E. coli的二聚体具有结构同源性(图2K)。这些结构可以为界面和寡聚态演化的综合分析提供基础。蛋白质组范围内环状和丝状同源寡聚体的发现大多数同源寡聚体形成同源或“头对头”界面,形成具有C2对称性的二聚体。另一种寡聚体组装方式则是涉及异型或“头对尾”相互作用,产生环状或丝状结构。由于亚基数量的不确定和尺寸大的问题,这些环状和丝状结构很难预测。然而,作者推断二聚体中包含的对称信息足以重建环状和细丝形成的配合物。如图3A所示,同向转运蛋白SatP的预测结构是一个头对尾的二聚体,而这个二聚体所包含的旋转信息和C6对称性最符合。通过与实验结果比对,发现通过这一策略产生的SatP模型和实验结构非常一致(TM-score:0.99)。整体上,用这种方法推导出的对称性与实验结构的也显示出极好的一致性,95%(160/168)的循环对称性被正确推断。因此,这种策略解决了Alphafold2的两个限制,首先通过推断能够给定二聚体对称性的亚基数量,其次能够保持预测这些复合物所需资源的可管理性。基于对称的环状寡聚体重建的一个缺点是loop可能发生缠绕,进而与构象灵活的区域产生碰撞。作者通过改进输入AlphaFold2的模板信息和坐标初始化的方法,实现了多达6500个残基的环复合物的重建,同时解决了基于对称的模型生成所引入的碰撞的问题。图3,蛋白质组范围内环状和丝状同源寡聚体的发现这一策略使作者能够重建数百个环状复合物,其中许多代表了新的四级结构类型(图3D)。Yqha是其中一个例子,它是一种来自大肠杆菌的功能未知的蛋白质。它的单体结构由四个横向相互作用的螺旋组成,由于缺乏蛋白质核心,这种结构显得非常不稳定。而作者预测的模型中显示,Yqha的四个螺旋如何与其它的拷贝一起形成包含14个亚基的环状结构(图3E)。来自蛋白质组同源寡聚化的进化和结构见解接着,研究者利用新的数据集来研究蛋白质组的三个一般分子特性。首先,他们通过结构相似性对二聚体模型进行聚类,来确定与同源寡聚化最相关的结构类型。结果显示最大的一类是Coiled-coil结构域(图4A)。分析显示,分子内Coiled-coil相互作用在四个蛋白质组中以相似的频率存在,而分子间Coiled-coil相互作用在人类蛋白质组中的含量显著高于其他蛋白质组,约有20.7%的同源寡聚体中含有>5%的分子间Coiled-coil相互作用(图4B)。Coiled-coil 区是人类蛋白质组四级结构进化的主要推动者。如果我们具有了设计靶向Coiled-coil互作界面的能力,那就有可能实现对许多细胞过程的调控。然后,研究者把662,413个非同义的单核苷酸多态性(SNP)投射到预测得到的人类四级结构数据集上,发现:在具有同等溶剂暴露的单体中,界面区比非界面区含有SNP频率更低(图4C);但与非界面区相比,界面区所含有的疾病相关SNP的频率更高。最后,研究者整合多种来源的数据,评估了所有蛋白质复合物中对称性的普遍程度。研究者将复合物分为四类:对称同源多聚体,对称异源多聚体,赝对称异源多聚体,非对称异源多聚体。通过分析研究者发现,大多数蛋白质复合物以对称形式组装。这在大肠杆菌中尤为明显,其中超过90%的复合物以对称形式组成同源多聚体或异源多聚体。在真核生物中,则有60%-65%的复合物是对称的,如果包括赝对称的话,这一数字将增加到65%-70%。这一结果显示出蛋白质组中对称性的普遍存在,也将为分析蛋白质复合物进化和组装提供帮助。图4,对四级结构数据集的分析——总结——在本研究中,研究者们以非常高的准确度表征了四个蛋白质组的蛋白质四级结构。由于输入的是全长的蛋白,这为揭示在截断蛋白中缺失或改变的同源寡聚化模式提供了帮助。研究者将该方法应用于四种蛋白质组,产生了蛋白质组范围的数据集,将为我们之后深入了解特定的蛋白质提供了帮助。同时也为我们理解蛋白质网络、组学、疾病和进化关系提供了可能性。本研究中的方法目前还仅限于发现具有循环对称性的同源多聚物,不能应用于二面体群和立方群的发现。不过研究者认为,随着GPU算力的进一步提高,这些也将成为可能。他们最后提到,如果能开发出适用于多链复合物的全面的基于结构的搜索方法,将有助于他们以更高的准确度探索蛋白四级结构的空间。参考文献Schweke, H. et al. An atlas of protein homo-oligomerization across domains of life. Cell  https://s10-doi-org.libproxy1.nus.edu.sg/j.cell.2024.01.022点击左下角的"阅读原文"即可查看原文章。作者:郭   政审稿:钟书辰编辑:黄志贤GoDesignID:Molecular_Design_Lab( 扫描下方二维码可以订阅哦!)
更多内容,请访问原始网站
文中所述内容并不反映新药情报库及其所属公司任何意见及观点,如有版权侵扰或错误之处,请及时联系我们,我们会在24小时内配合处理。
机构
-
靶点
-
药物
-
来和芽仔聊天吧
立即开始免费试用!
智慧芽新药情报库是智慧芽专为生命科学人士构建的基于AI的创新药情报平台,助您全方位提升您的研发与决策效率。
立即开始数据试用!
智慧芽新药库数据也通过智慧芽数据服务平台,以API或者数据包形式对外开放,助您更加充分利用智慧芽新药情报信息。