蛋白结构预测进展与挑战[包括抗体]

2024-01-27
临床研究
[1]后AF2时代,结构预测主要是基于AF2的基础上做的改进,主要包括contact/distance-assisted几何优化(geometric optimization)和端到端的结构预测这两种方法,端到端的方法没有contact/distance-assisted几何优化准确度高。[2]contact/distance-assisted几何优化(geometric optimization)主要是推断蛋白质结构的空间约束,如残基之间的接触,距离,方向和氢键。[3]trRosetta以残基间方向预测方面比较优秀,有助于解决仅使用预测的距离/接触引起的结构对称性问题。[4]通过整合trRosettaX2和经过MSA优化过的AlphaFold2的方法,在CASP15单体预测方面排名第一。[5]D-I-TASSER方法采用结合不同的MSA生成策略是在CASP15的结构域间预测类别中排第一。[6]复合物结构预测中采用的多种MSA生成策略值得大家学习借鉴。[7]抗体结构对CDR-H3 loop多样性建模难度依然很大。[8]准确预测抗体结构中的相对VH-VL域间方向,对于表征抗原结合位点的拓扑结构至关重要。01 结构预测方法回顾在CASP14之前,蛋白质结构预测主要分为两类:template-based modeling(TBM)和free modeling(FM),但在AF2之后,也就是在过去两年,由于深度学习的引入,蛋白质结构预测被广泛的分为两类:contact/distance-assisted几何优化(geometric optimization)和端到端的结构预测。在CASP15中,大家的方法以各种方式集成了AlphaFold2。包括使用不同的策略或扩展数据库以生成多序列比对MSA信息,更有效地使用模版;使用dropout修改AlphaFold2以生成多个模型;或将来自AlphaFold2模型的距离和约束组合到其他方法中。这些策略直接将CASP14的最好模型的GDT_TS((global distance test total score))分数从67.94提高到了85.34。来自server组的最佳模型的GDT_TS超过了人类组的GDT_TS,设置超过了FM靶点的人类组。这也表明,这些AI模型和计算方法在一定程度上被用来学习人类知识。02 contact/distance-assisted几何优化这些方法使用深度学习技术推断蛋白质结构的空间约束,如残基之间的接触,距离,方向和氢键。上述蛋白质结构的空间约束方法与基于知识或物理的力场相结合。优化方法,如基于蒙特卡洛和梯度下降的折叠引擎,对具有低能量的构象进行采样。这种方法的代表性的工具包括:trRosetta,trRosettaX,trRosettaX2,D-I-TASSER,D-QUARK等等。trRosettaJiangyi Yang‘s研究组开发了trRosetta,用深度残差网络预测残基之间的方向和距离,然后使用Rosetta约束能量最小化协议中的信息来快速准确的生成结构模型。trRosetta以残基间方向预测而闻名,这有助于初步解决仅使用预测的距离/接触引起的结构对称性问题。trRosettaXtrRosettaX是基于trRosetta的改进版本:使用新的多尺度网络来改进对残基状态和方向的预测,以及集成多个同源模版信息进一步提高预测准确率。针对单一序列的蛋白质结构预测,提出了trRosettaX single,该方法将从蛋白质语言模型中学到的序列编码整合进知识蒸馏增强的多尺度网络中,结果表明trRosettaX-single优于AlphaFold2和RoseTTAFold预测孤儿蛋白的准确性。Yang-ServerJiangyi Yang‘s团队继续将trRosettaX2和经过MSA优化过的AlphaFold2相结合,在CASP15的单域结构预测类别中取得了第一名。trRosettaX2是trRosettaX的改进版本:利用trFormer网络(类似于AlphaFold2的Evoformer的基于神经网络的transformer)来预测成对残基的距离,另外,开发了MSA优化策略,使用各种MSA搜索工具和序列数据库来生成多MSAs作为RossettaX2和AlphaFold2的输入,以更多更准确的预测模型。对于较大的蛋白,通过DISOPRED推断并消除了无序残基,以生成新序列和预测新序列的结构。如果预测模型的置信度较低,则全长序列将划分为不同结构域的序列以进一步预测,以此策略可以提高某些蛋白的预测准确性。D-I-TASSERD-I-TASSER是张扬实验室开发的一种高精度蛋白质和功能预测方法,是对已知的I-TASSER的扩展。D-I-TASSER提供了各种神经网络预测器,包括Attention Potential和DeepPotential,以预测残基空间约束,如接触、距离和氢键网络。这些约束被整合进I-TASSER力场,并用于引导I-TASSER中的片段组装成全长结构。在CASP15中,D-I-TASSER计算流程中,通过结合不同的MSA生成策略、AlphaFold2和LOMETS3识别的模板,在结构域间预测类别中排第一。D-QUARKD-QUARK是从QUARK和C-QUARK扩展而来的从头算蛋白结构预测方法,它将Deep-potential预测的残基之间空间约束与replica-exchange蒙特卡洛片段组装模拟相结合,预测靶蛋白的3D结构。在CASP14中,在单域蛋白预测中排第二名。GDFold使用残基接触预测器预测各种截断值下的接触残基,然后使用快速梯度下降的contact-assisted折叠方法去优化原子坐标。在GDFold的基础上开发了结构预测方法ProFOLD,该方法核心是CopulaNet方法,直接从MSAs中学习残基演化而不是手工特征。该方法主要有三部分组成:MSA encoder, coevolution aggregator,distance estimator。ProFOLD将CopulaNet估计的距离传到势能函数中,发现了具有最低势能的三级结构构象。与trRosetta相似,ProFOLD从预测的残基间距离来构建蛋白质三级结构。从上述方法来看,人工智能模型预测的残基间的空间约束(接触/距离)发挥了关键作用,许多高性能方法可以消除这些约束。tFold在CASP14的接触预测中,Tencent的AI实验室开发了tFold,它通过基于多MSA集成的方法,充分利用多个蛋白质序列数据库中的共演化信息,取得了最佳的性能。残基接触/距离预测算法的发展很大程度上有助于改进蛋白质结构预测。03 蛋白蛋白复合物预测挑战在CASP14蛋白结构预测中,包括几个具有挑战性的蛋白,这些蛋白一般很大而且异质性较大,很难用经典的组合预测方法解决。CASP15中新方法,结合AlphaFold-Multimer在多药靶点的预测准确率取得了显著的提高。Wei Zheng等人提出的蛋白质结构预测方法,在多指标分类中排名第一,平均Z-scroe为0.861,是AlphaFold-Multimer指标的2.88倍。作者分析,性能的提高主要是由于MSA的改进[对组成的蛋白质单体生成多个MSA;用pLDDT对这些MSA排序;对MSAs进行组合,生成不同的MSAs对;对这些MSAs对,使用AlphaFold Multmer预测复合物结构,并用TM score对结构进行排序推荐]。Jianlin Chen提出了多聚体MSA生成策略,根据相关信息,通过合并MSAs的亚基的同源序列生成配对的MSAs。AFProfile使用噪声的MSA作为AlphaFold-Multimer的输入来提高预测性能。也有人使用蛋白质语言模型增强成对的MSA,ESMpair,也得到了比较好的结果。第一大挑战是需要大量的计算资源,这在很大程度上限制了许多研究人员对大分子蛋白质复合物结构的预测,导致许多大分子复合物的结构无法预测。第二大挑战是依赖于成对的MSA作为输入,生成成对的MSA需要跨物种的合成序列进行识别,在没有足够的链间共演化信号的情况下挑战更高。随着蛋白质复合物链的增加,MSA-based预测复合物结构的方法,性能显著下降,特别对于大蛋白质。张贵军研究团队认为现在的一种策略,可以首先预测小subcomponents的结构,然后将他们组装到一起。04 多结构域蛋白质结构预测挑战现在方法忽略了全链的蛋白质结构预测和域方向预测。对于蛋白有着弱的域间相互作用的全链的蛋白质结构预测充满了挑战。和单域蛋白质结构预测相比,多结构域蛋白质拥有更少的MSAs和同源物。现在的多域蛋白质结构预测方法可以分为两类:linker region sampling和刚性对接。linker region sampling的预测可以看成单域结构折叠的特殊情况,其中每个结构域是刚性的,通过调整linker region以实现多结构域蛋白质组装模型,因此,单结构域蛋白质提取的能量函数和构象空间采样方法可以应用于这个问题,但需要进行一些修改。刚性对接方法是通过考虑域间相互作用和蛋白质链之间相互作用的相似性来进行域组装,因此,可以根据采样域间方向的自由度来考虑域组装,并且可以使用分子对接算法来解决这个问题。最初尝试预测多结构域蛋白相对取向的是Rosetta de novo结构预测方法来探索结构域 linker的构象空间,然后进行高分辨率的搜索。05 抗体结构预测的挑战抗体结构预测方法包括ABlooper,IgFold,DeepAb,Immunebuilder等深度学习方法显著提高了CDR loop建模的准确性,比AlphaFold2相比,具有相似或者更好的结果。但依然存在如下方面的挑战。具体评测效果可以查看本公众号之前的文章:AlphaFold对抗体抗原复合物/TCR-pMHC预测较差,对蛋白复合物建模准确率较高Johns Hopkins | 可与AlphaFold2准确率媲美的更快的抗体结构预测工具IgFold与其他蛋白质超家族相比,抗体的VDJ重组事件不遵循经典的进化途径,抗体的折叠通常高度保守,所有抗体的抗原结合片段(Fab)的框架在结构上几乎相同。最难准确预测的区域是6个互补决定族(CDR),这些CDR提供各种抗原所必需的序列和结构多样性,它们可以与几个框架残基一起形成抗原结合位点,与各自表位结合。抗体结构预测的第一个挑战就是CDR loop的高度多样性。6个环中的5个倾向于根据其长度和序列组成采用传统的簇折叠。重链的第三个CDR环[CDR-H3]在长度、序列和结构上最为多样化,是预测最具有挑战性的loop。CDR-H3 loop构象也受到相对域间方向的强烈影响,因为它位于中心,直接位于重链和轻链之间的界面中。除了CDR loop之外,相对的域间方向在定义抗原结合位点的形状方面也起着至关重要的作用。因此抗体结构预测的第二挑战:准确预测相对VH-VL域间方向对于表征抗原结合位点的拓扑结构至关重要。为了测量相对VH-VL域间方向,ABangle是广为采用的方法。所有这些改进使得能够高精度地预测大量抗体结构,然后可以进一步将其作为虚拟筛选的输入结构或为抗体的合理设计提供信息。国内晶泰科技抗体部门,针对上述挑战,在抗体抗原复合物结构预测方面做了大量的深入研究和落地实践,得到了非常好的效果。参考文献[1] Chun-Xiang Peng, Fang Liang, Yu-Hao Xia, Kai-Long Zhao, Ming-Hua Hou, and Gui-Jun Zhang Journal of Chemical Information and Modeling 2024 64 (1), 76-95[2] Monica L. Fernández-Quintero, Janik Kokot, Franz Waibl, Anna-Lena M. Fischer, Patrick K. Quoika, Charlotte M. Deane & Klaus R. Liedl (2023) Challenges in antibody structure prediction, mAbs, 15:1
更多内容,请访问原始网站
文中所述内容并不反映新药情报库及其所属公司任何意见及观点,如有版权侵扰或错误之处,请及时联系我们,我们会在24小时内配合处理。
靶点
来和芽仔聊天吧
立即开始免费试用!
智慧芽新药情报库是智慧芽专为生命科学人士构建的基于AI的创新药情报平台,助您全方位提升您的研发与决策效率。
立即开始数据试用!
智慧芽新药库数据也通过智慧芽数据服务平台,以API或者数据包形式对外开放,助您更加充分利用智慧芽新药情报信息。