Nature: 集成现有工具提高抗体结合亲和力

2024-05-26
临床结果临床研究紧急使用授权
近日,Nature顶刊,设计了一个生成式无约束的智能工程平台(GUIDE)--结合了高性能计算、分子模拟和深度学习,可以对多个抗原靶标,共同优化结合亲和力,以及其它关键属性(例如热稳定性),在3周内的时间内,该计算平台修复了COV2-2130对Omicron变体的活性。该计算驱动的药物工程平台的各个组成部分,都是基于现有的计算方法构建的:具体包括问题制定、突变抗体候选物的计算设计和选择,以及提议候选物的实验验证。给定亲本抗体和靶抗原,定义设计空间并估计共结构集合(左)。在计算设计阶段(中),序列生成器使用多种属性的预测来提出多点突变抗体候选物,贝叶斯优化选择提交的序列,然后进行模拟。基于帕累托最优性、突变距离和序列多样性,选择了376个计算评估序列并通过实验评估其在免疫测定中的结合能力(右中)。然后评估最佳序列对SARS-CoV-2变体的中和作用,并确定了单个最佳序列(右)。FEP, free energy perturbation; MD, molecular dynamics; SFE, structural fluctuation estimation。识别亲本抗体、一组靶抗原和相应的结构来制定问题,重新设计COV2-2130抗体,以同时改善与Omicron BA.1和BA.1.1的结合,同时保持与Delta变体的结合。设计开始没有Omicron RBD实验结构,使用基于模板的结构建模来构建RBD与COV2-2130的复合物的结构。考虑了25个paratope残基进行突变,主要H或L的CDR、H2、H3、L1和L2中或附近,并且每个突变序列允许最多9个氨基酸替换,因此搜索空间包含超过1017个可能的突变序列。问题定义在对COV2-2130 paratope残基的大量突变空间上。考虑5个关键抗体性质: (1) 对 Omicron BA.1 RBD 的结合亲和力,(2) 对 BA.1.1 RBD 的结合亲和力,(3) 对 Delta RBD 的结合亲和力,(4) 热稳定性,和 (5)"人源化"5种互补的计算工具用于亲和力预测:FEP、MD、分子动力学结构波动估计(structural fluctuation estimation, SFE)、Rosetta Flex和FoldX。使用FEP估计热稳定性。AbBERT模型的得分定义“人源化”。使用分布式软件代理(每个代理都使用贝叶斯优化或基于规则的方法)选择有希望的候选序列子集,然后用Rosetta Flex预测结合亲和力。在不到三周的时间评估了超过125000种抗体候选物。根据这些工具的输出结果计算出Pareto最优集,得到了3809个序列。考虑到实验能力,进一步根据突变距离和序列多样性从Pareto集中进行筛选,最终确定了376个抗体序列用于实验评估。3步具体过程:01 问题表述:生成抗体-抗原共结构为了更好的管理蛋白结合亲和力(考虑为对结合自由能的突变变化,ΔΔG)预测对抗体-抗原结构质量的高度敏感性。使用LGA程序来评估多种实验确定的受体结构域(RBD)结构、COV2-2130 Fab形式的可用结构以及RBD-Fab复合物结构之间的兼容性。这种方法能够识别主链和侧链偏差的区域。使用选择聚类的构象中心用于进一步分析的代表性复合物。通过对测试的RBDs的结构聚类确定了Omicron RBD(PDB id 7t9k,链A)。所以最后选择了两个初始构象进行了ΔΔG计算:一个是野生型RBD与COV2-2130Fab形式的实验确定结构(PDB ID 7l7e,链S,M,N),另一个是使用确定的RBD的构象中心的Omicron RBD与COV2-2130的复合物结构模型(PDB ID 7l7e,链M,N)。02 定义搜索空间根据预测的共结构来指定考虑突变的抗体位置。如果其野生型残基包括任何距离抗原原子不到7埃的原子,则认为该位置适合突变,根据这一标准,考虑了25个位置进行突变。对于每个考虑的位置,允许所有氨基酸(除半胱氨酸或脯氨酸)的替代。将每个突变序列的最大氨基酸替代数量限制为与野生型COV2-2130相比的9个替代。这会产生1017的搜索空间。03 半自动化系统选择优秀突变序列该系统描述如何提出突变抗体序列以及如何通过Rosetta Flex选择模拟的序列。最初,系统使用MD,SFE(结构波动估计)、FEP、Rosetta Flex和FoldX以及AbBERT对所有单点突变序列进行模拟,并进行评分。1 序列生成:突变抗体序列,通过使用分层抽样过程操作的序列生成器提出。首先,从1到8之间均匀随机抽取突变次数。然后,根据6个工具提供的概率分布进行无放回抽样:MD、SFE、FEP、Rosetta Flex、FoldX和AbBERT。具体来说,每个工具为所有单点突变序列输出一个分数(例如,MD的-ddG)。然后,每个分数通过一个logistic函数转换为非归一化的突变概率:其中,a=1000,b=5,c=2,是手工调整的,以适应正分数。通过跨所有工具和所有可能的突变归一化,获得一个归一化的概率分布。因此突变m的概率由下式给出:其中,Nt是工具的数量,Nm是可能的突变数量,scorei是第i个工具的分数,mj是j个可能的突变。2 序列选择采用贝叶斯优化代理来选择哪些序列需要Rosetta Flex模拟的筛选。在优化循环中,首先从序列生成器生成一批序列。然后,使用高斯过程代理(GP),来估计每个提议序列的后验分布,并根据最大期望改进(MEI)获取函数寻找子集。最后,所选子集的序列使用Rosetta Flex进行模拟,优化循环继续进行。GP的输入是基于突变抗体序列的化学和大小属性的特征,输入MLP,MLP输出作为GP的输入:起始的未突变共结构中,我们识别了α-碳到α-碳距离小于10Å的抗体-抗原氨基酸对。建立了一个抗体和抗原氨基酸的二分图,其中顶点是抗体和抗原氨基酸,边是识别的抗体-抗原氨基酸对。给定一个突变序列,在不改变图结构的情况下在顶点上替换氨基酸突变。对于每个顶点(氨基酸),我们分配一个或多个化学属性(酸性的、脂肪族的、芳香族的、碱性的、羟基的、surfuric)。对于每条边(抗体氨基酸-抗原氨基酸),根据连接的两个顶点,分配一个或多个无序的化学属性对(例如,酸性-surfuric,碱性-碱性),共有28种可能的配对。类似地,为每个顶点分配一个大小属性(非常小、小、中等、大、非常大;见表ST1),为每条边分配一个无序的大小属性对(例如,小-中等),共有15种可能的配对。定义前43个特征为每种化学和大小属性对的计数。另外43个特征是在使用野生型抗体时的特征。然后,这个86维特征向量被用作多层感知器(MLP)的输入,MLP包含一个隐藏层,输出维数为40,激活函数为tanh,随后是一个输出层,输出维数为10,没有激活。MLP的输出用作GP的输入。GP预测后验分布f*为p(f*|X*,X,y),其中X是2万个训练序列和从中心数据库随机抽取的1万个序列的联合(所有都通过特征化和MLP),y代表相应的Rosetta Flex ddG值的联合。为了选择一批序列,首先从序列生成器生成1000个候选序列X*,然后计算每个序列的边际后验,然后选择具有最大期望改进的序列,最小化自由能:x是候选序列,x‘是截止现在获得的ddG最低的序列,u(x)是GP后验在x处的标准差,σ(x)是GP后验在x处的标准差,Φ 和ϕ 分别是正态分布的累积分布函数和概率密度函数。选择完后,选择的序列更新为X,预测ddG更新为y,然后重新计算预测后验f*,然后,根据MEI选择下一个候选序列,这个过程一直持续到足够多的序列被选中。为了补充贝叶斯优化代理选择的序列,并确保在序列空间中有足够的覆盖,采用了两种额外的基于规则的代理。第一个代理简单地选择所有两段突变序列的组合。第二代理从当前表现最好的序列中进行抽样,并根据上述序列生成器进一步突变它们。04 对序列进行下采样进行实验验证上述半自主系统使用Rosetta Flex模拟了超过125000个序列。为了将这组序列缩减到实验能力的376个候选序列。首先根据表ST2中列出的目标计算了Pareto(non-dominate)序列集。注,MD,SFE和FEP多点突变分数被近似为它们组成的单点突变分数之和;多点AbBERT分数在所有序列上计算。生成的Pareto(non-dominate)序列集包含3809个序列。从这里开始,根据目标的加权和对Pareto集中的所有序列进行排名,并根据与野生型COV2-2130的突变距离施加惩罚:其中m是一个突变序列,m0是COV2-2130的野生型,gi是第i个目标,wi是第i个权重,d是与野生型COV2-2130相比氨基酸替换的数量。根据每个预测器的相对重要性和比例设置了这些权重。预计一些模拟会系统地高估或低估某些突变的值。执行序列多样性选择可以减少模拟工具的系统误差的风险。限制如何特定突变在最终集中出现的次数;超出此限制的低排名序列被排除在选择之外。其次,对于每种工具,执行包含至少一个包含该工具表现最佳的单点突变的序列,即使这些序列被其它工具不利。第三,为了确保突变在位置上的多样性,强制包含至少一个在界面位置上包含突变的序列,即使这些序列被工具评分不高。最后,排除含有超过4个芳香族残基突变的序列和含有糖基化序列的序列。从排名列表中排除强制排除项之后,选择了剩余的排名靠前的序列。代码https://github.com/LLNL/CRPCA参考文献Desautels, T.A., Arrildt, K.T., Zemla, A.T. et al. Computationally restoring the potency of a clinical antibody against Omicron. Nature 629, 878–885 (2024)
更多内容,请访问原始网站
文中所述内容并不反映新药情报库及其所属公司任何意见及观点,如有版权侵扰或错误之处,请及时联系我们,我们会在24小时内配合处理。
适应症
-
立即开始免费试用!
智慧芽新药情报库是智慧芽专为生命科学人士构建的基于AI的创新药情报平台,助您全方位提升您的研发与决策效率。
立即开始数据试用!
智慧芽新药库数据也通过智慧芽数据服务平台,以API或者数据包形式对外开放,助您更加充分利用智慧芽新药情报信息。