【Cell】50周年特刊:结构看着很美,但离真相总还有距离

2024-02-10
Cell杂志在纪念创刊50周年之际,发行了一期关注结构生物学的特刊。本文介绍的这篇“Structure is beauty, but not always truth”是其中的一篇评论,讨论了结构模型在药物发现中的作用和局限,重点讨论了模型局限可能引起的误导,并将基于近来发展的结构预测方法所得到的模型纳入讨论。这些讨论对我们更加清晰准确地认识结构模型在药物发现中所能做出的贡献,把握未来结构生物学和药物发现的发展方向可能有所帮助,特作简单介绍。——背景——结构生物学使得药物化学家能够不受那些使得药物发现复杂化的不确定因素干扰,而更好地关注药物与受体相互作用的美丽而具体的图像。结构可以解决药物设计的许多关键挑战。由低温电子显微镜(cryo-EM),X射线晶体学和核磁共振(NMR)确定的原子模型为通过识别结合口袋和潜在的变构位点来调节蛋白质功能的广泛而创造性的思考提供了起点。结合配体的结构更是极大地将化学空间的搜索集中在与受体保持关键相互作用的分子上。结构生物学为科学家提供的一个“真实结构”是清晰的、可量化的和可解释的。在最好的情况下,每个原子的精确位置都是明确的。例如,我们可以通过测量配体和受体上原子之间的距离推断出“这个氢键比那个氢键好”。相比之下,靶标的生物学特性往往相当复杂,难以定量建模。细胞分析和动物模型都是近似值,不能完全概括人类疾病过程或小分子诱导毒性的可能性。此外,药物化学也充满了不确定性。即使有了结构,在抑制剂优化过程中,也很难知道下一步要设计什么分子或如何合成它们。最后,我们仍然很难理解为什么一些分子比其他分子更有效或生物利用度更高,这使得优化候选药物的药代动力学和安全性几乎不可能。然而,结构生物学给出的“真实结构”引发了一个合理的担忧:结构信息的可用性,如蛋白质晶体结构,是否不可挽回地限制了创造过程?对于那些未能认识到结构和在蛋白质数据库(PDB)的语料库上训练的预测模型(如AlphaFold2)的固有局限性的人来说,这是一个潜在的风险。我们建议考虑该领域的下述四类局限性,并指出可以解决它们的方法,以优化我们从结构生物学中获得的价值,并进一步提高预测建模的质量。关于结构生物学和药物发现的四个残酷真相(1)一个结构是一个模型,而不是实验上的现实。(2)单一的结构很难表现出振动和摆动等动态性。(3)体外实验可能具有欺骗性。(4)药物分子可以与许多不同的受体“交际”。一个结构是一个模型,而不是实验上的现实毫无疑问,AlphaFold2通过“解决”蛋白质结构预测问题震动了结构生物学领域。“解决”意味着预测模型与实验测定的“真实结构”在CASP竞赛的度量标准下高度相似。CASP竞赛是一项社区范围的实验,旨在确定和推进从氨基酸序列建模蛋白质结构的最新技术。需要注意的是,“真实结构”所包含的不准确性超出了产生它们的实验的信噪比。例如,在X射线晶体学中,实验数据的测量非常精确(通常误差小于5 %);但与实验数据相比,根据该数据精修的结构具有较大的残余误差(通常>20 %)。当实验数据的分辨率较差时,加入先验知识(如几何约束)则尤为重要。因此,“真实结构”可能不仅仅存在于与原子坐标的比较中,特别是当结构模型是基于低分辨率数据搭建时。相反,与密度图(甚至是原始衍射图像或显微照片)的比较可能能揭示更深层次的真相。最近,已有工作开始将AlphaFold2预测的结果直接与实验得到的晶体学密度图进行比较。在许多情况下,预测结果与实验密度图非常吻合。根据实验数据对AlphaFold2模型进行改进,可以解决一些整体结构变形和结构域取向不准确的问题,还可以改善局部主链和侧链构象的预测水平。但是,大部分非常高置信度的预测与实验图谱之间的差异,比独立获得的实验结构之间的差异要更大。图一,结构生物学数据流中的信息丢失这些发现不仅说明后续的比较应该在预测结果与实验数据间直接进行,还促使我们思考如何在药物发现中最大限度地发挥计算预测模型的效用。预测模型与实验结构(甚至是底层数据)之间的一些差异可能反映了对蛋白质构象能量景观中较少探索部分的偏见。此外,将预测模型暴露于正交计算技术(如长时间分子动力学模拟)的价值目前尚不明确。尽管存在这些问题,AlphaFold2和相关方法在药物发现中已经产生了巨大影响,这种影响涵盖了从通常被认为是不具挑战性的领域(例如,DNA构建的设计)到令大多数科学家感到兴奋的领域(例如,将配体通过生成性人工智能建模放入预测的结合口袋)。因此,计算预测模型在减少药物发现早期阶段存在的一些不确定性上具有极大的潜力,而这通常发生在得到确定的结构之前。AlphaFold代码库的发布引发了结构生物信息学领域的“寒武纪大爆发”,以及一些未预料到的发现(例如,使用AlphaFold Multimer预测蛋白质复合体)。然而,令人不安的是,AlphaFold下一阶段的发展充满了不确定性,因为计算方法的披露已经从预印本、GitHub和期刊转移到了自家公司的博客文章,并且不再附带相应的算法描述。如果没有公开的算法,我们很难判断结构预测的准确性是否正在接近一个稳定期。当达到这样一个稳定期时,我们需要知道其中多少是由于“真实结构”的定义不当造成的。很可能需要更直接地针对原始实验数据(而不是精修结构)进行训练,才能进一步提高结构预测的准确性。此外,认识到结构是实验数据的一个模型,以及实验数据实际上代表了许多(运动中的)分子的平均值,可能会解锁新的能力。单一的结构很难表现出振动和摆动等动态性费曼的名言蕴含着深刻的智慧——“生物所做的每一件事都可以用原子的振动和摆动来阐释”。这表明对”真实结构“需要进行全面的重新定义。我们可以解释对药物发现至关重要的大分子动态过程,并更新我们的观点,承认生物分子的动态性质和系综的存在。一些蛋白质非常简单,以至于在基于结构的药物设计中可以把它们看作是是静态的。但即使在一个经典的例子——碳酸酐酶中,它活性位点的64号位组氨酸也可以发生侧链χ1的旋转并改变结合口袋的形状。意识到这种旋转的存在对于优化青光眼药物多佐胺的性质至关重要。即使是这种简单的侧链运动目前也难以预测,这解释了在药物发现中迅速获得蛋白质与任何类型配体的复合物结构的重要性,无论这些配体是否被认为是“类药物”的。“敲打”蛋白质的表面也是发现替代结合位点和隐藏口袋的有效方法。这样的策略可能会导致研究团队制造出本不应该适合静态结合口袋,但确实能够与靶标结合的化合物,,从而揭示出受体的内在动态性。[1]即使我们认识到单一结构可能会产生误导,让当前的人工智能管线注意到多种可能性,并生成一个概率性系综仍然是一个前沿挑战。当前的生成模型能够从潜在空间产生结构,这些结构可能与系统的底层能量景观有关。就像一个世纪前物理学从经典力学转向量子力学一样,对蛋白质构象景观采取更多概率性视角,很可能会解释单一结构无法解释的性质。然而,当前的模拟方法难以解决这一问题,因为由动态性产生的其他状态通常很少见并且相互转换缓慢。用与实验数据更高度一致的系综进行精细化调整可能会为下一个在单一结构和集合体预测方面的突破提供基础。正如基于结构的药物设计非常适合优化“表面互补性”和静电作用一样,未来的蛋白质建模方法将解锁基于系综的药物设计,能够预见性地在新的和重要的设计方面进行调整,包括对结合配体的熵贡献和驻留时间的考量。体外实验可能具有欺骗性虽然从细胞环境中纯化出蛋白质有助于体外药物发现,但它也可能提供错误的印象。重组表达的蛋白可能会缺少对于理解蛋白质功能至关重要的翻译后修饰(例如,磷酸化或糖基化)。AlphaFold2预测结果的最令人惊讶的进步之一就是,模型在某种程度上“意识到”了那些基于纯粹物理知识的预测所缺失的部分原生环境。预测的结构早已准备好被其他基团(例如血红素)、金属和代谢中间物所补全,以至于只需很小的修正就能将它们“移植“到模型中。随着药物发现的重点转移到包括多蛋白复合体、蛋白质-RNA相互作用以及富含固有无序蛋白的细胞凝聚物的复杂生物系统,单一的蛋白质结构变得越来越容易产生误导。新兴技术,尤其是冷冻电子断层扫描(cryo-ET),有巨大的潜力直接从对细胞的观测中提供原子级别的洞察。一个早期的cryo-ET例子揭示了与氯霉素结合的核糖体集中停留在肽链延伸受阻的状态。这些技术最终将回答关于“无序区域”中残留结构的问题,而这些问题如果不考虑局部细胞环境是无法解决的。通过这样做,结构生物学在药物发现中的适用性和相关性无疑将增加。药物分子可以与许多不同的受体“交际”药物发现者必须面对的不乐观现实是,无论我们认为我们的化合物设计得多么完善,它们总会找到与身体中的许多其他蛋白质或核酸相互作用的方法,并干扰这些生物分子的正常功能。虽然偶尔,药物与多种生物分子的结合能力会增加药物的效力,但这种多靶点药理学更有可能产生不良效果。这些不良效果有两种形式。显然,直接与非靶标结合可以导致令人困惑的多种毒性,其中许多毒性使得药物过于危险,无法使用。更微妙的是,与非靶标的结合减少了药物到达期望靶标的能力。能够很大程度上避免与非靶标结合的药物将更有效地在身体中分布,使其能够在疾病相关组织中积累足够高的浓度,有效调节靶标的功能。药物与那些在很大程度上负责控制药物代谢和药代动力学(DMPK)属性——它们的吸收、分布、代谢和排泄——的酶、转运蛋白、通道和受体的相互作用带来了特别的挑战。药物经常与血浆蛋白结合,阻止它们到达预定的组织;它们可以阻塞或成为各种泵和转运蛋白的底物,改变它们在身体中的分布;它们偶尔会干扰像PXR这样的异源物质感应器,这些感应器会启动识别外来物质的转录程序;它们经常阻塞像细胞色素P450这样的酶,从而改变自身的代谢以及其他药物的代谢。它们本身是P450和其他代谢酶的底物,一旦药物分子在代谢酶作用下发生结构改变,就无法再执行其本来肩负的挽救生命的功能。综上所述,我们有些戏谑地将这些与DMPK相关的蛋白质称为“避免组”(图2)。不幸的是,绝大多数避免组靶标的结构尚未被确定。此外,其中的许多蛋白质是包含多个结构域的复杂机器,并且展现出相当大的结构动态性。它们的结合位点可能相当大且特异性不明显,即使是与蛋白密切相关的小分子化合物也可能具有几种不同的结合方式。因此,要充分理解如何最好地阻止药物与这些非靶标的问题性结合,需要分析涵盖一系列结合配体和蛋白质构象状态的多个结构。图二,药物代谢和药代动力学(DMPK)相关的“避免组”蛋白质的结构展示我们认为结构生物学界应该以与对预期靶标进行的基于结构的设计同样的重视程度来关注“避免组”。这些蛋白质的结构将为我们提供相当多的线索,并提供展示前沿结构解析能力的机会。至关重要的是,详细了解药物与避免组靶标相互作用的方式将显著加快药物发现过程。这些信息有可能对新药和改良药物的发现产生深远影响。——结论——在药物发现领域,分子有用最重要(只要这个分子能改变医学实践,就是真理)。理想的药物可以预防、改善或治愈疾病。它具有良好的耐受性,并且在现实世界中实用。遗憾的是,每年创造的重要新药并不多。尽管我们所描述的四个严酷真相带来了限制,但经过深思熟虑地应用结构信息,一直证明了其在药物发现中的实用性。的确,2024年标志着多佐胺被FDA批准的30周年,这是第一款受益于基于结构的药物设计的药物。未来十年将见证结构生物学在解决这些限制方面的激动人心的进展,为提高药物发现过程的效率,并越来越多地贡献于未来药物的发现。我们建议,将机器学习的努力集中在这四个挑战上,将补充并增强即将到来的实验学科的改进,以进一步加速我们的进展。——将生成式AI用于写作过程的声明——本篇评论的作者在文章最后的声明中提到,他们使用了ChatGPT总结了他们在撰写这篇文章时来回发送的电子邮件中的一些笔记。他们认为是有帮助的,但不及预期。同样,我们也需在这里声明,我们在翻译这篇评论的过程中也使用了ChatGPT对一些长句进行翻译。不同的是,我们发现GPT在局部文本的翻译中超出预期,但在上下文的连贯性和语句的通顺程度上还有待打磨。[1]作者这里可能是想说,变构调节位点和变构调节剂的发现参考文献Fraser, J. S. & Murcko, M. A. Structure is beauty, but not always truth. Cell187, 517-520 (2024). https://doi-org.libproxy1.nus.edu.sg//doi.org/10.1016/j.cell.2024.01.003作者:郭   政审稿:钟书辰编辑:黄志贤声明:发表/转载本文仅仅是出于传播信息的需要,并不意味着代表本公众号观点或证实其内容的真实性。据此内容作出的任何判断,后果自负。若有侵权,告知必删!长按关注本公众号   粉丝群/投稿/授权/广告等请联系公众号助手 觉得本文好看,请点这里↓
更多内容,请访问原始网站
文中所述内容并不反映新药情报库及其所属公司任何意见及观点,如有版权侵扰或错误之处,请及时联系我们,我们会在24小时内配合处理。
机构
-
适应症
靶点
立即开始免费试用!
智慧芽新药情报库是智慧芽专为生命科学人士构建的基于AI的创新药情报平台,助您全方位提升您的研发与决策效率。
立即开始数据试用!
智慧芽新药库数据也通过智慧芽数据服务平台,以API或者数据包形式对外开放,助您更加充分利用智慧芽新药情报信息。