Nature｜第一个计算生物学大模型Geneformer用于下游任务微调

2023-06-03

基因疗法

近日，Nature杂志发表了在转录组计算生物学领域中的第一个计算大模型Geneformer的文章"Transfer learning enables predictions in network biology"。该Geneformer模型在约3000万个单细胞转录组的大模型语料库上进行了预训练，以在网络生物学数据有限的情况下实现上下文特异性预测。Geneformer模型在下游有限数据预测任务包括"疾病候选靶点预测"、"解释CNVs"、"基因网络连接"、"基因网络层次编码"、"染色质动力学预测"等表现出经过实验验证的准确率，可以作为强有力的计算生物工具。Geneformer 架构与预训练Genoformer是一个上下文感知的，基于注意力的深度学习模型在大规模转录组数据上进行预训练，以通过迁移学习在有限数据的网络生物学中进行预测。Geneformer利用最近出现的自注意力来保持对每个单细胞转录组中表达的基因的大输入空间的关注，并了解那些基因最重要以优化给定学习目标内的预测准确性。重要的是，网络动力学可能因细胞类型、发育时间点或疾病状态而异。因此，上下文感知是Geneformer模型架构的一个独特优势，它允许对每个细胞上下文进行特定的预测。具有初始自监督大规模预训练的迁移学习策略示意图，将预训练的权重复制到每个微调任务的模型中，添加微调层，并使用有限的数据对特定的每个下游任务进行微调。通过在可推广的学习目标上进行单一的初始自监督大规模预训练，该模型获得了学习领域的基本知识，然后将其应用于与预训练学习目标不同的大量下游应用，将知识迁移到新任务中。上图是Genecopus-30M的组织表征。NOS，未另行规定。预训练的Geneformer架构。每个单细胞转录组被编码成排序值编码[秩编码]，然后通过6层transformer编码器单元进行编码，参数如下：输入大小为2048（完全代表Geneformer-30M中排序值编码的93%），256个嵌入维度，每层四个注意力头，前馈大小为512。Geneformer在2048的输入大小上使用full dense 自注意力。可提取的输出包括上下文基因和细胞嵌入编码、上下文注意力权重和上下文预测。[排序值编码，基因是根据其在该细胞中的表达进行排序]。Geneformer增强了对基因剂量敏感性的预测作者测试了Geneformer是否可以在一组不同的下游微调应用中利用有限的数据来提高预测准确率，在遗传诊断中解释CNVs的一个主要挑战是确定那些基因对其剂量变化敏感。尽管保守性和等位基因频率通常用于预测剂量敏感性，但这些特征不会因细胞状态而异，也不会捕获转录动力学，这些转录动力学可能会告知上下文剂量敏感性，指示那些特定组织会受到基因剂量变化的影响。使用先前报道的剂量敏感和剂量不敏感的基因集，作者仅使用10000个随机单细胞转录组对Geneformer进行了微调，以区分剂量敏感和不敏感的转录因子。与替代方法相比，微调的Geneformer显著提高了预测剂量敏感性的能力，AUC达到了0.91，下图a。值得注意的是，尽管使用了相同数量的有限任务特定数据进行了微调，但使用更大、更多样化的预料库进行预训练一致性的提高了所有下游任务的预测能力，下图b。在没有任何进一步训练的情况下，微调的Geneformer模型正确地预测了高置信度基因在胎儿脑细胞的特定内容中是剂量敏感的，与原始研究的一致性为96%，预测中等置信度的基因在胎儿脑细胞中对剂量敏感，与原始研究的一致性为84%，下图c。作者设计了一种模拟缺失方法来识别其缺失基因被预测在特定细胞环境中具有有害影响。通过从细胞的排序值编码中去除基因并量化对编码中剩余基因嵌入的影响来对基因缺失进行建模。结论下图d。总体而言，其被预测对心肌细胞具有最大缺失影响的基因在包括心肌病和异常心肌病理学在内的人类表型中显著富集。在具有最显著影响的前25个缺失基因中，有已知调节心肌发育的转录因子(例如FOXM1)和全新的剂量敏感候选基因，如TDAD4。实验确实验证了，CRISPR介导的iPSC衍生的心脏微组织中候选TEAD4的敲除导致其产生收缩应力（单位面积的力）的能力显著降低，图e。图a. Geneformer的ROC曲线：与各种替代方法相比，使用有限数据(10000个细胞)对Geneformer进行微调，以区分剂量敏感和剂量不敏感的转录因子。替代方法包括SVM、RF、gene ranks或gene counts或具有与Geneformer相同结构的非预训练的基于注意力的模型或具有保留的深度与宽度纵横比的浅层(4、3或1L)。图b. 在使用相同的有限任务特异性数据(10000个细胞)区分剂量敏感转录因子和剂量不敏感转录因子的下游任务中，更大、更多样的预训练群体提高了预测潜力。多样性个体从Genecorpus-30M中随机抽样，而非多样性个体则从食道数据集中随机取样。图c. 微调了Geneformer在(1)随机细胞、(2)神经元(包括成人)和(3) 胎儿大脑中对神经发育疾病基因的上下文剂量敏感性预测。作者报告了具有指示后验纳入概率(PIP)评分的高或中等置信度基因集。图d. 在与心肌细胞中表达但其病理发生在非心肌细胞类型(高脂血症)中的对照的心脏病基因相比，与心肌细胞病理驱动的疾病（心肌病和结构性心脏病）相关的基因模拟的缺失(in silico deletion of genes)对心肌细胞包埋的有害影响更大。来自心肌病患者的实验数据验证表明，与对照基因的模拟缺失(in silico deletion of genes)相比，区分心肌病状态的基因的模拟缺失(in silico deletion of genes)也被预测为更有害。图e. 源自野生型(WT) iPSC的心脏微组织的收缩应力，暴露于对照治疗或促进CRISPR介导的Geneformer预测的剂量敏感基因TEAD4的敲除。Geneformer增强了染色质动力学的预测确定转录因子结合影响下游表达的基因组距离对于解释调控变体和从转录因子基因组占有数据推断靶基因是有价值的。即使对于调节范围的高阶转录因子特性，Geneformer也能显著提高预测转录因子调节范围的能力。Geneformer增强编码了基因的网络层次为了研究模型在预训练阶段是如何学习网络动力学的，作者检查了预训练的Geneformer注意力权重。每个基因的模型的训练注意力权重反映了(1)该基因关注哪些基因，以及(2)哪些基因关注该基因。这些注意力权重在训练过程中被迭代优化，以生成基因嵌入，从而为给定的学习目标提供最佳的正确答案。Geneformer在模拟基因缺失上解释了基因网络连接鉴于基因嵌入反映了网络注意力权重的联合输出，作者在微调之前测试了预训练Geneformer是已经编码了转录因子与其靶标之间的网络连接。确定了对胎儿心肌的基因GATA4的嵌入编码的模拟缺失影响最大。Geneformer预训练模型在模拟基因缺失方法中，可以识别到共结合靶标上的协同作用。In silico treatment揭示了候选治疗靶点作者测试了模拟微扰策略是可以应用于人类疾病模型并揭示候选治疗靶点。首先，对Geneformer进行了微调，以区分心肌细胞和非衰竭心脏或心脏肥大或扩张心肌病，总体样本外准确率为90%。然后，确定了在非衰竭心脏的心肌细胞中，微调的Geneformer细胞嵌入编码向肥厚或扩张型心脏病状态转移的模拟基因代表了该模拟基因的缺失或激活。总体而言，该模型鉴定了447个基因，这些基因的缺失被预测会使心肌细胞向肥厚型心肌病状态转变，这些基因富集了包括Titin结合和肌节组织在内的已知影响肥厚型心肌病发病机制的信号通路。该模型鉴定了478个基因，这些基因的缺失被预测会使心肌细胞向扩张型心肌病转变。作者对肥厚型或扩张型心肌细胞进行了模拟治疗分析，以确定特定信号通路的抑制或激活是否会将细胞嵌入转移回非衰竭心脏状态(图e)。肥厚型心脏病的top 富集信号通路指向了候选心肌细胞特异性治疗靶点(包括ADCY5，其破坏与小鼠模型中的寿命和对心肌病的保护有关)，以及可药用靶点(如MEF2的下游影响因子SRPK3)。作者实验验证，确定了抑制Geneformer预测的扩张型心肌病候选治疗基因是在该疾病的实验模型中改善了心肌细胞功能。引人注目的是，CRISPR介导的Geneformer预测的两个靶点GSN和PLN在TTN+N+/-细胞中的敲除显著改善了TTN++-心脏微组织的易处理应激，验证这些基因是该疾病有希望的候选治疗靶点。这些发现提供了实验验证，支持Geneformer作为发现人类疾病候选治疗靶点的工具的效用。图a.微调Geneformer以区分心肌细胞与非衰竭心脏或肥厚型或扩张型心肌病(HCM和DCM)影响心脏，定义了每种细胞状态的嵌入位置。然后，可以通过在模拟基因缺失或激活非衰竭心肌细胞内的随机基因来进行建模(左)，从而识别其在计算机上的删除或激活使嵌入表征显著向肥厚型或扩张型心肌病状态转移的基因。图b. 对Geneformer的样本外预测进行了微调，以区分心肌细胞与非衰竭心脏或受肥厚型或扩张型心肌病影响的心脏。(Accuracy 90%,precision 82%,recall 87%)。图c. 微调Geneformer心肌细胞嵌入的分级聚类。图d. 在非衰竭心脏的心肌细胞中，其计算机缺失的基因的重叠显著地将微调的Geneformer细胞嵌入转移到肥厚或扩张型心肌病状态，并为每种状态富集基因本体论术语。图e. 肥厚型心肌病心肌细胞对候选治疗靶点的计算机缺失反应的平均嵌入位移分布（n= 104个基因）。图f. 来源于WT iPSC或具有TTN截断突变的iPSC的心脏微组织的收缩力，模拟扩张型心肌病（WT n = 11，TTN+N+/−N= 12，*P < 0.05 Wilcoxon）。图g. 来自TTN+N+/-iPSC的心脏微组织的收缩应力（单位面积的力），暴露于对照治疗或促进CRISPR介导的Geneformer预测治疗靶点敲除的引导物。随着公开可用转录组数据的数量不断扩大，未来在更大模型的语料库上预训练模型可能会在为越来越有限的特定任务数据上在更难捕捉的任务中实现有意义的预测机会。数据：Genecorpus-30M is available on the Huggingface Dataset Hub at https://huggingface.co/datasets/ctheodoris/Genecorpus-30M.代码：The pretrained Geneformer model, transcriptome tokenizer and code for pretraining and fine-tuning the model are available on the Huggingface Model Hub at https://huggingface.co/ctheodoris/Geneformer. 参考文献[1] Theodoris, C.V., Xiao, L., Chopra, A. et al. Transfer learning enables predictions in network biology. Nature (2023). https://doi-org.libproxy1.nus.edu.sg/10.1038/s41586-023-06139-9.