作为一门深度融汇生物学、医学、数学、统计学、计算机科学、物理、化学等学科的新兴交叉学科,计算生物学正引领生命科学研究范式实现从定性实验观察到定量预测创造的革命性跃迁,使得人们能够更全面深入地对生命系统进行探究,从而更好地去理解生命运行的本质规律。
近年来计算生物学在多组学、结构生物学、制药、合成生物学等领域已取得了诸多亮眼的成果,特别是在大数据技术与人工智能算法的双重赋能下,计算生物学正加速突破传统实验科学的时间与空间限制,未来将会在生命科学更多领域大放异彩。本文立足当下计算生物学的发展前沿,从基础研究、应用转化及产业发展几个维度进行了梳理,旨在为关注计算生物学的读者提供参考。
一
计算生物学
(一)什么是计算生物学
计算生物学(computational biology)是一门多学科交叉的新兴学科,参考《计算生物学》(张岩主编,北京:科学出版社)的定义,计算生物学是指“开发和应用数据分析及理论的方法、数学建模和计算机仿真技术等,用于生物学、行为学和社会群体系统研究的一门学科”。计算生物学涉及的学科包括生物学、医学、数学、统计学、计算机科学、物理学、化学等,区别于传统生物学主要基于实验的研究方法,计算生物学研究方法则主要基于数据及计算,尤其是在当下大数据(big data)、人工智能(artificial intelligence,AI)高速发展的浪潮中,计算生物学的优势及价值更引发了大众的关注。
计算生物学之学科高度交叉性的特征,使得其在大众的印象中常常与系统生物学(systematic biology)、数学生物学(mathematical biology)、生物信息学(bioinformatics)等另一些与生物息息相关的交叉学科混淆在一起,特别是生物信息学。计算生物学与生物信息学两者的研究内容往往相互交织,难有一个清晰的界限。不过学界认为两者的侧重点有所不同,参考复旦大学校长金力院士、美国Harvard University生物信息学领域Ming Tommy Tang教授等学者的观点,计算生物学侧重于利用计算方法来探索生物学问题,要点在于发现(it’s about discovery)(图1),而生物信息学则更侧重于生物学信息的采集、存储、分析、可视化等方面的新方法及新工具,要点在于问题解决方案(it’s about engineering)。
图1. 计算生物学示意图
图片来源:www.differencebetween.com
(二)计算生物学之于生物学的意义
计算生物学近年来发展迅猛,基因测序深度挖掘、单细胞组学及空间组学、AlphaFold预测蛋白质折叠结构等领域取得了突破性进展,推动了基础生物学研究的发展,在医学、药物研发等领域也产生了深远影响。类似于计量经济学之于经济学,笔者认为计算生物学之于生物学的重大意义在于突破了生物学的研究范式,在哲学角度将生物学从定性描述推动到定量预测、从部分(局部)还原推动到整体(系统)整合,在工具角度将生物学从传统的“观察-假设-验证”的线性模式推向高效的“数据驱动-理论建模-实验验证”的迭代模式。
传统的生物学实验主要依赖实验室试错(e.g. 逐一敲除基因来验证基因功能),周期长成本高,难以研究复杂系统(e.g. 信号网络);而计算生物学则可利用数学模型及算法来模拟生物过程,实现提前预测实验结果(e.g. AlphaFold,弥合“干实验”与“湿实验”的鸿沟)、虚拟实验(e.g. 模拟药物与靶点相互作用实现虚拟药物筛选)以及逆向工程(reverse engineering, e.g. 基于单细胞测序数据重建细胞分化路径)。
另外,诸多生命现象是跨尺度(cross-scale)、多层级(multi-level)、动态演化(dynamic evolution)的复杂系统,例如脑功能、免疫应答、分化发育等,是“more is different”的典型体现。计算生物学不仅基于传统生物学长期依赖“拆分-分析”的还原论(reductionism)思想,也整合了整体论(holism)思想,更擅长揭示“整体大于部分之和”涌现现象(emergence)的生命本质。
二
计算生物学的研究及应用
计算生物学作为一门融合生物学、计算机科学、数学等学科的交叉学科,其研究与应用方向广泛覆盖了从分子到生态系统的多层次生命科学问题(图2)。
图2 计算生物学的研究及应用
图片来源:康橙投资
(一)基础研究方向
1. 基因组学与生物信息学
在该方向上计算生物学与生物信息学的研究内容有较多重叠,主要包括基因序列分析(e.g. 基因组学的算法开发)、变异检测与功能预测(e.g. 单核苷酸多态性、结构变异及其与疾病的关联)、进化分析(e.g. 系统发育树构建、物种演化解析)等研究领域。
例如,计算生物学可以通过组学分析揭示肿瘤发生机制。北京大学肿瘤医院解云涛教授团队于2021年在Cancer Research期刊上报道了他们基于单细胞转录组测序、全外显子组测序的基础研究,他们对多例BRCA1突变乳腺癌患者的肿瘤样本、癌旁正常样本、对侧预防性切除样本进行了测序及分析,发现BRCA1突变乳腺癌的起源细胞,并表明这类起源细胞在肿瘤发生前的异常可能是促进肿瘤发生的关键因素。
另外,计算生物学在基因组学与生物信息学方向的成果经常会开发成为算法平台或分析软件工具。西南华大生命科学研究院的科研团队于2025年2月在Cell Systems期刊上报道了他们开发的新算法SpaTrack,该算法可以推断细胞时空分化轨迹,为揭示组织发育、器官再生和疾病进展的动态研究提供了有效的方法支持(图3)。
图3. 新算法SpaTrack
图片来源:Cell Syst., 2025, doi: 10.1016/j.cels.2025.101194
2. 蛋白质结构与功能预测
在蛋白质结构与功能预测方向上计算生物学目前已大放异彩。
在蛋白质结构预测领域,基于深度学习(deep learning)(e.g. AlphaFold、RFdiffusion、RoseTTAFold)预测蛋白质折叠结构于2024年荣获诺贝尔化学奖,一半授予大卫·贝克(David Baker),“以表彰他在计算蛋白质设计方面的贡献”;另一半则共同授予德米斯·哈萨比斯(Demis Hassabis)和约翰·M·詹珀(John M. Jumper),“以表彰他们在蛋白质结构预测方面的成就”(图4)。
图4. 2024年诺贝尔化学奖获得者
图片来源:www.nobelprize.org
在蛋白质功能预测领域,计算生物学可以预测酶活性,设计人工蛋白质;另外,还可以利用分子动力学方法模拟研究蛋白质构象变化,特别合适用于解析药物靶点的动态行为,加速新靶点的筛选进程。2024年3月推出的RFdiffusion和RoseTTAFold2网络,通过计算机模拟和实验验证,成功设计出了全新的单域抗体(variable heavy-chain of heavy-chain antibodies,VHH),该研究是将人工智能蛋白质设计工具应用于制造新抗体的标志性事件。
3. 单细胞与空间组学
近年来,单细胞和空间组学(single-cell and spatial genomics)技术的发展及应用刷新了人们对复杂生物系统中细胞状态和细胞异质性(cell heterogeneity)的认识,为单细胞的功能基因组学及其在组织内空间环境的检查提供了全新的解决方案,这些发展及进步的背后均离不开计算生物学的贡献。在该方向,计算生物学的研究内容主要包括单细胞转录组分析(e.g. Seurat、Scanpy等解析工具)、空间转录组整合(e.g. 结合基因表达与组织定位信息)、多组学数据融合(e.g. 整合基因组学、表观遗传学组学、蛋白质组学)等领域。
例如研究者们基于计算生物学工具可以针对细胞亚群开展动态相互作用研究、针对胚胎发育过程构建细胞命运决定的时空图谱。上海交通大学医学院附属仁济医院心内科卜军课题组于2025年1月在Nature Immunology期刊上报道了他们基于全生命周期队列和单细胞与多组学技术的最新成果。在该研究中,他们基于上海浦东队列人群(NCT05206643)绘制了人类从出生到衰老的免疫细胞图谱,揭示了人类免疫细胞在发育、成熟和衰老的不同年龄阶段的功能特征(图5)。其中,T细胞功能受年龄影响最为显著,其不同亚群中呈现出不同的衰老模式,并因此开发了基于人工智能的全生命周期siAge免疫年龄预测模型,为免疫相关慢病临床诊断和个性化治疗提供工具。
图5. 人类从出生到衰老的免疫细胞图谱
图片来源:Nat. Immunol., 2025, 26, 308-322
4. 系统生物学与网络建模
简单来讲,系统生物学是一个使用整体论研究范式探索生物系统如何行使功能的学术领域。目前计算生物学在该方向的研究主要包括基因调控网络分析(e.g. 构建转录因子与靶基因的相互作用模型)、代谢网络分析(e.g. 预测代谢通量分布用于优化微生物生产)、信号通路模拟(e.g. 研究细胞信号通路的动态响应)等,在癌症耐药性机制解析方面、合成生物学中人工基因回路的设计等方面有较多应用。
例如,爱丁堡大学Ramon Grima课题组于2024年在Nature Communications期刊上报道了他们利用计算生物学解决随机基因网络动态问题的探索,他们使用了一种高阶线性映射近似(high-order linear-mapping approximation,Holimap)方法,通过一个更简单反应体系的分布来近似揭示复杂基因调控网络中蛋白质或mRNA的分布问题(图6)。在该方向上计算生物学的模型虽然未必完全正确,但对相关问题的理解及进一步探索仍有许多启发及参考意义。
图6. Holimap新方法与随机模拟算法的对比示意图
图片来源:Nat. Commun., 2024, 15: 6557
5. 生态系统与进化生物学
目前计算生物学在该方向的代表研究包括通过种族遗传模拟(e.g. 研究自然选择及基因流)、生态系统建模(e.g. 气候变化对物种分布的影响、农业病虫害的进化预测、濒危物种的保护策略优化)、微生物组分析(e.g. 肠道菌群与宿主健康的关联)等。
肠道微生物组与多种疾病的潜在联系近年来受到广泛关注,结合机器学习技术能够帮助研究者更好地发现有价值的信息。克罗恩病(Crohn's disease,CD)是一种影响数百万人的慢性、反复发作的炎症性肠病(inflammatory bowel disease,IBD),同济大学朱瑞新团队、中山大学附属第六医院朱立新团队和郅敏团队于2024年在Cell Reports Medicine期刊上报道了他们关于CD疾病的研究成果,在该研究中研究了148名缓解期CD患者(CD in remission,CD-R)、活跃期CD患者(active CD,CD-A)、其对应健康一级亲属(healthy first-degree relatives,HFDR)及非相关对照的粪便宏基因组、靶向短链脂肪酸和炎症血清标志物数据,并纳入了8个队列的克罗恩病粪便微生物全宏基因组测序(whole metagenome sequencing,WMS)数据及5个队列的多疾病粪便微生物全宏基因组测序数据,基于数据分析确定了与CD复发相关的肠道短链脂肪酸相关微生物,揭示了CD的微生物学变化情况,并在此基础上,进一步利用机器学习方法筛选了CD临床诊断的新标志物组合(图7)。
图7. 计算生物学在克罗恩病研究中的应用
图片来源:Cell Rep. Med., 2024, 5(7): 101624
6. 其他新兴交叉领域
计算生物学在其他新兴交叉领域也在探索中,例如在神经科学与脑连接组学领域,基于深度学习模拟大脑认知功能、基于脑影像数据解析阿尔兹海默症生物标记物、帕金森病深部脑刺激疗法开发是较为典型的例子。
(二)应用转化方向
1. 药物研发与精准医疗
药物研发与精准医疗是计算生物学在实际应用中进度最快的应用转化方向,包括从计算辅助药物设计(computer-aided drug design,CADD)到人工智能驱动药物发现(artificial intelligence-driven drug discovery,AIDD)、从虚拟筛选(virtual screening)到药代动力学建模以及从新型疗法到个性化治疗等方向。
AIDD是近年来生物医药圈的热门词汇,英伟达创始人黄仁勋也多次提及“AI+医药”是下一个黄金赛道的观点,业务涉及AIDD的国内领跑企业晶泰控股(XtalPi)、英矽智能(Insilico Medicine)等的发展动态也是资本市场重点关注的话题。例如,英矽智能在自有生成式人工智能平台Pharma.AI的驱动下,2024年在早期药物发现、临床申报审批、临床阶段验证等不同环节实现了多点突破(图8)。
图8. 英矽智能研发管线
图片来源:英矽智能
计算生物学在临床疗效预测方面也有很多进展,例如基于肿瘤突变负荷(tumor mutation burden,TMB)的免疫治疗响应预测是这方向的一个研究热点。TMB是指特定基因组区域内每兆碱基对发生体细胞非同义突变的数量,其水平与肿瘤新抗原产生能力及DNA修复程度密切相关,因此也是评估免疫检查点抑制剂(immune checkpoint inhibitors,ICI)治疗反应的重要生物标志物。针对当前TMB尚未充分考虑肿瘤克隆异质性和多个治疗终点等因素影响的短板,南京航空航天大学宋晓峰、王以瑄团队联合西安交通大学王嘉寅团队、西安交通大学第二附属医院杨拴盈团队与世和基因合作,开发了一款灵活、高效、可扩展的统计模型肿瘤突变负荷异质性优化回归(THOR)模型,显著提高了基于TMB的免疫治疗疗效预测性能,相关研究结果发表于2025年Briefings in Bioinformatics期刊上(图9)。
图9. THOR方法示意图
图片来源:Brief. Bioinform., 2025, 26(1): bbae648
2. 合成生物学与生物工程
在计算生物学手段的帮助下,助推了合成生物学与生物工程中优化基因回路设计(e.g. 优化代谢通路)、优化微生物筛选等环节的开发进程。
合成酵母基因组项目(Sc2.0)是合成基因组学领域的标志性国际合作项目,包括了来自美国、英国、中国、日本、澳大利亚、新加坡等国家的国际团队。Sc2.0旨在通过从头设计和构建全新的酵母基因组合,为未来生物制造打开一扇新的大门。在多国团队的密切合作下,2023年11月8日同时上线10篇研究论文(2篇Cell,1篇Molecular Cell,7篇Cell Genomics),共同宣布完成了酵母全部16条染色体和一条特殊设计的tRNA全新染色体的设计与合成(图10)。在Sc2.0中,计算生物学发挥了核心设计和优化作用,不仅是“设计蓝图”的绘制者,更是“工程监理”和“质检员”,贯穿了从基因组设计到功能验证的全流程。例如,在基因组设计环节,利用计算工具移除冗余序列设计更紧凑的基因组结构;在合成过程优化环节,通过算法预测重叠DNA片段最佳长度、计算模拟DNA片段组装路径;在功能验证环节,通过机器学习预测潜在缺陷、评估合成基因组的表达稳定性。
图10. 多条合成型染色体整合至单个细胞的示意图
图片来源:Cell, 2023, 186(24): 5220-5236.e16
聚羟基脂肪酸(polyhydroxyalkanoates,PHA)是一类由微生物合成的天然高分子聚合物(图11),具有良好的生物相容性、生物可降解性。在合成生物学领域,PHA是一个代表产品。在PHA的设计及生产中离不开底盘细胞(e.g. 嗜盐单胞菌),计算生物学通过精准设计代谢网络、动态调控基因表达、智能优化发酵工艺,可将底盘细胞改造为高效的“细胞工厂”,推向PHA生产从实验室走向工业化。在这个过程中,计算生物学在代谢通路设计(e.g. 包括目标基因挖掘、代谢网络构建)、基因回路设计(e.g. 动态调控系统、适配性优化)、发酵过程模拟与放大(e.g. 机器学习优化发酵条件)、产物结构与性能预测(e.g. 链段分布、结晶度、降解速率)等环节都能发挥重要作用。
图11. 微生物合成所得PHA的代表性单体
图片来源:Microb. Biotechnol., 2013, 6: 621-636
三
计算生物学的产业发展
(一)发展现状及趋势
当前计算生物学仍主要停留在科研院所或实验室中,存在形式主要为计算平台/模型,科研合作为主,市场化付费采购的意愿有限。虽然计算生物学具有巨大的潜在价值,不过从商业化落地进度来看,其产业之路仍任重道远,当前还难以估算市场规模。
从行业长期趋势来看,计算生物学在生物医药领域产业化中将会扮演愈发重要的角色,预计将逐步从初阶的工具升级覆盖到高阶的生态,其核心逻辑一方面来自计算生物学助推研发效率提升,一方面也来自计算生物学能够启发人们对复杂生命体系本质的理解。
从短期产业化视角来看,计算生物学将率先以工具属性的角色产生价值,目前在生物医药创新链条的关键环节即将迎来突破。特别是在新型疗法开发领域,计算生物学通过软件即服务(software as a service,SaaS)、研发外包(contract research organization,CRO)等模式,在核酸药物的序列设计、细胞疗法嵌合中的抗原受体(chimeric antigen receptor,CAR)的结构设计、基因疗法基因编辑工具的优化、脑机接口复杂脑信号的分析解读、复杂递送系统的优化等关键环节贡献了重要作用。随着计算生物学的发展,基于其对复杂生命系统不同层次不同时空维度的深入系统的理解及其给人们带来的启发,计算生物学中期、长期的产业化预计将逐步走向“数据-计算-实验-产品”的平台模式,或更进一步的发展为开源或半开源的生命科学底层操作系统的生态模式。
(二)产业链及商业模式
目前计算生物学产业处于发展阶段,笔者此处按照底层支撑层及上层应用层的方式呈现产业链情况(图12)。底层支撑层由涉及计算生物学的技术及基础设施构成,主要包括实验数据获取、生物信息软件、开源软件+平台算法、计算硬件+加速引擎、生物数据库、智能实验室等支撑点,当前主要参与方是科研机构及企业研发部门。上层应用层主要由利用计算生物学工具在某个具体应用场景进行开拓的企业构成,当前主要形式包括组学服务公司、精准医疗公司、AI制药公司及合成生物学公司。
图12. 计算生物学产业链(底层支撑层+上层应用层)
图片来源:康橙投资
基于交付的产品或服务的不同,计算生物学产业化目前呈现软件工具服务类(表1)及生物资产交付类(表2)两种商业模式。
表1. 软件工具服务类商业模式
资料来源:康橙投资
表2. 生物资产交付类商业模式
资料来源:康橙投资
四
小结和展望
计算生物学是一门涉及生物学、医学、数学、统计学、计算机学、物理学、化学等多学科交叉的新兴学科,其发展不仅是生命科学研究的“加速器”,更是生命科学研究的“范式颠覆者”。虽然在数据质量及数据安全、高效可靠算法及模型复杂度、实验验证、多学科交叉复合人才以及伦理和社会问题等方面仍存在诸多挑战,我们相信随着跨学科合作的深化、技术创新的推进、伦理规范的完善,有望逐一突破相关掣肘,同时得益于算法的持续优化及算力的持续提升,计算生物学将在生命科学的更多研究及应用领域实现突破。
参考文献
1. Florian Markowetz. All biology is computational biology. PLoS Biol., 2017, 15(3): e2002050.
2. 徐书华, 金力. 计算生物学. 科学, 2009, (4): 4.
3. 《计算生物学-深度产业报告》.
4. Ming Tommy Tang, From zero to hero: six steps to learn comutational biology. (https://divingintogeneticsandgenomics.kit.com/6steps)
5. Dhrithi Deshpande, Karishma Chhugani, Tejasvene Ramesh, et al. The evolution of computational research in a data-centric world. Cell, 2024, 187(17):4449-4457.
6. Xunan Shen, Lulu Zuo, Zhongfei Ye, et al. Inferring cell trajectories of spatial transcriptomics via optimal transport analysis. Cell Syst., 2025, doi: 10.1016/j.cels.2025.101194.
7. Li Hu, Liming Su, Hainan Cheng, et al. Single-cell rna sequencing reveals the cellular origin and evolution of breast cancer in BRCA1 mutation carriers. Cancer Res., 2021, 81(10): 2600-2611.
8. Yufei Wang, Ronghong Li, Renyang Tong, et al. Integrating single-cell RNA and T cell/B cell receptor sequencing with mass cytometry reveals dynamic trajectories of human peripheral immune cells from birth to old age. Nat. Immunol., 2025, 26, 308-322.
9. Jingjing Wang, Fang Ye, Haoxi Chai, et al. Advances and applications in single-cell and spatial genomics. Sci. China Life Sci., 2024, doi: 10.1007/s11427-024-2770-x.
10. Chen Jia, Ramon Grima. Holimap: an accurate and efficient method for solving stochastic gene network dynamics. Nat. Commun., 2024, 15: 6557.
11. Wanning Chen, Yichen Li, Wenxia Wang, et al. Enhanced microbiota profiling in patients with quiescent Crohn's disease through comparison with paired healthy first-degree relatives. Cell Rep. Med., 2024, 5(7): 101624.
12. Yixuan Wang, Yanfang Guan, Xin Lai, et al. THOR: a TMB heterogeneity-adaptive optimization model predicts immunotherapy response using clonal genomic features in group-structured data. Brief. Bioinform., 2025, 26(1): bbae648.
13. Yu Zhao, Camila Coelho, Amanda L. Hughes, et al. Debugging and consolidating multiple synthetic chromosomes reveals combinatorial genetic interactions. Cell, 2023, 186(24): 5220-5236.e16.
14. Jung Eun Yang, So Young Choi, Jae Ho Shin, et al. Microbial production of lactate-containing polyesters. Microb. Biotechnol., 2013, 6: 621-636.
☆ END ☆
作者简介
何垚 博士
复旦大学高分子化学与物理专业理学博士。现任康橙投资董事、投资总监,主导或参与圣美生物、丽凡达、韬略生物、赛箔生物、长泰药业、汇伦医药、诺源医疗、康富德药业、血源生物等项目的股权投资;曾担任复旦大学博士后研究员,负责并参与骨科、心血管介入生物医用材料等方面的基础研究,并作为项目负责人承担一项国家自然科学基金项目(项目批准号21604011)。
作者简介
李心悦 博士
中国科学院分子细胞科学卓越创新中心博士,现任以慈生物首席科学家,主导以慈生物的 CAR-NK 细胞创新生物药的研发、产品管线和市场策略的制定。在细胞治疗领域具有丰富的基础研究和工艺转化工作经验。
公司简介
上海康橙投资管理股份有限公司(简称“康橙投资”)成立于2014年,是私募新规实施后第一批在中国证券投资基金业协会完成基金管理人登记的私募股权投资机构,管理人登记编号为P1008717。
自2016年以来,公司逐步聚焦于生命健康领域的战略投资,成功组建了以多位医学博士为核心的投资团队并建立了首席科学家制度,创始团队成员具备平均15年以上产业或资本市场从业经验。公司致力于打造涵盖产业研究、股权投资、并购基金、上市公司战略投资的“康橙生命健康精品投资机构”。