先天性心脏病(CHD)是全球最常见的出生缺陷类型,由于CHD的高发病率和高死亡率,在妊娠早期及时发现CHD是预防和治疗的当务之急。诊断越早,预后越好,因此,产前检测胎儿CHD对于最大限度地降低CHD胎儿的死亡率和改善预后是必要的。
2023年12月,上海交通大学医学院赵健元团队、复旦大学丁琛团队联合妇产科医院等研究机构在EMBO Molecular Medicine发表了题为“Proteome profiling of early gestational plasma reveals novel biomarkers of congenital heart disease”的文章,通过对有或没有CHD后代的早期妊娠孕妇进行血浆蛋白质组学分析,深入讨论并揭示了潜在的致病机制,确定了早期妊娠血浆中预测胎儿先心病的一组生物标志物。
文章题目:Proteome profiling of early gestational plasma reveals novel biomarkers of congenital heart disease
发表期刊:EMBO Molecular Medicine
影响因子:11.1
发表时间:2023年12月
样本选择:文章选用两个独立患者队列作为样本来源,其中包括从复旦大学妇产科医院招募的138例(包含67例CHD组孕妇(婴儿后来被诊断为CHD)和71例健康对照组孕妇(婴儿健康),group1);从中国福利院国际和平妇幼保健院招募的69例(37例CHD组孕妇(婴儿后来被诊断为CHD)和32例健康对照组孕妇(婴儿健康),group2),共计104例CHD孕妇组和103例健康对照组孕妇。所有样本是在怀孕10-12周时采集血浆样本。
技术手段:DIA蛋白组学、机器学习
文章摘要:
选取两个队列分别进行蛋白组学检测,并评估定量方法的稳定性、结果一致性分析;
CHD蛋白共表达网络的构建与验证;
建立机器学习模型,挑选9种蛋白作为标志物并进行早筛模型的验证。
图1:本研究工作流
基于数据独立获取(DIA)方法对两组的所有样本进行LC–MS/MS分析,并分析所有血浆蛋白质组学数据。应用这种稳健的工作流程,文章在group1和group2中共鉴定了8624种和7049种蛋白质(图2C和D),平均量化的分别有2220个、1926个(图2 B)。随着样本数量的增加,蛋白质数量逐渐趋于平稳,表明蛋白质检测覆盖范围广、稳定性好。在所有样本中,对照组和CHD组的定量蛋白质强度跨越8个数量级,前10个高丰度蛋白质分别占数据集中所有血浆蛋白质丰度的40%和39%(图2F)。
图2:血浆的研究概述和蛋白质组学特征
主成分分析(PCA)显示,两组病例和对照组之间存在明显差异,表明在妊娠早期,患有CHD胎儿的孕妇表现出与患有健康胎儿的孕妇不同的血浆蛋白质组学特征(图3A和C)。第1组显示对照组和CHD组之间有397种差异表达蛋白(DEP),其中,在CHD组中检测到184种显著上调的蛋白质和213种下调的蛋白质(图3B)。在第2组中,在对照组和CHD组之间鉴定出225个DEP,其中,CHD组有80种蛋白质显著上调,145种蛋白质显著下调(图3D)。为了进一步分析母体血浆中蛋白质改变的情况,文章使用基因本体论(GO)术语分析对两组中的重要DEP进行了注释,并确定了受胎儿CHD影响的生物学过程。在两组中,CHD组中264个显著上调的蛋白质主要富集在氨基酸代谢、细胞外基质(ECM)受体、肌动蛋白骨架调节、Ras-MAPK信号通路和PI3K-Akt信号通路中;相反,358种显著下调的蛋白质与碳水化合物代谢、心肌收缩和心肌病密切相关(图3E)。此外,为了了解各种上调和下调蛋白质的分子途径关系,揭示了每个途径中的关键分子,对改变的蛋白质进行了PPI网络分析(图3F)。这些结果表明,患有CHD胎儿的孕妇的母体血浆中表达了大量与胚胎器官发育相关的蛋白质,这与健康胎儿的血浆中表达的蛋白质显著不同,这些显著改变的蛋白质可能成为疾病的生物标志物。
图3:两组中CHD与对照组血浆蛋白质组的差异
本研究发现两个队列样本中有8种CHD相关蛋白变化都一致,其中CHD组HSP90AA1、MDH2、MYL9和ACLY的蛋白表达水平高于对照组;CHD组的NSF、TPM1、SERPINE1和CFHR2的蛋白表达水平低于对照组(图4A)。这些结果表明,母体血浆表达的蛋白质与心脏发育有关。此外,CHD和对照血浆之间74种蛋白质水平的变化一致。在两组中,总共有25种蛋白质显著上调,49种蛋白质显著下调(图4B)。文章进一步分析了这74个DEP,发现25个上调的蛋白质主要参与代谢、先天免疫反应和细胞周期途径,而49个下调的蛋白质主要涉及葡萄糖代谢、脂质代谢和血管相互作用等过程。这些途径可能对胎儿心脏发育至关重要(图4C和D)。
图4:两组患者的血浆蛋白质组改变
为了确定CHD病理的潜在驱动因素,文章使用加权基因共表达网络分析(WGCNA),选择了大约2280个蛋白质来生成蛋白质共表达网络。共表达网络由10个蛋白质模块(M1-M10)组成(图5A)。随后,对12种临床病理表型进行分层聚类及功能分析,分为以下三个表型簇:簇1,包括法洛四联症(TOF)、主动脉狭窄(AS)、持续性动脉干(PTA)、大动脉转位(TGA)和右心室流出道梗阻(RVOTO),该簇与蛋白质模块4和8显著相关,并富含碳水化合物代谢、谷胱甘肽代谢和免疫反应;簇2,包括三尖瓣反流(TR)和房间隔缺损(ASD),该簇与蛋白质模块9和10显著相关,并富集ECM受体反应、蛋白质转运和信号转导;簇3,包括肺动脉狭窄(PS)、室间隔缺损(VSD)、持续性左上腔静脉(PLSVC)、左心室流出道梗阻(LVOTO)和房室间隔缺损(AVSD),该簇与蛋白质模块2和3显著相关,主要富集于心肌生长、发育和肌动蛋白细胞骨架的调节(图5B)。为了进一步研究不同集群中影响疾病发生的潜在因素,也做了PPI网络的途径,数据揭示了每种途径中的关键分子,如淀粉酶α2A(AMY2A)、免疫球蛋白λ样多肽5(IGLL5)、MYL9、整合素亚基α1(ITGA1)、RAB6A、RAS癌基因家族成员(RAB6A)和连环蛋白β1(CTNNB1)(图5C)。这些关键基因可能将CHD与对照组区分开来。
此外,文章研究了10个蛋白质模块和18个临床指标之间的关系,只有三个模块(M2、M3和M6)与CHD病理表现出强相关性。簇3(M2和M3)与血脂呈正相关,与甲状腺激素呈正相关。这些结果进一步表明,血脂和甲状腺激素水平的升高可能是CHD的危险因素(图5D)。文章比较了对照组和不同CHD组妊娠早期妇女血浆中七种脂质的浓度,发现脂质也CHD病的主要危险因素,表明血脂波动可能与冠心病的发生有关。
接下来研究团队采用xCell根据蛋白质组数据生成细胞型免疫富集评分,鉴定了与免疫(CD4 T细胞和NK细胞)或基质(脂肪细胞和内皮细胞)特征相关的21种不同细胞类型,发现CHD的发生伴随着血脂、脂肪细胞和CD4T细胞的增加以及内皮细胞、肌细胞和周细胞的减少,这可能会进一步损害心脏发育。
图5:CHD血浆蛋白质组与临床表型及指标的关系
选取group1中的9种蛋白(钙蛋白酶-5(CAPN5)、烯醇化酶磷酸酶E1(ENOPH1)、组蛋白H2A 1-C型(H2AC6)、HSP90AA1、导入蛋白亚基β-1(KPNB1)、MDH2、MYL9、radixin(RDX)和SAMHD1)的组合建立了机器学习模型,该模型在训练集中AUC为0.964(图6A)。用group1中的其余数据用于测试数据集,其AUC值达到0.989(图6D);用group2的样本进行验证,AUC值为0.963(图6G)。这些生物标志物组合的混淆矩阵和主成分分析的结果在对照组和冠心病组的分类中显示出相对较高的准确性(图6B,C,E,F,H和I),进一步说明了该分类器的可靠性。
图6:利用机器学习开发生物标志物组合来预测CHD
文章对妊娠期间的血浆样本进行蛋白组学分析,通过机器学习算法,鉴定并验证了一种包含九种蛋白质的生物标志物组合,这些蛋白质可以作为母体检测胎儿CHD的新型非侵入性生物标志物。孕妇只需在妊娠早期提供2uL血浆进行检查即可获知后代发生CHD的风险,更有助于医疗资源的科学合理配制。此外,这项工作为更深入地了解CHD的病因,进而制定更好的治疗策略提供了极具价值的蛋白质组学资源。