生物标志物指可以标记生物体生理病理变化或可能发生的变化的生化指标,在医学和生命科学领域应用广泛,能够为疾病的预测、诊断、监测及治疗的效果、安全性、预后提供客观测定和评价。利用临床队列样本寻找和发现有价值的生物标志物已经成为了当今的研究热点。
蛋白质生物标志物在疾病生物标志物中占有重要的地位。美国早期检测研究网络(EDRN)数据库针对十种器官共收录了583种蛋白质生物标志物,占所收录的全部生物标志物的57%。此外,获得FDA批准的临床疾病生物标志物90%以上都是蛋白质。
通过蛋白质组学手段对临床队列样本进行检测,并结合机器学习进行标志物筛选是疾病生物标志物发现的经典方法。下面就让我们一起来看看基于机器学习的标志物筛选是如何实现的吧~
基于机器学习的生物标志物筛选流程总览[1]
选择合适的样本对于筛选出的疾病生物标志物的有效性至关重要,用于开展标志物筛选研究的样本常为临床组织或体液样本。
选择组织样本作为发现队列是标志物发现的常见方法,即从组织样本的蛋白质组学结果中寻找差异蛋白,而后采用血液、尿液、脑脊液等样本蛋白质数据作为验证队列进行标志物的验证。这种样本选择策略在保证生物学意义的前提下确保了生物标志物的易检测性,从而促进生物标志物的临床转化。
发现队列和验证队列均为血液样本现在也越来越多的用于临床研究中。例如2024年7月剑桥大学与葛兰素史克公司发表在《Nature Medicine》(IF 58.7)上的文章便利用血浆蛋白质组学开发了针对218种疾病的预测模型,该文章指出只需检测血浆中5-20种蛋白即可预测患52种不同疾病的风险[2]。
对于67种疾病中的52种,基于蛋白质标志物的模型拥有更好的预测性能[2]
在疾病生物标志物研究中,样本通常根据研究目的分为不同的组别,从而实现不同疾病状态下蛋白质表达差异的比较和分析,以下是常见的样本组别设计:
明确样本分组后,应保证每组的样本量充足,以确保统计分析的效力。据统计,使用常见的逻辑回归模型进行标志物筛选,在每组样本数大于50例时模型准确性可达0.8以上,在样本数大于100例时模型准确性可达0.9以上。因此为确保模型的准确性,一般建议基于机器学习方法的标志物发现每组应包含大于50例样本。
作为国内领先的蛋白质组学诊疗标志物创新平台,皇家马德里中文官网针对疾病生物标志物筛选使用机器学习算法开发了全套生物标志物筛选解决方案。下面就来看看生物标志物筛选解决方案是怎么实现的吧~
生物标志物筛选的第一步是对原始数据进行预处理,从而确保数据的质量,为后续分析打下基础。数据预处理包括以下几个层面:
1) 样本剔除:剔除鉴定数异常不具有代表性的样本,减少其对后续标志物筛选流程的干扰,例如鉴定到的蛋白个数小于100的样本。
2) 蛋白剔除:剔除检出率异常不具有代表性的蛋白质,减少其对后续标志物筛选流程的干扰,例如在50%的样本中存在缺失值的蛋白质。需注意,某些蛋白质可能会在特定组别特异性检出,虽然缺失值大于50%,但仍具有作为疾病生物标志物的潜力,应根据具体情况进行选择性关注。
3) 缺失值填补:许多机器学习算法无法处理缺失值,直接删除带有缺失值的行列可能删除过多数据,因此需要采用缺失值填补的方式尽可能的保留数据集信息。对于蛋白质组学数据常采用全局最小值进行填补,即以所有样本中最低的定量值作为检测的极限值替换所有缺失值。
4) 数据转换:z-score转换(也称标准化)是一种使数据具有标准正态分布特性的方法,有助于消除不同蛋白质之间由于量纲不同或量级差异带来的影响,使得数据更适合进行比较和进一步的统计分析。此外,z-score转换还可以提高对微小变化的敏感性,这对标志物的发现至关重要。
5)初步筛选:理想的生物标志物个数为5个左右,因此需要对鉴定到的蛋白质进行筛选,通常只保留样本间方差最大的前10%蛋白质,从而避免蛋白质表达量差距过小临床检测手段难以区分,无法实现临床转化的情况。
疾病生物标志物应具有根据蛋白质定量信息将样本分为不同类别的能力,如健康与疾病、疾病不同进程等,因此需要用到分类器模型。分类器模型的选择需要充足的知识储备支撑。而在这里,我们采用9种机器学习算法,包括逻辑回归、线性支持向量机(Linear SVM)、决策树、随机森林、自适应增强、梯度提升决策树、线性判别分析、极端梯度提升、轻量梯度提升机分类器模型,结合各算法构建出的模型的性能指标(主要为AUC)选择最佳的模型用于本次标志物筛选,避免在分类器模型选择上的困难。
选定分类器模型后就来到了正式的标志物筛选步骤,这一步需从众多蛋白质中挑选出最具区分能力的疾病生物标志物组合。
递归特征消除法(RFE)是一种用于选择最重要特征(蛋白质)的方法。它通过反复训练模型,每次剔除对模型贡献最小的特征,直到达到预定的特征数量或模型性能不再提高。
五折交叉验证是一种评估模型性能的方法。它将数据集分成五个部分,每次使用其中四部分训练模型,剩下的一部分测试模型,重复五次。这种方法可以准确评估模型在未知数据上的表现。
通过递归特征消除法的选择和五折交叉验证的性能评估,在反复的训练与淘汰中,最终筛选出最优的生物标志物组合,组合中包含的蛋白质一般不多于20个。如果组合中包含的蛋白质数量高于预期,还可根据蛋白质的生物学意义等背景知识对标志物进行进一步筛选,但需注意手动筛选后的标志物组合可能在预测性能上低于理论计算出的最优组合。
基于筛选出的潜在生物标志物建立预测模型,并使用五折交叉验证进行评估。
通过以上流程整合多个机器学习模型,利用最优模型筛选潜在生物标志物建立预测模型并进行效果评估,能够实现可靠的标志物筛选。此外,皇家马德里中文官网针对队列样本研究瓶颈,还独家推出预后标志物筛选、分子分型高级分析报告。步骤虽繁必不敢省人工,试剂虽贵必不敢减物力,之后的系列推送也将为大家详细解读预后标志物筛选与分子分型解决方案,敬请期待~
【参考文献】
[1] MANN M, KUMAR C, ZENG W F, et al. Artificial intelligence for proteomics and biomarker discovery [J]. Cell Syst, 2021, 12(8): 759-70.
[2] CARRASCO-ZANINI J, PIETZNER M, DAVITTE J, et al. Proteomic signatures improve risk prediction for common and rare diseases [J]. Nature Medicine, 2024.