临床预后评估在医学研究与临床实践中占据举足轻重的地位。预后生物标志物指在特定人群中表明未来临床事件(如疾病发生、进展等)发生的可能性的生化指标,对患者的治疗方案选择、疾病进程管理、治疗效果评估起到至关重要的作用。利用临床队列样本数据与患者信息寻找有价值的预后生物标志物,尤其是基于蛋白质组数据进行标志物发现,一直是疾病研究的一大热点。
疾病生物标志物还有哪些类型?为什么选择蛋白质组?样本类型如何选择?数据预处理包括哪些内容?点击这里带您回顾~【>>>点击回顾疾病生物标志物干货】
下面就让我们一起来看看基于机器学习的预后生物标志物筛选是如何实现的吧~
预后生物标志物的发现需要以患者样本(不区分组别,一般为疾病组织或血液)及患者预后信息(生存时间、复发时间等)为基础,因此除了患者样本的收集,还要密切关注对患者的随访,收集患者的预后信息,并确保入组患者的预后存在一定差异。
此外,影响患者预后的因素众多,包括疾病分期、肿瘤大小等疾病因素,治疗方案、治疗时间等治疗因素,性别、年龄、体重等生物学因素,以及抽烟、饮酒、职业暴露等环境因素。这些因素都将对预后标志物的筛选产生干扰,因而应尽量在患者信息收集时同步收集,并在预后标志物筛选过程中考虑将临床信息纳入为区分患者预后的风险因素。
Cox比例风险模型是一种用于分析单个或多个因素(如蛋白质表达水平、年龄、性别、疾病阶段等)如何影响一个事件(如疾病的复发、患者的死亡等)发生的时间的半参数模型,又称Cox回归。由于该模型能够同时考虑多个因素,尤其适用于医学研究面临的复杂场景。具体而言,Cox模型专注于分析事件发生时间的风险比例,能够衡量在任一特定时刻发生某事件的可能性与在其它时刻该事件的可能性相比是如何变化的。
预后生物标志物筛选的第一步,便是使用经过预处理的患者样本蛋白质组学数据与对应的患者生存信息建立单因素Cox风险比例模型,一般以P-value<0.01为条件筛选出表达水平与患者预后相关的蛋白质。
LASSO回归模型是一种线性回归的改进算法,该算法在普通线性回归的基础上添加了一个惩罚项——L1惩罚,从而实现对模型有重要影响的变量的选择。具体而言,L1惩罚能够逐步缩小对结果影响较小的因素的权重,直至权重为零时即将该因素剔除,最终目标是最小化损失函数和L1范数(参数向量中各个参数绝对值之和)的组合,从而减少不必要的复杂性,更清晰地识别出对预后预测真正重要的关键因素,简化模型并提高预测准确性。
LASSO回归中Coef随Log(λ)变化曲线图
随着收缩算子λ(横坐标)的增大,各个协变量(风险因素)的回归系数coef(纵坐标)逐渐趋向于0。有的变量迅速到0,表明此变量对模型贡献较小;有的变量直到最后才趋于0,表明此变量对模型贡献较大。
预后生物标志物筛选的第二步,便是使用Cox回归筛选出的预后相关蛋白建立LASSO回归模型,并采用十折交叉验证,即将患者样本数据集分成十个部分,每次使用其中九部分训练模型,剩下的一部分测试模型,重复十次,从而评估模型在未知数据上的表现。通过反复的训练与淘汰,最终筛选出最优的预后生物标志物组合。
十折交叉验证中MSE随Log(λ)变化曲线图
通过十折交叉验证计算出的均方误差(MSE)选择最佳的收缩算子λ(横坐标)值。MSE越小代表模型性能越好,红色虚线为均方误差最小时对应的λ值,该λ值对应的LASSO回归中回归系数coef不为0的蛋白质(参见上一张图)即为最终预后生物标志物组合蛋白。
预后生物标志物组合中包含的蛋白质一般不多于20个。如果组合中包含的蛋白质数量高于预期,还可根据蛋白质的生物学意义等背景知识对标志物进行进一步筛选,但需注意手动筛选后的标志物组合可能在预测性能上低于理论计算出的最优组合。
使用最终的预后生物标志物组合建立风险预测模型,对于每个患者,风险评分(Risk score)的计算公式如下:
公式中,coef对应LASSO回归中Coef列的值,Protein对应蛋白质的表达量。
以所有患者风险评分的中位数作为阈值,将患者划分为高风险与低风险两组,通过Log-rank检验验证潜在预后生物标志物组合对样本预后风险的划分能力,并绘制生存曲线。
生存曲线:横坐标为生存时间,纵坐标为生存率。
在最后的模型构建中,也可纳入有预后意义的临床风险因素(如疾病分期、性别、年龄等)与蛋白质预后生物预后标志物共同构建模型,并进行模型性能评估,实现与临床信息的关联。
通过以上流程,能够实现可靠的预后生物标志物筛选。
此外,k8凯发官网针对队列样本研究瓶颈,还独家推出疾病生物标志物筛选、分子分型高级分析报告。步骤虽繁必不敢省人工,试剂虽贵必不敢减物力,疾病生物标志物解决方案已于昨天与大家见面,之后的推送也将为大家详细解读分子分型解决方案,敬请期待~