LASSO Cox回归模型进行特征基因筛选
简介
LASSO(Least Absolute Shrinkage and Selection Operator),最小绝对收敛和选择算子,在最小二乘基础上增加了一个惩罚项对参数进行压缩,当参数缩小到小于一个阈值的时候,就令它变为0,从而筛选出对因变量影响较大的自变量并计算出相应的回归系数,最终能得到一个比较精简的模型。LASSO方法在处理存在多重共线性的样本数据时有明显的优势。
LASSO可以处理多分类,二分类等,这里根据前期(例如单因素cox分析)挑选的N个基因,生存信息(生存时间,生存状态0或者1),进一步缩减基因数,构建Lasso Cox回归模型。调用glmnet R包。
数据说明
输入:数据包括3+N列:第1列是样品,第2列是生存时间,第3列是生存状态(0:生,1:死),第4+列为基因表达。
输出:Partial-likelihood deviance (偏似然偏差) 随Log(λ)变化曲线,图中给出了两个惩罚值λ:lambda.min(左侧垂直线):当MSE (均方误差) 最小时的λ值;lambda.1st(右侧垂直线):是在lambda.min值的一个方差范围内得到的最简单模型的λ值。一般选lambda.min。
lambda vs coef图:随着λ增加,各变量(基因)的回归系数β逐渐减少,直至到0。图中一条线代表一个变量的回归系数β值的变化,x轴下方的数字为惩罚值(lambda),x轴上方为在该值下剩余的变量个数。第一张图选择lambda,第二张图lambda vs coef的变化,在选中的lambda处画条垂直线,特征在线右侧,并且lambda不为0的特征就是LASSO筛选留下来的特征。
正的coefficients表明变量与高风险相关,负值表明变量与低风险相关。
注意:设置了随机因子,否则每次运行结果不一样
论文例子
A prognostic nomogram based on LASSO Cox regression in patients with alphafetoprotein-negative hepatocellular carcinoma following non-surgical therapy Fig 1.
如何引用?
建议直接写网址。4400+篇
google学术,3700+篇
知网学术
正式引用:Tang D, Chen M, Huang X, Zhang G, Zeng L, Zhang G, Wu S, Wang Y.
SRplot: A free online platform for data visualization and graphing. PLoS One. 2023 Nov 9;18(11):e0294236. doi: 10.1371/journal.pone.0294236. PMID: 37943830.
方法章节:Heatmap was plotted by https://www.bioinformatics.com.cn (last accessed on 10 Oct 2024), an online platform for data analysis and visualization.
致谢章节:We thank Mingjie Chen (Shanghai NewCore Biotechnology Co., Ltd.) for providing data analysis and visualization support.