1.1.3 Lasso

对于高维数据,普通的变量筛选方法并不见效或者需要消耗高昂的计算机算力成本(时间成本)。另外,普通的变量筛选方法也难以避免模型的过度拟合,以及自变量间的多重共线性问题。

通过Lasso(套索回归),可以对估计出的系数进行限制,避免多重共线性的发生。有时甚至可以将系数缩减至0,以达到筛选变量的目的。同时由于在残差平方和RSS最小化的过程中,加入了正则化项,可以有效地避免过度拟合。

注意:Lasso可能会将存在共线性的自变量强行剔除。临床上很多指标都会存在共线性。一旦这些指标被剔除,就无法分析其与因变量Y的关系。