线性模型选择与正则化
最后更新于
采用其他拟合方法替代最小二乘法的原因:其他方法有更高的预测准确率,更好的模型解释力
预测准确率
不满足n远大于p,则最小二乘可能过拟合
若p>n,最小二乘得到的系数估计结果不唯一,此时方差无穷大,无法使用最小二乘
改进:通过限制或缩减待估计系数,牺牲偏差的同时显著减小估计量方差
模型解释力
多元回归模型中,常存在多个变量与响应变量不存在线性关系的情况,增加复杂度却与模型无关
去除不相关特征可以得到更容易解释的模型,而最小二乘很难将系数置为0
改进:通过自动进行特征选择或变量选择,实现对无关变量的筛选
记零模型为 $M_0$
对于k=1,2,...,p: 拟合$C_p^k$个包含k个预测变量的模型,并且在这$C_p^k$个模型中选择RSS最小或$R^2$最大的模型
根据交叉验证预测误差、$C_p(AIC)$、$BIC$或调整$R^2$从这些模型中选一个最优模型
优点:相较于向前逐步选择和向后逐步选择,可以得到全局最优的模型。
缺点:p比较大时不具有计算可行性。
逐步选择包括向前逐步选择和向后逐步选择
向前逐步选择
记零模型为 $M_0$
对于k=1,2,...,p-1: 在前一个模型基础上增加一个变量,从p-k个模型中选择RSS最小或$R^2$最大的模型
然后根据交叉验证预测误差、$C_p(AIC)$、$BIC$或调整$R^2$从这些模型中选一个最优模型
向后逐步选择
记全模型为 $M_p$
对于k=p,p-1,...,1: 在前一个模型基础上减少一个变量,从k个模型中选择RSS最小或$R^2$最大的模型
然后根据交叉验证预测误差、$C_p(AIC)$、$BIC$或调整$R^2$从这些模型中选一个最优模型
注意,向后逐步选择只可以在 n > p 时可以使用,因为要拟合模型
$C_p$、$AIC$、$BIC$和调整$R^2$
其中,$\hat{σ}^2$ 是响应变量观测误差的方差 $\epsilon$ 的估计值。
d 表示选择的预测模型的数量。
复习一下:
与最小二乘相似,但增加了压缩惩罚
$\lambda$ ≥0是调节参数,$\lambda$ 越小光滑度越高,偏差越小方差越大
使用岭回归之前最好先对预测变量进行标准化
缺点是,子集选择、逐步选择通常会选择出变量的一个子集进行建模,岭回归最终包含全部p个变量。
$\lambda$ ≥0是调节参数,$\lambda$ 越小光滑度越高,偏差越小方差越大,当 $\lambda$ 足够大,某些系数会变成0,完成了变量选择。
Lasso回归等价于求解
岭回归等价于求解
将上式数形结合表示如图,黑色区域为≤s的区域,椭圆是RSS等高线
岭回归对应高斯分布的密度函数
Lasso对应拉普拉斯分布的密度函数
见第十章
偏最小二乘用响应变量Y的信息筛选新变量
拟合并不光滑的最小二乘模型在高维中作用很大:
正则或压缩在高维问题中至关重要
合适的调节参数对于得到好的预测非常关键
测试误差会随着数据维度的增加而增大,除非新增特征变量与响应变量确实相关