线性模型选择与正则化

采用其他拟合方法替代最小二乘法的原因：其他方法有更高的预测准确率，更好的模型解释力

预测准确率

改进：通过限制或缩减待估计系数，牺牲偏差的同时显著减小估计量方差

模型解释力

改进：通过自动进行特征选择或变量选择，实现对无关变量的筛选

6.1 子集选择

逐步选择包括向前逐步选择和向后逐步选择

向前逐步选择

向后逐步选择

注意，向后逐步选择只可以在 n > p 时可以使用，因为要拟合模型

$C_p$、$AIC$、$BIC$和调整$R^2$

C_p=\frac{1}{n}(RSS+2d\hat{σ}^2)

AIC=\frac{1}{n\hat{σ}^2}(RSS+2d\hat{σ}^2)

BIC=\frac{1}{n}(RSS+\log(n)d\hat{σ}^2)

调整R^2=1-\frac{RSS/(n-d-1)}{TSS/(n-1)}

复习一下：
$RSS=\sum_{i=1}^n (y_i- \hat{y_i})^2$
$R^2=1-\frac{RSS}{TSS}$
$TSS=\sum_{i=1}^n (y_i-\bar{y})^2$

与最小二乘相似，但增加了压缩惩罚

\sum_{i=1}^{n}(y_i-β_0-\sum_{j=1}^{p}β_jx_{ij})^2+λ\sum_{j=1}^{p}β_j^2=RSS+\lambda \sum_{j=1}^{p}β_j^2

$\lambda$ ≥0是调节参数，$\lambda$ 越小光滑度越高，偏差越小方差越大

使用岭回归之前最好先对预测变量进行标准化

缺点是，子集选择、逐步选择通常会选择出变量的一个子集进行建模，岭回归最终包含全部p个变量。

\sum_{i=1}^{n}(y_i-β_0-\sum_{j=1}^{p}β_jx_{ij})^2+λ\sum_{j=1}^{p}|β_j|=RSS+ \lambda \sum_{j=1}^{p}|β_j|

$\lambda$ ≥0是调节参数，$\lambda$ 越小光滑度越高，偏差越小方差越大，当 $\lambda$ 足够大，某些系数会变成0，完成了变量选择。

Lasso回归等价于求解

\mathop{minimize}\limits_{β}\{\sum_{i=1}^{n}(y_i-β_0-\sum_{j=1}^{p}β_ix_{ij})^2\},\sum_{j=1}^{p}|β_j|≤s

岭回归等价于求解

\mathop{minimize}\limits_{β}\{\sum_{i=1}^{n}(y_i-β_0-\sum_{j=1}^{p}β_ix_{ij})^2\},\sum_{j=1}^{p}β_j^2≤s

将上式数形结合表示如图，黑色区域为≤s的区域，椭圆是RSS等高线

岭回归对应高斯分布的密度函数

Lasso对应拉普拉斯分布的密度函数

见第十章

偏最小二乘用响应变量Y的信息筛选新变量

拟合并不光滑的最小二乘模型在高维中作用很大：

最后更新于1年前