重抽样方法

5.0 基本问题

评价一个模型的表现过程称为模型评价。

为一个模型选择合适的光滑度的过程称为模型选择。

将可用的样本集随机分为两部分: 训练集和验证集（或保留集）。

模型在训练集上拟合，拟合后的模型用于预测验证集中的观察值的响应。产生的验证集的误差提供了测试误差的估计值。

例如随机分成两半:左侧为训练集，右侧为验证集。

缺点包括：

将数据随机分成 K 个大小（基本）相等的组。我们留出一组，如第k组，在剩下的 K - 1 组拟合出模型。然后用第k组测试模型得MSE。

对每一个k = 1, 2, …, K 重复上述步骤，然后将结果进行组合。

对测试均方误差的估计为：

CV_{(k)}=\frac{1}{k}\sum_{i=1}^k MSE_i

复习一下：
$MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{f}(x_i))^2$

在实践中，一般令 k=5或者10

当 k=n 时，变成“留一法”交叉验证LOOCV方法，即一个样本就是一组。但是LOOCV方法的缺点是：

尽管CV方法有时会低估测试均方误差的真值，但从CV曲线可以正确预测测试均方误差曲线的最小值点。

在分类问题中，错误率写作：

CV_{(n)}=\frac{1}{n} \sum_{i=1}^n I(y_i \neq \hat{y}_i)

自助法（Bootstrap）是一种灵活而强大的统计工具，可用于量化给定估计量或统计学习方法的不确定性。

bootstrap方法允许我们使用计算机来模拟获得新数据集的过程，这样我们就可以在不产生额外样本的情况下评估我们估计的变化性。

通过对原始数据集有放回重复抽样来获得不同的数据集。

“bootstrap数据集”中的每一个都是通过有放回抽样创建的，大小与我们的原始数据集相同。因此，一些观察结果可能会在给定的bootstrap数据集中出现不止一次，而一些则根本不会出现。

利用公式估计bootstrap估计的标准误差：

SE_B(\hat{\alpha})=\sqrt { \frac{1}{B-1} \sum_{r=1}^B ( \hat{\alpha}^{*r} - \bar{\hat{\alpha}}^* )^2 }

\bar{\hat{\alpha}}^*=\frac{1}{B}\sum_{r=1}^B\hat{\alpha}^{*r}

如果数据是一个时间序列，我们不能简单地对观测数据进行有放回抽样。相反，我们可以创建连续观察的区块，并对这些区块进行有放回抽取。然后我们将采样的块拼一起，以获得一个bootstrap数据集。

每个bootstrap样本都与原始数据有显著的重叠。大约三分之二的原始数据点出现在每个bootstrap 样本中。这将导致bootstrap严重低估真实的预测误差。

对数据集D采样 m 次生成训练集 D’，某个观测没被采到的概率是
$\lim_{m\to\inf}(1-\frac{1}{m})^m=\frac{1}{e}=0.368$

最后更新于1年前