引入
最后更新于
最后更新于
表示输入空间(input space),即数据的特征空间或样本空间。例如,在图像分类任务中, 可能是所有可能图像的集合
表示定义在 上的某个集合(event),也就是一个子集。例如,假设我们从图像集中提取出所有属于某个类别的图像,那么这些图像构成了集合
在许多情况下,我们令 作为一个事件,函数的表示形式为 。换句话说, 表示某个点是否属于
表示概率分布(distribution)。 表示某个点 的概率。我们也使用符号 来表达 , 表示概率(probability)
我们将一个预测规则 的错误率定义为:
也就是说,函数 的错误率是从分布 中随机选择一个 ,并且 的概率。
error 的其他别名:generalization error、risk、true error of h
由于 和 未知,我们只能使用训练损失:
其他别名:empirical error 、empirical risk
empirical 这个名字是怎么来的?我的理解是,因为训练集只是分布中的一小部分,我们学到的是经验,而不是真理。empirical error 也是只是真实 risk 的一种估计而已
我们的目标是尽量减少这个损失,即经验风险最小化ERM(Empirical Risk Minimization)
即使我们的训练集是独立同分布随机地从全集取出的,但仍然有所有训练数据都不具备代表性的情况
例如,如果要训练一个判断西瓜甜不甜的机器学习算法,但不幸我们买回来当训练数据集的西瓜全部不甜
数据集不具备代表性?我们很感兴趣。换句话说,我们想对抽出不具备代表性的 m 元实例组的概率进行上界估计。(因为数据不具备代表性,机器学习算法肯定会失败)
那么:
那么:
因此:
又因为:
在我们之前的定义中:
最终,我们找到了这个上界:
其中
减少过拟合的一种方式是使用归纳偏好(Inductive Bias)。预先设定一个假设类 ,每个 是一个将 映射到 的函数。对于给定的类 和一个训练样本 ,使用经验风险最小化(ERM)的机器学习算法从 中选择一个在 上误差最小的预测函数
通过限制机器学习算法在哪一类上选择预测函数,我们引入了先验知识。找到一个合适的函数类 成为了另一个问题。
我们设置一个准确度参数 ,定义成功的机器学习算法为 ,反之则失败。再令 为训练集,那么这个“上界”为:
坏假设 是:
这些误导的样本 是:
即对于每个 ,存在一个 “坏” 假设 ,在 上看起来像是一个 “好” 假设。即:
由于 ,那么:
又因为 ,所以:
用图来解释,大圆中的每个点代表一个可能的实例 m 元组。每个彩色椭圆表示“误导”实例 m 元组的集合,会导致某个“糟糕”的预测器 。每当遇到误导性的训练集 S 时,ERM 可能会发生过拟合。
也就是说,对于某些 ,我们有 。上界保证了对于每个单独的糟糕假设 ,最多有 比例的训练集会产生误导。特别地,m 越大,这些彩色椭圆的大小就越小。并集界限形式化了这样一个事实:对于某些 (即,集合 M 中的训练集)而言,误导性训练集的区域大小最多是这些彩色椭圆区域的总和。因此,它被 乘以最大椭圆大小所界定。任何椭圆外的样本 S 都不会导致 ERM 规则过拟合。
由此产出的推论为,当我们取一个足够大的 m,在一个有限的假设类 上,我们有 的概率,认为 的损失小于