符号
X 表示输入空间(input space),即数据的特征空间或样本空间。例如,在图像分类任务中,X 可能是所有可能图像的集合
A⊆X 表示定义在 X 上的某个集合(event),也就是一个子集。例如,假设我们从图像集中提取出所有属于某个类别的图像,那么这些图像构成了集合 A
在许多情况下,我们令 A 作为一个事件,函数的表示形式为 π:X→{0,1} 。换句话说,A={x∈X:π(x)=1} 表示某个点是否属于 A
D 表示概率分布(distribution)。 D(A) 表示某个点 x∈A 的概率。我们也使用符号 Px∼D[π(x)] 来表达 D(A),P 表示概率(probability)
错误率
我们将一个预测规则 h:X→Y 的错误率定义为:
LD,f(h)≜Px∼D[h(x)=f(x)]≜D({x:h(x)=f(x)}) 也就是说,函数 h 的错误率是从分布 D 中随机选择一个 x,并且 h(x)=f(x) 的概率。
error 的其他别名:generalization error、risk、true error of h
由于 D 和 f 未知,我们只能使用训练损失:
LS(h)≜m∣{i∈[m]:h(xi)=yi}∣ 其中 [m]={1,…,m}
其他别名:empirical error 、empirical risk
empirical 这个名字是怎么来的?我的理解是,因为训练集只是分布中的一小部分,我们学到的是经验,而不是真理。empirical error 也是只是真实 risk 的一种估计而已
我们的目标是尽量减少这个损失,即经验风险最小化ERM(Empirical Risk Minimization)
使用归纳偏好
减少过拟合的一种方式是使用归纳偏好(Inductive Bias)。预先设定一个假设类 H ,每个 h∈H 是一个将 X 映射到 Y 的函数。对于给定的类 H 和一个训练样本 S,使用经验风险最小化(ERM)的机器学习算法从 H 中选择一个在 S 上误差最小的预测函数 h∈H
ERMH(S)∈argh∈HminLS(h) 通过限制机器学习算法在哪一类上选择预测函数,我们引入了先验知识。找到一个合适的函数类 H 成为了另一个问题。
差的训练样本
即使我们的训练集是独立同分布随机地从全集取出的,但仍然有所有训练数据都不具备代表性的情况
例如,如果要训练一个判断西瓜甜不甜的机器学习算法,但不幸我们买回来当训练数据集的西瓜全部不甜
数据集不具备代表性?我们很感兴趣。换句话说,我们想对抽出不具备代表性的 m 元实例组的概率进行上界估计。(因为数据不具备代表性,机器学习算法肯定会失败)
我们设置一个准确度参数 ϵ,定义成功的机器学习算法为 LD,f(h)≤ϵ ,反之则失败。再令S∣x=(x1,...xm) 为训练集,那么这个“上界”为:
Dm({S∣x:LD,f(h)>ϵ}) 坏假设 HB 是:
HB={h∈H:L(D,f)(h)>ϵ} 这些误导的样本 M 是:
M={S∣x:∃h∈HB,LS(h)=0} 即对于每个 S∣x∈M,存在一个 “坏” 假设 h∈HB,在 S∣x 上看起来像是一个 “好” 假设。即:
LS(h)=0 那么:
{S∣x:L(D,n)(hs)>ϵ}⊆M 那么:
M=h∈HB⋃{S∣x:LS(h)=0} 因此:
Dm({S∣x:L(D,f)(hS)>ϵ})≤Dm(M)=Dm(h∈HB⋃{S∣x:LS(h)=0}) 由于 D(A∪B)≤D(A)+D(B),那么:
Dm({S∣x:L(D,f)(hS)>ϵ})≤h∈HB∑Dm({S∣x:LS(h)=0}) 又因为:
Dm({S∣x:LS(h)=0})=Dm({S∣x:∀i,h(xi)=f(xi)})=i=1∏mD({xi:h(xi)=f(xi)}) 在我们之前的定义中:
D({xi:h(xi)=yi})=1−L(D,f)(h)≤1−ϵ 又因为 1−ϵ≤e−ϵ,所以:
Dm({S∣x:LS(h)=0})≤(1−ϵ)m≤e−ϵm 最终,我们找到了这个上界:
Dm({S∣x:L(D,f)(hS)>ϵ})≤∣HB∣e−ϵm≤∣H∣e−ϵm 用图来解释,大圆中的每个点代表一个可能的实例 m 元组。每个彩色椭圆表示“误导”实例 m 元组的集合,会导致某个“糟糕”的预测器 h∈HB 。每当遇到误导性的训练集 S 时,ERM 可能会发生过拟合。
也就是说,对于某些 h∈HB,我们有 LS(h)=0。上界保证了对于每个单独的糟糕假设 h∈HB,最多有 (1−ϵ)m 比例的训练集会产生误导。特别地,m 越大,这些彩色椭圆的大小就越小。并集界限形式化了这样一个事实:对于某些 h∈HB(即,集合 M 中的训练集)而言,误导性训练集的区域大小最多是这些彩色椭圆区域的总和。因此,它被 ∣HB∣ 乘以最大椭圆大小所界定。任何椭圆外的样本 S 都不会导致 ERM 规则过拟合。
由此产出的推论为,当我们取一个足够大的 m,在一个有限的假设类 H上,我们有 1−δ 的概率,认为 ERMH 的损失小于 ϵ