在前一章中,我们已经证明,对于一个有限的假设类,如果将 ERM 规则应用于足够大的训练样本(其大小独立于基础分布或标记函数),那么输出假设可能会是大致正确的。
更一般地,我们现在定义可能大致正确(PAC, Probably Approximately Correct)学习,一个假设类 H 是 PAC 可学习的,那么:
如果存在一个函数 mH:(0,1)2→N
并存在一个具有以下性质的学习算法:对于每个 ϵ,δ∈(0,1) 和每个在 X 上的分布 D,以及对于每个标记函数 f:X→{0,1},可实现假设成立
在运行学习算法时,需满足 m≥mH(ϵ,δ) 个由 D 生成并由 f 标记的独立同分布样例
那么,算法可以返回一个假设 h,使得以至少 1−δ 的概率,有 L(D,f)(h)≤ϵ
样本复杂度
其中,函数 mH:(0,1)2→N 决定了学习 H 的样本复杂度,也就是说,需要多少样本才能保证一个可能大致正确的解决方案。样本复杂度是关于精度 ϵ 和置信度 δ 的函数。它还取决于假设类 H 的属性(例如,对于一个有限类,我们已经表明样本复杂度取决于 H 大小的对数)
注意,如果 H 是 PAC 可学习的,那么有许多函数 mH 满足 PAC 可学习性的定义中的要求。因此,为了精确起见,我们将学习 H 的样本复杂度定义为“最小函数”,也就是说,对于任何 ϵ,δ,mH(ϵ,δ)是满足具有精度和置信度的 PAC 学习要求的最小整数。即:
mH(ϵ,δ)≤⌈ϵlog(∣H∣/δ)⌉ 去除可实现性假设
现在我们尝试泛化 PAC。之前,我们要求学习算法满足可实现性假设,对于一对数据分布 D 和标记函数 f 能够成功工作。现在,我们将放弃这一可实现性假设,允许函数存在误差,即不可知(agnostic) PAC 模型。
回忆一下,可实现性假设要求存在一个 h∗∈H,使得 Px∼D[h∗(x)=f(x)]=1
在木瓜的例子中,前者确定了木瓜的颜色和硬度落在某些颜色-硬度值域中的概率,后者表示某个颜色和硬度的木瓜是美味的概率
重新定义 true error:
empirical risk 因为只知道训练集,本来就不知道数据的分布,所以与原来一致:
其他形式的任务
我们之前的例子都是西瓜甜不甜,模型是二分类的,只需要给出 0/1。其他任务类型包括:
现在我们泛化模型损失loss:
例如,0-1 loss function:
方差损失:
一般损失的不可知 PAC 可学习性
我们通过用更灵活的数据-标签生成分布替代“目标标记函数”来放松可实现性假设。正式地,让 D 成为 X×Y 上的概率分布,分别代表域集合和标签集合(通常我们考虑 Y={0,1})。也就是说,D 是域点和标签的联合分布。这种分布可以视为由两部分组成:
未标记域点的分布 Dx(有时称为边缘分布)
每个域点的标签的条件概率 D((x,y)∣x)
LD(h)=defP(x,y)∼D[h(x)=y]=defD({(x,y):h(x)=y}) LS(h)=defm∣{i∈[m]:h(xi)=yi}∣ 我们的目标还是最小化LD(h),实际上,可以证明,最优的标签预测函数,即贝叶斯最优预测器 fD 是:
fD(x)={10if P[y=1∣x]≥1/2otherwise 没有比它错误率更低的分类器了,然而,由于不知道 D,没法得到它。我们现在可以给出不可知 PAC 可学习性的正式定义:
当存在一个函数 mH:(0,1)2→N 和一个学习算法,具有以下性质时,一个假设类 H 是不可知 PAC 可学习的:于每一个 ϵ,δ∈(0,1) 和每一个在 X×Y 上的分布 D,当在由 D 生成的 m≥mH(ϵ,δ) 个独立同分布的样本上运行学习算法时,该算法返回一个假设 h,使得在至少 1−δ 的概率下:
LD(h)≤h′∈HminLD(h′)+ϵ 回归,LD(h)=defE(x,y)∼D(h(x)−y)2
给定任意集合 H 和某个域 Z,令损失函数 ℓ 为从 H×Z 到非负实数集的任意函数(ℓ:H×Z→R+ )注意,对于预测问题,我们有 Z=X×Y。然而,我们对损失函数的概念超出了预测任务的范围,因此允许 X×Y 是任何示例域
我们现在定义风险函数(risk function)为一个分类器 h∈H 在概率分布D 下的期望损失:
LD(h)=defEz∼D[ℓ(h,z)] 同样,我们定义经验风险为给定样本 S={z1,...zm}∈Zm 的期望损失,即:
LS(h)=defm1i=1∑mℓ(h,zi) ℓ0−1(h,(x,y))=def{01if h(x)=yif h(x)=y ℓsq(h,(x,y))=def(h(x)−y)2 现在我们将上面两个章节结合起来,得出一个假设类 H 在一般损失函数 ℓ:H×Z→R+ 下是 Agnostic PAC Learnable的定义:
存在一个函数 mH:(0,1)2→N,和一个具有以下性质的学习算法:对于每个 ϵ,δ∈(0,1) 和在 Z 上的分布 D,当在由 D 生成的至少 m≥mH(ϵ,δ) 个独立同分布样本上运行学习算法时,算法返回h∈H,使得以至少 1−δ的概率,满足
LD(h)≤h′∈HminLD(h′)+ϵ 其中,LD(h)=EZ∼D[ℓ(h,z)]
可测性(Measurability)的说明:在上述定义中,对于每个 h∈H ,我们将函数 ℓ(h,⋅):Z→R+ 视为随机变量,并定义LD(h) 为该随机变量的期望值。为此,我们需要要求函数 ℓ(h,⋅) 是可测的。
形式上,我们假设存在一个 Z 的子集的 σ-代数,该代数上定义了概率 D,并且 R+ 中每个初始区间的原像(preimage)都在这个 σ-代数中。
在使用 0-1 损失的二分类情况下,σ-代数是关于 X×{0,1} 的,并且我们关于 ℓ 的假设等价于假设对于每个 h,集合 {(x,h(x)):x∈X} 在这个 σ-代数中。