可学习的充要条件
最后更新于
最后更新于
复习一下,之前我们学过:
只要损失函数是有界的,那么具有一般损失函数的不可知PAC模型中的任何有限类都是可学习的。
假设类的样本复杂度上界由其大小的对数给出。
有限是可学习的充分条件,但是它是必要条件吗?换句话说,有界类是可学习的,那么无界类呢?事实上,不是必要条件,我们首先给出一个无限大小假设类的简单例子,该类是可学习的。
设 为实数上的阈值函数类,即 ,其中 是一个函数,使得 。显然, 是无限的。但是经过证明(证明略),可以得到结论:使用 ERM 规则,这个 是 PAC 可学习的,其样本复杂度
事实上,一种称为假设类的 VC 维度的性质,是充要条件。为了引出 VC 维度,我们先看两个概念。
定义 6.2( 在 上的限制) 设 为从 到 {0,1} 的函数类,设 。 在 上的限制 是可以从 派生的从 到 {0,1} 的函数集。即:
其中我们将每个从 到 {0,1} 的函数表示为 中的一个向量
定义 6.3(分割): 如果 在 上的限制是从 到 {0,1} 的所有函数集,那么我们说 分割集合 。即
例子:令 为实数上的阈值函数(类似阶梯函数,但只有一个阶梯)类。取集合 。如果 有 , 有 ,那么, 是从 到 {0,1} 的所有函数集 {(0), (1)}, 分割集合
那么取集合 (其中)呢?所有可能标记组合为 (0,0),(0,1),(1,0),(1,1),但是如果 ,那么由于阈值函数性质, 也必须是 0,因此, 不能实现所有组合。因此,集合 不被 分割
类似我想搜选择题的答案,搜题软件告诉我说:A、B、C、D 四个选项的可能性都是 25%
因此,推论 6.4 的直接结果是:
事实上,在本章后面将看到,定理6.6的反面也成立,即有限 VC 维度保证可学习性,
我们为二元分类任务陈述了基本定理。类似的结果适用于其他学习问题,例如绝对损失或平方损失的回归。然而,该定理并不适用于所有学习任务:
即使一致收敛性属性不成立,学习有时也是可能的
即使ERM 规则失败,但其他学习规则可以实现可学习性
回顾无免费午餐定理,当某些集合 被 分割时,对手(指找到一个 失败但有其他算法成功的方法)不受 的限制,因为可以基于从 到 {0,1} 的任何目标函数构造一个分布,同时保持可实现性假设:
推论 6.4 : 设 为从 到 {0,1} 的函数类,令 为训练集大小。假设存在大小为 的集合 ,被 分割。那么,对于任何学习算法 ,存在一个 到 {0,1} 的分布 ,和一个预测函数 ,使得 ,但至少有1/7的概率,使得
推论 6.4 告诉我们,如果 分割了大小为 的集合 ,那么我们无法通过 个样本学习 (这和无免费午餐定理很像),因为这些实例的标签不会提供有关 其余实例标签的信息,而由于 包含的可能太大(以致于能分割 ),无论剩下一半的标签是咋样的,都可以由 中的某个假设解释
定义 6.5(VC 维度): 假设类 的 VC 维度,记作 ,是可以被 分割的集合 的最大大小。如果 可以分割任意大的集合,我们称 具有无限 VC 维度。
定理 6.6 :设 是一个具有无限 VC 维度的类。那么, 不是 PAC 可学习的。
6.6 的证明 由于 具有无限 VC 维度,对于任何训练集大小 ,存在一个大小为 的被分割集合,因此根据推论 6.4,得出该结论。
要证明 ,我们需要证明:
存在一个大小为 d 的集合 C,被 分割
每个大小为 d+1 的集合 C 都不被 分割
例如上面提到的,阈值函数类,存在大小为1的集合 C,被 分割,每个大小为 2 的集合 C 都不被 分割,那么它的
再来一个例子,设 为实数上的区间类,即 ,其中
取集合 。那么, 分割集合 ,因为能取到 (0,0),(0,1),(1,0),(1,1),因此
现在取任意集合 并假设 。那么,(1,0,1) 不能通过区间获得,因此 不分割集合 ,
因此我们得出结论
再来一个例子,, ,可以证明
设 为有限类。那么显然,对于任意集合 C,我们有 ,因此,如果 ,C 不能被分割,这意味着
对于阈值函数类,如果 ,那么 ,而
定理 6.7(统计学习的基本定理)(证明略):设 为从 到 {0,1} 的函数的假设类,并让损失函数为 0-1 损失。那么,以下条件是等价的:
具有一致收敛性
任何 ERM 规则都是 的成功不可知 PAC 学习器
是不可知 PAC 可学习的
是 PAC 可学习的
任何 ERM 规则都是 的成功 PAC 学习器
具有有限 VC 维度