大致正确学习
在前一章中,我们已经证明,对于一个有限的假设类,如果将 ERM 规则应用于足够大的训练样本(其大小独立于基础分布或标记函数),那么输出假设可能会是大致正确的。
更一般地,我们现在定义可能大致正确(PAC, Probably Approximately Correct)学习,一个假设类 是 PAC 可学习的,那么:
如果存在一个函数
并存在一个具有以下性质的学习算法:对于每个 和每个在 上的分布 ,以及对于每个标记函数 ,可实现假设成立
在运行学习算法时,需满足 个由 生成并由 f 标记的独立同分布样例
那么,算法可以返回一个假设 ,使得以至少 的概率,有
样本复杂度
其中,函数 决定了学习 的样本复杂度,也就是说,需要多少样本才能保证一个可能大致正确的解决方案。样本复杂度是关于精度 和置信度 的函数。它还取决于假设类 的属性(例如,对于一个有限类,我们已经表明样本复杂度取决于 大小的对数)
注意,如果 是 PAC 可学习的,那么有许多函数 满足 PAC 可学习性的定义中的要求。因此,为了精确起见,我们将学习 的样本复杂度定义为“最小函数”,也就是说,对于任何 ,是满足具有精度和置信度的 PAC 学习要求的最小整数。即:
去除可实现性假设
现在我们尝试泛化 PAC。之前,我们要求学习算法满足可实现性假设,对于一对数据分布 和标记函数 f 能够成功工作。现在,我们将放弃这一可实现性假设,允许函数存在误差,即不可知(agnostic) PAC 模型。
回忆一下,可实现性假设要求存在一个 ,使得
我们通过用更灵活的数据-标签生成分布替代“目标标记函数”来放松可实现性假设。正式地,让 成为 上的概率分布,分别代表域集合和标签集合(通常我们考虑 )。也就是说, 是域点和标签的联合分布。这种分布可以视为由两部分组成:
未标记域点的分布 (有时称为边缘分布)
每个域点的标签的条件概率
在木瓜的例子中,前者确定了木瓜的颜色和硬度落在某些颜色-硬度值域中的概率,后者表示某个颜色和硬度的木瓜是美味的概率
重新定义 true error:
empirical risk 因为只知道训练集,本来就不知道数据的分布,所以与原来一致:
我们的目标还是最小化,实际上,可以证明,最优的标签预测函数,即贝叶斯最优预测器 是:
没有比它错误率更低的分类器了,然而,由于不知道 ,没法得到它。我们现在可以给出不可知 PAC 可学习性的正式定义:
当存在一个函数 和一个学习算法,具有以下性质时,一个假设类 是不可知 PAC 可学习的:于每一个 和每一个在 上的分布 ,当在由 生成的 个独立同分布的样本上运行学习算法时,该算法返回一个假设 ,使得在至少 的概率下:
其他形式的任务
我们之前的例子都是西瓜甜不甜,模型是二分类的,只需要给出 0/1。其他任务类型包括:
多分类
回归,
现在我们泛化模型损失loss:
给定任意集合 和某个域 ,令损失函数 为从 到非负实数集的任意函数( )注意,对于预测问题,我们有 。然而,我们对损失函数的概念超出了预测任务的范围,因此允许 是任何示例域
我们现在定义风险函数(risk function)为一个分类器 在概率分布 下的期望损失:
同样,我们定义经验风险为给定样本 的期望损失,即:
例如,0-1 loss function:
方差损失:
一般损失的不可知 PAC 可学习性
现在我们将上面两个章节结合起来,得出一个假设类 在一般损失函数 下是 Agnostic PAC Learnable的定义:
存在一个函数 ,和一个具有以下性质的学习算法:对于每个 和在 上的分布 ,当在由 生成的至少 个独立同分布样本上运行学习算法时,算法返回,使得以至少 的概率,满足
其中,
可测性(Measurability)的说明:在上述定义中,对于每个 ,我们将函数 视为随机变量,并定义 为该随机变量的期望值。为此,我们需要要求函数 是可测的。
形式上,我们假设存在一个 的子集的 -代数,该代数上定义了概率 ,并且 中每个初始区间的原像(preimage)都在这个 -代数中。
在使用 0-1 损失的二分类情况下,-代数是关于 的,并且我们关于 的假设等价于假设对于每个 ,集合 在这个 -代数中。
最后更新于