半监督学习简介

《An Overview of Deep Semi-Supervised Learning》

在传统的监督学习中，每一个training data都是由data和label构成的，但是一般情况下，只能获取大量的数据，标注需要大量成本。

半监督学习（Semi-supervised learning，SSL）的定义为：有标注的数据占比非常的小（只有1-10%）。半监督学习的目标是利用未标记的数据得到更好表现的模型。未标记的数据集可以为我们提供关于数据真实分布的一些额外信息

常见方法

一致性回归Consistency Regularization (a.k.a Consistency Training)基于假设：假设一个很小的现实扰动被加入这个没有被标记的数据中，这个数据的分类不会改变。可以训练模型对给定的未标记示例及其扰动版本进行一致的预测

代理标签方法Proxy-label Methods：用已经标记的训练集，基于一些启发式的方法来标注未标记的训练集，然后来生成一些额外的训练用例

一致性训练也可以被视为一种代理标签方法，有一个细微的差别，
代理标签方法将伪标签视为真实标签并计算交叉熵损失 $\text{Loss}=\text{CrossEntropy}(\text{pred-label}, \text{proxy-label})$
一致性训练不直接使用伪标签，而是强制两个预测一致，即最小化它们的差异 $\text{Loss}=\text{MSE}(p(x), p(x'))$

生成模型Generative Models：类似于监督设置，其中一个任务上的学习特征可以转移到其他下游任务。

例如，图像生成模型（如变分自编码器 VAE 或生成对抗网络 GAN）可以从大量的猫和狗的图像数据（包括有标签和无标签数据）中学习数据的分布特征。它能捕捉到图像中关于猫和狗的通用特征，如形状、颜色、纹理等信息。
通过学习这些特征，生成模型可以将其迁移到监督学习任务中。例如，生成模型学习到猫的耳朵形状、眼睛特征等关键特征，监督学习模型在对新图像分类时，就可以借助这些特征更准确地判断图像中的动物是猫还是狗。

基于图的方法Graph-Based Methods：已标记和未标记的数据点可以被视为图的节点，目标是通过利用两个节点和的相似性，将标签从已标记节点传播到未标记节点，这种相似性体现在两个节点之间的边的强度上

除了这些主要类别之外，在熵最小化方面也有一些自监督学习的工作。在熵最小化中，我们通过最小化预测的熵来迫使模型做出自信的预测。

半监督学习的假设

平滑性假设The Smoothness Assumption：如果两个点在高密度区域中（数据分布的概率密度比较大），且这两个点距离很近，那么他们的输出（标签）也会十分的接近。

聚类假设The Cluster Assumption：如果两个点在相同的聚类中，那么他们趋向于被分成同一类。

聚类假设也可以被视为低密度分离假设low-density separation assumption：决策边界应该位于低密度区域

流形假定The Manifold Assumption：高维的数据一般都会处于一个低维的流形中，可以尝试使用未标记数据找到一个低维表示，然后使用标记数据来解决简化后的任务

流形可以理解为高维空间中的低维分布，例如三维空间中的数据点，其实分布在一个二维曲面上

评估

评估 SSL 方法一般选择一个通常用于监督学习的数据集（例如 CIFAR-10、SVHN、ImageNet等），然后忽略大部分标签，从而得到一个小的有标签集合和一个更大的无标签集合。使用给定的半监督学习方法训练深度学习模型，并在原始测试集上针对不同的、标准化的有标签样本部分报告结果。为了使该程序适用于实际场景，一些改进建议如下：

为了对不同的自监督学习方法进行实际比较，它们必须共享相同的基础架构和其他实现细节（例如，超参数、参数初始化、数据增强、正则化等）
SSL 主要目标是获得比有监督方式更好的性能。因此提供一个强大的基线至关重要，该基线包括以有监督的方式在标记数据集上训练相同的模型，并调整超参数以报告完全有监督模型的最佳性能情况。
另一个基线，可以通过在大型有标签数据集上训练模型，然后在小型有标签数据集上进行微调来获得。即迁移的方法
考虑类别分布不匹配。在进行评估时，可以忽略有标签示例和无标签示例之间可能存在的分布不匹配，因为这两组数据都来自同一个数据集。然而，这种不匹配在实际应用中很普遍，在实际应用中需要解决这种差异的影响。
半监督学习中的一种常见做法是改变标记示例的数量，但以系统的方式改变未标记数据的大小以模拟现实场景，例如在相对较小的未标记数据集上进行训练，可以为半监督学习方法的有效性提供更多见解。
如果使用完全标注的数据集进行评估，验证集会比用于训练的标注集大得多。在这种情况下，广泛的超参数调整可能会导致对验证集的过拟合。相比之下，小的验证集限制了选择模型的能力，从而对半监督学习方法的性能进行更现实的评估

上一页semi-supervise 下一页Consistency Regularization

最后更新于6个月前

半监督学习简介

常见方法

半监督学习的假设

相关研究方向

主动学习

迁移学习和域适应

弱监督学习

从噪声标签中学习

评估