💻
QMMMS的笔记
博客
  • QMMMS的笔记
  • agent
    • MCP的背景、原理和开发
    • Agent 历史与背景
    • Agentic Workflows
    • 环境检查与基础工具
    • Tool Call
    • 工具与运行时的值
    • temp
    • 处理 Tool Call error
    • trick
  • algorithm
    • 线性结构
    • 二叉树
    • 图
    • 查找
    • 排序
    • 动态规划
    • 优化方法
    • 数学
    • 迁移至Java
  • computer_composition
    • 系统总线
    • 存储器
    • 输入输出系统
    • 计算机的运算方法
    • 指令系统
    • 补充
  • computer_network
    • 引入
    • 应用层
    • 传输层
    • 网络层(数据平面)
    • 网络层(控制平面)
    • 链路层
    • 常见问答
    • 实验
  • database
    • SQL实战
    • 关系代数
    • 数据库设计
    • 规范化
    • 数据库基本概念
    • 查询原理
    • 数据库恢复技术
    • 并发控制
  • dev_tools
    • Git
    • Nginx
    • Spring
    • LangChain
    • PyTorch Cheat Sheet
    • MyBatis
    • MySQL Cheat Sheet
    • MySQL 补充
    • Redis
    • Docker
    • RocketMQ
    • Chrome
  • linux
    • Linux基础命令与使用
    • 文件与权限
    • 文件与目录操作
    • 权限属性高级
    • 命令与文件的查找
    • 文件压缩和打包
    • vim编辑器
    • shell变量
    • 命令补充
    • 数据流重定向
    • 管道命令
    • shell脚本
    • 用户管理
    • 用户间交流
    • 计划任务
    • 进程管理
    • 软件管理
    • 认识系统服务
    • 运维常用命令
    • 常用命令
  • llm
    • 大规模语言模型概述
    • 分布式训练概述
    • 有监督微调概述
    • 强化学习与LLM
    • LLM评估概述
    • 大模型应用
    • 理解大模型
    • 量化
    • 预训练
    • 上下文学习
  • machine_learning
    • 引入
    • 大致正确学习
    • 一致收敛
    • 偏差还是过拟合?
    • 可学习的充要条件
    • 非均匀可学习性
    • 计算复杂性
  • mathematics
    • 概率与统计基础
    • 线性代数基础
  • operating_system
    • 操作系统基本概念
    • 进程和线程
    • 同步,互斥与死锁
    • 内存管理
    • 文件系统
    • I/O系统
    • 保护与安全
    • 《现代操作系统》
  • statistical_learning
    • 统计学习引入
    • 线性回归
    • 分类
    • 重抽样方法
    • 线性模型选择与正则化
    • 非线性模型
    • 基于树的方法
    • 支持向量机
    • 无指导学习
    • 马尔科夫链和蒙托卡罗方法简明理解
    • R语言速查
  • deep_learning
    • basic_concepts
      • 逻辑回归与损失函数
      • 神经网络
      • 正则化、预处理、权重初始化
      • 优化算法
      • 机器学习策略
      • 复习:从计算机视觉的角度
      • 卷积神经网络
      • 深度卷积网络示例
      • 计算机视觉任务
      • 循环神经网络
      • 自然语言处理任务
      • 注意力
      • Transformers 家族
      • 显卡扫盲
      • 强化学习概述
    • semi-supervise
      • 半监督学习简介
      • Consistency Regularization
      • Proxy-label Methods
      • Holistic Methods
      • Generative Models
      • Graph-Based SSL
      • Self-Supervision for SSL
      • Other SSL methods
  • programming
    • cpp
      • STL
      • C++基础
      • 内存管理
      • 面向对象
    • java
      • 环境和介绍
      • 注释
      • String
      • 面向对象思想
      • Object
      • 包
      • 访问权限修饰符
      • 初始化块
      • 接口
      • 内部类
      • 注解
      • 枚举
      • 集合框架
      • List
      • Map
      • 泛型
      • 迭代
      • IO与流
      • 序列化
      • 异常
      • Lambda
      • Stream流
      • Socket
      • 缓冲
      • 命名规范
      • 拆箱装箱
      • 值传递
      • 深拷贝
      • 反射
      • JVM
      • 并发编程基础
    • python
      • 并发编程
      • 环境管理
  • software_engineering
    • basic_concepts
      • 系统分析与设计概述
      • 规划
      • 需求分析与原型设计
      • 项目管理
      • 建模
      • 数据库设计
      • 架构
      • 配置管理
      • 测试管理
      • 安全
      • 编码原则
      • 微服务
      • 补充内容
    • software_testing
      • CMMI基础
      • PPQA与SQA
      • 软件测试基础
      • 黑盒测试
      • 白盒测试
      • 集成测试
      • 系统测试
      • 测开面试补充
由 GitBook 提供支持
在本页
  • MixMatch
  • ReMixMatch
  • Distribution alignment
  • Augmentation Anchoring
  • FixMatch
在GitHub上编辑
  1. deep_learning
  2. semi-supervise

Holistic Methods

上一页Proxy-label Methods下一页Generative Models

最后更新于3个月前

整体方法 Holistic Methods 旨在从整体角度对数据和模型进行处理与优化,而不是孤立地看待有标签数据或无标签数据。它们通常会综合考虑所有可用数据(有标签的和无标签的)来构建模型,挖掘数据间的全局结构和潜在关系,以提升模型性能。

MixMatch

MixMatch 综合利用了增强标记的示例和带有代理标签的增强未标记示例,方法如下

  1. 数据增强。通过给定的一个变换(比如pytorch中的transform库,可以对图像进行随机裁剪、仿射变换。抑或是加入噪声干扰等等)。对于每个有标签的数据,只进行一次变换增强,对于每个无标签的数据,增强函数会重复使用K次,生成K个被增强的无标记样本 x~1,...,x~K\tilde{x}_1,...,\tilde{x}_Kx~1​,...,x~K​

  2. 猜测标签。这一步对无标签数据生成代理标签。对 K 个增强数据生成标签然后平均,即y^=1K∑k=1Ky^k\hat{y}=\frac{1}{K}\sum_{k=1}^K \hat{y}_ky^​=K1​∑k=1K​y^​k​,得到 (x~1,y^),…,(x~K,y^)(\tilde{x}_1,\hat y),…,(\tilde{x}_K,\hat{y})(x~1​,y^​),…,(x~K​,y^​)

  3. 锐化。为了让模型有更加自信的预测,使用较小的 T 计算 softmax (y^)k=(y^)k1T/∑k=1C(y^)k1T(\hat{y})_k = (\hat{y})_k^{\frac{1}{T}} / \sum_{k = 1}^{C}(\hat{y})_k^{\frac{1}{T}}(y^​)k​=(y^​)kT1​​/∑k=1C​(y^​)kT1​​

  4. Mixup。现在我们有两个增强数据集,有真实标签的 L\mathcal{L}L,和带伪标签的 U\mathcal{U}U (U\mathcal{U}U 的大小是原始批次的 K 倍,因为增强了 K 次)我们将这两个批次混合:

    1. 创建 W=Shuffle(Concat(L,U))\mathcal{W}=\text{Shuffle}(\text{Concat}(\mathcal{L},\mathcal{U}))W=Shuffle(Concat(L,U))

    2. 将 W\mathcal{W}W 分为两个批次:与 L\mathcal{L}L 大小相同的 W1\mathcal{W}_1W1​ 和与 U\mathcal{U}U 大小相同的 W2\mathcal{W}_2W2​

    3. MixUp,L′=MixUp(L,W1)\mathcal{L}'=\text{MixUp}(\mathcal{L}, \mathcal{W}_1)L′=MixUp(L,W1​)

    4. MixUp,U′=MixUp(U,W2)\mathcal{U}'=\text{MixUp}(\mathcal{U}, \mathcal{W}_2)U′=MixUp(U,W2​)

  5. 计算损失,训练 L=Ls+wLu=1∣L′∣∑x,y∈L′H(y,fθ(x))+w1∣U′∣∑x,y^∈U′dMSE(y^,fθ(x))\mathcal{L}=\mathcal{L}_s + w\mathcal{L}_u=\frac{1}{|\mathcal{L}'|}\sum_{x,y\in\mathcal{L}'}\mathrm{H}(y, f_{\theta}(x)) + w\frac{1}{|\mathcal{U}'|}\sum_{x,\hat{y}\in\mathcal{U}'}d_{\text{MSE}}(\hat{y}, f_{\theta}(x))L=Ls​+wLu​=∣L′∣1​∑x,y∈L′​H(y,fθ​(x))+w∣U′∣1​∑x,y^​∈U′​dMSE​(y^​,fθ​(x))

ReMixMatch

有两种技术来改进 MixMatch:分布对齐和增强锚定。

  • 分布对齐鼓励未标记数据上预测的边际分布接近真实标签的边际分布。

  • 增强锚定将的多个强增强版本输入到模型中,鼓励每个输出接近对应弱增强版本的预测。

Distribution alignment

Augmentation Anchoring

MixMatch仅仅是用了反转和裁剪作为增强策略。而ReMixMatch用强增强方法中的AutoAugment替代了Mixmatch策略。AutoAugment,简单的来说就是在一些代理任务上训练一些模型,然后对于每一个给定的图像,都可以自动选择增强的算法。

于是,我们得到了弱增强样本,和强增强样本。弱增强样本的伪标签,可以用来作为强增强样本的预测目标

FixMatch

FixMatch 提出了一种结合了一致性正则化和伪标记的 SSL 算法

弱增强包括翻转和移位。所有数据集上的图像都有 50% 的概率水平翻转,此外还会随机将图像在垂直和水平方向上平移最多 12.5%。

强增强使用 RandAugment 和 CTAugment,其中为每个样本随机选择给定的转换(例如,颜色反转、翻译、对比度调整等),并且转换的幅度是在训练期间优化的超参数

给定 unlabeled 示例 xxx 上的预测 fθ(x)f_{\theta}(x)fθ​(x),我们想让它对齐 ground-truth 分布。于是乘以一个因子,即基于labeled 样本统计的分布 p(y)p(y)p(y),除以基于 unlabeled 数据的模型预测的运行平均值 y~\tilde{y}y~​。然后Normalize归一化成概率

fθ(x)=Normalize(fθ(x)×p(y)/y~)f_{\theta}(x)=\text{Normalize}(f_{\theta}(x)\times p(y)/\tilde{y})fθ​(x)=Normalize(fθ​(x)×p(y)/y~​)
L=Ls+wLu=1∣L′∣∑x,y∈L′H(y,fθ(x))+w1∣U′∣∑x,y^∈U′H(y^,fθ(x))\mathcal{L}=\mathcal{L}_s + w\mathcal{L}_u=\frac{1}{|\mathcal{L}'|}\sum_{x,y\in\mathcal{L}'}\mathrm{H}(y, f_{\theta}(x)) + w\frac{1}{|\mathcal{U}'|}\sum_{x,\hat{y}\in\mathcal{U}'}\mathrm{H}(\hat{y}, f_{\theta}(x))L=Ls​+wLu​=∣L′∣1​x,y∈L′∑​H(y,fθ​(x))+w∣U′∣1​x,y^​∈U′∑​H(y^​,fθ​(x))

除了这些损失之外,还可以添加自监督损失。首先,通过以角度 r∼{0,90,180,270}r \sim \{0,90,180,270\}r∼{0,90,180,270} 旋转所有示例来创建一个新的未标记批次 U^′\hat{\mathcal{U}}'U^′ 。模型的分类层除了交叉熵,还预测旋转角度:

LSL=w′1∣U^′∣∑x,y^∈U^′H(y^,fθ(x))+λ1∣U^′∣∑x∈U^′H(r,fθ(x))\mathcal{L}_{SL}=w'\frac{1}{|\hat{\mathcal{U}}'|}\sum_{x,\hat{y}\in\hat{\mathcal{U}}'}\mathrm{H}(\hat{y}, f_{\theta}(x))+\lambda\frac{1}{|\hat{\mathcal{U}}'|}\sum_{x\in\hat{\mathcal{U}}'}\mathrm{H}(r, f_{\theta}(x))LSL​=w′∣U^′∣1​x,y^​∈U^′∑​H(y^​,fθ​(x))+λ∣U^′∣1​x∈U^′∑​H(r,fθ​(x))

对于无标签数据,就通过一个增强函数 AwA_wAw​ 来求其经过弱增强的样本

预测,如果最高类概率大于阈值 τ\tauτ ,则 label 被视为伪标签

使用强增强函数 AsA_sAs​ 生成 K 个强增强示例,将上面得到的伪标签分给这些强增强样本

Lu=w1K∣Du∣∑x∈Du∑i=1K1(max⁡(fθ(Aw(x)))≥τ)H(fθ(Aw(x)),fθ(As(x)))\mathcal{L}_u = w\frac{1}{K|\mathcal{D}_u|}\sum_{x\in\mathcal{D}_u}\sum_{i = 1}^{K}\mathbb{1}(\max(f_{\theta}(A_w(x)))\geq \tau)\mathrm{H}(f_{\theta}(A_w(x)), f_{\theta}(A_s(x)))Lu​=wK∣Du​∣1​x∈Du​∑​i=1∑K​1(max(fθ​(Aw​(x)))≥τ)H(fθ​(Aw​(x)),fθ​(As​(x)))