💻
QMMMS的笔记
博客
  • QMMMS的笔记
  • agent
    • MCP的背景、原理和开发
    • Agent 历史与背景
    • Agentic Workflows
    • 环境检查与基础工具
    • Tool Call
    • 工具与运行时的值
    • temp
    • 处理 Tool Call error
    • trick
  • algorithm
    • 线性结构
    • 二叉树
    • 图
    • 查找
    • 排序
    • 动态规划
    • 优化方法
    • 数学
    • 迁移至Java
  • computer_composition
    • 系统总线
    • 存储器
    • 输入输出系统
    • 计算机的运算方法
    • 指令系统
    • 补充
  • computer_network
    • 引入
    • 应用层
    • 传输层
    • 网络层(数据平面)
    • 网络层(控制平面)
    • 链路层
    • 常见问答
    • 实验
  • database
    • SQL实战
    • 关系代数
    • 数据库设计
    • 规范化
    • 数据库基本概念
    • 查询原理
    • 数据库恢复技术
    • 并发控制
  • dev_tools
    • Git
    • Nginx
    • Spring
    • LangChain
    • PyTorch Cheat Sheet
    • MyBatis
    • MySQL Cheat Sheet
    • MySQL 补充
    • Redis
    • Docker
    • RocketMQ
    • Chrome
  • linux
    • Linux基础命令与使用
    • 文件与权限
    • 文件与目录操作
    • 权限属性高级
    • 命令与文件的查找
    • 文件压缩和打包
    • vim编辑器
    • shell变量
    • 命令补充
    • 数据流重定向
    • 管道命令
    • shell脚本
    • 用户管理
    • 用户间交流
    • 计划任务
    • 进程管理
    • 软件管理
    • 认识系统服务
    • 运维常用命令
    • 常用命令
  • llm
    • 大规模语言模型概述
    • 分布式训练概述
    • 有监督微调概述
    • 强化学习与LLM
    • LLM评估概述
    • 大模型应用
    • 理解大模型
    • 量化
    • 预训练
    • 上下文学习
  • machine_learning
    • 引入
    • 大致正确学习
    • 一致收敛
    • 偏差还是过拟合?
    • 可学习的充要条件
    • 非均匀可学习性
    • 计算复杂性
  • mathematics
    • 概率与统计基础
    • 线性代数基础
  • operating_system
    • 操作系统基本概念
    • 进程和线程
    • 同步,互斥与死锁
    • 内存管理
    • 文件系统
    • I/O系统
    • 保护与安全
    • 《现代操作系统》
  • statistical_learning
    • 统计学习引入
    • 线性回归
    • 分类
    • 重抽样方法
    • 线性模型选择与正则化
    • 非线性模型
    • 基于树的方法
    • 支持向量机
    • 无指导学习
    • 马尔科夫链和蒙托卡罗方法简明理解
    • R语言速查
  • deep_learning
    • basic_concepts
      • 逻辑回归与损失函数
      • 神经网络
      • 正则化、预处理、权重初始化
      • 优化算法
      • 机器学习策略
      • 复习:从计算机视觉的角度
      • 卷积神经网络
      • 深度卷积网络示例
      • 计算机视觉任务
      • 循环神经网络
      • 自然语言处理任务
      • 注意力
      • Transformers 家族
      • 显卡扫盲
      • 强化学习概述
    • semi-supervise
      • 半监督学习简介
      • Consistency Regularization
      • Proxy-label Methods
      • Holistic Methods
      • Generative Models
      • Graph-Based SSL
      • Self-Supervision for SSL
      • Other SSL methods
  • programming
    • cpp
      • STL
      • C++基础
      • 内存管理
      • 面向对象
    • java
      • 环境和介绍
      • 注释
      • String
      • 面向对象思想
      • Object
      • 包
      • 访问权限修饰符
      • 初始化块
      • 接口
      • 内部类
      • 注解
      • 枚举
      • 集合框架
      • List
      • Map
      • 泛型
      • 迭代
      • IO与流
      • 序列化
      • 异常
      • Lambda
      • Stream流
      • Socket
      • 缓冲
      • 命名规范
      • 拆箱装箱
      • 值传递
      • 深拷贝
      • 反射
      • JVM
      • 并发编程基础
    • python
      • 并发编程
      • 环境管理
  • software_engineering
    • basic_concepts
      • 系统分析与设计概述
      • 规划
      • 需求分析与原型设计
      • 项目管理
      • 建模
      • 数据库设计
      • 架构
      • 配置管理
      • 测试管理
      • 安全
      • 编码原则
      • 微服务
      • 补充内容
    • software_testing
      • CMMI基础
      • PPQA与SQA
      • 软件测试基础
      • 黑盒测试
      • 白盒测试
      • 集成测试
      • 系统测试
      • 测开面试补充
由 GitBook 提供支持
在本页
在GitHub上编辑
  1. machine_learning

计算复杂性

计算资源在机器学习的实际应用中至关重要。我们将这两种资源称为样本复杂性和计算复杂性。之前,我们关注于样本复杂性,在本章中,我们将注意力转向计算复杂性。

回顾一下,给定域 𝑍、假设类 H\mathcal{H}H、损失函数 ℓ 和从 𝑍 中采样的训练集(根据未知分布 D\mathcal{D}D 独立同分布采样)。给定参数𝜖 、𝛿,算法应该输出一个假设 h ,学习算法使得以至少 1−𝛿 的概率满足:

LD(h)≤min⁡h′∈HLD(h′)+ϵL_\mathcal{D}(h) \leq \min_{h' \in \mathcal{H}} L_\mathcal{D}(h') + \epsilonLD​(h)≤h′∈Hmin​LD​(h′)+ϵ

在数据结构与算法中,我们以渐近方式分析算法的运行时间。例如,归并排序算法对n个项目的排序,其计算复杂性为 O(nlog⁡(n))O(n \log(n))O(nlog(n)),不过,在机器学习中算法,没有明确的“输入大小 n”的概念,因此不能直接使用大O来表示计算复杂性

可能有人会将输入大小 n 定义为算法的训练集的大小,但那样做意义不大。如果我们给算法一个更大的样本数量,远远超过学习问题的样本复杂性,算法可以简单地忽略额外样本。因此,较大的训练集并不会使学习问题更难,因此,随着训练集大小的增加,学习算法的运行时间不应增加

定义 8.1 (学习算法的计算复杂性) 给定函数 f:(0,1)2→Nf : (0,1)^2 \to \mathbb{N}f:(0,1)2→N,学习任务 (Z,H,ℓ)(Z, \mathcal{H}, \ell)(Z,H,ℓ) 和学习算法 A\mathcal{A}A, A\mathcal{A}A 在时间 𝑂(𝑓) 内解决了学习任务的定义是:对于在 𝑍 上的概率分布 D\mathcal{D}D ,输入 𝜖,𝛿∈(0,1) , A\mathcal{A}A 可以访问由 D\mathcal{D}D 独立同分布生成的样本时,

  • A\mathcal{A}A 在执行最多 cf(ϵ,δ)cf(\epsilon, \delta)cf(ϵ,δ) 次操作后终止,常数 𝑐 指代一个抽象的图灵机完成一次操作的时间

  • A\mathcal{A}A 的输出,记为 hAh_\mathcal{A}hA​ ,可以在执行最多 cf(ϵ,δ)cf(\epsilon, \delta)cf(ϵ,δ) 次操作后,用于预测新示例的标签

  • A\mathcal{A}A 的输出是大概正确的;即,以至少1−𝛿的概率,LD(hA)≤min⁡h′∈HLD(h′)+ϵL_\mathcal{D}(h_\mathcal{A}) \leq \min_{h' \in \mathcal{H}} L_\mathcal{D}(h') + \epsilonLD​(hA​)≤minh′∈H​LD​(h′)+ϵ

考虑一系列学习问题 (Zn,Hn,ℓn)n=1∞(Z_n, \mathcal{H}_n, \ell_n)_{n=1}^\infty(Zn​,Hn​,ℓn​)n=1∞​ ,A\mathcal{A}A 可用于解决这类问题,给定函数 g:N×(0,1)2→Ng : \mathbb{N} \times (0,1)^2 \to \mathbb{N}g:N×(0,1)2→N,A\mathcal{A}A 相对于前述序列的运行时间为 O(g)O(g)O(g) 的定义是:对于所有 𝑛 ,A\mathcal{A}A 在时间 O(fn)O(f_n)O(fn​) 内解决问题 (Zn,Hn,ℓn)(Z_n, \mathcal{H}_n, \ell_n)(Zn​,Hn​,ℓn​),其中 fn:(0,1)2→Nf_n : (0,1)^2 \to \mathbb{N}fn​:(0,1)2→N 为 fn(ϵ,δ)=g(n,ϵ,δ)f_n(\epsilon, \delta) = g(n, \epsilon, \delta)fn​(ϵ,δ)=g(n,ϵ,δ)

我们说 A\mathcal{A}A 是一个高效算法,即相对于序列 (Zn,Hn,ℓn)(Z_n, \mathcal{H}_n, \ell_n)(Zn​,Hn​,ℓn​) ,其运行时间为 O(p(n,1/ϵ,1/δ))O(p(n, 1/\epsilon, 1/\delta))O(p(n,1/ϵ,1/δ)) ,其中𝑝是某个多项式

从此定义中可以看出,一个学习问题是否能被有效解决,取决于如何将其分解为一系列特定的学习问题。

例如,考虑学习有限假设类的问题。如前几章所示,如果训练示例的数量为 mH(ϵ,δ)=log⁡(∣H∣/δ)/ϵ2m_{\mathcal{H}}(\epsilon, \delta) = \log(|\mathcal{H}|/\delta)/\epsilon^2mH​(ϵ,δ)=log(∣H∣/δ)/ϵ2,则保证ERM规则能(𝜖,𝛿)-学习 H\mathcal{H}H。假设模型对测试样本计算预测输出花费常数时间,可以通过对大小为 mH(ϵ,δ)m_{\mathcal{H}}(\epsilon, \delta)mH​(ϵ,δ) 的训练集对 H\mathcal{H}H 进行穷举搜索(就是遍历 H\mathcal{H}H 的每一个假设 h,在数据集上评估,看哪个假设的损失最小),在时间 O(∣H∣mH(ϵ,δ))O(|\mathcal{H}| m_{\mathcal{H}}(\epsilon, \delta))O(∣H∣mH​(ϵ,δ)) 内实现ERM规则。

对于任何固定的有限 H\mathcal{H}H ,穷举搜索算法在多项式时间内运行。此外,如果我们定义一个问题序列,其中Hn=n\mathcal{H}_n = nHn​=n,则穷举搜索仍然被认为是高效的。然而,如果我们定义一个问题序列,其中 Hn=2n\mathcal{H}_n = 2^nHn​=2n,则样本复杂性仍然是𝑛的多项式,但穷举搜索算法的计算复杂性随 𝑛 指数增长,因此效率低下

实现ERM规则

本节我们讨论ERM规则计算复杂性的几个实例。给定假设类 H\mathcal{H}H、域集合 𝑍 和损失函数 ℓ,相应的 ERMH\text{ERM}_\mathcal{H}ERMH​ 规则可以定义如下:

上一页非均匀可学习性下一页mathematics

最后更新于4个月前