💻
QMMMS的笔记
博客
  • QMMMS的笔记
  • agent
    • MCP的背景、原理和开发
    • Agent 历史与背景
    • Agentic Workflows
    • 环境检查与基础工具
    • Tool Call
    • 工具与运行时的值
    • temp
    • 处理 Tool Call error
    • trick
  • algorithm
    • 线性结构
    • 二叉树
    • 图
    • 查找
    • 排序
    • 动态规划
    • 优化方法
    • 数学
    • 迁移至Java
  • computer_composition
    • 系统总线
    • 存储器
    • 输入输出系统
    • 计算机的运算方法
    • 指令系统
    • 补充
  • computer_network
    • 引入
    • 应用层
    • 传输层
    • 网络层(数据平面)
    • 网络层(控制平面)
    • 链路层
    • 常见问答
    • 实验
  • database
    • SQL实战
    • 关系代数
    • 数据库设计
    • 规范化
    • 数据库基本概念
    • 查询原理
    • 数据库恢复技术
    • 并发控制
  • dev_tools
    • Git
    • Nginx
    • Spring
    • LangChain
    • PyTorch Cheat Sheet
    • MyBatis
    • MySQL Cheat Sheet
    • MySQL 补充
    • Redis
    • Docker
    • RocketMQ
    • Chrome
  • linux
    • Linux基础命令与使用
    • 文件与权限
    • 文件与目录操作
    • 权限属性高级
    • 命令与文件的查找
    • 文件压缩和打包
    • vim编辑器
    • shell变量
    • 命令补充
    • 数据流重定向
    • 管道命令
    • shell脚本
    • 用户管理
    • 用户间交流
    • 计划任务
    • 进程管理
    • 软件管理
    • 认识系统服务
    • 运维常用命令
    • 常用命令
  • llm
    • 大规模语言模型概述
    • 分布式训练概述
    • 有监督微调概述
    • 强化学习与LLM
    • LLM评估概述
    • 大模型应用
    • 理解大模型
    • 量化
    • 预训练
    • 上下文学习
  • machine_learning
    • 引入
    • 大致正确学习
    • 一致收敛
    • 偏差还是过拟合?
    • 可学习的充要条件
    • 非均匀可学习性
    • 计算复杂性
  • mathematics
    • 概率与统计基础
    • 线性代数基础
  • operating_system
    • 操作系统基本概念
    • 进程和线程
    • 同步,互斥与死锁
    • 内存管理
    • 文件系统
    • I/O系统
    • 保护与安全
    • 《现代操作系统》
  • statistical_learning
    • 统计学习引入
    • 线性回归
    • 分类
    • 重抽样方法
    • 线性模型选择与正则化
    • 非线性模型
    • 基于树的方法
    • 支持向量机
    • 无指导学习
    • 马尔科夫链和蒙托卡罗方法简明理解
    • R语言速查
  • deep_learning
    • basic_concepts
      • 逻辑回归与损失函数
      • 神经网络
      • 正则化、预处理、权重初始化
      • 优化算法
      • 机器学习策略
      • 复习:从计算机视觉的角度
      • 卷积神经网络
      • 深度卷积网络示例
      • 计算机视觉任务
      • 循环神经网络
      • 自然语言处理任务
      • 注意力
      • Transformers 家族
      • 显卡扫盲
      • 强化学习概述
    • semi-supervise
      • 半监督学习简介
      • Consistency Regularization
      • Proxy-label Methods
      • Holistic Methods
      • Generative Models
      • Graph-Based SSL
      • Self-Supervision for SSL
      • Other SSL methods
  • programming
    • cpp
      • STL
      • C++基础
      • 内存管理
      • 面向对象
    • java
      • 环境和介绍
      • 注释
      • String
      • 面向对象思想
      • Object
      • 包
      • 访问权限修饰符
      • 初始化块
      • 接口
      • 内部类
      • 注解
      • 枚举
      • 集合框架
      • List
      • Map
      • 泛型
      • 迭代
      • IO与流
      • 序列化
      • 异常
      • Lambda
      • Stream流
      • Socket
      • 缓冲
      • 命名规范
      • 拆箱装箱
      • 值传递
      • 深拷贝
      • 反射
      • JVM
      • 并发编程基础
    • python
      • 并发编程
      • 环境管理
  • software_engineering
    • basic_concepts
      • 系统分析与设计概述
      • 规划
      • 需求分析与原型设计
      • 项目管理
      • 建模
      • 数据库设计
      • 架构
      • 配置管理
      • 测试管理
      • 安全
      • 编码原则
      • 微服务
      • 补充内容
    • software_testing
      • CMMI基础
      • PPQA与SQA
      • 软件测试基础
      • 黑盒测试
      • 白盒测试
      • 集成测试
      • 系统测试
      • 测开面试补充
由 GitBook 提供支持
在本页
  • 最大间隔分类器
  • 超平面
  • 最大间隔超平面
  • 支持向量分类器
  • 支持向量
  • 非线性决策边界分类
  • 支持向量机
  • 线性支持向量分类器
  • 自由度为d的多项式核函数
  • 径向核函数
  • 使用核函数的优势
  • 多分类的SVM
  • 一对一
  • 一对其余
在GitHub上编辑
  1. statistical_learning

支持向量机

上一页基于树的方法下一页无指导学习

最后更新于10个月前

最大间隔分类器

超平面

p维的超平面是p−1维的平面仿射子空间

比如二维超平面:

β0+β1X1+β2X2=0β_0+β_1X_1+β_2X_2=0β0​+β1​X1​+β2​X2​=0

p维超平面:

β0+β1X1+β2X2+...+βpXp=0β_0+β_1X_1+β_2X_2+...+β_pX_p=0β0​+β1​X1​+β2​X2​+...+βp​Xp​=0

使用超平面分类数据点

β0+β1X1+β2X2+...+βpXp>0,如果yi=1β_0+β_1X_1+β_2X_2+...+β_pX_p>0,如果y_i=1β0​+β1​X1​+β2​X2​+...+βp​Xp​>0,如果yi​=1

等价于

最大间隔超平面

某种意义上说是能够插入两个类别之间的最宽的平板的中线

构建最大间隔分类器,就是如下优化问题的解

满足

$y_i(β_0+β_1X_{i1}+β_2X_{i2}+...+β_pX_{ip})$ 在加上 $\sum_{j=1}^{p}β_j^2=1$ 可以证明为第 i 个观测到超平面的距离

M大于0,代表了超平面的间隔,优化问题就是找出最大化M时的$β_0,β_1,...,β_p$

可能存在线性不可分的情况

支持向量分类器

为了提高分类器对单个观测分类的稳定性以及使大部分训练观测更好地被分类,允许被误分类

满足

C是非负的调节参数,C增大,允许穿过间隔的点就更多,方差减小偏差增大

$ε_i$是松弛变量,允许小部分观测可以落在间隔错误或是超平面错误的一侧

支持向量

刚好落在间隔上和落在间隔错误一侧的观测叫做支持向量,只有这些观测会影响支持向量分类器

非线性决策边界分类

如果预测变量和响应变量之间的关系是非线性的,可以使用预测变量的高阶多项式来扩大特征空间

比如可以使用2p个特征(多包含了二次项)来得到支持向量分类器:

满足

支持向量机

是支持向量分类器的一个扩展,使用核函数来扩大特征空间

内积:两个p维向量a和b的内积定义为

线性支持向量分类器

线性支持向量分类器可以描述为

式子有n个参数$α_i$,每个训练观测对应一个参数

为了估计$α_i$和$β_0$,只需要所有训练观测的$C_n^2$个成对组合的内积$<x_i,x_{i'}>$

注意:非支持向量的观测的$α_i$=0

用一种一般化的形式$K(x_i,x_{i'})$来代替内积,这里K是一个核函数,用来衡量观测之间相似性的函数

比如使用简单的核函数$K(x_i,x_{i'})=\sum_{j=1}^{p}x_{ij}x_{i'j}$(线性核函数),即此时核函数就是$x_i$和$x_{i'}$的内积

自由度为d的多项式核函数

和标准的线性核函数相比,能生成光滑度更高的决策边界

支持向量分类器与这样的非线性核函数的结合,就是支持向量机

这种情况下非线性核函数的形式为$f(x)=β_0+\sum_{i∈S}α_iK(x,x_i)$

径向核函数

原理是以欧氏距离衡量,离测试观测远的训练观测的影响很小,某种意义上径向核函数是一种局部方法

使用核函数的优势

计算量更小

  • 核函数只需要为$C_n^2$个不同对配对$i,i'$计算$K(x_i,x_i')$

  • 而在扩大的特征空间中没有明确的计算量

多分类的SVM

一对一

需要构建$C_k^2$个SVM,每个SVM用来分隔两个类别

然后使用所有SVM对一个测试观测进行分类,最终预测类别就是预测次数最多的那一类

一对其余

拟合K个SVM,记$β_{0k},β_{1k},...,β_{pk}$为使用SVM比较第k类与其他k-1类的时候,拟合的参数的结果

记$x^$为一个测试观测,将这个观测预测为使得$β_{0k}+β_{1k}x_1^+...+β_{pk}x_p^*$最大化的那个类别

β0+β1X1+β2X2+...+βpXp<0,如果yi=−1β_0+β_1X_1+β_2X_2+...+β_pX_p<0,如果y_i=-1β0​+β1​X1​+β2​X2​+...+βp​Xp​<0,如果yi​=−1
yi(β0+β1X1+β2X2+...+βpXp)>0y_i(β_0+β_1X_1+β_2X_2+...+β_pX_p)>0yi​(β0​+β1​X1​+β2​X2​+...+βp​Xp​)>0
maximizeβ0,β1,...,βpM\mathop{maximize}\limits_{β_0,β_1,...,β_p}Mβ0​,β1​,...,βp​maximize​M
∑j=1pβj2=1\sum_{j=1}^{p}β_j^2=1j=1∑p​βj2​=1
yi(β0+β1Xi1+β2Xi2+...+βpXip)≥M,i=1,...,ny_i(β_0+β_1X_{i1}+β_2X_{i2}+...+β_pX_{ip})≥M,i=1,...,nyi​(β0​+β1​Xi1​+β2​Xi2​+...+βp​Xip​)≥M,i=1,...,n
maximizeβ0,β1,...,βpM\mathop{maximize}\limits_{β_0,β_1,...,β_p}Mβ0​,β1​,...,βp​maximize​M
∑j=1pβj2=1\sum_{j=1}^{p}β_j^2=1j=1∑p​βj2​=1
yi(β0+β1Xi1+β2Xi2+...+βpXip)≥M(1−εi)y_i(β_0+β_1X_{i1}+β_2X_{i2}+...+β_pX_{ip})≥M(1-ε_i)yi​(β0​+β1​Xi1​+β2​Xi2​+...+βp​Xip​)≥M(1−εi​)
εi≥0,∑i=1nεi≤Cε_i≥0,\sum_{i=1}^{n}ε_i≤Cεi​≥0,i=1∑n​εi​≤C
maximizeβ0,β11,β12,...,βp1,βp2,ε1,ε2,...,εnM\mathop{maximize}\limits_{β_0,β_{11},β_{12},...,β_{p1},β_{p2},ε_1,ε_2,...,ε_n}Mβ0​,β11​,β12​,...,βp1​,βp2​,ε1​,ε2​,...,εn​maximize​M
yi(β0+∑j=1pβj1xij+∑j=1pβj2xij2)≥M(1−εi)y_i(β_0+\sum_{j=1}^{p}β_{j1}x_{ij} + \sum_{j=1}^{p}β_{j2}x_{ij}^2)≥M(1-ε_i)yi​(β0​+j=1∑p​βj1​xij​+j=1∑p​βj2​xij2​)≥M(1−εi​)
εi≥0,∑i=1nεi≤C,∑j=1p∑k=12βjk2=1ε_i≥0,\sum_{i=1}^{n}ε_i≤C,\sum_{j=1}^{p}\sum_{k=1}^{2}β_{jk}^2=1εi​≥0,i=1∑n​εi​≤C,j=1∑p​k=1∑2​βjk2​=1
<xi,xi′>=∑j=1pxijxi′j<x_i,x_{i'}>=\sum_{j=1}^{p}x_{ij}x_{i'j}<xi​,xi′​>=j=1∑p​xij​xi′j​
f(x)=β0+∑i=1nαi<x,xi>f(x)=β_0+\sum_{i=1}^{n}α_i<x,x_i>f(x)=β0​+i=1∑n​αi​<x,xi​>
f(x)=β0+∑i=1nαiK(x,xi)f(x)=β_0+\sum_{i=1}^{n}α_i K(x,x_{i})f(x)=β0​+i=1∑n​αi​K(x,xi​)
K(xi,xi′)=(1+∑j=1pxijxi′j)dK(x_i,x_{i'})=(1+\sum_{j=1}^{p}x_{ij}x_{i'j})^dK(xi​,xi′​)=(1+j=1∑p​xij​xi′j​)d
K(xi,xi′)=exp⁡(−γ∑j=1p(xij−xi′j)2)K(x_i,x_{i'})=\exp(-γ\sum_{j=1}^{p}(x_{ij}-x_{i'j})^2)K(xi​,xi′​)=exp(−γj=1∑p​(xij​−xi′j​)2)