💻
QMMMS的笔记
博客
  • QMMMS的笔记
  • agent
    • MCP的背景、原理和开发
    • Agent 历史与背景
    • Agentic Workflows
    • 环境检查与基础工具
    • Tool Call
    • 工具与运行时的值
    • temp
    • 处理 Tool Call error
    • trick
  • algorithm
    • 线性结构
    • 二叉树
    • 图
    • 查找
    • 排序
    • 动态规划
    • 优化方法
    • 数学
    • 迁移至Java
  • computer_composition
    • 系统总线
    • 存储器
    • 输入输出系统
    • 计算机的运算方法
    • 指令系统
    • 补充
  • computer_network
    • 引入
    • 应用层
    • 传输层
    • 网络层(数据平面)
    • 网络层(控制平面)
    • 链路层
    • 常见问答
    • 实验
  • database
    • SQL实战
    • 关系代数
    • 数据库设计
    • 规范化
    • 数据库基本概念
    • 查询原理
    • 数据库恢复技术
    • 并发控制
  • dev_tools
    • Git
    • Nginx
    • Spring
    • LangChain
    • PyTorch Cheat Sheet
    • MyBatis
    • MySQL Cheat Sheet
    • MySQL 补充
    • Redis
    • Docker
    • RocketMQ
    • Chrome
  • linux
    • Linux基础命令与使用
    • 文件与权限
    • 文件与目录操作
    • 权限属性高级
    • 命令与文件的查找
    • 文件压缩和打包
    • vim编辑器
    • shell变量
    • 命令补充
    • 数据流重定向
    • 管道命令
    • shell脚本
    • 用户管理
    • 用户间交流
    • 计划任务
    • 进程管理
    • 软件管理
    • 认识系统服务
    • 运维常用命令
    • 常用命令
  • llm
    • 大规模语言模型概述
    • 分布式训练概述
    • 有监督微调概述
    • 强化学习与LLM
    • LLM评估概述
    • 大模型应用
    • 理解大模型
    • 量化
    • 预训练
    • 上下文学习
  • machine_learning
    • 引入
    • 大致正确学习
    • 一致收敛
    • 偏差还是过拟合?
    • 可学习的充要条件
    • 非均匀可学习性
    • 计算复杂性
  • mathematics
    • 概率与统计基础
    • 线性代数基础
  • operating_system
    • 操作系统基本概念
    • 进程和线程
    • 同步,互斥与死锁
    • 内存管理
    • 文件系统
    • I/O系统
    • 保护与安全
    • 《现代操作系统》
  • statistical_learning
    • 统计学习引入
    • 线性回归
    • 分类
    • 重抽样方法
    • 线性模型选择与正则化
    • 非线性模型
    • 基于树的方法
    • 支持向量机
    • 无指导学习
    • 马尔科夫链和蒙托卡罗方法简明理解
    • R语言速查
  • deep_learning
    • basic_concepts
      • 逻辑回归与损失函数
      • 神经网络
      • 正则化、预处理、权重初始化
      • 优化算法
      • 机器学习策略
      • 复习:从计算机视觉的角度
      • 卷积神经网络
      • 深度卷积网络示例
      • 计算机视觉任务
      • 循环神经网络
      • 自然语言处理任务
      • 注意力
      • Transformers 家族
      • 显卡扫盲
      • 强化学习概述
    • semi-supervise
      • 半监督学习简介
      • Consistency Regularization
      • Proxy-label Methods
      • Holistic Methods
      • Generative Models
      • Graph-Based SSL
      • Self-Supervision for SSL
      • Other SSL methods
  • programming
    • cpp
      • STL
      • C++基础
      • 内存管理
      • 面向对象
    • java
      • 环境和介绍
      • 注释
      • String
      • 面向对象思想
      • Object
      • 包
      • 访问权限修饰符
      • 初始化块
      • 接口
      • 内部类
      • 注解
      • 枚举
      • 集合框架
      • List
      • Map
      • 泛型
      • 迭代
      • IO与流
      • 序列化
      • 异常
      • Lambda
      • Stream流
      • Socket
      • 缓冲
      • 命名规范
      • 拆箱装箱
      • 值传递
      • 深拷贝
      • 反射
      • JVM
      • 并发编程基础
    • python
      • 并发编程
      • 环境管理
  • software_engineering
    • basic_concepts
      • 系统分析与设计概述
      • 规划
      • 需求分析与原型设计
      • 项目管理
      • 建模
      • 数据库设计
      • 架构
      • 配置管理
      • 测试管理
      • 安全
      • 编码原则
      • 微服务
      • 补充内容
    • software_testing
      • CMMI基础
      • PPQA与SQA
      • 软件测试基础
      • 黑盒测试
      • 白盒测试
      • 集成测试
      • 系统测试
      • 测开面试补充
由 GitBook 提供支持
在本页
  • 6.1 子集选择
  • 6.1.1 最优子集选择
  • 6.1.2 逐步选择
  • 6.1.3 选择最优模型的指标
  • 6.2 压缩估计方法
  • 6.2.1 岭回归(L2正则化)
  • 6.2.2 Lasso(L1正则化)
  • 6.2.3 岭回归和Lasso的等价问题
  • 6.2.4 岭回归和Lasso的贝叶斯解释
  • 降维方法
  • 主成分回归(PCA)
  • 偏最小二乘(PLS)
  • 高维数据的回归问题
在GitHub上编辑
  1. statistical_learning

线性模型选择与正则化

上一页重抽样方法下一页非线性模型

最后更新于10个月前

采用其他拟合方法替代最小二乘法的原因:其他方法有更高的预测准确率,更好的模型解释力

预测准确率

  • 不满足n远大于p,则最小二乘可能过拟合

  • 若p>n,最小二乘得到的系数估计结果不唯一,此时方差无穷大,无法使用最小二乘

改进:通过限制或缩减待估计系数,牺牲偏差的同时显著减小估计量方差

模型解释力

  • 多元回归模型中,常存在多个变量与响应变量不存在线性关系的情况,增加复杂度却与模型无关

  • 去除不相关特征可以得到更容易解释的模型,而最小二乘很难将系数置为0

改进:通过自动进行特征选择或变量选择,实现对无关变量的筛选

6.1 子集选择

6.1.1 最优子集选择

  1. 记零模型为 $M_0$

  2. 对于k=1,2,...,p: 拟合$C_p^k$个包含k个预测变量的模型,并且在这$C_p^k$个模型中选择RSS最小或$R^2$最大的模型

  3. 根据交叉验证预测误差、$C_p(AIC)$、$BIC$或调整$R^2$从这些模型中选一个最优模型

  • 优点:相较于向前逐步选择和向后逐步选择,可以得到全局最优的模型。

  • 缺点:p比较大时不具有计算可行性。

6.1.2 逐步选择

逐步选择包括向前逐步选择和向后逐步选择

向前逐步选择

  1. 记零模型为 $M_0$

  2. 对于k=1,2,...,p-1: 在前一个模型基础上增加一个变量,从p-k个模型中选择RSS最小或$R^2$最大的模型

  3. 然后根据交叉验证预测误差、$C_p(AIC)$、$BIC$或调整$R^2$从这些模型中选一个最优模型

向后逐步选择

  1. 记全模型为 $M_p$

  2. 对于k=p,p-1,...,1: 在前一个模型基础上减少一个变量,从k个模型中选择RSS最小或$R^2$最大的模型

  3. 然后根据交叉验证预测误差、$C_p(AIC)$、$BIC$或调整$R^2$从这些模型中选一个最优模型

注意,向后逐步选择只可以在 n > p 时可以使用,因为要拟合模型

6.1.3 选择最优模型的指标

$C_p$、$AIC$、$BIC$和调整$R^2$

Cp=1n(RSS+2dσ^2)C_p=\frac{1}{n}(RSS+2d\hat{σ}^2)Cp​=n1​(RSS+2dσ^2)
AIC=1nσ^2(RSS+2dσ^2)AIC=\frac{1}{n\hat{σ}^2}(RSS+2d\hat{σ}^2)AIC=nσ^21​(RSS+2dσ^2)
BIC=1n(RSS+log⁡(n)dσ^2)BIC=\frac{1}{n}(RSS+\log(n)d\hat{σ}^2)BIC=n1​(RSS+log(n)dσ^2)
调整R2=1−RSS/(n−d−1)TSS/(n−1)调整R^2=1-\frac{RSS/(n-d-1)}{TSS/(n-1)}调整R2=1−TSS/(n−1)RSS/(n−d−1)​
  • 其中,$\hat{σ}^2$ 是响应变量观测误差的方差 $\epsilon$ 的估计值。

  • d 表示选择的预测模型的数量。

复习一下:

RSS=∑i=1n(yi−yi^)2RSS=\sum_{i=1}^n (y_i- \hat{y_i})^2RSS=i=1∑n​(yi​−yi​^​)2
R2=1−RSSTSSR^2=1-\frac{RSS}{TSS}R2=1−TSSRSS​
TSS=∑i=1n(yi−yˉ)2TSS=\sum_{i=1}^n (y_i-\bar{y})^2TSS=i=1∑n​(yi​−yˉ​)2

6.2 压缩估计方法

6.2.1 岭回归(L2正则化)

与最小二乘相似,但增加了压缩惩罚

∑i=1n(yi−β0−∑j=1pβjxij)2+λ∑j=1pβj2=RSS+λ∑j=1pβj2\sum_{i=1}^{n}(y_i-β_0-\sum_{j=1}^{p}β_jx_{ij})^2+λ\sum_{j=1}^{p}β_j^2=RSS+\lambda \sum_{j=1}^{p}β_j^2i=1∑n​(yi​−β0​−j=1∑p​βj​xij​)2+λj=1∑p​βj2​=RSS+λj=1∑p​βj2​

$\lambda$ ≥0是调节参数,$\lambda$ 越小光滑度越高,偏差越小方差越大

使用岭回归之前最好先对预测变量进行标准化

缺点是,子集选择、逐步选择通常会选择出变量的一个子集进行建模,岭回归最终包含全部p个变量。

6.2.2 Lasso(L1正则化)

∑i=1n(yi−β0−∑j=1pβjxij)2+λ∑j=1p∣βj∣=RSS+λ∑j=1p∣βj∣\sum_{i=1}^{n}(y_i-β_0-\sum_{j=1}^{p}β_jx_{ij})^2+λ\sum_{j=1}^{p}|β_j|=RSS+ \lambda \sum_{j=1}^{p}|β_j|i=1∑n​(yi​−β0​−j=1∑p​βj​xij​)2+λj=1∑p​∣βj​∣=RSS+λj=1∑p​∣βj​∣

$\lambda$ ≥0是调节参数,$\lambda$ 越小光滑度越高,偏差越小方差越大,当 $\lambda$ 足够大,某些系数会变成0,完成了变量选择。

6.2.3 岭回归和Lasso的等价问题

Lasso回归等价于求解

minimizeβ{∑i=1n(yi−β0−∑j=1pβixij)2},∑j=1p∣βj∣≤s\mathop{minimize}\limits_{β}\{\sum_{i=1}^{n}(y_i-β_0-\sum_{j=1}^{p}β_ix_{ij})^2\},\sum_{j=1}^{p}|β_j|≤sβminimize​{i=1∑n​(yi​−β0​−j=1∑p​βi​xij​)2},j=1∑p​∣βj​∣≤s

岭回归等价于求解

minimizeβ{∑i=1n(yi−β0−∑j=1pβixij)2},∑j=1pβj2≤s\mathop{minimize}\limits_{β}\{\sum_{i=1}^{n}(y_i-β_0-\sum_{j=1}^{p}β_ix_{ij})^2\},\sum_{j=1}^{p}β_j^2≤sβminimize​{i=1∑n​(yi​−β0​−j=1∑p​βi​xij​)2},j=1∑p​βj2​≤s

将上式数形结合表示如图,黑色区域为≤s的区域,椭圆是RSS等高线

6.2.4 岭回归和Lasso的贝叶斯解释

岭回归对应高斯分布的密度函数

Lasso对应拉普拉斯分布的密度函数

降维方法

主成分回归(PCA)

见第十章

偏最小二乘(PLS)

偏最小二乘用响应变量Y的信息筛选新变量

高维数据的回归问题

拟合并不光滑的最小二乘模型在高维中作用很大:

  • 正则或压缩在高维问题中至关重要

  • 合适的调节参数对于得到好的预测非常关键

  • 测试误差会随着数据维度的增加而增大,除非新增特征变量与响应变量确实相关