💻
QMMMS的笔记
博客
  • QMMMS的笔记
  • agent
    • MCP的背景、原理和开发
    • Agent 历史与背景
    • Agentic Workflows
    • 环境检查与基础工具
    • Tool Call
    • 工具与运行时的值
    • temp
    • 处理 Tool Call error
    • trick
  • algorithm
    • 线性结构
    • 二叉树
    • 图
    • 查找
    • 排序
    • 动态规划
    • 优化方法
    • 数学
    • 迁移至Java
  • computer_composition
    • 系统总线
    • 存储器
    • 输入输出系统
    • 计算机的运算方法
    • 指令系统
    • 补充
  • computer_network
    • 引入
    • 应用层
    • 传输层
    • 网络层(数据平面)
    • 网络层(控制平面)
    • 链路层
    • 常见问答
    • 实验
  • database
    • SQL实战
    • 关系代数
    • 数据库设计
    • 规范化
    • 数据库基本概念
    • 查询原理
    • 数据库恢复技术
    • 并发控制
  • dev_tools
    • Git
    • Nginx
    • Spring
    • LangChain
    • PyTorch Cheat Sheet
    • MyBatis
    • MySQL Cheat Sheet
    • MySQL 补充
    • Redis
    • Docker
    • RocketMQ
    • Chrome
  • linux
    • Linux基础命令与使用
    • 文件与权限
    • 文件与目录操作
    • 权限属性高级
    • 命令与文件的查找
    • 文件压缩和打包
    • vim编辑器
    • shell变量
    • 命令补充
    • 数据流重定向
    • 管道命令
    • shell脚本
    • 用户管理
    • 用户间交流
    • 计划任务
    • 进程管理
    • 软件管理
    • 认识系统服务
    • 运维常用命令
    • 常用命令
  • llm
    • 大规模语言模型概述
    • 分布式训练概述
    • 有监督微调概述
    • 强化学习与LLM
    • LLM评估概述
    • 大模型应用
    • 理解大模型
    • 量化
    • 预训练
    • 上下文学习
  • machine_learning
    • 引入
    • 大致正确学习
    • 一致收敛
    • 偏差还是过拟合?
    • 可学习的充要条件
    • 非均匀可学习性
    • 计算复杂性
  • mathematics
    • 概率与统计基础
    • 线性代数基础
  • operating_system
    • 操作系统基本概念
    • 进程和线程
    • 同步,互斥与死锁
    • 内存管理
    • 文件系统
    • I/O系统
    • 保护与安全
    • 《现代操作系统》
  • statistical_learning
    • 统计学习引入
    • 线性回归
    • 分类
    • 重抽样方法
    • 线性模型选择与正则化
    • 非线性模型
    • 基于树的方法
    • 支持向量机
    • 无指导学习
    • 马尔科夫链和蒙托卡罗方法简明理解
    • R语言速查
  • deep_learning
    • basic_concepts
      • 逻辑回归与损失函数
      • 神经网络
      • 正则化、预处理、权重初始化
      • 优化算法
      • 机器学习策略
      • 复习:从计算机视觉的角度
      • 卷积神经网络
      • 深度卷积网络示例
      • 计算机视觉任务
      • 循环神经网络
      • 自然语言处理任务
      • 注意力
      • Transformers 家族
      • 显卡扫盲
      • 强化学习概述
    • semi-supervise
      • 半监督学习简介
      • Consistency Regularization
      • Proxy-label Methods
      • Holistic Methods
      • Generative Models
      • Graph-Based SSL
      • Self-Supervision for SSL
      • Other SSL methods
  • programming
    • cpp
      • STL
      • C++基础
      • 内存管理
      • 面向对象
    • java
      • 环境和介绍
      • 注释
      • String
      • 面向对象思想
      • Object
      • 包
      • 访问权限修饰符
      • 初始化块
      • 接口
      • 内部类
      • 注解
      • 枚举
      • 集合框架
      • List
      • Map
      • 泛型
      • 迭代
      • IO与流
      • 序列化
      • 异常
      • Lambda
      • Stream流
      • Socket
      • 缓冲
      • 命名规范
      • 拆箱装箱
      • 值传递
      • 深拷贝
      • 反射
      • JVM
      • 并发编程基础
    • python
      • 并发编程
      • 环境管理
  • software_engineering
    • basic_concepts
      • 系统分析与设计概述
      • 规划
      • 需求分析与原型设计
      • 项目管理
      • 建模
      • 数据库设计
      • 架构
      • 配置管理
      • 测试管理
      • 安全
      • 编码原则
      • 微服务
      • 补充内容
    • software_testing
      • CMMI基础
      • PPQA与SQA
      • 软件测试基础
      • 黑盒测试
      • 白盒测试
      • 集成测试
      • 系统测试
      • 测开面试补充
由 GitBook 提供支持
在本页
  • 流程
  • 代数优化
  • 物理优化
在GitHub上编辑
  1. database

查询原理

上一页数据库基本概念下一页数据库恢复技术

最后更新于9个月前

流程

  • Query analysis (查询分析)

    • Lexical analysis (词法分析): Identify language symbols

    • Syntax analysis (句法分析): Check the syntax

  • Query check (查询检查)

    • check semantic (语义),permission (权限)and the integrity constraints (完整性约束).

    • Convert SQL query statements to equivalent relational algebra

  • Query optimization (查询优化)

    • Algebra optimization (代数优化):choose the most effective relational algebra expression

    • Physical optimization (物理优化):select a detailed strategy for the relational algebra expression, including available algorithms, available indexes, etc.

  • Query execution (查询执行)

    • Generate the query execution code

    • A security check is also carried out to ensure appropriate access permission.

    • For database update operations, integrity constraints are checked

代数优化

相较于CPU和内存,I/O明显耗时更多,查询优化主要以I/O次数作为评价依据,越少越好。一些公式如下:

  • 等等其他公式

我们举一个实例:

Find the name of students who register the course C1.

  • 1,000 records in Student table

  • 10,000 records in the SC table

  • 50 C1 related records in SC table

  • The system contains 6 idle RAM blocks

  • Each RAM block can load 10 students records or load 100 SC records.

我们有三个等价的关系代数语句:

  • Q_1=\Pi_{sname}(\sigma_{student.sno=sc.sno\and sc.cno='C1'}(student\times sc))

第一个关系代数语句查询过程

  1. 从磁盘读一条学生记录,再读所有的SC记录做笛卡尔乘积。

  2. 将所有的笛卡尔乘积写入磁盘。

  3. 从磁盘读所有笛卡尔乘积,完成选择(select)操作。

在第一步中,如果我们将一个内存块分给学生记录,五个内存块分给SC记录,那么第一步需要的块数是:(第一部分是读学生记录的块,第二部分是再读所有的SC记录的块)

如果我们将五个内存块分给学生记录,一个内存块分给SC记录,那么第一步需要的块数是:(从此我们发现一个规律,尽量将更多的块分给笛卡尔乘积前方的记录,减少后方的记录的读取次数)

第二步,一条笛卡尔乘积记录的大头是学生记录部分,我们假设一个块可以放10个笛卡尔乘积记录:

第三步与第二步需要的块数一样,所以第一个关系代数语句需要的总块数是:

第二个关系代数语句查询过程

  1. 从磁盘读一条学生记录,再读所有的SC记录做自然连接。这一步已经隐含去除了一些笛卡尔乘积记录,由于SC10000条,笛卡尔乘积记录只有10000条。

  2. 将所有的笛卡尔乘积写入磁盘。

  3. 从磁盘读所有笛卡尔乘积,完成选择(select)操作。

第二个关系代数语句需要的总块数是:

第三个关系代数语句查询过程

  1. 从磁盘读所有SC记录,进行选择,剩50条SC记录。

  2. 从磁盘读一条学生记录,再与50条SC记录做自然连接。

第三个关系代数语句需要的总块数是:

  • 第一项是读所有SC记录的块。

  • 第二项是读所有学生记录。

  • 50条记录很小所以不写回磁盘。

物理优化

Physical optimization methods includes

  1. Rule-based heuristic optimization (基于规则的启发式优化)

  2. Cost estimates based optimization (基于代价估算的优化)

  3. Hybrid Optimization method (两者结合的优化)

In the end, choose the execution plan whose cost is the minimum

交换律:E1×E2≡E2×E1E_1 \times E_2 \equiv E_2 \times E_1E1​×E2​≡E2​×E1​

结合率:(E1×E2)×E3≡E1×(E2×E3)(E_1 \times E_2) \times E_3 \equiv E_1 \times (E_2 \times E_3)(E1​×E2​)×E3​≡E1​×(E2​×E3​)

Q2=Πsname(σsc.cno=′C1′(student⋈sc))Q_2=\Pi_{sname}(\sigma_{sc.cno='C1'}(student \bowtie sc))Q2​=Πsname​(σsc.cno=′C1′​(student⋈sc))

Q3=Πsname(student⋈σsc.cno=′C1′(sc))Q_3=\Pi_{sname}(student \bowtie \sigma_{sc.cno='C1'}(sc))Q3​=Πsname​(student⋈σsc.cno=′C1′​(sc))

100010+100010×1×10000100=10100\frac{1000}{10}+\frac{1000}{10 \times 1}\times \frac{10000}{100}=10100101000​+10×11000​×10010000​=10100
100010+100010×5×10000100=2100\frac{1000}{10}+\frac{1000}{10 \times 5}\times \frac{10000}{100}=2100101000​+10×51000​×10010000​=2100
1000×1000010=106\frac{1000 \times 10000}{10}=10^6101000×10000​=106
2100+106+1062100+10^6+10^62100+106+106
2100+1000010+10000102100+\frac{10000}{10}+\frac{10000}{10}2100+1010000​+1010000​
10000100+100010+0=200\frac{10000}{100}+\frac{1000}{10}+0=20010010000​+101000​+0=200