💻
QMMMS的笔记
博客
  • QMMMS的笔记
  • agent
    • MCP的背景、原理和开发
    • Agent 历史与背景
    • Agentic Workflows
    • 环境检查与基础工具
    • Tool Call
    • 工具与运行时的值
    • temp
    • 处理 Tool Call error
    • trick
  • algorithm
    • 线性结构
    • 二叉树
    • 图
    • 查找
    • 排序
    • 动态规划
    • 优化方法
    • 数学
    • 迁移至Java
  • computer_composition
    • 系统总线
    • 存储器
    • 输入输出系统
    • 计算机的运算方法
    • 指令系统
    • 补充
  • computer_network
    • 引入
    • 应用层
    • 传输层
    • 网络层(数据平面)
    • 网络层(控制平面)
    • 链路层
    • 常见问答
    • 实验
  • database
    • SQL实战
    • 关系代数
    • 数据库设计
    • 规范化
    • 数据库基本概念
    • 查询原理
    • 数据库恢复技术
    • 并发控制
  • dev_tools
    • Git
    • Nginx
    • Spring
    • LangChain
    • PyTorch Cheat Sheet
    • MyBatis
    • MySQL Cheat Sheet
    • MySQL 补充
    • Redis
    • Docker
    • RocketMQ
    • Chrome
  • linux
    • Linux基础命令与使用
    • 文件与权限
    • 文件与目录操作
    • 权限属性高级
    • 命令与文件的查找
    • 文件压缩和打包
    • vim编辑器
    • shell变量
    • 命令补充
    • 数据流重定向
    • 管道命令
    • shell脚本
    • 用户管理
    • 用户间交流
    • 计划任务
    • 进程管理
    • 软件管理
    • 认识系统服务
    • 运维常用命令
    • 常用命令
  • llm
    • 大规模语言模型概述
    • 分布式训练概述
    • 有监督微调概述
    • 强化学习与LLM
    • LLM评估概述
    • 大模型应用
    • 理解大模型
    • 量化
    • 预训练
    • 上下文学习
  • machine_learning
    • 引入
    • 大致正确学习
    • 一致收敛
    • 偏差还是过拟合?
    • 可学习的充要条件
    • 非均匀可学习性
    • 计算复杂性
  • mathematics
    • 概率与统计基础
    • 线性代数基础
  • operating_system
    • 操作系统基本概念
    • 进程和线程
    • 同步,互斥与死锁
    • 内存管理
    • 文件系统
    • I/O系统
    • 保护与安全
    • 《现代操作系统》
  • statistical_learning
    • 统计学习引入
    • 线性回归
    • 分类
    • 重抽样方法
    • 线性模型选择与正则化
    • 非线性模型
    • 基于树的方法
    • 支持向量机
    • 无指导学习
    • 马尔科夫链和蒙托卡罗方法简明理解
    • R语言速查
  • deep_learning
    • basic_concepts
      • 逻辑回归与损失函数
      • 神经网络
      • 正则化、预处理、权重初始化
      • 优化算法
      • 机器学习策略
      • 复习:从计算机视觉的角度
      • 卷积神经网络
      • 深度卷积网络示例
      • 计算机视觉任务
      • 循环神经网络
      • 自然语言处理任务
      • 注意力
      • Transformers 家族
      • 显卡扫盲
      • 强化学习概述
    • semi-supervise
      • 半监督学习简介
      • Consistency Regularization
      • Proxy-label Methods
      • Holistic Methods
      • Generative Models
      • Graph-Based SSL
      • Self-Supervision for SSL
      • Other SSL methods
  • programming
    • cpp
      • STL
      • C++基础
      • 内存管理
      • 面向对象
    • java
      • 环境和介绍
      • 注释
      • String
      • 面向对象思想
      • Object
      • 包
      • 访问权限修饰符
      • 初始化块
      • 接口
      • 内部类
      • 注解
      • 枚举
      • 集合框架
      • List
      • Map
      • 泛型
      • 迭代
      • IO与流
      • 序列化
      • 异常
      • Lambda
      • Stream流
      • Socket
      • 缓冲
      • 命名规范
      • 拆箱装箱
      • 值传递
      • 深拷贝
      • 反射
      • JVM
      • 并发编程基础
    • python
      • 并发编程
      • 环境管理
  • software_engineering
    • basic_concepts
      • 系统分析与设计概述
      • 规划
      • 需求分析与原型设计
      • 项目管理
      • 建模
      • 数据库设计
      • 架构
      • 配置管理
      • 测试管理
      • 安全
      • 编码原则
      • 微服务
      • 补充内容
    • software_testing
      • CMMI基础
      • PPQA与SQA
      • 软件测试基础
      • 黑盒测试
      • 白盒测试
      • 集成测试
      • 系统测试
      • 测开面试补充
由 GitBook 提供支持
在本页
  • Functional Dependencies
  • Normal form
  • 1NF
  • 2NF
  • 3NF
  • BCNF
  • 4NF
  • Functional-Dependency Theory
  • 基础概念
  • Armstrong axioms
  • Closure of Attribute Sets
  • BCNF Decomposition Algorithm
在GitHub上编辑
  1. database

规范化

上一页数据库设计下一页数据库基本概念

最后更新于8个月前

即对关系模式(Relation schemes)进行分析,找出其函数依赖(Functional Dependencies),如果不满足范式(Normal Forms),进行分解(Decomposition)。

Functional Dependencies

如果存在α\alphaα到β\betaβ的函数依赖,表示方法为:

α→β\alpha \to \betaα→β

例如,当我们知道学号,我们就能找到唯一对应的学生姓名,存在学号到学生姓名的函数依赖。

严谨的函数依赖证明方法为:

ti[α]=tj[α]→ti[β]=tj[β]t_i[\alpha]=t_j[\alpha] \to t_i[\beta]=t_j[\beta]ti​[α]=tj​[α]→ti​[β]=tj​[β]

其中,t指代关系模型r(R)中的元组,α\alphaα与β\betaβ是属性。例如,当两条记录中学号一样,则我们能推出两条记录中的学生姓名是一样的。

一个推论,如果:

ti[K]=tj[K]→ti=tjt_i[K]=t_j[K] \to t_i=t_jti​[K]=tj​[K]→ti​=tj​

则K是超码。

三种函数依赖类型:

Normal form

1NF

A relation schema R is in first normal form ( 1NF) if the domains of all attributes of R are atomic. 属性都是原子的。

2NF

例子:

3NF

上例中进一步拆分的结果为:

BCNF

例子:

巴斯-科德范式(BCNF)也被称为3.5NF,至于为何不称为第四范式,这主要是由于它是第三范式的补充版,第三范式的要求是:任何非主键字段不能与其他非主键字段间存在依赖关系,也就是要求每个非主键字段之间要具备独立性。而巴斯-科德范式在第三范式的基础上,进一步要求:任何主属性不能对其他主键子集存在依赖。

4NF

要求把同一表内的多对多关系删除。

假设每个供应商(SNO)可以生产多个零件(PNO),可以供应给多个工程(ENO),一个工程(ENO)需要多个零件(PNO),但同一个工程(ENO)的同一个零件(PNO)必须来自同一个供应商。关系SPE(SNO,PNO,ENO)对应的表数据可能是如下:

此时表SPE存在如下的函数依赖:(PNO,ENO)→SNO

根据BCNF的定义,此时表SPE属于BCNF。但是这样的关系模式仍具有不好的地方:数据冗余度太大。假如供应商S3生产了n个零件,每个零件供应给m个工程,那么显然S3要在表中重复m*n次。

4NF通俗地说,对于有三个属性的表,给定属性A一个值,剩余两个列之间不存在多对多的关系。例如,在SPE表中,给定SNO=S1,PNO和ENO之间很明显存在多对多的关系,故上表是不属于4NF的。

分解表(不同SNO的PNO不再共用):

  • 表1(SNO,PNO)

  • 表2(PNO,ENO)

Functional-Dependency Theory

基础概念

我们将关系模式r(R)的R定义为R(U,F),U是属性名,F是函数依赖。

Armstrong axioms

阿姆斯特朗公理(Armstrong axioms):

  1. 自反律。若Y⊆X⊆U,则X→Y为F所蕴含。

  2. 增广律。若X→Y为F所蕴含,且Z⊆U,则XZ→YZ为F所蕴含。

  3. 传递律。若X→Y及Y→Z为F所蕴含,则X→Z为F 所蕴含。

还可以推出:

Closure of Attribute Sets

设有关系模式R,U= {A,B,C}为R的属性集, F为R上的函数依赖集

  • 只在F右部出现的属性,不属于候选码

  • 只在F左部出现的属性,一定存在于某候选码当中

  • 两边都没有出现的属性,一定存在于候选码中

  • 其他属性逐个与②③的属性结合得X,求属性闭包 ,直至X的闭包等于U。若等于U,则X为超码,如果验证发现子集无超码则为候选码

算法:

例子(注意闭包加上大括号!!!!!):

BCNF Decomposition Algorithm

两条要求:

  • Dependency preservation(保持函数依赖,尽量保持)分解之后不能丢失函数依赖

  • Lossless decomposition(无损分解,必须无损)

select *
from r

=

select *
from (select R1 from r)
natural join
(select R2 from r)

例子1不满足无损分解:

例子2满足无损分解:

例子1:

例子2:

显然R不满足BC范式,分解过程为:

例子3:

显然R不满足BC范式,候选码为BD,分解过程为:

或者:

Trivial(平凡的)函数依赖:α→β\alpha \to \betaα→β is trivial if β⊆α\beta \subseteq \alphaβ⊆α 。例子:(学号,课程)→课程(学号,课程)\to 课程(学号,课程)→课程

Partial(部分) Functional Dependencies:α→β\alpha \to \betaα→β is Partial if γ⊆α\gamma \subseteq \alphaγ⊆α and γ→β\gamma \to \betaγ→β,表示方法为α→Pβ\alpha \xrightarrow{P} \betaαP​β。例如:(学号,课程)→学生姓名(学号,课程)\to 学生姓名(学号,课程)→学生姓名

Transitive(传递)Functional Dependencies:α→γ\alpha \to \gammaα→γ is Transitive if \alpha \to \beta \and \beta \to \gamma \and \beta \nsubseteq \alpha \and \beta \nrightarrow \alpha 。例如:学号→对应院长学号\to 对应院长学号→对应院长,因为学号\to 院系 \and 院系\to 院长 \and 院系 \nsubseteq 学号 \and 院系 \nrightarrow 学号

Normal form (范式, NF) is a collection of relation schemas that meet certain level. A relation schema R is the nth normal form denoted by R∈nNFR \in nNFR∈nNF

If the relation schema R∈1NFR \in 1NFR∈1NF and no any non-prime attribute(非主属性)is partially dependent on the candidate key, then R∈2NFR \in 2NFR∈2NF。要求数据库表中的每一列都和主键直接相关,而不能只与主键的某一部分相关

未拆分的版本中,候选码为(sno, cno),存在函数依赖sno→snamesno \to snamesno→sname,因此不满足2NF,拆分后满足。

现在我们画出拆分后版本的函数依赖图,注意,虽然拆分后存在sno→dept→dleadersno \to dept \to dleadersno→dept→dleader这样不和谐的函数依赖,根据定义它依然满足2NF的要求:

If the relation schema R∈1NFR \in 1NFR∈1NF and no candidate key X, attribute set Y and non-prime attribute Z(Z⊈YZ \nsubseteq YZ⊈Y ), so that X \to Y \and Y \nrightarrow X \and Y \to Z, then R∈3NFR \in 3NFR∈3NF.不能存在传递函数依赖

一定牢记全部限制,例如R={A,B,C},F=A→B,B→C,C→AR=\{A,B,C\},F=A\to B,B\to C, C\to AR={A,B,C},F=A→B,B→C,C→A,那么它满足3NF

BCNF(Boyce Codd Normal Function): If the relation schema R∈1NFR \in 1NFR∈1NF and for each non-trivial functional dependency X→YX \to YX→Y, X contains a candidate key,then R∈BCNFR \in BCNFR∈BCNF. 所有函数依赖的左侧都包含候选码。

如果从现有F可以推出新的函数依赖(例如A→HA\to HA→H)那么说F逻辑蕴含(logically imply)A→HA\to HA→H

F的闭包(closure)F+F^+F+定义为所有原来的和可推出的函数依赖。

Union rule (合并律):if α→β\alpha \to \betaα→β holds and α→γ\alpha \to \gammaα→γ holds, then α→βγ\alpha \to \beta \gammaα→βγ holds.

Decomposition rule (分解律):if α→βγ\alpha \to \beta \gammaα→βγ holds, then α→β\alpha \to \betaα→β holds and α→γ\alpha \to \gammaα→γ holds.

Pseudo-transitivity rule (伪传递律):if α→β\alpha \to \betaα→β holds and γβ→σ\gamma \beta \to \sigmaγβ→σ holds, then αγ→σ\alpha \gamma \to \sigmaαγ→σ.

if α→β\alpha \to \betaα→β,那么我们说attribute β\betaβ is **functionally determined(函数确定)**by a

Let α\alphaα be a set of attributes in r(R) with functional dependencies F. We call the set of all attributes functionally determined by α\alphaα under F the closure of α\alphaα under F denoted as α+\alpha^+α+ (属性集闭包)

可以推出,如果α+\alpha^+α+包含所有属性,那么α\alphaα为超码。

对于r(A,B,C,G,H,I),存在A→BA\to BA→B,A→CA \to CA→C, CG→HCG\to HCG→H,CG→ICG\to ICG→I,B→HB\to HB→H,求(AG)+(AG)^+(AG)+

初始化(AG)+=AG(AG)^+=AG(AG)+=AG

对于A→BA\to BA→B,因为A⊆AGA\subseteq AGA⊆AG,所以(AG)+=ABG(AG)^+=ABG(AG)+=ABG

对于A→CA\to CA→C,因为A⊆ABGA\subseteq ABGA⊆ABG,所以(AG)+=ABCG(AG)^+=ABCG(AG)+=ABCG

对于CG→HCG\to HCG→H,因为CG⊆ABCGCG\subseteq ABCGCG⊆ABCG,所以(AG)+=ABCGH(AG)^+=ABCGH(AG)+=ABCGH

对于CG→ICG\to ICG→I,因为CG⊆ABCGHCG\subseteq ABCGHCG⊆ABCGH,所以(AG)+=ABCGHI(AG)^+=ABCGHI(AG)+=ABCGHI

所以(AG)+=ABCGHI(AG)^+=ABCGHI(AG)+=ABCGHI

无损分解要求:there is no loss of information by replacing r(R) with two relation schemas r1(R1)r_1(R_1)r1​(R1​) and r2(R2)r_2(R_2)r2​(R2​)即:

一个辅助判断标准是(B∩C)(B \cap C)(B∩C)should be the key of B or C.

算法:即找到一个左侧不包含候选码的函数依赖α→β\alpha \to \betaα→β,将RiR_iRi​分解为(Ri−β)(R_i-\beta)(Ri​−β)和(α,β)(\alpha, \beta)(α,β)。依照分解顺序不同,分解结果不是唯一的。最后检查是否满足无损分解。

在左侧,存在左侧不包含候选码的函数依赖sno→snamesno \to snamesno→sname,将原模式分解为(sno,sname,cno,score)−sname=(sno,cno,score)(sno, sname, cno, score) - sname = (sno, cno, score)(sno,sname,cno,score)−sname=(sno,cno,score)和(sno,sname)(sno, sname)(sno,sname)

对于关系R,有五个属性ABCDE,存在函数依赖A→B,BC→E,C→DA\to B,BC\to E,C\to DA→B,BC→E,C→D

对于A→BA\to BA→B,(A)+≠R(A)^+ \neq R(A)+=R,分解为R1(AB),R2(ACDE)R_1(AB),R_2(ACDE)R1​(AB),R2​(ACDE)

对于C→DC\to DC→D,(C)+≠ACDE(C)^+ \neq ACDE(C)+=ACDE,分解为R3(CD),R4(ACE)R_3(CD),R_4(ACE)R3​(CD),R4​(ACE)

分解为R1(AB),R3(CD),R4(ACE)R_1(AB),R_3(CD),R_4(ACE)R1​(AB),R3​(CD),R4​(ACE)

对于关系R,有五个属性ABCD,存在函数依赖A→C,C→A,B→ACA\to C,C\to A,B\to ACA→C,C→A,B→AC

对于A→CA\to CA→C,(A)+≠R(A)^+ \neq R(A)+=R,分解为R1(AC),R2(ABD)R_1(AC),R_2(ABD)R1​(AC),R2​(ABD)

对于B→AB\to AB→A,(B)+≠ABD(B)^+ \neq ABD(B)+=ABD,分解为R3(AB),R4(BD)R_3(AB),R_4(BD)R3​(AB),R4​(BD)

分解为R1(AC),R3(AB),R4(BD)R_1(AC),R_3(AB),R_4(BD)R1​(AC),R3​(AB),R4​(BD)

对于A→CA\to CA→C,(A)+≠R(A)^+ \neq R(A)+=R,分解为R1(AC),R2(ABD)R_1(AC),R_2(ABD)R1​(AC),R2​(ABD)

对于B→CB\to CB→C,(B)+≠ABD(B)^+ \neq ABD(B)+=ABD,分解为R3(BC),R4(BD)R_3(BC),R_4(BD)R3​(BC),R4​(BD)

分解为R1(AC),R3(BC),R4(BD)R_1(AC),R_3(BC),R_4(BD)R1​(AC),R3​(BC),R4​(BD)