💻
QMMMS的笔记
博客
  • QMMMS的笔记
  • agent
    • MCP的背景、原理和开发
    • Agent 历史与背景
    • Agentic Workflows
    • 环境检查与基础工具
    • Tool Call
    • 工具与运行时的值
    • temp
    • 处理 Tool Call error
    • trick
  • algorithm
    • 线性结构
    • 二叉树
    • 图
    • 查找
    • 排序
    • 动态规划
    • 优化方法
    • 数学
    • 迁移至Java
  • computer_composition
    • 系统总线
    • 存储器
    • 输入输出系统
    • 计算机的运算方法
    • 指令系统
    • 补充
  • computer_network
    • 引入
    • 应用层
    • 传输层
    • 网络层(数据平面)
    • 网络层(控制平面)
    • 链路层
    • 常见问答
    • 实验
  • database
    • SQL实战
    • 关系代数
    • 数据库设计
    • 规范化
    • 数据库基本概念
    • 查询原理
    • 数据库恢复技术
    • 并发控制
  • dev_tools
    • Git
    • Nginx
    • Spring
    • LangChain
    • PyTorch Cheat Sheet
    • MyBatis
    • MySQL Cheat Sheet
    • MySQL 补充
    • Redis
    • Docker
    • RocketMQ
    • Chrome
  • linux
    • Linux基础命令与使用
    • 文件与权限
    • 文件与目录操作
    • 权限属性高级
    • 命令与文件的查找
    • 文件压缩和打包
    • vim编辑器
    • shell变量
    • 命令补充
    • 数据流重定向
    • 管道命令
    • shell脚本
    • 用户管理
    • 用户间交流
    • 计划任务
    • 进程管理
    • 软件管理
    • 认识系统服务
    • 运维常用命令
    • 常用命令
  • llm
    • 大规模语言模型概述
    • 分布式训练概述
    • 有监督微调概述
    • 强化学习与LLM
    • LLM评估概述
    • 大模型应用
    • 理解大模型
    • 量化
    • 预训练
    • 上下文学习
  • machine_learning
    • 引入
    • 大致正确学习
    • 一致收敛
    • 偏差还是过拟合?
    • 可学习的充要条件
    • 非均匀可学习性
    • 计算复杂性
  • mathematics
    • 概率与统计基础
    • 线性代数基础
  • operating_system
    • 操作系统基本概念
    • 进程和线程
    • 同步,互斥与死锁
    • 内存管理
    • 文件系统
    • I/O系统
    • 保护与安全
    • 《现代操作系统》
  • statistical_learning
    • 统计学习引入
    • 线性回归
    • 分类
    • 重抽样方法
    • 线性模型选择与正则化
    • 非线性模型
    • 基于树的方法
    • 支持向量机
    • 无指导学习
    • 马尔科夫链和蒙托卡罗方法简明理解
    • R语言速查
  • deep_learning
    • basic_concepts
      • 逻辑回归与损失函数
      • 神经网络
      • 正则化、预处理、权重初始化
      • 优化算法
      • 机器学习策略
      • 复习:从计算机视觉的角度
      • 卷积神经网络
      • 深度卷积网络示例
      • 计算机视觉任务
      • 循环神经网络
      • 自然语言处理任务
      • 注意力
      • Transformers 家族
      • 显卡扫盲
      • 强化学习概述
    • semi-supervise
      • 半监督学习简介
      • Consistency Regularization
      • Proxy-label Methods
      • Holistic Methods
      • Generative Models
      • Graph-Based SSL
      • Self-Supervision for SSL
      • Other SSL methods
  • programming
    • cpp
      • STL
      • C++基础
      • 内存管理
      • 面向对象
    • java
      • 环境和介绍
      • 注释
      • String
      • 面向对象思想
      • Object
      • 包
      • 访问权限修饰符
      • 初始化块
      • 接口
      • 内部类
      • 注解
      • 枚举
      • 集合框架
      • List
      • Map
      • 泛型
      • 迭代
      • IO与流
      • 序列化
      • 异常
      • Lambda
      • Stream流
      • Socket
      • 缓冲
      • 命名规范
      • 拆箱装箱
      • 值传递
      • 深拷贝
      • 反射
      • JVM
      • 并发编程基础
    • python
      • 并发编程
      • 环境管理
  • software_engineering
    • basic_concepts
      • 系统分析与设计概述
      • 规划
      • 需求分析与原型设计
      • 项目管理
      • 建模
      • 数据库设计
      • 架构
      • 配置管理
      • 测试管理
      • 安全
      • 编码原则
      • 微服务
      • 补充内容
    • software_testing
      • CMMI基础
      • PPQA与SQA
      • 软件测试基础
      • 黑盒测试
      • 白盒测试
      • 集成测试
      • 系统测试
      • 测开面试补充
由 GitBook 提供支持
在本页
  • 向量
  • 矩阵
  • 矩阵与向量乘
  • 矩阵乘
  • 初等变换
  • 秩
  • 逆矩阵
  • 行列式
  • 线性方程组
  • 特征值与特征向量
  • 相似
  • 相似对角化
  • 二次型
  • 正交矩阵
  • 实对称矩阵
  • 合同
  • 矩阵的四个子空间
  • 矩阵分解
  • A = CR
  • A = LU
  • A = QR
  • 奇异值分解
在GitHub上编辑
  1. mathematics

线性代数基础

上一页概率与统计基础下一页operating_system

最后更新于11个月前

向量

三种看待向量的观点

不同的人
不同的观点

物理专业的学生

空间中的箭头(长度和方向)

计算机专业的学生

有序的数字列表

数学家

任何东西(以上两个观点的碰撞)

向量加法的几何意义:遵循三角形法则。如果将每个向量看作一种特定的运动,即向空间中某个方向迈出一定距离。若先沿着第一个向量方向移动,再沿着第二个向量方向移动,总体效果与沿着这两个向量和运动无异。

向量乘法的几何意义:乘以大于1的数值,就是将这个向量拉伸;乘以小于1的数值,就是将这个向量压缩;乘以负数,就是将这个向量翻转。拉伸,压缩,翻转向量的行为,统称为缩放(scaling),而这些数值本身,称之为标量(scalars)。

把向量组的各个向量以同样的方式增加若干个分量得到的向量组称为接长向量组。把向量组的各个向量以同样的方式删除若干个分量得到的向量组称为截短向量组。一个线性相关的向量组截短后仍相关,而一个线性无关的向量组接长后仍无关。

当若干非零向量两两正交(垂直)时,称它们构成的向量组为正交向量组;进一步地,若它们又都是单位向量,则称为标准正交向量组(或正交规范向量组)

对线性运算(相加,数乘)封闭的空间:向量空间

内积:

⟨α,β⟩=a1b1+a2b2+⋯+anbn=∑i=1naibi\langle \alpha,\beta \rangle=a_1b_1+a_2b_2+\cdots+a_nb_n=\sum_{i=1}^na_ib_i⟨α,β⟩=a1​b1​+a2​b2​+⋯+an​bn​=i=1∑n​ai​bi​

范数(即长度或模):

∥α∥=⟨α,α⟩=a12+a22+⋯+an2\left\| \alpha \right\| = \sqrt{\langle \alpha,\alpha \rangle} = \sqrt{a_1^2+a_2^2+\cdots+a_n^2}∥α∥=⟨α,α⟩​=a12​+a22​+⋯+an2​​
  • 柯西-施瓦兹(Cauchy-Schwarts)不等式:⟨α,β⟩≤∥α∥⋅∥β∥\langle \alpha,\beta \rangle \leq \left\| \alpha \right\| \cdot \left\| \beta \right\|⟨α,β⟩≤∥α∥⋅∥β∥

  • 三角不等式:∥α+β∥≤∥α∥+∥β∥\left\| \alpha + \beta \right\| \leq \left\| \alpha \right\|+\left\| \beta\right\|∥α+β∥≤∥α∥+∥β∥

夹角:

φ=arccos⁡⟨α,β⟩∥α∥∥β∥\varphi=\arccos \frac{\langle \alpha,\beta \rangle}{\left\| \alpha \right\|\left\| \beta \right\|}φ=arccos∥α∥∥β∥⟨α,β⟩​

施密特(Schmidt)正交化方法:

首先取 β1=α1\beta_1=\alpha_1β1​=α1​。

β2=α2−⟨α2,β1⟩⟨β1,β1⟩β1\beta_2=\alpha_2 -\frac{\langle \alpha_2,\beta_1 \rangle}{\langle \beta_1,\beta_1 \rangle}\beta_1β2​=α2​−⟨β1​,β1​⟩⟨α2​,β1​⟩​β1​
β3=α3−⟨α3,β1⟩⟨β1,β1⟩β1−⟨α3,β2⟩⟨β2,β2⟩β2\beta_3=\alpha_3 -\frac{\langle \alpha_3,\beta_1 \rangle}{\langle \beta_1,\beta_1 \rangle}\beta_1 -\frac{\langle \alpha_3,\beta_2 \rangle}{\langle \beta_2,\beta_2 \rangle}\beta_2β3​=α3​−⟨β1​,β1​⟩⟨α3​,β1​⟩​β1​−⟨β2​,β2​⟩⟨α3​,β2​⟩​β2​

同样的方式一直做下去,直到

βm=αm−⟨αm,β1⟩⟨β1,β1⟩β1−⟨αm,β2⟩⟨β2,β2⟩β2−⋯−⟨αm,βm−1⟩⟨βm−1,βm−1⟩βm−1\beta_m=\alpha_m -\frac{\langle \alpha_m,\beta_1 \rangle}{\langle \beta_1,\beta_1 \rangle}\beta_1 -\frac{\langle \alpha_m,\beta_2 \rangle}{\langle \beta_2,\beta_2 \rangle}\beta_2 -\cdots -\frac{\langle \alpha_m,\beta_{m-1} \rangle}{\langle \beta_{m-1},\beta_{m-1} \rangle}\beta_{m-1}βm​=αm​−⟨β1​,β1​⟩⟨αm​,β1​⟩​β1​−⟨β2​,β2​⟩⟨αm​,β2​⟩​β2​−⋯−⟨βm−1​,βm−1​⟩⟨αm​,βm−1​⟩​βm−1​

这样即得到与 α1,α2,⋯ ,αm\alpha_1,\alpha_2,\cdots,\alpha_mα1​,α2​,⋯,αm​ 等价的正交向量组 β1,β2,⋯ ,βm\beta_1,\beta_2,\cdots,\beta_mβ1​,β2​,⋯,βm​。进一步,将正交向量组 β1,β2,⋯ ,βm\beta_1,\beta_2,\cdots,\beta_mβ1​,β2​,⋯,βm​单位化,令:

γi=βi∥βi∥,i=1,⋯ ,m\gamma_i=\frac{\beta_i}{\left\| \beta_i \right\|},i=1,\cdots,mγi​=∥βi​∥βi​​,i=1,⋯,m

得到等价的正交规范向量组γ1,γ2,⋯ ,γm\gamma_1,\gamma_2,\cdots,\gamma_mγ1​,γ2​,⋯,γm​,整个过程称为正交规范化

几何解释是:已知 α1,α2 线性无关但不正交。显然二者不在同一直线上,假定 α1,α2 的夹角 φ 为锐角。先取 β1=α1 然后将 α2 做一个正交分解(比如物理学中经常把力或速度等向量分解为两个相互垂直的向量),将其分解为跟 α1 平行的向量 kα1 和跟 α1 垂直的向量 β2

矩阵

矩阵与向量乘

线性变换从几何想象看,是一种操纵空间的手段,特点包括:

  • 所有的直线还是直线

  • 原点还在原来的位置

可以借助基向量 i 和 j 的变换,可以理解整个空间的线性变换:

事实上,一个二维线性变换仅由四个数字完全确定,即基向量的变换。借助基向量的变换,我们可以得到任意一个向量$(x,y)$在线性变换后的结果。

把它抽象化之后,则得到了矩阵乘法的运算公式,并且还可见其几何意义,$(a,c)$和$(b,d)$是新空间的基

这个式子从另一个角度看,Ax 是 A 的列的线性组合,矩阵 A 的列向量的所有线性组合生成的子空间记为 C(A)

一个特殊例子,假如变换之后的向量是线性相关的,那么所有原来平面上的点在变换之后就被压缩到了一条直线上。

矩阵乘

两个矩阵相乘有着几何意义,也就是两个线性变换相继作用,如图,注意先作用M1,然后M2

那么非方阵呢?体现了不同维数之间的变换。

如果2×2矩阵表示二维向量到二维向量的变换,3×3矩阵来表示的三维向量到三维向量的变换,那么自然的,3×2矩阵肯定是二维向量与三维向量的转换,但是从谁转换到谁呢?

对于3×2矩阵,矩阵有两列表明输入空间有两个基向量,有三行表明每一个基向量再变换后都用三个独立的坐标来描述,因此几何意义是将二维空间映射到三维空间上。

动画例子:1×2的矩阵代表将二维空间映射到一维空间上:

动画例子:2×3的矩阵代表将三维空间映射到二维空间上:

其他性质:

  • ∣λA∣=λn∣A∣|\lambda A|=\lambda^n |A|∣λA∣=λn∣A∣

  • 对于矩阵相乘,交换律一般不成立,消去律一般不成立,分配律成立

    • 但若AB=BA成立,则称矩阵 A 与 B 可交换

    • AB=O不能推出 A=O或 B=O。推论:AB=AC,A不为0矩阵,推不出B=C

  • ∣AB∣=∣A∣∣B∣|AB|=|A||B|∣AB∣=∣A∣∣B∣

  • 只有方阵才有乘幂运算

  • ∣Ak∣=∣A∣k|A^k|=|A|^k∣Ak∣=∣A∣k

  • (A±B)T=AT±BT(A\pm B)^T=A^T \pm B^T(A±B)T=AT±BT

  • (AB)T=BTAT(AB)^T=B^TA^T(AB)T=BTAT

  • ∣AT∣=∣A∣|A^T|=|A|∣AT∣=∣A∣

  • ATAA^TAATA为对称矩阵

  • 如果 AT=AA^T=AAT=A,则称 A 为对称矩阵,如果 AT=−AA^T=-AAT=−A,则称 A 为反对称矩阵

分块转置:

A=(A11A12⋯A1rA21A22⋯A2r⋮⋮⋮As1As2⋯Asr),AT=(A11TA21T⋯As1TA12TA22T⋯As2T⋮⋮⋮A1rTA2rT⋯AsrT)A=\begin{pmatrix} A_{11} & A_{12} & \cdots & A_{1r} \\ A_{21} & A_{22} & \cdots & A_{2r} \\ \vdots & \vdots & & \vdots \\ A_{s1} & A_{s2} & \cdots & A_{sr} \\ \end{pmatrix}, A^T=\begin{pmatrix} A_{11}^T & A_{21}^T & \cdots & A_{s1}^T \\ A_{12}^T & A_{22}^T & \cdots & A_{s2}^T \\ \vdots & \vdots & & \vdots \\ A_{1r}^T & A_{2r}^T & \cdots & A_{sr}^T \\ \end{pmatrix}A=​A11​A21​⋮As1​​A12​A22​⋮As2​​⋯⋯⋯​A1r​A2r​⋮Asr​​​,AT=​A11T​A12T​⋮A1rT​​A21T​A22T​⋮A2rT​​⋯⋯⋯​As1T​As2T​⋮AsrT​​​

初等变换

初等行变换:

  1. 交换两行位置

  2. 以数 k(不为0) 乘某一行中的所有元素

  3. 把某一行所有元素的 k 倍加到另一行的对应元素上

初等变换不改变矩阵的秩。若矩阵 A经过有限次初等变换变成 B,则称矩阵 A 与 B 等价,记作 A↔B。等价的矩阵等秩,反之不一定成立。

由单位矩阵 E 经过一次初等变换得到的矩阵称为初等矩阵,简称初等阵。三种初等变换对应三种初等矩阵。

秩

秩代表着变换后空间的维数。

举个例子,当变换的结果为一条直线时(一维),我们称这个变换的秩为1。

比如说对于2×2的矩阵,它的秩最大为2,意味着基向量仍旧能张成整个二维空间,并且矩阵的行列式不为零。但是对于3×3的矩阵,秩为2意味着空间被压缩了。

对于一个非满秩的矩阵来说,它将空间压缩到一个更低的维度上,也就是说会有一系列向量在变换后成为零向量(直线降维为点)。

举些例子:如果一个二维线性变换将空间压缩到一条直线上(降维),那么沿不同方向直线上的所有向量就被压缩到原点。

如果 一个三维线性变换将空间压缩到一条直线上,那么就有一整个平面上的向量在变换后落在原点。

变换后落在原点的向量的集合,被称为矩阵的零空间或核。变换后一些向量落在零向量上,而“零空间”正是这些向量所构成的空间。

零空间,就是 Ax = 0 的所有解所构成的一个空间

对于 m*n 的矩阵来说,列空间是RmR^mRm的子空间,零空间是RnR^nRn的子空间。 列空间关键在于列向量的维数,零空间的关键在于列向量的个数。

求秩:把矩阵 A 通过初等行变换变为行阶梯形矩阵 B,则行阶梯形矩阵 B 的非零行数即为矩阵 A 的秩

  • A\boldsymbol{A}A 的秩 R(A)R(\boldsymbol{A})R(A) 即为矩阵 A\boldsymbol{A}A 的非零子式的最高阶数

  • ∣A∣≠0|A|\neq0∣A∣=0,R(A)=nR(\boldsymbol{A})= nR(A)=n,满秩矩阵,非奇异矩阵,可逆矩阵

  • ∣A∣=0|A|=0∣A∣=0,R(A)<nR(\boldsymbol{A})< nR(A)<n,降秩矩阵,奇异矩阵,不可逆矩阵

  • 行秩=列秩,0≤R(A)≤min⁡m,n0 \leq R(\boldsymbol{A})\leq \min{m,n}0≤R(A)≤minm,n

  • max{R(A),R(B)}≤R(AB)≤R(A)+R(B)max\{R(\boldsymbol{A}),R(\boldsymbol{B})\}\leq R(\begin{array}{c:c}\boldsymbol{A} & \boldsymbol{B}\end{array})\leq R(\boldsymbol{A})+R(\boldsymbol{B})max{R(A),R(B)}≤R(A​B​)≤R(A)+R(B)

  • R(A+B)≤R(A)+R(B)R(\boldsymbol{A}+\boldsymbol{B})≤R(\boldsymbol{A})+R(\boldsymbol{B})R(A+B)≤R(A)+R(B)

  • R(AB)≤min{R(A),R(B)}R(\boldsymbol{A}\boldsymbol{B})≤min\{R(\boldsymbol{A}),R(\boldsymbol{B})\}R(AB)≤min{R(A),R(B)}

  • 若 Am×nBn×l=O\boldsymbol{A}_{m\times n}\boldsymbol{B}_{n\times l}= \boldsymbol{O}Am×n​Bn×l​=O,则 R(A)+R(B)≤nR(\boldsymbol{A})+R(\boldsymbol{B})\leq nR(A)+R(B)≤n

  • R(A∗)={n,若R(A)=n,1,若R(A)=n−1,0,若R(A)<n−1, R(A^*)=\begin{cases} n,&若R(A)=n,\\ 1,&若R(A)=n-1,\\ 0,&若R(A)<n-1,\ \end{cases}R(A∗)=⎩⎨⎧​n,1,0,​若R(A)=n,若R(A)=n−1,若R(A)<n−1, ​

  • R(ATA)=R(A)R(A^TA)=R(A)R(ATA)=R(A)

逆矩阵

如果:

AB=BA=EAB=BA=EAB=BA=E

则称矩阵 A 可逆(或称 A 是可逆矩阵),称 B 是 A 的逆矩阵,记为 A−1A^{-1}A−1,即 B=A−1B=A^{-1}B=A−1,若不存在 B 满足式,则称矩阵A 不可逆。

伴随矩阵:下面的式子为 A 的伴随矩阵,记为 A∗A^*A∗,其中 AijA_{ij}Aij​ 为元素 aija_{ij}aij​ 的代数余子式

(A11A21⋯An1A12A22⋯An2⋮⋮⋮A1nA2n⋯Ann)\begin{pmatrix} A_{11} & A_{21} & \cdots & A_{n1} \\ A_{12} & A_{22} & \cdots & A_{n2} \\ \vdots & \vdots & & \vdots \\ A_{1n} & A_{2n} & \cdots & A_{nn} \\ \end{pmatrix}​A11​A12​⋮A1n​​A21​A22​⋮A2n​​⋯⋯⋯​An1​An2​⋮Ann​​​

注意这个伴随矩阵和原来的A比较转置了

求逆矩阵方式之一:公式

A−1=1∣A∣A∗A^{-1}=\frac{1}{|A|}A^*A−1=∣A∣1​A∗

求逆矩阵方式之二:增广后变换

(AE)⟶(EA−1)(\begin{array}{c:c}\boldsymbol{A} & \boldsymbol{E}\end{array}) \longrightarrow (\begin{array}{c:c}\boldsymbol{E} & \boldsymbol{A}^{-1}\end{array})(A​E​)⟶(E​A−1​)
  • AA∗=A∗A=∣A∣EAA^*=A^*A=|A|EAA∗=A∗A=∣A∣E

  • 若方阵 A 可逆,则 A 的逆矩阵是唯一的

  • (λA)−1=1λA−1(\lambda A)^{-1}=\frac{1}{\lambda}A^{-1}(λA)−1=λ1​A−1

  • (AB)−1=B−1A−1(AB)^{-1}=B^{-1}A^{-1}(AB)−1=B−1A−1

  • (AT)−1=(A−1)T(A^T)^{-1}=(A^{-1})^T(AT)−1=(A−1)T

  • (A−1)−1=A,∣A−1∣=1∣A∣(A^{-1})^{-1}=A,|A^{-1}|=\frac{1}{|A|}(A−1)−1=A,∣A−1∣=∣A∣1​

  • (A∗)−1=(A−1)∗=A∣A∣(A^*)^{-1}=(A^{-1})^* = \frac{A}{|A|}(A∗)−1=(A−1)∗=∣A∣A​

  • A∗=∣A∣A−1,∣A∗∣=∣A∣n−1A^*=|A|A^{-1},|A^*|=|A|^{n-1}A∗=∣A∣A−1,∣A∗∣=∣A∣n−1

分块的逆:

(B00C)−1=(B−100C−1),(0BC0)−1=(0C−1B−10)\begin{pmatrix} B & 0\\ 0 & C \end{pmatrix}^{-1} = \begin{pmatrix} B^{-1} & 0\\ 0 & C^{-1} \end{pmatrix}, \begin{pmatrix} 0 & B\\ C & 0 \end{pmatrix}^{-1} = \begin{pmatrix} 0 & C^{-1}\\ B^{-1} & 0 \end{pmatrix}(B0​0C​)−1=(B−10​0C−1​),(0C​B0​)−1=(0B−1​C−10​)

行列式

行列式:线性变换改变面积的比例。二阶行列式可看做平行四边形的面积

行列式为0,矩阵必然线性相关,或者说面积被挤压到0

行列式的正负与平面的取向有关,行列式为负,空间被翻转

三阶行列式可简单看做平行六面体的体积,正负号代表三维翻转,如果可以用右手系表示为正,如果只能用左手系表示为负

严谨的面积计算方法:

  • 行列式两行(列)互换,行列式变号

  • ∣A∣∣B∣=∣AB∣|A||B|=|AB|∣A∣∣B∣=∣AB∣

  • ∣AT∣=∣A∣|A^T|=|A|∣AT∣=∣A∣

  • 任意两个向量线性相关(秩为0),行列式等于零

    直观理解:降到低维空间中了,在本维度中的“体积”为0

  • 行列式某一行(列)的所有元素都乘以同一数 k,等于用数 k 去乘行列式,公因子也可以提到行列式的符号外面

    直观理解:构成“体积”的某一条边扩大k倍,“体积”扩大k倍

  • 把行列式的某一行(列)的各元素乘以同一个数然后加到另一行(列)对应的元素上去,行列式的值不变。

    D=∣a11a12⋯a1n⋮⋮⋮ai1ai2⋯ain⋮⋮⋮aj1aj2⋯ajn⋮⋮⋮an1an2⋯ann∣=∣a11a12⋯a1n⋮⋮⋮ai1+kaj1ai2+kaj2⋯ain+kajn⋮⋮⋮aj1aj2⋯ajn⋮⋮⋮an1an2⋯ann∣D = \left | \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n} \\ \vdots & \vdots & & \vdots \\ a_{i1} & a_{i2} & \cdots & a_{in} \\ \vdots & \vdots & & \vdots \\ a_{j1} & a_{j2} & \cdots & a_{jn} \\ \vdots & \vdots & & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nn} \\ \end{matrix} \right |=\left | \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n} \\ \vdots & \vdots & & \vdots \\ a_{i1} + ka_{j1} & a_{i2} + ka_{j2} & \cdots & a_{in} + ka_{jn} \\ \vdots & \vdots & & \vdots \\ a_{j1} & a_{j2} & \cdots & a_{jn} \\ \vdots & \vdots & & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nn} \\ \end{matrix} \right |D=​a11​⋮ai1​⋮aj1​⋮an1​​a12​⋮ai2​⋮aj2​⋮an2​​⋯⋯⋯⋯​a1n​⋮ain​⋮ajn​⋮ann​​​=​a11​⋮ai1​+kaj1​⋮aj1​⋮an1​​a12​⋮ai2​+kaj2​⋮aj2​⋮an2​​⋯⋯⋯⋯​a1n​⋮ain​+kajn​⋮ajn​⋮ann​​​
  • 若行列式的某一行(列)的元素都是两数之和,例如,第i行的元素都是两数之和,那么可以拆开

    D=∣a11a12⋯a1na21a22⋯a2n⋮⋮⋮ai1ai2⋯ain⋮⋮⋮an1an2⋯ann∣+∣a11a12⋯a1na21a22⋯a2n⋮⋮⋮a′i1a′i2⋯a′in⋮⋮⋮an1an2⋯ann∣D = \left | \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & & \vdots \\ a_{i1} & a_{i2} & \cdots & a_{in} \\ \vdots & \vdots & & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nn} \\ \end{matrix} \right |+ \left | \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & & \vdots \\ a'{i1} & a'{i2} & \cdots & a'{in} \\ \vdots & \vdots & & \vdots \\ a{n1} & a_{n2} & \cdots & a_{nn} \\ \end{matrix} \right |D=​a11​a21​⋮ai1​⋮an1​​a12​a22​⋮ai2​⋮an2​​⋯⋯⋯⋯​a1n​a2n​⋮ain​⋮ann​​​+​a11​a21​⋮a′i1⋮an1​a12​a22​⋮a′i2⋮an2​​⋯⋯⋯⋯​a1n​a2n​⋮a′in⋮ann​​​
    D=∣a11a12⋯a1na21a22⋯a2n⋮⋮⋮ai1+a′i1ai2+a′i2⋯ain+a′in⋮⋮⋮an1an2⋯ann∣D = \left | \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & & \vdots \\ a_{i1}+a'{i1} & a{i2}+a'{i2} & \cdots & a{in}+a'{in} \\ \vdots & \vdots & & \vdots \\ a{n1} & a_{n2} & \cdots & a_{nn} \\ \end{matrix} \right |D=​a11​a21​⋮ai1​+a′i1⋮an1​a12​a22​⋮ai2+a′i2⋮an2​​⋯⋯⋯⋯​a1n​a2n​⋮ain+a′in⋮ann​​​

余子式:在n阶行列式中划去元素aija_{ij}aij​所在的第i行第j列,由剩下的元素按原来的排法构成一个n-1阶的行列式MijM_{ij}Mij​

代数余子式:Aij=(−1)i+jMijA_{ij}=(-1)^{i+j} M_{i j}Aij​=(−1)i+jMij​

  • 行列式D等于它的任意一行(列)的所有元素与它们各自对应的代数余子式的乘积之和。

  • 行列式D的任意一行(列)的所有元素与另外一行(列)对应的代数余子式之和等于0。

上(下)三角行列式的值等于主对角线元素的乘积:

a11a22...anna_{11}a_{22}...a_{nn}a11​a22​...ann​

关于副对角线的行列式,重新排列一下:

∣a11a12⋯a1,n−1a1na21a22⋯a2,n−10⋮⋮⋮⋮an10⋯00∣=∣0⋯0a1n0⋯a2,n−1a2n⋮⋮⋮an1⋯an,n−1ann∣=(−1)n(n−1)2a1na2,n−1⋯an1\begin{aligned} \left|\begin{array}{ccccc} a_{11} & a_{12} & \cdots & a_{1, n-1} & a_{1 n} \\ a_{21} & a_{22} & \cdots & a_{2, n-1} & 0 \\ \vdots & \vdots & & \vdots & \vdots \\ a_{n 1} & 0 & \cdots & 0 & 0 \end{array}\right| &=\left|\begin{array}{cccc} 0 & \cdots & 0 & a_{1 n} \\ 0 & \cdots & a_{2, n-1} & a_{2 n} \\ \vdots & & \vdots & \vdots \\ a_{n 1} & \cdots & a_{n, n-1} & a_{n n} \end{array}\right| \\ &=(-1)^{\frac{n(n-1)}{2}} a_{1 n} a_{2, n-1} \cdots a_{n 1} \end{aligned}​a11​a21​⋮an1​​a12​a22​⋮0​⋯⋯⋯​a1,n−1​a2,n−1​⋮0​a1n​0⋮0​​​=​00⋮an1​​⋯⋯⋯​0a2,n−1​⋮an,n−1​​a1n​a2n​⋮ann​​​=(−1)2n(n−1)​a1n​a2,n−1​⋯an1​​

范德蒙德(Vandermonde)行列式:

Dn=∣11…1x1x2…xnx12x22…xn2⋮⋮⋮x1n−1x2n−1…xnn−1∣=∏1≤i<j≤n(xj−xi)D_n=\left| \begin{matrix} 1 & 1 & \dots & 1\\ x_1 & x_2 & \dots & x_n\\ x_1^2 & x_2^2 & \dots & x_n^2\\ \vdots & \vdots & & \vdots\\ x_1^{n-1} & x_2^{n-1} & \dots & x_n^{n-1}\\ \end{matrix} \right| =\prod_{1 \leq i < j \leq n}(x_j-x_i)Dn​=​1x1​x12​⋮x1n−1​​1x2​x22​⋮x2n−1​​…………​1xn​xn2​⋮xnn−1​​​=1≤i<j≤n∏​(xj​−xi​)

拉普拉斯展开式:

∣A∗0B∣=∣A0∗B∣=∣A∣⋅∣B∣∣0AB∗∣=∣∗AB0∣=(−1)mn∣A∣⋅∣B∣\left| \begin{matrix} A & *\\ 0 & B \end{matrix} \right| = \left| \begin{matrix} A & 0\\ * & B \end{matrix} \right| =|A|\cdot|B|\\ \left| \begin{matrix} 0 & A\\ B & * \end{matrix} \right| = \left| \begin{matrix} * & A\\ B & 0 \end{matrix} \right| =(-1)^{mn}|A|\cdot|B|​A0​∗B​​=​A∗​0B​​=∣A∣⋅∣B∣​0B​A∗​​=​∗B​A0​​=(−1)mn∣A∣⋅∣B∣

克拉默(Cramer)法则:

\begin{cases} a_{11}x_1 + a_{12}x_2 + \dots + a_{1n}x_n = b_1 \\ a_{21}x_1 + a_{22}x_2 + \dots + a_{2n}x_n = b_2 \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \cdots\cdots\cdots\cdots\cdots\\ a_{n1}x_1 + a_{n2}x_2 + \dots + a_{nn}x_n = b_n \\ \end{cases}\

唯一解为:

x1=D1D,x2=D2D,⋯ ,x1=DnDx_1=\frac{D_1}{D},x_2=\frac{D_2}{D},\cdots,x_1=\frac{Dn}{D}x1​=DD1​​,x2​=DD2​​,⋯,x1​=DDn​

D为方程组转换的行列式,DjD_jDj​是把系数行列式 D 中第 j 列的元素用方程组右端的常数项代替后得到的 n 阶行列式,即:

Dj=∣a11⋯a1,j−1b1a1,j+1⋯a1n⋮⋮⋮⋮⋮an1⋯an,j−1bnan,j+1⋯ann∣D_j = \left| \begin{matrix} a_{11} & \cdots & a_{1,j-1} & b_1 & a_{1,j+1} & \cdots & a_{1n}\\ \vdots & & \vdots & \vdots & \vdots & & \vdots\\ a_{n1} & \cdots & a_{n,j-1} & b_n & a_{n,j+1} & \cdots & a_{nn}\\ \end{matrix} \right|Dj​=​a11​⋮an1​​⋯⋯​a1,j−1​⋮an,j−1​​b1​⋮bn​​a1,j+1​⋮an,j+1​​⋯⋯​a1n​⋮ann​​​

线性方程组

线性方程组与向量方程的转换:

{2x+5y+3z=−34x+0y+8z=01x+3y+0z=2→[253408130][xyz]=[−302]\left\{ \begin{array}{l} 2x + 5y +3z = -3 \\ 4x + 0y +8z = 0 \\ 1x+3y+0z=2 \end{array} \right. \to \begin{bmatrix} 2 & 5 & 3 \\ 4 & 0 & 8 \\ 1 & 3 & 0 \\ \end{bmatrix} \begin{bmatrix} x \\ y \\ z \\ \end{bmatrix} =\begin{bmatrix} -3 \\ 0 \\ 2 \\ \end{bmatrix}⎩⎨⎧​2x+5y+3z=−34x+0y+8z=01x+3y+0z=2​→​241​503​380​​​xyz​​=​−302​​

可以视作$A\vec{x}=\vec{v}$,可以这么理解:我们要找到一个未知的 $\vec{x}$,让它经历空间变换后变成 $\vec{v}$

如果$det(A)\neq 0$,我们可以找到它的逆矩阵 $A^{-1}$,相当于把转换好的空间转换回去。在方程两边同乘。

为什么行列式不能等于0?回忆一下,行列式等于0相当于把一个高维空间挤压成一个低维空间,它的逆矩阵相当于要把低维空间转换为高维空间。这是做不到的。它脱离了函数的概念,即一个x对应一个y,在低维空间转换为高维空间的过程中,低维空间的一个点要转换为高维空间的线、面等等,相当于一个x对应多个y

Ax 是 A 的列的线性组合,是矩阵 A 的列向量的所有线性组合生成的子空间,行列式等于0时,可能有解,仅当 $\vec{v}$ 恰好在挤压成的低维空间上。

解法之一:得到矩阵的增广矩阵A‾\overline{A}A,因此只需要把增广矩阵化为行最简形,最后一列即为方程组的解。

  1. 对于矩阵方程 AX=B\boldsymbol{A}\boldsymbol{X}=\boldsymbol{B}AX=B,(AB)⟶r(EA−1B)(\begin{array}{c:c}\boldsymbol{A} & \boldsymbol{B}\end{array}) \stackrel{r}{\longrightarrow} (\begin{array}{c:c}\boldsymbol{E} & \boldsymbol{A}^{-1}\boldsymbol{B}\end{array})(A​B​)⟶r​(E​A−1B​)

  2. 对于齐次线性方程组,矩阵A的零空间就是方程的解

    • 之有零解(零空间是一个点)的充要条件是R(A)=nR(\boldsymbol{A})=nR(A)=n

    • 有非零解(零空间是一个子空间)的充要条件是R(A)<nR(\boldsymbol{A})<nR(A)<n

    • 齐次线性方程组的解集XAX_AXA​的一个极大无关组称为一个基础解系

      XA={x=t1ξ1+⋯+tn−rξn−r∣ti∈R, i=1,⋯ ,n−r}X_A=\{x=t_1\xi_1+\cdots+t_{n-r}\xi_{n-r}|t_i\in R,\ i=1,\cdots,n-r\}XA​={x=t1​ξ1​+⋯+tn−r​ξn−r​∣ti​∈R, i=1,⋯,n−r}
  3. 对于系数矩阵为方阵的齐次线性方程组 AX=b\boldsymbol{A}\boldsymbol{X}=\boldsymbol{b}AX=b,(Ab)⟶r(EA−1b)(\begin{array}{c:c}\boldsymbol{A} & \boldsymbol{b}\end{array}) \stackrel{r}{\longrightarrow} (\begin{array}{c:c}\boldsymbol{E} & \boldsymbol{A}^{-1}\boldsymbol{b}\end{array})(A​b​)⟶r​(E​A−1b​)

    • 无解(低维表示高维)的充要条件是R(A)<R(A‾)R(\boldsymbol{A})<R(\boldsymbol{\overline{A}})R(A)<R(A)

    • 唯一解的充要条件是R(A)=R(A‾)=nR(\boldsymbol{A})= R(\boldsymbol{\overline{A}})= nR(A)=R(A)=n

    • 有无穷多解(高维中表示低维子空间)的充要条件是R(A)=R(A‾)<nR(\boldsymbol{A})=R(\boldsymbol{\overline{A}})< nR(A)=R(A)<n

    • 通解=特解+基础解系(这很好理解, 矩阵零空间向量代入方程最后结果等于 0,所以它不会影响等式,而是把方程的 解向量扩展到一个类似子空间上,使我们求出的解更具有普遍意义。)

      X=η+t1ξ1+⋯+tn−rξn−r,   (ti∈R, i=1,⋯ ,n−r)X=\eta+t_1\xi_1+\cdots+t_{n-r}\xi_{n-r},\ \ \ (t_i\in R,\ i=1,\cdots,n-r)X=η+t1​ξ1​+⋯+tn−r​ξn−r​,   (ti​∈R, i=1,⋯,n−r)

特征值与特征向量

考虑二维空间中的线性变换,一个向量张成的空间,是通过原点和向量尖端的直线。

大部分向量在变换中都离开了其张成的空间,不过,某些特殊向量的确留在它们张成的空间里,意味着矩阵对它的作用仅仅是拉伸或者压缩而已。而这些特殊向量是特征向量,特征值代表特征向量在变换中拉伸或压缩的比例。

这也与公式对应:

Av⃗=λv⃗A\vec{v} = \lambda \vec{v}Av=λv

考虑一个三维空间中的旋转。如果你能找到这个旋转的特征向量,也就是留在它张成的空间里的向量,那么你找到的就是旋转轴。在这种情况下,相应的特征值必为1,因为旋转并不缩放任何一个向量。

求解特征值和特征向量:

∣A−λE∣=0|A-\lambda E|=0∣A−λE∣=0

这是以 λ 为未知数的一元 n 次方程,称为 A 的特征方程。在复数范围内, n 阶方阵 A 有 n 个特征值(重根按重数计算)λ1,λ2,⋯ ,λn\lambda_1,\lambda_2,\cdots,\lambda_nλ1​,λ2​,⋯,λn​,求出特征值λi\lambda_iλi​后,代入齐次线性方程组中,求解方程组,得特征向量X:

(A−λiE)X=0(A-\lambda_iE)X=0(A−λi​E)X=0
  • 属于同一特征值的特征向量有无穷多个,不同特征值对应的特征向量必不相同(线性无关),即一个特征向量只能属于一个特征值。

  • ∑i=1nλi=∑i=1naii=tr(A)=主对角元之和=迹\sum_{i=1}^n\lambda_i=\sum_{i=1}^na_{ii}=tr(A)=主对角元之和=迹∑i=1n​λi​=∑i=1n​aii​=tr(A)=主对角元之和=迹

  • ∏i=1nλi=∣A∣\prod_{i=1}^n\lambda_i=|A|∏i=1n​λi​=∣A∣

相似

教科书:如果 P−1AP=BP^{-1}AP=BP−1AP=B,那么 A 与 B 相似,记作A∼BA\sim BA∼B,P称为相似变换矩阵

我们从直观的角度理解什么是 P−1APP^{-1}APP−1AP,让我们讲一个故事:当我使用基向量(0,1)和(1,0),Jenny使用基向量 (2,1)和(-1,1) 时,可以看作我们使用不同的语言。

问题来了,Jenny用(-1,2)表示一个向量,在我的坐标系如何描述?(如何从她的语言转化到我的语言?)

[2−111][−12]=[−41]\begin{bmatrix} 2 & -1 \\ 1 & 1 \\ \end{bmatrix} \begin{bmatrix} -1 \\ 2 \\ \end{bmatrix} = \begin{bmatrix} -4 \\ 1 \\ \end{bmatrix}[21​−11​][−12​]=[−41​]

复习一下,用Jenny的基向量组成的矩阵代表一种转换,将我的网格变换为Jenny的网格。然而从语义上,却是将她的语言转化为我的语言(相反的)

可以把它看作我们对Jenny的向量的误解(-1,2),变换成Jenny真正想表示的向量(-4,1)

当把矩阵求逆,即将Jenny的网格变换为我的网格;将我的语言转化为她的语言

继续下一个问题,在我的坐标系中的空间转换(矩阵 M),如何在Jenny的坐标系中表示?

拿一个Jenny的向量 $\vec{v}$ 举例:

  1. 首先乘矩阵 $A$ ,转换为我的语言。

  2. 然后乘矩阵 $P$,在我的坐标系中的空间转换完毕。

  3. 然后乘矩阵 $A^{-1}$,转换为Jenny的语言。完毕。

因此,在我的坐标系中的空间转换(矩阵 M),在Jenny的世界中用 A−1MAA^{-1}MAA−1MA 表示

总的来说,每当看到这样一个表达式:A−1PAA^{-1}PAA−1PA,这就暗示着一种数学上的转移作用,中间的矩阵代表一种你所见的变换,而外侧两个矩阵代表着转移作用,也就是视角上的转化。矩阵乘积仍然代表着同一个变换,只不过是从其他人的角度来看的。

  • A∼BA \sim BA∼B,R(A)=R(B)R(A)=R(B)R(A)=R(B),相同的特征值,∣A∣=∣B∣|A|=|B|∣A∣=∣B∣,tr(A)=tr(B)tr(A)=tr(B)tr(A)=tr(B)

  • A−1∼B−1,A∗∼B∗A^{-1}\sim B^{-1},A^*\sim B^*A−1∼B−1,A∗∼B∗,变换阵仍为 P

  • φ(A)∼φ(B),φ(⋅)\varphi(A)\sim\varphi(B),\varphi(\cdot)φ(A)∼φ(B),φ(⋅)为任意矩阵多项式),变换阵仍为 P

  • AT∼BTA^T\sim B^TAT∼BT,变换阵为(PT)−1(P^T)^{-1}(PT)−1

相似对角化

如果方阵 A 可被相似对角化,那么存在 $P^{-1}AP=\Lambda$ 为对角矩阵(称 Λ 为 A 的相似标准形)。怎么证明?

对角矩阵的空间意义:拉伸

问一个问题:对于一个矩阵(空间转换),如果用特征向量作为新的基,在新的坐标系中,这个矩阵(空间转换)是怎样的?

具体来说,取出两个特征向量,将坐标作为矩阵的列,这个矩阵就是基变换矩阵。在右侧写下基变换矩阵,在左侧写下基变换矩阵的逆。当你将原始的变换夹在两个矩阵中间时,所得的矩阵代表的是同一个变换,不过是从新基向量所构成的坐标系的角度来看的。

用特征向量来完成这件事的意义在于这个新矩阵必然是对角的,并且对角元为对应的特征值。这是因为,在新的坐标系中,基向量(同样是特征值)没有离开张成的空间,基向量在变换中只进行了缩放。

方阵 A 可被相似对角化的充要条件:在解∣A−λE∣=0|A-\lambda E|=0∣A−λE∣=0时,对于每一个n重根特征值,都要有对应的 n 个线性无关的特征向量。

如果特征值都是不同的,那是可以相似对角化的。如果存在一个(比如说)2重根特征值 为1,后续还要届方程(E−A)x=0(E-A)x=0(E−A)x=0,如果(E-A)的零空间是二维的,那么可以相似对角化。

二次型

二次多项式f=ax2+2bxy+cy2f =ax^2 + 2bxy + cy^2f=ax2+2bxy+cy2 就是二次型,可以表示为:

f=[xy][abbc][xy]=xTAx=ax2+2bxy+cy2f =\begin{bmatrix} x & y\end{bmatrix}\begin{bmatrix} a & b \\ b & c\end{bmatrix} \begin{bmatrix} x \\ y\end{bmatrix} =\boldsymbol{x^T} A \boldsymbol{x} = ax^2 + 2bxy + cy^2f=[x​y​][ab​bc​][xy​]=xTAx=ax2+2bxy+cy2

其中A是对称矩阵,称A为:

  • 正定的, 若对Rn\boldsymbol R^nRn中的所有非零x\boldsymbol xx, xTAx>0\boldsymbol x^T A \boldsymbol x > 0xTAx>0

  • 负定的, 若对Rn\boldsymbol R^nRn中的所有非零x\boldsymbol xx, xTAx<0\boldsymbol x^T A \boldsymbol x < 0xTAx<0

  • 半正定的, 若对Rn\boldsymbol R^nRn中的所有非零x\boldsymbol xx, xTAx≥0\boldsymbol x^T A \boldsymbol x \ge 0xTAx≥0

  • 半负定的, 若对Rn\boldsymbol R^nRn中的所有非零x\boldsymbol xx, xTAx≤0\boldsymbol x^T A \boldsymbol x \le 0xTAx≤0

  • 不定的, 若对Rn\boldsymbol R^nRn中的所有非零x\boldsymbol xx的取值有不同的符号

可逆线性变换不改变二次型的正定性,正定的的充要条件可以是:所有顺序主子式大于0

当二次型 f 中只有平方项,称为标准型,在此基础上如果平方项系数只为1,-1或0,称为规范型。

  • 正惯性指数:标准型中正平方项的个数

  • 负惯性指数:标准型中负平方项的个数

正交矩阵

A 为正交矩阵,则满足:

ATA=EA^TA=EATA=E
  • AT=A−1A^T=A^{-1}AT=A−1

  • 若 A 为正交阵,则向量的线性变换 y=Ax 称为正交变换

  • ∣A∣=±1|A|=\pm1∣A∣=±1

  • 若 B 也是正交阵,则AB也是正交阵

  • A 的行(列)向量组构成 RnR^nRn 的一个标准正交基.

正交矩阵代表的空间意义是旋转

实对称矩阵

  • 实对称矩阵的特征值全是实数,也必有实特征向量.

  • 实对称矩阵属于不同特征值的特征向量一定正交.

  • 实对称矩阵一定可以相似对角化

对于实对称矩阵A,必存在正交阵Q,使得:

Q−1AQ=QTAQ=ΛQ^{-1}AQ=Q^{T}AQ=\LambdaQ−1AQ=QTAQ=Λ

合同

对于方阵A,B,如果存在可逆阵C,使得:

CTAC=BC^TAC=BCTAC=B

称A合同于B,记作 A≃BA\simeq BA≃B

由于实对称矩阵一定存在正交阵Q,使其相似对角化,对于二次型 f ,可以通过x=Qyx=Qyx=Qy化为标准型:

xTAx→yTQTAQy→yTΛyx^TAx\to y^TQ^TAQy \to y^T\Lambda yxTAx→yTQTAQy→yTΛy

其中 Λ\LambdaΛ 是对角矩阵,A 相似又合同于Λ\LambdaΛ

在化为标准型的过程中,正负惯性指数不变

矩阵的四个子空间

对于一个 m*n 矩阵 A 来说

列空间 C(A)

列空间即是矩阵 A 的列向量线性组合构成的空间。对于 m*n 的矩阵 A 来说,每个列向量有 m 个分量,即列向量属于RmR^mRm空间

矩阵 A 的秩为 r,则 A 有 r 个主列,这 r 个主 列就是列空间 C(A)一组基,一组基里有 r 个向量,所以列空间维数为:r。

零空间 N(A)

即由 Ax = 0 的解构成的空间。由于 x 本质是对 A 列向 量的线性组合,A 一共有 n 个列向量,所以零空间是RnR^nRn的子空间

过矩阵 A 秩为 r 时,自由列为 n-r 列。这 n-r 列决定了 x 中的 n-r 个自由变元,赋值后就构成了零空间的 n-r 个基向量,故零空间维数 为:n-r。

行空间 C(AT)C(A^T)C(AT)

行空间就是矩阵 A 各 行线性组合构成的子空间。也可以理解为 A 转置的列空间。A 的每个行向量都有 n 个分量,是RnR^nRn的子空间。行空间的维数也是秩数 r。

左零空间 N(AT)N(A^T)N(AT)

维数为 m-r

零空间与行空间之间是正交的,它们之间的关系类似于将一个空间一分 为二的两个子空间,而且这两个子空间还是正交的。因为在Ax = 0 这个方程中,A 的每一行与x 的列相乘,其结果都为 0

矩阵分解

A = CR

C 由 A 的线性无 关列组成, R 为 A 的行阶梯形矩阵 (消除了零行). A = CR 将 A 化简为 r 的线性无关列 C 和线性无关行 R 的乘积.

例子:

[123235]=[1223][101011]\begin{bmatrix} 1 & 2 & 3 \\ 2 & 3 & 5 \end{bmatrix} = \begin{bmatrix} 1 & 2 \\ 2 & 3 \end{bmatrix} \begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 1 \end{bmatrix}[12​23​35​]=[12​23​][10​01​11​]

从左往右看 A 的列. 保留其中线性无关的列, 去掉可以由前者线性表出的列. 则第 1、2 列被保 留, 而第三列因为可以由前两列之和表示而被去掉. 而要通过线性无关的 1、2 两列重新构造出 A, 需要右乘 一个行阶梯矩阵 R

会发现列的秩为 2, 因为 C 中只有 2 个线性无关列. 而 A 中所有的列都可以由 C 中的 2 列线性表 出:所有一般的长矩阵 A 都有相同的行秩和列秩

A = LU

用高斯消除法求解 Ax = b 也被称为 LU 分解. 通常, 是 A 左乘一个初等行变换矩阵 (E) 来得到一个上三角 矩阵 U

EA=U→A=E−1U→A=LUEA=U \to A=E^{-1}U \to A=LUEA=U→A=E−1U→A=LU

一种直观的解法是通过每次把上三角和下三角的一行和一列拿出来乘,再相加:

A = QR

A = QR 是在保持 C(A) = C(Q) 的条件下, 将 A 转化为正交矩阵 Q。

格拉姆-施密特正交化见向量一节,这里不再赘述。

S=QΛQTS=Q\Lambda Q^TS=QΛQT

所有对称矩阵 S 都必须有实特征值和正交特征向量. 特征值是 Λ 的对角元素, 特征向量在 Q 中

一个对称矩阵 S 通过一个正交矩阵 Q 和它的转置矩阵, 对角化为 Λ. 然后被分解为秩一投影矩阵 P=qqTP=qq^TP=qqT 的组合. 这就是谱定理

奇异值分解

包括长方阵在内的所有矩阵都具有奇异值分解 (SVD). 将线性变换变成:旋转+拉伸+旋转

M=UΣVTM = U\Sigma V^TM=UΣVT
  • 其中,奇异向量 U 和 V都是正交矩阵,代表旋转

  • Σ\SigmaΣ 为对角矩阵,代表拉伸,非0元素的个数即为M的秩

  • V是 MTMM^TMMTM的特征向量的标准正交基,U是MMTMM^TMMT的特征向量的标准正交基,它们共同将 M 对角化为 Σ. 这也可以表示为秩 1 矩阵的线性组合。

整个过程可以这样理解:

  1. 找到一组原始域的正交基,给它乘线性变换矩阵M

  2. 找到一组M变换后空间的正交基,给它拉伸

  3. 两者相等,列等号求解

那么,奇异值分解的应用呢?

奇异值分解可以表示为秩 1 矩阵的线性组合:

即:

A=∑irσiuiviTA=\sum_i^r\sigma_i u_i v_i^TA=i∑r​σi​ui​viT​

如果我们取前k项,那么组成的这个矩阵就会是最接近A的k秩矩阵。换句话说,在累加的时候,就是一个不断逼近A的过程,前面的最重要(奇异值σ\sigmaσ大),累加到后面的作为补充不断向A逼近。

即:如果我们取前几项,就可以得到A的降维表示。是不是和PCA很像?

我们可以把图像的降维表示理解为一种压缩算法:

A\boldsymbol{A}A
k1A+k2Ek_1\boldsymbol{A}+k_2\boldsymbol{E}k1​A+k2​E
A−1\boldsymbol{A}^{-1}A−1
A∗\boldsymbol{A}^*A∗
An\boldsymbol{A}^nAn
AT\boldsymbol{A}^TAT
P−1AP\boldsymbol{P}^{-1}\boldsymbol{A}\boldsymbol{P}P−1AP
λ\lambdaλ
k1λ+k2k_1\lambda + k_2k1​λ+k2​
1λ\frac{1}{\lambda}λ1​
[A]λ\frac{\boldsymbol{[A]}}{\lambda}λ[A]​
λn\lambda^nλn
λ\lambdaλ
λ\lambdaλ
α\boldsymbol{\alpha}α
α\boldsymbol{\alpha}α
α\boldsymbol{\alpha}α
α\boldsymbol{\alpha}α
α\boldsymbol{\alpha}α
α\boldsymbol{\alpha}α
P−1α\boldsymbol{P}^{-1}\boldsymbol{\alpha}P−1α