向量
三种看待向量的观点
向量加法的几何意义:遵循三角形法则。如果将每个向量看作一种特定的运动,即向空间中某个方向迈出一定距离。若先沿着第一个向量方向移动,再沿着第二个向量方向移动,总体效果与沿着这两个向量和运动无异。
向量乘法的几何意义:乘以大于1的数值,就是将这个向量拉伸;乘以小于1的数值,就是将这个向量压缩;乘以负数,就是将这个向量翻转。拉伸,压缩,翻转向量的行为,统称为缩放(scaling),而这些数值本身,称之为标量(scalars)。
把向量组的各个向量以同样的方式增加若干个分量得到的向量组称为接长向量组。把向量组的各个向量以同样的方式删除若干个分量得到的向量组称为截短向量组。一个线性相关的向量组截短后仍相关,而一个线性无关的向量组接长后仍无关。
当若干非零向量两两正交(垂直)时,称它们构成的向量组为正交向量组;进一步地,若它们又都是单位向量,则称为标准正交向量组(或正交规范向量组)
对线性运算(相加,数乘)封闭的空间:向量空间
内积:
⟨α,β⟩=a1b1+a2b2+⋯+anbn=i=1∑naibi 范数(即长度或模):
∥α∥=⟨α,α⟩=a12+a22+⋯+an2 柯西-施瓦兹(Cauchy-Schwarts)不等式:⟨α,β⟩≤∥α∥⋅∥β∥
三角不等式:∥α+β∥≤∥α∥+∥β∥
夹角:
φ=arccos∥α∥∥β∥⟨α,β⟩ 施密特(Schmidt)正交化方法:
首先取 β1=α1。
β2=α2−⟨β1,β1⟩⟨α2,β1⟩β1 β3=α3−⟨β1,β1⟩⟨α3,β1⟩β1−⟨β2,β2⟩⟨α3,β2⟩β2 同样的方式一直做下去,直到
βm=αm−⟨β1,β1⟩⟨αm,β1⟩β1−⟨β2,β2⟩⟨αm,β2⟩β2−⋯−⟨βm−1,βm−1⟩⟨αm,βm−1⟩βm−1 这样即得到与 α1,α2,⋯,αm 等价的正交向量组 β1,β2,⋯,βm。进一步,将正交向量组 β1,β2,⋯,βm单位化,令:
γi=∥βi∥βi,i=1,⋯,m 得到等价的正交规范向量组γ1,γ2,⋯,γm,整个过程称为正交规范化
几何解释是:已知 α1,α2 线性无关但不正交。显然二者不在同一直线上,假定 α1,α2 的夹角 φ 为锐角。先取 β1=α1 然后将 α2 做一个正交分解(比如物理学中经常把力或速度等向量分解为两个相互垂直的向量),将其分解为跟 α1 平行的向量 kα1 和跟 α1 垂直的向量 β2
矩阵
矩阵与向量乘
线性变换从几何想象看,是一种操纵空间的手段,特点包括:
可以借助基向量 i 和 j 的变换,可以理解整个空间的线性变换:
事实上,一个二维线性变换仅由四个数字完全确定,即基向量的变换。借助基向量的变换,我们可以得到任意一个向量$(x,y)$在线性变换后的结果。
把它抽象化之后,则得到了矩阵乘法的运算公式,并且还可见其几何意义,$(a,c)$和$(b,d)$是新空间的基
这个式子从另一个角度看,Ax 是 A 的列的线性组合,矩阵 A 的列向量的所有线性组合生成的子空间记为 C(A)
一个特殊例子,假如变换之后的向量是线性相关的,那么所有原来平面上的点在变换之后就被压缩到了一条直线上。
矩阵乘
两个矩阵相乘有着几何意义,也就是两个线性变换相继作用,如图,注意先作用M1,然后M2
那么非方阵呢?体现了不同维数之间的变换。
如果2×2矩阵表示二维向量到二维向量的变换,3×3矩阵来表示的三维向量到三维向量的变换,那么自然的,3×2矩阵肯定是二维向量与三维向量的转换,但是从谁转换到谁呢?
对于3×2矩阵,矩阵有两列表明输入空间有两个基向量,有三行表明每一个基向量再变换后都用三个独立的坐标来描述,因此几何意义是将二维空间映射到三维空间上。
动画例子:1×2的矩阵代表将二维空间映射到一维空间上:
动画例子:2×3的矩阵代表将三维空间映射到二维空间上:
其他性质:
∣λA∣=λn∣A∣
对于矩阵相乘,交换律一般不成立,消去律一般不成立,分配律成立
AB=O不能推出 A=O或 B=O。推论:AB=AC,A不为0矩阵,推不出B=C
∣AB∣=∣A∣∣B∣
∣Ak∣=∣A∣k
(A±B)T=AT±BT
(AB)T=BTAT
∣AT∣=∣A∣
如果 AT=A,则称 A 为对称矩阵,如果 AT=−A,则称 A 为反对称矩阵
分块转置:
A=A11A21⋮As1A12A22⋮As2⋯⋯⋯A1rA2r⋮Asr,AT=A11TA12T⋮A1rTA21TA22T⋮A2rT⋯⋯⋯As1TAs2T⋮AsrT 初等变换
初等行变换:
初等变换不改变矩阵的秩。若矩阵 A经过有限次初等变换变成 B,则称矩阵 A 与 B 等价,记作 A↔B。等价的矩阵等秩,反之不一定成立。
由单位矩阵 E 经过一次初等变换得到的矩阵称为初等矩阵,简称初等阵。三种初等变换对应三种初等矩阵。
秩
秩代表着变换后空间的维数。
举个例子,当变换的结果为一条直线时(一维),我们称这个变换的秩为1。
比如说对于2×2的矩阵,它的秩最大为2,意味着基向量仍旧能张成整个二维空间,并且矩阵的行列式不为零。但是对于3×3的矩阵,秩为2意味着空间被压缩了。
对于一个非满秩的矩阵来说,它将空间压缩到一个更低的维度上,也就是说会有一系列向量在变换后成为零向量(直线降维为点)。
举些例子:如果一个二维线性变换将空间压缩到一条直线上(降维),那么沿不同方向直线上的所有向量就被压缩到原点。
如果 一个三维线性变换将空间压缩到一条直线上,那么就有一整个平面上的向量在变换后落在原点。
变换后落在原点的向量的集合,被称为矩阵的零空间或核。变换后一些向量落在零向量上,而“零空间”正是这些向量所构成的空间。
零空间,就是 Ax = 0 的所有解所构成的一个空间
对于 m*n 的矩阵来说,列空间是Rm的子空间,零空间是Rn的子空间。 列空间关键在于列向量的维数,零空间的关键在于列向量的个数。
求秩:把矩阵 A 通过初等行变换变为行阶梯形矩阵 B,则行阶梯形矩阵 B 的非零行数即为矩阵 A 的秩
A 的秩 R(A) 即为矩阵 A 的非零子式的最高阶数
∣A∣=0,R(A)=n,满秩矩阵,非奇异矩阵,可逆矩阵
∣A∣=0,R(A)<n,降秩矩阵,奇异矩阵,不可逆矩阵
行秩=列秩,0≤R(A)≤minm,n
max{R(A),R(B)}≤R(AB)≤R(A)+R(B)
R(A+B)≤R(A)+R(B)
R(AB)≤min{R(A),R(B)}
若 Am×nBn×l=O,则 R(A)+R(B)≤n
R(A∗)=⎩⎨⎧n,1,0,若R(A)=n,若R(A)=n−1,若R(A)<n−1,
R(ATA)=R(A)
逆矩阵
如果:
则称矩阵 A 可逆(或称 A 是可逆矩阵),称 B 是 A 的逆矩阵,记为 A−1,即 B=A−1,若不存在 B 满足式,则称矩阵A 不可逆。
伴随矩阵:下面的式子为 A 的伴随矩阵,记为 A∗,其中 Aij 为元素 aij 的代数余子式
A11A12⋮A1nA21A22⋮A2n⋯⋯⋯An1An2⋮Ann 注意这个伴随矩阵和原来的A比较转置了
求逆矩阵方式之一:公式
A−1=∣A∣1A∗ 求逆矩阵方式之二:增广后变换
(AE)⟶(EA−1) AA∗=A∗A=∣A∣E
(λA)−1=λ1A−1
(AB)−1=B−1A−1
(AT)−1=(A−1)T
(A−1)−1=A,∣A−1∣=∣A∣1
(A∗)−1=(A−1)∗=∣A∣A
A∗=∣A∣A−1,∣A∗∣=∣A∣n−1
分块的逆:
(B00C)−1=(B−100C−1),(0CB0)−1=(0B−1C−10) 行列式
行列式:线性变换改变面积的比例。二阶行列式可看做平行四边形的面积
行列式为0,矩阵必然线性相关,或者说面积被挤压到0
行列式的正负与平面的取向有关,行列式为负,空间被翻转
三阶行列式可简单看做平行六面体的体积,正负号代表三维翻转,如果可以用右手系表示为正,如果只能用左手系表示为负
严谨的面积计算方法:
∣A∣∣B∣=∣AB∣
∣AT∣=∣A∣
任意两个向量线性相关(秩为0),行列式等于零
直观理解:降到低维空间中了,在本维度中的“体积”为0
行列式某一行(列)的所有元素都乘以同一数 k,等于用数 k 去乘行列式,公因子也可以提到行列式的符号外面
直观理解:构成“体积”的某一条边扩大k倍,“体积”扩大k倍
把行列式的某一行(列)的各元素乘以同一个数然后加到另一行(列)对应的元素上去,行列式的值不变。
D=a11⋮ai1⋮aj1⋮an1a12⋮ai2⋮aj2⋮an2⋯⋯⋯⋯a1n⋮ain⋮ajn⋮ann=a11⋮ai1+kaj1⋮aj1⋮an1a12⋮ai2+kaj2⋮aj2⋮an2⋯⋯⋯⋯a1n⋮ain+kajn⋮ajn⋮ann 若行列式的某一行(列)的元素都是两数之和,例如,第i行的元素都是两数之和,那么可以拆开
D=a11a21⋮ai1⋮an1a12a22⋮ai2⋮an2⋯⋯⋯⋯a1na2n⋮ain⋮ann+a11a21⋮a′i1⋮an1a12a22⋮a′i2⋮an2⋯⋯⋯⋯a1na2n⋮a′in⋮ann D=a11a21⋮ai1+a′i1⋮an1a12a22⋮ai2+a′i2⋮an2⋯⋯⋯⋯a1na2n⋮ain+a′in⋮ann
余子式:在n阶行列式中划去元素aij所在的第i行第j列,由剩下的元素按原来的排法构成一个n-1阶的行列式Mij
代数余子式:Aij=(−1)i+jMij
行列式D等于它的任意一行(列)的所有元素与它们各自对应的代数余子式的乘积之和。
行列式D的任意一行(列)的所有元素与另外一行(列)对应的代数余子式之和等于0。
上(下)三角行列式的值等于主对角线元素的乘积:
a11a22...ann 关于副对角线的行列式,重新排列一下:
a11a21⋮an1a12a22⋮0⋯⋯⋯a1,n−1a2,n−1⋮0a1n0⋮0=00⋮an1⋯⋯⋯0a2,n−1⋮an,n−1a1na2n⋮ann=(−1)2n(n−1)a1na2,n−1⋯an1 范德蒙德(Vandermonde)行列式:
Dn=1x1x12⋮x1n−11x2x22⋮x2n−1…………1xnxn2⋮xnn−1=1≤i<j≤n∏(xj−xi) 拉普拉斯展开式:
A0∗B=A∗0B=∣A∣⋅∣B∣0BA∗=∗BA0=(−1)mn∣A∣⋅∣B∣ 克拉默(Cramer)法则:
\begin{cases} a_{11}x_1 + a_{12}x_2 + \dots + a_{1n}x_n = b_1 \\ a_{21}x_1 + a_{22}x_2 + \dots + a_{2n}x_n = b_2 \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \cdots\cdots\cdots\cdots\cdots\\ a_{n1}x_1 + a_{n2}x_2 + \dots + a_{nn}x_n = b_n \\ \end{cases}\
唯一解为:
x1=DD1,x2=DD2,⋯,x1=DDn D为方程组转换的行列式,Dj是把系数行列式 D 中第 j 列的元素用方程组右端的常数项代替后得到的 n 阶行列式,即:
Dj=a11⋮an1⋯⋯a1,j−1⋮an,j−1b1⋮bna1,j+1⋮an,j+1⋯⋯a1n⋮ann 线性方程组
线性方程组与向量方程的转换:
⎩⎨⎧2x+5y+3z=−34x+0y+8z=01x+3y+0z=2→241503380xyz=−302 可以视作$A\vec{x}=\vec{v}$,可以这么理解:我们要找到一个未知的 $\vec{x}$,让它经历空间变换后变成 $\vec{v}$
如果$det(A)\neq 0$,我们可以找到它的逆矩阵 $A^{-1}$,相当于把转换好的空间转换回去。在方程两边同乘。
为什么行列式不能等于0?回忆一下,行列式等于0相当于把一个高维空间挤压成一个低维空间,它的逆矩阵相当于要把低维空间转换为高维空间。这是做不到的。它脱离了函数的概念,即一个x对应一个y,在低维空间转换为高维空间的过程中,低维空间的一个点要转换为高维空间的线、面等等,相当于一个x对应多个y
Ax 是 A 的列的线性组合,是矩阵 A 的列向量的所有线性组合生成的子空间,行列式等于0时,可能有解,仅当 $\vec{v}$ 恰好在挤压成的低维空间上。
解法之一:得到矩阵的增广矩阵A,因此只需要把增广矩阵化为行最简形,最后一列即为方程组的解。
对于矩阵方程 AX=B,(AB)⟶r(EA−1B)
对于齐次线性方程组,矩阵A的零空间就是方程的解
之有零解(零空间是一个点)的充要条件是R(A)=n
有非零解(零空间是一个子空间)的充要条件是R(A)<n
齐次线性方程组的解集XA的一个极大无关组称为一个基础解系
XA={x=t1ξ1+⋯+tn−rξn−r∣ti∈R, i=1,⋯,n−r}
对于系数矩阵为方阵的齐次线性方程组 AX=b,(Ab)⟶r(EA−1b)
无解(低维表示高维)的充要条件是R(A)<R(A)
唯一解的充要条件是R(A)=R(A)=n
有无穷多解(高维中表示低维子空间)的充要条件是R(A)=R(A)<n
通解=特解+基础解系(这很好理解, 矩阵零空间向量代入方程最后结果等于 0,所以它不会影响等式,而是把方程的 解向量扩展到一个类似子空间上,使我们求出的解更具有普遍意义。)
X=η+t1ξ1+⋯+tn−rξn−r, (ti∈R, i=1,⋯,n−r)
特征值与特征向量
考虑二维空间中的线性变换,一个向量张成的空间,是通过原点和向量尖端的直线。
大部分向量在变换中都离开了其张成的空间,不过,某些特殊向量的确留在它们张成的空间里,意味着矩阵对它的作用仅仅是拉伸或者压缩而已。而这些特殊向量是特征向量,特征值代表特征向量在变换中拉伸或压缩的比例。
这也与公式对应:
Av=λv 考虑一个三维空间中的旋转。如果你能找到这个旋转的特征向量,也就是留在它张成的空间里的向量,那么你找到的就是旋转轴。在这种情况下,相应的特征值必为1,因为旋转并不缩放任何一个向量。
求解特征值和特征向量:
∣A−λE∣=0 这是以 λ 为未知数的一元 n 次方程,称为 A 的特征方程。在复数范围内, n 阶方阵 A 有 n 个特征值(重根按重数计算)λ1,λ2,⋯,λn,求出特征值λi后,代入齐次线性方程组中,求解方程组,得特征向量X:
(A−λiE)X=0 属于同一特征值的特征向量有无穷多个,不同特征值对应的特征向量必不相同(线性无关),即一个特征向量只能属于一个特征值。
∑i=1nλi=∑i=1naii=tr(A)=主对角元之和=迹
∏i=1nλi=∣A∣
相似
教科书:如果 P−1AP=B,那么 A 与 B 相似,记作A∼B,P称为相似变换矩阵
我们从直观的角度理解什么是 P−1AP,让我们讲一个故事:当我使用基向量(0,1)和(1,0),Jenny使用基向量 (2,1)和(-1,1) 时,可以看作我们使用不同的语言。
问题来了,Jenny用(-1,2)表示一个向量,在我的坐标系如何描述?(如何从她的语言转化到我的语言?)
[21−11][−12]=[−41] 复习一下,用Jenny的基向量组成的矩阵代表一种转换,将我的网格变换为Jenny的网格。然而从语义上,却是将她的语言转化为我的语言(相反的)
可以把它看作我们对Jenny的向量的误解(-1,2),变换成Jenny真正想表示的向量(-4,1)
当把矩阵求逆,即将Jenny的网格变换为我的网格;将我的语言转化为她的语言
继续下一个问题,在我的坐标系中的空间转换(矩阵 M),如何在Jenny的坐标系中表示?
拿一个Jenny的向量 $\vec{v}$ 举例:
然后乘矩阵 $P$,在我的坐标系中的空间转换完毕。
然后乘矩阵 $A^{-1}$,转换为Jenny的语言。完毕。
因此,在我的坐标系中的空间转换(矩阵 M),在Jenny的世界中用 A−1MA 表示
总的来说,每当看到这样一个表达式:A−1PA,这就暗示着一种数学上的转移作用,中间的矩阵代表一种你所见的变换,而外侧两个矩阵代表着转移作用,也就是视角上的转化。矩阵乘积仍然代表着同一个变换,只不过是从其他人的角度来看的。
A∼B,R(A)=R(B),相同的特征值,∣A∣=∣B∣,tr(A)=tr(B)
A−1∼B−1,A∗∼B∗,变换阵仍为 P
φ(A)∼φ(B),φ(⋅)为任意矩阵多项式),变换阵仍为 P
AT∼BT,变换阵为(PT)−1
相似对角化
如果方阵 A 可被相似对角化,那么存在 $P^{-1}AP=\Lambda$ 为对角矩阵(称 Λ 为 A 的相似标准形)。怎么证明?
对角矩阵的空间意义:拉伸
问一个问题:对于一个矩阵(空间转换),如果用特征向量作为新的基,在新的坐标系中,这个矩阵(空间转换)是怎样的?
具体来说,取出两个特征向量,将坐标作为矩阵的列,这个矩阵就是基变换矩阵。在右侧写下基变换矩阵,在左侧写下基变换矩阵的逆。当你将原始的变换夹在两个矩阵中间时,所得的矩阵代表的是同一个变换,不过是从新基向量所构成的坐标系的角度来看的。
用特征向量来完成这件事的意义在于这个新矩阵必然是对角的,并且对角元为对应的特征值。这是因为,在新的坐标系中,基向量(同样是特征值)没有离开张成的空间,基向量在变换中只进行了缩放。
方阵 A 可被相似对角化的充要条件:在解∣A−λE∣=0时,对于每一个n重根特征值,都要有对应的 n 个线性无关的特征向量。
如果特征值都是不同的,那是可以相似对角化的。如果存在一个(比如说)2重根特征值 为1,后续还要届方程(E−A)x=0,如果(E-A)的零空间是二维的,那么可以相似对角化。
二次型
二次多项式f=ax2+2bxy+cy2 就是二次型,可以表示为:
f=[xy][abbc][xy]=xTAx=ax2+2bxy+cy2 其中A是对称矩阵,称A为:
正定的, 若对Rn中的所有非零x, xTAx>0
负定的, 若对Rn中的所有非零x, xTAx<0
半正定的, 若对Rn中的所有非零x, xTAx≥0
半负定的, 若对Rn中的所有非零x, xTAx≤0
不定的, 若对Rn中的所有非零x的取值有不同的符号
可逆线性变换不改变二次型的正定性,正定的的充要条件可以是:所有顺序主子式大于0
当二次型 f 中只有平方项,称为标准型,在此基础上如果平方项系数只为1,-1或0,称为规范型。
正交矩阵
A 为正交矩阵,则满足:
若 A 为正交阵,则向量的线性变换 y=Ax 称为正交变换
A 的行(列)向量组构成 Rn 的一个标准正交基.
正交矩阵代表的空间意义是旋转
实对称矩阵
对于实对称矩阵A,必存在正交阵Q,使得:
Q−1AQ=QTAQ=Λ 合同
对于方阵A,B,如果存在可逆阵C,使得:
称A合同于B,记作 A≃B
由于实对称矩阵一定存在正交阵Q,使其相似对角化,对于二次型 f ,可以通过x=Qy化为标准型:
xTAx→yTQTAQy→yTΛy 其中 Λ 是对角矩阵,A 相似又合同于Λ
在化为标准型的过程中,正负惯性指数不变
矩阵的四个子空间
对于一个 m*n 矩阵 A 来说
列空间 C(A)
列空间即是矩阵 A 的列向量线性组合构成的空间。对于 m*n 的矩阵 A 来说,每个列向量有 m 个分量,即列向量属于Rm空间
矩阵 A 的秩为 r,则 A 有 r 个主列,这 r 个主 列就是列空间 C(A)一组基,一组基里有 r 个向量,所以列空间维数为:r。
零空间 N(A)
即由 Ax = 0 的解构成的空间。由于 x 本质是对 A 列向 量的线性组合,A 一共有 n 个列向量,所以零空间是Rn的子空间
过矩阵 A 秩为 r 时,自由列为 n-r 列。这 n-r 列决定了 x 中的 n-r 个自由变元,赋值后就构成了零空间的 n-r 个基向量,故零空间维数 为:n-r。
行空间 C(AT)
行空间就是矩阵 A 各 行线性组合构成的子空间。也可以理解为 A 转置的列空间。A 的每个行向量都有 n 个分量,是Rn的子空间。行空间的维数也是秩数 r。
左零空间 N(AT)
维数为 m-r
零空间与行空间之间是正交的,它们之间的关系类似于将一个空间一分 为二的两个子空间,而且这两个子空间还是正交的。因为在Ax = 0 这个方程中,A 的每一行与x 的列相乘,其结果都为 0
矩阵分解
A = CR
C 由 A 的线性无 关列组成, R 为 A 的行阶梯形矩阵 (消除了零行). A = CR 将 A 化简为 r 的线性无关列 C 和线性无关行 R 的乘积.
例子:
[122335]=[1223][100111] 从左往右看 A 的列. 保留其中线性无关的列, 去掉可以由前者线性表出的列. 则第 1、2 列被保 留, 而第三列因为可以由前两列之和表示而被去掉. 而要通过线性无关的 1、2 两列重新构造出 A, 需要右乘 一个行阶梯矩阵 R
会发现列的秩为 2, 因为 C 中只有 2 个线性无关列. 而 A 中所有的列都可以由 C 中的 2 列线性表 出:所有一般的长矩阵 A 都有相同的行秩和列秩
A = LU
用高斯消除法求解 Ax = b 也被称为 LU 分解. 通常, 是 A 左乘一个初等行变换矩阵 (E) 来得到一个上三角 矩阵 U
EA=U→A=E−1U→A=LU 一种直观的解法是通过每次把上三角和下三角的一行和一列拿出来乘,再相加:
A = QR
A = QR 是在保持 C(A) = C(Q) 的条件下, 将 A 转化为正交矩阵 Q。
格拉姆-施密特正交化见向量一节,这里不再赘述。
S=QΛQT
所有对称矩阵 S 都必须有实特征值和正交特征向量. 特征值是 Λ 的对角元素, 特征向量在 Q 中
一个对称矩阵 S 通过一个正交矩阵 Q 和它的转置矩阵, 对角化为 Λ. 然后被分解为秩一投影矩阵 P=qqT 的组合. 这就是谱定理
奇异值分解
包括长方阵在内的所有矩阵都具有奇异值分解 (SVD). 将线性变换变成:旋转+拉伸+旋转
M=UΣVT Σ 为对角矩阵,代表拉伸,非0元素的个数即为M的秩
V是 MTM的特征向量的标准正交基,U是MMT的特征向量的标准正交基,它们共同将 M 对角化为 Σ. 这也可以表示为秩 1 矩阵的线性组合。
整个过程可以这样理解:
那么,奇异值分解的应用呢?
奇异值分解可以表示为秩 1 矩阵的线性组合:
即:
A=i∑rσiuiviT 如果我们取前k项,那么组成的这个矩阵就会是最接近A的k秩矩阵。换句话说,在累加的时候,就是一个不断逼近A的过程,前面的最重要(奇异值σ大),累加到后面的作为补充不断向A逼近。
即:如果我们取前几项,就可以得到A的降维表示。是不是和PCA很像?
我们可以把图像的降维表示理解为一种压缩算法: