矩阵论课程笔记

线性空间

线性空间的定义

线性空间是代数系统的一种

加群

V是非空集合,定义V中加法运算:任意的u,v∈V,都存在唯一的V中元素与之对应,称之为u与v的和,记作u+v

这种加法运算必须满足交换律,结合律,并存在零元和负元

此时(V, +)构成一个加群

数域

对四则运算封闭的数集叫数域,有理数集是最小的数域,Q,R,C都是数域

线性空间

设(V, +)是加群,F是数域,且定义了V上元素对F中数字的数乘规则:任取λ∈F,b∈V,存在V中唯一元素与之对应,记作λb

若满足数乘对数加和元素加的分配律,数乘对数的结合律,以及存在幺元1

则称V是F上的线性空间,V中元素称为向量,F中称为标量

当F=R时称之为实线性空间,F=C时为复线性空间

常见的线性空间

这里的空间加法是普遍的向量加法或常规加法,省略了,并且都是对数域R来说的

几何空间(R, R2, R3, …… , Rn)

mxn阶实矩阵空间Rmxn

方程组Ax=0的解空间{x|Ax=0},也叫矩阵A的零空间或核

线性空间的性质

线性表出/线性无关

若有x∈V,取m个y∈V,若存在m个c∈F,使得x=∑cy,称x可以由这一组向量y线性表出

若对一组向量x,想让∑cx=θ,只能让所有c=0,则称这组x线性无关

能被线性表出说明x能被这组y替代,对于一组向量,我们总能用线性表出的方式去掉可以被替代的向量,最终得到的向量每一个都无法被其它向量线性表出,称为原向量组的极大线性无关组

维数

维数的定义是由线性无关组引出的。对一个线性空间,其中包含向量最多的线性无关向量组的向量个数称为该空间的维度

当这个最大线性无关组的个数为无限时,称该线性空间为无限维空间

换句话说,用这n个向量能线性表示所有V中向量,并且n彼此之间已经不能相互替代,就称V是n维

记作dimV=n

基底

若V中向量都可以被一组线性无关的向量{x1, x2, ……, xn}线性表出,则称这组向量为V的一组基底

V=span{x1, x2, ……, xn}

span表示内部向量能线性表示的所有向量集

坐标

定义

确定V的一组基底{x1, x2, ……, xn}之后,对任意的y∈V,都对应唯一的一组ci∈F,使得y=∑ci xi

这组数ci就称为y在基底xi下的坐标

有了基和坐标,就可以把研究线性空间上向量的问题转为研究Rn上向量的问题

坐标过渡矩阵

对两组基底x和y,yi在x下的坐标是ci,则ci组成的矩阵A为x到y的过渡矩阵

即x到y的过渡矩阵满足y=xA

过渡矩阵必是可逆阵

子空间

定义

两个线性空间W和V,它们加法和数乘定义相同,任取x∈W都有x∈V,则称W为V的子空间。零元素集{θ}和V自身被称作平凡的子空间

交与和

W1, W2是V的子空间,则W1∩W2,W1+W2都是V的子空间

和空间不是并,而是W1和W2各取一个元素加和构成的新元素组成的空间

实际上,空间之间的运算可以看作基底之间的运算。子空间交集的基底可以看作两组基底的交组成的空间。子空间和的基底可以看作两组基底去掉多余的向量之后新基底组成的空间

子空间维数定理

dimW1+dimW2-dim(W1∩W2)=diw(W1+W2)

从基底来理解非常好理解,也很容易证明

即W1和W2的基底合并,抛去重复的(W1∩W2),剩下的就是W1+W2

直和

如果W1和W2没有重复的基底,则称W1+W2为直和,可以用带圆圈的特殊加号表示

证明W1+W2是直和,等价于:

1.W1和W2的交集只含零元

2.W1+W2中的零元表示唯一

3.dimW1+dimW2=dim(W1+W2)

注意这里的表示唯一是指从W1里挑出一个向量,再从W2里挑出一个向量来,用它们的和表示

一旦把W1和W2看作两组基底,一切都是显然的

线性变换

V, W是F上的线性空间,映射T:V->W,若任取v,w∈V,λ,μ∈F,有λT(v)+μT(w)=T(λv+μw),则称T为V到W的一个线性映射

若V=W,称T是V上的一个线性变换

线性映射的性质

核空间与像空间

记L(V, W)为V到W的所有线性变换集合,T∈L(V, W)

定义T的核空间N(T)={x|x∈V,Tx=θ}

T的像空间R(T)={y|y∈W,y=Tx,x∈V}

N(T)是V的子空间,并且dimN(T)被称为T的亏或零度

R(T)是W的子空间,dimR(T)被称为T的秩

理解一下为什么:我们认为一个线性空间可以看作一组基底和它们能表示的向量集合,那么何为核空间?要求里面的元素在经过T的变换之后,对应W中的零元。

什么样的元素能够被T变成零元?首先V中的零元肯定可以。然后假设一个非零元素被T变成了零元,我们知道所有可以被该元素线性表示的元素也都会被T变成零元。因此若把这些会被变成零元的元素拿出来看作V子空间的一组基底,那么可以这样理解:T可以把V中基底的一部分向量变成零元,这一部分向量组成的线性空间被称为T的核空间,向量的个数称为T的亏

那么T相当于抹除了V的一部分基底

dimR(T)其实对应着V中没有被抹除的那部分基底

亏加秩定理

经过上面的分析,显然有dimN(T)+dimR(T)=dimV

线性空间的矩阵和同构

矩阵

之前说过,线性空间固定一组基底后,一切运算都可以看作是在实空间上。那么对线性变换来说,固定基底后,实际上是坐标向量对坐标向量的变换

坐标向量对坐标向量的变换可以用坐标向量乘以矩阵来表示

取V的一组基e,Te=eA

则A称为T在e下的矩阵

注意e是一组基,即n个基

L(V, V)上的线性变换和Rnxn上的矩阵有一一对应的关系

这样,研究线性变换就变成了研究矩阵

这样去理解矩阵,矩阵也有了实际的意义

同构

若存在数域F上的两个线性空间V和W,存在一一映射f:V->W,满足任取v,w∈V,λ,μ∈F,有λf(v)+μf(w)=f(λv+μw)说明V和W是同构的记作V在f全等于W,符号是一个等号上写全等号再上面写个f

同构的线性空间相当于在不同的基下研究同一套矩阵,或者说,可以把同构的空间视作一个

一些性质

矩阵的亏加秩

线性变换有亏加秩,线性变换和矩阵一一对应,则矩阵也有亏加秩定理

矩阵的核空间N(A)={x|x∈Fn, Ax=0}

矩阵的像空间R(A)={y|x∈Fn, Ax=y}

R(A)+N(A)=n

同一线性变换不同基下的矩阵相似

根据过渡矩阵必是可逆阵可以轻松推出

特征值和特征向量

同样的特征变换可以在不同的基下用不同的矩阵表示,这些矩阵都是相似的

那么利用一些特殊的基来表示线性变换,就能够将矩阵的形式进行适当的简化

这就引出了特征向量和特征值的概念,特征向量某种程度上反应了线性变换的方向,而特征值则反应了线性变换在某一维度上拉伸或收缩的倍率

以特征向量作为矩阵的一组基,可以得到线性变换所对应的特殊的矩阵,这些矩阵是对角阵,其中第i行i列的值就是第i个特征向量对应的特征值

定义

对线性变换T∈L(V, V),若λ∈F,ξ∈V,Tξ=λξ,则称λ是T的一个特征值,ξ是对应的特征向量

为了使求特征向量和特征值的问题变成一个纯代数问题,设定一组基底,将T转换为对应的矩阵A,将特征向量用对应基底下的坐标来表示

这样,求特征向量变成了求解方程Ax=λx的所有解,即求方程组(A-λI)x=0

为了让(A-λI)x=0有非零解,根据线性方程组的研究,引入了行列式|A|的概念,因为只有系数矩阵的行列式|A-λI|为0时,该线性方程组才有非0解

所以,特征值λ即为方程|A-λI|=0的解,得到多个λ之后,带入(A-λI)x=0来寻找对应的x

行列式|A-λI|被称之为特征多项式f(λ)

性质

相似的矩阵有相同的特征值

这表明线性变换的特征值和基的选取无关。从方向和伸缩上去理解也是这样的。不同的基选取可能会导致特征值和基之间的相对方向有所不同,这种不同导致了特征向量的不同,但伸缩程度是绝对的,只由线性变换本身决定

Schur引理

(证明有些巧妙,多看看记下来……)任意矩阵都相似于一个上三角阵,其主对角元上是该矩阵的所有特征值

这一点可以推出矩阵多项式的特征值

Hamilton-Cayley定理

将矩阵代入自己的特征多项式f(A)=0(零矩阵)。这一点可以通过代数基本定理分解因式之后,利用Schur引理化三角阵证明

这一定理可以用来简化矩阵多项式的计算

最小多项式

根据Cayley定理,对任意矩阵A,必存在使其零化的多项式

所有能够使A零化的多项式里,次数最低的首一多项式称为A的最小多项式,记作mA(λ)

很容易可以看出,任何使A零化的多项式都能被mA(λ)整除

mA(λ)和f(λ)有着相同的根,因为后者的每个根都是A的特征值,对应特征向量ξ,那么mA(A)ξ=0,mA(A)ξ=mA(λ)ξ

所以mA(λ)ξ=0,此时mA(λ)是数,ξ不为0,只能有mA(λ)=0

因此,mA(λ)=Π(λ-λi)mi

1<=mi<=ni,ni是f(λ)里λ-λi的次数

变换T的最小多项式就是对应矩阵A的最小多项式

不同特征值对应特征向量线性无关

可以反证,用其它向量线性表示出某个向量,之后代入得矛盾

可对角化矩阵

与某个对角阵相似的矩阵被称为可对角化矩阵(或单纯矩阵)

可对角化矩阵的充要条件有:

矩阵有n个线性无关的特征向量

矩阵特征值的代数重数(f(λ)=0的解重数)等于其几何重数(特征值对应的特征向量数)

最小多项式无重根

为什么有的矩阵不可以对角化?因为有些矩阵用作线性变换时维度不够(如幂0阵或I+幂0),幂0性有着把其它方向拉到一个方向的特性

单纯的幂0阵会忽略某个方向,这是好理解的

λ-矩阵理论简介

以λ的多项式为元素的矩阵称为λ-矩阵

λ-矩阵A中不等于零的子式最高阶数为A的秩,记为rank(A(λ))=r

λ-矩阵的初等变换包括行列互换,行列非零数乘,用λ多项式乘某行列并相加到另一行列

若λ-矩阵A能够经有限次初等变换化为λ-矩阵B,则称A和B等价,符号是全等符号

Smith标准型

Smith标准型一定存在

矩阵的Smith标准型可表示为diag{d1(λ), d2(λ), ……, dr(λ), ……, 0}

其中di是首一多项式,并且满足后面的能够被前面的整除即di(λ)|di+1(λ)

怎么证明所有的矩阵一定能化成这样的标准型?

多项式间因为可以乘λ,所以“更相减损”,可以得到最小公因式

1.化归第一列,所有元素除以第一个,余数次数最小的放在最上面——重复此过程直到所有元素都能够被第一个整除,将其全0化,然后2

2.拿着第一列的唯一元素去除第一行,得到余数最小的放在第一列,重复1

最终会得到最小首一多项式,它能将除它之外的所有行列都化为0

思考为什么次数全部元素都能让a11整除(因为两次化归)

Smith标准型唯一存在

不会证明

不变因子

Smith标准型对角线上的非0含λ多项式di(λ)被称为原矩阵A的不变因子

则若A和B等价,AB有相同的不变因子

初等因子组

矩阵的不变因子可以被分解为若干一次多项式的幂的乘积

这些多项式的幂称为矩阵的初等因子

若A和B等价,AB有相同的初等因子

反之,若AB有完全相同的初等因子,那么必须知道rA=rB才能确定A和B等价

若A与某个对角阵相似,那么该对角阵所有非0元素的一次因式的幂就是A全部的初等因子(证明略)

AB相似当且仅当A-λI与B-λI等价

证明略

λI-A的行列式是所有初等因子的乘积,所以所有初等因子的次数之和是n

Jordan标准型

并非所有矩阵都可以对角化,但所有矩阵都能化为Jordan标准型

定义

特征矩阵λI-A的初等因子为(λ-λi)ki,所有的k加起来为n

定义矩阵Ji,对角线上是λi,再上一行是1

称Ji是A的Jordan块,Jordan块放在对角线上的矩阵叫Jordan标准型J

那么Jordan标准型定理A相似于J(J-λI和A-λI有相同的初等因子)

A的最小多项式是λI-A的最后一个dn(λ)

求解Jordan标准型的步骤是经过初等变换将λI-A变为Smith标准型,之后拼凑J

根据AP=PJ,可以求出广义特征向量

线性空间中只有线性运算是不足以反映真实空间的特征的。角度长度等度量概念必须被引入,并建立起更加完善的数学模型。

欧式空间

内积

设V是R上的线性空间,对任意的x,y∈V,有一种规则使之对应一个实数,这种规则满足:

对称性(x, y) = (y, x)

可加性(x1 + x2, y) = (x1, y) + (x2, y)

齐次性(kx, y) = k(x, y)

非负性(x, x) >= 0,当且仅当x = θ(零元)时有(x, x) = 0

此时称V为实内积空间,有限维的实内积空间叫做欧式空间

常见的实内积空间有:

Rn,内积是向量内积

C[a, b]([a, b]上的连续函数),内积是两者乘积在[a, b]上的积分

矩阵Rnxn,内积是tr(ABT)

度量矩阵

向量内积等于坐标的积乘对应基底的积最后加和

所以基底两两做内积组成的矩阵称之为度量矩阵,又叫Gram矩阵,合同于单位阵。不同基的度量矩阵之间是合同的

长度

自身内积开平方根为长度记为||x||,或称模,范数

欧式空间中,有

||kx||=|k| ||x||

||x + y||2 + ||x - y||2 = 2 ||x||2 + 2 ||y||2(平行四边形公式)

|(x, y)| <= ||x|| ||y||(柯西不等式)

||x + y|| <= ||x|| + ||y||(三角形不等式)

终于触及到底层了……

两个向量的夹角被定义为ψ=arccos((x, y)/(||x|| ||y||))

正交性

如果两向量x和y满足(x, y) = 0,则称它们正交

正交的向量之间有勾股定理||x+y||2 = ||x||2 + ||y||2

两两正交的向量组线性无关(内积定义,线性相关不为0)

那么n维欧氏空间中,任意n个两两正交的向量可以做为一组基底

标准正交基

n维欧氏空间V中的n个两两正交的向量,它们的长度均为1,它们组成的基称作V的一组标准正交基

其度量矩阵为单位阵

在欧式空间中,标准正交基一定存在,并且可以构造出来,这种构造正交基的方法叫做Gram-Schmidt正交化方法

y1 = x1

y2 = x2 - ((x2, y1)/(y1, y1)) y1

y3 = x3 - ((x3, y1)/(y1, y1)) y1 - ((x3, y2)/(y2, y2)) y2
……

标准正交基下,内积可以用坐标内积表示,运算最简单

空间的正交

若V的子空间W中所有元素与x正交,则称x与W正交

若V的子空间W1中所有元素与W2中所有元素正交,则称W1和W2正交

W若是V的子空间,那么与W正交的空间必是V的子空间,称之为W的正交补

空间正交分解

W和它的正交补的直和是全空间V,称之为V的正交直和分解

正交变换

T∈L(V, V),若T对内积来说没有影响,即(x, y)=(Tx, Ty),则称T是V上正交变换

那么T在V标准正交基下的矩阵A的转置就是A的逆矩阵,称之为正交矩阵

正交矩阵

正交矩阵的乘积还是正交矩阵

欧氏空间的一些性质

n维欧氏空间中k个线性无关向量的Gram矩阵行列式表示V中k维超平行体的体积平方

T∈L(V, V),T在标准正交基下对应矩阵A,此时A转置对应的线性变换T*,那么内积(Tx, y) = (x, T*y)

V上线性函数f(x),均存在a∈V,使得f(x) = (a, x)

酉空间

定义

酉空间的定义和欧式空间类似,不过酉空间是复数域的线性空间,其内积也被定义为复数

内积的对称性变为共轭对称性,(x, y) = (y, x)H

一个酉空间的例子是n维复数向量组成的空间,两个复数向量的内积被定义为前者乘后者的共轭(复数向量a的共轭向量记作aH)

性质

酉空间的性质有:

1.(∑aixi, ∑bjyj) = ∑∑aibjH(xi, yj)

这是由于复数运算的特点(ab)H = aHbH,并且复数乘法有交换率和结合率,所以(x, by) = x(by)H = bHxyH = bH(x, y)

所以分配出来的y的系数全部变成其共轭

2.根号下(x, x)被称为x的长度或模,Cauchy不等式变为|(x, y)| <= ||x|| ||y||

若(x, y) = 0,仍称x⊥y

3.线性无关向量组有Schmidt正交化方法

4.酉空间有标准正交基

5.对V的子空间W有正交直和分解W和W⊥

6.T∈L(V, V),满足(Tx, Ty)=(x, y), 任取x, y∈V为V的酉变换,当且仅当存在标准正交基的矩阵满足UHU = I,即U为酉矩阵(注意,矩阵的H,要转置并取共轭)

厄米特阵(Hermite)

AH = A

QR分解的存在

证明

回顾Gram-Schmidt正交化过程,可以发现,对一组线性无关的矩阵(x1, x2, ……, xn),进行了以下处理:

首先,将它们化为一组两两正交的向量y

y1 = x1

y2 = x2 - y1 · ((x2, y1)/(y1, y1))

……

yn = xn - y1 · ((xn, y1)/(y1, y1)) - …… - yn · ((xn, yn)/(yn, yn))

之后对这一组y进行标准化

z1 = y1 / ||y1||

……

zn = yn / ||yn||

最后得到标准正交向量z

那么,最初的x如果用z来表示,其坐标矩阵就是一个三角阵,主对角线元素为y的范数

这说明了一个事实:所有满秩矩阵,都可以进行唯一的QR分解

酉空间里由于一样存在正交化,所有也适用该结论,对应的,酉空间中有矩阵的UR分解

列满秩阵A的分解

分解方法

列满秩阵A∈Rmxn,存在正交阵Q使得A = QR,其中R的后面m-n行全0

可以这样去想:用0向量将A扩展成mxm的矩阵,并且把极大线性无关的n个向量放在前n行,正常进行正交化

那么前n个必然顺利地正交化成了z,到n+1个的时候,因为它可以被前n个线性表示所以直接减没了

那么,若用z表示x,x = Qz,其中z的后面全是0

这样z组成的Q就变成后面全是0了,不行,所以再凑几个线性无关的向量让A扩展成满秩的mxm矩阵,这样正交化的Q就是正交阵了

这时再用z来表示扩展前的A,因为z的后几个完全不是A中元素搞出来的,所以根本用不上,因此R后面m-n行全是0

应用

对于矛盾方程组,Ax = b,可以将其QR分解后,求Rx = QTb的解作为其最小二乘解

顺序主子式

n阶方阵任取一组序号,以此序号为行列号所交汇得到的子式为主子式

取前k行列组成n个子式叫做顺序主子式

LR分解

LR分解是指将一个矩阵分解为单位下三角阵L和上三角阵R的乘积

一个矩阵A能被唯一LR分解的充要条件是顺序主子式均不为0

从数学归纳法的角度,假设A的最后一行可以由前面n-1行线性表出

可以证明LR的第n行第n个元素为0

必要性也可以由证明第n行与前面n-1行线性无关来得出

唯一性由解方程的方法得到

LDR分解

其实就是LR分解中,把R的主对角线上元素拿出来做成对角阵D

Cholesky分解

A是Heimite正定阵,那么存在下三角阵G使得A=GGH

正定表明主子式不为0,A=AH

A=LDR=AH=(LDR)H = RHDLH

根据LR分解的唯一性,取D主元的平方根乘到LR上

Schur引理

Schur引理:对任意的矩阵A,存在满秩阵P,使得P-1AP是一个上三角阵K,这个三角阵的主对角线上元素值是矩阵的特征值

因为P可以进行UR分解,得到R-1U-1AUR=K,而又由于上三角阵乘积仍是上三角阵,所以推出U-1AU=RKR-1是上三角阵。即存在酉矩阵UHAU为上三角阵(注意酉矩阵是类似于正交矩阵的概念)

同理,A的特征值都是实数时,存在正交阵Q使QTAQ化为上三角阵

正规矩阵

若AAH = AHA,则A是正规矩阵或规范阵

凡是正规矩阵都是单纯矩阵(可对角化),反之不然

实对称阵,反实对称阵,厄米特阵,反厄米特阵,正交矩阵,酉矩阵都是正规矩阵

A是正规矩阵的充要条件是A酉相似于对角阵

证明方法是酉矩阵替换A成为上三角,从而利用AHA = AAH证明A替换成的K是对角阵

类似的方法也可以推出实对称矩阵A可以正交分解为对角阵

正交矩阵A可以酉相似于对角阵,此对角阵主对角线上元素模为1

实对称矩阵的正交分解

1.求特征值

2.求特征向量,进而对角化

3.将特征向量用Gram-Schmidt方法正交化

其直接应用就是将二次型化为标准型

满秩分解的含义

设矩阵A∈Cmxnr,其中mxn是A的形状,r是A的秩

则存在秩为r的矩阵Fmxr和Grxn,将A分解为FG

这称为满秩分解

可以把A看成是n个列向量,提出极大线性无关组,是r个m元列向量,即为需要的Fmxr

用这r个向量来表示A,每列的坐标为一个r元列向量,共n列,即为Grxn

那么G中表示A对于的极大线性无关组时,必然是一个单位阵,所以G秩为r

极大线性无关组的选取不唯一,而且也不一定要选A中存在的极大线性无关组,选A中极大线性无关组的线性组合也行,因此满秩分解也不唯一

矩阵的Hermite标准型

A通过有限次初等行变换,可以化为只有前r行有非零元,并且前r行都至少有一列为1,并且该1为该列唯一非零元的矩阵

称之为矩阵的Hermite标准型,记作A(尖帽)r

A与其Hermite标准型的列之间有着完全相同的线性关系

满秩分解方法

上面的Hermite标准型给了一种满秩分解方法,取G的前r行为A的Hermite标准型的前r行,那F就是r个1所在列的A中列向量

原因——A与其Hermite标准型的列之间有着完全相同的线性关系

具体做法:先行变换求出A的Hermite标准型,然后直接写A的FG矩阵

正定矩阵和半正定矩阵

对于任意非零向量x,若xTAx > 0恒成立,则矩阵A为正定矩阵;若xTAx >= 0恒成立,则矩阵A为半正定矩阵

矩阵的合同

如果对于矩阵A和B来说,存在可逆阵C使得CACT = B,我们称之为A合同于B

对称矩阵合同于对角阵,正定矩阵合同于单位阵

实际上,我们也能推导出来,正定矩阵一定是对称矩阵,但是对称矩阵不一定是正定矩阵。

假设矩阵合同于对角阵,这个对角阵的所有元都是正数,自然就可以把正数开根号,乘到两个元C中,就得到了矩阵合同于单位阵

但如果对角阵有负数就不行了,这时无论如何也不能在实数范围内将其合同到单位阵了

如果此时的对角阵有零元素和正数元素,那么就称该矩阵是半正定的

合同是一种等价关系

AAH引理

A是mxn的矩阵

1.AHA和AAH是半正定的厄米特阵,具有相同的非零特征值

首先,它们显然是厄米特阵,所以对每个k重特征值对应k个线性无关的特征向量

一种巧妙的证明方法:假设AAHx = λx,λ是k重特征值,那么对应的k个特征向量线性无关

那么AHAAHx = λAHx

将AHx看作y,则有

AHAy = λy

y是特征值λ对应的特征向量,显然y不为0,因为如果y=0,说明AHx,进而λx = 0了,显然两矩阵的特征值一致,现在只需要证明重数也相同

为证明重数相同,我们假设x1,x2,……,xk是AAH中λ对应的特征向量,那么显然yi=AHxi是AHA中λ对应的特征向量

那么只需证明yi是线性无关的,那么只需要再左乘个A,Ayi化为λxi,由于λxi线性无关,所以Ayi必然线性无关,yi必然线性无关

2.rank(AHA) = rank(AAH) = rank(A)

首先矩阵的厄米特转置和其本身的秩相等,这好证明

证明rank相同有很多种方法,其中一种是证明两者的线性方程组同解

显然所有能让Ax = 0的x都能让AHAx = 0

下面证能让AHAx = 0的x都能让Ax = 0

左乘xH,左边变成了向量Ax和自身的内积,当且仅当Ax = 0才有内积为0,证毕

上面的两种证明方法都是课上老师讲的,只能说非常的巧妙和简练

奇异值分解

奇异值

A是Cmxnr矩阵,AHA的特征值为λ1 > λ2 > …… > λr > λr+1 = …… = λn = 0

那么将非0的特征值取算术平方根,得到σi是A的正奇异值

酉相抵

对Cmxnr矩阵A,存在酉矩阵U(m阶)和V(n阶),使得UAV = B,则称AB酉相抵

若两矩阵酉相抵,两矩阵有相同的奇异值,用B的式子乘一下厄米特转置就可以得到了

奇异值分解

对Cmxnr矩阵A,必有酉矩阵U和V,使得USrVH = A

其中Sr是mxn矩阵,左上的一块是r阶对角阵,元素为奇异值,其它全是0

下面证明

对n阶矩阵半正定阵AHA进行酉矩阵对角化,得VHAHAV = diag{λ1, λ2, ……,λr, 0, ……, 0}

V是AHA的特征向量

令USrVH = A(此时的Sr是r阶方阵),解出Ur = AVrSr-1

此时UrHUr = Ir

求解步骤:

1.先求AHA的特征值,得到A的正奇异值,进而得到Sr

2.求出AHA的特征向量并标准化得到对角化酉矩阵V

3.Ur = AVr,把V中有效的r个向量组成Vr,左乘A

4.由于Ur只有r个不够m个,所以需要m-r个扩充向量,把Ur扩充后标准化成酉矩阵U

简化奇异值分解

就是Sr不要带零的,只取出r阶方阵,V不需要0特征值对应的向量,U也不需要扩充,只需要Ur

极分解

秩为r的n阶方阵A可以分解为GU,G是半正定Hermite阵,U是酉矩阵

A=USrVH=USrUHUVH

将USrUH视作G,那么UVH可以视作U

有极分解A=GU

奇异值分解的应用

图像压缩

一幅图像是mxn的矩阵,直接传输mxn个像素比较大

将其简化奇异值分解,A=USrVH

需要传输r个奇异值,U是mxr,V是rxn

从mxn个值变成了rx(m+n+1)个,其实不好说谁多谁少,但很多图像的行列之间相似程度很高,秩很容易不满,所以一般r会比mn两兄弟小很多

再加上较小的奇异值对于图像整体的影响较小,可以忽略一部分奇异值,如果再考虑到这一点的话,就可以更进一步的压缩图像

取k个奇异值,则称图像压缩比为ρ=mn/k(m+n+1)

信号分离

暂时用不到

正规矩阵谱分解

谱分解定义

正规矩阵可以酉对角化,即对于任意正规矩阵A,有A=UDUH

取U={α1, α2, α3, ……, αn},有A=∑αλαH

由于λ有重根,又因为它是数字,因此取所有λ对应的特征向量,Ei=∑ααH,A=∑λEi

此式称为A的谱分解

谱分解的方法

求正规矩阵A的特征值

对每个特征值,求该特征值所对应空间的一组标准正交基

求出Ei

谱分解的特点

Ei都是幂等阵

因为Ei是由一系列ααH相加,那么EixEi时,由于不同α之间正交,有αiHxαj = 0,由于α是标准基,有αiHαi = 1

所以Ei幂等

以此可快速求A的幂

单纯矩阵的谱分解

定义

正规矩阵是单纯矩阵的一种,单纯矩阵是可以对角化的矩阵

所谓对角化,是指存在可逆阵P,使得A = PDP-1

类似的,取出列向量P={α1, α2, α3, ……, αn},再取出P-1的行向量β

A=∑αλβ

Ei=∑αβ,A=∑λEi

谱分解的方法

取特征值

求每个特征值对应的一组基,求出α

用对应的基组成P,求P的逆矩阵,取出β

之后,对每个特征向量,求出对应的Ei

谱分解的特点

因为PP-1 = I

所以βi αi = 1,βj αi = 0

同样有Ei是幂等阵

也可以用来快速求A的幂

另一种谱分解的方法

若A是单纯矩阵,则说明m(A) = Π(A - λI)

带入得到Ei,分子上A - λI,分母λi - λj,没有i项

求解线性方程组时,若系数阵A是可逆的,可以使用两边乘A逆矩阵的方式来求解

但有些矩阵不可逆,有些不是方阵,我们还是希望能有类似逆矩阵的方式来求解,就出现了广义逆

广义逆的定义

若X矩阵满足4个Penrose方程

XAX = X

AXA = A

(AX)H = AX

(XA)H = XA

中的任意一个或几个

称X为A(i, j, k)

其中i,j,k表示满足哪个

其中同时满足四个的X是唯一确定的,称之为A+,加号逆或伪逆

注:A1逆也称减号逆,常用的是1逆,13逆,14逆和加号逆

A+

A+存在且唯一

奇异值分解A=UDVH

取A+=VD+UH

虽然奇异值分解不唯一,但是D的存在可以去掉那些凑上去的向量,进而唯一

A+的性质

(A+)+ = A

(A+)H = (AH)+

(A+)T = (AT)+

(AAH)+ = (AH)+A+

(AHA)+ = A+(AH)+

没有(AB)+ = B+A+

AA+ ≠ A+A ≠ I

A和A+秩相等

A+ = (AHA)+AH = AH(AAH)+

R(A+) = R(AH) N(A+) = N(AH)

注:(λΑ)+ = λ+Α+

对角阵的加逆等于中心元素的加逆对角阵

数字的逆是倒数,0的逆是0

分块对角阵的加逆是每块阵的加逆

列酉阵A的加逆是AH(酉高阵,行比列多,每列都是单位正交向量)

满秩分解法

A+ = GH(GGH)-1(FHF)-1FH

推论

行满秩则F可逆,A+ = GH(GGH)-1F-1 = AH(AAH)-1

列满秩则G可逆,A+ = G-1(FHF)-1FH = (AHA)-1AH

奇异值分解法

A = USrVH,有A+ = VSr+UH

此时可以用简化的奇异值分解

为了进一步简化,先求AHA的特征值对角阵Dr,有

A+ = VDr-1VHAH

秩一公式

当矩阵A的秩为一,根据分解式,Dr-1是这个唯一特征值的倒数,该唯一特征值即为AHA的迹,即为A中每个元素的模的平方和

所以A+ = (1/∑|aij|2)AH

若方程组Ax = B中,存在x该式子成立,则称此方程组相容,否则称为不相容或矛盾

矩阵相容的充要条件

方程组AXB = D相容的充要条件是D = AA-DB-B

此时,取解X = A-AYB-B - Y + A-DB-

取B是单位阵,那么有

AX = D相容的充要条件是D = AA-D

解为X = A-AY - Y + A-D

Y为任意矩阵

那么当D是列向量b时,有解X = (A-A - I)y + A-D

唯一解

AX = b相容的前提下,当且仅当A列满秩时有为一解

Ax = 0

总有解

A-的求法

若存在可逆阵P,Q,使得PAQ = Sr(分四块左上是单位阵,其它全是0)相抵,那么

A- = Q{(Ir, X), (X, X)}P,X为任意矩阵

所以,通过初等行列变换得到P,Q,可以构造出A-

这样,可以套公式来解方程组(这一套实质上还是常规的行列变换解方程组)

相容方程组的极小范数解与A{1, 4}

A{1, 4}的定义

A{1, 4} = {X∈Cnxm | XA = A(1, 4)A}

这个定义非常地搞人心态,因为A(1, 4)在这里是任意一个A的1,4逆

可以看出符合这个式子的都符合A的1,4逆定义

那么A{1, 4}通解可以由上述AXB = D的通解得到(为了方便,用A(1, 4)来代替A-)

A{1, 4} = Y(I - AA(1, 4)) + A(1, 4)AA(1, 4)

令Y = Z + A(1, 4),得到A{1, 4} = Z(I - AA(1, 4)) + A(1, 4)

极小范数解

对相容方程组Ax = b来说,其极小范数解唯一确定,为A(1, 4)b

容易看出确实是解

极小性可以证明两个加数正交,关键是拆b

唯一性,可以从极小性入手,也可以拆b

不相容方程组的最小二乘解和A{1, 3}

尽管在方程组Ax = b不相容的时候无解,但还是希望能求出使得||Ax - b||最小的解

这叫做最小二乘解

A{1, 3}

和上面A{1, 4}的定义类似,A{1, 3} = {X | AX = AA(1, 3)}

A{1, 3} = (I - A(1, 3)A)Z + A(1, 3)

最小二乘解

最小二乘解就是A(1, 3)b

极小性思路:最小二乘解应该是什么样的——b去掉最小二乘解的部分与之正交

唯一性:因为这次没法拆b了,所以一般来说不唯一

只有当A(1, 3)唯一才有唯一性,充要条件是A列满秩,此时可以证明A(1, 3) = A+

不相容方程组的极小范数最小二乘解和A+

A+引理

A+ = A(1, 4)AA(1, 3)

极小范数最小二乘解

A+b即为极小范数最小二乘解

显然是最小二乘解,只需要证明是极小范数

只需用A+表示A{1, 3},再证明含Z的一项和不含Z的正交,进而推出Z = 0

向量范数

向量范数的定义

向量与某个特殊的数x对应起来,这个数x叫做向量的范数

x必须是:

数域F上的数,这个数域F是向量所在线性空间定义里的F

有正定性,除非向量是零向量,负责对应的数x为正数

有齐次性,用k和向量数乘,得到的向量对应|k|x

满足三角不等式,即向量范数之和大于等于向量之和的范数

则线性空间V是赋范线性空间

三引理

向量除以对应范数,新向量范数是1,称之为单位化

负向量的范数和相反向量范数相等

向量范数的差小于等于向量差的范数

常见向量范数

酉空间内:

1-范数:向量所有维度的模加起来

2-范数:向量所有维度模的平方和的平方根,即酉空间下自己与自己的内积

∞-范数:向量所有维度里模最大的那个

p-范数的定义是向量所有维度模的p次方和的p次方根

可以证明p-范数满足范数定义

矩阵乘范数

如果有一个定义好的范数,和一个可以与向量x相乘的矩阵A,A的秩与x维度一致

即使该范数无法作用于x,也可以把Ax的范数作为x的范数

可以证明

加权/椭圆范数

A是Hermite矩阵,定义向量的加权/椭圆范数为根号下xAxH

范数等价

若对于向量的两种范数α和β,存在正数k1,k2,使得同一向量,k1倍的β范数永远小于α范数,k2倍的β范数永远大于α范数

则称两种范数等价

有限维线性空间所有范数等价

证明是将其与欧氏范数(2-范数)等价

简单来说就是不管何种范数,在欧式范数单位球面里必有最大最小值,拿这个去做上下界

序列按α范数收敛

对序列{xm},m趋近于无穷,有x-xm的α范数趋近于0,则称序列按α范数收敛于x

有限维线性空间里的收敛

因为有限维线性空间中范数等价,所以有限维线性空间里范数收敛都等价

有些维线性空间中范数收敛于x等价于坐标收敛于x的坐标

矩阵范数

矩阵范数定义

矩阵范数的定义和向量范数一样

常见范数

类似向量范数,矩阵的常见范数也可以将所有元素的模进行p次方和,再开p次方根

矩阵范数等价

定义类似向量,也有有限维矩阵所有范数等价的结论

矩阵收敛

因为所有有限矩阵范数等价,所以一个收敛全部收敛,并且坐标收敛

矩阵范数的相容性

矩阵有乘法,多引入一条规则两矩阵的范数相乘小于等于乘积的范数

这条性质被称为相容性

F-范数

(tr(AHA))0.5被称为F-范数

||Ax||2 <= ||A||F ||x||2

对酉矩阵U,V

||A||F = ||UA||F = ||AV||F = ||UAV||F

向量范数和矩阵范数的相容性

nxn矩阵A和n阶向量x各有一种范数,若Ax的范数 <= A的范数和x范数的乘积,称两种范数相容

给定一个矩阵或者向量范数,一定存在与之相容的范数

给定矩阵范数,寻求相容的向量范数

已知矩阵范数||A||,给定一向量α,对任意的x,规定范数为x,则向量范数定义为||xαH||

这就是所求的向量范数

给定向量范数,寻求相容的矩阵范数

已知向量范数||x||V,定义矩阵范数为对任一矩阵A,取所有范数为一的向量所得到的Ax向量的范数最大值

称之为该向量范数的算子范数

常见向量范数的算子范数

1-范数,算子范数为列范数

2-范数,算子范数为谱范数

∞-范数,算子范数为行范数

列范数:取列模之和的最大值

谱范数:取AHA的最大特征值开平方根(奇异值)

行范数:取行模之和的最大值

关于单位矩阵I

一般定理

若||A|| < 1,则I - A必定可逆,即为非奇异矩阵

并且||(I - A)-1|| < ||I|| / (1 - ||A||)

证明过程只用到范数乘积不等式和三角不等式

算子范数下

||I|| = 1,那么上式||I||都可以改成1

谱半径

A是n阶复数方阵,A的n个特征值里最大那个称为A的谱半径,记为ρ(A)

谱半径在矩阵范数下的性质

下界

ρ(A) <= ||A||,永远成立

矩阵特征值的性质

上界

任取ε > 0,存在一种矩阵范数使得||A|| <= ρ(A) + ε

根据任意矩阵的shuer定理,得到三角分解

在利用矩阵相似对三角分解后的矩阵进行缩放

特殊矩阵的特征值

对于酉矩阵和正交矩阵,其特征值在单位圆上

实对称矩阵和Hermite的特征值在实轴上

反实对称矩阵和反Hermite阵的特征值在虚轴上

矩阵特征值的分布

矩阵特征值的模小于等于矩阵的最大行/列范数,可以用谱半径来证明

矩阵特征值模的平方和小于等于矩阵每个元素模的平方和,若相等则矩阵正规

schur定理:矩阵A酉相似于上三角阵T,T主对角元为矩阵的特征值

那么A特征值模的平方和表示为T主对角元素模的平方和,自然小于T所有元素对角元的平方和

T所有元素对角元的平方和为tr(THT) = tr(AHA)

所以成立

等号成立时,T是对角阵,而A酉相似于T说明A正规

盖尔圆盘

去A的第i列,将其非主对角线元素的模加起来为半径,以主对角元素aii为圆心,在复平面上作圆

称该圆为A的一个盖尔圆Gi,A有n个盖尔圆

盖尔圆定理

A的所有特征值只会出现在盖尔圆内

若k个盖尔圆的并集是一个联通区域,则该区域内有k个特征值

同样,孤立的盖尔圆内部只有一个特征值

这是由前面的定理得到的(证明方法不会)

推论

A的盖尔圆并集不包括原点,A非奇异

A行或列对角占优,A非奇异

都可以通过原点不在盖尔圆并集内证明

A有k个孤立盖尔圆,A至少有k个不同特征值;若A的盖尔圆全是孤立的,那么A可对角化

对实矩阵A,孤立盖尔圆里的特征值必是实数,虚特征值肯定是重叠区域的

应用

为充分利用盖尔圆,最好是范围锁的越小越好,可以:

1.对AT使用盖尔圆定理,特征值在两者盖尔圆交集的位置

2.缩放盖尔圆,取对角阵,去研究DAD-1

取di小于一,则放大所有盖尔圆,唯独缩小Gi

取di大于一,则缩小所有盖尔圆,唯独放大Gi

矩阵的收敛

矩阵的每个元素都收敛,取他们的极限组成矩阵,称之为矩阵的极限

矩阵级数

定义和级数差不多,一系列矩阵的加和矩阵序列若收敛,则称级数收敛并有和

绝对收敛

(原来绝对收敛就是绝对值收敛啊……)

如果矩阵的每个数值级数都绝对收敛,矩阵级数也绝对收敛

矩阵级数绝对收敛可以推出矩阵级数收敛

矩阵级数绝对收敛的充要条件是对任一向量范数,矩阵的算子范数构成的级数收敛

其它性质

常数矩阵P,Q和收敛矩阵级数的乘积也收敛

幂级数

和数列幂级数定义差不多,Σci Ai

收敛的条件

幂级数收敛半径为R(ci相邻两项比值的极限,小比大)

A的谱半径小于R,绝对收敛;大于R,发散

范数小于1

若矩阵的某种范数小于1,那么矩阵的幂极限为0

矩阵幂极限为0的充要条件是矩阵的谱半径小于1

计算

把矩阵替换为复数z,化简后带回矩阵A