矩阵刚被发明时是用来解线性方程组的,线性方程组就是一组n元一次方程,形如
⎩⎨⎧a1x+b1y+c1z=d1a2x+b2y+c2z=d2a3x+b3y+c3z=d3
a1...3,b1...3,c1...3为系数,x,y,z为未知数,所以线性方程组也可以表示为Au=d,其中A为⎝⎛a1a2a3b1b2b3c1c2c3⎠⎞
矩阵,也就是该方程组所有系数组成的矩阵,u为未知数矩阵⎝⎛xyz⎠⎞,d为方程值矩阵⎝⎛d1d2d3⎠⎞
初等变换有行变换和列变换,其中每种变换都有三种操作,为倍乘,交换和倍乘加。这六种操作就是化简线性方程组的操作,且这些操作不会改变该方程组的解集,一般来说,我们只使用行变换的操作就行。
对矩阵使用初等变换可以换成阶梯型矩阵和最简型矩阵。
化成阶梯型矩阵的方法就是:
- 从左边列开始,将其中最小的元素所在的行移到第一行,然后使用初等变换将该列的其他元素化为0。
- 再到第二列(如果有的话),也就是找除去第一行元素以外的最小元素所在的行,将其移动到第二行,再将该列除了该行和第一行的其他元素化为0。
- 重复对第三列,第四列等所有列进行类似第二步的操作,直到操作完最后一列或者已经处理完到了最后一行。总的操作也就是从左到右,从上到下。
- 最后化成了上三角矩阵。
化成最简型矩阵的方法就是:
- 先化成阶梯型矩阵。
- 然后从右到左,依次将每一列按照从下到上的顺序将其主对角线的非0元素先化为1,以及将其主对角线的非0元素上面的非0元素都化为0。
- 最后化成了三角矩阵。
化成阶梯型矩阵后,每个存在非0元素的行的首个非0元素所在的位置都被称为主元位置,每个存在主元位置的列都被称为主元列,每个主元列所对应的未知数就被称为基本变量,非主元列所对应的未知数被称为自由变量。方程组有唯一解等价于该方程组对应的系数矩阵没有自由变量,存在自由变量等价于方程组有多个解。
如果方程组的所有方程右边的值全为0,则为线性齐次方程组,如果线性齐次方程组的解全为0,则称为平凡解,否则称为非平凡解。
可以看出,线性齐次方程组的解为平凡解等价于该齐次方程组没有自由变量,解为非平凡解等价于该齐次方程组存在自由变量。
对于解非线性齐次方程组Ax=b时,我们可以把非线性齐次方程组的解看做为线性齐次方程组Ax=0的通解加上Ax=b的一个特解p的和,从几何上来说,Ax=b的解集是一条通过p而平行于Ax=0的解集的直线。
对于n×n方阵A来说,如果该方阵没有自由变量,则其通过初等变换成的最简型矩阵就是n×n单位矩阵I,该初等变换的所有操作所组成的矩阵B就是A的逆矩阵,也就是矩阵A的倒数,且A也是B的逆矩阵,也就是
A−1=B,B−1=A,AB=BA=I。
对于可逆矩阵A,(AT)−1AT=AT(AT)−1=I
只有方阵才有行列式,行列式可以用于判断一个方阵是否可逆,一个方阵A可逆等价于该方阵的行列式值不为0,否则不可逆,可逆矩阵被称为非奇异矩阵,不可逆矩阵被称为奇异矩阵。
对于二阶2×2方阵A=(acbd)来说,可以直接计算套公式detA=ad−bc,A−1=ad−bc1(d−c−ba)计算出该方阵的行列式detA和逆矩阵A−1。
对于其他阶方阵来说,方阵的行列式可由公式detA=(−1)ru11⋯unn得出,其中r为初等变换所用的行/列交换次数,u11⋯unn为其化为阶梯型的主对角线元素(此时初等变换不能使用行/列倍乘操作);逆矩阵A−1可由公式(AI)=(IA−1)推导出,其中A为n×n可逆矩阵,I为n×n单位矩阵。
在几何上,矩阵A=(u1u2)的行列式的值表示的是向量u1,u2这两个向量所围成的面积。
在线代中,列向量就是形如⎝⎛abc⋮n⎠⎞的n×1矩阵,简称向量。
如含有2个元素的向量为(ab),其中a,b为任意实数,所有含有2个元素的向量的集记为R2,这就是一个向量空间,R表示向量中的元素是实数,而指数2表示每个向量包含2个元素。零向量就是元素值全为0的向量。
两个向量相等必须是这两个向量的长度,每个位置对应的元素的值都相等才相等,所以向量是有序元素的集合。
m×n矩阵A=(v1v2v3⋯vn)(其中v1v2v3⋯vn为矩阵A的列向量)对n×1向量x的线性组合b(也就是Ax=b=c1v1+c2v2+c3v3+⋯+cnvn,其中c1,c2,c3,⋯,cn为系数)也为一个n×1向量。
如果矩阵A的各个列的向量中,如果存在一个向量是其他向量的线性组合,则称矩阵A的各个列的向量是线性相关的,否则称矩阵A的各个列的向量是线性无关。
矩阵A的各个列的向量是线性相关的也就相当于矩阵A的主元列数小于该矩阵的列数,也就是存在自由变量。
若{v1,v2,v3,⋯,vp}(其中0<=p<=n)是向量空间Rn的向量,则{v1,v2,v3,⋯,vp}的所有线性组合所成的集合可以用记号Span{v1,v2,v3,⋯,vp}来表示,称为由{v1,v2,v3,⋯,vp}所生成(或张成)的Rn的子集。
向量空间Rn的某组向量,以及这些向量的倍乘向量以及他们中的任意两个向量所组成的加法向量和零向量的集合被称为Rn的子空间,所以Span{v1,v2,v3,⋯,vp}可以被称为由{v1,v2,v3,⋯,vp}所生成的子空间。
子空间H中的任意一组线性无关且能生成H的向量{v1,v2,v3,⋯,vp}(其中0<=p<=n)都可以看作为该子空间中的一个基,其中子空间中的每个p×1向量x都可以看作为该子空间中的基的线性组合(也就是x=c1v1+c2v2+c3v3+⋯+cpvp,其中c1,c2,c3,⋯,cp为系数)。
仅含零向量的子空间叫做零子空间。一个非零子空间的维度为该子空间基所含向量的数目,零子空间的维度为0,所以向量空间Rn包含向量空间Rp(其中0<=p<=n)。
矩阵A的零空间是齐次方程Ax=0的所有解的集合,记为NulA,NulA的维度为对应齐次方程Ax=0的自由变量的个数。
简单来说,可以将一个Rn的子空间H看作为一个p维空间(其中0<=p<=n),该p维空间中的p×1向量可以有多种坐标系来进行参照,每种坐标系就是子空间H的一个基,基中的每个列向量就代表坐标系中的坐标轴,用于表示方向。
子空间H的p×1向量x可以用该子空间上的基唯一线性组合表示(也就是用同子空间的不同的基对向量进行表示时,所有线性组合表示的对应系数是一样的),也就是用该p维空间的坐标系的各个坐标轴的分量之和来唯一表示,也就是对于任意的子空间H上的基{v1,v2,v3,⋯,vp},则向量x可以唯一表示为x=c1v1+c2v2+c3v3+⋯+cpvp,其中c1,c2,c3,⋯,cp是系数。
一个m×n矩阵A可以用来表示Rm子空间H上的一个基,其中矩阵A中的所有主元列{v1,v2,v3,⋯,vp}构成了该基(其中0<=p<=m),所以该子空间上的向量x可以用Ac=x=c1v1+c2v2+c3v3+⋯+cpvp表示,其中向量c=⎝⎛c1c2c3⋮cp⎠⎞称为x相对于A的坐标向量。
A的秩就是A的列空间的维度,也就是其主元列的数量,A为满秩也就是指A的主元列数量等于其列数。
由此结合线性方程组的相关知识,我们可以得出有关Ax=b(A为m×n系数矩阵,x为n×1解向量,b为m×1值向量)解的结论:
- Ax=b有唯一解等价于矩阵A构成的Rm子空间H的维度为n,且向量b在H上。
- Ax=b有无穷多的解等价于矩阵A构成的Rm子空间H的维度小于n,且向量b在H上。
- Ax=b无解等价于向量b不在矩阵A构成的Rm子空间H上。
在线代中,内积(也叫做点积)定义的是一种使向量空间中的任何向量对于内积操作都支持交换,结合和分配律的运算操作,定义了内积的向量空间叫做内积空间。
标准内积的定义:假设Rn中有两个n×1向量u=⎝⎛u1u2u3⋮un⎠⎞,v=⎝⎛v1v2v3⋮vn⎠⎞,则u⋅v=(u1u2u3⋯un)⎝⎛v1v2v3⋮vn⎠⎞=u1v1+u2v2+u3v3+⋯+unvn。
向量v=⎝⎛v1v2v3⋮vn⎠⎞的长度∣∣v∣∣定义:∣∣v∣∣=v⋅v=v12+v22+v32+⋯+vn2,且∣∣v∣∣2=v⋅v
Rn中向量u,v之间的距离dist(u,v)=∣∣u−v∣∣,表示向量u−v的长度。
如果向量u,v是R2或R3中的向量,则它们之间的夹角θ可以通过公式u⋅v=∣∣u∣∣∣∣v∣∣cosθ来计算。
正交的定义:u⋅v=0,则称向量Rn中的两个向量u,v是(相互)正交的。零向量与向量Rn中的任意向量都正交。
两个向量u,v正交的充要条件为∣∣u∣∣2+∣∣v∣∣2=∣∣u+v∣∣2。
标准基就是一组由多个0元素和一个1元素组成的向量的线性无关集合;正交基就是一组两两之间都正交的向量的线性无关集合;标准正交基(单位正交基)就是一组正交基,且每个基向量的长度为1。
正交基的好处就是用于表示某个向量时,该线性组合表示中的系数可以直接用公式求出,比如正交基{u1,u2,u3,⋯,un}用于表示n×1向量x=c1u1+c2u2+c3u3+⋯+cnun时,系数cj的值为cj=uj⋅ujx⋅uj,其中符号⋅为内积,1<=j<=n。
假设Rn子空间H的维度为n,则该子空间的基可以表示为{v1,v2,v3,⋯,vn},该子空间上的n×1向量x可以表示为x=c1v1+c2v2+c3v3+⋯+cnvn,其中c1,c2,c3,⋯,cn为系数。
对于由基为{s1,s2,s3,⋯,sp}(其中0<=p<=n)的子空间子空间S,n×1向量x在S上的投影x^可以表示为x^=a1s1+a2s2+a3s3+⋯+ansn,其中a1,a2,a3,⋯,an为系数;如果基{u1,u2,u3,⋯,up}为S的正交基,则n×1向量x在S上的正交投影x^为x^=a1u1+a2u2+a3u3+⋯+anun,其中a1,a2,a3,⋯,an为系数,且aj=uj⋅ujx⋅uj,其中符号⋅为内积,1<=j<=n。
我们可以使用格拉姆——斯密特方法将任何非正交基转换为正交基,该方法主要利用的原理是公式y=y^+z,其中y^是向量y的正交投影,z是垂直于向量y^的向量。
对于一个方阵U来说,如果该方阵的所有列向量可以构成一个单位正交基,则该方阵U被称为正交矩阵,也就是具有UTU=I的性质,其中I为单位矩阵。所有的正交矩阵都是可逆的,且其所有行向量也可以构成一个单位正交基。
矩阵还可以对向量进行变换,m×n矩阵将n×1向量映射成该矩阵组成的Rm子空间H上的某个m×1向量,这种操作叫作线性变换。比如Ax=y就是m×n矩阵A将n×1向量x变换成m×1向量y。
线性变换在几何上可以表示为某点的运动结果,比如对于点x=(2,5)来说,矩阵A=(3001)对其的线性变换Ax=(3001)(25)=(65)就是将点x移动到位置(6,5)。
线性变换支持向量的加法和标乘运算规则。线性变换的矩阵A满足单射等价于A是没有自由变量的,满射等价于A对Rm的每个向量都有解。
仿射组合是线性组合的一种特殊形式,对于Rn中的向量v1,v2,v3,⋯,vp来说,这些向量所组成仿射组合y表示为y=c1v1+c2v2+c3v3+⋯+cpvp,其中c1,c2,c3,⋯,cp是系数且满足c1+c2+c3+⋯+cp=1,y是点(向量)。
集合S中点的所有仿射组合所组成的集合称为S的仿射包,记为aff S。
对于单点v1的仿射包就是集合v1,形式为y=c1v1,其中c1=1;而两个点的仿射包v1,v2的形式为y=c1v1+c2v2=(1−t)v1+tv2=v1+t(v2−v1)=p+tu,其中c1+c2=1,t=c2,t∈R, p=v1,u=v2−v1,u∈Span{u},所以两个点的仿射包v1,v2可以看成朝某方向上(p)对直线(向量)u进行的一个平移;而对于其他大于2个点的仿射包来说,它们就是表示对某向量进行的平移,尤其对于3个点的仿射包来说,其表示对某平面进行的平移。
所以对于任意实数t和某集合S,如果(1−t)p+tq∈S,其中p,q∈S,则该集合S是仿射的,这也就说明当且仅当S=aff S时,集合S是仿射的。
仿射组合与线性组合的关系:
- 对于Rn中的任意小于等于n的数量的向量v1,v2,v3,⋯,vp来说,点(向量)y(y∈Rn)是这些向量的仿射组合等价于平移点(向量)y−v1是向量v2−v1,v3−v1,⋯,vp−v1的线性组合。
- 对于Rn中的任意小于等于n的数量的向量v1,v2,v3,⋯,vp来说,点(向量)y(y∈Rn)是这些向量的仿射组合y=c1v1+c2v2+c3v3+⋯+cpvp(其中c1+c2+c3+⋯+cp=1)等价于y=c1v1+c2v2+c3v3+⋯+cpvp,其中y=[y1],v1=[v11],v2=[v21],⋯,vp=[vp1],y,v1,v2,⋯,vp∈Rn+1指的是向量y,v1,v2,⋯,vp的标准齐次形式(这种形式方便用于升维计算)。
所以对于一个点(向量)是否是Rn中向量v1,v2,v3,⋯,vp的仿射组合,可以采用平移到原点(定理1)或者化成标准齐次形式(定理2)的方法来求増广矩阵是否有解来判断,并得出该点的各个权值。
在几何学中,Rn中的一个集合S被向量p平移后的集合表示为S+p={s+p:s∈S},而Rn的一个平面被表示为子空间的一个平移。
如果一个平面是另一个平面的平移,而这两个平面是平行的。平面的维数是对应的平行的子空间的维数(也就是平移前的子空间),而一个集合S的维数记为dimS,是包含S的最小平面的维数。所以Rn中一条直线就是维数为1的平面,而Rn中的一个超平面是维数为n-1的平面。
非空集合S是一个平面等价于该集合是仿射的。
对于仿射概念来说,和线性概念一样,也存在仿射相关和仿射无关的概念。
对于Rn中的某指标点集(集合)S={v1,v2,v3,⋯,vp}来说,如果存在某一个向量vk是其他向量的仿射组合,则称该集合S的向量是仿射相关的,否则称该集合S的向量是仿射无关的。
因为仿射组合是线性组合的一种特殊情形,是有着特殊限制条件的线性相关,所以每一个仿射相关集合都是线性相关的。
Rn中的集合S={v1,v2,v3,⋯,vp}仿射相关等价于Rn集合{v2−v1,v3−v1,⋯,vp−v1}线性相关,等价于Rn+1集合{v1,v2,⋯,vp}线性相关。
所以验证一个集合是否是仿射相关,可以采用这两种性质来判断。
和线性无关集的概念一样,仿射也有仿射无关集的概念:
Rn中的仿射无关集S={v1,v2,v3,⋯,vp}对于aff S中每一个向量p都有唯一的仿射组合表示,也就是对于每一个向量p,存在唯一的标量集(系数)c1,c2,c3,⋯,cp,使得p=c1v1+c2v2+c3v3+⋯+cpvp,其中c1+c2+c3+⋯+cp=1。
向量p的唯一表达式中的标量集(系数)c1,c2,c3,⋯,cp也被称为p的重心坐标。
凸组合是另一种特殊的线性组合,它在仿射组合的基础上进一步对线性组合做出了限制,限制这些组合的权值为非负值。
对于Rn中的向量v1,v2,v3,⋯,vp来说,这些向量组合的一个凸组合y=c1v1+c2v2+c3v3+⋯+cpvp,其中c1,c2,c3,⋯,cp是非负系数且满足c1+c2+c3+⋯+cp=1,y是点(向量)。
定义集合S中点的所有凸组合组成的集合称为S的凸包,记为conv S。
除了单点v1(该凸包与仿射包相同),其他的凸包真包含在仿射包中;对于两个点的凸包v1,v2,其表示的是线段v1v2的平移,而不是直线了,三个点的就表示某个面积的平移;当p的重心坐标为非负值时,p∈convS才成立。
对于集合S和任意实数p,q ∈S,如果pq∈S,则该集合S是凸的,这也就说明当且仅当S=conv S时,集合S是凸的。
如果{Sα:α∈A}是任一组凸集,则∩α∈ASα是凸集;如果{Tβ:β∈B}是任一组仿射集,则∩β∈BTβ是仿射集。
所以对于任何集合S,S的凸包是所有包含S的凸集的交集,这也就说明了S的凸包是包含S的最小凸集。
我们可以用以下定理来减少构成凸组合的点:
Caratheodory定理:如果S是Rn中的一个非空子集,则S的凸包中的每一点可以由S中n+1个或者更少的点的凸组合来表示。
对于可以减少构成凸组合的点的集合S来说,它必定是仿射相关的(因为某点可以去掉,就表明该点可以由其他店的仿射组合来表示),所以对于减少构成凸组合的点,我们可以采用以下步骤:
- 先得出集合S的一个仿射相关关系式。
- 选择仿射相关关系式中系数为正的最大值max,用该值除以凸组合中的各个系数,找到这些系数中的非负数的最小值min,用凸组合减去min乘仿射相关关系式的式子,这样就减少了一个点。
- 重复上述步骤直到构成凸组合的点为n+1个。
超平面的主要作用是可以将某空间切分成两个不相交的部分,比如一个平面可以将R3分成两部分,一条直线将R2分成两部分等,对于超平面来说,直线平面等主要用隐式表达方式(向量形式的通解表达法)而不是显式表达。
直线平面等的隐式表达方式将它们描述为一个线性表达式(线性函数),严格来说,Rn上的一个线性函数是从Rn到R的一个线性变换f,对R中的每个标量d,符号[f:d]表示Rn中使得f的值为d的所有x的集合,即[f:d]={x∈Rn:f(x)=d}。
对Rn中所有点x都有f(x)=0的线性函数称为零函数,除零函数之外的其他函数称为非零函数。
由此可见[f:0]={x∈Rn:Ax=0}=NulA,其中A是f的线性变换1×n矩阵。因为dim NulA=n−1,对于[f:d]中任意的p,都有[f:d]={x∈Rn:Ax=d}=[f:0]+p,所以集合[f:d]和[f:0]是平行的超平面。
此外[f:d]={x∈Rn:Ax=d}={x∈Rn:n⋅x=d},[f:0]={x∈Rn:Ax=0}={x∈Rn:n⋅x=0},其中n⋅x,n∈Rn是内积,所以n可以称为[f:0]的法向量,且n正交于每个与[f:0]平行的超平面[f:d]。
[f:d]也可以称为f的水平集,所以当∀x∈Rn,f(x)=n⋅x时,n可以称为f的梯度。
所以Rn中的子集H是超平面当且仅当H=[f:d]={x:n⋅x=d}。
对于线性函数f以及常数d的求解,一般是通过n正交于[f:0]的性质先求出n,然后代入Ax=n⋅x=0求得线性函数f,最后将已知点带入求得常数d,其中n的求解可以用叉积公式来求。

其中开集的凸包是开集,紧致集的凸包是紧致的,但闭集的凸包不一定是闭的。
如果超平面H=[f:d]满足下列条件之一:
- f(A)≤d且f(B)≥d
- f(A)≥d且f(B)≤d
则该超平面被分割成两个集合A与B,若以上关系条件的所有弱不等式变为严格不等式,则称H严格分割集合A与B。
严格分割需要两集合不相交,但不相交的两集合不一定能严格分割。
当且仅当A∩B=∅时,存在超平面H能严格分割两个非空凸集A与B,且A和B中,一个是紧致的,一个是闭的。
上面定理可以推出当且仅当(conv A)∩(conv B)=∅时,存在超平面H能严格分割两个非空紧致集A与B。
对于验证某超平面是否能分割集合A与B,我们可以先计算集合A与B的所有点在该超平面对应线性函数f的值,然后判断超平面的固定值是否能将这些值划分为不相交的两个集合,不能则该超平面就不能分割这两个集合。
对于变换矩阵A为方阵的线性变换来说,有某些非零向量在经过线性变换后,其方向不会改变,只会改变其长度。这些向量也就是变换矩阵的特征向量,对应的长度伸缩比也就是变换矩阵的特征值,也就是Av=λv(其中v为向量,λ为向量v对应的长度伸缩比)。
一般来说,矩阵A的特征值可能有多个,每个特征值对应的特征向量也可能有多个,对于矩阵A的特征值的求解,一般是让矩阵A对应的特征空间(A−λ)x=0有非平凡解,也就是让该方程有自由变量,所以矩阵(A−λ)的行列式必须为0,且该矩阵不可逆。所以我们通常是求det(A−λI)=0的解,其中I为单位矩阵(这也就是求特征方程的解),从而求出矩阵A的各个特征值,并求出各个特征值对应的特征向量。
同一矩阵的不同特征值之间的特征向量是线性无关的,同一特征值的不同特征向量之间可能是线性无关的。
之前谈到的特征值都是实特征值,也就是实数特征值,它们在几何上表示的是对特征向量长度的伸缩比;还有一种是复数特征值,简称复特征值,由实部和虚部组成,实部在几何上表示的是对特征向量长度的伸缩比,而虚部在几何上表示的是对特征向量角度的旋转。
有些矩阵的特征值是一样的,这也就反映了这些矩阵对某些向量的线性变换有着同样幅度的伸缩变化,这些矩阵之间相互相似,也就是如果矩阵A和B相似,则存在可逆矩阵P,使得B=P−1AP,A=PBP−1
通过观察计算,我们可以发现三角矩阵和对角矩阵的特征值就是他们主对角线上的各个元素,如果一个矩阵相似于一个对角矩阵,则可以直接求出该矩阵的特征值了。不过不是所有的矩阵都有相似的对角矩阵,对于n×n矩阵A,只有存在n个线性无关的特征向量,才能够进行对角化,也就是说A要么有n个不同的特征值,要么其所有相同特征值对应的线性无关特征向量数量等于该特征值的重数。
将n×n矩阵A转化为对应的对角矩阵的操作叫做对角化,也就是A=P−1DP,其中P是可逆矩阵,D是对角矩阵。根据矩阵求特征值的方法,我们可以推导出,可逆矩阵P的列是矩阵A的n个线性无关特征向量,D的对角线元素是其对应特征向量的特征值,P和D之间的值一一对应,这样就完成了矩阵A的对角化。
矩阵的对角化有许多用途,其中最主要的用途还是用于二次型方面,对于对称矩阵A(A=AT)来说,A的不同特征值之间的特征向量是正交的,所以我们将A进行对角化A=P−1DP时,可以使可逆矩阵P变为正交矩阵,这种对角化A=P−1DP=PTDP也就叫做正交对角化。
而对称矩阵是用来表示二次型的,Rn上的二次型也就是一个定义在Rn上的n元二次函数,它在向量x处的值可以用表达式Q(x)=xTAx来计算,其中A是n×n对称矩阵。
二次型的各个项的系数可以由对应的对称矩阵看出,其中矩阵主对角线上是二次型的二次项系数,其他的是其他项的系数的一半,比如二次型为Q(x)=xT⎝⎛6212−5−31−39⎠⎞x,则该二次型可以用多项式表达为Q(x)=6x12−5x22+9x32+4x1x2+2x1x3−6x2x3
对于二次型Q(x)=xTAx来说,如果能够做一种变量代换,将式子中的所有非二次项的项的系数全化为0,则计算值将会方便的多,所以可以考虑变量代换x=Py或y=P−1x,其中P是一个可逆矩阵,y是变换后的向量,使得Q(x)=xTAx=yTDy,从而将Q(x)的所有非二次项的项的系数全化为了0。这也就是对A进行对角化,而A是对称矩阵,所以经过计算变换可以得知,要使变量代换成功,则可逆矩阵P必须为由对称矩阵A的特征向量组成的正交矩阵,此时Q(x)=xTAx=yT(PTAP)y=yTDy。
所以使用变量代换x=Py或y=P−1x,可以使得Q(x)=xTAx=yT(PTAP)y=yTDy,其中P为由对称矩阵A的特征向量组成的正交矩阵,变换后的二次型叫做标准型。
二次型Q(x)的性质:
- 正定型:对于所有的x=0,都有Q(x)>0,也就是Q(x)对应的矩阵的特征值都是正值。
- 负定型:对于所有的x=0,都有Q(x)<0,也就是Q(x)对应的矩阵的特征值都是负值。
- 不定型:对于所有的x=0,Q(x)有正有负,也就是Q(x)对应的矩阵的特征值有正有负。



- 对称变换
- 关于x轴对称:(100−1)
- 关于y轴对称:(−1001)
- 关于直线y=x对称:(0110)
- 关于直线y=−x对称:(0−1−10)
- 关于原点对称:(−100−1)
- 伸缩变换(其中k为伸缩系数)
- 水平伸缩:(k001)
- 垂直伸缩:(100k)
- 剪切变换(其中k为剪切系数)
- 水平剪切:(10k1)
- 垂直剪切:(1k01)
- 投影变换
- 投影到x轴上:(1000)
- 投影到y轴上:(0001)


















差分方程类型的题就是给出一个差分方程xn+1=Axn和初值x0,求出该差分方程的通项公式,其中xj(0<=j)为向量,A为可对角化的矩阵。
我们可以通过差分方程看出xn=Anx0,所以对于这类的题,我们要利用特征值的相关性质,将A用特征值来代替。
A可以对角化,所以A有n个线性无关的特征向量{v1,v2,v3,⋯,vn},这些特征向量也是在A所组成的子空间H上,所以对于H上的初始向量x0,可以用这些特征向量组成的基来线性组合表示该向量,也就是x0=c1v1+c2v2+c3v3+⋯+cnvn,其中c1,c2,c3,⋯,cn为系数。
然后根据差分方程和Av=λv,可得x2=A2x0=A(c1Av1+c2Av2+c3Av3+⋯+cnAvn)=c1λ1Av1+c2λ2Av2+c3λ3Av3+⋯+cnλnAvn=c1λ12v1+c2λ22v2+c3λ32v3+⋯+cnλn2vn
由此可得xk=c1λ1kv1+c2λ2kv2+c3λ3kv3+⋯+cnλnkvn (k=0,1,2,⋯)
所以对于这类题的解题步骤为:
- 找出初值,并列出差分方程xn+1=Axn。
- 对矩阵A求出所有特征值以及对应的线性无关特征向量。
- 利用式子x0=cv=c1v1+c2v2+c3v3+⋯+cnvn求出系数向量c,其中c为系数向量,v为由特征向量组成的基。
- 将求出的系数向量c的值代入公式xk=c1λ1kv1+c2λ2kv2+c3λ3kv3+⋯+cnλnkvn (k=0,1,2,⋯),至此已求出通项公式。











最小二乘问题也就是求方程近似解的问题,当方程组Ax=y无解时,证明了向量y不在A组成的子空间H上,我们就可以将向量y投影到子空间中,此时用向量y的投影y^代替向量y来求方程组Ax=y^,从而得出的解就是方程组Ax=y的近似解。
可以证明该近似解是离Ax=y的解最近的解,其中解的误差为ϵ=dist(y−y^)。
我们还可以直接使用公式ATAx=ATy来求出近似解,因为该公式求出的解集与Ax=y^的相同。
最小二乘问题最广泛的应用是回归分析,回归分析也就是给出一组数据点,根据这些数据点来判断和计算与其近似拟合的直线或曲线,这些直线或曲线就叫做回归直线或回归曲线。




























