0
点赞
收藏
分享

微信扫一扫

矩阵代数中的一些结果

前端王祖蓝 2022-03-19 阅读 41

文章目录


大写字母表示矩阵(如 A A A),小写粗斜体表示向量(如 x \boldsymbol{x} x),正常字体表示标量或坐标点等(如 x 1 x_1 x1)。

方阵的迹

A = ( a i j ) n × n A=(a_{ij})_{n\times n} A=(aij)n×n,A的迹定义为其主对角线元素之和,记为 tr ( A ) \text{tr}(A) tr(A),即
tr ( A ) = ∑ i = 1 n ( a i i ) \text{tr}(A)=\sum_{i=1}^n(a_{ii}) tr(A)=i=1n(aii)
按定义显然有
tr ( A ) = tr ( A T ) tr ( A + B ) = tr ( A ) + tr ( B ) tr ( α A ) = α tr ( A ) \begin{aligned} \text{tr}(A)&=\text{tr}(A^{\text{T}}) \\ \text{tr}(A+B)&=\text{tr}(A)+\text{tr}(B) \\ \text{tr}(\alpha A)&=\alpha\text{tr}(A) \end{aligned} tr(A)tr(A+B)tr(αA)=tr(AT)=tr(A)+tr(B)=αtr(A)
其中 α \alpha α为常数, B B B为与 A A A同阶的方阵。另外,容易证明以下结果:
tr ( A ) = ∑ i = 1 n λ i tr ( A B ) = tr ( B A ) tr ( A T A ) = ∑ i = 1 n ∑ j = 1 n a i j 2 \begin{aligned} \text{tr}(A)&=\sum_{i=1}^n\lambda_i \\ \text{tr}(AB)&=\text{tr}(BA) \\ \text{tr}(A^{\text{T}} A)&=\sum_{i=1}^n\sum_{j=1}^n a_{ij}^2 \end{aligned} tr(A)tr(AB)tr(ATA)=i=1nλi=tr(BA)=i=1nj=1naij2
其中 λ i \lambda_i λi为矩阵 A A A的特征值, B B B为与 A A A同阶的方阵。

矩阵的分块求逆

设矩阵 A A A是一个 n + m n+m n+m阶方阵,它具有分块三角阵的结构,即
A = [ A 11 A 12 0 A 22 ] 或 A = [ A 11 0 A 21 A 22 ] A=\left[\begin{array}{cc} A_{11} & A_{12} \\ 0 & A_{22} \end{array}\right]\text{或} A=\left[\begin{array}{cc} A_{11} & 0 \\ A_{21} & A_{22} \end{array}\right] A=[A110A12A22]A=[A11A210A22]
其中 A 11 A_{11} A11 A 22 A_{22} A22分别是n阶和m阶可逆方阵,这意味着 A 是可逆阵。利用
A − 1 A = A A − 1 = I n + m A^{-1}A=AA^{-1}=I_{n+m} A1A=AA1=In+m
可以推得
A − 1 = [ A 11 − 1 − A 11 − 1 A 12 A 22 − 1 0 A 22 − 1 ] A^{-1}=\left[\begin{array}{cc} A_{11}^{-1} & -A_{11}^{-1}A_{12}A_{22}^{-1} \\ 0 & A_{22}^{-1} \end{array}\right] A1=[A1110A111A12A221A221]
A − 1 = [ A 11 − 1 0 − A 22 − 1 A 21 A 11 − 1 A 22 − 1 ] A^{-1}=\left[\begin{array}{cc} A_{11}^{-1} & 0 \\ -A_{22}^{-1}A_{21}A_{11}^{-1} & A_{22}^{-1} \end{array}\right] A1=[A111A221A21A1110A221]
一般地,若n+m阶方阵A可以写成分块形式
A = [ A 11 A 12 A 21 A 11 − 1 A 22 ] A=\left[\begin{array}{cc} A_{11} & A_{12} \\ A_{21}A_{11}^{-1} & A_{22} \end{array}\right] A=[A11A21A111A12A22]
其中 A 11 A_{11} A11 A 22 A_{22} A22具有与前相同的性质,那么利用矩阵分解关系式
A = [ I n 0 A 21 A 11 − 1 I m ] [ A 11 A 12 0 A 22 − A 21 A 11 − 1 A 12 ] A=\left[\begin{array}{cc} I_n & 0 \\ A_{21}A_{11}^{-1} & I_m \end{array}\right]\left[\begin{array}{cc} A_{11} & A_{12} \\ 0 & A_{22}-A_{21}A_{11}^{-1}A_{12} \end{array}\right] A=[InA21A1110Im][A110A12A22A21A111A12]
A = [ I n A 12 A 22 − 1 0 I m ] [ A 11 − A 12 A 22 − 1 A 21 0 A 21 A 22 ] A=\left[\begin{array}{cc} I_n & A_{12}A_{22}^{-1} \\ 0 & I_m \end{array}\right]\left[\begin{array}{cc} A_{11}-A_{12}A_{22}^{-1}A_{21} & 0 \\ A_{21} & A_{22} \end{array}\right] A=[In0A12A221Im][A11A12A221A21A210A22]
和前面关于三角阵的求逆结果,可以推得矩阵 A 的分块求逆公式如下:
A − 1 = [ A 11 − 1 + A 11 − 1 A 12 A ~ 22 − 1 A 21 A 11 − 1 − A 11 − 1 A 12 A ~ 22 − 1 − A ~ 22 − 1 A 21 A 11 − 1 A ~ 22 − 1 ] A^{-1}=\left[\begin{array}{cc} A_{11}^{-1}+A_{11}^{-1}A_{12}\tilde{A}_{22}^{-1}A_{21}A_{11}^{-1} & -A_{11}^{-1}A_{12}\tilde{A}_{22}^{-1} \\ -\tilde{A}_{22}^{-1}A_{21}A_{11}^{-1} & \tilde{A}_{22}^{-1} \end{array}\right] A1=[A111+A111A12A~221A21A111A~221A21A111A111A12A~221A~221]
A − 1 = [ A ~ 11 − 1 − A ~ 11 − 1 A 12 A 22 − 1 − A 22 − 1 A 21 A ~ 11 − 1 A 22 − 1 + A 22 − 1 A 21 A ~ 11 − 1 A 12 A 22 − 1 ] A^{-1}=\left[\begin{array}{cc} \tilde{A}_{11}^{-1} & -\tilde{A}_{11}^{-1}A_{12}A_{22}^{-1} \\ -A_{22}^{-1}A_{21}\tilde{A}_{11}^{-1} & A_{22}^{-1}+A_{22}^{-1}A_{21}\tilde{A}_{11}^{-1}A_{12}A_{22}^{-1} \end{array}\right] A1=[A~111A221A21A~111A~111A12A221A221+A221A21A~111A12A221]
其中
A ~ 11 = A 11 − A 12 A 22 − 1 A 21 \tilde{A}_{11}=A_{11}-A_{12}A_{22}^{-1}A_{21} A~11=A11A12A221A21
A ~ 22 = A 22 − A 21 A 11 − 1 A 12 \tilde{A}_{22}=A_{22}-A_{21}A_{11}^{-1}A_{12} A~22=A22A21A111A12
假定矩阵A是可逆矩阵,因而 A ~ 11 − 1 \tilde{A}_{11}^{-1} A~111 A ~ 22 − 1 \tilde{A}_{22}^{-1} A~221总是存在的。根据逆矩阵的唯一性,对比两式立即得到(这附近的推导可能有问题)
( A 11 − A 12 A 22 − 1 A 21 ) − 1 = A 11 − 1 + A 11 − 1 A 12 A ~ 22 − 1 A 21 A 11 − 1 (A_{11}-A_{12}A_{22}^{-1}A_{21})^{-1}=A_{11}^{-1}+A_{11}^{-1}A_{12}\tilde{A}_{22}^{-1}A_{21}A_{11}^{-1} (A11A12A221A21)1=A111+A111A12A~221A21A111
A 22 − A 21 A 11 − 1 A 12 = A 22 − 1 + A 22 − 1 A 21 A ~ 11 − 1 A 12 A 22 − 1 A_{22}-A_{21}A_{11}^{-1}A_{12}=A_{22}^{-1}+A_{22}^{-1}A_{21}\tilde{A}_{11}^{-1}A_{12}A_{22}^{-1} A22A21A111A12=A221+A221A21A~111A12A221
这是两个非常重要的矩阵恒等式,在矩阵变换中经常用到。其中第一式习惯上称为矩阵反馈公式。

矩阵的正定与负定

设矩阵 A A A为n阶对称阵。如果对于所有n维列向量 X X X,二次型 X T A X X^{\text{T}} AX XTAX均为非负,则称矩阵 A A A为非负定矩阵,并用 A ≥ 0 A\ge 0 A0来表示。进一步,如果矩阵 A A A为非负定矩阵,且对所有非零向量 X X X,二次型 X T A X X^{\text{T}} AX XTAX总大于零,则称矩阵 A A A为正定阵,并且用 A > 0 A>0 A>0来表示。对称矩阵 A A A当且仅当其所有特征值非负时才是非负定阵;当且仅当特征值均为正时才是正定阵。显然,若矩阵 A A A为正定值,则其逆矩阵存在且也为正定阵。
如果 D D D是任意 n × m n\times m n×m阶矩阵,则 A = D D ′ A=DD' A=DD是非负定阵;当且仅当 D D D具有满行秩时, A = D D ′ A=DD' A=DD才是正定阵。
如果 A A A B B B是同阶非负定阵, α \alpha α β \beta β为非负常数,则 α A + β B \alpha A+\beta B αA+βB为非负定阵;若 A A A B B B两者之一是正定阵而另一个为非负定阵且 α \alpha α β \beta β均大于零,则 α A + β B \alpha A+\beta B αA+βB是正定阵。
设A和B分别为非负定阵和正定阵,称-A和- B B B分别是非正定阵和负定阵。非正定阵和负定阵分别与非负定阵和正定阵具有相反而类似的性质。次不赘述。

向量和矩阵的范数

向量的范数是对向量的一种度量。设 X X X为一个n维列向量,其范数用符号 ∥ x ∥ \Vert x\Vert x来表示。任何一个具有下述三条性质的实值函数都可定义为 X X X的范数:

  • 对所有 X X X均有 ∥ X ∥ ≥ 0 \Vert X\Vert\ge 0 X0;当且仅当 X = 0 X=0 X=0时,才有 ∥ X ∥ = 0 \Vert X\Vert=0 X=0
  • 为任意实数;
  • 对所有与 X X X同维的列向量 Y Y Y,有。
    常用的范数有三种,它们分别定义如下:
  • 对所有 X X X均有 ∥ X ∥ ≥ 0 \Vert X\Vert\ge 0 X0;当且仅当 X = 0 X=0 X=0时,才有 ∥ X ∥ = 0 \Vert X\Vert=0 X=0
  • 为任意实数;
  • 对所有与 X X X同维的列向量 Y Y Y,有。
    以上关于向量范数的定义,对行向量同样适用。
    这里所给出的矩阵范数,是以向量范数为基础定义的,因此是一种导出范数。设A为一m×n阶矩阵,其范数用来表示,它定义为

矩阵的微分运算

矩阵微分运算有几种不同的情况。

矩阵函数对标量的导数

设n×m阶矩阵 A A A B B B和m×1阶矩阵 C C C的元素都是实变数t的函数, λ = λ ( t ) \lambda=\lambda(t) λ=λ(t) t t t的标量实值函数。定义矩阵 A A A t t t的导数等于 A A A的每个元素 a i j ( t ) a_{ij}(t) aij(t) t t t分别求导所构成的n×m阶矩阵,即
d A d t = [ d a i j ( t ) d t ] \frac{\text{d}A}{\text{d}t}=\left[\frac{\text{d}a_{ij}(t)}{\text{d}t}\right] dtdA=[dtdaij(t)]
比如,对于n维列向量 x = [ x 1 ( t )   x 2 ( t ) ⋯ x n ( t ) ] T \boldsymbol{x}=[x_1(t)\ x_2(t)\cdots x_n(t)]^{\text{T}} x[x1(t) x2(t)xn(t)]T,按定义就有
d x d t = [ d x 1 ( t ) d t d x 2 ( t ) d t ⋯ d x n ( t ) d t ] T \frac{\text{d}\boldsymbol{x}}{\text{d}t}=\left[\frac{\text{d}x_1(t)}{\text{d}t}\frac{\text{d}x_2(t)}{\text{d}t}\cdots\frac{\text{d}x_n(t)}{\text{d}t}\right]^{\text{T}} dtdx=[dtdx1(t)dtdx2(t)dtdxn(t)]T
关于矩阵函数对标量的导数,根据上述定义容易验证如下运算规则;
d ( A + B ) d t = d A d t + d B d t d ( λ A ) d t = d λ d t A + λ d A d t d ( A C ) d t = d A d t C + A d C d t \begin{aligned} &\frac{\text{d}(A+B)}{\text{d}t}=\frac{\text{d}A}{\text{d}t}+\frac{\text{d}B}{\text{d}t} \\ &\frac{\text{d}(\lambda A)}{\text{d}t}=\frac{\text{d}\lambda}{\text{d}t}A+\lambda\frac{\text{d}A}{\text{d}t} \\ &\frac{\text{d}(AC)}{\text{d}t}=\frac{\text{d}A}{\text{d}t}C+A\frac{\text{d}C}{\text{d}t} \end{aligned} dtd(A+B)=dtdA+dtdBdtd(λA)=dtdλA+λdtdAdtd(AC)=dtdAC+AdtdC

标量函数对矩阵的导数

f = f ( A ) f=f(A) f=f(A) g = g ( A ) g=g(A) g=g(A)是以矩阵 A A A的n×m个元素为自变量的标量定值函数。定义 f f f A A A的导数为如下 n × m n\times m n×m阶矩阵
d f d A ≜ [ ∂ f ∂ a i j ] \frac{\text{d}f}{\text{d}A}\triangleq\left[\frac{\partial f}{\partial a_{ij}}\right] dAdf[aijf]
对于上述这类微分运算,显然有
d ( f + g ) d A = d f d A + d g d A d ( f g ) d A = d f d A g + f d g d A \begin{aligned} &\frac{\text{d}(f+g)}{\text{d}A}=\frac{\text{d}f}{\text{d}A}+\frac{\text{d}g}{\text{d}A} \\ &\frac{\text{d}(fg)}{\text{d}A}=\frac{\text{d}f}{\text{d}A}g+f\frac{\text{d}g}{\text{d}A} \end{aligned} dAd(f+g)=dAdf+dAdgdAd(fg)=dAdfg+fdAdg

矩阵函数对向量的导数

F ( x ) F(\boldsymbol{x}) F(x)是n维列向量 x \boldsymbol{x} x m × l m\times l m×l阶矩阵函数,即 F ( x ) = ( f i j ( x ) ) m × l F(\boldsymbol{x})=(f_{ij}(\boldsymbol{x}))_{m×l} F(x)=(fij(x))m×l,而 x = [ x 1   x 2 ⋯ x n ] T \boldsymbol{x}=[x_1\ x_2\cdots x_n]^{\text{T}} x=[x1 x2xn]T。定义 F ( x ) F(\boldsymbol{x}) F(x) x \boldsymbol{x} x的导数为如下nm×l阶矩阵:
d F d x ≜ [ ∂ F ( x ) ∂ x 1 ⋮ ∂ F ( x ) ∂ x 2 ⋯ ⋮ ∂ F ( x ) ∂ x n ] T \frac{\text{d}F}{\text{d}\boldsymbol{x}}\triangleq[\frac{\partial F(\boldsymbol{x})}{\partial x_1}\vdots\frac{\partial F(\boldsymbol{x})}{\partial x_2}\cdots\vdots\frac{\partial F(\boldsymbol{x})}{\partial x_n}]^{\text{T}} dxdF[x1F(x)x2F(x)xnF(x)]T
其中
∂ F ( x ) ∂ x k ≜ ∂ f i j ( x ) ∂ x k \frac{\partial F(\boldsymbol{x})}{\partial x_k}\triangleq\frac{\partial f_ij(\boldsymbol{x})}{\partial x_k} xkF(x)xkfij(x)
对于这类运算,我们有
d F ( x ) + G ( x ) d x = d F ( x ) d x + d G ( x ) d x d ( F T ( x ) G ( x ) ) d x = d F T ( x ) d x G ( x ) + d G T ( x ) d x F ( x ) \begin{aligned} &\frac{\text{d}F(\boldsymbol{x})+G(\boldsymbol{x})}{\text{d}\boldsymbol{x}} =\frac{\text{d}F(\boldsymbol{x})}{\text{d}\boldsymbol{x}}+\frac{\text{d}G(\boldsymbol{x})}{\text{d}\boldsymbol{x}} \\ &\frac{\text{d}(F^{\text{T}}(\boldsymbol{x})G(\boldsymbol{x}))}{\text{d}\boldsymbol{x}} =\frac{\text{d}F^{\text{T}}(\boldsymbol{x})}{\text{d}\boldsymbol{x}}G(\boldsymbol{x})+\frac{\text{d}G^{\text{T}}(\boldsymbol{x})}{\text{d}\boldsymbol{x}}F(\boldsymbol{x}) \end{aligned} dxdF(x)+G(x)=dxdF(x)+dxdG(x)dxd(FT(x)G(x))=dxdFT(x)G(x)+dxdGT(x)F(x)

几个常用的矩阵微分公式

根据前面的定义,不难验证以下矩阵微分公式:

  • f = f ( x ) f=f(\boldsymbol{x}) f=f(x)是n维列向量 x \boldsymbol{x} x的标量定值函数,则有
    d f d t = [ d f d x ] T d x d t \frac{\text{d}f}{\text{d}t}=\left[\frac{\text{d}f}{\text{d}\boldsymbol{x}}\right]^{\text{T}}\frac{\text{d}\boldsymbol{x}}{\text{d}t} dtdf=[dxdf]Tdtdx
    式中t为实变数。
  • x \boldsymbol{x} x为n维列向量, a \boldsymbol{a} a B B B分别为与 x \boldsymbol{x} x无关的m维列向量和m×n阶矩阵,f为 x \boldsymbol{x} x的一个二次型,且
    f = ( a + B x ) T ( a + B x ) f=(\boldsymbol{a}+B\boldsymbol{x})^{\text{T}}(\boldsymbol{a}+B\boldsymbol{x}) f=(a+Bx)T(a+Bx)
    则有
    d x T d x = d x d x T = I n d ( a + B x ) d x = B T d f d x = 2 B T ( a − B x ) \begin{aligned} &\frac{\text{d}\boldsymbol{x}^{\text{T}}}{\text{d}\boldsymbol{x}}=\frac{\text{d}\boldsymbol{x}}{\text{d}\boldsymbol{x}^{\text{T}}}=I_n \\ &\frac{\text{d}(\boldsymbol{a}+B\boldsymbol{x})}{\text{d}\boldsymbol{x}}=B^{\text{T}} \\ &\frac{\text{d}f}{\text{d}\boldsymbol{x}}=2B^{\text{T}}(\boldsymbol{a}-B\boldsymbol{x}) \end{aligned} dxdxT=dxTdx=Indxd(a+Bx)=BTdxdf=2BT(aBx)
  • A A A为n阶方阵,其元素是实变数t的函数,且对所有的t, A − 1 A^{-1} A1存在,则有
    d A − 1 d t = − A − 1 d A d t A − 1 \frac{\text{d}A^{-1}}{\text{d}t}=-A^{-1}\frac{\text{d}A}{\text{d}t}A^{-1} dtdA1=A1dtdAA1
    此式可通过恒等式
    d I n d t = d A A − 1 d t = 0 \frac{\text{d}I_n}{\text{d}t}=\frac{\text{d}AA^{-1}}{\text{d}t}=0 dtdIn=dtdAA1=0
    导出。
  • 设,则有的解为矩阵 A A A的伪迹。式中星号*表示转置兼取复数共轭。

其它例子

d x T d x = I d ( x T A x ) d x = ( A + A T ) x d ( x T A x ) d A = x x T \begin{aligned} &\frac{\text{d}\boldsymbol{x}^{\text{T}}}{\text{d}\boldsymbol{x}} =\mathbf{I} \\ &\frac{\text{d}(\boldsymbol{x}^{\text{T}}\mathbf{A}\boldsymbol{x})}{\text{d}\boldsymbol{x}} =(\mathbf{A}+\mathbf{A}^{\text{T}})\boldsymbol{x} \\ &\frac{\text{d}(\boldsymbol{x}^{\text{T}}\mathbf{A}\boldsymbol{x})}{\text{d}\mathbf{A}} =\boldsymbol{x}\boldsymbol{x}^{\text{T}} \\ \end{aligned} dxdxT=Idxd(xTAx)=(A+AT)xdAd(xTAx)=xxT

矩阵的伪逆

设A为n×m阶矩阵,其元素可以是复数。我们称基于A形成的矩阵代数方程组

其它

实对称矩阵的不同特征值对应的特征向量两两正交。
A x 1 = λ 1 x 1 A x 2 = λ 2 x 2 A T = A \begin{aligned} &Ax_1=\lambda_1 x_1 \\ &Ax_2=\lambda_2 x_2 \\ &A^{\text{T}}=A \end{aligned} Ax1=λ1x1Ax2=λ2x2AT=A
x 1 T A x 2 = ( A x 1 ) T x 2 = λ 1 x 1 T x 2 = x 1 T λ 2 x 2 = λ 2 x 1 T x 2 \begin{aligned} x_1^{\text{T}} Ax_2&=(Ax_1)^{\text{T}} x_2=\lambda_1x_1^{\text{T}} x_2 \\ &=x_1^{\text{T}}\lambda_2x_2=\lambda_2x_1^{\text{T}} x_2 \end{aligned} x1TAx2=(Ax1)Tx2=λ1x1Tx2=x1Tλ2x2=λ2x1Tx2
λ 1 ≠ λ 2 \lambda_1\neq\lambda_2 λ1=λ2,则 x 1 T x 2 = 0 x_1^{\text{T}} x_2=0 x1Tx2=0

举报

相关推荐

0 条评论