矩阵的迹与矩阵微商
矩陣的跡與矩陣微商
最近學(xué)習(xí)多元統(tǒng)計分析,使用的教材是《應(yīng)用多元統(tǒng)計分析》(高惠璇)。在做第二章作業(yè)時遇到一些困難,但在附錄中找到了部分適用結(jié)論,現(xiàn)搬運如下,并對部分關(guān)于跡的結(jié)論嘗試證明。
1.矩陣的跡
定義:設(shè) A A A為 p p p階方陣,則它的對角線元素之和稱為 A A A的跡(trace),記作 t r ( A ) {\rm tr}(A) tr(A),即
t r ( A ) = a 11 + ? + a p p . {\rm tr}(A)=a_{11}+\cdots+a_{pp}. tr(A)=a11?+?+app?.
性質(zhì)1:若 λ 1 , ? , λ p \lambda_1,\cdots,\lambda _p λ1?,?,λp?為 A A A的特征值,則 t r ( A ) = λ 1 + λ 2 + ? + λ p {\rm tr}(A)=\lambda_1+\lambda_2+\cdots+\lambda_p tr(A)=λ1?+λ2?+?+λp?。
矩陣 A A A的特征多項式為 f ( λ ) = ∣ λ I ? A ∣ f(\lambda)=|\lambda I-A| f(λ)=∣λI?A∣,其中必定包含以下一項: ( λ ? a 11 ) ( λ ? a 22 ) ? ( λ ? a p p ) (\lambda -a_{11})(\lambda -a_{22})\cdots(\lambda -a_{pp}) (λ?a11?)(λ?a22?)?(λ?app?),且由行列式的定義,與這一項不同的項至少包含一個 ( ? a i j ) (-a_{ij}) (?aij?),從而不能夠包含 ( λ ? a i i ) (\lambda -a_{ii}) (λ?aii?)與 ( λ ? a j j ) (\lambda -a_{jj}) (λ?ajj?),那么至多只有 λ n ? 2 \lambda^{n-2} λn?2的次數(shù)。
因此,我們得到 λ n ? 1 \lambda^{n-1} λn?1項之前的系數(shù)一定是 ? ( a 11 + ? + a p p ) -(a_{11}+\cdots+a_{pp}) ?(a11?+?+app?)。又因為
∣ λ I ? A ∣ = ( λ ? λ 1 ) ? ( λ ? λ n ) , |\lambda I-A|=(\lambda-\lambda_1)\cdots(\lambda -\lambda_n), ∣λI?A∣=(λ?λ1?)?(λ?λn?),
所以 λ n ? 1 \lambda^{n-1} λn?1項前的系數(shù)一定是 ? ( λ 1 + ? + λ n ) -(\lambda_1+\cdots+\lambda_n) ?(λ1?+?+λn?),所以有
a 11 + a 22 + ? + a p p = t r ( A ) = λ 1 + λ 2 + ? + λ n . a_{11}+a_{22}+\cdots+a_{pp}={\rm tr}(A)=\lambda_1+\lambda_2+\cdots+\lambda_n. a11?+a22?+?+app?=tr(A)=λ1?+λ2?+?+λn?.
性質(zhì)2:對于 n n n階方陣 A , B A,B A,B, t r ( A B ) = t r ( B A ) {\rm tr}(AB)={\rm tr}(BA) tr(AB)=tr(BA)。
假設(shè) A = ( a i j ) , B = ( b i j ) A=(a_{ij}),B=(b_{ij}) A=(aij?),B=(bij?),則
t r ( A B ) = ∑ k = 1 n ( A B ) k k = ∑ k = 1 n ( ∑ i = 1 n a k i b i k ) , t r ( B A ) = ∑ k = 1 n ( B A ) k k = ∑ k = 1 n ( ∑ i = 1 n b k i a i k ) = ∑ i = 1 n ( ∑ k = 1 n a i k b k i ) . {\rm tr}(AB)=\sum_{k=1}^n (AB)_{kk}=\sum_{k=1}^n\left(\sum_{i=1}^n a_{ki}b_{ik} \right),\\ {\rm tr}(BA)=\sum_{k=1}^n (BA)_{kk}=\sum_{k=1}^n \left(\sum_{i=1}^n b_{ki}a_{ik} \right)=\sum_{i=1}^n \left(\sum_{k=1}^n a_{ik}b_{ki} \right). tr(AB)=k=1∑n?(AB)kk?=k=1∑n?(i=1∑n?aki?bik?),tr(BA)=k=1∑n?(BA)kk?=k=1∑n?(i=1∑n?bki?aik?)=i=1∑n?(k=1∑n?aik?bki?).
對比兩式就得到結(jié)果。
性質(zhì)3: t r ( A ) = t r ( A ′ ) {\rm tr}(A)={\rm tr}(A') tr(A)=tr(A′)。
性質(zhì)4: t r ( A + B ) = t r ( A ) + t r ( B ) {\rm tr}(A+B)={\rm tr}(A)+{\rm tr}(B) tr(A+B)=tr(A)+tr(B)。
性質(zhì)5: t r ( ∑ α = 1 k A α ) = ∑ α = 1 n t r ( A α ) {\rm tr}(\sum_{\alpha=1}^k A_\alpha)=\sum_{\alpha=1}^n {\rm tr}(A_\alpha) tr(∑α=1k?Aα?)=∑α=1n?tr(Aα?)。
以上三條性質(zhì)是顯然的。
性質(zhì)6:若 A A A為投影矩陣,則 t r ( A ) = r a n k ( A ) {\rm tr}(A)={\rm rank}(A) tr(A)=rank(A),投影矩陣指對稱的冪等矩陣。
需要用到的準備知識是,對稱矩陣必定可以正交對角化,冪等矩陣的特征值為 0 0 0或 1 1 1。
由于 A A A是對稱矩陣,所以存在一個正交矩陣 Γ \Gamma Γ和對角矩陣 V = d i a g ( λ 1 , ? , λ n ) V={\rm diag}(\lambda_1,\cdots,\lambda_n) V=diag(λ1?,?,λn?),使得
A = Γ ′ V Γ , t r ( A ) = t r ( Γ ′ V Γ ) = t r ( V ) = ∑ i = 1 n λ i . A=\Gamma'V\Gamma,{\rm tr}(A)={\rm tr}(\Gamma'V\Gamma)={\rm tr}(V)=\sum_{i=1}^n \lambda_i. A=Γ′VΓ,tr(A)=tr(Γ′VΓ)=tr(V)=i=1∑n?λi?.
又因為冪等矩陣的特征值只能為0或1,所以 t r ( A ) {\rm tr}(A) tr(A)等于特征值中1的個數(shù),即矩陣 A A A的秩。
2.矩陣微商
分為以下幾種情況。
1.自變量是一元變量 x x x
如果 y = ( y 1 , ? , y p ) ′ y=(y_1,\cdots,y_p)' y=(y1?,?,yp?)′是關(guān)于 x x x的向量函數(shù),則
d y d x = ( d y 1 d x , d y 2 d x , ? , d y p d x ) ′ . \frac {{\rm d}y}{{\rm d}x}=\left( \frac{{\rm d}y_1}{{\rm d}x}, \frac{{\rm d}y_2}{{\rm d}x},\cdots, \frac{{\rm d}y_p}{{\rm d}x} \right)'. dxdy?=(dxdy1??,dxdy2??,?,dxdyp??)′.
也就是說, p p p維向量 y y y對變量 x x x的導(dǎo)數(shù)仍然是 p p p維向量,稱為導(dǎo)數(shù)向量。
如果 Y = F ( x ) Y=F(x) Y=F(x)是 x x x的矩陣函數(shù), Y = ( y i j ) Y=(y_{ij}) Y=(yij?)是 p × q p\times q p×q矩陣,則
d Y d x = ( d y i j d x ) p × q . \frac{{\rm d}Y}{{\rm d}x}=\left(\frac{{\rm d}y_{ij}}{{\rm d}x}\right)_{p\times q}. dxdY?=(dxdyij??)p×q?.
也就是說, p × q p\times q p×q矩陣 Y Y Y對變量 x x x的導(dǎo)數(shù)仍然是 p × q p\times q p×q矩陣,稱為導(dǎo)數(shù)矩陣。
2.自變量是 p p p維向量 x = ( x 1 , ? , x p ) ′ x=(x_1,\cdots,x_p)' x=(x1?,?,xp?)′
如果 y = f ( x ) y=f(x) y=f(x)是 x x x的一元函數(shù),令其他為常數(shù), x i x_i xi?為常數(shù)求導(dǎo)可以求得 y y y對 x i x_i xi?的偏導(dǎo)數(shù),則
? f ? x = ( ? f ? x 1 , ? , ? f ? x p ) ′ . \frac{\partial f}{\partial x}=\left( \frac{\partial f}{\partial x_1},\cdots ,\frac{\partial f}{\partial x_p} \right)'. ?x?f?=(?x1??f?,?,?xp??f?)′.
也就是說,一元函數(shù) f f f對向量 x x x的導(dǎo)數(shù)是 p p p為向量,稱為偏導(dǎo)數(shù)向量。
如果 y = ( y 1 , ? , y q ) ′ y=(y_1,\cdots,y_q)' y=(y1?,?,yq?)′是向量 x x x的 q q q維向量函數(shù),即 y i = f i ( x ) y_i=f_i(x) yi?=fi?(x),則
? y ? x = ( ? y i ? x j ) p × q = [ ? y 1 ? x 1 ? ? y q ? x 1 ? ? ? y 1 ? x p ? ? y q ? x p ] . \frac{\partial y}{\partial x}=\left( \frac{\partial y_i}{\partial x_j} \right)_{p\times q}= \left[\begin{matrix} \frac{\partial y_1}{\partial x_1}&\cdots&\frac{\partial y_q}{\partial x_1}\\ \vdots&&\vdots\\ \frac{\partial y_1}{\partial x_p}&\cdots&\frac{\partial y_q}{\partial x_p} \end{matrix}\right]. ?x?y?=(?xj??yi??)p×q?=??????x1??y1????xp??y1???????x1??yq????xp??yq????????.
也就是說, q q q維向量 y y y對 p p p維向量 x x x的導(dǎo)數(shù)是 p × q p\times q p×q矩陣,稱為偏導(dǎo)數(shù)矩陣。特別當(dāng) p = q p=q p=q時,該矩陣的行列式稱為Jacobian行列式。
如果 Y Y Y是 n n n階方陣,即 Y = ( y i j ) n × n Y=(y_{ij})_{n\times n} Y=(yij?)n×n?,則
? Y ? x = [ ? y 11 ? x 1 ? y 12 ? x 2 ? ? y 1 n ? x n ? y 21 ? x 1 ? y 22 ? x 2 ? ? y 2 n ? x n ? ? ? ? y n 1 ? x 1 ? y n 2 ? x 2 ? ? y n n ? x n ] . \frac{\partial Y}{\partial x}=\left[\begin{matrix} \frac{\partial y_{11}}{\partial x_1}&\frac{\partial y_{12}}{\partial x_2}&\cdots&\frac{\partial y_{1n}}{\partial x_n}\\ \frac{\partial y_{21}}{\partial x_1}&\frac{\partial y_{22}}{\partial x_2}&\cdots&\frac{\partial y_{2n}}{\partial x_n}\\ \vdots&\vdots&&\vdots\\ \frac{\partial y_{n1}}{\partial x_1}&\frac{\partial y_{n2}}{\partial x_2}&\cdots&\frac{\partial y_{nn}}{\partial x_n} \end{matrix}\right]. ?x?Y?=????????x1??y11???x1??y21????x1??yn1????x2??y12???x2??y22????x2??yn2????????xn??y1n???xn??y2n????xn??ynn??????????.
也就是說, n n n階方陣 Y Y Y對 n n n維矩陣 x x x的導(dǎo)數(shù)是 n n n階方陣。
自變量是矩陣 X X X
如果 y = f ( X ) y=f(X) y=f(X)是 X X X的一元函數(shù),則
? f ? X = [ ? f ? X i j ] . \frac{\partial f}{\partial X}=\left[ \frac{\partial f}{\partial X_{ij}} \right]. ?X?f?=[?Xij??f?].
也就是說,標量 y y y對矩陣 X X X的導(dǎo)數(shù)是一個矩陣,稱為梯度矩陣。如果聯(lián)系上矩陣微分,則有
d f = ∑ i = 1 m ∑ j = 1 n ? f ? X i j d X i j = t r ( ? f ? X ′ d X ) {\rm d}f= \sum_{i=1}^m\sum_{j=1}^n\frac{\partial f}{\partial X_{ij}}{\rm d}X_{ij} ={\rm tr}\left( \frac{\partial f}{\partial X}'{\rm d}X \right) df=i=1∑m?j=1∑n??Xij??f?dXij?=tr(?X?f?′dX)
常用結(jié)論
這里 β , x \beta,x β,x是(列)向量, A , B , C A,B,C A,B,C是與 x x x無關(guān)的矩陣。
(1)
? β ′ x ? x = β . \dfrac{\partial \beta'x}{\partial x}=\beta. ?x?β′x?=β.
設(shè) β = ( b 1 , ? , b n ) ′ , x = ( x 1 , ? , x n ) \beta=(b_1,\cdots,b_n)',x=(x_1,\cdots,x_n) β=(b1?,?,bn?)′,x=(x1?,?,xn?),則 β ′ x = ∑ i = 1 n b i x i \beta'x=\sum\limits_{i=1}^nb_ix_i β′x=i=1∑n?bi?xi?,故
? β ′ x ? x i = b i , ? β ′ x ? x = ( b 1 , ? , b n ) ′ = β . \frac{\partial \beta'x}{\partial x_i}=b_i,\quad \frac{\partial \beta'x}{\partial x}=(b_1,\cdots,b_n)'=\beta. ?xi??β′x?=bi?,?x?β′x?=(b1?,?,bn?)′=β.
(2)
? x ′ x ? x = 2 x . \frac{\partial x'x}{\partial x}=2x. ?x?x′x?=2x.
x ′ x = ∑ i = 1 n x i 2 x'x=\sum_{i=1}^n x_i^2 x′x=∑i=1n?xi2?,故
? x ′ x ? x i = 2 x i , ? x ′ x ? x = 2 ( x 1 , ? , x n ) ′ = 2 x . \frac{\partial x'x}{\partial x_i}=2x_i,\quad \frac{\partial x'x}{\partial x}=2(x_1,\cdots,x_n)'=2x. ?xi??x′x?=2xi?,?x?x′x?=2(x1?,?,xn?)′=2x.
(3)
? x ′ A x ? x = ( A + A ′ ) x . \frac{\partial x'Ax}{\partial x}=(A+A')x. ?x?x′Ax?=(A+A′)x.
設(shè) A = ( a i j ) n × n A=(a_{ij})_{n\times n} A=(aij?)n×n?,則 x ′ A x = ∑ i = 1 n ∑ j = 1 n x i x j a i j x'Ax=\sum\limits_{i=1}^n\sum\limits_{j=1}^n x_ix_ja_{ij} x′Ax=i=1∑n?j=1∑n?xi?xj?aij?,所以
? x ′ A x ? x i = ∑ k = 1 n x k a i k + ∑ k = 1 n x k a k i = x ′ a i ? + x ′ a ? i , \frac{\partial x'Ax}{\partial x_i}=\sum_{k=1}^n x_ka_{ik}+\sum_{k=1}^nx_ka_{ki} =x'a_{i\cdot}+x'a_{\cdot i}, ?xi??x′Ax?=k=1∑n?xk?aik?+k=1∑n?xk?aki?=x′ai??+x′a?i?,
于是
? x ′ A x ? x = ( x ′ [ ( a 1 ? a 2 ? ? a n ? ) + ( a ? 1 a ? 2 ? a ? n ) ] ) ′ = ( x ′ ( A + A ′ ) ) ′ = ( A + A ′ ) x . \frac{\partial x'Ax}{\partial x}=\Big(x'[(\begin{matrix}a_{1\cdot}&a_{2\cdot}&\cdots&a_{n\cdot}\end{matrix})+(\begin{matrix}a_{\cdot1}&a_{\cdot2}&\cdots&a_{\cdot n}\end{matrix})]\Big)'=\big(x'(A+A')\big)'=(A+A')x. ?x?x′Ax?=(x′[(a1???a2?????an???)+(a?1??a?2????a?n??)])′=(x′(A+A′))′=(A+A′)x.
(4)當(dāng) A A A為實對稱矩陣時,
? x ′ A x ? A = x x ′ . \frac{\partial x'Ax}{\partial A}=xx'. ?A?x′Ax?=xx′.
由于 x ′ A x = ∑ i = 1 n ∑ j = 1 n x i x j a i j x'Ax=\sum\limits_{i=1}^n\sum\limits_{j=1}^n x_ix_ja_{ij} x′Ax=i=1∑n?j=1∑n?xi?xj?aij?,所以
? x ′ A x ? a i j = x i x j , \frac{\partial x'Ax}{\partial a_{ij}}=x_ix_j, ?aij??x′Ax?=xi?xj?,
所以
? x ′ A x ? A = ( x i x j ) n × n = x x ′ . \frac{\partial x'Ax}{\partial A}=(x_ix_j)_{n\times n}=xx'. ?A?x′Ax?=(xi?xj?)n×n?=xx′.
(5)當(dāng) A A A為實對稱矩陣時,
? ln ? ∣ A ∣ ? A = A ? 1 . \frac{\partial \ln |A|}{\partial A}=A^{-1}. ?A?ln∣A∣?=A?1.
這里
d ln ? ∣ A ∣ = ∣ A ∣ ? 1 d ∣ A ∣ = t r ( A ? 1 d A ) . {\rm d} \ln |A|=|A|^{-1}d|A|={\rm tr}(A^{-1}{\rm d}A). dln∣A∣=∣A∣?1d∣A∣=tr(A?1dA).
總結(jié)
- 上一篇: 微商如何玩?微客巴巴告诉你10条超级干货
- 下一篇: C语言实现扫描文件下所有目录