5.1 最小二乘法,左逆,投影矩阵
最小二乘法,左逆,投影矩陣
矩陣 AAA 是列滿秩矩陣時(shí),高斯消元法可以求得方程 Ax=bA\mathbf{x}=\mathbf{b}Ax=b 的解,但該方法有個(gè)致命缺點(diǎn),往往沒有解!根據(jù)前章結(jié)論:列滿秩矩陣 AmnA_{mn}Amn?,高斯消元法變換為 LmmA=[UnnOm?n,n]L_{mm}A = \left[ \begin{matrix} U_{nn} \\ \mathbf{O}_{m-n,n} \end{matrix} \right]Lmm?A=[Unn?Om?n,n??] ,LmmL_{mm}Lmm? 是 mmm 階單位下三角陣。
對(duì)向量 b\mathbf{b}b ,如果 Lmmb=[b′0]L_{mm}\mathbf{b}=\left[ \begin{matrix} \mathbf{b'} \\ \mathbf{0} \end{matrix} \right]Lmm?b=[b′0?] ,即后 m?nm-nm?n 個(gè)分量都為 000 ,則方程 Amnx=bA_{mn}\mathbf{x}=\mathbf{b}Amn?x=b 有唯一解;只要后 m?nm-nm?n 個(gè)分量有一個(gè)不為 000 ,或者很接近 000 ,則方程無(wú)解。方程要保證后 m?nm-nm?n 個(gè)分量都為 000 ,幾乎不可能,所以方程往往無(wú)解。實(shí)際中,又需要找到方程最優(yōu)近似解即最小二乘解。我們舉個(gè)例子,更容易理解。
假設(shè)要測(cè)量圓的直徑 DDD ,測(cè)量了 mmm 次,每次測(cè)量值為 did_idi? 。據(jù)此可以列出方程
D=di,i∈[1,m]D = d_i,i \in [ 1,m] D=di?,i∈[1,m]
寫成矩陣形式為
[11?1]D=[d1d2?dm]\left[ \begin{matrix} 1 \\ 1 \\ \vdots \\ 1 \end{matrix} \right] D = \left[ \begin{matrix} d_1 \\ d_2 \\ \vdots \\ d_m \end{matrix} \right] ??????11?1???????D=??????d1?d2??dm????????
即 A=[11?1]A=\left[ \begin{matrix} 1 \\ 1 \\ \vdots \\ 1 \end{matrix} \right]A=??????11?1??????? , b=[d1d2?dm]\mathbf{b}=\left[ \begin{matrix} d_1 \\ d_2 \\ \vdots \\ d_m \end{matrix} \right]b=??????d1?d2??dm???????? 。
對(duì)增廣矩陣進(jìn)行高斯消元,可以發(fā)現(xiàn)只要 did_idi? 不是完全一樣,則方程無(wú)解!如果 did_idi? 完全一樣,則解存在且唯一 D=diD = d_iD=di? ,但由于 did_idi? 完全一樣,則只相當(dāng)測(cè)量了一次。實(shí)際測(cè)量中,由于無(wú)處不在的誤差,測(cè)量值即使很接近,但不可能完全一致,故方程無(wú)解。常識(shí)又告訴我們,應(yīng)該多次測(cè)量取平均值作為直徑的最優(yōu)估計(jì)值,即 D=∑idi/mD = \sum_i d_i /mD=∑i?di?/m 。
假設(shè)車輛做勻加速直線運(yùn)動(dòng) s=s0+v0t+1/2at2s = s_0 + v_0t + 1/2at^2s=s0?+v0?t+1/2at2 ,我們需要獲得加速度,可以測(cè)量不同時(shí)刻的位移 (ti,si)(t_i, s_i)(ti?,si?) ,即 tit_iti? 時(shí)刻的速度為 sis_isi? ,測(cè)量了 mmm 個(gè)數(shù)據(jù),則得到方程
s0+v0t+1/2ati2=si,i∈[1,m]s_0 + v_0t + 1/2at^2_i = s_i ,i \in [ 1,m] s0?+v0?t+1/2ati2?=si?,i∈[1,m]
寫成矩陣形式為
[11?1]s0+[t1t2?tm]v0+[t12t22?tm2]1/2a=[s1s2?sm]\left[ \begin{matrix} 1 \\ 1 \\ \vdots \\ 1 \end{matrix} \right] s_0 + \left[ \begin{matrix} t_1 \\ t_2 \\ \vdots \\ t_m \end{matrix} \right] v_0+ \left[ \begin{matrix} t^2_1 \\ t^2_2 \\ \vdots \\ t^2_m \end{matrix} \right] 1/2a= \left[ \begin{matrix} s_1 \\ s_2 \\ \vdots \\ s_m \end{matrix} \right] ??????11?1???????s0?+??????t1?t2??tm????????v0?+??????t12?t22??tm2????????1/2a=??????s1?s2??sm????????
即 A=[1t1t121t2t22?1tmtm2]A=\left[ \begin{matrix} 1 & t_1& t^2_1\\ 1 & t_2& t^2_2 \\ \vdots \\ 1 & t_m& t^2_m \end{matrix} \right]A=??????11?1?t1?t2?tm??t12?t22?tm2???????? , b=[s1s2?sm]\mathbf{b}=\left[ \begin{matrix} s_1 \\ s_2 \\ \vdots \\ s_m \end{matrix} \right]b=??????s1?s2??sm???????? ,x=[s0v01/2a]\mathbf{x} = \left[ \begin{matrix} s_0 \\v_0 \\ 1/2a \end{matrix} \right]x=???s0?v0?1/2a???? ,Ax=bA\mathbf{x} = \mathbf{b}Ax=b 。
對(duì)增廣矩陣進(jìn)行高斯消元,實(shí)際測(cè)量中,由于無(wú)處不在的誤差,只有進(jìn)行三次測(cè)量,方程才存在解且唯一,測(cè)量超過(guò)三次,則無(wú)解!但常識(shí)又告訴我們,多次測(cè)量可以達(dá)到對(duì)測(cè)量誤差取平均效果,精度會(huì)更高。
實(shí)際中有大量類似的例子,為了獲得某些量的真實(shí)值,需要進(jìn)行測(cè)量,然后根據(jù)測(cè)量值獲得真實(shí)值的最優(yōu)估計(jì)值。方程 Amnxn=bmA_{mn}\mathbf{x}_n=\mathbf{b}_mAmn?xn?=bm? 表示共進(jìn)行了 mmm 次測(cè)量,每次測(cè)量構(gòu)成一個(gè)子方程。我們希望用第 iii 次測(cè)量值 ari\mathbf{a}_{ri}ari? 線性擬合 bib_{i}bi? ,擬合系數(shù)為 xn\mathbf{x}_nxn? ,擬合偏差盡可能小,所以也稱為線性擬合或線性回歸。每次測(cè)量值 (ari,bi)(\mathbf{a}_{ri},b_i)(ari?,bi?) 也稱為測(cè)量點(diǎn)或簡(jiǎn)稱點(diǎn)。
由于測(cè)量誤差,為了提高精度,需要多次測(cè)量,理論上是測(cè)量次數(shù)趨于無(wú)窮時(shí),最優(yōu)估計(jì)值無(wú)限接近真實(shí)值。根據(jù)方程理論,當(dāng)測(cè)量次數(shù)多于需要估計(jì)的量時(shí),由于測(cè)量誤差,方程一般是矛盾方程,無(wú)解!怎么解決這個(gè)矛盾呢?偉大的最小二乘法就是解決這個(gè)問題的,由于測(cè)量誤差,不應(yīng)該尋找表面上的精確解,而是尋找最優(yōu)近似解。
這章內(nèi)容和第一章的投影密切相關(guān),故希望讀者熟悉投影。方程 Ax=bA\mathbf{x} = \mathbf{b}Ax=b ,因?yàn)橄蛄?b\mathbf{b}b 不位于矩陣 AAA 的列空間,所以不存在精確解。令向量 b\mathbf{b}b 向矩陣 AAA 列空間的投影向量為 bp\mathbf{b}_pbp? ,則方程 Ax=bpA\mathbf{x} = \mathbf{b}_pAx=bp? 有唯一精確解,這個(gè)精確解就是方程 Ax=bA\mathbf{x} = \mathbf{b}Ax=b 最優(yōu)近似解,為了區(qū)分,我們記最優(yōu)近似解為 x^\mathbf{\hat{x}}x^。根據(jù)投影性質(zhì),向量 b?bp\mathbf{b}-\mathbf{b}_pb?bp? 是垂直于矩陣 AAA 列空間,所以垂直于矩陣 AAA 列向量組
AT(b?bp)=0A^T(\mathbf{b}-\mathbf{b}_p) = \mathbf{0} AT(b?bp?)=0
將 Ax^=bpA\mathbf{\hat{x}} = \mathbf{b}_pAx^=bp? 代入上式,得 AT(b?Ax^)=0A^T(\mathbf{b}-A\mathbf{\hat{x}}) = \mathbf{0}AT(b?Ax^)=0 即
ATAx^=ATbA^TA\mathbf{\hat{x}} = A^T\mathbf{b} ATAx^=ATb
因?yàn)?rankATA=rankA=nrank A^TA = rank A = nrankATA=rankA=n ,ATAA^TAATA 是 nnn 階方陣,故 ATAA^TAATA 可逆,得到最優(yōu)近似解,即最小二乘解
x^=(ATA)?1ATb\mathbf{\hat{x}} = (A^TA)^{-1}A^T\mathbf{b} x^=(ATA)?1ATb
讀者可以按該公式自行推導(dǎo)測(cè)量直徑的例子,會(huì)發(fā)現(xiàn)最小二乘解就是測(cè)量的平均值。測(cè)量加速度的例子讀者也可以自行推導(dǎo),本書從略。
令 AL?1=(ATA)?1ATA^{-1}_L = (A^TA)^{-1}A^TAL?1?=(ATA)?1AT ,可以發(fā)現(xiàn) AL?1A=EnA^{-1}_LA=E_nAL?1?A=En? ,稱 AL?1A^{-1}_LAL?1? 是 AAA 的左逆,其尺寸為 n×mn \times mn×m 。
定義 左逆 對(duì)于列滿秩矩陣 AmnA_{mn}Amn? ,如果存在矩陣 BnmB_{nm}Bnm? ,使 BA=EnBA=E_nBA=En? 成立,則稱 BBB 是 AAA 的左逆, AL?1=(ATA)?1ATA^{-1}_L=(A^TA)^{-1}A^TAL?1?=(ATA)?1AT 是其中一個(gè)左逆。
特別強(qiáng)調(diào)下,左逆不唯一,證明如下:假設(shè) BnmB_{nm}Bnm? 是任意矩陣,如果 (AL?1+B)A=E(A^{-1}_L+B)A=E(AL?1?+B)A=E 成立,則 (AL?1+B)(A^{-1}_L+B)(AL?1?+B) 是左逆,因?yàn)?AL?1A=EA^{-1}_LA=EAL?1?A=E ,則只需 BA=OBA=\mathbf{O}BA=O ,根據(jù)第三章內(nèi)容,矩陣 AAA 行向量組是相關(guān)組,故矩陣 BBB 行向量組只要位于矩陣 AAA 左零空間,則 BA=OBA=\mathbf{O}BA=O ,故有無(wú)窮多左逆。如果不特別強(qiáng)調(diào),我們稱左逆,都是特指矩陣 AL?1=(ATA)?1ATA^{-1}_L=(A^TA)^{-1}A^TAL?1?=(ATA)?1AT 。
代入 Ax^=bpA\mathbf{\hat{x}} = \mathbf{b}_pAx^=bp? ,可以得到投影向量
bp=A(ATA)?1ATb=AAL?1b=Pb\mathbf{b}_p = A(A^TA)^{-1}A^T\mathbf{b}=AA^{-1}_L\mathbf{b}=P\mathbf{b} bp?=A(ATA)?1ATb=AAL?1?b=Pb
矩陣 P=AAL?1=A(ATA)?1ATP = AA^{-1}_L=A(A^TA)^{-1}A^TP=AAL?1?=A(ATA)?1AT 是投影矩陣,即對(duì)任意向量 b\mathbf{b}b ,向量 PbP\mathbf{b}Pb 是向量 b\mathbf{b}b 向矩陣 AAA 列空間的投影向量 bp\mathbf{b}_pbp?,投影矩陣尺寸是 m×mm \times mm×m 。
投影矩陣是冪等矩陣,即滿足 P2=PP^2=PP2=P ,讀者可自行驗(yàn)證。其背后的幾何意義更重要,對(duì)任意向量 b\mathbf{b}b ,bp=Pb\mathbf{b}_p=P\mathbf{b}bp?=Pb 是投影向量, 那么 PbpP\mathbf{b}_pPbp? 是什么呢?因?yàn)?bp\mathbf{b}_pbp? 已經(jīng)位于 矩陣 AAA 列空間,投影后還是位于列空間,故向量不變,所以 Pbp=bpP\mathbf{b}_p=\mathbf{b}_pPbp?=bp? ,則 P2b=PbP^2\mathbf{b}=P\mathbf{b}P2b=Pb 對(duì)任意向量 b\mathbf{b}b 均成立,故 P2=PP^2=PP2=P 。投影矩陣是對(duì)稱矩陣 PT=PP^T=PPT=P 。
關(guān)于投影矩陣,有兩點(diǎn)說(shuō)明,第一投影矩陣不可逆,如果可逆, P2=PP^2=PP2=P 左乘逆矩陣,得 P=EP=EP=E ,投影矩陣一般都不是單位陣,當(dāng)然單位陣是投影矩陣。第二投影矩陣唯一,證明如下:假設(shè) BnmB_{nm}Bnm? 是任意矩陣,如果 A(AL?1+B)=PA(A^{-1}_L+B)=PA(AL?1?+B)=P 是投影矩陣,則只需 AB=OAB=\mathbf{O}AB=O ,根據(jù)第三章內(nèi)容,矩陣 AAA 列向量組是無(wú)關(guān)組,故矩陣 BBB 是零矩陣。
綜上,列滿秩矩陣 AAA ,左逆不唯一,E=AL?1AE = A^{-1}_LAE=AL?1?A ,AL?1A^{-1}_LAL?1? 是一個(gè)左逆;投影矩陣 P=AAL?1P = AA^{-1}_LP=AAL?1? 唯一,且 $ A^{-1}_LA \ne AA^{-1}_L$ 。與可逆矩陣對(duì)比,A?1A=AA?1A^{-1}A = AA^{-1}A?1A=AA?1 ,逆矩陣 A?1A^{-1}A?1 唯一,它們差別很大。
總結(jié)
以上是生活随笔為你收集整理的5.1 最小二乘法,左逆,投影矩阵的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 4.10 重要总结
- 下一篇: 5.2 最优近似解 $\mathbf{\