方差协方差以及协方差矩阵
協方差矩陣在統計學和機器學習中隨處可見,一般而言,可視作方差和協方差兩部分組成,即方差構成了對角線上的元素,協方差構成了非對角線上的元素。本文旨在從幾何角度介紹我們所熟知的協方差矩陣。
文章結構
- 方差和協方差的定義
- 從方差/協方差到協方差矩陣
- 多元正態分布與線性變換
- 協方差矩陣的特征值分解
1. 方差和協方差的定義
在統計學中,方差是用來度量單個隨機變量的離散程度,而協方差則一般用來刻畫兩個隨機變量的相似程度,其中,方差的計算公式為
其中, 表示樣本量,符號 表示觀測樣本的均值,這個定義在初中階段就已經開始接觸了。
在此基礎上,協方差的計算公式被定義為
在公式中,符號 分別表示兩個隨機變量所對應的觀測樣本均值,據此,我們發現:方差 可視作隨機變量 關于其自身的協方差 .
2. 從方差/協方差到協方差矩陣
根據方差的定義,給定 個隨機變量 ,則這些隨機變量的方差為
其中,為方便書寫, 表示隨機變量 中的第 個觀測樣本, 表示樣本量,每個隨機變量所對應的觀測樣本數量均為 。
對于這些隨機變量,我們還可以根據協方差的定義,求出兩兩之間的協方差,即
因此,協方差矩陣為
其中,對角線上的元素為各個隨機變量的方差,非對角線上的元素為兩兩隨機變量之間的協方差,根據協方差的定義,我們可以認定:矩陣 為對稱矩陣(symmetric matrix),其大小為 。
3. 多元正態分布與線性變換
假設一個向量 服從均值向量為 、協方差矩陣為 的多元正態分布(multi-variate Gaussian distribution),則
令該分布的均值向量為 ,由于指數項外面的系數 通常作為常數,故可將多元正態分布簡化為
再令 ,包含兩個隨機變量 和 ,則協方差矩陣可寫成如下形式:
用單位矩陣(identity matrix) 作為協方差矩陣,隨機變量 和 的方差均為1,則生成如干個隨機數如圖1所示。
在生成的若干個隨機數中,每個點的似然為
對圖1中的所有點考慮一個線性變換(linear transformation): ,我們能夠得到圖2.
在線性變換中,矩陣 被稱為變換矩陣(transformation matrix),為了將圖1中的點經過線性變換得到我們想要的圖2,其實我們需要構造兩個矩陣:
- 尺度矩陣(scaling matrix):
- 旋轉矩陣(rotation matrix)
其中, 為順時針旋轉的度數。
變換矩陣、尺度矩陣和旋轉矩陣三者的關系式:
在這個例子中,尺度矩陣為 ,旋轉矩陣為 ,故變換矩陣為
.
另外,需要考慮的是,經過了線性變換, 的分布是什么樣子呢?
將 帶入前面給出的似然 ,有
由此可以得到,多元正態分布的協方差矩陣為
.
4. 協方差矩陣的特征值分解
回到我們已經學過的線性代數內容,對于任意對稱矩陣 ,存在一個特征值分解(eigenvalue decomposition, EVD):
其中,的每一列都是相互正交的特征向量,且是單位向量,滿足 ,對角線上的元素是從大到小排列的特征值,非對角線上的元素均為0。
當然,這條公式在這里也可以很容易地寫成如下形式:
其中, ,因此,通俗地說,任意一個協方差矩陣都可以視為線性變換的結果。
在上面的例子中,特征向量構成的矩陣為
.
特征值構成的矩陣為
.
到這里,我們發現:多元正態分布的概率密度是由協方差矩陣的特征向量控制旋轉(rotation),特征值控制尺度(scale),除了協方差矩陣,均值向量會控制概率密度的位置,在圖1和圖2中,均值向量為 ,因此,概率密度的中心位于坐標原點。
相關參考:
Understanding the Covariance MatrixWhat is the Covariance Matrix?總結
以上是生活随笔為你收集整理的方差协方差以及协方差矩阵的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何直观地理解「协方差矩阵」?
- 下一篇: 协方差矩阵有什么意义?