UA MATH567 高维统计 专题0 为什么需要高维统计理论?——协方差估计的高维效应与Marcenko-Pastur规则
UA MATH567 高維統(tǒng)計(jì) 專題0 為什么需要高維統(tǒng)計(jì)理論?——協(xié)方差估計(jì)的高維效應(yīng)與Marcenko-Pastur規(guī)則
上一講我們介紹了在實(shí)驗(yàn)中,線性判別分析的判別誤差會隨著維度的上升而上升,而經(jīng)典多元統(tǒng)計(jì)理論則認(rèn)為理論誤差是與維數(shù)無關(guān)的常數(shù),于是我們得到啟發(fā)是我們需要建立適應(yīng)于高維統(tǒng)計(jì)問題的理論。這一講我們從線性判別分析中的協(xié)方差估計(jì)的角度,討論在高維問題中協(xié)方差估計(jì)會發(fā)生什么與經(jīng)典多元統(tǒng)計(jì)理論不同的現(xiàn)象。
我們假設(shè)x1,?,xnx_1,\cdots,x_nx1?,?,xn?是某個(gè)ddd維零均值分布的樣本,則樣本協(xié)方差為
Σ^=1n∑i=1nxixiT\hat \Sigma = \frac{1}{n} \sum_{i=1}^n x_ix_i^TΣ^=n1?i=1∑n?xi?xiT?
它是總體協(xié)方差的無偏估計(jì)。但對于non-asymptotic情形,我們希望知道這個(gè)估計(jì)的誤差。在隨機(jī)矩陣?yán)碚撝?#xff0c;我們介紹了一些常用的矩陣范數(shù),可以用它們來表示誤差,比如在這個(gè)協(xié)方差估計(jì)的問題中,我們定義估計(jì)誤差為樣本協(xié)方差與總體協(xié)方差之差的算子范數(shù),即
∥Σ^?Σ∥=λ1(Σ^?Σ)\left\| \hat \Sigma - \Sigma \right\| = \lambda_{1}(\hat \Sigma - \Sigma)∥∥∥?Σ^?Σ∥∥∥?=λ1?(Σ^?Σ)
考慮最簡單的一種情況,如果Σ=Id\Sigma=I_dΣ=Id?,那么根據(jù)弱大數(shù)定律,Σ^\hat \SigmaΣ^會依概率趨近于IdI_dId?,那么Σ^\hat \SigmaΣ^的所有特征值會依概率收斂到1。
Marcenko-Pastur規(guī)則
假設(shè)d/n→α∈(0,1)d/n \to \alpha \in (0,1)d/n→α∈(0,1),也就是在維數(shù)非常高的時(shí)候,Marcenko-Pastur規(guī)則認(rèn)為Σ^\hat \SigmaΣ^的特征值的密度滿足:
fMP(λ)∝(tmax(α)?λ)(λ?tmin(α))λf_{MP}(\lambda) \propto \frac{\sqrt{(t_{max}(\alpha)-\lambda)(\lambda-t_{min}(\alpha))}}{\lambda}fMP?(λ)∝λ(tmax?(α)?λ)(λ?tmin?(α))??
其中
tmin(α)=(1?α)2,tmax=(1+α)2t_{min}(\alpha)=(1-\sqrt{\alpha})^2,\ t_{max}=(1+\sqrt{\alpha})^2tmin?(α)=(1?α?)2,?tmax?=(1+α?)2
這兩個(gè)閾值的來源是我們在隨機(jī)矩陣部分介紹過的不等式
P(λ1(Σ^)≥(1+d/n+δ)2)≤e?nδ22,?δ≥0P(\lambda_{1}(\hat \Sigma) \ge (1+\sqrt{d/n}+\delta)^2) \le e^{-\frac{n\delta^2}{2}},\forall \delta \ge 0P(λ1?(Σ^)≥(1+d/n?+δ)2)≤e?2nδ2?,?δ≥0
這幅圖是基于這個(gè)簡單情形的模擬,左圖參數(shù)是α=0.2,n=4000\alpha=0.2,n=4000α=0.2,n=4000;右圖的參數(shù)是α=0.5,n=4000\alpha=0.5,n=4000α=0.5,n=4000;灰色部分是特征值的頻率直方圖,黑色實(shí)線是Marcenko-Pastur規(guī)則的密度。從這個(gè)圖可以看出,模擬結(jié)果,也就是灰色部分并沒有貼近經(jīng)典多元統(tǒng)計(jì)的結(jié)果(收斂到1)反而是與Marcenko-Pastur規(guī)則基本相符的,而Marcenko-Pastur規(guī)則是一個(gè)典型的高維統(tǒng)計(jì)理論結(jié)果。
作為專題0的結(jié)尾,我簡單闡述一下我對經(jīng)典多元統(tǒng)計(jì)理論與高維統(tǒng)計(jì)理論的理解。首先這二者作為統(tǒng)計(jì)理論,研究的問題其實(shí)是一樣的,估計(jì)量的一致性、誤差、收斂速率等。但經(jīng)典多元統(tǒng)計(jì)理論假設(shè)d<<nd<<nd<<n,也就是在做asymptotic analysis的時(shí)候,經(jīng)典統(tǒng)計(jì)認(rèn)為特征的維數(shù)ddd關(guān)于樣本量nnn是無窮小量,即d/n→0d/n \to 0d/n→0,因此經(jīng)典統(tǒng)計(jì)理論的誤差、concentration inequality等結(jié)果與維數(shù)是無關(guān)的。在高維統(tǒng)計(jì)理論中,假設(shè)d/n→α∈(0,1)d/n \to \alpha \in (0,1)d/n→α∈(0,1),這個(gè)比例會出現(xiàn)在誤差、concentration inequality等結(jié)果中,也就是維數(shù)對概率分布、對誤差等都是有影響的。
除此之外,經(jīng)典統(tǒng)計(jì)與高維統(tǒng)計(jì)還有一個(gè)很重要的區(qū)別,就是在高維統(tǒng)計(jì)中,information is sparse in features,即并不是ddd個(gè)特征都是一樣重要的,重要的特征占比非常小,這種特性被稱為sparsity,通常認(rèn)為重要的特征數(shù)目是o(d)o(d)o(d),也就是關(guān)于ddd是無窮小量,所以我們總是需要一些技術(shù)來做dimensional reduction/feature selection以去除冗余信息提高計(jì)算效率。
總結(jié)
以上是生活随笔為你收集整理的UA MATH567 高维统计 专题0 为什么需要高维统计理论?——协方差估计的高维效应与Marcenko-Pastur规则的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: R语言数据可视化 ggplot2基础4
- 下一篇: 常微分方程I ODE的例子1 弹簧的振动