UA MATH567 高维统计IV Lipschitz组合11 社区发现 Spectral Clustering容许的最大随机噪声
UA MATH567 高維統(tǒng)計IV Lipschitz組合11 社區(qū)發(fā)現(xiàn) Spectral Clustering容許的最大隨機噪聲
- 社區(qū)發(fā)現(xiàn)的Spectral Clustering算法復習
- 用矩陣Bernstein不等式推導Spectral Clustering的理論性質
社區(qū)發(fā)現(xiàn)的Spectral Clustering算法復習
我們在上一部分介紹隨機矩陣的時候介紹了stochastic blocking model以及community detection的spectral clustering算法。
假設這個網(wǎng)絡有nnn個節(jié)點,網(wǎng)絡中有兩個社區(qū),它們的規(guī)模相當,各擁有n/2n/2n/2個節(jié)點,記這兩個社區(qū)為C1,C2C_1,C_2C1?,C2?,我們用G(n,p,q)G(n,p,q)G(n,p,q)表示這個隨機網(wǎng)絡,其中ppp表示某條邊連接的兩個點屬于同一個社區(qū)的概率,qqq表示某條邊連接的兩個點屬于不同社區(qū)的概率,假設p>qp>qp>q,用AAA表示這個網(wǎng)絡的伴隨矩陣,顯然它是一個隨機矩陣,
P(Aij=1∣i,j∈C1ori,j∈C2)=pP(Aij=1∣i∈C1,j∈C2ori∈C2,j∈C1)=qP(A_{ij}=1|i,j \in C_1\ or\ i,j \in C_2)=p \\ P(A_{ij}=1|i \in C_1,j \in C_2\ or\ i \in C_2,j \in C_1)=qP(Aij?=1∣i,j∈C1??or?i,j∈C2?)=pP(Aij?=1∣i∈C1?,j∈C2??or?i∈C2?,j∈C1?)=q
我們可以將AAA分解為它的期望與殘差矩陣:
A=E[A]+RA = E[A]+RA=E[A]+R
Community detection in networks的目標是給定一個某個隨機矩陣的樣本數(shù)據(jù)集,要還原隨機矩陣的期望的特征向量,下面是Spectral clustering的算法描述:
我們在上部分第八講用Davis-Kahan定理說明了它的理論性質:考慮隨機網(wǎng)絡G(n,p,q)G(n,p,q)G(n,p,q),如果min?(q,p?q)=μ>0\min(q,p-q)=\mu>0min(q,p?q)=μ>0,則?c>0\exists c>0?c>0,Spectral Clustering最多搞錯c/μ2c/\mu^2c/μ2個節(jié)點的概率至少是1?4e?n1-4e^{-n}1?4e?n。這個結論的條件是
∥D∥~n,P(∥R∥=O(n))≥1?4e?n\left\| D\right\| \sim n,P(\left\| R \right\| =O(\sqrt{n})) \ge 1-4e^{-n}∥D∥~n,P(∥R∥=O(n?))≥1?4e?n
用矩陣Bernstein不等式推導Spectral Clustering的理論性質
注意到∥D∥=(p+q)n/2≥μn\left\| D\right\|=(p+q)n/2 \ge \mu n∥D∥=(p+q)n/2≥μn,所以之前得到的結果需要的條件是
μn>>O(n)\mu n >> O(\sqrt{n})μn>>O(n?)
也就是∥D∥>>n\left\| D\right\|>>n∥D∥>>n,但是用矩陣Bernstein不等式,我們可以把這個條件弱化為∥D∥>>log?n\left\| D\right\|>>\log n∥D∥>>logn。
記d=∥D∥d=\left\| D\right\|d=∥D∥,定義A=∑1≤i<j≤nZijA = \sum_{1 \le i< j \le n}Z_{ij}A=∑1≤i<j≤n?Zij?,其中ZijZ_{ij}Zij?是n×nn \times nn×n的矩陣,除了(i,j)(i,j)(i,j)與(j,i)(j,i)(j,i)這兩個位置為Bernoulli變量外,其他位置均為0,我們可以說明
E∥R∥=E∥A?EA∥?dlog?n+log?nE \left\| R \right\| = E \left\| A - EA \right\| \lesssim \sqrt{d \log n}+\log nE∥R∥=E∥A?EA∥?dlogn?+logn
證明思路
R=A?EA=∑1≤i<j≤n(Zij?EZij)R = A - EA = \sum_{1 \le i< j \le n}(Z_{ij}-EZ_{ij})R=A?EA=1≤i<j≤n∑?(Zij??EZij?)
這里的Zij?EZijZ_{ij}-EZ_{ij}Zij??EZij?是有界(算子范數(shù)小于1)、獨立、零均值、對稱的隨機變量,計算
σ2=∥∑E(Zij?EZij)2∥≈d\sigma^2 = \left\| \sum E(Z_{ij}-EZ_{ij})^2 \right\| \approx dσ2=∥∥∥?∑E(Zij??EZij?)2∥∥∥?≈d
根據(jù)矩陣Bernstein不等式的推論
E∥R∥?σlog?n+log?nE \left\| R \right\| \lesssim \sigma\sqrt{\log n}+\log nE∥R∥?σlogn?+logn
總結
以上是生活随笔為你收集整理的UA MATH567 高维统计IV Lipschitz组合11 社区发现 Spectral Clustering容许的最大随机噪声的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH567 高维统计IV Li
- 下一篇: 稀疏数据分析:马蹄估计量及其理论性质