日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

UA MATH567 高维统计II 随机向量10 Grothendieck不等式的证明 版本二:kernel trick

發布時間:2025/4/14 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 UA MATH567 高维统计II 随机向量10 Grothendieck不等式的证明 版本二:kernel trick 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

UA MATH567 高維統計II 隨機向量10 Grothendieck不等式的證明 版本二:kernel trick

在介紹亞高斯隨機向量的更多應用之前,我們先簡單介紹一下核方法(kernel trick)。大概近十來年,張量數據(tensor data)越來越多了,比如MRI數據,基因組學的array data等等,如果按傳統多元統計的思路處理張量數據,那就是定義一些拉平算子把張量變成一個向量進行研究,這樣做的缺陷在于它完全破壞了張量數據本身的spatial correlation,所以我們需要另一種能夠不破壞張量數據的spatial structure的方法——核方法(kernel trick)。它的本質是在用低維的簡單的結構近似高維的、非線性的結構。

一個直觀例子,關于Kernel trick在做什么:函數f(x1,x2)=x12+x22+3x1x2+x1+x2f(x_1,x_2)=x_1^2+x_2^2+3x_1x_2+x_1+x_2f(x1?,x2?)=x12?+x22?+3x1?x2?+x1?+x2?是一個二次函數,我們可以用二次型分析它,但不管怎么說這都是一個需要一點工具才能分析的東西,但如果我們打破我們的刻板印象,不在(x1,x2)(x_1,x_2)(x1?,x2?)這個二維坐標系下討論這個函數,而是在(x1,x2,x1x2,x12,x22)(x_1,x_2,x_1x_2,x_1^2,x_2^2)(x1?,x2?,x1?x2?,x12?,x22?)這個五維的坐標系下討論這個函數,它就是是一個非常簡單的線性函數了。


Tensor and Array Data

假設我們要處理的張量數據用A=(ai1?ik)∈Rn1×?×nkA=(a_{i_1\cdots i_k}) \in \mathbb{R}^{n_1 \times \cdots \times n_k}A=(ai1??ik??)Rn1?×?×nk?表示,其中i1,?,iki_1,\cdots,i_ki1?,?,ik?是啞標(可以自由取遍所有可能的取值),i1=1,?,n1,?,ik=1,?,nki_1=1,\cdots,n_1,\cdots,i_k = 1,\cdots,n_ki1?=1,?,n1?,?,ik?=1,?,nk?

定義張量數據的內積為
?A,B?=∑i1,?,ikai1?ikbi1?ik\langle A,B \rangle = \sum_{i_1,\cdots,i_k}a_{i_1\cdots i_k}b_{i_1\cdots i_k}?A,B?=i1?,?,ik??ai1??ik??bi1??ik??

定義rank 1 tensor(或者稱為簡單張量)為向量的張量積,比如
u∈Rn,u???u=u?k=(ui1?uik)∈Rn×?×nu \in \mathbb{R}^n,u \otimes \cdots \otimes u = u^{\otimes k} = (u_{i_1}\cdots u_{i_k}) \in \mathbb{R}^{n \times \cdots \times n}uRn,u???u=u?k=(ui1???uik??)Rn×?×n

性質
u,v∈Rn,?u?k,v?k?=?u,v?ku,v \in \mathbb{R}^n,\langle u^{\otimes k},v^{\otimes k} \rangle=\langle u,v \rangle^ku,vRn,?u?k,v?k?=?u,v?k

證明
根據定義,
?u?k,v?k?=∑i1,?,ikui1?uikvi1?vik=(∑i1ui1vi1)?(∑i1uikvik)=?u,v?k\langle u^{\otimes k},v^{\otimes k} \rangle =\sum_{i_1,\cdots,i_k}u_{i_1}\cdots u_{i_k}v_{i_1}\cdots v_{i_k} \\ = \left( \sum_{i_1} u_{i_1}v_{i_1} \right) \cdots \left( \sum_{i_1} u_{i_k}v_{i_k} \right)=\langle u,v \rangle^k?u?k,v?k?=i1?,?,ik??ui1???uik??vi1???vik??=(i1??ui1??vi1??)?(i1??uik??vik??)=?u,v?k


假設KKK是一個二元映射,K:Ω×Ω→RK:\Omega \times \Omega \to \mathbb{R}K:Ω×ΩR,能用kernel trick分析這個二元映射的前提是存在一個Hilbert空間與映射Φ:Ω→H\Phi:\Omega \to HΦ:ΩH,使得
K(u,v)=?Φ(u),Φ(v)?H,?u,v∈ΩK(u,v)=\langle \Phi(u),\Phi(v) \rangle_H,\forall u,v \in \OmegaK(u,v)=?Φ(u),Φ(v)?H?,?u,vΩ

比如對于任意解析函數fffK=f(??,??)K = f(\langle\cdot,\cdot \rangle)K=f(??,??),我們希望?Φ,Ψ:Rn→Rnk\exists \Phi,\Psi:\mathbb{R}^n \to \mathbb{R}^{n^k}?Φ,Ψ:RnRnk,使得
?u,v∈Rn,f(?u,v?)=?Φ(u),Ψ(v)?\forall u,v \in \mathbb{R^n},f(\langle u,v \rangle) = \langle \Phi(u),\Psi(v) \rangle?u,vRn,f(?u,v?)=?Φ(u),Ψ(v)?

(上面的性質就是一個例子),這樣的kernel與Hilbert空間的存在性由下列定理保證:

Mercer定理、Moore-Aronszajn定理 {ui}i=1N\{u_i\}_{i=1}^N{ui?}i=1N?Ω\OmegaΩ中的任意點集,如果矩陣[K(ui,uj)]N×N[K(u_i,u_j)]_{N \times N}[K(ui?,uj?)]N×N?是半正定矩陣,則存在Hilbert空間與映射Φ:Ω→H\Phi:\Omega \to HΦ:ΩH,使得
K(u,v)=?Φ(u),Φ(v)?H,?u,v∈ΩK(u,v)=\langle \Phi(u),\Phi(v) \rangle_H,\forall u,v \in \OmegaK(u,v)=?Φ(u),Φ(v)?H?,?u,vΩ

Φ\PhiΦ是特征映射(feature map),稱KKK為kernel,HHH具有唯一性,可以根據KKK構建,稱其為reproducing kernel Hilbert space (RKHS)。


應用舉例

現在回到第七講討論的Grothendieck不等式,這個不等式提供了分析用半正定規劃近似整數規劃的誤差的方法。第九講中我們用半正定規劃+random rounding技巧近似了用整數規劃建模的圖的max-cut問題。對比這兩個思路我們可以獲得一個新的想法,我們能不能用random rounding技巧推Grothendieck不等式?

Grothendieck不等式
AAAm×nm \times nm×n的實矩陣,xi,yj∈{?1,1}x_i,y_j \in \{-1,1\}xi?,yj?{?1,1},假設∣∑i,jAijxiyj∣≤1|\sum_{i,j}A_{ij}x_iy_j| \le 1i,j?Aij?xi?yj?1,則?H\forall H?H(Hilbert space),?ui,vj∈H\forall u_i,v_j \in H?ui?,vj?H∥ui∥=∥vj∥=1\left\| u_i \right\|=\left\| v_j \right\|=1ui?=vj?=1
∣∑i,jAi,j?ui,vj?∣≤K,K≤1.783|\sum_{i,j}A_{i,j}\langle u_i,v_j \rangle| \le K,K \le 1.783i,j?Ai,j??ui?,vj??K,K1.783

第七講中證明這個不等式的第二步引入了隨機性,定義g~N(0,IN)g \sim N(0,I_N)gN(0,IN?),定義xi=sgn?g,ui?,yj=sgn?g,vj?x_i =sgn \langle g,u_i\rangle,y_j = sgn \langle g,v_j\ranglexi?=sgn?g,ui??,yj?=sgn?g,vj??,我們沿用這個設定,但后續用random rounding的思路分析,根據Grothendieck恒等式(第九講)
E[xiyj]=2πarcsin??ui,vj?E[x_iy_j] =\frac{2}{\pi} \arcsin \langle u_i,v_j\rangleE[xi?yj?]=π2?arcsin?ui?,vj??

我們可以想象一下,如果E[xiyj]=2π?ui,vj?E[x_iy_j] =\frac{2}{\pi} \langle u_i,v_j\rangleE[xi?yj?]=π2??ui?,vj??,那么
K(A)=∣∑i,jAi,j?ui,vj?∣=π2∣∑i,jAi,jE[xiyj]∣=π2E∣∑i,jAi,j[xiyj]∣=π2<1.783K(A) =| \sum_{i,j}A_{i,j}\langle u_i,v_j \rangle|=\frac{\pi}{2}|\sum_{i,j}A_{i,j}E[x_iy_j]| \\ = \frac{\pi}{2}E|\sum_{i,j}A_{i,j}[x_iy_j]|=\frac{\pi}{2}<1.783K(A)=i,j?Ai,j??ui?,vj??=2π?i,j?Ai,j?E[xi?yj?]=2π?Ei,j?Ai,j?[xi?yj?]=2π?<1.783

也就是說我們甚至還能得到一個更小的上界,那么到底怎么才能實現E[xiyj]=2π?ui,vj?E[x_iy_j] =\frac{2}{\pi} \langle u_i,v_j\rangleE[xi?yj?]=π2??ui?,vj??呢?我們可以做一個變換:
ui→ui′,vj→vj′u_i \to u_i',v_j \to v_j'ui?ui?,vj?vj?

使得
?β,β?ui,vj?=sin?2π?ui′,vj′??π2arcsin?β?ui,vj?=?ui′,vj′?\exists \beta, \beta \langle u_i,v_j \rangle = \sin \frac{2}{\pi}\langle u_i',v_j '\rangle \Leftrightarrow \frac{\pi}{2}\arcsin \beta \langle u_i,v_j \rangle = \langle u_i',v_j '\rangle?β,β?ui?,vj??=sinπ2??ui?,vj???2π?arcsinβ?ui?,vj??=?ui?,vj??

這個變換實際上就是kernel trick,?Φ,Ψ:Rn→Rnk\exists \Phi,\Psi:\mathbb{R}^n \to \mathbb{R}^{n^k}?Φ,Ψ:RnRnk,使得
?u,v∈Rn,f(?u,v?)=?Φ(u),Ψ(v)?\forall u,v \in \mathbb{R^n},f(\langle u,v \rangle) = \langle \Phi(u),\Psi(v) \rangle?u,vRn,f(?u,v?)=?Φ(u),Ψ(v)?

這里的f(?u,v?)=π2arcsin?β?u,v?f(\langle u,v \rangle) =\frac{\pi}{2}\arcsin \beta \langle u,v \ranglef(?u,v?)=2π?arcsinβ?u,v?ui′,vj′u_i',v_j'ui?,vj?的存在性由Mercer定理、Moore-Aronszajn定理保證。

于是
βK(A)=∣∑i,jAi,jβ?ui,vj?∣=∣∑i,jAi,j2πarcsin??ui′,vj′?∣\beta K(A) = | \sum_{i,j}A_{i,j} \beta \langle u_i,v_j \rangle|= | \sum_{i,j}A_{i,j} \frac{2}{\pi} \arcsin \langle u_i',v_j'\rangle| βK(A)=i,j?Ai,j?β?ui?,vj??=i,j?Ai,j?π2?arcsin?ui?,vj??

根據Grothendieck恒等式,
∣∑i,jAi,j2πarcsin??ui′,vj′?∣=∣∑i,jAi,jE[sgn?g,ui?sgn?g,vj?]∣=∣∑i,jAi,jExiyj∣≤E∣∑i,jAi,jxiyj∣=1| \sum_{i,j}A_{i,j} \frac{2}{\pi} \arcsin \langle u_i',v_j'\rangle|= | \sum_{i,j}A_{i,j} E[sgn \langle g,u_i\rangle sgn\langle g,v_j\rangle]| \\ =| \sum_{i,j}A_{i,j}Ex_i y_j| \le E| \sum_{i,j}A_{i,j}x_i y_j| =1 i,j?Ai,j?π2?arcsin?ui?,vj??=i,j?Ai,j?E[sgn?g,ui??sgn?g,vj??]=i,j?Ai,j?Exi?yj?Ei,j?Ai,j?xi?yj?=1

所以K=K(A)≤1/βK = K(A) \le 1/\betaK=K(A)1/β,接下來的問題就是β\betaβ可以是什么,這就要涉及前面的那個變換怎么構造了。


引理
存在一個Hilbert空間HHH,以及變換Φ,Ψ:Sn?1→S(H)\Phi,\Psi:S^{n-1} \to S(H)Φ,Ψ:Sn?1S(H),使得
2πarcsin??Φ(u),Ψ(v)?=β?u,v?,β=2πln?(1+2)\frac{2}{\pi} \arcsin \langle \Phi(u),\Psi(v) \rangle = \beta \langle u,v \rangle ,\beta = \frac{2}{\pi}\ln(1+\sqrt{2})π2?arcsin?Φ(u),Ψ(v)?=β?u,v?,β=π2?ln(1+2?)

其中S(H)S(H)S(H)HHH上的單位球面。

有了這個引理,我們就可以直接得到Grothendieck不等式了,下一講我們介紹這個引理的證明。

總結

以上是生活随笔為你收集整理的UA MATH567 高维统计II 随机向量10 Grothendieck不等式的证明 版本二:kernel trick的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。