日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

随机装箱算法(Random Binning Features)

發布時間:2024/3/24 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 随机装箱算法(Random Binning Features) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

承接上一篇推送,今天繼續來看看論文 Random Features for Large-Scale Kernel Machines 中提出的第二種隨機特征構造方法,姑且叫做隨機裝箱特征(Random Binnin Features)吧。

Random Binning Features

第二種特征特征提取方法,有著非常有趣的 Idea。用隨機的分辨率和平移量,將數據所在的空間等分成小塊,然后記錄數據點在哪些小塊當中。重復這個操作若干次,看看 2 個數據點被劃分到同一個小塊區域的頻率是多少,用這個頻率來近似這 2 個數據點的核函數值(核內積)。直觀的來說,當 2 個數據點靠的越近的時候,它們被分到同一個小塊區域的頻率會越大,這樣按上面的 Idea 所逼近的核函數值也應該越大。這是符合許多反應親密度的核函數的特點。

這個想法也可以用映射的觀點來刻畫。 令 \(z(x)\) 是數據點 \(x\) 所落區域的二進制編號(比如 01011 這樣),這樣就定義了一個映射 \(z:R^d\to \{0,1\}^D\),其中 \(D\) 是編號的位數。 那么邏輯與運算 \(z(x)\&z(y):=z(x)z(y)\) 的結果為 1 則表示數據點 \(x\) 和 \(y\) 落在了同一個區域中,為 0 則表示不在一個區域中。比方說,我們用不同的分辨率和平移量對空間做了 \(P\) 次分割,對應的有編號映射 \(z_1,\cdots,z_P\)。這樣,數據點 \(x\) 和 \(y\) 落在同一個區域中的頻率就是:

1Pp=1Pzp(x)zp(y):=z(x)Tz(y)k(x,y)
其中 \(z(x)=\frac{1}{\sqrt{P}}[z_1(x) \cdots z_P(x)]\),就是我們要找的特征映射。

帶著這個 Idea,問題的重心就落在了如何隨機的選取空間分割的分辨率和平移量,使得上面的近似能夠盡可能精確。

首先我們要利用概率論知識來對整個分割空間的操作進行刻畫,然后考察上述近似的精確度,并設法提高。一般思路是,確定分割區域的分辨率和平移量應該服從什么分布,才能使得頻率 \(z(x)^Tz(y)\) 是 \(k(x,y)\) 的無偏估計,然后刻畫分割次數 \(P\) 對近似的精確度有何影響,比如估計隨著 \(P\) 增大,\(z(x)^Tz(y)\) 收斂到 \(k(x,y)\) 的速度(如果收斂的話)。

先考慮 1 維的情形。假設有一個核函數 \(k(x,y)\)。給定任意 2 個實數軸上的點 \(x,y\in R\)。我們把實數軸用隨機選取的間隔 \(\delta\) 等分成一系列區間,設 \(p(\delta),\delta>0\) 是 \(\delta\) 服從的分布。然后再從 \([0,\delta]\) 的均勻分布中隨機取 \(u\) 作為分割區間的偏移量,最后將整條實數軸均分成形如 \([u+k\delta,u+(k+1)\delta),n\in Z\) 的一系列區間。現在,為了讓 \(z(x)z(y)\approx k(x,y)\),當然首先希望 \(z(x)z(y)\) 是 \(k(x,y)\) 的無偏估計,就是說,我們希望:

k(x,y)=Eδ,u[z(x)z(y)]
所以問題就集中在,怎么確定分布 \(p(\delta)\) 使得上式成立。考慮到在分割中,我們是先取定 \(\delta\),再取定 \(u\) 的,于是想到把 \(\delta\) 作為條件,利用條件期望定義,得到:
Eδ,u[z(x)z(y)]=Eδ[Eu[z(x)z(y)|δ]]=0Eu[z(x)z(y)|δ]p(δ)dδ
回憶 \(z(x)z(y)\) 的含義:
z(x)z(y)={10x,y,
于是可以計算:
Eu[z(x)z(y)|δ]=Pru[z(x)z(y)=1|δ]
接下來再計算上式右邊,也就是 \(x,y\) 兩個點落在同一個區間的概率。當 \(|x-y|>\delta\) 的時候,2 個點無論如何都不可能在同一個區間內,因此這時它們落在同一區間內的概率是 0;而當 \(|x-y|\leq\delta\) 時,由幾何知識知道,給定的 2 點落在同一個區間的概率是 \(1-\frac{|x-y|}{\delta}\)。因此,綜合起來有:
Pru[z(x)z(y)=1|δ]=max(0,1?|x?y|δ):=k^(x,y;δ)

這樣,我們就得到了確定分布 \(p(\delta)\) 的一個積分方程:

k(x,y)=0k^(x,y;δ)p(δ)dδ=|x?y|(1?|x?y|δ)p(δ)dδ
這時,就要對核函數的形狀做一些約束了。假設核函數只和數據點的 \(L_1\) 距離有關,即有這樣的形狀:
k(x,y)=k(|x?y|)
這樣,如果記 \(\Delta=|x-y|\),上述方程改寫成:
k(Δ)=Δ(1?Δδ)p(δ)dδ
兩邊對 \(\Delta\) 求 2 次導數,就可以得到:
Δ?2k?Δ2=p(Δ)
至此,就得到了確定分布 \(p\) 的公式。并且,由于 \(p\) 是一個分布函數,上式成立,自然要求核函數是凸的,這樣它的二階導數才會大于 0。比如 Gauss 核函數 \(e^{-|x-y|^2}\) 就不是這樣的函數,也就是說,這次討論的隨機裝箱特征不可能使用在 Gauss 核函數上面。但是 Laplace 核函數 \(e^{-|x-y|}\) 就完全符合上面所有的要求,可以說隨機裝箱特征完全就是為 Laplace 核函數量身定做的。比如,Laplace 核函數對應的分布 \(p\) 恰好是 Gamma 分布函數 \(\delta e^{-\delta}\)。

接下來,就是重復做 \(P\) 次上面的分割,每次都隨機的從分布 \(p\) 取不同的分辨率 \(\delta\),從區間 \([0,\delta]\) 隨機的取偏移量 \(u\),得到一系列編碼映射 \(z_1,\cdots,z_P\)。因為每個 \(z_p(x)z_p(y)\) 都是核函數 \(k(x,y)\) 的無偏估計,所以統計任意 2 點落在同一區間的頻率:

1Pp=1Pzp(x)zp(y):=z(x)Tz(y)k(x,y)
也是核函數的一個無偏估計,而且方差更小。

到這里,我們就已經得到了 1 維情形的隨機裝箱特征算法,更高維的討論是類似的,論文里面有相關討論,這里就不費口舌了。我們把 1 維情形的算法整理如下:

算法 隨機裝箱特征
前提:數據空間 1 維。核函數 \(k(x,y)\) 有形狀 \(k(|x-y|)=k(\delta)\),而且用下式構造的函數

p(δ)=δ?2k?δ2,δ>0
是一個概率密度函數。
效果:得到隨機特征映射 \(z(x)\) 可以使得 \(z(x)^Tz(y)\approx k(|x-y|)\)。
for \(m=1,\cdots,P\)
從分布 \(p\) 中隨機選取分辨率 \(\delta_m\),從區間 \([0,\delta_m]\) 內隨機選取偏移量 \(u_m\),把實數軸等分成一系列區間。
把有數據點下落的區間用二進制編碼,用 \(z_p(x)\) 表示數據 \(x\) 下落的區間編號。
end for
令 \(z(x)=\frac{1}{\sqrt{P}}[z_1(x) \cdots z_P(x)]\) 得所求。

可能要提下的是,論文里面沒有提到用隨機裝箱特征的話,evaluation 里面 \(w^Tz(x)=\frac{1}{P}\sum_p w_pz_p(x)\) 里面權重的每一個分量是什么,那么為了統一運算,可以姑且認為也是一個二進制串。

最后,論文還討論了隨機裝箱特征逼近核函數的收斂速度,這一段是很體現作者數學功力的。它的思路是從概率測度的意義上探討算法隨著分割次數 \(P\) 增大,逼近過程的收斂速度。結論是,逼近達到指定精確度的概率隨著 \(P\) 增大,成指數增長到 1。有需要的話,筆者可能會專門花一篇文章來學習作者的這些技巧。

后記
總體而言,整篇論文的奇思妙想非常多,閱讀過程也很愉快。但是可以看到,隨機裝箱特征適用的核函數是有限的,相比較起來,隨機 Fourier 特征的適用范圍更廣一些。但是隨機裝箱特征也是有用武之地的,比如論文的實證部分提到的,一些分類問題數據集的分割平面高度不光滑,這時候隨機 Fourier 特征的效果就遠不如隨機裝箱特征。
這篇論文給我們的啟示是,可以多用概率分布來刻畫帶有隨機性的操作,然后借用概率論和數理統計的知識對問題進行建模和解決。另外,論文在推導隨機 Fourier 特征時提到的那個調和分析的定理,也啟發我們,看到一些概率密度或者測度的相關定理,也應該反方向的思考是否可以由此開發出對應的隨機操作。

總結

以上是生活随笔為你收集整理的随机装箱算法(Random Binning Features)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。