當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

随机装箱算法（Random Binning Features）

發布時間：2024/3/24 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了随机装箱算法（Random Binning Features）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

承接上一篇推送，今天繼續來看看論文 Random Features for Large-Scale Kernel Machines 中提出的第二種隨機特征構造方法，姑且叫做隨機裝箱特征（Random Binnin Features）吧。

Random Binning Features

第二種特征特征提取方法，有著非常有趣的 Idea。用隨機的分辨率和平移量，將數據所在的空間等分成小塊，然后記錄數據點在哪些小塊當中。重復這個操作若干次，看看 2 個數據點被劃分到同一個小塊區域的頻率是多少，用這個頻率來近似這 2 個數據點的核函數值（核內積）。直觀的來說，當 2 個數據點靠的越近的時候，它們被分到同一個小塊區域的頻率會越大，這樣按上面的 Idea 所逼近的核函數值也應該越大。這是符合許多反應親密度的核函數的特點。

這個想法也可以用映射的觀點來刻畫。令 \(z(x)\) 是數據點 \(x\) 所落區域的二進制編號（比如 01011 這樣），這樣就定義了一個映射 \(z:R^d\to \{0,1\}^D\)，其中 \(D\) 是編號的位數。那么邏輯與運算 \(z(x)\&z(y):=z(x)z(y)\) 的結果為 1 則表示數據點 \(x\) 和 \(y\) 落在了同一個區域中，為 0 則表示不在一個區域中。比方說，我們用不同的分辨率和平移量對空間做了 \(P\) 次分割，對應的有編號映射 \(z_1,\cdots,z_P\)。這樣，數據點 \(x\) 和 \(y\) 落在同一個區域中的頻率就是：

1P∑p=1Pzp(x)zp(y):=z(x)Tz(y)≈k(x,y)
其中 \(z(x)=\frac{1}{\sqrt{P}}[z_1(x) \cdots z_P(x)]\)，就是我們要找的特征映射。

帶著這個 Idea，問題的重心就落在了如何隨機的選取空間分割的分辨率和平移量，使得上面的近似能夠盡可能精確。

首先我們要利用概率論知識來對整個分割空間的操作進行刻畫，然后考察上述近似的精確度，并設法提高。一般思路是，確定分割區域的分辨率和平移量應該服從什么分布，才能使得頻率 \(z(x)^Tz(y)\) 是 \(k(x,y)\) 的無偏估計，然后刻畫分割次數 \(P\) 對近似的精確度有何影響，比如估計隨著 \(P\) 增大，\(z(x)^Tz(y)\) 收斂到 \(k(x,y)\) 的速度（如果收斂的話）。

先考慮 1 維的情形。假設有一個核函數 \(k(x,y)\)。給定任意 2 個實數軸上的點 \(x,y\in R\)。我們把實數軸用隨機選取的間隔 \(\delta\) 等分成一系列區間，設 \(p(\delta),\delta>0\) 是 \(\delta\) 服從的分布。然后再從 \([0,\delta]\) 的均勻分布中隨機取 \(u\) 作為分割區間的偏移量，最后將整條實數軸均分成形如 \([u+k\delta,u+(k+1)\delta),n\in Z\) 的一系列區間。現在，為了讓 \(z(x)z(y)\approx k(x,y)\)，當然首先希望 \(z(x)z(y)\) 是 \(k(x,y)\) 的無偏估計，就是說，我們希望：

k(x,y)=Eδ,u[z(x)z(y)]
所以問題就集中在，怎么確定分布 \(p(\delta)\) 使得上式成立。考慮到在分割中，我們是先取定 \(\delta\)，再取定 \(u\) 的，于是想到把 \(\delta\) 作為條件，利用條件期望定義，得到：

Eδ,u[z(x)z(y)]=Eδ[Eu[z(x)z(y)|δ]]=∫∞0Eu[z(x)z(y)|δ]p(δ)dδ
回憶 \(z(x)z(y)\) 的含義：

z(x)z(y)={10如果x,y落在同一個區間,否則
于是可以計算：

Eu[z(x)z(y)|δ]=Pru[z(x)z(y)=1|δ]
接下來再計算上式右邊，也就是 \(x,y\) 兩個點落在同一個區間的概率。當 \(|x-y|>\delta\) 的時候，2 個點無論如何都不可能在同一個區間內，因此這時它們落在同一區間內的概率是 0；而當 \(|x-y|\leq\delta\) 時，由幾何知識知道，給定的 2 點落在同一個區間的概率是 \(1-\frac{|x-y|}{\delta}\)。因此，綜合起來有：

Pru[z(x)z(y)=1|δ]=max(0,1?|x?y|δ):=k^(x,y;δ)

這樣，我們就得到了確定分布 \(p(\delta)\) 的一個積分方程：

k(x,y)=∫∞0k^(x,y;δ)p(δ)dδ=∫∞|x?y|(1?|x?y|δ)p(δ)dδ
這時，就要對核函數的形狀做一些約束了。假設核函數只和數據點的 \(L_1\) 距離有關，即有這樣的形狀：

k(x,y)=k(|x?y|)
這樣，如果記 \(\Delta=|x-y|\)，上述方程改寫成：

k(Δ)=∫∞Δ(1?Δδ)p(δ)dδ
兩邊對 \(\Delta\) 求 2 次導數，就可以得到：

Δ?2k?Δ2=p(Δ)
至此，就得到了確定分布 \(p\) 的公式。并且，由于 \(p\) 是一個分布函數，上式成立，自然要求核函數是凸的，這樣它的二階導數才會大于 0。比如 Gauss 核函數 \(e^{-|x-y|^2}\) 就不是這樣的函數，也就是說，這次討論的隨機裝箱特征不可能使用在 Gauss 核函數上面。但是 Laplace 核函數 \(e^{-|x-y|}\) 就完全符合上面所有的要求，可以說隨機裝箱特征完全就是為 Laplace 核函數量身定做的。比如，Laplace 核函數對應的分布 \(p\) 恰好是 Gamma 分布函數 \(\delta e^{-\delta}\)。

接下來，就是重復做 \(P\) 次上面的分割，每次都隨機的從分布 \(p\) 取不同的分辨率 \(\delta\)，從區間 \([0,\delta]\) 隨機的取偏移量 \(u\)，得到一系列編碼映射 \(z_1,\cdots,z_P\)。因為每個 \(z_p(x)z_p(y)\) 都是核函數 \(k(x,y)\) 的無偏估計，所以統計任意 2 點落在同一區間的頻率：

1P∑p=1Pzp(x)zp(y):=z(x)Tz(y)≈k(x,y)
也是核函數的一個無偏估計，而且方差更小。

到這里，我們就已經得到了 1 維情形的隨機裝箱特征算法，更高維的討論是類似的，論文里面有相關討論，這里就不費口舌了。我們把 1 維情形的算法整理如下：

算法隨機裝箱特征
前提：數據空間 1 維。核函數 \(k(x,y)\) 有形狀 \(k(|x-y|)=k(\delta)\)，而且用下式構造的函數

p(δ)=δ?2k?δ2,δ>0
是一個概率密度函數。
效果：得到隨機特征映射 \(z(x)\) 可以使得 \(z(x)^Tz(y)\approx k(|x-y|)\)。
for \(m=1,\cdots,P\)
從分布 \(p\) 中隨機選取分辨率 \(\delta_m\)，從區間 \([0,\delta_m]\) 內隨機選取偏移量 \(u_m\)，把實數軸等分成一系列區間。
把有數據點下落的區間用二進制編碼，用 \(z_p(x)\) 表示數據 \(x\) 下落的區間編號。
end for
令 \(z(x)=\frac{1}{\sqrt{P}}[z_1(x) \cdots z_P(x)]\) 得所求。

可能要提下的是，論文里面沒有提到用隨機裝箱特征的話，evaluation 里面 \(w^Tz(x)=\frac{1}{P}\sum_p w_pz_p(x)\) 里面權重的每一個分量是什么，那么為了統一運算，可以姑且認為也是一個二進制串。

最后，論文還討論了隨機裝箱特征逼近核函數的收斂速度，這一段是很體現作者數學功力的。它的思路是從概率測度的意義上探討算法隨著分割次數 \(P\) 增大，逼近過程的收斂速度。結論是，逼近達到指定精確度的概率隨著 \(P\) 增大，成指數增長到 1。有需要的話，筆者可能會專門花一篇文章來學習作者的這些技巧。

后記
總體而言，整篇論文的奇思妙想非常多，閱讀過程也很愉快。但是可以看到，隨機裝箱特征適用的核函數是有限的，相比較起來，隨機 Fourier 特征的適用范圍更廣一些。但是隨機裝箱特征也是有用武之地的，比如論文的實證部分提到的，一些分類問題數據集的分割平面高度不光滑，這時候隨機 Fourier 特征的效果就遠不如隨機裝箱特征。
這篇論文給我們的啟示是，可以多用概率分布來刻畫帶有隨機性的操作，然后借用概率論和數理統計的知識對問題進行建模和解決。另外，論文在推導隨機 Fourier 特征時提到的那個調和分析的定理，也啟發我們，看到一些概率密度或者測度的相關定理，也應該反方向的思考是否可以由此開發出對應的隨機操作。

總結

以上是生活随笔為你收集整理的随机装箱算法（Random Binning Features）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Windows系统自带的电脑朗读器完整教
下一篇：字符串拼接后分割再去重java_orac