概率分布之间的距离度量以及python实现(四)
1、f 散度(f-divergence)
KL-divergence 的壞處在于它是無界的。事實(shí)上KL-divergence 屬于更廣泛的 f-divergence 中的一種。
如果P和Q被定義成空間中的兩個(gè)概率分布,則f散度被定義為:
一些通用的散度,如KL-divergence, Hellinger distance, 和total variation distance,都是f散度的一種特例。只是f函數(shù)的取值不同而已。
在python中的實(shí)現(xiàn) :
import numpy as np
import scipy.stats
p=np.asarray([0.65,0.25,0.07,0.03])
q=np.array([0.6,0.25,0.1,0.05])
def f(t):
return t*np.log(t)
#方法一:根據(jù)公式求解
f1=np.sum(q*f(p/q))
#方法二:調(diào)用scipy包求解
f2=scipy.stats.entropy(p, q)
2、Hellinger distance
1 定義
1.1 度量理論
為了從度量理論的角度定義Hellinger距離,我們假設(shè)P和Q是兩個(gè)概率測度,并且它們對于第三個(gè)概率測度λ來說是絕對連續(xù)的,則P和Q的Hellinger距離的平方被定義如下:
這里的dP/dλ和dQ/dλ分別是P和Q的Radon–Nikodym微分。這里的定義是與λ無關(guān)的,因此當(dāng)我們用另外一個(gè)概率測度替換λ時(shí),只要P和Q關(guān)于它絕對連續(xù),那么上式就不變。為了簡單起見,我們通常把上式改寫為:
1.2 基于Lebesgue度量的概率理論
為了在經(jīng)典的概率論框架下定義Hellinger距離,我們通常將λ定義為Lebesgue度量,此時(shí)dP/dλ和dQ/dλ就變?yōu)榱宋覀兺ǔKf的概率密度函數(shù)。如果我們把上述概率密度函數(shù)分別表示為 f 和 g ,那么可以用以下的積分形式表示Hellinger距離:
上述等式可以通過展開平方項(xiàng)得到,注意到任何概率密度函數(shù)在其定義域上的積分為1。
根據(jù)柯西-施瓦茨不等式(Cauchy-Schwarz inequality),Hellinger距離滿足如下性質(zhì):
1.3 離散概率分布
對于兩個(gè)離散概率分布 P=(p1,p2,...,pn)和 Q=(q1,q2,...,qn),它們的Hellinger距離可以定義如下:
上式可以被看作兩個(gè)離散概率分布平方根向量的歐式距離,如下所示:
也可以寫成:
在python中的實(shí)現(xiàn):
import numpy as np p=np.asarray([0.65,0.25,0.07,0.03]) q=np.array([0.6,0.25,0.1,0.05]) #方法一: h1=1/np.sqrt(2)*np.linalg.norm(np.sqrt(p)-np.sqrt(q)) #方法二: h2=np.sqrt(1-np.sum(np.sqrt(p*q)))
3、巴氏距離(Bhattacharyya Distance)
在統(tǒng)計(jì)中,Bhattacharyya距離測量兩個(gè)離散或連續(xù)概率分布的相似性。它與衡量兩個(gè)統(tǒng)計(jì)樣品或種群之間的重疊量的Bhattacharyya系數(shù)密切相關(guān)。Bhattacharyya距離和Bhattacharyya系數(shù)以20世紀(jì)30年代曾在印度統(tǒng)計(jì)研究所工作的一個(gè)統(tǒng)計(jì)學(xué)家A. Bhattacharya命名。同時(shí),Bhattacharyya系數(shù)可以被用來確定兩個(gè)樣本被認(rèn)為相對接近的,它是用來測量中的類分類的可分離性。
對于離散概率分布 p和q在同一域 X,巴氏距離被定義為:
其中BC(p,q)是Bhattacharyya系數(shù):
對于連續(xù)概率分布,Bhattacharyya系數(shù)被定義為:
從公式可以看出,Bhattacharyya系數(shù)BC(P,Q)可以和前面的Hellinger距離聯(lián)系起來,此時(shí)Hellinger距離可以被定義為:
因此,求得巴氏系數(shù)之后,就可以求得巴氏距離和Hellinger距離。
在python中的實(shí)現(xiàn):
import numpy as np p=np.asarray([0.65,0.25,0.07,0.03]) q=np.array([0.6,0.25,0.1,0.05]) BC=np.sum(np.sqrt(p*q)) #Hellinger距離: h=np.sqrt(1-BC) #巴氏距離: b=-np.log(BC)
4、MMD距離(Maximum mean discrepancy)
最大均值差異(Maximum mean discrepancy),度量在再生希爾伯特空間中兩個(gè)分布的距離,是一種核學(xué)習(xí)方法。兩個(gè)隨機(jī)變量的距離為:
其中k(.)是映射,用于把原變量映射到高維空間中。X,Y表示兩種分布的樣本,F(xiàn)表示映射函數(shù)集。
基于兩個(gè)分布的樣本,通過尋找在樣本空間上的映射函數(shù)K,求不同分布的樣本在K上的函數(shù)值的均值,通過把兩個(gè)均值作差可以得到兩個(gè)分布對應(yīng)于K的mean discrepancy。尋找一個(gè)K使得這個(gè)mean discrepancy有最大值,就得到了MMD。最后取MMD作為檢驗(yàn)統(tǒng)計(jì)量(test statistic),從而判斷兩個(gè)分布是否相同。如果這個(gè)值足夠小,就認(rèn)為兩個(gè)分布相同,否則就認(rèn)為它們不相同。更加簡單的理解就是:求兩堆數(shù)據(jù)在高維空間中的均值的距離。
近年來,MMD越來越多地應(yīng)用在遷移學(xué)習(xí)中。在遷移學(xué)習(xí)環(huán)境下訓(xùn)練集和測試集分別取樣自分布p和q,兩類樣本集不同但相關(guān)。我們可以利用深度神經(jīng)網(wǎng)絡(luò)的特征變換能力,來做特征空間的變換,直到變換后的特征分布相匹配,這個(gè)過程可以是source domain一直變換直到匹配target domain。匹配的度量方式就是MMD。
在python中的實(shí)現(xiàn),根據(jù)核函數(shù)不同,公式可能不一樣,根據(jù)公式編程即可。
5、Wasserstein distance
Wasserstein 距離,也叫Earth Mover's Distance,推土機(jī)距離,簡稱EMD,用來表示兩個(gè)分布的相似程度。
Wasserstein distance 衡量了把數(shù)據(jù)從分布“移動(dòng)成”分布時(shí)所需要移動(dòng)的平均距離的最小值(類似于把一堆土從一個(gè)形狀移動(dòng)到另一個(gè)形狀所需要做的功的最小值)
EMD是2000年IJCV期刊文章《The Earth Mover's Distance as a Metric for Image Retrieval》提出的一種直方圖相似度量(作者在之前的會(huì)議論文中也已經(jīng)提到,不過鑒于IJCV的權(quán)威性和完整性,建議參考這篇文章)。
假設(shè)有兩個(gè)工地P和Q,P工地上有m堆土,Q工地上有n個(gè)坑,現(xiàn)在要將P工地上的m堆土全部移動(dòng)到Q工地上的n個(gè)坑中,所做的最小的功。
每堆土我們用一個(gè)二元組來表示(p,w),p表示土堆的中心,w表示土的數(shù)量。則這兩個(gè)工地可表示為:
每個(gè)土堆中心pi到每個(gè)土坑中心qj都會(huì)有一個(gè)距離dij,則構(gòu)成了一個(gè)m*n的距離矩陣。
那么問題就是我們希望找到一個(gè)流(flow),當(dāng)然也是個(gè)矩陣[fij],每一項(xiàng)fij代表從pi到qj的流動(dòng)數(shù)量,從而最小化整體的代價(jià)函數(shù):
問題描述清楚了:就是把P中的m個(gè)坑的土,用最小的代價(jià)搬到Q中的n個(gè)坑中,pi到qj的兩個(gè)坑的距離由dij來表示。fij是從pi搬到qj的土的量;dij是pi位置到qj位置的代價(jià)(距離)。要最小化WORK工作量。EMD是把這個(gè)工作量歸一化以后的表達(dá),即除以對fij的求和。
EMD公式:
更多關(guān)于EMD的理解請參考:
http://blog.csdn.net/zhangping1987/article/details/25368183
在python中的實(shí)現(xiàn):調(diào)用opencv
import numpy as np
import cv
#p、q是兩個(gè)矩陣,第一列表示權(quán)值,后面三列表示直方圖或數(shù)量
p=np.asarray([[0.4,100,40,22],
[0.3,211,20,2],
[0.2,32,190,150],
[0.1,2,100,100]],np.float32)
q=np.array([[0.5,0,0,0],
[0.3,50,100,80],
[0.2,255,255,255]],np.float32)
pp=cv.fromarray(p)
qq=cv.fromarray(q)
emd=cv.CalcEMD2(pp,qq,cv.CV_DIST_L2)
最后計(jì)算出來的emd:
emd = 160.542770
總結(jié)
以上是生活随笔為你收集整理的概率分布之间的距离度量以及python实现(四)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 对于NAS,IP SAN以及iSCSCI
- 下一篇: 信用卡分期手续费怎么算 信用卡分期你必