當(dāng)前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

概率分布之间的距离度量以及python实现(四)

發(fā)布時(shí)間：2023/12/13 综合教程 34 生活家

生活随笔收集整理的這篇文章主要介紹了概率分布之间的距离度量以及python实现(四) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1、f 散度（f-divergence)

KL-divergence 的壞處在于它是無界的。事實(shí)上KL-divergence 屬于更廣泛的 f-divergence 中的一種。

如果P和Q被定義成空間中的兩個(gè)概率分布，則f散度被定義為：

一些通用的散度，如KL-divergence, Hellinger distance, 和total variation distance，都是f散度的一種特例。只是f函數(shù)的取值不同而已。

在python中的實(shí)現(xiàn) ：

import numpy as np
import scipy.stats
 
p=np.asarray([0.65,0.25,0.07,0.03])
q=np.array([0.6,0.25,0.1,0.05])

def f(t):
    return t*np.log(t)
    
#方法一：根據(jù)公式求解
f1=np.sum(q*f(p/q))

#方法二：調(diào)用scipy包求解
f2=scipy.stats.entropy(p, q)

2、Hellinger distance

1 定義

1.1 度量理論

為了從度量理論的角度定義Hellinger距離，我們假設(shè)P和Q是兩個(gè)概率測度，并且它們對于第三個(gè)概率測度λ來說是絕對連續(xù)的，則P和Q的Hellinger距離的平方被定義如下：

這里的dP/dλ和dQ/dλ分別是P和Q的Radon–Nikodym微分。這里的定義是與λ無關(guān)的，因此當(dāng)我們用另外一個(gè)概率測度替換λ時(shí)，只要P和Q關(guān)于它絕對連續(xù)，那么上式就不變。為了簡單起見，我們通常把上式改寫為：

1.2 基于Lebesgue度量的概率理論

為了在經(jīng)典的概率論框架下定義Hellinger距離，我們通常將λ定義為Lebesgue度量，此時(shí)dP/dλ和dQ/dλ就變?yōu)榱宋覀兺ǔＫf的概率密度函數(shù)。如果我們把上述概率密度函數(shù)分別表示為 f 和 g ，那么可以用以下的積分形式表示Hellinger距離：

上述等式可以通過展開平方項(xiàng)得到，注意到任何概率密度函數(shù)在其定義域上的積分為1。

根據(jù)柯西-施瓦茨不等式（Cauchy-Schwarz inequality），Hellinger距離滿足如下性質(zhì)：

1.3 離散概率分布

對于兩個(gè)離散概率分布 P=(p1,p2,...,pn)和 Q=（q1,q2,...,qn)，它們的Hellinger距離可以定義如下：

上式可以被看作兩個(gè)離散概率分布平方根向量的歐式距離，如下所示：

也可以寫成：

在python中的實(shí)現(xiàn)：

import numpy as np
 
p=np.asarray([0.65,0.25,0.07,0.03])
q=np.array([0.6,0.25,0.1,0.05])

#方法一：
h1=1/np.sqrt(2)*np.linalg.norm(np.sqrt(p)-np.sqrt(q))

#方法二：
h2=np.sqrt(1-np.sum(np.sqrt(p*q)))

3、巴氏距離（Bhattacharyya Distance）

在統(tǒng)計(jì)中，Bhattacharyya距離測量兩個(gè)離散或連續(xù)概率分布的相似性。它與衡量兩個(gè)統(tǒng)計(jì)樣品或種群之間的重疊量的Bhattacharyya系數(shù)密切相關(guān)。Bhattacharyya距離和Bhattacharyya系數(shù)以20世紀(jì)30年代曾在印度統(tǒng)計(jì)研究所工作的一個(gè)統(tǒng)計(jì)學(xué)家A. Bhattacharya命名。同時(shí)，Bhattacharyya系數(shù)可以被用來確定兩個(gè)樣本被認(rèn)為相對接近的，它是用來測量中的類分類的可分離性。

對于離散概率分布 p和q在同一域 X，巴氏距離被定義為：

其中BC(p,q)是Bhattacharyya系數(shù)：

對于連續(xù)概率分布，Bhattacharyya系數(shù)被定義為：

從公式可以看出，Bhattacharyya系數(shù)BC(P,Q)可以和前面的Hellinger距離聯(lián)系起來，此時(shí)Hellinger距離可以被定義為：

因此，求得巴氏系數(shù)之后，就可以求得巴氏距離和Hellinger距離。

在python中的實(shí)現(xiàn)：

import numpy as np
 
p=np.asarray([0.65,0.25,0.07,0.03])
q=np.array([0.6,0.25,0.1,0.05])

BC=np.sum(np.sqrt(p*q))

#Hellinger距離：
h=np.sqrt(1-BC)

#巴氏距離：
b=-np.log(BC)

4、MMD距離（Maximum mean discrepancy)

最大均值差異（Maximum mean discrepancy），度量在再生希爾伯特空間中兩個(gè)分布的距離，是一種核學(xué)習(xí)方法。兩個(gè)隨機(jī)變量的距離為：

其中k(.)是映射，用于把原變量映射到高維空間中。X,Y表示兩種分布的樣本，F(xiàn)表示映射函數(shù)集。

基于兩個(gè)分布的樣本，通過尋找在樣本空間上的映射函數(shù)K，求不同分布的樣本在K上的函數(shù)值的均值，通過把兩個(gè)均值作差可以得到兩個(gè)分布對應(yīng)于K的mean discrepancy。尋找一個(gè)K使得這個(gè)mean discrepancy有最大值，就得到了MMD。最后取MMD作為檢驗(yàn)統(tǒng)計(jì)量（test statistic），從而判斷兩個(gè)分布是否相同。如果這個(gè)值足夠小，就認(rèn)為兩個(gè)分布相同，否則就認(rèn)為它們不相同。更加簡單的理解就是：求兩堆數(shù)據(jù)在高維空間中的均值的距離。

近年來，MMD越來越多地應(yīng)用在遷移學(xué)習(xí)中。在遷移學(xué)習(xí)環(huán)境下訓(xùn)練集和測試集分別取樣自分布p和q，兩類樣本集不同但相關(guān)。我們可以利用深度神經(jīng)網(wǎng)絡(luò)的特征變換能力，來做特征空間的變換，直到變換后的特征分布相匹配，這個(gè)過程可以是source domain一直變換直到匹配target domain。匹配的度量方式就是MMD。

在python中的實(shí)現(xiàn)，根據(jù)核函數(shù)不同，公式可能不一樣，根據(jù)公式編程即可。

5、Wasserstein distance

Wasserstein 距離，也叫Earth Mover's Distance，推土機(jī)距離，簡稱EMD，用來表示兩個(gè)分布的相似程度。

Wasserstein distance 衡量了把數(shù)據(jù)從分布“移動(dòng)成”分布時(shí)所需要移動(dòng)的平均距離的最小值（類似于把一堆土從一個(gè)形狀移動(dòng)到另一個(gè)形狀所需要做的功的最小值）

EMD是2000年IJCV期刊文章《The Earth Mover's Distance as a Metric for Image Retrieval》提出的一種直方圖相似度量（作者在之前的會(huì)議論文中也已經(jīng)提到，不過鑒于IJCV的權(quán)威性和完整性，建議參考這篇文章）。

假設(shè)有兩個(gè)工地P和Q，P工地上有m堆土，Q工地上有n個(gè)坑，現(xiàn)在要將P工地上的m堆土全部移動(dòng)到Q工地上的n個(gè)坑中，所做的最小的功。

每堆土我們用一個(gè)二元組來表示(p,w)，p表示土堆的中心，w表示土的數(shù)量。則這兩個(gè)工地可表示為：

每個(gè)土堆中心pi到每個(gè)土坑中心qj都會(huì)有一個(gè)距離dij，則構(gòu)成了一個(gè)m*n的距離矩陣。

那么問題就是我們希望找到一個(gè)流（flow），當(dāng)然也是個(gè)矩陣[fij]，每一項(xiàng)fij代表從pi到qj的流動(dòng)數(shù)量，從而最小化整體的代價(jià)函數(shù)：

問題描述清楚了：就是把P中的m個(gè)坑的土，用最小的代價(jià)搬到Q中的n個(gè)坑中，pi到qj的兩個(gè)坑的距離由dij來表示。fij是從pi搬到qj的土的量；dij是pi位置到qj位置的代價(jià)（距離）。要最小化WORK工作量。EMD是把這個(gè)工作量歸一化以后的表達(dá)，即除以對fij的求和。

EMD公式：

更多關(guān)于EMD的理解請參考：

http://blog.csdn.net/zhangping1987/article/details/25368183

在python中的實(shí)現(xiàn)：調(diào)用opencv

import numpy as np
import cv

#p、q是兩個(gè)矩陣，第一列表示權(quán)值，后面三列表示直方圖或數(shù)量
p=np.asarray([[0.4,100,40,22],
            [0.3,211,20,2],
            [0.2,32,190,150],
            [0.1,2,100,100]],np.float32)
q=np.array([[0.5,0,0,0],
            [0.3,50,100,80],
            [0.2,255,255,255]],np.float32)
pp=cv.fromarray(p)
qq=cv.fromarray(q)
emd=cv.CalcEMD2(pp,qq,cv.CV_DIST_L2)

最后計(jì)算出來的emd:

emd = 160.542770

總結(jié)

以上是生活随笔為你收集整理的概率分布之间的距离度量以及python实现(四)的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：对于NAS,IP SAN以及iSCSCI
下一篇：信用卡分期手续费怎么算信用卡分期你必