自然语言处理(八)——语言模型性能评价
一、概念
信息熵:熵這個(gè)概念是香農(nóng)從熱力學(xué)中引進(jìn)的,熱力學(xué)中的熵是代表分子狀態(tài)混亂程度,在信息論中熵又稱為自信息,可以視為描述一個(gè)隨機(jī)變量的不確定性的數(shù)量。它表示信源X每發(fā)一個(gè)符號(hào)(不論發(fā)什么符號(hào))所提供的平均信息量。一個(gè)隨機(jī)變量的熵越大,它的不確定性越大,那么,正確估計(jì)其值的可能性就越小。越不確定的隨機(jī)變量越需要大的信息量用以確定其值。
這是宗成慶老師的書(shū)《統(tǒng)計(jì)自然語(yǔ)言處理》里面的解釋,光看這些高深莫測(cè)的話,我反正是一知半解,舉一個(gè)例子來(lái)解釋一下
明天的太陽(yáng)仍然升起,這個(gè)事件發(fā)生的概率極其大,因此這件事的不確定性就很小,所以這件事所對(duì)應(yīng)的熵很小,這件事的判斷根本不需要其他信息,我們不需要看SCI論文,不需要查閱太陽(yáng)的資料。所以熵越小,不確定性越小,我們所需要的信息就少。再比如明天下雨這個(gè)事件,這個(gè)的不確定性就比較大,氣象站就需要通過(guò)觀測(cè)云量,溫度等信息來(lái)確定這個(gè)事件發(fā)生的概率。顯而易見(jiàn),這個(gè)事件的熵就會(huì)變大。以上就是關(guān)于熵的闡述,那么熵的大小到底怎么計(jì)算,自然也有公式:
H(x) =—() 。以下的例子是宗成慶老師書(shū)上的例子,也比較容易看懂,這里就不再細(xì)細(xì)道來(lái)。只是最后的編碼,原則就是出現(xiàn)概率大的可以少用幾位數(shù),出現(xiàn)概率小的,多用幾位數(shù),這樣就可以保證最終用的編碼長(zhǎng)度最短。
聯(lián)合熵和條件熵:同熵類似,聯(lián)合熵的計(jì)算方法和熵的計(jì)算方法思想相同,不同的知識(shí)聯(lián)合熵多了一個(gè)隨機(jī)變量。公式如下:
X,Y是兩個(gè)離散型隨機(jī)變量X,Y~P(x)。那么X,Y的聯(lián)合熵H(X,Y) =?。
條件熵H(Y | X) =?。
最后,聯(lián)合熵可以通過(guò)條件熵推導(dǎo)出,具體過(guò)程就不細(xì)細(xì)道來(lái),直接上公式,聯(lián)合熵的計(jì)算第二個(gè)公式:
H(X,Y) = H(X) + H(Y | X)
將上述公式推廣到一般情況如下圖:
相對(duì)熵:這個(gè)概念是用來(lái)衡量?jī)蓚€(gè)概率分布之間的差異。p(x)是理想的模型,q(x)是用來(lái)逼近的,相對(duì)熵越接近0越好。計(jì)算如下:
設(shè)?p(x)、q(x)?是 離散隨機(jī)變量?X中取值的兩個(gè)概率分布,則?p 和?q?的相對(duì)熵是:
交叉熵:交叉熵越小,語(yǔ)言模型越好。首先,交叉熵的理想計(jì)算公式為
H(X,q) =?
近似逼近后:
困惑度:困惑度這個(gè)指標(biāo)顧名思義,困惑度越小,說(shuō)明這個(gè)語(yǔ)言模型越好,計(jì)算方法是:
最后,本片文章并沒(méi)有舉出具體的概率分布來(lái)求各個(gè)指標(biāo),只是羅列總結(jié)一下各指標(biāo)的計(jì)算方法和所代表的意義。具體例子下一篇再進(jìn)行計(jì)算。
參考的書(shū)目:《統(tǒng)計(jì)自然語(yǔ)言處理》宗成慶
總結(jié)
以上是生活随笔為你收集整理的自然语言处理(八)——语言模型性能评价的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: SpringBoot+Mybatis 框
- 下一篇: 华为杯数学建模2020获奖名单_我校在2