當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

自然语言处理（八）——语言模型性能评价

發(fā)布時(shí)間：2023/12/9 编程问答 77 豆豆

生活随笔收集整理的這篇文章主要介紹了自然语言处理（八）——语言模型性能评价小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、概念

信息熵：熵這個(gè)概念是香農(nóng)從熱力學(xué)中引進(jìn)的，熱力學(xué)中的熵是代表分子狀態(tài)混亂程度，在信息論中熵又稱為自信息，可以視為描述一個(gè)隨機(jī)變量的不確定性的數(shù)量。它表示信源X每發(fā)一個(gè)符號(hào)(不論發(fā)什么符號(hào))所提供的平均信息量。一個(gè)隨機(jī)變量的熵越大,它的不確定性越大，那么，正確估計(jì)其值的可能性就越小。越不確定的隨機(jī)變量越需要大的信息量用以確定其值。

這是宗成慶老師的書(shū)《統(tǒng)計(jì)自然語(yǔ)言處理》里面的解釋，光看這些高深莫測(cè)的話，我反正是一知半解，舉一個(gè)例子來(lái)解釋一下

明天的太陽(yáng)仍然升起，這個(gè)事件發(fā)生的概率極其大，因此這件事的不確定性就很小，所以這件事所對(duì)應(yīng)的熵很小，這件事的判斷根本不需要其他信息，我們不需要看SCI論文，不需要查閱太陽(yáng)的資料。所以熵越小，不確定性越小，我們所需要的信息就少。再比如明天下雨這個(gè)事件，這個(gè)的不確定性就比較大，氣象站就需要通過(guò)觀測(cè)云量，溫度等信息來(lái)確定這個(gè)事件發(fā)生的概率。顯而易見(jiàn)，這個(gè)事件的熵就會(huì)變大。以上就是關(guān)于熵的闡述，那么熵的大小到底怎么計(jì)算，自然也有公式：

H(x) =—（）。以下的例子是宗成慶老師書(shū)上的例子，也比較容易看懂，這里就不再細(xì)細(xì)道來(lái)。只是最后的編碼，原則就是出現(xiàn)概率大的可以少用幾位數(shù)，出現(xiàn)概率小的，多用幾位數(shù)，這樣就可以保證最終用的編碼長(zhǎng)度最短。

聯(lián)合熵和條件熵：同熵類似，聯(lián)合熵的計(jì)算方法和熵的計(jì)算方法思想相同，不同的知識(shí)聯(lián)合熵多了一個(gè)隨機(jī)變量。公式如下：

X，Y是兩個(gè)離散型隨機(jī)變量X，Y~P(x)。那么X，Y的聯(lián)合熵H(X，Y) =?。

條件熵H(Y | X) =?。

最后，聯(lián)合熵可以通過(guò)條件熵推導(dǎo)出，具體過(guò)程就不細(xì)細(xì)道來(lái)，直接上公式，聯(lián)合熵的計(jì)算第二個(gè)公式：
H(X，Y) = H(X) + H(Y | X)

將上述公式推廣到一般情況如下圖：

相對(duì)熵：這個(gè)概念是用來(lái)衡量?jī)蓚€(gè)概率分布之間的差異。p(x)是理想的模型，q(x)是用來(lái)逼近的，相對(duì)熵越接近0越好。計(jì)算如下：

設(shè)?p(x)、q(x)?是離散隨機(jī)變量?X中取值的兩個(gè)概率分布，則?p 和?q?的相對(duì)熵是：

交叉熵：交叉熵越小，語(yǔ)言模型越好。首先，交叉熵的理想計(jì)算公式為

H(X,q) =?

近似逼近后：

困惑度：困惑度這個(gè)指標(biāo)顧名思義，困惑度越小，說(shuō)明這個(gè)語(yǔ)言模型越好，計(jì)算方法是:

最后，本片文章并沒(méi)有舉出具體的概率分布來(lái)求各個(gè)指標(biāo)，只是羅列總結(jié)一下各指標(biāo)的計(jì)算方法和所代表的意義。具體例子下一篇再進(jìn)行計(jì)算。

參考的書(shū)目：《統(tǒng)計(jì)自然語(yǔ)言處理》宗成慶

總結(jié)

以上是生活随笔為你收集整理的自然语言处理（八）——语言模型性能评价的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： SpringBoot+Mybatis 框
下一篇：华为杯数学建模2020获奖名单_我校在2

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

自然语言处理（八）——语言模型性能评价

一、概念

總結(jié)