當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

《数学之美》——第三章个人笔记

發(fā)布時(shí)間：2024/1/17 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了《数学之美》——第三章个人笔记小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

? ?

第三章? ? 統(tǒng)計(jì)語(yǔ)言模型

1 用數(shù)學(xué)的方法描述語(yǔ)言規(guī)律

普遍描述：假定S表示某一個(gè)有意義的句子，由一連串特定順序排列的詞w1,w2,...,wn組成，(這里應(yīng)該是特征列表)這里n是句子的長(zhǎng)度。現(xiàn)在，我們想知道S在文本中出現(xiàn)的可能性，也就是數(shù)學(xué)熵上所說(shuō)的S的概率P(S)。

馬爾可夫假設(shè)后，

2 延伸閱讀：統(tǒng)計(jì)語(yǔ)言模型的工程訣竅

2.1? ? 高階語(yǔ)言模型

當(dāng)前詞wi的概率值取決于前面N-1個(gè)詞，上面的假設(shè)被稱(chēng)為N-1階馬爾可夫假設(shè)，對(duì)應(yīng)的語(yǔ)言模型稱(chēng)為N元模型。N=2就是前面的二元模型。N=1的一元模型實(shí)際上是一個(gè)上下文無(wú)關(guān)的模型，N=3在實(shí)際中應(yīng)用最多。

N為什么一般取值都很小？

①首先，N元模型的大小（空間復(fù)雜度）幾乎是N的指數(shù)函數(shù)，即0(丨V丨**N)，這里丨V丨是一種語(yǔ)言詞典的詞匯量，一般在幾萬(wàn)到幾十萬(wàn)個(gè)。

②而使用N元模型的速度（時(shí)間復(fù)雜度）也幾乎是一個(gè)指數(shù)函數(shù)，0(丨V丨**N-1）。因此，N不能很大。當(dāng)N從1到2，再?gòu)?到3，效果顯著；從3到4，提升就不是很顯著了，資源的耗費(fèi)缺相反。Google的羅塞塔是4元。

2.2? ? 模型的訓(xùn)練、零概率問(wèn)題和平滑問(wèn)題

在數(shù)理統(tǒng)計(jì)中，我們之所以敢用對(duì)采樣數(shù)據(jù)進(jìn)行觀(guān)察的結(jié)果來(lái)預(yù)測(cè)概率，是因?yàn)橛?strong>大數(shù)定理，要求有足夠的觀(guān)測(cè)值（增加數(shù)據(jù)量真的是一個(gè)真理）。

針對(duì)零概率：

假定r比較小時(shí)，統(tǒng)計(jì)就不可靠，因此在計(jì)算那些出現(xiàn)r次的詞的概率時(shí)，要實(shí)用一個(gè)更小一點(diǎn)的次數(shù)，是dr，

dr = （r+1）* Nr+1/Nr ?顯然 ∑dr*Nr = N.

文中有個(gè)Zipf定律（Zipf's Law):出現(xiàn)一次的詞的數(shù)量比出現(xiàn)兩次的多，出現(xiàn)兩次的比出現(xiàn)三次的多。

出現(xiàn)r次的詞的數(shù)量Nr和r的關(guān)系：

這里就解決了未出現(xiàn)的詞，給其賦了一個(gè)很小的非零值。

文章中還有二元組和三元組的模型概率公式?？ù耐吮芊?#xff08;Katz backoff）

還有一個(gè)叫刪除差值的方法：用低階語(yǔ)言模型和高階模型進(jìn)行線(xiàn)性插值來(lái)達(dá)到平滑的目的。

公式如下：三個(gè)λ均為正數(shù)且加和為1。

2.3? ? 語(yǔ)料的選取問(wèn)題

訓(xùn)練數(shù)據(jù)通常越多越好，數(shù)據(jù)的預(yù)處理很重要。

訓(xùn)練語(yǔ)料和模型應(yīng)用的領(lǐng)域要切合，這樣模型的效果才能體現(xiàn)。

轉(zhuǎn)載于:https://www.cnblogs.com/NEWzyz/p/8933003.html

總結(jié)

以上是生活随笔為你收集整理的《数学之美》——第三章个人笔记的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：关于更新系统后CocoaPods不能使用
下一篇： mybatis的逆向工程