《数学之美》——第三章 个人笔记
? ?
第三章? ? 統(tǒng)計(jì)語(yǔ)言模型
1 用數(shù)學(xué)的方法描述語(yǔ)言規(guī)律
普遍描述:假定S表示某一個(gè)有意義的句子,由一連串特定順序排列的詞w1,w2,...,wn組成,(這里應(yīng)該是特征列表)這里n是句子的長(zhǎng)度。現(xiàn)在,我們想知道S在文本中出現(xiàn)的可能性,也就是數(shù)學(xué)熵上所說(shuō)的S的概率P(S)。
馬爾可夫假設(shè)后,
?
2 延伸閱讀:統(tǒng)計(jì)語(yǔ)言模型的工程訣竅
2.1? ? 高階語(yǔ)言模型
當(dāng)前詞wi的概率值取決于前面N-1個(gè)詞,上面的假設(shè)被稱(chēng)為N-1階馬爾可夫假設(shè),對(duì)應(yīng)的語(yǔ)言模型稱(chēng)為N元模型。N=2就是前面的二元模型。N=1的一元模型實(shí)際上是一個(gè)上下文無(wú)關(guān)的模型,N=3在實(shí)際中應(yīng)用最多。
?
N為什么一般取值都很小?
①首先,N元模型的大小(空間復(fù)雜度)幾乎是N的指數(shù)函數(shù),即0(丨V丨**N),這里丨V丨是一種語(yǔ)言詞典的詞匯量,一般在幾萬(wàn)到幾十萬(wàn)個(gè)。
②而使用N元模型的速度(時(shí)間復(fù)雜度)也幾乎是一個(gè)指數(shù)函數(shù),0(丨V丨**N-1)。因此,N不能很大。當(dāng)N從1到2,再?gòu)?到3,效果顯著;從3到4,提升就不是很顯著了,資源的耗費(fèi)缺相反。Google的羅塞塔是4元。
?
2.2? ? 模型的訓(xùn)練、零概率問(wèn)題和平滑問(wèn)題
在數(shù)理統(tǒng)計(jì)中,我們之所以敢用對(duì)采樣數(shù)據(jù)進(jìn)行觀(guān)察的結(jié)果來(lái)預(yù)測(cè)概率,是因?yàn)橛?strong>大數(shù)定理,要求有足夠的觀(guān)測(cè)值(增加數(shù)據(jù)量真的是一個(gè)真理)。
針對(duì)零概率:
?
假定r比較小時(shí),統(tǒng)計(jì)就不可靠,因此在計(jì)算那些出現(xiàn)r次的詞的概率時(shí),要實(shí)用一個(gè)更小一點(diǎn)的次數(shù),是dr,
dr = (r+1)* Nr+1/Nr ?顯然 ∑dr*Nr = N.
文中有個(gè)Zipf定律(Zipf's Law):出現(xiàn)一次的詞的數(shù)量比出現(xiàn)兩次的多,出現(xiàn)兩次的比出現(xiàn)三次的多。
出現(xiàn)r次的詞的數(shù)量Nr和r的關(guān)系:
這里就解決了未出現(xiàn)的詞,給其賦了一個(gè)很小的非零值。
文章中還有二元組和三元組的模型概率公式??ù耐吮芊?#xff08;Katz backoff)
還有一個(gè)叫刪除差值的方法:用低階語(yǔ)言模型和高階模型進(jìn)行線(xiàn)性插值來(lái)達(dá)到平滑的目的。
公式如下:三個(gè)λ均為正數(shù)且加和為1。
2.3? ? 語(yǔ)料的選取問(wèn)題
訓(xùn)練數(shù)據(jù)通常越多越好,數(shù)據(jù)的預(yù)處理很重要。
訓(xùn)練語(yǔ)料和模型應(yīng)用的領(lǐng)域要切合,這樣模型的效果才能體現(xiàn)。
?
轉(zhuǎn)載于:https://www.cnblogs.com/NEWzyz/p/8933003.html
總結(jié)
以上是生活随笔為你收集整理的《数学之美》——第三章 个人笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 关于更新系统后CocoaPods不能使用
- 下一篇: mybatis的逆向工程