《数学之美》——第三章 个人笔记
? ?
第三章? ? 統計語言模型
1 用數學的方法描述語言規律
普遍描述:假定S表示某一個有意義的句子,由一連串特定順序排列的詞w1,w2,...,wn組成,(這里應該是特征列表)這里n是句子的長度?,F在,我們想知道S在文本中出現的可能性,也就是數學熵上所說的S的概率P(S)。
馬爾可夫假設后,
?
2 延伸閱讀:統計語言模型的工程訣竅
2.1? ? 高階語言模型
當前詞wi的概率值取決于前面N-1個詞,上面的假設被稱為N-1階馬爾可夫假設,對應的語言模型稱為N元模型。N=2就是前面的二元模型。N=1的一元模型實際上是一個上下文無關的模型,N=3在實際中應用最多。
?
N為什么一般取值都很小?
①首先,N元模型的大小(空間復雜度)幾乎是N的指數函數,即0(丨V丨**N),這里丨V丨是一種語言詞典的詞匯量,一般在幾萬到幾十萬個。
②而使用N元模型的速度(時間復雜度)也幾乎是一個指數函數,0(丨V丨**N-1)。因此,N不能很大。當N從1到2,再從2到3,效果顯著;從3到4,提升就不是很顯著了,資源的耗費缺相反。Google的羅塞塔是4元。
?
2.2? ? 模型的訓練、零概率問題和平滑問題
在數理統計中,我們之所以敢用對采樣數據進行觀察的結果來預測概率,是因為有大數定理,要求有足夠的觀測值(增加數據量真的是一個真理)。
針對零概率:
?
假定r比較小時,統計就不可靠,因此在計算那些出現r次的詞的概率時,要實用一個更小一點的次數,是dr,
dr = (r+1)* Nr+1/Nr ?顯然 ∑dr*Nr = N.
文中有個Zipf定律(Zipf's Law):出現一次的詞的數量比出現兩次的多,出現兩次的比出現三次的多。
出現r次的詞的數量Nr和r的關系:
這里就解決了未出現的詞,給其賦了一個很小的非零值。
文章中還有二元組和三元組的模型概率公式??ù耐吮芊?#xff08;Katz backoff)
還有一個叫刪除差值的方法:用低階語言模型和高階模型進行線性插值來達到平滑的目的。
公式如下:三個λ均為正數且加和為1。
2.3? ? 語料的選取問題
訓練數據通常越多越好,數據的預處理很重要。
訓練語料和模型應用的領域要切合,這樣模型的效果才能體現。
?
轉載于:https://www.cnblogs.com/NEWzyz/p/8933003.html
總結
以上是生活随笔為你收集整理的《数学之美》——第三章 个人笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于更新系统后CocoaPods不能使用
- 下一篇: mybatis的逆向工程