日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

《数学之美》——第三章 个人笔记

發布時間:2024/1/17 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 《数学之美》——第三章 个人笔记 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

? ?

第三章? ? 統計語言模型

1 用數學的方法描述語言規律

普遍描述:假定S表示某一個有意義的句子,由一連串特定順序排列的詞w1,w2,...,wn組成,(這里應該是特征列表)這里n是句子的長度?,F在,我們想知道S在文本中出現的可能性,也就是數學熵上所說的S的概率P(S)。

馬爾可夫假設后,

?

2 延伸閱讀:統計語言模型的工程訣竅

2.1? ? 高階語言模型

當前詞wi的概率值取決于前面N-1個詞,上面的假設被稱為N-1階馬爾可夫假設,對應的語言模型稱為N元模型。N=2就是前面的二元模型。N=1的一元模型實際上是一個上下文無關的模型,N=3在實際中應用最多。

?

N為什么一般取值都很小?

①首先,N元模型的大小(空間復雜度)幾乎是N的指數函數,即0(丨V丨**N),這里丨V丨是一種語言詞典的詞匯量,一般在幾萬到幾十萬個。

②而使用N元模型的速度(時間復雜度)也幾乎是一個指數函數,0(丨V丨**N-1)。因此,N不能很大。當N從1到2,再從2到3,效果顯著;從3到4,提升就不是很顯著了,資源的耗費缺相反。Google的羅塞塔是4元。

?

2.2? ? 模型的訓練、零概率問題和平滑問題

在數理統計中,我們之所以敢用對采樣數據進行觀察的結果來預測概率,是因為有大數定理,要求有足夠的觀測值(增加數據量真的是一個真理)。

針對零概率:

?

假定r比較小時,統計就不可靠,因此在計算那些出現r次的詞的概率時,要實用一個更小一點的次數,是dr,

dr = (r+1)* Nr+1/Nr ?顯然 ∑dr*Nr = N.

文中有個Zipf定律(Zipf's Law):出現一次的詞的數量比出現兩次的多,出現兩次的比出現三次的多。

出現r次的詞的數量Nr和r的關系:

這里就解決了未出現的詞,給其賦了一個很小的非零值。

文章中還有二元組和三元組的模型概率公式??ù耐吮芊?#xff08;Katz backoff)

還有一個叫刪除差值的方法:用低階語言模型和高階模型進行線性插值來達到平滑的目的。

公式如下:三個λ均為正數且加和為1。

2.3? ? 語料的選取問題

訓練數據通常越多越好,數據的預處理很重要。

訓練語料和模型應用的領域要切合,這樣模型的效果才能體現。

?

轉載于:https://www.cnblogs.com/NEWzyz/p/8933003.html

總結

以上是生活随笔為你收集整理的《数学之美》——第三章 个人笔记的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。