當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

nlp5-n-gram/语言模型(数据平滑方法

發布時間：2024/7/5 编程问答 49 豆豆

生活随笔收集整理的這篇文章主要介紹了 nlp5-n-gram/语言模型(数据平滑方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

這種情況下的語言模型稱為 n 元文法(n-gram)模型
- ?當 n=1 時，即出現在第 i 位上的基元 wi 獨立于歷史。一元文法也被寫為 uni-gram 或 monogram；
- ?當 n=2 時, 2-gram (bi-gram) 被稱為1階馬爾可夫鏈；—效果比1好一點
- ?當 n=3 時, 3-gram(tri-gram)被稱為2階馬爾可夫鏈，
- 依次類推。
為了保證條件概率在 i=1 時有意義，同時為了保證句子內所有字符串的概率和為 1，即，可以在句子首尾兩端增加兩個標志: w1 w2 … wm 。不失一般性，對于n>2 的 n-gram，p(s) 可以分解為：
eg
拼音轉文字
樣本空間
- $1-N,2-N^2$
- 對漢語來說4-gram可能好一點
漢語分詞問題
- 給定漢字串：他是研究生物的。
- 可能的漢字串：
  - 他|是|研究生|物|的
  - 他|是|研究|生物|的
- 2元文法：
  - p(Seg1) =p(他|)×p(是|他)×p(研究生|是)× p(物|研究生)×p(的|物)×p(的|)
  - p(Seg2) = p(他|)×p(是|他)×p(研究|是)× p(生物|研究)×p(的|生物)× p(的|)

加1法
- 基本思想: 每一種情況出現的次數加1。
- 例如，對于 uni-gram，設 w1, w2, w3 三個詞，概率分別為：1/3, 0, 2/3，加1后情況？
  - 2/6, 1/6, 3/6

以上是生活随笔為你收集整理的nlp5-n-gram/语言模型(数据平滑方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。