《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第六章 markov模型
視頻列表:
38 markov模型(一)
39 markov模型(二)
40 markov模型(三)
41 markov模型(四)
42 markov模型(五)
38 markov模型(一)
第六章 Markov模型
Markov模型概況
- Markov模型是一種統計模型,廣泛地應用在語音識別,詞性自動標注,音字轉換,概率文法等各個自然語言處理的應用領域。
- Markov(1856~1922),蘇聯數學家。切比雪夫的學生。在概率論、數論、函數逼近論和微分方程等方面卓有成就。
- 經過長期發展,尤其是在語音識別中的成功應用,使它成為一種通用的統計工具。
- 語音識別、音字轉換、分詞、詞性標注、命名實體識別、句法分析、……
Markov假設
設X=(X1,X2...,Xt)X=(X_{1},X_{2}...,X_{t})X=(X1?,X2?...,Xt?)是隨機變量序列,其中每個隨機變量的取值在有限集S=(S1,S2...,St)S=(S_{1},S_{2}...,S_{t})S=(S1?,S2?...,St?),稱為狀態空間,Markov特征是:
- 有限歷史假設(Limited History (Horizon,Context)):
P(Xt+1=sk∣X1,X2,...,Xt)=P(Xt+1=sk∣Xt)P(X_{t+1}=s_{k}|X_{1},X_{2},...,X_{t})=P(X_{t+1}=s_{k}|X_{t})P(Xt+1?=sk?∣X1?,X2?,...,Xt?)=P(Xt+1?=sk?∣Xt?) - 時間不變性假設(Time Invariant)(馬爾可夫過程的穩定性假設):這種條件依賴,不隨時間的改變而改變
如果X具有這些特征,那么這個隨機變量序列稱為一個馬爾可夫過程(鏈)
Markov模型的形式化表示
一個馬爾可夫模型是一個三元組(S,π,A)(S, \pi , A)(S,π,A),其中SSS是狀態的集合,π\piπ是初始狀態的概率, AAA是狀態間的轉移概率
Markov模型的圖形表示
- 狀態集合 S=(S1,S2...,St)S=(S_{1},S_{2}...,S_{t})S=(S1?,S2?...,St?)
- 概率分布P(Xi∣Xi?1)P(X_{i}|X_{i-1})P(Xi?∣Xi?1?)
- 由狀態iii到狀態jjj之間的轉移弧上有條件轉移概率:
SSS={*,t,e,a,o}
π\piπ=(1,0,0,0,0)
A=
隱Markov模型
- 各個狀態(或者狀態轉移弧)都有一個輸出,但是狀態是不可見的
- 最簡單的情形:不同的狀態只能有不同的輸出
- 增加一點靈活性:不同的狀態,可以輸出相同的輸出
- 再增加一點靈活性:輸出在狀態轉移中進行
- 最大的靈活性:在狀態轉移中以特定的概率分布輸出
39 markov模型(二)
HMM的形式化定義
HMM是一個五元組(S,K,π,A,B)(S, K, \pi, A, B)(S,K,π,A,B),其中 SSS是狀態的集合,KKK是輸出字符的集合, π\piπ是初始狀態的概率,AAA是狀態轉移的概率。BBB是狀態轉移時輸出字符的概率。
馬爾可夫過程程序
隱馬爾科夫模型的三個基本問題
- 問題1:給定一個模型μ=(S,K,π,A,B)\mu =(S,K,\pi,A,B)μ=(S,K,π,A,B),如何高效地計算某一輸出字符序列的概率P(O∣μ)P(O|\mu)P(O∣μ)
- 問題2:給定一個輸出字符序列O,和一個模型μ\muμ,如何確定產生這一序列概率最大的狀態序列
- 問題3:給定一個輸出字符的序列O,如何調整模型的參數使得產生這一序列的概率最大
網格(Trellis)
問題1:評價(Evaluation)
算法復雜度太高,需要O(2TnT)O(2Tn^{T})O(2TnT)
40 markov模型(三)
向后過程
問題2 解碼(decoding)
- Viterbi algorithm
問題3 參數估計
41 markov模型(四)
基于HMM的詞性標注
詞性標注(Part-of-Speech tagging)
回顧:
作用:句法分析的前期步驟
難點:兼類詞
基于規則的詞性標注
基于轉換的錯誤驅動的詞性標注
基于HMM的詞性標注
42 markov模型(五)
#### 基于HMM的詞性標注 
音字轉換
規則與統計相結合
我們需要的音字轉換結果是:
“一枝美麗的小花”
采用規則的方法
- 短語結合規則:
A+NP->NP
A+“的”+NP->NP
M+“枝”+NP->NP - 短語匹配算法
- 從詞網格到元素網格
- 其他問題
系統掛接問題
萬能掛接
Windows支持
Mac OS, Linux, Windows CE, Symbian OS,……
致謝
關毅老師,現為哈工大計算機學院語言技術中心教授,博士生導師。通過認真學習了《自然語言處理(哈工大 關毅 64集視頻)》1(來自互聯網)的課程,受益良多,在此感謝關毅老師的辛勤工作!為進一步深入理解課程內容,對部分內容進行了延伸學習2 3 456,在此分享,期待對大家有所幫助,歡迎加我微信(驗證:NLP),一起學習討論,不足之處,歡迎指正。
參考文獻
《自然語言處理(哈工大 關毅 64集視頻)》(來自互聯網) ??
王曉龍、關毅 《計算機自然語言處理》 清華大學出版社 2005年 ??
哈工大語言技術平臺云官網:http://ltp.ai/ ??
Steven Bird,Natural Language Processing with Python,2015 ??
Claude E. Shannon. “Prediction and Entropy of Printed English”, Bell System Technical Journal 30:50-64. 195 ??
An Empirical Study of Smoothing Techniques for Language Modeling, Stanley F. Chen ??
總結
以上是生活随笔為你收集整理的《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第六章 markov模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《自然语言处理(哈工大 关毅 64集视频
- 下一篇: 网页标签