日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP复习资料(3)-六~七章:马尔科夫模型与条件随机场、词法分析与词性标注

發布時間:2023/12/13 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NLP复习资料(3)-六~七章:马尔科夫模型与条件随机场、词法分析与词性标注 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

NLP復習資料

  • 1.第六章 馬爾科夫模型與條件隨機場
  • 2.第七章 詞法分析與詞性標注

國科大,宗老師《自然語言處理》課程復習筆記,個人整理,僅供參考。

1.第六章 馬爾科夫模型與條件隨機場

1.馬爾科夫模型:P6系統每一時刻的狀態只與前一個時刻的狀態相關,狀態轉移獨立于時間

2.隱馬爾科夫模型:P13狀態與觀測的雙重隨機過程

3.HMM的三個問題:(理不理解都行,重要的是后面的應用實例要理解)
給定觀測序列計算相應的概率:前向算法
計算模型的參數:(1)監督學習:有P55(2)無監督學習:期望最大法Baum-welch算法
給定觀測序列計算最有可能的狀態序列:(1)P40近似計算:每個時刻最有可能的狀態組成的序列(2)viterbi算法P46:從第一層開始找到每個節點的最優路徑,直至最后一層,然后回溯

4.HMM應用實例:P67
漢語自動分詞:(觀測:漢語分詞結果。)計算最合適的觀測序列使得其概率最大
詞性標注問題:(觀測:漢語分詞結果,狀態詞性標注序列:)求解最優的狀態。使得觀測序列的概率最大。
觀測序粗切分,切出所有可能的結果。然后漢語分詞的話,依據HMM前向算法計算最大概率的切分P81。詞性標注的話,依據HMMviterbi算法計算最優可能的狀態序列。

5.條件隨機場(一樣不用太理解它講的什么,本來就講的不清楚)掌握由字構詞法:P95每個字構成詞語那么它可能的詞位:開頭、中間、結尾、獨自成詞。漢語分詞問題轉換成字分類問題。P103解碼模型看清楚就差不多了。

2.第七章 詞法分析與詞性標注

1.漢語自動分詞的主要問題:規范性問題P20、歧義切分字段問題P25組合型歧義,交集型歧義、未登入詞識別P26

2.漢語自動分詞的基本原則(記住兩條要吧)P29語義無法切分不能切,詞性無法切分不能切,有明顯分隔符的要切,使用頻率高的詞不能切,過于冗長要切

3.分詞與詞性標注結果評價:(很重要的兩個概念)正確率:正確結果與輸出結果的關系。召回率:正確結果和標準答案的關系。P40

4.自動分詞的基本算法:
4.1最大匹配法:要詞典P48正向:一個字依次向其后擴展至最長可能成詞的,就切開,再往后找最長成詞切分
4.2最少分詞發:要字典P51,有向無環圖構建,找最短路徑
4.3語言模型,n-gram第五章 生成式模型
4.4 HMM,最大概率觀測序列 第六章
4.5由字構詞,分類方法,第六章 判別式模型
4.6 生成式模型與判別式模型相結合:兩種結合方式:
P67(c,t)+語言模型
P71插值的方法

5.未登入詞的識別
人名P81:概率估計、姓名閾值、評價函數、修飾規則
地名:P88建庫,沒說方法
機構名:P90中心語找做左邊界
雙語實體自動識別欲對齊聯合模型P98:英文邊界確定中文,中文邊界消歧英文

6.詞性標注
原則:P113標準性、兼容性、可擴充性
方法:手工編寫規則法p119(依據不同的上下文確定不同的詞性)、P123錯誤驅動的機器學習方法(理念比較重要)、基于HMM詞性標注(找最優的狀態序列使得觀測序列概率最大第六章)、統計和規則形結合(都沒有例子,估計不用記)

7.分詞與詞性標注的技術水平:老師說到現在都沒有解決好這兩個問題。

8.分詞與詞性標注的發展方向:遷移學習P144,消歧方法繼續研究P148

總結

以上是生活随笔為你收集整理的NLP复习资料(3)-六~七章:马尔科夫模型与条件随机场、词法分析与词性标注的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。