自然语言处理期末复习(2)中文分词
1.漢語分詞:通過計(jì)算機(jī)程序把組成漢語文本的字串自動轉(zhuǎn)換
為詞串的過程被稱為自動切分
2.漢語切分的原因:(1)語音的合成(2)信息檢索(3)詞語計(jì)量分析
3.漢語分詞基本方法:(1)基于詞表的方法(2)字序列標(biāo)記方法
4.最大匹配法:
(1)??正向最大匹配法(MM) 從左向右匹配詞表
(2)??逆向最大匹配法(RMM) 從右向左匹配詞表
5.歧義的類型
(1)交集型歧義:AJ/B、A/JB
交集型歧義字段中交集字段的個(gè)數(shù),稱作鏈長
(2)組合型歧義: ?AB、A/B
(3)混合型歧義:?? 同時(shí)包含交集型歧義和組合型歧義的歧義字段
6.偽歧義: 歧義字段單獨(dú)拿出來看有歧義,但在(所有)真實(shí)語境中只有一種切分方式可接受。
真歧義:歧義字段在不同語境中確有多種切分方式,(1) 多種切分形式均勻分布 12% (2) 一種切分形式占優(yōu) 88%
7.歧義的發(fā)現(xiàn):
雙向最大匹配(MM+RMM)
– 同時(shí)使用MM法和RMM法
– 如果MM法和RMM法給出同樣的結(jié)果,認(rèn)為沒
有歧義,若不同,則認(rèn)為出現(xiàn)了歧義
發(fā)現(xiàn)組合型歧義
– MM+逆向最小匹配法
發(fā)現(xiàn)所有切分歧義
– 全切分算法
8歧義消解
基于規(guī)則的歧義消解。
基于統(tǒng)計(jì)的歧義消解:在詞圖上搜尋統(tǒng)計(jì)意義上的最佳路徑????????????????????????????
9.中文人名識別:計(jì)算一個(gè)可能的人名字串的概率,若其概率大于某個(gè)閾值,則判別為人名。
總結(jié)
以上是生活随笔為你收集整理的自然语言处理期末复习(2)中文分词的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 自然语言处理期末复习(1)n元模型
- 下一篇: 自然语言处理期末复习(7)平行文本与机器