當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自然语言处理期末复习（2）中文分词

發(fā)布時(shí)間：2025/3/19 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了自然语言处理期末复习（2）中文分词小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.漢語分詞：通過計(jì)算機(jī)程序把組成漢語文本的字串自動轉(zhuǎn)換

為詞串的過程被稱為自動切分

2.漢語切分的原因：（1）語音的合成（2）信息檢索（3）詞語計(jì)量分析

3.漢語分詞基本方法：（1）基于詞表的方法（2）字序列標(biāo)記方法

4.最大匹配法：

（1）??正向最大匹配法(MM) 從左向右匹配詞表

（2）??逆向最大匹配法(RMM) 從右向左匹配詞表

5.歧義的類型

（1）交集型歧義：AJ/B、A/JB

交集型歧義字段中交集字段的個(gè)數(shù)，稱作鏈長

（2）組合型歧義: ?AB、A/B

（3）混合型歧義:?? 同時(shí)包含交集型歧義和組合型歧義的歧義字段

6.偽歧義: 歧義字段單獨(dú)拿出來看有歧義，但在(所有)真實(shí)語境中只有一種切分方式可接受。

真歧義：歧義字段在不同語境中確有多種切分方式,(1) 多種切分形式均勻分布 12% (2) 一種切分形式占優(yōu) 88%

7．歧義的發(fā)現(xiàn)：

雙向最大匹配(MM+RMM)

– 同時(shí)使用MM法和RMM法

– 如果MM法和RMM法給出同樣的結(jié)果，認(rèn)為沒

有歧義，若不同，則認(rèn)為出現(xiàn)了歧義

發(fā)現(xiàn)組合型歧義

– MM+逆向最小匹配法

發(fā)現(xiàn)所有切分歧義

– 全切分算法

8歧義消解

基于規(guī)則的歧義消解。

基于統(tǒng)計(jì)的歧義消解：在詞圖上搜尋統(tǒng)計(jì)意義上的最佳路徑????????????????????????????

9.中文人名識別：計(jì)算一個(gè)可能的人名字串的概率，若其概率大于某個(gè)閾值，則判別為人名。

以上是生活随笔為你收集整理的自然语言处理期末复习（2）中文分词的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。