中文路径_中文分词的原理、方法与工具
海德格爾說“詞語破碎處,無物可存在”。中文句子不像英文那樣的詞與詞之間有顯示空格邊界,使得詞和詞組邊界模糊。
為了讓計算機(jī)更容易理解文本,通常中文信息處理的第一步是中文分詞。中文分詞是在中文句子中的詞與詞之間加上邊界標(biāo)記。
本文首先介紹詞、詞組、句子、語言模型等基本概念及基本原理,比如:短語結(jié)構(gòu)語法(PSG)模型、n元語法模型( n-gram)、神經(jīng)網(wǎng)絡(luò)語言模型(NNLM)、Masked Language Model(MLM);
接著介紹主要中文分詞方法,比如最短路徑分詞、n元語法分詞、由字構(gòu)詞分詞、循環(huán)神經(jīng)網(wǎng)絡(luò)分詞、Transformer分詞;
然后介紹當(dāng)前主要使用的分詞工具,比如jieba、HanLP、FoolNLTK;
最后拋出個人認(rèn)為垂直領(lǐng)域如何中文分詞及發(fā)展趨勢。
文章目錄如下:
一、中文分詞原理1、中文分詞
2、詞、詞組、句子
3、語言模型
4、中文分詞發(fā)展簡史
二、中文分詞方法
1、最短路徑分詞
2、n元語法分詞
3、由字構(gòu)詞分詞
4、循環(huán)神經(jīng)網(wǎng)絡(luò)分詞
5、Transformer分詞
三、中文分詞工具
1、jieba
2、HanLP
3、FoolNLTK
四、總結(jié)
1、規(guī)則 VS 統(tǒng)計 VS 深度
2、垂直領(lǐng)域中文分詞
3、中文分詞發(fā)展趨勢
直接上PPT
中文分詞的原理、方法與工具為什么要中文分詞?
為什么要中文分詞?一、中文分詞原理
中文分詞原理的目錄1、中文分詞
什么是中文分詞?
給出定義:中文分詞是在中文句子中的詞與詞之間加上邊界標(biāo)記。
什么是中文分詞?中文分詞總的來說就兩種方法:一種是由句子到詞;另一種是由字到詞。
中文分詞的基本概念、語言模型中文分詞本質(zhì):劃分詞的邊界
中文分詞本質(zhì):劃分詞的邊界同時,中文分詞也面臨著分詞規(guī)范、歧義切分、新詞識別等挑戰(zhàn)。
中文分詞面臨2、詞、詞組、句子
什么是詞?什么是詞組?什么是句子?
搞懂這些基本概念,更容易處理它們。
什么是詞?什么是詞組?什么是句子?3、語言模型
什么是語言模型?
由語音、詞匯、語法構(gòu)成的交流模型。
語言模型短語結(jié)構(gòu)語法( Phrase Structure Grammar, PSG)
語言模型——PSGn元語法模型( n-gram)
語言模型—— -gram常見的n元語法模型如下表所示:
常見的n元語法模型神經(jīng)網(wǎng)絡(luò)語言模型(NNLM)
神經(jīng)網(wǎng)絡(luò)語言模型(NNLM)Masked Language Model(MLM)
Masked Language Model(MLM)4、中文分詞發(fā)展簡史
中文分詞發(fā)展簡史二、中文分詞方法
中文分詞代表方法有最短路徑分詞、n元語法分詞、由字構(gòu)詞分詞、循環(huán)神經(jīng)網(wǎng)絡(luò)分詞、Transformer分詞等。
中文分詞方法的目錄1、最短路徑分詞
最短路徑分詞2、n元語法分詞
n元語法分詞舉一個n元語法分詞的例子。
一個n元語法分詞的例子3、由字構(gòu)詞分詞
由字構(gòu)詞分詞常用的三類由字構(gòu)詞
常用的三類由字構(gòu)詞4、循環(huán)神經(jīng)網(wǎng)絡(luò)分詞
循環(huán)神經(jīng)網(wǎng)絡(luò)分詞循環(huán)神經(jīng)網(wǎng)中文分詞有:LSTM、LSTM+CRF、BiLSTM-CRF、LSTM-CNNs-CRF等。
循環(huán)神經(jīng)網(wǎng)絡(luò)中文分詞的結(jié)構(gòu)圖如下:
循環(huán)神經(jīng)網(wǎng)絡(luò)中文分詞的結(jié)構(gòu)圖5、Transformer分詞
2014年,Google在《Recurrent Models of Visual Attention》論文中提出Attention機(jī)制。
2017年,Google在《Attention is All You Need》論文中提出Transformer模型。
Transformer分詞2019年,邱錫鵬在《Multi-Criteria Chinese Word Segmentation with Transformer》論文中提出Transformer中文分詞模型如下圖所示:
Transformer中文分詞模型Transformer中文分詞學(xué)習(xí)結(jié)果如下圖所示:
Transformer中文分詞學(xué)習(xí)結(jié)果三、中文分詞工具
中文分詞工具工具很多,這里我們選擇使用較多,關(guān)注度較高的jieba、HanLP、FoolNLTK等來介紹。
中文分詞工具的目錄jieba、HanLP、snownlp、FoolNLTK、LTP、THULAC等分詞工具概覽。
jieba、HanLP、snownlp、FoolNLTK、LTP、THULAC等分詞工具概覽1、jieba
jieba概述
jieba概述jieba分詞原理:HMM(隱馬爾可夫模型)。更多HMM內(nèi)容可參考:
劉啟林:隱馬爾可夫模型HMM的原理及應(yīng)用?zhuanlan.zhihu.comHMM中文分詞的圖結(jié)構(gòu)jieba中文分詞代碼實例如下:
# jieba 0.42.1import jiebastring = '我喜歡北京冬奧會'print(",".join(jieba.cut(string)))2、HanLP
HanLP概述
HanLP概述HanLP實現(xiàn)的基于CRF分詞原理如下:
CRF中文分詞的圖結(jié)構(gòu)HanLP中文分詞代碼實例如下:
# HanLP1.7.7from pyhanlp import *string = '我喜歡北京冬奧會'HanLP.Config.ShowTermNature = Falseprint(HanLP.segment(string))3、FoolNLTK
FoolNLTK概要
FoolNLTK概要FoolNLTK分詞原理如下:
BiLSTM-CRF模型架構(gòu)
BiLSTM-CRF模型架構(gòu)各分詞工具對比表如下:
分詞工具對比表中文分詞工具使用總結(jié)如下:
中文分詞工具使用總結(jié)四、總結(jié)
總結(jié)的目錄1、規(guī)則 VS 統(tǒng)計 VS 深度
基于規(guī)則分詞、基于統(tǒng)計分詞與基于深度學(xué)習(xí)分詞的對比。
基于規(guī)則分詞、基于統(tǒng)計分詞與基于深度學(xué)習(xí)分詞的對比2、垂直領(lǐng)域中文分詞
垂直領(lǐng)域的中文分詞現(xiàn)狀與挑戰(zhàn)。
垂直領(lǐng)域中文分詞3、中文分詞發(fā)展趨勢
中文分詞發(fā)展趨勢中文分詞呈現(xiàn)兩個發(fā)展趨勢:
1、越來越多的Attention方法應(yīng)用到中文分詞上。
2、數(shù)據(jù)科學(xué)與語言科學(xué)融合,發(fā)揮彼此優(yōu)勢。
由于當(dāng)前自己的能力和水平的限制,我的可能是錯的,或者是片面,這里拋磚引玉,期待與您一起交流探討。參考文獻(xiàn):
1、中國社會科學(xué)院語言研究所詞典編輯室, 現(xiàn)代漢語詞典(第7版), 商務(wù)印書館[M], 2017.01
2、宗成慶, 統(tǒng)計自然語言處理(第2版), 清華大學(xué)出版社[M], 2013.08
3、黃昌寧, 趙海, 由字構(gòu)詞——中文分詞新方法, 中國中文信息學(xué)會二十五周年學(xué)術(shù)會議[J], 2006
4、姜維, 文本分析與文本挖掘, 科學(xué)出版社[M], 2018.12
5、Xipeng Qiu等, Multi-Criteria Chinese Word Segmentation with Transformer, 2019.06
總結(jié)
以上是生活随笔為你收集整理的中文路径_中文分词的原理、方法与工具的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 3D打印技术在医疗领域能做些什么?帮助精
- 下一篇: STL -set