中文路径_中文分词的原理、方法与工具
海德格爾說“詞語破碎處,無物可存在”。中文句子不像英文那樣的詞與詞之間有顯示空格邊界,使得詞和詞組邊界模糊。
為了讓計算機更容易理解文本,通常中文信息處理的第一步是中文分詞。中文分詞是在中文句子中的詞與詞之間加上邊界標記。
本文首先介紹詞、詞組、句子、語言模型等基本概念及基本原理,比如:短語結構語法(PSG)模型、n元語法模型( n-gram)、神經網絡語言模型(NNLM)、Masked Language Model(MLM);
接著介紹主要中文分詞方法,比如最短路徑分詞、n元語法分詞、由字構詞分詞、循環神經網絡分詞、Transformer分詞;
然后介紹當前主要使用的分詞工具,比如jieba、HanLP、FoolNLTK;
最后拋出個人認為垂直領域如何中文分詞及發展趨勢。
文章目錄如下:
一、中文分詞原理1、中文分詞
2、詞、詞組、句子
3、語言模型
4、中文分詞發展簡史
二、中文分詞方法
1、最短路徑分詞
2、n元語法分詞
3、由字構詞分詞
4、循環神經網絡分詞
5、Transformer分詞
三、中文分詞工具
1、jieba
2、HanLP
3、FoolNLTK
四、總結
1、規則 VS 統計 VS 深度
2、垂直領域中文分詞
3、中文分詞發展趨勢
直接上PPT
中文分詞的原理、方法與工具為什么要中文分詞?
為什么要中文分詞?一、中文分詞原理
中文分詞原理的目錄1、中文分詞
什么是中文分詞?
給出定義:中文分詞是在中文句子中的詞與詞之間加上邊界標記。
什么是中文分詞?中文分詞總的來說就兩種方法:一種是由句子到詞;另一種是由字到詞。
中文分詞的基本概念、語言模型中文分詞本質:劃分詞的邊界
中文分詞本質:劃分詞的邊界同時,中文分詞也面臨著分詞規范、歧義切分、新詞識別等挑戰。
中文分詞面臨2、詞、詞組、句子
什么是詞?什么是詞組?什么是句子?
搞懂這些基本概念,更容易處理它們。
什么是詞?什么是詞組?什么是句子?3、語言模型
什么是語言模型?
由語音、詞匯、語法構成的交流模型。
語言模型短語結構語法( Phrase Structure Grammar, PSG)
語言模型——PSGn元語法模型( n-gram)
語言模型—— -gram常見的n元語法模型如下表所示:
常見的n元語法模型神經網絡語言模型(NNLM)
神經網絡語言模型(NNLM)Masked Language Model(MLM)
Masked Language Model(MLM)4、中文分詞發展簡史
中文分詞發展簡史二、中文分詞方法
中文分詞代表方法有最短路徑分詞、n元語法分詞、由字構詞分詞、循環神經網絡分詞、Transformer分詞等。
中文分詞方法的目錄1、最短路徑分詞
最短路徑分詞2、n元語法分詞
n元語法分詞舉一個n元語法分詞的例子。
一個n元語法分詞的例子3、由字構詞分詞
由字構詞分詞常用的三類由字構詞
常用的三類由字構詞4、循環神經網絡分詞
循環神經網絡分詞循環神經網中文分詞有:LSTM、LSTM+CRF、BiLSTM-CRF、LSTM-CNNs-CRF等。
循環神經網絡中文分詞的結構圖如下:
循環神經網絡中文分詞的結構圖5、Transformer分詞
2014年,Google在《Recurrent Models of Visual Attention》論文中提出Attention機制。
2017年,Google在《Attention is All You Need》論文中提出Transformer模型。
Transformer分詞2019年,邱錫鵬在《Multi-Criteria Chinese Word Segmentation with Transformer》論文中提出Transformer中文分詞模型如下圖所示:
Transformer中文分詞模型Transformer中文分詞學習結果如下圖所示:
Transformer中文分詞學習結果三、中文分詞工具
中文分詞工具工具很多,這里我們選擇使用較多,關注度較高的jieba、HanLP、FoolNLTK等來介紹。
中文分詞工具的目錄jieba、HanLP、snownlp、FoolNLTK、LTP、THULAC等分詞工具概覽。
jieba、HanLP、snownlp、FoolNLTK、LTP、THULAC等分詞工具概覽1、jieba
jieba概述
jieba概述jieba分詞原理:HMM(隱馬爾可夫模型)。更多HMM內容可參考:
劉啟林:隱馬爾可夫模型HMM的原理及應用?zhuanlan.zhihu.comHMM中文分詞的圖結構jieba中文分詞代碼實例如下:
# jieba 0.42.1import jiebastring = '我喜歡北京冬奧會'print(",".join(jieba.cut(string)))2、HanLP
HanLP概述
HanLP概述HanLP實現的基于CRF分詞原理如下:
CRF中文分詞的圖結構HanLP中文分詞代碼實例如下:
# HanLP1.7.7from pyhanlp import *string = '我喜歡北京冬奧會'HanLP.Config.ShowTermNature = Falseprint(HanLP.segment(string))3、FoolNLTK
FoolNLTK概要
FoolNLTK概要FoolNLTK分詞原理如下:
BiLSTM-CRF模型架構
BiLSTM-CRF模型架構各分詞工具對比表如下:
分詞工具對比表中文分詞工具使用總結如下:
中文分詞工具使用總結四、總結
總結的目錄1、規則 VS 統計 VS 深度
基于規則分詞、基于統計分詞與基于深度學習分詞的對比。
基于規則分詞、基于統計分詞與基于深度學習分詞的對比2、垂直領域中文分詞
垂直領域的中文分詞現狀與挑戰。
垂直領域中文分詞3、中文分詞發展趨勢
中文分詞發展趨勢中文分詞呈現兩個發展趨勢:
1、越來越多的Attention方法應用到中文分詞上。
2、數據科學與語言科學融合,發揮彼此優勢。
由于當前自己的能力和水平的限制,我的可能是錯的,或者是片面,這里拋磚引玉,期待與您一起交流探討。參考文獻:
1、中國社會科學院語言研究所詞典編輯室, 現代漢語詞典(第7版), 商務印書館[M], 2017.01
2、宗成慶, 統計自然語言處理(第2版), 清華大學出版社[M], 2013.08
3、黃昌寧, 趙海, 由字構詞——中文分詞新方法, 中國中文信息學會二十五周年學術會議[J], 2006
4、姜維, 文本分析與文本挖掘, 科學出版社[M], 2018.12
5、Xipeng Qiu等, Multi-Criteria Chinese Word Segmentation with Transformer, 2019.06
總結
以上是生活随笔為你收集整理的中文路径_中文分词的原理、方法与工具的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 3D打印技术在医疗领域能做些什么?帮助精
- 下一篇: STL -set