當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

中文路径_中文分词的原理、方法与工具

發布時間：2023/12/19 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了中文路径_中文分词的原理、方法与工具小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

海德格爾說“詞語破碎處，無物可存在”。中文句子不像英文那樣的詞與詞之間有顯示空格邊界，使得詞和詞組邊界模糊。

為了讓計算機更容易理解文本，通常中文信息處理的第一步是中文分詞。中文分詞是在中文句子中的詞與詞之間加上邊界標記。

本文首先介紹詞、詞組、句子、語言模型等基本概念及基本原理，比如：短語結構語法（PSG）模型、n元語法模型（ n-gram）、神經網絡語言模型（NNLM）、Masked Language Model（MLM）；

接著介紹主要中文分詞方法，比如最短路徑分詞、n元語法分詞、由字構詞分詞、循環神經網絡分詞、Transformer分詞；

然后介紹當前主要使用的分詞工具，比如jieba、HanLP、FoolNLTK；

最后拋出個人認為垂直領域如何中文分詞及發展趨勢。

文章目錄如下：

一、中文分詞原理
1、中文分詞
2、詞、詞組、句子
3、語言模型
4、中文分詞發展簡史
二、中文分詞方法
1、最短路徑分詞
2、n元語法分詞
3、由字構詞分詞
4、循環神經網絡分詞
5、Transformer分詞
三、中文分詞工具
1、jieba
2、HanLP
3、FoolNLTK
四、總結
1、規則 VS 統計 VS 深度
2、垂直領域中文分詞
3、中文分詞發展趨勢

直接上PPT

中文分詞的原理、方法與工具

為什么要中文分詞？

一、中文分詞原理

中文分詞原理的目錄

1、中文分詞

什么是中文分詞？

給出定義：中文分詞是在中文句子中的詞與詞之間加上邊界標記。

什么是中文分詞？

中文分詞總的來說就兩種方法：一種是由句子到詞；另一種是由字到詞。

中文分詞的基本概念、語言模型

中文分詞本質：劃分詞的邊界

同時，中文分詞也面臨著分詞規范、歧義切分、新詞識別等挑戰。

中文分詞面臨

2、詞、詞組、句子

什么是詞？什么是詞組？什么是句子？

搞懂這些基本概念，更容易處理它們。

什么是詞？什么是詞組？什么是句子？

3、語言模型

什么是語言模型？

由語音、詞匯、語法構成的交流模型。

語言模型

短語結構語法（ Phrase Structure Grammar， PSG）

語言模型——PSG

n元語法模型（ n-gram）

語言模型—— -gram

常見的n元語法模型如下表所示：

常見的n元語法模型

神經網絡語言模型（NNLM）

Masked Language Model（MLM）

4、中文分詞發展簡史

中文分詞發展簡史

二、中文分詞方法

中文分詞代表方法有最短路徑分詞、n元語法分詞、由字構詞分詞、循環神經網絡分詞、Transformer分詞等。

中文分詞方法的目錄

1、最短路徑分詞

最短路徑分詞

2、n元語法分詞

n元語法分詞

舉一個n元語法分詞的例子。

一個n元語法分詞的例子

3、由字構詞分詞

由字構詞分詞

常用的三類由字構詞

4、循環神經網絡分詞

循環神經網絡分詞

循環神經網中文分詞有：LSTM、LSTM+CRF、BiLSTM-CRF、LSTM-CNNs-CRF等。

循環神經網絡中文分詞的結構圖如下：

循環神經網絡中文分詞的結構圖

5、Transformer分詞

2014年，Google在《Recurrent Models of Visual Attention》論文中提出Attention機制。

2017年，Google在《Attention is All You Need》論文中提出Transformer模型。

Transformer分詞

2019年，邱錫鵬在《Multi-Criteria Chinese Word Segmentation with Transformer》論文中提出Transformer中文分詞模型如下圖所示：

Transformer中文分詞模型

Transformer中文分詞學習結果如下圖所示：

Transformer中文分詞學習結果

三、中文分詞工具

中文分詞工具工具很多，這里我們選擇使用較多，關注度較高的jieba、HanLP、FoolNLTK等來介紹。

中文分詞工具的目錄

jieba、HanLP、snownlp、FoolNLTK、LTP、THULAC等分詞工具概覽。

jieba、HanLP、snownlp、FoolNLTK、LTP、THULAC等分詞工具概覽

1、jieba

jieba概述

jieba分詞原理：HMM（隱馬爾可夫模型）。更多HMM內容可參考：

劉啟林：隱馬爾可夫模型HMM的原理及應用?zhuanlan.zhihu.com

HMM中文分詞的圖結構

jieba中文分詞代碼實例如下：

# jieba 0.42.1import jiebastring = '我喜歡北京冬奧會'print("，".join(jieba.cut(string)))

2、HanLP

HanLP概述

HanLP實現的基于CRF分詞原理如下：

CRF中文分詞的圖結構

HanLP中文分詞代碼實例如下：

# HanLP1.7.7from pyhanlp import *string = '我喜歡北京冬奧會'HanLP.Config.ShowTermNature = Falseprint(HanLP.segment(string))

3、FoolNLTK

FoolNLTK概要

FoolNLTK分詞原理如下：

BiLSTM-CRF模型架構

各分詞工具對比表如下：

分詞工具對比表

中文分詞工具使用總結如下：

中文分詞工具使用總結

四、總結

總結的目錄

1、規則 VS 統計 VS 深度

基于規則分詞、基于統計分詞與基于深度學習分詞的對比。

基于規則分詞、基于統計分詞與基于深度學習分詞的對比

2、垂直領域中文分詞

垂直領域的中文分詞現狀與挑戰。

垂直領域中文分詞

3、中文分詞發展趨勢

中文分詞發展趨勢

中文分詞呈現兩個發展趨勢：

1、越來越多的Attention方法應用到中文分詞上。

2、數據科學與語言科學融合，發揮彼此優勢。

由于當前自己的能力和水平的限制，我的可能是錯的，或者是片面，這里拋磚引玉，期待與您一起交流探討。

參考文獻：

1、中國社會科學院語言研究所詞典編輯室, 現代漢語詞典（第7版）, 商務印書館[M], 2017.01

2、宗成慶, 統計自然語言處理（第2版）, 清華大學出版社[M], 2013.08

3、黃昌寧, 趙海, 由字構詞——中文分詞新方法, 中國中文信息學會二十五周年學術會議[J], 2006

4、姜維, 文本分析與文本挖掘, 科學出版社[M], 2018.12

5、Xipeng Qiu等, Multi-Criteria Chinese Word Segmentation with Transformer, 2019.06

總結

以上是生活随笔為你收集整理的中文路径_中文分词的原理、方法与工具的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 3D打印技术在医疗领域能做些什么？帮助精
下一篇： STL -set