ik分词和jieba分词哪个好_Pubseg:一种单双字串的BiLSTM中文分词工具
中文分詞是中文自然語言處理中的重要的步驟,有一個(gè)更高精度的中文分詞模型會(huì)顯著提升文檔分類、情感預(yù)測(cè)、社交媒體處理等任務(wù)的效果[1]。
Pubseg是基于BiLSTM中文分詞工具,基于ICWS2005PKU語料訓(xùn)練集訓(xùn)練而成,其優(yōu)點(diǎn)在于在ICWS2005-PKU語料下訓(xùn)練精度達(dá)到99.99%,測(cè)試集上精度94.34%,召回94.21%, F1值94.26%。
分詞模型是基于Keras設(shè)計(jì),其詳細(xì)描述見[2],其模型結(jié)構(gòu)如圖1:
圖1 PretrainedUnigram+Bigram+Context+Dropout+BiLSTM+BN網(wǎng)絡(luò)在ICWS2005PKU測(cè)試集下比較jieba、IK、pkuseg、Stanza的評(píng)價(jià),其對(duì)比結(jié)果如圖2所示:
圖2 ICWS2005PKU測(cè)試集下比較jieba、IK、pkuseg、Stanza與Pubseg比較 下面介紹如何安裝使用Pubseg工具。準(zhǔn)備工作,準(zhǔn)備python3.6以上版本。安裝依賴: numpy==1.18.1, keras==2.2.4, tensorflow-gpu==1.15.2。
下載Pubseg中文分詞模型,由于模型太大,結(jié)構(gòu)文件與權(quán)重文件分開存儲(chǔ)。下載地址如下:https://pan.baidu.com/s/1LnjZD9HVQ164uAe0-XpPsg;提取碼:zm41;也可以掃碼下載,下載地址見圖3:
模型下載后,需要下載Pubseg代碼git clone https://github.com/ShenDezhou/LSTM。
下面介紹基本用法,
首先,創(chuàng)建一個(gè)PUB_BiLSTM_BN類的對(duì)象bilstm;
其次,通過命令行指定字典文件和模型文件路徑:-u <unigramfile> -b <bigramfile> -a <archfile> -w <weightfile>,默認(rèn)路徑為:
UNIGRAM = 'pku_dic/pku_dict.utf8' #字典 BIGRAM = 'pku_dic/pku_bigram.utf8' #二字詞典 MODELARCH = 'keras/B20-E60-F5-PU-Bi-Bn-De.json' #keras模型 MODELWEIGHT = "keras/B20-E60-F5-PU-Bi-Bn-De-weights.h5" #keras權(quán)重再次,調(diào)用對(duì)象bilstm的加載Keras模型函數(shù)loadKeras;
最后,調(diào)用對(duì)象bilstm的cut函數(shù),入?yún)榇衷~中文文本,返回結(jié)果為空格分隔后的中文文本。
完整代碼如下:
bilstm = PUB_BiLSTM_BN() bilstm.loadKeras() segs = bilstm.cut(["我昨天去清華大學(xué)。", "他明天去北京大學(xué),再后天去麻省理工大學(xué)。"])完整代碼見[3]。
模型的性能如下,在ICWS2005-PKU語料下訓(xùn)練精度達(dá)到99.99%,測(cè)試集上精度94.34%,召回94.21%, F1-值94.26%。
模型加載性能、推理性能:
CPU:Intel i56300HQ 2.30Ghz
SSD: Samsung 970 EVO 1TB M.2 NVMe PCIe SSD
GPU:GeForce GTX 950M-DDR3
字典加載時(shí)間:176ms
模型及權(quán)重加載時(shí)間:1m45s664ms
推理性能:
47.47ms/字 #以"我 昨天 去 清華 大學(xué) 。他 明天 去 北京 大學(xué) , 再 后天 去 麻省 理工大學(xué) 。"為測(cè)試條件;
13.30ms/行 #以PKUTEST1944行 為測(cè)試條件。
結(jié)論,本文提出了一種基于預(yù)訓(xùn)練字與二字向量的BiLSTM中文分詞工具Pubseg,其性能在PKU測(cè)試集上取得了超過同類分詞模型的效果。
[1]待論證。
[2]基于Pretrained-UnigramBigram的中文分詞模型 https://zhuanlan.zhihu.com/p/111681404
[3]Pubseg:一種單雙字串的BiLSTM中文分詞工具 https://github.com/ShenDezhou/LSTM
總結(jié)
以上是生活随笔為你收集整理的ik分词和jieba分词哪个好_Pubseg:一种单双字串的BiLSTM中文分词工具的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java中数组在内存中的存放原理?
- 下一篇: 调制方式的自动识别