當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ik分词和jieba分词哪个好_Pubseg:一种单双字串的BiLSTM中文分词工具

發(fā)布時間：2023/12/9 编程问答 50 豆豆

生活随笔收集整理的這篇文章主要介紹了 ik分词和jieba分词哪个好_Pubseg:一种单双字串的BiLSTM中文分词工具小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

中文分詞是中文自然語言處理中的重要的步驟，有一個更高精度的中文分詞模型會顯著提升文檔分類、情感預(yù)測、社交媒體處理等任務(wù)的效果[1]。

Pubseg是基于BiLSTM中文分詞工具，基于ICWS2005PKU語料訓(xùn)練集訓(xùn)練而成，其優(yōu)點(diǎn)在于在ICWS2005-PKU語料下訓(xùn)練精度達(dá)到99.99%，測試集上精度94.34%，召回94.21%, F1值94.26%。

分詞模型是基于Keras設(shè)計(jì)，其詳細(xì)描述見[2]，其模型結(jié)構(gòu)如圖1：

圖1 PretrainedUnigram+Bigram+Context+Dropout+BiLSTM+BN網(wǎng)絡(luò)

在ICWS2005PKU測試集下比較jieba、IK、pkuseg、Stanza的評價，其對比結(jié)果如圖2所示：

圖2 ICWS2005PKU測試集下比較jieba、IK、pkuseg、Stanza與Pubseg比較

下面介紹如何安裝使用Pubseg工具。準(zhǔn)備工作，準(zhǔn)備python3.6以上版本。安裝依賴： numpy==1.18.1, keras==2.2.4, tensorflow-gpu==1.15.2。
下載Pubseg中文分詞模型，由于模型太大，結(jié)構(gòu)文件與權(quán)重文件分開存儲。下載地址如下：https://pan.baidu.com/s/1LnjZD9HVQ164uAe0-XpPsg；提取碼：zm41；也可以掃碼下載，下載地址見圖3：

圖3 Pubseg中文分詞模型下載地址

模型下載后，需要下載Pubseg代碼git clone https://github.com/ShenDezhou/LSTM。

下面介紹基本用法，

首先，創(chuàng)建一個PUB_BiLSTM_BN類的對象bilstm；

其次，通過命令行指定字典文件和模型文件路徑：-u <unigramfile> -b <bigramfile> -a <archfile> -w <weightfile>，默認(rèn)路徑為：

UNIGRAM = 'pku_dic/pku_dict.utf8' #字典 BIGRAM = 'pku_dic/pku_bigram.utf8' #二字詞典 MODELARCH = 'keras/B20-E60-F5-PU-Bi-Bn-De.json' #keras模型 MODELWEIGHT = "keras/B20-E60-F5-PU-Bi-Bn-De-weights.h5" #keras權(quán)重

再次，調(diào)用對象bilstm的加載Keras模型函數(shù)loadKeras；

最后，調(diào)用對象bilstm的cut函數(shù)，入?yún)榇衷~中文文本，返回結(jié)果為空格分隔后的中文文本。

完整代碼如下：

bilstm = PUB_BiLSTM_BN() bilstm.loadKeras() segs = bilstm.cut(["我昨天去清華大學(xué)。", "他明天去北京大學(xué)，再后天去麻省理工大學(xué)。"])

完整代碼見[3]。

模型的性能如下，在ICWS2005-PKU語料下訓(xùn)練精度達(dá)到99.99%，測試集上精度94.34%，召回94.21%, F1-值94.26%。

模型加載性能、推理性能：
CPU：Intel i56300HQ 2.30Ghz
SSD: Samsung 970 EVO 1TB M.2 NVMe PCIe SSD
GPU：GeForce GTX 950M-DDR3
字典加載時間：176ms
模型及權(quán)重加載時間：1m45s664ms

推理性能：
47.47ms/字 #以"我昨天去清華大學(xué) 。他明天去北京大學(xué) ，再后天去麻省理工大學(xué) 。"為測試條件；
13.30ms/行 #以PKUTEST1944行為測試條件。

結(jié)論，本文提出了一種基于預(yù)訓(xùn)練字與二字向量的BiLSTM中文分詞工具Pubseg，其性能在PKU測試集上取得了超過同類分詞模型的效果。

[1]待論證。

[2]基于Pretrained-UnigramBigram的中文分詞模型 https://zhuanlan.zhihu.com/p/111681404

[3]Pubseg:一種單雙字串的BiLSTM中文分詞工具 https://github.com/ShenDezhou/LSTM

總結(jié)

以上是生活随笔為你收集整理的ik分词和jieba分词哪个好_Pubseg:一种单双字串的BiLSTM中文分词工具的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Java中数组在内存中的存放原理？
下一篇：调制方式的自动识别

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

ik分词和jieba分词哪个好_Pubseg:一种单双字串的BiLSTM中文分词工具

總結(jié)