日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ik分词和jieba分词哪个好_Pubseg:一种单双字串的BiLSTM中文分词工具

發(fā)布時(shí)間:2023/12/9 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ik分词和jieba分词哪个好_Pubseg:一种单双字串的BiLSTM中文分词工具 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

中文分詞是中文自然語言處理中的重要的步驟,有一個(gè)更高精度的中文分詞模型會(huì)顯著提升文檔分類、情感預(yù)測(cè)、社交媒體處理等任務(wù)的效果[1]。

Pubseg是基于BiLSTM中文分詞工具,基于ICWS2005PKU語料訓(xùn)練集訓(xùn)練而成,其優(yōu)點(diǎn)在于在ICWS2005-PKU語料下訓(xùn)練精度達(dá)到99.99%,測(cè)試集上精度94.34%,召回94.21%, F1值94.26%。

分詞模型是基于Keras設(shè)計(jì),其詳細(xì)描述見[2],其模型結(jié)構(gòu)如圖1:

圖1 PretrainedUnigram+Bigram+Context+Dropout+BiLSTM+BN網(wǎng)絡(luò)

在ICWS2005PKU測(cè)試集下比較jieba、IK、pkuseg、Stanza的評(píng)價(jià),其對(duì)比結(jié)果如圖2所示:

圖2 ICWS2005PKU測(cè)試集下比較jieba、IK、pkuseg、Stanza與Pubseg比較

下面介紹如何安裝使用Pubseg工具。準(zhǔn)備工作,準(zhǔn)備python3.6以上版本。安裝依賴: numpy==1.18.1, keras==2.2.4, tensorflow-gpu==1.15.2。
下載Pubseg中文分詞模型,由于模型太大,結(jié)構(gòu)文件與權(quán)重文件分開存儲(chǔ)。下載地址如下:https://pan.baidu.com/s/1LnjZD9HVQ164uAe0-XpPsg;提取碼:zm41;也可以掃碼下載,下載地址見圖3:

圖3 Pubseg中文分詞模型下載地址

模型下載后,需要下載Pubseg代碼git clone https://github.com/ShenDezhou/LSTM。

下面介紹基本用法,

首先,創(chuàng)建一個(gè)PUB_BiLSTM_BN類的對(duì)象bilstm;

其次,通過命令行指定字典文件和模型文件路徑:-u <unigramfile> -b <bigramfile> -a <archfile> -w <weightfile>,默認(rèn)路徑為:

UNIGRAM = 'pku_dic/pku_dict.utf8' #字典 BIGRAM = 'pku_dic/pku_bigram.utf8' #二字詞典 MODELARCH = 'keras/B20-E60-F5-PU-Bi-Bn-De.json' #keras模型 MODELWEIGHT = "keras/B20-E60-F5-PU-Bi-Bn-De-weights.h5" #keras權(quán)重

再次,調(diào)用對(duì)象bilstm的加載Keras模型函數(shù)loadKeras;

最后,調(diào)用對(duì)象bilstm的cut函數(shù),入?yún)榇衷~中文文本,返回結(jié)果為空格分隔后的中文文本。

完整代碼如下:

bilstm = PUB_BiLSTM_BN() bilstm.loadKeras() segs = bilstm.cut(["我昨天去清華大學(xué)。", "他明天去北京大學(xué),再后天去麻省理工大學(xué)。"])

完整代碼見[3]。

模型的性能如下,在ICWS2005-PKU語料下訓(xùn)練精度達(dá)到99.99%,測(cè)試集上精度94.34%,召回94.21%, F1-值94.26%。

模型加載性能、推理性能:
CPU:Intel i56300HQ 2.30Ghz
SSD: Samsung 970 EVO 1TB M.2 NVMe PCIe SSD
GPU:GeForce GTX 950M-DDR3
字典加載時(shí)間:176ms
模型及權(quán)重加載時(shí)間:1m45s664ms


推理性能:
47.47ms/字 #以"我 昨天 去 清華 大學(xué) 。他 明天 去 北京 大學(xué) , 再 后天 去 麻省 理工大學(xué) 。"為測(cè)試條件;
13.30ms/行 #以PKUTEST1944行 為測(cè)試條件。

結(jié)論,本文提出了一種基于預(yù)訓(xùn)練字與二字向量的BiLSTM中文分詞工具Pubseg,其性能在PKU測(cè)試集上取得了超過同類分詞模型的效果。

[1]待論證。

[2]基于Pretrained-UnigramBigram的中文分詞模型 https://zhuanlan.zhihu.com/p/111681404

[3]Pubseg:一種單雙字串的BiLSTM中文分詞工具 https://github.com/ShenDezhou/LSTM

總結(jié)

以上是生活随笔為你收集整理的ik分词和jieba分词哪个好_Pubseg:一种单双字串的BiLSTM中文分词工具的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。