日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...

發(fā)布時(shí)間:2023/12/10 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

jieba庫在中文分詞中很常用,做一個(gè)簡單的介紹和運(yùn)用~

需求1:打開本地的十九大報(bào)告文本,并采用jieba分詞器進(jìn)行分詞,最后將分詞結(jié)果存入名為segresult的文本文件中。

注釋:①jieba庫cut()函數(shù)默認(rèn)分詞模式為cut_all = False,即不是全模式,而是精確模式。全模式分詞,以“我來到北京清華大學(xué)”為例,全模式分詞結(jié)果為:我/ 來到/ 北京/ 清華/ 清華大學(xué)/ 華大/ 大學(xué)。可以看出,全模式分詞詞與詞之間會有內(nèi)容重疊,會將所有可能的分詞結(jié)果都展示出來,如清華、清華大學(xué)。如果是精確模式則為:我/來到/清華大學(xué)。

②在寫出分詞結(jié)果時(shí),t.write('/'.join(seg_list))采用'/'對每個(gè)詞進(jìn)行間隔,jieba分詞器默認(rèn)是用空格進(jìn)行間隔。

結(jié)果如下:

需求2:提取十九大報(bào)告中的前十個(gè)關(guān)鍵詞

注釋:①使用jieba.analyse模塊需要單獨(dú)加載。②jieba庫默認(rèn)的關(guān)鍵詞權(quán)重計(jì)算方法為TF-IDF。

運(yùn)行結(jié)果如下:

若指定返回的關(guān)鍵字的詞性:

需求3:導(dǎo)入本地的詞典對默認(rèn)分詞詞典進(jìn)行補(bǔ)充

先用jieba自帶的詞典對一段中文文本進(jìn)行分詞,代碼如下:

分詞效果如下:

可以看出,競選集會、新冠病毒、功夫流感、新冠肺炎病毒、中國病毒等詞應(yīng)該是被劃分為一個(gè)詞才對。因此,我們自定義一個(gè)字典,對jieba原有字典進(jìn)行補(bǔ)充:

字典一般要求一行一個(gè)詞。

再次進(jìn)行分詞:

結(jié)果如下:

總結(jié)

以上是生活随笔為你收集整理的与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。