日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...

發布時間:2023/12/10 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

jieba庫在中文分詞中很常用,做一個簡單的介紹和運用~

需求1:打開本地的十九大報告文本,并采用jieba分詞器進行分詞,最后將分詞結果存入名為segresult的文本文件中。

注釋:①jieba庫cut()函數默認分詞模式為cut_all = False,即不是全模式,而是精確模式。全模式分詞,以“我來到北京清華大學”為例,全模式分詞結果為:我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學。可以看出,全模式分詞詞與詞之間會有內容重疊,會將所有可能的分詞結果都展示出來,如清華、清華大學。如果是精確模式則為:我/來到/清華大學。

②在寫出分詞結果時,t.write('/'.join(seg_list))采用'/'對每個詞進行間隔,jieba分詞器默認是用空格進行間隔。

結果如下:

需求2:提取十九大報告中的前十個關鍵詞

注釋:①使用jieba.analyse模塊需要單獨加載。②jieba庫默認的關鍵詞權重計算方法為TF-IDF。

運行結果如下:

若指定返回的關鍵字的詞性:

需求3:導入本地的詞典對默認分詞詞典進行補充

先用jieba自帶的詞典對一段中文文本進行分詞,代碼如下:

分詞效果如下:

可以看出,競選集會、新冠病毒、功夫流感、新冠肺炎病毒、中國病毒等詞應該是被劃分為一個詞才對。因此,我們自定義一個字典,對jieba原有字典進行補充:

字典一般要求一行一個詞。

再次進行分詞:

結果如下:

總結

以上是生活随笔為你收集整理的与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。