与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...
jieba庫在中文分詞中很常用,做一個簡單的介紹和運用~
需求1:打開本地的十九大報告文本,并采用jieba分詞器進行分詞,最后將分詞結果存入名為segresult的文本文件中。
注釋:①jieba庫cut()函數默認分詞模式為cut_all = False,即不是全模式,而是精確模式。全模式分詞,以“我來到北京清華大學”為例,全模式分詞結果為:我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學。可以看出,全模式分詞詞與詞之間會有內容重疊,會將所有可能的分詞結果都展示出來,如清華、清華大學。如果是精確模式則為:我/來到/清華大學。
②在寫出分詞結果時,t.write('/'.join(seg_list))采用'/'對每個詞進行間隔,jieba分詞器默認是用空格進行間隔。
結果如下:
需求2:提取十九大報告中的前十個關鍵詞
注釋:①使用jieba.analyse模塊需要單獨加載。②jieba庫默認的關鍵詞權重計算方法為TF-IDF。
運行結果如下:
若指定返回的關鍵字的詞性:
需求3:導入本地的詞典對默認分詞詞典進行補充
先用jieba自帶的詞典對一段中文文本進行分詞,代碼如下:
分詞效果如下:
可以看出,競選集會、新冠病毒、功夫流感、新冠肺炎病毒、中國病毒等詞應該是被劃分為一個詞才對。因此,我們自定義一個字典,對jieba原有字典進行補充:
字典一般要求一行一個詞。
再次進行分詞:
結果如下:
總結
以上是生活随笔為你收集整理的与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: spring-boot注解详解(一)
- 下一篇: 中文语料库有哪些