与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...
jieba庫在中文分詞中很常用,做一個(gè)簡單的介紹和運(yùn)用~
需求1:打開本地的十九大報(bào)告文本,并采用jieba分詞器進(jìn)行分詞,最后將分詞結(jié)果存入名為segresult的文本文件中。
注釋:①jieba庫cut()函數(shù)默認(rèn)分詞模式為cut_all = False,即不是全模式,而是精確模式。全模式分詞,以“我來到北京清華大學(xué)”為例,全模式分詞結(jié)果為:我/ 來到/ 北京/ 清華/ 清華大學(xué)/ 華大/ 大學(xué)。可以看出,全模式分詞詞與詞之間會有內(nèi)容重疊,會將所有可能的分詞結(jié)果都展示出來,如清華、清華大學(xué)。如果是精確模式則為:我/來到/清華大學(xué)。
②在寫出分詞結(jié)果時(shí),t.write('/'.join(seg_list))采用'/'對每個(gè)詞進(jìn)行間隔,jieba分詞器默認(rèn)是用空格進(jìn)行間隔。
結(jié)果如下:
需求2:提取十九大報(bào)告中的前十個(gè)關(guān)鍵詞
注釋:①使用jieba.analyse模塊需要單獨(dú)加載。②jieba庫默認(rèn)的關(guān)鍵詞權(quán)重計(jì)算方法為TF-IDF。
運(yùn)行結(jié)果如下:
若指定返回的關(guān)鍵字的詞性:
需求3:導(dǎo)入本地的詞典對默認(rèn)分詞詞典進(jìn)行補(bǔ)充
先用jieba自帶的詞典對一段中文文本進(jìn)行分詞,代碼如下:
分詞效果如下:
可以看出,競選集會、新冠病毒、功夫流感、新冠肺炎病毒、中國病毒等詞應(yīng)該是被劃分為一個(gè)詞才對。因此,我們自定義一個(gè)字典,對jieba原有字典進(jìn)行補(bǔ)充:
字典一般要求一行一個(gè)詞。
再次進(jìn)行分詞:
結(jié)果如下:
總結(jié)
以上是生活随笔為你收集整理的与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: spring-boot注解详解(一)
- 下一篇: 中文语料库有哪些