當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

与自定义词典分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...

發(fā)布時(shí)間：2023/12/10 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了与自定义词典分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

jieba庫在中文分詞中很常用，做一個(gè)簡單的介紹和運(yùn)用~

需求1：打開本地的十九大報(bào)告文本，并采用jieba分詞器進(jìn)行分詞，最后將分詞結(jié)果存入名為segresult的文本文件中。

注釋:①jieba庫cut()函數(shù)默認(rèn)分詞模式為cut_all = False，即不是全模式，而是精確模式。全模式分詞，以“我來到北京清華大學(xué)”為例，全模式分詞結(jié)果為：我/ 來到/ 北京/ 清華/ 清華大學(xué)/ 華大/ 大學(xué)。可以看出，全模式分詞詞與詞之間會有內(nèi)容重疊，會將所有可能的分詞結(jié)果都展示出來，如清華、清華大學(xué)。如果是精確模式則為：我/來到/清華大學(xué)。

②在寫出分詞結(jié)果時(shí)，t.write('/'.join(seg_list))采用'/'對每個(gè)詞進(jìn)行間隔，jieba分詞器默認(rèn)是用空格進(jìn)行間隔。

結(jié)果如下:

需求2：提取十九大報(bào)告中的前十個(gè)關(guān)鍵詞

注釋：①使用jieba.analyse模塊需要單獨(dú)加載。②jieba庫默認(rèn)的關(guān)鍵詞權(quán)重計(jì)算方法為TF-IDF。

運(yùn)行結(jié)果如下：

若指定返回的關(guān)鍵字的詞性：

需求3：導(dǎo)入本地的詞典對默認(rèn)分詞詞典進(jìn)行補(bǔ)充

先用jieba自帶的詞典對一段中文文本進(jìn)行分詞，代碼如下:

分詞效果如下：

可以看出，競選集會、新冠病毒、功夫流感、新冠肺炎病毒、中國病毒等詞應(yīng)該是被劃分為一個(gè)詞才對。因此，我們自定義一個(gè)字典，對jieba原有字典進(jìn)行補(bǔ)充：

字典一般要求一行一個(gè)詞。

再次進(jìn)行分詞：

結(jié)果如下：

總結(jié)

以上是生活随笔為你收集整理的与自定义词典分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： spring-boot注解详解(一)
下一篇：中文语料库有哪些

编程问答

与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...

總結(jié)

与自定义词典分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...