日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

结巴分词jieba添加自定义词典

發布時間:2025/4/5 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 结巴分词jieba添加自定义词典 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

結巴分詞添加自定義詞典,有時候很有必要。比如下面這段話:

test_text = """ 我們的健康碼也是綠色的,這憑什么就限制我們的就醫!"""

如果使用默認的分詞,那么,“健康碼”這個詞會分成“健康”和“碼”

這里可以使用詞典方式,添加自定義詞典。

新建一個txt文件,在文件里輸入“健康碼”

以utf-8形式保存,這里使用pycharm,默認就是utf8.不用管。

然后使用

jieba.load_userdict(os.path.join(wk_dir, "jiebaDict.txt"))

wk_dir是詞典放置的目錄,詞典文件名默認為jiebaDict.txt.

再一次分詞,就可以得到這個結果。

如果不想用這個詞作為一整個詞,下次分詞時,還是想,健康, 和碼分開,那么就使用

jieba.del_word("健康碼")

那么自定義詞典的文件就沒有這個詞。下次分詞還是會按照默認的方式,分成“健康”,“碼”

如果還想添加其他的,那么可以打開jiebaDict.txt文件,一行一行添加想要添加的自定義詞典。

或者使用

jieba.add_word("憑什么")

自定義詞典,應該是每次使用都需要手動加載,不然不會發揮作用。

總結

以上是生活随笔為你收集整理的结巴分词jieba添加自定义词典的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。