日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

结巴分词jieba添加自定义词典

發布時間:2025/4/5 编程问答 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 结巴分词jieba添加自定义词典 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

結巴分詞添加自定義詞典,有時候很有必要。比如下面這段話:

test_text = """ 我們的健康碼也是綠色的,這憑什么就限制我們的就醫!"""

如果使用默認的分詞,那么,“健康碼”這個詞會分成“健康”和“碼”

這里可以使用詞典方式,添加自定義詞典。

新建一個txt文件,在文件里輸入“健康碼”

以utf-8形式保存,這里使用pycharm,默認就是utf8.不用管。

然后使用

jieba.load_userdict(os.path.join(wk_dir, "jiebaDict.txt"))

wk_dir是詞典放置的目錄,詞典文件名默認為jiebaDict.txt.

再一次分詞,就可以得到這個結果。

如果不想用這個詞作為一整個詞,下次分詞時,還是想,健康, 和碼分開,那么就使用

jieba.del_word("健康碼")

那么自定義詞典的文件就沒有這個詞。下次分詞還是會按照默認的方式,分成“健康”,“碼”

如果還想添加其他的,那么可以打開jiebaDict.txt文件,一行一行添加想要添加的自定義詞典。

或者使用

jieba.add_word("憑什么")

自定義詞典,應該是每次使用都需要手動加載,不然不會發揮作用。

總結

以上是生活随笔為你收集整理的结巴分词jieba添加自定义词典的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。