初识ES-IK分词器的拓展和停用词典
擴(kuò)展詞詞典
?
隨著互聯(lián)網(wǎng)的發(fā)展,“造詞運(yùn)動(dòng)”也越發(fā)的頻繁。出現(xiàn)了很多新的詞語,在原有的詞匯列表中并不存在。比如:“奧力給”等。
所以我們的詞匯也需要不斷的更新,IK分詞器提供了擴(kuò)展詞匯的功能。
1)打開IK分詞器config目錄:
2)在IKAnalyzer.cfg.xml配置文件內(nèi)容添加:
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties><comment>IK Analyzer 擴(kuò)展配置</comment><!--用戶可以在這里配置自己的擴(kuò)展字典 *** 添加擴(kuò)展詞典--><entry key="ext_dict">ext.dic</entry> </properties>3)新建一個(gè) ext.dic,可以參考config目錄下復(fù)制一個(gè)配置文件進(jìn)行修改
奧力給4)重啟elasticsearch
docker restart es# 查看 日志 docker logs -f elasticsearch注意當(dāng)前文件的編碼必須是 UTF-8 格式,嚴(yán)禁使用Windows記事本編輯
停用詞詞典
在互聯(lián)網(wǎng)項(xiàng)目中,在網(wǎng)絡(luò)間傳輸?shù)乃俣群芸?#xff0c;所以很多語言是不允許在網(wǎng)絡(luò)上傳遞的,如:關(guān)于宗教、政治等敏感詞語,那么我們?cè)谒阉鲿r(shí)也應(yīng)該忽略當(dāng)前詞匯。
IK分詞器也提供了強(qiáng)大的停用詞功能,讓我們?cè)谒饕龝r(shí)就直接忽略當(dāng)前的停用詞匯表中的內(nèi)容。
1)IKAnalyzer.cfg.xml配置文件內(nèi)容添加:
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties><comment>IK Analyzer 擴(kuò)展配置</comment><!--用戶可以在這里配置自己的擴(kuò)展字典--><entry key="ext_dict">ext.dic</entry><!--用戶可以在這里配置自己的擴(kuò)展停止詞字典 *** 添加停用詞詞典--><entry key="ext_stopwords">stopword.dic</entry> </properties>3)在 stopword.dic 添加停用詞
4)重啟elasticsearch
# 重啟服務(wù) docker restart elasticsearch docker restart kibana# 查看 日志 docker logs -f elasticsearch日志中已經(jīng)成功加載stopword.dic配置文件
注意當(dāng)前文件的編碼必須是 UTF-8 格式,嚴(yán)禁使用Windows記事本編輯
總結(jié)
以上是生活随笔為你收集整理的初识ES-IK分词器的拓展和停用词典的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SpringSecurity加密认证
- 下一篇: 操作索引库-mapping属性