日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

初识ES-IK分词器的拓展和停用词典

發(fā)布時(shí)間:2024/4/13 编程问答 54 豆豆
生活随笔 收集整理的這篇文章主要介紹了 初识ES-IK分词器的拓展和停用词典 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

擴(kuò)展詞詞典

?

隨著互聯(lián)網(wǎng)的發(fā)展,“造詞運(yùn)動(dòng)”也越發(fā)的頻繁。出現(xiàn)了很多新的詞語,在原有的詞匯列表中并不存在。比如:“奧力給”等。

所以我們的詞匯也需要不斷的更新,IK分詞器提供了擴(kuò)展詞匯的功能。

1)打開IK分詞器config目錄:

2)在IKAnalyzer.cfg.xml配置文件內(nèi)容添加:

<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties><comment>IK Analyzer 擴(kuò)展配置</comment><!--用戶可以在這里配置自己的擴(kuò)展字典 *** 添加擴(kuò)展詞典--><entry key="ext_dict">ext.dic</entry> </properties>

3)新建一個(gè) ext.dic,可以參考config目錄下復(fù)制一個(gè)配置文件進(jìn)行修改

奧力給

4)重啟elasticsearch

docker restart es# 查看 日志 docker logs -f elasticsearch

注意當(dāng)前文件的編碼必須是 UTF-8 格式,嚴(yán)禁使用Windows記事本編輯

停用詞詞典

在互聯(lián)網(wǎng)項(xiàng)目中,在網(wǎng)絡(luò)間傳輸?shù)乃俣群芸?#xff0c;所以很多語言是不允許在網(wǎng)絡(luò)上傳遞的,如:關(guān)于宗教、政治等敏感詞語,那么我們?cè)谒阉鲿r(shí)也應(yīng)該忽略當(dāng)前詞匯。

IK分詞器也提供了強(qiáng)大的停用詞功能,讓我們?cè)谒饕龝r(shí)就直接忽略當(dāng)前的停用詞匯表中的內(nèi)容。

1)IKAnalyzer.cfg.xml配置文件內(nèi)容添加:

<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties><comment>IK Analyzer 擴(kuò)展配置</comment><!--用戶可以在這里配置自己的擴(kuò)展字典--><entry key="ext_dict">ext.dic</entry><!--用戶可以在這里配置自己的擴(kuò)展停止詞字典 *** 添加停用詞詞典--><entry key="ext_stopwords">stopword.dic</entry> </properties>

3)在 stopword.dic 添加停用詞

4)重啟elasticsearch

# 重啟服務(wù) docker restart elasticsearch docker restart kibana# 查看 日志 docker logs -f elasticsearch

日志中已經(jīng)成功加載stopword.dic配置文件

注意當(dāng)前文件的編碼必須是 UTF-8 格式,嚴(yán)禁使用Windows記事本編輯

總結(jié)

以上是生活随笔為你收集整理的初识ES-IK分词器的拓展和停用词典的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。