日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Elasticsearch配置ik中文分词器自定义词库

發布時間:2024/1/18 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Elasticsearch配置ik中文分词器自定义词库 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.IK配置文件
在config目錄下:

IKAnalyzer.cfg.xml:配置自定義詞庫
main.dic:分詞器自帶的詞庫,索引會按照里面的詞創建
quantifier.dic:存放計量單位詞
suffix.dic:存放一些常用后綴
surname.dic:存放中文姓氏
stopword.dic:停用詞詞庫,分詞時直接忽略不創建索引

2.自定義詞庫
說說為什么要配置自定義詞庫吧,現在網上出現的新詞,如網紅,老鐵,點點關注。如果用戶用的新詞去做搜索條件,而ik自帶的詞庫里沒有,那么很可能搜索出來的結果不是自己想要的,或者根本就沒有數據,所以我們在做ES中文分詞器時,很有必要定義自己的一套詞庫,根據業務需求到ik的詞庫里面去創建自定義詞庫。
IKAnalyzer.cfg.xml配置內容如下:

<properties><comment>IK Analyzer 擴展配置</comment><!--用戶可以在這里配置自己的擴展字典 --><entry key="ext_dict">custom/mydict.dic</entry><!--用戶可以在這里配置自己的擴展停止詞字典--><entry key="ext_stopwords">custom/ext_stopword.dic</entry><!--用戶可以在這里配置遠程擴展字典 --><!-- <entry key="remote_ext_dict">words_location</entry> --><!--用戶可以在這里配置遠程擴展停止詞字典--><!-- <entry key="remote_ext_stopwords">words_location</entry> --> </properties>

我們只需要補充我們的新詞語到custom/mydict.dic如果需要配置多個自定義詞庫可以用分號;分割。

3.停用詞詞庫
如需添加停用詞(如:1-9,一到九,之間,中間等)添加到custom/ext_stopword.dic里
添加后保存退出,重啟ES服務,然后進行測試

注:如docker容器下操作
1.查看所有容器:
docker ps -a
2.進入es容器:
docker exec -it 9f56538b1ec1 /bin/bash
3.切換至root用戶:
su root
passwd:root
4.進入es配置:
cd elasticsearch-6.7.0/plugins/analysis-ik/config
5.配置自定義詞庫
vi mydict.dic
6.重啟容器,測試

總結

以上是生活随笔為你收集整理的Elasticsearch配置ik中文分词器自定义词库的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。