當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

与自定义词典分词_【201110】ElasticSearch实现中文分词查询

發布時間：2024/4/17 编程问答 61 豆豆

生活随笔收集整理的這篇文章主要介紹了与自定义词典分词_【201110】ElasticSearch实现中文分词查询小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

介紹

今天福哥給大家介紹一下ElasticSearch的分詞查詢的使用技巧，通過分詞查詢可以避免不是很匹配的文檔出現在結果當中。

舉例：如果查詢“北京”一般情況下都是想查詢關于“北京”這個地區的相關信息，但是如果沒有進行分詞之前，“北”和“京”會作為單獨的查詢匹配項和文檔中的字段進行匹配，那查詢出來的結果就可想而知了。

為了解決這個問題，我們可以告訴ES那些詞是一個整體，不要給我們拆開來單獨匹配。

搜索關鍵詞分析

可以通過analyze查看搜索關鍵詞的分析結果

POST?/_analyze{??"text":?"福哥"}

結果是“福”和“哥”是分開的

{??"tokens":?[????{??????"token":?"福",??????"start_offset":?0,??????"end_offset":?1,??????"type":?"",??????"position":?0????},????{??????"token":?"哥",??????"start_offset":?1,??????"end_offset":?2,??????"type":?"",??????"position":?1????}??]}

中文分析器

中文分析器elasticsearch-analysis-ik是一個ES的插件，使用這個插件就可以設置分詞詞條，然后設置ES的索引的分析器為ik_max_word或者ik_smart，就可以實現分詞匹配的效果了。

下載

github官方網址

https://github.com/medcl/elasticsearch-analysis-ik/releases

福哥的ES的版本是6.5.2，所以下載6.5.2版本的插件

分詞插件的版本必須和ElasticSearch的版本一致

wget?https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.5.2/elasticsearch-analysis-ik-6.5.2.zip

安裝

使用安裝ES的插件

/tongfu.net/env/elasticsearch-6.5.2/bin/elasticsearch-plugin?install?file:///packages/elasticsearch-analysis-ik-6.5.2.zip

測試

使用ik_max_word分析器拆分關鍵詞

POST?/_analyze{??"analyzer":?"ik_max_word",??"text":?"北京福哥"}

使用ik_smart分析器拆分關鍵詞

POST?/_analyze{??"analyzer":?"ik_smart",??"text":?"北京福哥"}

配置

創建索引

如果要給現有的索引的字段設置分析器的話，需要重新建立索引的。因為索引字段的映射(mapping)是不能修改的，只能在重建索引的時候一次性的設置好。

使用下面的命令創建索引“tfse”，建立兩個字段的映射，并指定它們的類型和分析器。

注意事項：

根節點是“mappings”不是“mapping”

根節點“mappings”下面的節點要和索引名稱一樣

PUT?/tfse{??"mappings":?{????"tfse":?{??????"properties":?{????????"mTitle":?{??????????"type":?"text",??????????"analyzer":?"ik_smart",??????????"search_analyzer":?"ik_smart"????????},????????"mContent":?{??????????"type":?"text",??????????"analyzer":?"ik_smart",??????????"search_analyzer":?"ik_smart"????????}??????}????}??}}

寫入數據

接下來就可以向索引“tfse”寫入數據了，這里就不再詳述了，大家都會的。

查詢測試

現在我們查詢ES的新索引“tfse”會發現“北京”不會再被當成兩個單獨的詞進行匹配了，這樣查詢出來的結果就會比較準確了。

分詞庫

詞典

分詞庫的詞典文件存放在 /tongfu.net/env/elasticsearch-6.5.2/config/analysis-ik 下面，默認會有一些現成的詞典文件，基本滿足了大部分的搜索分詞需要。

詞典文件以“dic”作為文件擴展名，每一行一個詞條，詞典文件最后面要有一個空行。

默認詞典

這里福哥把默認的詞典給大家介紹一下，不建議刪除哦~~

默認詞典介紹：

main，默認主詞典

preposition，介詞詞典，例如：愛與喜歡之間的“與”

quantifier，單位詞典，例如：一袋米的“袋”

stopword，停止詞典

suffix，后綴詞典，例如：北京市的“市”

surname，姓氏，例如：上官芙蓉的“上官”

刪除默認詞典

有時候我們的搜索環境很專業，不需要默認詞典里面的詞條，有的同學就把默認的“dic”文件全部刪除了，結果發現索引壞了。。。

這里要注意一下：默認詞典文件不能刪除，但可以清空里面的內容。

IKAnalyzer.cfg.xml

在詞典文件存放目錄下面有個 IKAnalyzer.cfg.xml 文件，用來配置更多的詞典文件。

自定義詞典

可以看到在 IKAnalyzer.cfg.xml 文件里面有個ext_dict節點，可以在里面寫上自定義的詞典文件路徑(相對路徑)。

示例：福哥在ext_dict節點里面設置了tfse.dic這個擴展詞典文件，然后在tfse.dic詞典文件里面放上自定義的詞條，重啟ES后自定義的詞典里面設置的詞條就會生效了。

重建索引

如果分詞庫的詞條有變化，直接搜索可能會發現匹配不到的問題，這不是ES的問題。因為分詞的分析工作是在建立文檔索引的時候進行的，所以我們要想根據新的詞條搜索到文檔，就必須重新建立數據索引才行。

詞條有變，索引重建！！！

總結

今天福哥帶著大家學習了ElasticSearch搜索引擎的分析器的使用方法，通過分析器可以讓我們的ES匹配文檔的時候更加符號實際情況，而不會機械的對每個單字進行匹配了。

維護分詞庫是一個需要時間和經驗的工作，需要根據搜索引擎里面索引的內容的領域和文字特征等等因素對我們的分詞庫的詞條進行不斷地調整，我們的搜索引擎才會越來越好用~~

https://m.tongfu.net/home/35/blog/512879.html

總結

以上是生活随笔為你收集整理的与自定义词典分词_【201110】ElasticSearch实现中文分词查询的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：语言代码编程大赛简讯_精品干货：C语言的
下一篇： ue编辑器拖拽上传图片_editor.m

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

与自定义词典 分词_【201110】ElasticSearch实现中文分词查询

介紹

搜索關鍵詞分析

中文分析器

配置

分詞庫

總結

總結

与自定义词典分词_【201110】ElasticSearch实现中文分词查询