當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

ES 分词

發(fā)布時(shí)間：2023/12/15 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 ES 分词小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

分詞
分詞器
分詞器構(gòu)成
指定分詞器
內(nèi)置分詞器

一分詞

1、Analysis（分詞）和 Analyzer（分詞器）

Analysis：文本分析是把全文本轉(zhuǎn)換一系列單詞(term/token)的過(guò)程，也叫分詞。Analysis是通過(guò)Analyzer來(lái)實(shí)現(xiàn)的。

當(dāng)一個(gè)文檔被索引時(shí)，每個(gè)Field都可能會(huì)創(chuàng)建一個(gè)倒排索引（Mapping可以設(shè)置不索引該Field）。
倒排索引的過(guò)程就是將文檔通過(guò)Analyzer分成一個(gè)一個(gè)的Term,每一個(gè)Term都指向包含這個(gè)Term的文檔集合。
當(dāng)查詢query時(shí)，Elasticsearch會(huì)根據(jù)搜索類型決定是否對(duì)query進(jìn)行analyze，然后和倒排索引中的term進(jìn)行相關(guān)性查詢，匹配相應(yīng)的文檔。

二分詞器

內(nèi)置分詞器

擴(kuò)展分詞器

分詞器查看命令

POST _analyze {"analyzer": "standard","text": "Like X 國(guó)慶放假的" }

運(yùn)行結(jié)果

三分詞器構(gòu)成

Character Filters：字符過(guò)濾器，針對(duì)原始文本進(jìn)行處理，比如去除html標(biāo)簽

Tokenizer：英文分詞可以根據(jù)空格將單詞分開(kāi),中文分詞比較復(fù)雜,可以采用機(jī)器學(xué)習(xí)算法來(lái)分詞。，將原始文本按照一定規(guī)則切分為單詞

Token Filters：針對(duì)Tokenizer處理的單詞進(jìn)行再加工，比如轉(zhuǎn)小寫、刪除或增新等處理。將切分的單詞進(jìn)行加工。大小寫轉(zhuǎn)換（例將“Quick”轉(zhuǎn)為小寫），去掉詞（例如停用詞像“a”、“and”、“the”等等），或者增加詞（例如同義詞像“jump”和“l(fā)eap”）

執(zhí)行順序：

Character Filters--->Tokenizer--->Token Filter

三者個(gè)數(shù)：

analyzer = CharFilters（0個(gè)或多個(gè)） + Tokenizer(恰好一個(gè)) + TokenFilters(0個(gè)或多個(gè))

四指定分詞器

創(chuàng)建索引時(shí)設(shè)置分詞器

PUT new_index {"settings": {"analysis": {"analyzer": {"std_folded": {"type": "custom","tokenizer": "standard","filter": ["lowercase","asciifolding"]}}}},"mappings": {"properties": {"title": {"type": "text","analyzer": "std_folded" #指定分詞器},"content": {"type": "text","analyzer": "whitespace" #指定分詞器}}} }

配置

標(biāo)準(zhǔn)分析器接受下列參數(shù)：

max_token_length ：最大token長(zhǎng)度，默認(rèn)255
stopwords ：預(yù)定義的停止詞列表，如_english_或包含停止詞列表的數(shù)組，默認(rèn)是 none
stopwords_path ：包含停止詞的文件路徑

PUT new_index {"settings": {"analysis": {"analyzer": {"my_english_analyzer": {"type": "standard", #設(shè)置分詞器為standard"max_token_length": 5, #設(shè)置分詞最大為5"stopwords": "_english_" #設(shè)置過(guò)濾詞}}}} }

五內(nèi)置分詞器

分詞器說(shuō)明

Standard Analyzer	默認(rèn)分詞器
Simple Analyzer	簡(jiǎn)單分詞器
Whitespace Analyzer	空格分詞器
Stop Analyzer	刪除停止詞的分詞器 is the
Keyword Analyzer	不分詞
Pattern Analyzer	正則分詞器
Language Analyzers	多語(yǔ)言特定的分析工具
Fingerprint Analyzer	指紋分詞器
Custom analyzers	自定義分詞器

Standard Analyzer

1、描述&特征：
（1）默認(rèn)分詞器，如果未指定，則使用該分詞器。
（2）按詞切分，支持多語(yǔ)言
（3）小寫處理，它刪除大多數(shù)標(biāo)點(diǎn)符號(hào)、小寫術(shù)語(yǔ)，并支持刪除停止詞。
2、組成：
（1）Tokenizer：Standard Tokenizer
（2）Token Filters：Lower Case Token Filter

例：POST _analyze { "analyzer": "standard", "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone." } 上面的句子會(huì)產(chǎn)生下面的條件： [ the, 2, quick, brown, foxes, jumped, over, the, lazy, dog's, bone ]

Simple Analyzer

1、描述&特征：
（1）按照非字母切分，簡(jiǎn)單分詞器在遇到不是字母的字符時(shí)將文本分解為術(shù)語(yǔ)
（2）小寫處理，所有條款都是小寫的。
2、組成：
（1）Tokenizer：Lower Case Tokenizer

例： POST _analyze { "analyzer": "simple", "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone." } 上面的句子會(huì)產(chǎn)生下面的條件： [ the, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone ]

Whitespace Analyzer

1、描述&特征
（1）空白字符作為分隔符，當(dāng)遇到任何空白字符，空白分詞器將文本分成術(shù)語(yǔ)。
2、組成：
（1）Tokenizer：Whitespace Tokenizer

例： POST _analyze { "analyzer": "whitespace", "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone." } 上面的句子會(huì)產(chǎn)生下面的條件： [ The, 2, QUICK, Brown-Foxes, jumped, over, the, lazy, dog's, bone. ]

Stop Analyzer

1、描述&特征：
（1）類似于Simple Analyzer，但相比Simple Analyzer，支持刪除停止字
（2）停用詞指語(yǔ)氣助詞等修飾性詞語(yǔ)，如the, an, 的，這等
2、組成：
（1）Tokenizer：Lower Case Tokenizer
（2）Token Filters：Stop Token Filter

例： POST _analyze { "analyzer": "stop", "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone." } 上面的句子會(huì)產(chǎn)生下面的條件： [ quick, brown, foxes, jumped, over, lazy, dog, s, bone ]

Keyword Analyzer

1、組成&特征：
（1）不分詞，直接將輸入作為一個(gè)單詞輸出，它接受給定的任何文本，并輸出與單個(gè)術(shù)語(yǔ)完全相同的文本。
2、組成：
（1）Tokenizer：Keyword Tokenizer

例： POST _analyze { "analyzer": "keyword", "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone." } 上面的句子會(huì)產(chǎn)生下面的條件： [ The 2 QUICK Brown-Foxes jumped over the lazy dog's bone. ]

Pattern Analyzer

模式分詞器使用正則表達(dá)式將文本拆分為術(shù)語(yǔ)。
（1）通過(guò)正則表達(dá)式自定義分隔符
（2）默認(rèn)是\W+，即非字詞的符號(hào)作為分隔符

Language Analyzers

ElasticSearch提供許多語(yǔ)言特定的分析工具，如英語(yǔ)或法語(yǔ)。

Fingerprint Analyzer

指紋分詞器是一種專業(yè)的指紋分詞器，它可以創(chuàng)建一個(gè)指紋，用于重復(fù)檢測(cè)。

Custom analyzers

如果您找不到適合您需要的分詞器，您可以創(chuàng)建一個(gè)自定義分詞器，它結(jié)合了適當(dāng)?shù)淖址^(guò)濾器、記號(hào)賦予器和記號(hào)過(guò)濾器。

參考

https://www.jianshu.com/p/65bcac286012
https://www.cnblogs.com/qdhxhz/p/11585639.html

總結(jié)

以上是生活随笔為你收集整理的ES 分词的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

分词
es

上一篇：利用VML标记语言画图、动画制作
下一篇：快衰落、慢衰落，平坦衰落、频率选择性衰落