日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

一、ElasticSearch分词器概念

發(fā)布時間:2025/3/15 编程问答 16 豆豆
生活随笔 收集整理的這篇文章主要介紹了 一、ElasticSearch分词器概念 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

java學(xué)習(xí)討論群:725562382

1、Analysis 和 Analyzer

Analysis: 文本分析是把全文本轉(zhuǎn)換一系列單詞(term/token)的過程,也叫分詞。Analysis是通過Analyzer來實現(xiàn)的

當(dāng)一個文檔被索引時,每個Field都可能會創(chuàng)建一個倒排索引(Mapping可以設(shè)置不索引該Field)。

倒排索引的過程就是將文檔通過Analyzer分成一個一個的Term,每一個Term都指向包含這個Term的文檔集合。

當(dāng)查詢query時,Elasticsearch會根據(jù)搜索類型決定是否對query進行analyze,然后和倒排索引中的term進行相關(guān)性查詢,匹配相應(yīng)的文檔。

2 、Analyzer組成

分析器(analyzer)都由三種構(gòu)件塊組成的:character filters?,?tokenizers?,?token filters。

1) character filter 字符過濾器

在一段文本進行分詞之前,先進行預(yù)處理,比如說最常見的就是, 過濾html標(biāo)簽(<span>hello<span> --> hello),& --> and(I&you --> I and you)

2) tokenizers 分詞器

英文分詞可以根據(jù)空格將單詞分開,中文分詞比較復(fù)雜,可以采用機器學(xué)習(xí)算法來分詞。

3) Token filters Token過濾器

將切分的單詞進行加工。大小寫轉(zhuǎn)換(例將“Quick”轉(zhuǎn)為小寫),去掉詞(例如停用詞像“a”、“and”、“the”等等),或者增加詞(例如同義詞像“jump”和“l(fā)eap”)。

三者順序:Character Filters--->Tokenizer--->Token Filter

三者個數(shù):analyzer = CharFilters(0個或多個) + Tokenizer(恰好一個) + TokenFilters(0個或多個)

3、Elasticsearch的內(nèi)置分詞器

  • Standard Analyzer - 默認分詞器,按詞切分,小寫處理

  • Simple Analyzer - 按照非字母切分(符號被過濾), 小寫處理

  • Stop Analyzer - 小寫處理,停用詞過濾(the,a,is)

  • Whitespace Analyzer - 按照空格切分,不轉(zhuǎn)小寫

  • Keyword Analyzer - 不分詞,直接將輸入當(dāng)作輸出

  • Patter Analyzer - 正則表達式,默認\W+(非字符分割)

  • Language - 提供了30多種常見語言的分詞器

  • Customer Analyzer 自定義分詞器

4、創(chuàng)建索引時設(shè)置分詞器

PUT new_index {"settings": {"analysis": {"analyzer": {"std_folded": {"type": "custom","tokenizer": "standard","filter": ["lowercase","asciifolding"]}}}},"mappings": {"properties": {"title": {"type": "text","analyzer": "std_folded" #指定分詞器},"content": {"type": "text","analyzer": "whitespace" #指定分詞器}}} }

?

總結(jié)

以上是生活随笔為你收集整理的一、ElasticSearch分词器概念的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。