當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

es查询大文本效率_es之路由：进一步提高Elasticsearch的检索效率（适用大规模数据集）...

發(fā)布時(shí)間：2023/12/10 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了 es查询大文本效率_es之路由：进一步提高Elasticsearch的检索效率（适用大规模数据集）... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1：一條數(shù)據(jù)是如何落地到對應(yīng)的shard上的

當(dāng)索引一個(gè)文檔的時(shí)候，文檔會(huì)被存儲(chǔ)到一個(gè)主分片中。 Elasticsearch 如何知道一個(gè)文檔應(yīng)該存放到哪個(gè)分片中呢？

首先這肯定不會(huì)是隨機(jī)的，否則將來要獲取文檔的時(shí)候我們就不知道從何處尋找了。實(shí)際上，這個(gè)過程是根據(jù)下面這個(gè)算法決定的：

shard = hash(routing) % number_of_primary_shards

routing 是一個(gè)可變值，默認(rèn)是文檔的 _id ，也可以設(shè)置成一個(gè)自定義的值。 routing 通過 hash 函數(shù)生成一個(gè)數(shù)字，然后這個(gè)數(shù)字再除以 number_of_primary_shards (主分片的數(shù)量)后得到余數(shù) 。這個(gè)分布在 0 到 number_of_primary_shards-1 之間的余數(shù)，就是我們所尋求的文檔所在分片的位置。

這就解釋了為什么我們要在創(chuàng)建索引的時(shí)候就確定好主分片的數(shù)量并且永遠(yuǎn)不會(huì)改變這個(gè)數(shù)量：因?yàn)槿绻麛?shù)量變化了，那么所有之前路由的值都會(huì)無效，文檔也再也找不到了

2：路由機(jī)制

現(xiàn)在我們在探討一個(gè)關(guān)于路由的問題：

假設(shè)你有一個(gè)100個(gè)分片的索引。當(dāng)一個(gè)請求在集群上執(zhí)行時(shí)會(huì)發(fā)生什么呢？

1. 這個(gè)搜索的請求會(huì)被發(fā)送到一個(gè)節(jié)點(diǎn)

2. 接收到這個(gè)請求的節(jié)點(diǎn)，將這個(gè)查詢廣播到這個(gè)索引的每個(gè)分片上(可能是主分片，也可能是復(fù)制分片)

3. 每個(gè)分片執(zhí)行這個(gè)搜索查詢并返回結(jié)果

4. 結(jié)果在通道節(jié)點(diǎn)上合并、排序并返回給用戶

因?yàn)槟J(rèn)情況下，Elasticsearch使用文檔的ID(類似于關(guān)系數(shù)據(jù)庫中的自增ID)，如果插入數(shù)據(jù)量比較大，文檔會(huì)平均的分布于所有的分片上，這導(dǎo)致了Elasticsearch不能確定文檔的位置，所以它必須將這個(gè)請求廣播到所有的N個(gè)分片上去執(zhí)行

這種操作會(huì)給集群帶來負(fù)擔(dān)，增大了網(wǎng)絡(luò)的開銷；

路由使用：

PUT my_index/my_type/1?routing=user1&refresh=true

{

"title": "This is a document"

}

GET my_index/my_type/1?routing=user1

上面的代碼中，指定了一個(gè)用戶屬性作為路由進(jìn)行分區(qū)，然后查詢的時(shí)候也必須指定路由。這一點(diǎn)需要注意只要在索引時(shí)候加入路由字段，那么在以后的get，delete，update操作中都必須使用路由字段，否則會(huì)出現(xiàn)問題。

有時(shí)候我們會(huì)把某些具有相似屬性的數(shù)據(jù)放在同一個(gè)路由下，這樣可以提高查詢的效率；比如：我們把不同季度的銷售數(shù)據(jù)存儲(chǔ)在不同的路由下；然后在查詢的時(shí)候，直接根據(jù)路由字段本身進(jìn)行查詢即可，而不需要直接掃描全年的數(shù)據(jù)：

PUT department1/order/1?routing=jidu1

{

"productName" : "phone",

"total_price" : 10000000,

"times" : "2017-01-01"

}

PUT department1/order/2?routing=jidu1

{

"productName" : "huawei",

"total_price" : 10000000,

"times" : "2017-2-01"

}

PUT department1/order/1?routing=jidu2

{

"productName" : "phone",

"total_price" : 10009000,

"times" : "2017-5-01"

}

查詢季度1的所有數(shù)據(jù)

GET department1/_search

{

"query": {

"terms" : {

"_routing" : [ "jidu1" ]

}

查詢季度1和季度2的所有數(shù)據(jù)：

GET department1/_search

{

"query": {

"terms": {

"_routing": [ "jidu1" , "jidu2"]

}

當(dāng)然，有時(shí)候我們需要查詢第一、第二季度的產(chǎn)品中叫做huawei的文檔。那么在查詢中也是可以指定多個(gè)路由的：

GET department1/_search?routing=jidu1,jidu2

{

"query": {

"match": {

"productName": "huawei"

}

注意：

如果加入路由字段之后，其他的操作(indexing,getting,deleting,updating)都必須指定路由字段，為了避免在使用時(shí)忘記添加路由字段，導(dǎo)致同類數(shù)據(jù)會(huì)分布在多個(gè)shard上，這就違反了路由的原則，我們可以在mapping中設(shè)置路由字段是必須字段，否則會(huì)提示錯(cuò)誤：

PUT department1

{

"mappings": {

"order": {

"_routing": {

"required": true

}

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的es查询大文本效率_es之路由：进一步提高Elasticsearch的检索效率（适用大规模数据集）...的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：焊接符号标注图解示例_【干货】焊接图纸符
下一篇： pq控制，vf控制和droop控制仿真模