日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

es查询大文本效率_es之路由:进一步提高Elasticsearch的检索效率(适用大规模数据集)...

發布時間:2023/12/10 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 es查询大文本效率_es之路由:进一步提高Elasticsearch的检索效率(适用大规模数据集)... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1:一條數據是如何落地到對應的shard上的

當索引一個文檔的時候,文檔會被存儲到一個主分片中。 Elasticsearch 如何知道一個文檔應該存放到哪個分片中呢?

首先這肯定不會是隨機的,否則將來要獲取文檔的時候我們就不知道從何處尋找了。實際上,這個過程是根據下面這個算法決定的:

shard = hash(routing) % number_of_primary_shards

routing 是一個可變值,默認是文檔的 _id ,也可以設置成一個自定義的值。 routing 通過 hash 函數生成一個數字,然后這個數字再除以 number_of_primary_shards (主分片的數量)后得到 余數 。這個分布在 0 到 number_of_primary_shards-1 之間的余數,就是我們所尋求的文檔所在分片的位置。

這就解釋了為什么我們要在創建索引的時候就確定好主分片的數量并且永遠不會改變這個數量:因為如果數量變化了,那么所有之前路由的值都會無效,文檔也再也找不到了

2:路由機制

現在我們在探討一個關于路由的問題:

假設你有一個100個分片的索引。當一個請求在集群上執行時會發生什么呢?

1. 這個搜索的請求會被發送到一個節點

2. 接收到這個請求的節點,將這個查詢廣播到這個索引的每個分片上(可能是主分片,也可能是復制分片)

3. 每個分片執行這個搜索查詢并返回結果

4. 結果在通道節點上合并、排序并返回給用戶

因為默認情況下,Elasticsearch使用文檔的ID(類似于關系數據庫中的自增ID),如果插入數據量比較大,文檔會平均的分布于所有的分片上,這導致了Elasticsearch不能確定文檔的位置,所以它必須將這個請求廣播到所有的N個分片上去執行

這種操作會給集群帶來負擔,增大了網絡的開銷;

路由使用:

PUT my_index/my_type/1?routing=user1&refresh=true

{

"title": "This is a document"

}

?

GET my_index/my_type/1?routing=user1

?

?

上面的代碼中,指定了一個用戶屬性作為路由進行分區,然后查詢的時候也必須指定路由。這一點需要注意 只要在索引時候加入路由字段,那么在以后的get,delete,update操作中都必須使用路由字段,否則會出現問題。

有時候我們會把某些具有相似屬性的數據放在同一個路由下,這樣可以提高查詢的效率;比如:我們把不同季度的銷售數據存儲在不同的路由下;然后在查詢的時候,直接根據路由字段本身進行查詢即可,而不需要直接掃描全年的數據:

PUT department1/order/1?routing=jidu1

{

"productName" : "phone",

"total_price" : 10000000,

"times" : "2017-01-01"

}

?

PUT department1/order/2?routing=jidu1

{

"productName" : "huawei",

"total_price" : 10000000,

"times" : "2017-2-01"

}

PUT department1/order/1?routing=jidu2

{

"productName" : "phone",

"total_price" : 10009000,

"times" : "2017-5-01"

}

?

查詢季度1的所有數據

GET department1/_search

{

"query": {

"terms" : {

"_routing" : [ "jidu1" ]

}

}

}

?

查詢季度1和季度2的所有數據:

GET department1/_search

{

"query": {

"terms": {

"_routing": [ "jidu1" , "jidu2"]

}

}

}

?

當然,有時候我們需要查詢第一、第二季度的產品中叫做huawei的文檔。那么在查詢中也是可以指定多個路由的:

GET department1/_search?routing=jidu1,jidu2

{

"query": {

"match": {

"productName": "huawei"

}

}

}

?

注意:

如果加入路由字段之后,其他的操作(indexing,getting,deleting,updating)都必須指定路由字段,為了避免在使用時忘記添加 路由字段,導致同類數據會分布在多個shard上,這就違反了路由的原則,我們可以在mapping中 設置路由字段是必須字段,否則會提示錯誤:

PUT department1

{

"mappings": {

"order": {

"_routing": {

"required": true

}

}

}

}

?

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的es查询大文本效率_es之路由:进一步提高Elasticsearch的检索效率(适用大规模数据集)...的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。