日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Elasticsearch 7.7.0 高阶篇-聚合技术

發布時間:2023/12/20 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Elasticsearch 7.7.0 高阶篇-聚合技术 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

本篇內容是es的最后一篇,主要講解聚合技術,以及與其相關的算法和原理,最后結合實際應用,簡單說明了一些常用的數據建模。

一 聚合分析之 bucket(分組)&meteric(統計)

這一節內容主要是介紹下 bucket(分組)的概念 以及 meteric(聚合統計)概念,其實我們做過開發寫過sql的就很容易理解了。然后我們結合案例進行練習和體會不同的bucket,以及不同的meteric,強化我們對分組和聚合統計的理解和記憶。

1.1 原理 bucket(分組)與metric(聚合統計)概念理解

bucket 它是指對一組數據進行分組

假設一組數據為:

city name

北京 小李

北京 小王

上海 小張

上海 小麗

上海 小陳

那么基于city劃分buckets,劃分出來兩個bucket,一個是北京bucket,一個是上海bucket

則:

北京bucket:包含了2個人,小李,小王

上海bucket:包含了3個人,小張,小麗,小陳

其實 sql中的分組,就是我們這里的bucket。

?

metric:對一個數據分組執行的統計

當我們有了一堆bucket之后,就可以對每個bucket中的數據進行聚合分詞了,比如說計算一個bucket內所有數據的數量,或者計算一個bucket內所有數據的平均值,最大值,最小值

metric,就是對一個bucket執行的某種聚合分析的操作,比如說求平均值,求最大值,求最小值

1.2 實戰 各種bucket(分組)與各種metric(聚合統計)

以一個家電賣場中的電視銷售數據為背景,來對各種品牌,各種顏色的電視的銷量和銷售額,進行各種各樣角度的分析

1.2.1 準備初始化數據

PUT /tvs {"mappings": {"properties": {"price": {"type": "long"},"color": {"type": "keyword"},"brand": {"type": "keyword"},"sold_date": {"type": "date"}}} } POST /tvs/_bulk {"index":{}} {"price":1000,"color":"紅色","brand":"長虹","sold_date":"2016-10-28"} {"index":{}} {"price":2000,"color":"紅色","brand":"長虹","sold_date":"2016-11-05"} {"index":{}} {"price":3000,"color":"綠色","brand":"小米","sold_date":"2016-05-18"} {"index":{}} {"price":1500,"color":"藍色","brand":"TCL","sold_date":"2016-07-02"} {"index":{}} {"price":1200,"color":"綠色","brand":"TCL","sold_date":"2016-08-19"} {"index":{}} {"price":2000,"color":"紅色","brand":"長虹","sold_date":"2016-11-05"} {"index":{}} {"price":8000,"color":"紅色","brand":"三星","sold_date":"2017-01-01"} {"index":{}} {"price":2500,"color":"藍色","brand":"小米","sold_date":"2017-02-12"}

1.2.2 按顏色分組統計電視銷量

size:=0只獲取聚合結果,而不要執行聚合的原始數據

aggs:固定語法,要對一份數據執行分組聚合操作

popular_colors:就是對每個aggs,都要起一個名字,這個名字是隨機的,你隨便取什么都ok

terms:根據字段的值進行分組

field:根據指定的字段的值進行分組

GET /tvs/_search {"size": 0,"aggs": {"popular_colors": {"terms": {"field": "color"}}} }

獲取結果

{"took" : 142,"timed_out" : false,"_shards" : {"total" : 1,"successful" : 1,"skipped" : 0,"failed" : 0},"hits" : {"total" : {"value" : 8,"relation" : "eq"},"max_score" : null,"hits" : [ ]},"aggregations" : {"popular_colors" : {"doc_count_error_upper_bound" : 0,"sum_other_doc_count" : 0,"buckets" : [{"key" : "紅色","doc_count" : 4},{"key" : "綠色","doc_count" : 2},{"key" : "藍色","doc_count" : 2}]}} }
  • hits.hits:指定size=0,所以hits.hits就是空的,否則會把執行聚合的那些原始數據返回回來
  • aggregations:聚合結果
  • popular_color:指定的某個聚合的名稱
  • buckets:指定的field劃分出的buckets
  • key:每個bucket對應的那個值
  • doc_count:每個bucket分組內,有多少個數據 ,每種顏色對應的bucket中的數據的
  • 默認的排序規則:按照doc_count降序排序
  • 1.2.3 按顏色分組metric(統計)平均(avg)價格

    除了bucket操作,分組,還要對每個bucket執行一個metric聚合統計操作

    在一個aggs執行的bucket操作(terms),平級的json結構下,再加一個aggs,這個第二個aggs內部,同樣取個名字,執行一個metric操作,avg,對之前的每個bucket中的數據的指定的field,price field,求一個平均值

    GET /tvs/_search {"size": 0,"aggs": {"colors": {"terms": {"field": "color"},"aggs": {"avg_price": {"avg": {"field": "price"}}}}} }

    buckets,除了key和doc_count

    avg_price:我們自己取的metric aggs的名字

    value:我們的metric計算的結果,每個bucket中的數據的price字段求平均值后的結果

    1.2.4 按顏色分組metric(統計)最大(max) 最小(min)價格

    max:求一個bucket內,指定field值最大的那個數據

    min:求一個bucket內,指定field值最小的那個數據

    sum:求一個bucket內,指定field值的總和

    一般來說,90%的常見的數據分析的操作,metric,無非就是count,avg,max,min,sum

    求總和,就可以拿到一個顏色下的所有電視的銷售總額

    GET /tvs/_search {"size": 0,"aggs": {"colors": {"terms": {"field": "color"},"aggs": {"avg_price": {"avg": {"field": "price"}},"min_price": {"min": {"field": "price"}},"max_price": {"max": {"field": "price"}},"sum_price": {"sum": {"field": "price"}}}}} }

    1.2.5 按價格區間(histogram&interval) 統計銷售量和銷售額

    histogram 也是bucket ,他按照某個值指定的interval(步長),劃分一個一個的bucket

    interval:2000,劃分范圍,0~2000,2000~4000,4000~6000,6000~8000,8000~10000,buckets

    去根據price的值,比如2500,看落在哪個區間內,比如2000~4000,此時就會將這條數據放入2000~4000對應的那個bucket中。

    GET /tvs/_search {"size": 0,"aggs": {"price": {"histogram": {"field": "price","interval": 2000},"aggs": {"revenue": {"sum": {"field": "price"}}}}} }

    1.2.6 按日期區間(histogram&calendar_interval) 統計電視銷量

    date histogram,按照我們指定的某個date類型的日期field,以及日期calendar_interval,按照一定的日期間隔,去劃分bucket。

    假設:

    calendar_interval = 1m,

    則:

    2017-01-01~2017-01-31,就是一個bucket

    2017-02-01~2017-02-28,就是一個bucket

    然后會去掃描每個數據的date field,判斷date落在哪個bucket中,就將其放入那個bucket,2017-01-05,就將其放入2017-01-01~2017-01-31,就是一個bucket。

    min_doc_count:即使某個日期interval,2017-01-01~2017-01-31中,一條數據都沒有,那么這個區間也是要返回的,不然默認是會過濾掉這個區間的

    extended_bounds,min,max:劃分bucket的時候,會限定在這個起始日期,和截止日期內

    GET /tvs/_search {"size": 0,"aggs": {"price": {"histogram": {"field": "price","interval": 2000},"aggs": {"revenue": {"sum": {"field": "price"}}}}} }

    1.2.7 按顏色+生產商多層分組(bucket)嵌套下鉆分析

    下鉆分析,就要對bucket進行多層嵌套,多次分組。

    舉例理解:

    比如說,現在紅色的電視有4臺,同時這4臺電視中,有3臺是屬于長虹的,1臺是屬于小米的

    紅色電視中的3臺長虹的平均價格是多少?

    紅色電視中的1臺小米的平均價格是多少?

    下鉆的意思是,已經分了一個組,比如說顏色的分組,然后還要繼續對這個分組內的數據,再分組,比如一 ? ? ? ? ?個顏色內,還可以分成多個不同的品牌的組,最后對每個最小粒度的分組執行聚合分析操作,這就叫做下鉆 ? ? ? ? ? ?分析

    按照多個維度(顏色+品牌)多層下鉆分析,都可以對每個維度分別執行一次metric聚合操作

    GET /tvs/_search {"size": 0,"aggs": {"group_by_color": {"terms": {"field": "color"},"aggs": {"color_avg_price": {"avg": {"field": "price"}},"group_by_brand": {"terms": {"field": "brand"},"aggs": {"brand_avg_price": {"avg": {"field": "price"}}}}}}} }

    1.2.8 按季度+品牌多層分組下鉆分析售額

    GET /tvs/_search {"size": 0,"aggs": {"group_by_sold_date": {"date_histogram": {"field": "sold_date","calendar_interval": "quarter","format": "yyyy-MM-dd","min_doc_count": 0,"extended_bounds": {"min": "2016-01-01","max": "2017-12-31"}},"aggs": {"group_by_brand": {"terms": {"field": "brand"},"aggs": {"sum_price": {"sum": {"field": "price"}}}},"total_sum_price": {"sum": {"field": "price"}}}}} }

    二 聚合分析之縮小數據范圍&數據排序

    2.1 先縮小數據范圍再聚合分析

    2.1.1 按小米品牌搜索 統計銷售額

    先查詢 品牌為小米的數據 后聚合

    GET /tvs/_search {"size": 0,"query": {"term": {"brand": {"value": "小米"}}},"aggs": {"group_by_color": {"terms": {"field": "color"}}} }

    2.1.2 單品牌長虹與所有品牌(global bucket)銷量對比

    global就是global bucket,就是將所有數據納入聚合的scope,他不關心過濾的范圍,他是統計所有的數據

    GET /tvs/_search {"size": 0,"query": {"term": {"brand": {"value": "長虹"}}},"aggs": {"single_brand_avg_price": {"avg": {"field": "price"}},"all": {"global": {},"aggs": {"all_brand_avg_price": {"avg": {"field": "price"}}}}} }

    single_brand_avg_price:就是針對query搜索結果,執行的,拿到的,就是長虹品牌的平均價格

    all.all_brand_avg_price:拿到所有品牌的平均價格

    2.1.3 按價格大于1200過濾(filter) 計算平均價格

    先搜索過濾出價格大于1200 的數據,然后再計算avg價格

    GET /tvs/_search {"size": 0,"query": {"constant_score": {"filter": {"range": {"price": {"gte": 1200}}}}},"aggs": {"avg_price": {"avg": {"field": "price"}}} }

    2.1.4 按時間段+品牌過濾統計銷售額

    GET /tvs/_search {"size": 0,"query": {"term": {"brand": {"value": "長虹"}}},"aggs": {"recent_150d": {"filter": {"range": {"sold_date": {"gte": "now-150d"}}},"aggs": {"recent_150d_avg_price": {"avg": {"field": "price"}}}},"recent_140d": {"filter": {"range": {"sold_date": {"gte": "now-140d"}}},"aggs": {"recent_140d_avg_price": {"avg": {"field": "price"}}}},"recent_130d": {"filter": {"range": {"sold_date": {"gte": "now-130d"}}},"aggs": {"recent_130d_avg_price": {"avg": {"field": "price"}}}}} }

    bucket filter:對不同的bucket下的aggs,進行filter

    2.2 對分組數據進行排序

    2.2.1 按顏色分組對銷售額排序

    每個顏色的電視的銷售額,需要按照銷售額降序排序

    GET /tvs/_search {"size": 0,"aggs": {"group_by_color": {"terms": {"field": "color","order": {"avg_price": "asc"}},"aggs": {"avg_price": {"avg": {"field": "price"}}}}} }

    2.2.2 按顏色+品牌多層分組下鉆排序

    就是先顏色分組 ?然后品牌里分組且排序(平均價格降序)

    GET /tvs/_search {"size": 0,"aggs": {"group_by_color": {"terms": {"field": "color"},"aggs": {"group_by_brand": {"terms": {"field": "brand","order": {"avg_price": "desc"}},"aggs": {"avg_price": {"avg": {"field": "price"}}}}}}} }

    三 聚合分析之百分比統計

    3.1 percentiles百分比統計

    需求:比如有一個網站,記錄下了每次請求的訪問的耗時,需要統計tp50,tp90,tp99

    tp50:50%的請求的耗時最長在多長時間

    tp90:90%的請求的耗時最長在多長時間

    tp99:99%的請求的耗時最長在多長時間

    3.1.1 初始化數據

    DELETE website PUT /website {"mappings": {"properties": {"latency": {"type": "long"},"province": {"type": "keyword"},"timestamp": {"type": "date"}}} }POST /website/_bulk {"index":{}} {"latency":105,"province":"江蘇","timestamp":"2016-10-28"} {"index":{}} {"latency":83,"province":"江蘇","timestamp":"2016-10-29"} {"index":{}} {"latency":92,"province":"江蘇","timestamp":"2016-10-29"} {"index":{}} {"latency":112,"province":"江蘇","timestamp":"2016-10-28"} {"index":{}} {"latency":68,"province":"江蘇","timestamp":"2016-10-28"} {"index":{}} {"latency":76,"province":"江蘇","timestamp":"2016-10-29"} {"index":{}} {"latency":101,"province":"新疆","timestamp":"2016-10-28"} {"index":{}} {"latency":275,"province":"新疆","timestamp":"2016-10-29"} {"index":{}} {"latency":166,"province":"新疆","timestamp":"2016-10-29"} {"index":{}} {"latency":654,"province":"新疆","timestamp":"2016-10-28"} {"index":{}} {"latency":389,"province":"新疆","timestamp":"2016-10-28"} {"index":{}} {"latency":302,"province":"新疆","timestamp":"2016-10-29"}

    3.1.2 百分比統計

    GET /website/_search {"size": 0,"aggs": {"latency_percentiles": {"percentiles": {"field": "latency","percents": [50,95,99]}},"latency_avg": {"avg": {"field": "latency"}}} }

    50%的請求,數值的最大的值是多少,不是完全準確的

    3.1.3 按照省份分組 算百分比

    GET /website/_search {"size": 0,"aggs": {"group_by_province": {"terms": {"field": "province"},"aggs": {"latency_percentiles": {"percentiles": {"field": "latency","percents": [50,95,99]}},"latency_avg": {"avg": {"field": "latency"}}}}} }

    3.2 ?percentile rank&SLA統計

    SLA:就是你提供的服務的標準

    我們的網站的提供的訪問延時的SLA,確保所有的請求100%,都必須在200ms以內,大公司內,一般都是要求100%在200ms以內,如果超過1s,則需要升級到A級故障,代表網站的訪問性能和用戶體驗急劇下降。

    需求:在200ms以內的,有百分之多少,在1000毫秒以內的有百分之多少,percentile ranks metric

    GET /website/_search {"size": 0,"aggs": {"group_by_province": {"terms": {"field": "province"},"aggs": {"latency_percentile_ranks": {"percentile_ranks": {"field": "latency","values": [200,1000]}}}}} }

    percentile的優化

    如果你想要percentile算法越精準,compression可以設置的越大

    四 聚合分析相關算法原理及優化

    4.1 易并行&不易并行算法

    易并行:max

    不易并行:count(distinct),并不是說,在每個node上,直接就出一些count(distinct) value,就可以的,因為數據可能會很多。

    es會采取近似聚合算法,就是采用在每個node上進行近估計的方式,得到最終的結論。

    ?

    如果采取近似估計的算法:延時在100ms左右(一般會達到完全精準的算法的性能的數十倍),0.5%錯誤

    如果采取100%精準的算法:延時一般在5s~幾十s,甚至幾十分鐘,幾小時, 0%錯誤

    4.2 精準+實時+大數據三角選擇原則

  • 精準+實時: 沒有大數據,數據量很小,那么一般就是單機跑,隨便你則么玩兒就可以
  • 精準+大數據:hadoop,批處理,非實時,可以處理海量數據,保證精準,可能會跑幾個小時
  • 大數據+實時:es,不精準,近似估計,可能會有百分之幾的錯誤率
  • 4.3 cartinality(去重)算法

    cartinality metric,對每個bucket中的指定的field進行去重,取去重后的count,類似于count(distcint)

    GET /tvs/_search {"size": 0,"aggs": {"months": {"date_histogram": {"field": "sold_date","calendar_interval": "month"},"aggs": {"distinct_colors": {"cardinality": {"field": "brand"}}}}} }

    4.4 cardinality&precision_threshold優化準確率和內存開銷

    GET /tvs/_search {"size": 0,"aggs": {"distinct_brand": {"cardinality": {"field": "brand","precision_threshold": 100}}} }

    brand去重,如果brand的unique value,precision_threshold=100 ,即 在100個以內,小米,長虹,三星,TCL,HTL......則cardinality,幾乎保證100%準確。

    precision_threshold:

    • 會占用precision_threshold * 8 byte 內存消耗,100 * 8 = 800個字節(占用內存很小)
    • 而且unique value如果的確在值以內,那么可以確保100%準確

    precision_threshold,值設置的越大,占用內存越大,1000 * 8 = 8000 / 1000 = 8KB,可以確保更多unique value的場景下,100%的準確。

    4.5 HyperLogLog++ (HLL)算法index-time性能優化

    cardinality底層算法:HLL算法會對所有的uqniue value取hash值,通過hash值近似去求distcint count。

    默認情況下,發送一個cardinality請求的時候,會動態地對所有的field value 取hash值;

    優化方法:將取hash值的操作,前移到建立索引的時候,即我們灌入數據的時候建好hash值,但是提升性能不大,了解即可

    PUT /tvs {"mappings": {"properties": {"brand": {"type": "text","fields": {"hash": {"type": "murmur3"}}}}} }GET /tvs/_search {"size": 0,"aggs": {"distinct_brand": {"cardinality": {"field": "brand.hash","precision_threshold": 100}}} }

    五 聚合分析的內部原理

    5.1 doc value 正排原理

    聚合分析的內部原理是什么?aggs,term,metric avg max,執行一個聚合操作的時候,內部原理是怎樣的呢?用了什么樣的數據結構去執行聚合?是不是用的倒排索引?

    GET /test_index/_search {"query": {"match": {"search_field": "test"}},"aggs": {"group_by_agg_field": {"terms": {"field": "agg_field"}}} }

    模擬解釋

    查詢操作

    doc1: hello world test1, test2 、doc2: hello test、doc3: world test

    創建倒排索引

    word?

    doc1

    doc2

    doc3

    hello

    *

    *

    ?

    world

    *

    ?

    *

    test1

    *

    ?

    ?

    test2

    *

    ?

    ?

    test

    ?

    *

    *

    執行全文檢索

    "query": {"match": {"search_field": "test"} }

    結果為 doc2,doc3

    聚合操作

    doc2: agg1 hello world

    doc3: agg2 test hello

    正排索引

    5.2 doc value 核心原理

    正排索引,也會寫入磁盤文件中,然后os cache先進行緩存,以提升訪問doc value正排索引的性能

    如果os cache內存大小不足夠放得下整個正排索引,doc value,就會將doc value的數據寫入磁盤文件中。

    es官方是建議,es大量是基于os cache來進行緩存和提升性能的,不建議用jvm內存來進行緩存,那樣會導致一定的gc開銷和oom問題。即給jvm更少的內存,給os cache更大的內存。

    64g服務器,給jvm最多16g,幾十個g的內存給os cache,os cache可以提升doc value和倒排索引的緩存和查詢效率。

    ?

    提升 doc value 性能之 column壓縮 合并相同值

    doc1: 550

    doc2: 550

    doc3: 500

    doc1和doc2都保留一個550的標識即可

  • 所有值相同,直接保留單值
  • 少于256個值,使用table encoding模式:一種壓縮方式
  • 大于256個值,看有沒有最大公約數,有就除以最大公約數,然后保留這個最大公約數
  • 如果沒有最大公約數,采取offset結合壓縮的方式:
  • disable doc value

    如果的確不需要doc value,比如聚合等操作,那么可以禁用,減少磁盤空間占用

    PUT my_index12 {"mappings": {"properties": {"my_field": {"type": "keyword","doc_values": false}}} }

    5.3 ?fielddata 原理

    5.3.1 對分詞的field 如何聚合操作

    對于分詞的field執行aggregation(聚合操作),發現報錯。。。

    GET /test_index/_search {"aggs": {"group_by_test_field": {"terms": {"field": "test_field"}}} }

    對分詞的field,直接執行聚合操作會報錯,提示說必須要打開fielddata,然后將正排索引數據加載到內存中,才可以對分詞的field執行聚合操作,而且會消耗很大的內存。

    給分詞的field,設置fielddata=true

    POST /test_index/_mapping {"properties": {"test_field": {"type": "text","fielddata": true}} }

    測試聚合操作

    GET /test_index/_search {"size": 0,"aggs": {"group_by_test_field": {"terms": {"field": "test_field"}}} }

    如果要對分詞的field執行聚合操作,必須將fielddata設置為true

    5.3.2 使用內置field不分詞進行聚合

    GET /test_index/_search {"size": 0,"aggs": {"group_by_test_field": {"terms": {"field": "test_field.keyword"}}} }

    如果對不分詞的field執行聚合操作,直接就可以執行,不需要設置fieldata=true

    5.3.3 分詞field+fielddata的工作原理

    不分詞的field,可以執行聚合操作 , 如果你的某個field不分詞,那么在index-time,就會自動生成doc value ,針對這些不分詞的field執行聚合操作的時候,自動就會用doc value來執行。

    分詞field,是沒有doc value的。在index-time 是不會給它建立doc value正排索引的,因為分詞后,占用的空間過于大,所以默認是不支持分詞field進行聚合的。所以直接對分詞field執行聚合操作,是會報錯的。

    如果一定要對分詞的field執行聚合,那么必須將fielddata=true,然后es就會在執行聚合操作的時候,現場將field對應的數據,建立一份fielddata正排索引,fielddata正排索引的結構跟doc value是類似的,但是只會將fielddata正排索引加載到內存中來,然后基于內存中的fielddata正排索引執行分詞field的聚合操作。

    5.4 fielddata 內存控制 & circuit breajer 斷路器

    fielddata加載到內存的過程是lazy加載的,對一個analzyed field執行聚合時,才會加載,而且是field-level加載的。它不是index-time創建,是query-time創建。

    5.4.1 fielddata內存限制

    在配置文件中配置

    indices.fielddata.cache.size: 20%,超出限制,清除內存已有fielddata數據

    fielddata占用的內存超出了這個比例的限制,那么就清除掉內存中已有的fielddata數據

    默認無限制,限制內存使用,但是會導致頻繁evict和reload,大量IO性能損耗,以及內存碎片和gc

    5.4.2 監控fielddata內存使用

    GET /_stats/fielddata?fields=*

    GET /_nodes/stats/indices/fielddata?fields=*

    GET /_nodes/stats/indices/fielddata?level=indices&fields=*

    5.4.3 circuit breaker

    如果一次query load的feilddata超過總內存,就會oom內存溢出

    circuit breaker會估算query要加載的fielddata大小,如果超出總內存,就短路,query直接失敗

    indices.breaker.fielddata.limit:fielddata的內存限制,默認60%

    indices.breaker.request.limit:執行聚合的內存限制,默認40%

    indices.breaker.total.limit:綜合上面兩個,限制在70%以內

    5.5 原理 fielddata預加載 全局標記

    如果真的要對分詞的field執行聚合,那么每次都在query-time現場生產fielddata并加載到內存中來,速度可能會比較慢,我們是不是可以預先生成加載fielddata到內存中來???

    global ordinal

    PUT my_index/_mapping {"properties": {"tags": {"type": "keyword","eager_global_ordinals": false}} }

    原理解釋

    假設:

    doc1: status1

    doc2: status2

    doc3: status2

    doc4: status1

    有很多重復值的情況,會進行global ordinal標記

    status1 --> 0

    status2 --> 1

    doc1: 0

    doc2: 1

    doc3: 1

    doc4: 0

    建立的fielddata也會是這個樣子的,這樣的好處就是減少重復字符串的出現的次數,減少內存的消耗

    5.6 原理 bucket 深度優先到廣度優先

    我們的數據:

    根據演員分桶: ? ? ? ? ? ? 每個演員的評論的數量

    根據每個演員電影分桶: 每個演員的每個電影的評論的數量

    評論數量排名前10個的演員,每個演員的電影取到評論數量排名前5的電影

    {"aggs" : {"actors" : {"terms" : {"field" : "actors","size" : 10,},"aggs" : {"costars" : {"terms" : {"field" : "films","size" : 5}}}}} }

    默認是 深度優先的方式去執行聚合操作的。它是把所有人的所有電影都查詢出來數據量很大。因此我們要考慮廣度優先,即我們先過濾出評論前10的演員,然后再去查詢他下面的電影,這樣數據少很多。我們要使用一個參數

    collect_mode=breadth_first

    {"aggs" : {"actors" : {"terms" : {"field" : "actors","size" : 10,"collect_mode" : "breadth_first"},"aggs" : {"costars" : {"terms" : {"field" : "films","size" : 5}}}}} }

    六 數據建模實戰

    6.1 用戶+博客數據建模 應用層join關聯

    我們在構造數據模型的時候,還是將有關聯關系的數據,然后分割為不同的實體,類似于關系型數據庫中的模型。

    6.1.1 用戶+博客建模

    案例背景:博客網站,我們會模擬各種用戶發表各種博客,然后針對用戶和博客之間的關系進行數據建模,同時針對建模好的數據執行各種搜索/聚合的操作

    一個用戶對應多個博客,一對多的關系,做了建模

    POST website_users/_doc/1 {"name": "小魚兒","email": "xiaoyuer@sina.com","birthday": "1980-01-01" } POST website_blogs/_doc/1 {"title": "我的第一篇博客","content": "這是我的第一篇博客,開通啦!!!","userId": 1 }

    6.1.2 搜索小魚兒發表的所有博客

    GET /website_users/_search {"query": {"term": {"name.keyword": {"value": "小魚兒"}}} }

    我們一般在java程序里查詢出 userIds 集合 然后再去查詢blog

    GET /website_blogs/_search {"query": {"constant_score": {"filter": {"terms": {"userId": [1]}}}} }

    上面的操作,就屬于應用層的join,在應用層先查出一份數據,然后再查出一份數據,進行關聯

    優點:數據不冗余,維護方便

    缺點:應用層join,如果關聯數據過多,導致查詢過大,性能很差

    6.2 用戶+博客數據建模 冗余數據

    用冗余數據,采用文檔數據模型,進行數據建模,實現用戶和博客的關聯

    6.2.1 準備數據

    冗余數據,就是說,將可能會進行搜索的條件和要搜索的數據,放在一個doc中

    POST /website_users/_doc/1 {"name": "小魚兒","email": "xiaoyuer@sina.com","birthday": "1980-01-01" } POST /website_blogs/_doc/1 {"title": "小魚兒的第一篇博客","content": "大家好,我是小魚兒。。。","userInfo": {"userId": 1,"username": "小魚兒"} }

    6.2.2 冗余用戶數據搜索博客

    不需要走應用層的join,先搜一個數據,找到id,再去搜另一份數據

    GET /website_blogs/_search {"query": {"term": {"userInfo.username.keyword": {"value": "小魚兒"}}} }

    優點:性能高,不需要執行兩次搜索

    缺點:數據冗余,維護成本高 --> 每次如果你的username變化了,同時要更新user type和blog type

    一般來說,對于es這種NoSQL類型的數據存儲來講,都是冗余模式....

    6.3 nested object 博客+評論嵌套

    冗余數據方式的來建模,其實用的就是object類型,我們這里又要引入一種新的object類型,nested object類型

    博客,評論,做的這種數據模型

    6.3.1 準備數據

    POST website_blogs/_doc/6 {"title": "花無缺發表的一篇帖子","content": "我是花無缺,大家要不要考慮一下投資房產和買股票的事情啊。。。","tags": ["投資","理財"],"comments": [{"name": "小魚兒","comment": "什么股票啊?推薦一下唄","age": 28,"stars": 4,"date": "2016-09-01"},{"name": "黃藥師","comment": "我喜歡投資房產,風,險大收益也大","age": 31,"stars": 5,"date": "2016-10-22"}] }

    年齡是28歲的黃藥師評論過的博客,搜索

    GET website_blogs/_search {"query": {"bool": {"must": [{"match": {"comments.name": "黃藥師"}},{"match": {"comments.age": 28}}]}} }

    結果顯然是不對的,應該不能查詢到數據才對。

    分析 object類型數據結構的底層存儲

    {"title": [ "花無缺", "發表", "一篇", "帖子" ],"content": [ "我", "是", "花無缺", "大家", "要不要", "考慮", "一下", "投資", "房產", "買", "股票", "事情" ],"tags": [ "投資", "理財" ],"comments.name": [ "小魚兒", "黃藥師" ],"comments.comment": [ "什么", "股票", "推薦", "我", "喜歡", "投資", "房產", "風險", "收益", "大" ],"comments.age": [ 28, 31 ],"comments.stars": [ 4, 5 ],"comments.date": [ 2016-09-01, 2016-10-22 ] }

    object類型底層數據結構,會將一個json數組中的數據,進行扁平化

    所以,直接命中了這個document,name=黃藥師,age=28,正好符合

    6.3.2 nested object 按對象拆分扁平化數據

    修改mapping,將comments的類型從object設置為nested

    DELETE website_blogs PUT /website_blogs {"mappings": {"properties": {"comments": {"type": "nested","properties": {"name": {"type": "text"},"comment": {"type": "text"},"age": {"type": "short"},"stars": {"type": "short"},"date": {"type": "date"}}}}} }

    插入數據

    POST website_blogs/_doc/6 {"title": "花無缺發表的一篇帖子","content": "我是花無缺,大家要不要考慮一下投資房產和買股票的事情啊。。。","tags": ["投資","理財"],"comments": [{"name": "小魚兒","comment": "什么股票啊?推薦一下唄","age": 28,"stars": 4,"date": "2016-09-01"},{"name": "黃藥師","comment": "我喜歡投資房產,風,險大收益也大","age": 31,"stars": 5,"date": "2016-10-22"}] }

    他的數據結構,就不是那么扁平化了

    {"comments.name": [ "小魚兒" ],"comments.comment": [ "什么", "股票", "推薦" ],"comments.age": [ 28 ],"comments.stars": [ 4 ],"comments.date": [ 2014-09-01 ] } {"comments.name": [ "黃藥師" ],"comments.comment": [ "我", "喜歡", "投資", "房產", "風險", "收益", "大" ],"comments.age": [ 31 ],"comments.stars": [ 5 ],"comments.date": [ 2014-10-22 ] } {"title": [ "花無缺", "發表", "一篇", "帖子" ],"body": [ "我", "是", "花無缺", "大家", "要不要", "考慮", "一下", "投資", "房產", "買", "股票", "事情" ],"tags": [ "投資", "理財" ] }

    再次搜索,成功了

    GET website_blogs/_search {"query": {"bool": {"must": [{"match": {"title": "花無缺"}},{"nested": {"path": "comments","query": {"bool": {"must": [{"match": {"comments.name": "黃藥師"}},{"match": {"comments.age": 31}}]}}}}]}} }

    6.3.3 nested object的聚合分析

    聚合數據分析的需求1:按照評論日期進行bucket劃分,然后拿到每個月的評論的評分的平均值

    GET website_blogs/_search {"size": 0,"aggs": {"comments_path": {"nested": {"path": "comments"},"aggs": {"group_by_comments_date": {"date_histogram": {"field": "comments.date","calendar_interval": "month","format": "yyyy-MM"},"aggs": {"avg_stars": {"avg": {"field": "comments.stars"}}}}}}} }

    根據年齡和tag 劃分

    GET website_blogs/_search {"size": 0,"aggs": {"comments_path": {"nested": {"path": "comments"},"aggs": {"group_by_comments_age": {"histogram": {"field": "comments.age","interval": 10},"aggs": {"reverse_path": {"reverse_nested": {},"aggs": {"group_by_tags": {"terms": {"field": "tags.keyword"}}}}}}}}} }

    6.4 ?parent child join

    nested object的建模,有個不好的地方,就是采取的是類似冗余數據的方式,將多個數據都放在一起了,維護成本就比較高

    parent child建模方式,采取的是類似于關系型數據庫的三范式類的建模,多個實體都分割開來,每個實體之間都通過一些關聯方式,進行了父子關系的關聯,各種數據不需要都放在一起,父doc和子doc分別在進行更新的時候,都不會影響對方。

    一對多關系的建模,維護起來比較方便,而且我們之前說過,類似關系型數據庫的建模方式,應用層join的方式,會導致性能比較差,因為做多次搜索。父子關系的數據模型,不會,性能很好。因為雖然數據實體之間分割開來,但是我們在搜索的時候,由es自動為我們處理底層的關聯關系,并且通過一些手段保證搜索性能。

    父子關系數據模型,相對于nested數據模型來說,優點是父doc和子doc互相之間不會影響

    要點:父子關系元數據映射,用于確保查詢時候的高性能,但是有一個限制,就是父子數據必須存在于一個shard中

    父子關系數據存在一個shard中,而且還有映射其關聯關系的元數據,那么搜索父子關系數據的時候,不用跨分片,一個分片本地自己就搞定了,性能當然高咯

    案例背景:研發中心員工管理案例,一個IT公司有多個研發中心,每個研發中心有多個員工

    6.5 ?類似文件系統多層級關系數據建模

    path_hierarchy tokenizer 也就是:/a/b/c/d --> path_hierarchy -> /a/b/c/d, /a/b/c, /a/b, /a

    6.5.1 準備數據

    創建分詞器

    PUT /fs {"settings": {"analysis": {"analyzer": {"paths": {"tokenizer": "path_hierarchy"}}}} }

    設置mapping

    PUT /fs/_mapping {"properties": {"name": {"type": "keyword"},"path": {"type": "keyword","fields": {"tree": {"type": "text","analyzer": "paths"}}}} }

    插入數據

    POST /fs/_doc/1 {"name": "README.txt","path": "/workspace/projects/helloworld","contents": "這是我的第一個elasticsearch程序" }

    6.5.2 對文件系統執行搜索

    文件搜索需求:查找一份,內容包括elasticsearch,在/workspace/projects/hellworld這個目錄下的文件

    GET /fs/_search {"query": {"bool": {"must": [{"match": {"contents": "elasticsearch"}},{"constant_score": {"filter": {"term": {"path": "/workspace/projects/helloworld"}}}}]}} }

    搜索需求2:搜索/workspace目錄下,內容包含elasticsearch的所有的文件

    GET /fs/_search {"query": {"bool": {"must": [{"match": {"contents": "elasticsearch"}},{"constant_score": {"filter": {"term": {"path.tree": "/workspace"}}}}]}} }

    6.6 全局鎖+悲觀鎖 并發控制

    第一種鎖:全局鎖,直接鎖掉整個fs index,此時就只有你能執行各種各樣的操作了,其他人不能執行操作

    PUT /fs/_doc/global/_create {}

    fs: 你要上鎖的那個index

    lock: 就是你指定的一個對這個index上全局鎖的一個type

    global: 就是你上的全局鎖對應的這個doc的id

    _create:強制必須是創建,如果/fs/lock/global這個doc已經存在,那么創建失敗,報錯

    POST fs/_update/1 {"doc": {"name": "README1.txt"} }

    刪除鎖? ?DELETE /fs/_doc/global

    優點:操作非常簡單,非常容易使用,成本低

    缺點:你直接就把整個index給上鎖了,這個時候對index中所有的doc的操作,都會被block住,導致整個系統的并發能力很低

    6.7 ?document+ 悲觀鎖

    document鎖,顧名思義,每次就鎖你要操作的,你要執行增刪改的那些doc,doc鎖了,其他線程就不能對這些doc執行增刪改操作了,但是你只是鎖了部分doc,其他線程對其他的doc還是可以上鎖和執行增刪改操作的。

    document鎖,是用腳本進行上鎖

    POST _scripts/document-lock {"script": {"lang": "painless","source": "if ( ctx._source.process_id != params.process_id ) { Debug.explain('already locked by other thread'); } ctx.op = 'noop';"} }POST /fs/_update/1 {"upsert": {"process_id": "123"},"script": {"id": "document-lock","params": {"process_id": "123"}} }DELETE /fs/_doc/1PUT /fs/_doc/_bulk { "delete": { "_id": 1}}

    update+upsert操作,如果該記錄沒加鎖(此時document為空),執行upsert操作,設置process_id,如果已加鎖,執行script

    script內的邏輯是:判斷傳入參數與當前doc的process_id,如果不相等,說明有別的線程嘗試對有鎖的doc進行加鎖操作,Debug.explain表示拋出一個異常。

    process_id可以由Java應用系統里生成,如UUID。

    如果兩個process_id相同,說明當前執行的線程與加鎖的線程是同一個,ctx.op = 'noop'表示什么都不做,返回成功的響應,Java客戶端拿到成功響應的報文,就可以繼續下一步的操作,一般這里的下一步就是執行事務方法。

    POST /fs/_update/1 {"doc": {"name": "README1.txt"} }

    6.8 共享鎖&排它鎖 并發控制

    共享鎖:這份數據是共享的,然后多個線程過來,都可以獲取同一個數據的共享鎖,然后對這個數據執行讀操作

    排他鎖:是排他的操作,只能一個線程獲取排他鎖,然后執行增刪改操作

    如果只是要讀取數據的話,那么任意個線程都可以同時進來然后讀取數據,每個線程都可以上一個共享鎖

    但是這個時候,如果有線程要過來修改數據,那么會嘗試加上排他鎖,排他鎖會跟共享鎖互斥,也就是說,如果有人已經上了共享鎖了,那么排他鎖就不能上。即 如果有人在讀數據,就不允許別人來修改數據。反之,也是一樣的。

    6.8.1 共享鎖

    POST _scripts/shared-lock {"script": {"lang": "painless","source": "if (ctx._source.lock_type == 'exclusive') { Debug.explain('already locked'); } ctx._source.lock_count++"} }POST /fs/_update/1 {"upsert": {"lock_type": "shared","lock_count": 1},"script": {"id": "shared-lock"} }GET /fs/_doc/1

    上共享鎖,你還是要上共享鎖,直接上就行了,沒問題,只是lock_count加1。

    6.8.2 排他鎖

    排他鎖用的不是upsert語法,create語法,要求lock必須不能存在,直接自己是第一個上鎖的人,上的是排他鎖

    PUT /fs/_create/1 { "lock_type": "exclusive" }

    如果已經有人上了共享鎖,create語法去上排他鎖,肯定會報錯

    6.9.3 對共享鎖進行解鎖

    POST _scripts/unlock-shared {"script": {"lang": "painless","source": "if (--ctx._source.lock_count == 0) {ctx.op='delete'}" } }POST /fs/_update/1 {"script": {"id": "unlock-shared"} }

    每次解鎖一個共享鎖,就對lock_count先減1,如果減了1之后,是0,那么說明所有的共享鎖都解鎖完了,此時就就將/fs/_doc/1刪除,就徹底解鎖所有的共享鎖

    總結

    以上是生活随笔為你收集整理的Elasticsearch 7.7.0 高阶篇-聚合技术的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。