當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Kylin、Druid、ClickHouse核心技术对比

發布時間：2024/4/11 编程问答 56 豆豆

生活随笔收集整理的這篇文章主要介紹了 Kylin、Druid、ClickHouse核心技术对比小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

點擊上方“朱小廝的博客”，選擇“設為星標”

后臺回復"書"，獲取個gui

來源：jackywoo.cn

導讀：Kylin、Druid、ClickHouse是目前主流的OLAP引擎，本文嘗試從數據模型和索引結構兩個角度，分析這幾個引擎的核心技術，并做簡單對比。在閱讀本文之前希望能對Kylin、Druid、ClickHouse有所理解。

01 Kylin數據模型

Kylin的數據模型本質上是將二維表（Hive表）轉換為Cube，然后將Cube存儲到HBase表中，也就是兩次轉換。

第一次轉換，其實就是傳統數據庫的Cube化，Cube由CuboId組成，下圖每個節點都被稱為一個CuboId，CuboId表示固定列的數據數據集合，比如“ AB” 兩個維度組成的CuboId的數據集合等價于以下SQL的數據集合：

select A, B, sum(M), sum(N) from table group by A, B

第二次轉換，是將Cube中的數據存儲到HBase中，轉換的時候CuboId和維度信息序列化到rowkey，度量列組成列簇。在轉換的時候數據進行了預聚合。下圖展示了Cube數據在HBase中的存儲方式。

02 Kylin索引結構

因為Kylin將數據存儲到HBase中，所以kylin的數據索引就是HBase的索引。HBase的索引是簡化版本的B+樹，相比于B+樹，HFile沒有對數據文件的更新操作。

HFile的索引是按照rowkey排序的聚簇索引，索引樹一般為二層或者三層，索引節點比MySQL的B+樹大，默認是64KB。數據查找的時候通過樹形結構定位到節點，節點內部數據是按照rowkey有序的，可以通過二分查找快速定位到目標。

Kylin小結：適用于聚合查詢場景；因為數據預聚合，Kylin可以說是最快的查詢引擎（group-by查詢這樣的復雜查詢，可能只需要掃描1條數據）；kylin查詢效率取決于是否命中CuboId，查詢波動較大；HBase索引有點類似MySQL中的聯合索引，維度在rowkey中的排序和查詢維度組合對查詢效率影響巨大；所以Kylin建表需要業務專家參與。

03 Druid數據模型

Druid數據模型比較簡單，它將數據進行預聚合，只不過預聚合的方式與Kylin不同，kylin是Cube化，Druid的預聚合方式是將所有維度進行Group-by，可以參考下圖：

04 Druid索引結構

Druid索引結構使用自定義的數據結構，整體上它是一種列式存儲結構，每個列獨立一個邏輯文件（實際上是一個物理文件，在物理文件內部標記了每個列的start和offset）。對于維度列設計了索引，它的索引以Bitmap為核心。下圖為“city”列的索引結構：

首先將該列所有的唯一值排序，并生成一個字典，然后對于每個唯一值生成一個Bitmap，Bitmap的長度為數據集的總行數，每個bit代表對應的行的數據是否是該值。Bitmap的下標位置和行號是一一對應的，所以可以定位到度量列，Bitmap可以說是反向索引。同時數據結構中保留了字典編碼后的所有列值，其為正向的索引。

那么查詢如何使用索引呢？以以下查詢為例：

select site, sum(pv) from xx where date=2020-01-01 and city='bj' group by site

city列中二分查找dictionary并找到'bj'對應的bitmap

遍歷city列，對于每一個字典值對應的bitmap與'bj'的bitmap做與操作

每個相與后的bitmap即為city='bj'查詢條件下的site的一個group的pv的索引

通過索引在pv列中查找到相應的行，并做agg

后續計算

Druid小結：Druid適用于聚合查詢場景但是不適合有超高基維度的場景；存儲全維度group-by后的數據，相當于只存儲了KYLIN Cube的 Base-CuboID；每個維度都有創建索引，所以每個查詢都很快，并且沒有類似KYLIN的巨大的查詢效率波動。

05 ClickHouse索引結構（只討論MergeTree引擎）

因為Clickhouse數據模型就是普通二維表，這里不做介紹，只討論索引結構。整體上Clickhouse的索引也是列式索引結構，每個列一個文件。Clickhouse索引的大致思路是：首先選取部分列作為索引列，整個數據文件的數據按照索引列有序，這點類似MySQL的聯合索引；其次將排序后的數據每隔8192行選取出一行，記錄其索引值和序號，注意這里的序號不是行號，序號是從零開始并遞增的，Clickhouse中序號被稱作Mark’s number；然后對于每個列（索引列和非索引列），記錄Mark’s number與對應行的數據的offset。

下圖中以一個二維表（date, city, action）為例介紹了整個索引結構，其中（date,city）是索引列。

那么查詢如何使用索引呢？以以下查詢為例：

select count(distinct action) where date=toDate(2020-01-01) and city=’bj’

二分查找primary.idx并找到對應的mark's number集合（即數據block集合）

在上一步驟中的 block中，在date和city列中查找對應的值的行號集合，并做交集，確認行號集合

將行號轉換為mark's number 和 offset in block（注意這里的offset以行為單位而不是byte）

在action列中，根據mark's number和.mark文件確認數據block在bin文件中的offset，然后根據offset in block定位到具體的列值。

后續計算

該實例中包含了對于列的正反兩個方向的查找過程。反向：查找date=toDate(2020-01-01) and city=’bj’數據的行號；正向：根據行號查找action列的值。對于反向查找，只有在查找條件匹配最左前綴的時候，才能剪枝掉大量數據，其它時候并不高效。

Clickhouse小結：MergeTree Family作為主要引擎系列，其中包含適合明細數據的場景和適合聚合數據的場景；Clickhouse的索引有點類似MySQL的聯合索引，當查詢前綴元組能命中的時候效率最高，可是一旦不能命中，幾乎會掃描整個表，效率波動巨大；所以建表需要業務專家，這一點跟kylin類似。

06 小結

Kylin、Druid只適合聚合場景，ClickHouse適合明細和聚合場景
聚合場景，查詢效率排序：Kylin > Druid > ClickHouse
Kylin、ClickHouse建表都需要業務專家參與
Kylin、ClickHouse查詢效率都可能產生巨大差異
ClickHouse在向量化方面做得的最好，Druid少量算子支持向量化、Kylin目前還不支持向量化計算。

想知道更多？掃描下面的二維碼關注我

后臺回復"技術"，加入技術群

當當實付滿200-40優惠碼：NBHH2P

【精彩推薦】

超清晰的DNS入門指南
深入理解Java Stream流水線
如何用ELK搭建TB級的日志系統
深度好文：Linux系統內存知識
日志系統新貴Loki，確實比笨重的ELK輕
日志采集系統都用到哪些技術？
面試官：為什么HashMap的加載因子是0.75？
原創|OpenAPI標準規范
Linux系統內存知識總結
深度好文|奈飛微服務架構解析
耗時3天，上億數據如何做到秒級查詢

點個贊+在看，少個 bug?????

總結

以上是生活随笔為你收集整理的Kylin、Druid、ClickHouse核心技术对比的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Java 8 Lambda 表达式被编译
下一篇：查询速度提升200倍，ClickHous

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

Kylin、Druid、ClickHouse核心技术对比

01

Kylin數據模型

02

Kylin索引結構

03

Druid數據模型

04

Druid索引結構

05

ClickHouse索引結構（只討論MergeTree引擎）

06

小結

超清晰的DNS入門指南

深入理解Java Stream流水線

如何用ELK搭建TB級的日志系統

深度好文：Linux系統內存知識

日志系統新貴Loki，確實比笨重的ELK輕

日志采集系統都用到哪些技術？

面試官：為什么HashMap的加載因子是0.75？

原創|OpenAPI標準規范

Linux系統內存知識總結

深度好文|奈飛微服務架構解析

耗時3天，上億數據如何做到秒級查詢

總結