clickhouse hadoop_大数据分析之解决Hadoop的短板,实时大数据分析引擎ClickHouse解析...
本篇文章探討了大數(shù)據(jù)分析之解決Hadoop的短板,實(shí)時大數(shù)據(jù)分析引擎ClickHouse解析,希望閱讀本篇文章以后大家有所收獲,幫助大家對相關(guān)內(nèi)容的理解更加深入。
一、背景
提到大數(shù)據(jù)不得不提Hadoop,當(dāng)下的Hadoop已不僅僅是當(dāng)初的HDFS?+?MR(MapReduce)這么簡單。基于Hadoop而衍生的Hive、Pig、Spark、Presto、Impala等一系列組件共同構(gòu)成了Hadoop生態(tài)體系。Hadoop生態(tài)為今天的大數(shù)據(jù)領(lǐng)域提供著穩(wěn)定可靠的數(shù)據(jù)服務(wù)。
Hadoop生態(tài)體系解決了大數(shù)據(jù)界的大部分問題,當(dāng)然其也存在缺點(diǎn)。Hadoop體系的最大短板在于數(shù)據(jù)處理時效性。基于Hadoop生態(tài)的數(shù)據(jù)處理場景大部分對時效要求不高,按照傳統(tǒng)的做法一般是?T?+?1?的數(shù)據(jù)時效。即?Trade?+?1,數(shù)據(jù)產(chǎn)出在交易日?+?1?天。
ClickHouse的產(chǎn)生就是為了解決大數(shù)據(jù)量處理的時效性。>>>>二、概述
Clickhouse,專為在線數(shù)據(jù)分析而設(shè)計(jì)。官方提供的文檔表明,ClickHouse?日處理記錄數(shù)“十億級”。
1.特性采用列式存儲
數(shù)據(jù)壓縮
基于磁盤的存儲,大部分列式存儲數(shù)據(jù)庫為了追求速度,會將數(shù)據(jù)直接寫入內(nèi)存,按時內(nèi)存的空間往往很小
CPU利用率高,在計(jì)算時會使用機(jī)器上的所有CPU資源
支持分片,并且同一個計(jì)算任務(wù)會在不同分片上并行執(zhí)行,計(jì)算完成后會將結(jié)果匯總
支持SQL,SQL幾乎成了大數(shù)據(jù)的標(biāo)準(zhǔn)工具,使用門檻較低
支持聯(lián)表查詢
支持實(shí)時更新
自動多副本同步
支持索引
分布式存儲查詢
2.性能
根據(jù)官方提供的數(shù)據(jù),性能表現(xiàn)大致如下:低延遲:對于數(shù)據(jù)量(幾千行,列不是很多)不是很大的短查詢,如果數(shù)據(jù)已經(jīng)被載入緩存,且使用主碼,延遲在50MS左右
并發(fā)量:雖然ClickHouse是一種在線分析型數(shù)據(jù)庫,也可支持一定的并發(fā)。當(dāng)單個查詢比較短時,官方建議100?Queries?/?second
寫入速度:在使用MergeTree引擎的情況下,寫入速度大概是50?-?200M?/?s,如果按照1?K一條記錄來算,大約每秒可寫入50000?~?200000條記錄每秒。如果每條記錄比較小的話寫入速度會更快
3.接口對外提供Http,JDBC兩種接口方式
對內(nèi)各模塊間使用TCP連接通信
4.與Hadoop的區(qū)別Hadoop體系是一種離線系統(tǒng),一般很難支持即席查詢。ClickHouse可以支持即席查詢
Hadoop體系一般不支持實(shí)時更新,都采用批量更新和寫入。ClickHouse支持實(shí)時數(shù)據(jù)更新
Hadoop體系一般采用行記錄存儲,數(shù)據(jù)查詢需要掃描所有列,當(dāng)表很寬時會掃描很多用不到的列。ClickHouse是列式存儲,查詢只需要加載相關(guān)的列。>>>>三、引擎
Clickhouse提供了豐富的存儲引擎,存儲引擎的類型決定了數(shù)據(jù)如何存放、如何做備份、如何被檢索、是否使用索引。不同的存儲引擎在數(shù)據(jù)寫入/檢索方面做平衡,以滿足不同業(yè)務(wù)需求。
本文由職坐標(biāo)整理發(fā)布,學(xué)習(xí)更多的相關(guān)知識,請關(guān)注職坐標(biāo)IT知識庫!
總結(jié)
以上是生活随笔為你收集整理的clickhouse hadoop_大数据分析之解决Hadoop的短板,实时大数据分析引擎ClickHouse解析...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 前端通用下载文件方法(兼容IE)
- 下一篇: 前后端分离session_前后端分离:基