當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

clickhouse hadoop_大数据分析之解决Hadoop的短板，实时大数据分析引擎ClickHouse解析...

發(fā)布時間：2023/12/13 编程问答 71 豆豆

生活随笔收集整理的這篇文章主要介紹了 clickhouse hadoop_大数据分析之解决Hadoop的短板，实时大数据分析引擎ClickHouse解析... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本篇文章探討了大數(shù)據(jù)分析之解決Hadoop的短板，實(shí)時大數(shù)據(jù)分析引擎ClickHouse解析，希望閱讀本篇文章以后大家有所收獲，幫助大家對相關(guān)內(nèi)容的理解更加深入。

一、背景

提到大數(shù)據(jù)不得不提Hadoop，當(dāng)下的Hadoop已不僅僅是當(dāng)初的HDFS?+?MR(MapReduce)這么簡單。基于Hadoop而衍生的Hive、Pig、Spark、Presto、Impala等一系列組件共同構(gòu)成了Hadoop生態(tài)體系。Hadoop生態(tài)為今天的大數(shù)據(jù)領(lǐng)域提供著穩(wěn)定可靠的數(shù)據(jù)服務(wù)。

Hadoop生態(tài)體系解決了大數(shù)據(jù)界的大部分問題，當(dāng)然其也存在缺點(diǎn)。Hadoop體系的最大短板在于數(shù)據(jù)處理時效性。基于Hadoop生態(tài)的數(shù)據(jù)處理場景大部分對時效要求不高，按照傳統(tǒng)的做法一般是?T?+?1?的數(shù)據(jù)時效。即?Trade?+?1，數(shù)據(jù)產(chǎn)出在交易日?+?1?天。

ClickHouse的產(chǎn)生就是為了解決大數(shù)據(jù)量處理的時效性。>>>>二、概述

Clickhouse，專為在線數(shù)據(jù)分析而設(shè)計(jì)。官方提供的文檔表明，ClickHouse?日處理記錄數(shù)“十億級”。

1.特性采用列式存儲

數(shù)據(jù)壓縮

基于磁盤的存儲，大部分列式存儲數(shù)據(jù)庫為了追求速度，會將數(shù)據(jù)直接寫入內(nèi)存，按時內(nèi)存的空間往往很小

CPU利用率高，在計(jì)算時會使用機(jī)器上的所有CPU資源

支持分片，并且同一個計(jì)算任務(wù)會在不同分片上并行執(zhí)行，計(jì)算完成后會將結(jié)果匯總

支持SQL，SQL幾乎成了大數(shù)據(jù)的標(biāo)準(zhǔn)工具，使用門檻較低

支持聯(lián)表查詢

支持實(shí)時更新

自動多副本同步

支持索引

分布式存儲查詢

2.性能

根據(jù)官方提供的數(shù)據(jù)，性能表現(xiàn)大致如下：低延遲：對于數(shù)據(jù)量(幾千行，列不是很多)不是很大的短查詢，如果數(shù)據(jù)已經(jīng)被載入緩存，且使用主碼，延遲在50MS左右

并發(fā)量：雖然ClickHouse是一種在線分析型數(shù)據(jù)庫，也可支持一定的并發(fā)。當(dāng)單個查詢比較短時，官方建議100?Queries?/?second

寫入速度：在使用MergeTree引擎的情況下，寫入速度大概是50?-?200M?/?s，如果按照1?K一條記錄來算，大約每秒可寫入50000?~?200000條記錄每秒。如果每條記錄比較小的話寫入速度會更快

3.接口對外提供Http，JDBC兩種接口方式

對內(nèi)各模塊間使用TCP連接通信

4.與Hadoop的區(qū)別Hadoop體系是一種離線系統(tǒng)，一般很難支持即席查詢。ClickHouse可以支持即席查詢

Hadoop體系一般不支持實(shí)時更新，都采用批量更新和寫入。ClickHouse支持實(shí)時數(shù)據(jù)更新

Hadoop體系一般采用行記錄存儲，數(shù)據(jù)查詢需要掃描所有列，當(dāng)表很寬時會掃描很多用不到的列。ClickHouse是列式存儲，查詢只需要加載相關(guān)的列。>>>>三、引擎

Clickhouse提供了豐富的存儲引擎，存儲引擎的類型決定了數(shù)據(jù)如何存放、如何做備份、如何被檢索、是否使用索引。不同的存儲引擎在數(shù)據(jù)寫入/檢索方面做平衡，以滿足不同業(yè)務(wù)需求。

本文由職坐標(biāo)整理發(fā)布，學(xué)習(xí)更多的相關(guān)知識，請關(guān)注職坐標(biāo)IT知識庫！

總結(jié)

以上是生活随笔為你收集整理的clickhouse hadoop_大数据分析之解决Hadoop的短板，实时大数据分析引擎ClickHouse解析...的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：前端通用下载文件方法（兼容IE）
下一篇：前后端分离session_前后端分离：基

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

clickhouse hadoop_大数据分析之解决Hadoop的短板，实时大数据分析引擎ClickHouse解析...

總結(jié)