日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

面对百亿数据,HBase为什么查询速度依然非常快?

發(fā)布時(shí)間:2024/3/12 编程问答 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 面对百亿数据,HBase为什么查询速度依然非常快? 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

面對(duì)百億數(shù)據(jù),HBase為什么查詢速度依然非常快?

    • 查詢過程
          • 第1步:
          • 第2步:
          • 第3步:
          • 第4步:
        • 總結(jié)

HBase適合存儲(chǔ)PB級(jí)別的海量數(shù)據(jù)(百億千億量級(jí)條記錄),如果根據(jù)記錄主鍵Rowkey來查詢,能在幾十到百毫秒內(nèi)返回?cái)?shù)據(jù)。
那么HBase是如何做到的呢?
接下來,簡單闡述一下數(shù)據(jù)的查詢思路和過程。

查詢過程

第1步:

項(xiàng)目有100億業(yè)務(wù)數(shù)據(jù),存儲(chǔ)在一個(gè)HBase集群上(由多個(gè)服務(wù)器數(shù)據(jù)節(jié)點(diǎn)構(gòu)成),每個(gè)數(shù)據(jù)節(jié)點(diǎn)上有若干個(gè)Region(區(qū)域),每個(gè)Region實(shí)際上就是HBase中一批數(shù)據(jù)的集合(一段連續(xù)范圍rowkey的數(shù)據(jù))。

我們現(xiàn)在開始根據(jù)主鍵RowKey來查詢對(duì)應(yīng)的記錄,通過meta表可以幫我們迅速定位到該記錄所在的數(shù)據(jù)節(jié)點(diǎn),以及數(shù)據(jù)節(jié)點(diǎn)中的Region,目前我們有100億條記錄,占空間10TB。所有記錄被切分成5000個(gè)Region,那么現(xiàn)在,每個(gè)Region就是2G。

由于記錄在1個(gè)Region中,所以現(xiàn)在我們只要查詢這2G的記錄文件,就能找到對(duì)應(yīng)記錄。

第2步:

由于HBase存儲(chǔ)數(shù)據(jù)是按照列族存儲(chǔ)的。比如一條記錄有400個(gè)字段,前100個(gè)字段是人員信息相關(guān),這是一個(gè)列簇(列的集合);中間100個(gè)字段是公司信息相關(guān),是一個(gè)列簇。另外100個(gè)字段是人員交易信息相關(guān),也是一個(gè)列簇;最后還有100個(gè)字段是其他信息,也是一個(gè)列簇

這四個(gè)列簇是分開存儲(chǔ)的,這時(shí),假設(shè)2G的Region文件中,分為4個(gè)列族,那么每個(gè)列族就是500M。

到這里,我們只需要遍歷這500M的列簇就可以找到對(duì)應(yīng)的記錄。

第3步:

如果要查詢的記錄在其中1個(gè)列族上,1個(gè)列族在HDFS中會(huì)包含1個(gè)或者多個(gè)HFile。

如果一個(gè)HFile一般的大小為100M,那么該列族包含5個(gè)HFile在磁盤上或內(nèi)存中。

由于HBase的內(nèi)存進(jìn)而磁盤中的數(shù)據(jù)是排好序的,要查詢的記錄有可能在最前面,也有可能在最后面,按平均來算,我們只需遍歷2.5個(gè)HFile共250M,即可找到對(duì)應(yīng)的記錄。

第4步:

每個(gè)HFile中,是以鍵值對(duì)(key/value)方式存儲(chǔ),只要遍歷文件中的key位置即可,并判斷符合條件可以了。

一般key是有限的長度,假設(shè)key/value比是1:24,最終只需要10M的數(shù)據(jù)量,就可獲取的對(duì)應(yīng)的記錄。

如果數(shù)據(jù)在機(jī)械磁盤上,按其訪問速度100M/S,只需0.1秒即可查到。

如果是SSD的話,0.01秒即可查到。

當(dāng)然,掃描HFile時(shí)還可以通過布隆過濾器快速定位到對(duì)應(yīng)的HFile,以及HBase是有內(nèi)存緩存機(jī)制的,如果數(shù)據(jù)在內(nèi)存中,效率會(huì)更高。

總結(jié)

正因?yàn)橐陨洗笾碌牟樵兯悸?#xff0c;保證了HBase即使隨著數(shù)據(jù)量的劇增,也不會(huì)導(dǎo)致查詢性能的下降。

同時(shí),HBase是一個(gè)面向列存儲(chǔ)的數(shù)據(jù)庫(列簇機(jī)制),當(dāng)表字段非常多時(shí),可以把其中一些字段獨(dú)立出來放在一部分機(jī)器上,而另外一些字段放到另一部分機(jī)器上,分散存儲(chǔ),分散列查詢。

正由于這樣復(fù)雜的存儲(chǔ)結(jié)構(gòu)和分布式的存儲(chǔ)方式,保證了HBase海量數(shù)據(jù)下的查詢效率。

總結(jié)

以上是生活随笔為你收集整理的面对百亿数据,HBase为什么查询速度依然非常快?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。