當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

面对百亿数据，HBase为什么查询速度依然非常快？

發(fā)布時(shí)間：2024/3/12 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了面对百亿数据，HBase为什么查询速度依然非常快？小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

面對(duì)百億數(shù)據(jù)，HBase為什么查詢速度依然非常快？

- 查詢過程
- - - - 第1步：
      - 第2步：
      - 第3步：
      - 第4步：
    - 總結(jié)

HBase適合存儲(chǔ)PB級(jí)別的海量數(shù)據(jù)（百億千億量級(jí)條記錄），如果根據(jù)記錄主鍵Rowkey來查詢，能在幾十到百毫秒內(nèi)返回?cái)?shù)據(jù)。
那么HBase是如何做到的呢？
接下來，簡單闡述一下數(shù)據(jù)的查詢思路和過程。

查詢過程

第1步：

項(xiàng)目有100億業(yè)務(wù)數(shù)據(jù)，存儲(chǔ)在一個(gè)HBase集群上（由多個(gè)服務(wù)器數(shù)據(jù)節(jié)點(diǎn)構(gòu)成），每個(gè)數(shù)據(jù)節(jié)點(diǎn)上有若干個(gè)Region（區(qū)域），每個(gè)Region實(shí)際上就是HBase中一批數(shù)據(jù)的集合（一段連續(xù)范圍rowkey的數(shù)據(jù)）。

我們現(xiàn)在開始根據(jù)主鍵RowKey來查詢對(duì)應(yīng)的記錄，通過meta表可以幫我們迅速定位到該記錄所在的數(shù)據(jù)節(jié)點(diǎn)，以及數(shù)據(jù)節(jié)點(diǎn)中的Region，目前我們有100億條記錄，占空間10TB。所有記錄被切分成5000個(gè)Region，那么現(xiàn)在，每個(gè)Region就是2G。

由于記錄在1個(gè)Region中，所以現(xiàn)在我們只要查詢這2G的記錄文件，就能找到對(duì)應(yīng)記錄。

第2步：

由于HBase存儲(chǔ)數(shù)據(jù)是按照列族存儲(chǔ)的。比如一條記錄有400個(gè)字段，前100個(gè)字段是人員信息相關(guān)，這是一個(gè)列簇（列的集合）；中間100個(gè)字段是公司信息相關(guān)，是一個(gè)列簇。另外100個(gè)字段是人員交易信息相關(guān)，也是一個(gè)列簇；最后還有100個(gè)字段是其他信息，也是一個(gè)列簇

這四個(gè)列簇是分開存儲(chǔ)的，這時(shí)，假設(shè)2G的Region文件中，分為4個(gè)列族，那么每個(gè)列族就是500M。

到這里，我們只需要遍歷這500M的列簇就可以找到對(duì)應(yīng)的記錄。

第3步：

如果要查詢的記錄在其中1個(gè)列族上，1個(gè)列族在HDFS中會(huì)包含1個(gè)或者多個(gè)HFile。

如果一個(gè)HFile一般的大小為100M，那么該列族包含5個(gè)HFile在磁盤上或內(nèi)存中。

由于HBase的內(nèi)存進(jìn)而磁盤中的數(shù)據(jù)是排好序的，要查詢的記錄有可能在最前面，也有可能在最后面，按平均來算，我們只需遍歷2.5個(gè)HFile共250M，即可找到對(duì)應(yīng)的記錄。

第4步：

每個(gè)HFile中，是以鍵值對(duì)(key/value)方式存儲(chǔ)，只要遍歷文件中的key位置即可，并判斷符合條件可以了。

一般key是有限的長度，假設(shè)key/value比是1:24，最終只需要10M的數(shù)據(jù)量，就可獲取的對(duì)應(yīng)的記錄。

如果數(shù)據(jù)在機(jī)械磁盤上，按其訪問速度100M/S，只需0.1秒即可查到。

如果是SSD的話，0.01秒即可查到。

當(dāng)然，掃描HFile時(shí)還可以通過布隆過濾器快速定位到對(duì)應(yīng)的HFile，以及HBase是有內(nèi)存緩存機(jī)制的，如果數(shù)據(jù)在內(nèi)存中，效率會(huì)更高。

總結(jié)

正因?yàn)橐陨洗笾碌牟樵兯悸?#xff0c;保證了HBase即使隨著數(shù)據(jù)量的劇增，也不會(huì)導(dǎo)致查詢性能的下降。

同時(shí)，HBase是一個(gè)面向列存儲(chǔ)的數(shù)據(jù)庫（列簇機(jī)制），當(dāng)表字段非常多時(shí)，可以把其中一些字段獨(dú)立出來放在一部分機(jī)器上，而另外一些字段放到另一部分機(jī)器上，分散存儲(chǔ)，分散列查詢。

正由于這樣復(fù)雜的存儲(chǔ)結(jié)構(gòu)和分布式的存儲(chǔ)方式，保證了HBase海量數(shù)據(jù)下的查詢效率。

總結(jié)

以上是生活随笔為你收集整理的面对百亿数据，HBase为什么查询速度依然非常快？的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：这三种屏幕OLED、AMOLED、LCD
下一篇：模糊搜索的实现