當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

HBase图文详解

發布時間：2025/4/5 编程问答 19 豆豆

生活随笔收集整理的這篇文章主要介紹了 HBase图文详解小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2019獨角獸企業重金招聘Python工程師標準>>>

hbase 介紹

一、簡介

1. Hbase的由來

hbase是bigtable的開源山寨版本。
是建立的hdfs之上，提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數據庫系統。
它介于nosql和RDBMS之間，僅能通過主鍵(row key)和主鍵的range來檢索數據，僅支持單行事務(可通過hive支持來實現多表join等復雜操作)。主要用來存儲非結構化和半結構化的松散數據。
與hadoop一樣，Hbase目標主要依靠橫向擴展，通過不斷增加廉價的商用服務器，來增加計算和存儲能力。
大：一個表可以有上億行，上百萬列
面向列:面向列(族)的存儲和權限控制，列(族)獨立檢索。
稀疏:對于為空(null)的列，并不占用存儲空間，因此，表可以設計的非常稀疏。

下面一幅圖是Hbase在Hadoop Ecosystem中的位置。

二、邏輯視圖

HBase以表的形式存儲數據。表有行和列組成。列劃分為若干個列族(row family)

1.Hbase的檢索

與nosql數據庫們一樣,row key是用來檢索記錄的主鍵。訪問hbase table中的行，只有三種方式：

1. 通過單個row key訪問

2. 通過row key的range

3. 全表掃描

2. Row key的大小

Row key行鍵 (Row key)可以是任意字符串(最大長度是 64KB，實際應用中長度一般為 10-100bytes)，在hbase內部，row key保存為字節數組。

3. Row key的內部存儲方式

存儲時，數據按照Row key的字典序(byte order)排序存儲。設計key時，要充分利用排序存儲這個特性，將經常一起讀取的行存儲放到一起。(位置相關性)

注意：字典序對int排序的結果是：

1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。

要保持整形的自然序，行鍵必須用0作左填充。

4. 原子性

行的一次讀寫是原子操作 (不論一次讀寫多少列)。這個設計決策能夠使用戶很容易的理解程序在對同一個行進行并發更新操作時的行為。

列族

5. 列蔟

hbase表中的每個列，都歸屬與某個列族。列族是表的schema的一部分(而列不是)，必須在使用表之前定義。列名都以列族作為前綴。例如courses:history，courses:math都屬于courses 這個列族。

訪問控制、磁盤和內存的使用統計都是在列族層面進行的。實際應用中，列族上的控制權限能幫助我們管理不同類型的應用：我們允許一些應用可以添加新的基本數據、一些應用可以讀取基本數據并創建繼承的列族、一些應用則只允許瀏覽數據（甚至可能因為隱私的原因不能瀏覽所有數據）。

6. 時間戳

HBase中通過row和columns確定的為一個存貯單元稱為cell。每個 cell都保存著同一份數據的多個版本。版本通過時間戳來索引。時間戳的類型是 64位整型。時間戳可以由hbase(在數據寫入時自動 )賦值，此時時間戳是精確到毫秒的當前系統時間。時間戳也可以由客戶顯式賦值。如果應用程序要避免數據版本沖突，就必須自己生成具有唯一性的時間戳。每個 cell中，不同版本的數據按照時間倒序排序，即最新的數據排在最前面。

為了避免數據存在過多版本造成的的管理 (包括存貯和索引)負擔，hbase提供了兩種數據版本回收方式。一是保存數據的最后n個版本，二是保存最近一段時間內的版本（比如最近七天）。用戶可以針對每個列族進行設置。

7.Cell

由{row key, column(=<family> + <label>), version} 唯一確定的單元。cell中的數據是沒有類型的，全部是字節碼形式存貯。

三、物理存儲

1．已經提到過，Table中的所有行都按照row key的字典序排列。

2． Table 在行的方向上分割為多個Hregion。

3． region按大小分割的，每個表一開始只有一個region，隨著數據不斷插入表，region不斷增大，當增大到一個閥值的時候，Hregion就會等分會兩個新的Hregion。當table中的行不斷增多，就會有越來越多的Hregion。

4． HRegion是Hbase中分布式存儲和負載均衡的最小單元。最小單元就表示不同的Hregion可以分布在不同的HRegion server上。但一個Hregion是不會拆分到多個server上的。

5． HRegion雖然是分布式存儲的最小單元，但并不是存儲的最小單元。事實上，HRegion由一個或者多個Store組成，每個store保存一個columns family。每個Strore又由一個memStore和0至多個StoreFile組成。如圖：StoreFile以HFile格式保存在HDFS上。

6. HFile

HFile的格式為：

HFile分為六個部分：

- Data Block 段：保存表中的數據，這部分可以被壓縮

- Meta Block 段： (可選的)–保存用戶自定義的kv對，可以被壓縮。

- File Info 段： Hfile的元信息，不被壓縮，用戶也可以在這一部分添加自己的元信息。

- Data Block Index 段：Data Block的索引。每條索引的key是被索引的block的第一條記錄的key。

- Meta Block Index段： (可選的)–Meta Block的索引。

- Traile：這一段是定長的。保存了每一段的偏移量，讀取一個HFile時，會首先讀取Trailer，Trailer保存了每個段的起始位置(段的Magic Number用來做安全check)，然后，DataBlock Index會被讀取到內存中，這樣，當檢索某個key時，不需要掃描整個HFile，而只需從內存中找到key所在的block，通過一次磁盤io將整個block讀取到內存中，再找到需要的key。DataBlock Index采用LRU機制淘汰。

HFile的Data Block，Meta Block通常采用壓縮方式存儲，壓縮之后可以大大減少網絡IO和磁盤IO，隨之而來的開銷當然是需要花費cpu進行壓縮和解壓縮。目標Hfile的壓縮支持兩種方式：Gzip，Lzo。

7. HLog(WAL log)

WAL 意為Write ahead log(http://en.wikipedia.org/wiki/Write-ahead_logging)，類似mysql中的binlog,用來做災難恢復之用，Hlog記錄數據的所有變更,一旦數據修改，就可以從log中進行恢復。

每個Region Server維護一個Hlog,而不是每個Region一個。這樣不同region(來自不同table)的日志會混在一起，這樣做的目的是不斷追加單個文件相對于同時寫多個文件而言，可以減少磁盤尋址次數，因此可以提高對table的寫性能。帶來的麻煩是，如果一臺region server下線，為了恢復其上的region，需要將region server上的log進行拆分，然后分發到其它region server上進行恢復。

HLog文件就是一個普通的Hadoop Sequence File，Sequence File 的Key是HLogKey對象，HLogKey中記錄了寫入數據的歸屬信息，除了table和region名字外，同時還包括 sequence number和timestamp，timestamp是”寫入時間”，sequence number的起始值為0，或者是最近一次存入文件系統中sequence number。HLog Sequece File的Value是HBase的KeyValue對象，即對應HFile中的KeyValue，可參見上文描述。

四、系統架構

Client
包含訪問hbase的接口，client維護著一些cache來加快對hbase的訪問，比如regione的位置信息。
Zookeeper

1．保證任何時候，集群中只有一個master

2． 存貯所有Region的尋址入口。

3．實時監控Region Server的狀態，將Region server的上線和下線信息實時通知給Master

4. 存儲Hbase的schema,包括有哪些table，每個table有哪些column family

Master
為Region server分配region
負責region server的負載均衡
發現失效的region server并重新分配其上的region
上的垃圾文件回收
處理schema更新請求
Region Server
維護Master分配給它的region，處理對這些region的IO請求
負責切分在運行過程中變得過大的region

可以看到，client訪問hbase上數據的過程并不需要master參與（尋址訪問zookeeper和region server，數據讀寫訪問regione server），master僅僅維護者table和region的元數據信息，負載很低。

五、關鍵算法/流程

1. region定位

系統如何找到某個row key (或者某個 row key range)所在的region

bigtable 使用三層類似B+樹的結構來保存region位置。

第一層：保存zookeeper里面的文件，它持有root region的位置。

第二層：root region是.META.表的第一個region其中保存了.META.z表其它region的位置。通過root region，我們就可以訪問.META.表的數據。

第三層：.META.，它是一個特殊的表，保存了hbase中所有數據表的region 位置信息。

說明：

1. root region永遠不會被split，保證了最需要三次跳轉，就能定位到任意region 。

2. META.表每行保存一個region的位置信息，row key 采用表名+表的最后一樣編碼而成。

3. 為了加快訪問，.META.表的全部region都保存在內存中。

假設，.META.表的一行在內存中大約占用1KB。并且每個region限制為128MB。

那么上面的三層結構可以保存的region數目為：(128MB/1KB) * (128MB/1KB) = = 2(34)個region

4. client會將查詢過的位置信息保存緩存起來，緩存不會主動失效，因此如果client上的緩存全部失效，則需要進行6次網絡來回，才能定位到正確的region(其中三次用來發現緩存失效，另外三次用來獲取位置信息)。

2. 讀過程

上文提到，hbase使用MemStore和StoreFile存儲對表的更新。

數據在更新時首先寫入Log(WAL log)和內存(MemStore)中，MemStore中的數據是排序的，當MemStore累計到一定閾值時，就會創建一個新的MemStore，并且將老的MemStore添加到flush隊列，由單獨的線程flush到磁盤上，成為一個StoreFile。與此同時，系統會在zookeeper中記錄一個redo point，表示這個時刻之前的變更已經持久化了(minor compact)。當系統出現意外時，可能導致內存(MemStore)中的數據丟失，此時使用Log(WAL log)來恢復checkpoint之后的數據。

前面提到過StoreFile是只讀的，一旦創建后就不可以再修改。因此Hbase的更新其實是不斷追加的操作。當一個Store中的StoreFile達到一定的閾值后，就會進行一次合并(major compact),將對同一個key的修改合并到一起，形成一個大的StoreFile，當StoreFile的大小達到一定閾值后，又會對StoreFile進行split，等分為兩個StoreFile。

由于對表的更新是不斷追加的，處理讀請求時，需要訪問Store中全部的StoreFile和MemStore，將他們的按照row key進行合并，由于StoreFile和MemStore都是經過排序的，并且StoreFile帶有內存中索引，合并的過程還是比較快。

3.寫過程

1. client向region server提交寫請求

2. region server找到目標region

3. region檢查數據是否與schema一致

4. 如果客戶端沒有指定版本，則獲取當前系統時間作為數據版本

5. 將更新寫入WAL log

6. 將更新寫入Memstore

7. 判斷Memstore的是否需要flush為Store文件。

4.region分配

任何時刻，一個region只能分配給一個region server。master記錄了當前有哪些可用的region server。以及當前哪些region分配給了哪些region server，哪些region還沒有分配。當存在未分配的region，并且有一個region server上有可用空間時，master就給這個region server發送一個裝載請求，把region分配給這個region server。region server得到請求后，就開始對此region提供服務。

5. region server上線

master使用zookeeper來跟蹤region server狀態。當某個region server啟動時，會首先在zookeeper上的server目錄下建立代表自己的文件，并獲得該文件的獨占鎖。由于master訂閱了server目錄上的變更消息，當server目錄下的文件出現新增或刪除操作時，master可以得到來自zookeeper的實時通知。因此一旦region server上線，master能馬上得到消息。

6.region server下線

當region server下線時，它和zookeeper的會話斷開，zookeeper而自動釋放代表這臺server的文件上的獨占鎖。而master不斷輪詢server目錄下文件的鎖狀態。如果master發現某個region server丟失了它自己的獨占鎖，(或者master連續幾次和region server通信都無法成功),master就是嘗試去獲取代表這個region server的讀寫鎖，一旦獲取成功，就可以確定：

1. region server和zookeeper之間的網絡斷開了。

2. region server掛了。

上面的其中一種情況發生了，無論哪種情況，region server都無法繼續為它的region提供服務了，此時master會刪除server目錄下代表這臺region server的文件，并將這臺region server的region分配給其它還活著的同志。

如果網絡短暫出現問題導致region server丟失了它的鎖，那么region server重新連接到zookeeper之后，只要代表它的文件還在，它就會不斷嘗試獲取這個文件上的鎖，一旦獲取到了，就可以繼續提供服務。

7.master上線

master啟動進行以下步驟:

1. 從zookeeper上獲取唯一一個代碼master的鎖，用來阻止其它master成為master。

2. 掃描zookeeper上的server目錄，獲得當前可用的region server列表。

3. 和2中的每個region server通信，獲得當前已分配的region和region server的對應關系。

4. 掃描.META.region的集合，計算得到當前還未分配的region，將他們放入待分配region列表。

8. master下線

由于master只維護表和region的元數據，而不參與表數據IO的過程，master下線僅導致所有元數據的修改被凍結(無法創建刪除表，無法修改表的schema，無法進行region的負載均衡，無法處理region上下線，無法進行region的合并，唯一例外的是region的split可以正常進行，因為只有region server參與)，表的數據讀寫還可以正常進行。因此master下線短時間內對整個hbase集群沒有影響。從上線過程可以看到，master保存的信息全是可以冗余信息（都可以從系統其它地方收集到或者計算出來），因此，一般hbase集群中總是有一個master在提供服務，還有一個以上的’master’在等待時機搶占它的位置。

轉載于:https://my.oschina.net/AlbertHa/blog/309320

總結

以上是生活随笔為你收集整理的HBase图文详解的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：多重部分和问题
下一篇： varchar2改为clob带来的问题