當前位置：首頁 > 运维知识 > windows >内容正文

windows

hbase系统架构图以及各部分的功能作用，物理存储，HBase寻址机制，读写过程，Regin管理，Master工作机制

發布時間：2024/9/27 windows 78 豆豆

生活随笔收集整理的這篇文章主要介紹了 hbase系统架构图以及各部分的功能作用，物理存储，HBase寻址机制，读写过程，Regin管理，Master工作机制小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.1 hbase內部原理

1.1.1 系統架構

Client
1 包含訪問hbase的接口，client維護著一些cache來加快對hbase的訪問，比如regione的位置信息。

Zookeeper
1 保證任何時候，集群中只有一個master
2 存貯所有Region的尋址入口—-root表在哪臺服務器上。
3 實時監控Region Server的狀態，將Region server的上線和下線信息實時通知給Master
4 存儲Hbase的schema,包括有哪些table，每個table有哪些column family

Master職責
1 為Region server分配region
2 負責region server的負載均衡
3 發現失效的region server并重新分配其上的region
4 HDFS上的垃圾文件回收
5 處理schema更新請求

Region Server職責
1 Region server維護Master分配給它的region，處理對這些region的IO請求
2 Region server負責切分在運行過程中變得過大的region
可以看到，client訪問hbase上數據的過程并不需要master參與（尋址訪問zookeeper和region server，數據讀寫訪問regione server），master僅僅維護者table和region的元數據信息，負載很低。

1.1.2 物理存儲

1、整體結構

1 Table中的所有行都按照row key的字典序排列。
2 Table 在行的方向上分割為多個Hregion。

3 region按大小分割的(默認10G)，每個表一開始只有一個region，隨著數據不斷插入表，region不斷增大，當增大到一個閥值的時候，Hregion就會等分會兩個新的Hregion。當table中的行不斷增多，就會有越來越多的Hregion。

4 Hregion是Hbase中分布式存儲和負載均衡的最小單元。最小單元就表示不同的Hregion可以分布在不同的HRegion server上。但一個Hregion是不會拆分到多個server上的。

5 HRegion雖然是負載均衡的最小單元，但并不是物理存儲的最小單元。
事實上，HRegion由一個或者多個Store組成，每個store保存一個column family。
每個Strore又由一個memStore和0至多個StoreFile組成。如上圖

2、STORE FILE & HFILE結構
StoreFile以HFile格式保存在HDFS上。

附：HFile的格式為：

首先HFile文件是不定長的，長度固定的只有其中的兩塊：Trailer和FileInfo。正如圖中所示的，Trailer中有指針指向其他數據塊的起始點。
File Info中記錄了文件的一些Meta信息，例如：AVG_KEY_LEN, AVG_VALUE_LEN, LAST_KEY, COMPARATOR, MAX_SEQ_ID_KEY等。
Data Index和Meta Index塊記錄了每個Data塊和Meta塊的起始點。
Data Block是HBase I/O的基本單元，為了提高效率，HRegionServer中有基于LRU的Block Cache機制。每個Data塊的大小可以在創建一個Table的時候通過參數指定，大號的Block有利于順序Scan，小號Block利于隨機查詢。每個Data塊除了開頭的Magic以外就是一個個KeyValue對拼接而成, Magic內容就是一些隨機數字，目的是防止數據損壞。
HFile里面的每個KeyValue對就是一個簡單的byte數組。但是這個byte數組里面包含了很多項，并且有固定的結構。我們來看看里面的具體結構：

開始是兩個固定長度的數值，分別表示Key的長度和Value的長度。緊接著是Key，開始是固定長度的數值，表示RowKey的長度，緊接著是 RowKey，然后是固定長度的數值，表示Family的長度，然后是Family，接著是Qualifier，然后是兩個固定長度的數值，表示Time Stamp和Key Type（Put/Delete）。Value部分沒有這么復雜的結構，就是純粹的二進制數據了。

HFile分為六個部分：
Data Block 段–保存表中的數據，這部分可以被壓縮
Meta Block 段 (可選的)–保存用戶自定義的kv對，可以被壓縮。
File Info 段–Hfile的元信息，不被壓縮，用戶也可以在這一部分添加自己的元信息。
Data Block Index 段–Data Block的索引。每條索引的key是被索引的block的第一條記錄的key。
Meta Block Index段 (可選的)–Meta Block的索引。
Trailer–這一段是定長的。保存了每一段的偏移量，讀取一個HFile時，會首先讀取Trailer，Trailer保存了每個段的起始位置(段的Magic Number用來做安全check)，然后，DataBlock Index會被讀取到內存中，這樣，當檢索某個key時，不需要掃描整個HFile，而只需從內存中找到key所在的block，通過一次磁盤io將整個 block讀取到內存中，再找到需要的key。DataBlock Index采用LRU機制淘汰。
HFile的Data Block，Meta Block通常采用壓縮方式存儲，壓縮之后可以大大減少網絡IO和磁盤IO，隨之而來的開銷當然是需要花費cpu進行壓縮和解壓縮。
目標Hfile的壓縮支持兩種方式：Gzip，Lzo。

3、Memstore與storefile
一個region由多個store組成，每個store包含一個列族的所有數據
Store包括位于內存的memstore和位于硬盤的storefile
寫操作先寫入memstore,當memstore中的數據量達到某個閾值，Hregionserver啟動flashcache進程寫入storefile,每次寫入形成單獨一個storefile
當storefile大小超過一定閾值后，會把當前的region分割成兩個，并由Hmaster分配給相應的region服務器，實現負載均衡
客戶端檢索數據時，先在memstore找，找不到再找storefile

4、HLog(WAL log)
WAL 意為Write ahead log(http://en.wikipedia.org/wiki/Write-ahead_logging)，類似mysql中的binlog,用來做災難恢復只用，Hlog記錄數據的所有變更,一旦數據修改，就可以從log中進行恢復。
每個Region Server維護一個Hlog,而不是每個Region一個。這樣不同region(來自不同table)的日志會混在一起，這樣做的目的是不斷追加單個文件相對于同時寫多個文件而言，可以減少磁盤尋址次數，因此可以提高對table的寫性能。帶來的麻煩是，如果一臺region server下線，為了恢復其上的region，需要將region server上的log進行拆分，然后分發到其它region server上進行恢復。
HLog文件就是一個普通的Hadoop Sequence File：
? HLog Sequence File 的Key是HLogKey對象，HLogKey中記錄了寫入數據的歸屬信息，除了table和region名字外，同時還包括 sequence number和timestamp，timestamp是”寫入時間”，sequence number的起始值為0，或者是最近一次存入文件系統中sequence number。
? HLog Sequece File的Value是HBase的KeyValue對象，即對應HFile中的KeyValue，可參見上文描述。

1.1.3 尋址機制

1、尋址示意圖

2、-ROOT-和.META.表結構

.META.行記錄結構

3、尋址流程
現在假設我們要從Table2里面插尋一條RowKey是RK10000的數據。那么我們應該遵循以下步驟：
1. 從.META.表里面查詢哪個Region包含這條數據。
2. 獲取管理這個Region的RegionServer地址。
3. 連接這個RegionServer, 查到這條數據。

系統如何找到某個row key (或者某個 row key range)所在的region
bigtable 使用三層類似B+樹的結構來保存region位置。
第一層是保存zookeeper里面的文件，它持有root region的位置。
第二層root region是.META.表的第一個region其中保存了.META.表其它region的位置。通過root region，我們就可以訪問.META.表的數據。
.META.是第三層，它是一個特殊的表，保存了hbase中所有數據表的region 位置信息。

說明：
1 root region永遠不會被split，保證了最需要三次跳轉，就能定位到任意region 。
**2.**META.表每行保存一個region的位置信息，row key 采用表名+表的最后一行編碼而成。
3 為了加快訪問，.META.表的全部region都保存在內存中。
4 client會將查詢過的位置信息保存緩存起來，緩存不會主動失效，因此如果client上的緩存全部失效，則需要進行最多6次網絡來回，才能定位到正確的region(其中三次用來發現緩存失效，另外三次用來獲取位置信息)。

1.1.4 讀寫過程

1、讀請求過程：
1 客戶端通過zookeeper以及root表和meta表找到目標數據所在的regionserver
2 聯系regionserver查詢目標數據
3 regionserver定位到目標數據所在的region，發出查詢請求
4 region先在memstore中查找，命中則返回
5 如果在memstore中找不到，則在storefile中掃描（可能會掃描到很多的storefile—-bloomfilter）

2、寫請求過程：
1 client向region server提交寫請求
2 region server找到目標region
3 region檢查數據是否與schema一致
4 如果客戶端沒有指定版本，則獲取當前系統時間作為數據版本
5 將更新寫入WAL log
6 將更新寫入Memstore
7 判斷Memstore的是否需要flush為Store文件。

細節描述：
hbase使用MemStore和StoreFile存儲對表的更新。
數據在更新時首先寫入Log(WAL log)和內存(MemStore)中，MemStore中的數據是排序的，當MemStore累計到一定閾值時，就會創建一個新的MemStore，并且將老的MemStore添加到flush隊列，由單獨的線程flush到磁盤上，成為一個StoreFile。于此同時，系統會在zookeeper中記錄一個redo point，表示這個時刻之前的變更已經持久化了。
當系統出現意外時，可能導致內存(MemStore)中的數據丟失，此時使用Log(WAL log)來恢復checkpoint之后的數據。

StoreFile是只讀的，一旦創建后就不可以再修改。因此Hbase的更新其實是不斷追加的操作。當一個Store中的StoreFile達到一定的閾值后，就會進行一次合并(minor_compact, major_compact),將對同一個key的修改合并到一起，形成一個大的StoreFile，當StoreFile的大小達到一定閾值后，又會對 StoreFile進行split，等分為兩個StoreFile。
由于對表的更新是不斷追加的，compact時，需要訪問Store中全部的 StoreFile和MemStore，將他們按row key進行合并，由于StoreFile和MemStore都是經過排序的，并且StoreFile帶有內存中索引，合并的過程還是比較快。

1.1.5 Region管理

(1) region分配
任何時刻，一個region只能分配給一個region server。master記錄了當前有哪些可用的region server。以及當前哪些region分配給了哪些region server，哪些region還沒有分配。當需要分配的新的region，并且有一個region server上有可用空間時，master就給這個region server發送一個裝載請求，把region分配給這個region server。region server得到請求后，就開始對此region提供服務。

(2) region server上線
master使用zookeeper來跟蹤region server狀態。當某個region server啟動時，會首先在zookeeper上的server目錄下建立代表自己的znode。由于master訂閱了server目錄上的變更消息，當server目錄下的文件出現新增或刪除操作時，master可以得到來自zookeeper的實時通知。因此一旦region server上線，master能馬上得到消息。

(3) region server下線
當region server下線時，它和zookeeper的會話斷開，zookeeper而自動釋放代表這臺server的文件上的獨占鎖。master就可以確定：
1 region server和zookeeper之間的網絡斷開了。
2 region server掛了。
無論哪種情況，region server都無法繼續為它的region提供服務了，此時master會刪除server目錄下代表這臺region server的znode數據，并將這臺region server的region分配給其它還活著的同志。

1.1.6 Master工作機制

? master上線
master啟動進行以下步驟:
1 從zookeeper上獲取唯一一個代表active master的鎖，用來阻止其它master成為master。
2 掃描zookeeper上的server父節點，獲得當前可用的region server列表。
3 和每個region server通信，獲得當前已分配的region和region server的對應關系。
4 掃描.META.region的集合，計算得到當前還未分配的region，將他們放入待分配region列表。

? master下線
由于master只維護表和region的元數據，而不參與表數據IO的過程，master下線僅導致所有元數據的修改被凍結(無法創建刪除表，無法修改表的schema，無法進行region的負載均衡，無法處理region 上下線，無法進行region的合并，唯一例外的是region的split可以正常進行，因為只有region server參與)，表的數據讀寫還可以正常進行。因此master下線短時間內對整個hbase集群沒有影響。
從上線過程可以看到，master保存的信息全是可以冗余信息（都可以從系統其它地方收集到或者計算出來）
因此，一般hbase集群中總是有一個master在提供服務，還有一個以上的‘master’在等待時機搶占它的位置。

動手練習（增刪改查）