日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > windows >内容正文

windows

hbase系统架构图以及各部分的功能作用,物理存储,HBase寻址机制,读写过程,Regin管理,Master工作机制

發(fā)布時(shí)間:2024/9/27 windows 66 豆豆
生活随笔 收集整理的這篇文章主要介紹了 hbase系统架构图以及各部分的功能作用,物理存储,HBase寻址机制,读写过程,Regin管理,Master工作机制 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.1 hbase內(nèi)部原理

1.1.1 系統(tǒng)架構(gòu)

Client
1 包含訪問hbase的接口,client維護(hù)著一些cache來加快對hbase的訪問,比如regione的位置信息。

Zookeeper
1 保證任何時(shí)候,集群中只有一個(gè)master
2 存貯所有Region的尋址入口—-root表在哪臺服務(wù)器上。
3 實(shí)時(shí)監(jiān)控Region Server的狀態(tài),將Region server的上線和下線信息實(shí)時(shí)通知給Master
4 存儲(chǔ)Hbase的schema,包括有哪些table,每個(gè)table有哪些column family

Master職責(zé)
1 為Region server分配region
2 負(fù)責(zé)region server的負(fù)載均衡
3 發(fā)現(xiàn)失效的region server并重新分配其上的region
4 HDFS上的垃圾文件回收
5 處理schema更新請求

Region Server職責(zé)
1 Region server維護(hù)Master分配給它的region,處理對這些region的IO請求
2 Region server負(fù)責(zé)切分在運(yùn)行過程中變得過大的region
可以看到,client訪問hbase上數(shù)據(jù)的過程并不需要master參與(尋址訪問zookeeper和region server,數(shù)據(jù)讀寫訪問regione server),master僅僅維護(hù)者table和region的元數(shù)據(jù)信息,負(fù)載很低。

1.1.2 物理存儲(chǔ)

1、整體結(jié)構(gòu)


1 Table中的所有行都按照row key的字典序排列。
2 Table 在行的方向上分割為多個(gè)Hregion。

3 region按大小分割的(默認(rèn)10G),每個(gè)表一開始只有一個(gè)region,隨著數(shù)據(jù)不斷插入表,region不斷增大,當(dāng)增大到一個(gè)閥值的時(shí)候,Hregion就會(huì)等分會(huì)兩個(gè)新的Hregion。當(dāng)table中的行不斷增多,就會(huì)有越來越多的Hregion。

4 Hregion是Hbase中分布式存儲(chǔ)和負(fù)載均衡的最小單元。最小單元就表示不同的Hregion可以分布在不同的HRegion server上。但一個(gè)Hregion是不會(huì)拆分到多個(gè)server上的。

5 HRegion雖然是負(fù)載均衡的最小單元,但并不是物理存儲(chǔ)的最小單元。
事實(shí)上,HRegion由一個(gè)或者多個(gè)Store組成,每個(gè)store保存一個(gè)column family。
每個(gè)Strore又由一個(gè)memStore和0至多個(gè)StoreFile組成。如上圖

2、STORE FILE & HFILE結(jié)構(gòu)
StoreFile以HFile格式保存在HDFS上。

附:HFile的格式為:

首先HFile文件是不定長的,長度固定的只有其中的兩塊:Trailer和FileInfo。正如圖中所示的,Trailer中有指針指向其他數(shù) 據(jù)塊的起始點(diǎn)。
File Info中記錄了文件的一些Meta信息,例如:AVG_KEY_LEN, AVG_VALUE_LEN, LAST_KEY, COMPARATOR, MAX_SEQ_ID_KEY等。
Data Index和Meta Index塊記錄了每個(gè)Data塊和Meta塊的起始點(diǎn)。
Data Block是HBase I/O的基本單元,為了提高效率,HRegionServer中有基于LRU的Block Cache機(jī)制。每個(gè)Data塊的大小可以在創(chuàng)建一個(gè)Table的時(shí)候通過參數(shù)指定,大號的Block有利于順序Scan,小號Block利于隨機(jī)查詢。 每個(gè)Data塊除了開頭的Magic以外就是一個(gè)個(gè)KeyValue對拼接而成, Magic內(nèi)容就是一些隨機(jī)數(shù)字,目的是防止數(shù)據(jù)損壞。
HFile里面的每個(gè)KeyValue對就是一個(gè)簡單的byte數(shù)組。但是這個(gè)byte數(shù)組里面包含了很多項(xiàng),并且有固定的結(jié)構(gòu)。我們來看看里面的具體結(jié)構(gòu):

開始是兩個(gè)固定長度的數(shù)值,分別表示Key的長度和Value的長度。緊接著是Key,開始是固定長度的數(shù)值,表示RowKey的長度,緊接著是 RowKey,然后是固定長度的數(shù)值,表示Family的長度,然后是Family,接著是Qualifier,然后是兩個(gè)固定長度的數(shù)值,表示Time Stamp和Key Type(Put/Delete)。Value部分沒有這么復(fù)雜的結(jié)構(gòu),就是純粹的二進(jìn)制數(shù)據(jù)了。

HFile分為六個(gè)部分:
Data Block 段–保存表中的數(shù)據(jù),這部分可以被壓縮
Meta Block 段 (可選的)–保存用戶自定義的kv對,可以被壓縮。
File Info 段–Hfile的元信息,不被壓縮,用戶也可以在這一部分添加自己的元信息。
Data Block Index 段–Data Block的索引。每條索引的key是被索引的block的第一條記錄的key。
Meta Block Index段 (可選的)–Meta Block的索引。
Trailer–這一段是定長的。保存了每一段的偏移量,讀取一個(gè)HFile時(shí),會(huì)首先 讀取Trailer,Trailer保存了每個(gè)段的起始位置(段的Magic Number用來做安全check),然后,DataBlock Index會(huì)被讀取到內(nèi)存中,這樣,當(dāng)檢索某個(gè)key時(shí),不需要掃描整個(gè)HFile,而只需從內(nèi)存中找到key所在的block,通過一次磁盤io將整個(gè) block讀取到內(nèi)存中,再找到需要的key。DataBlock Index采用LRU機(jī)制淘汰。
HFile的Data Block,Meta Block通常采用壓縮方式存儲(chǔ),壓縮之后可以大大減少網(wǎng)絡(luò)IO和磁盤IO,隨之而來的開銷當(dāng)然是需要花費(fèi)cpu進(jìn)行壓縮和解壓縮。
目標(biāo)Hfile的壓縮支持兩種方式:Gzip,Lzo。

3、Memstore與storefile
一個(gè)region由多個(gè)store組成,每個(gè)store包含一個(gè)列族的所有數(shù)據(jù)
Store包括位于內(nèi)存的memstore和位于硬盤的storefile
寫操作先寫入memstore,當(dāng)memstore中的數(shù)據(jù)量達(dá)到某個(gè)閾值,Hregionserver啟動(dòng)flashcache進(jìn)程寫入storefile,每次寫入形成單獨(dú)一個(gè)storefile
當(dāng)storefile大小超過一定閾值后,會(huì)把當(dāng)前的region分割成兩個(gè),并由Hmaster分配給相應(yīng)的region服務(wù)器,實(shí)現(xiàn)負(fù)載均衡
客戶端檢索數(shù)據(jù)時(shí),先在memstore找,找不到再找storefile

4、HLog(WAL log)
WAL 意為Write ahead log(http://en.wikipedia.org/wiki/Write-ahead_logging),類似mysql中的binlog,用來 做災(zāi)難恢復(fù)只用,Hlog記錄數(shù)據(jù)的所有變更,一旦數(shù)據(jù)修改,就可以從log中進(jìn)行恢復(fù)。
每個(gè)Region Server維護(hù)一個(gè)Hlog,而不是每個(gè)Region一個(gè)。這樣不同region(來自不同table)的日志會(huì)混在一起,這樣做的目的是不斷追加單個(gè)文件相對于同時(shí)寫多個(gè)文件而言,可以減少磁盤尋址次數(shù),因此可以提高對table的寫性能。帶來的麻煩是,如果一臺region server下線,為了恢復(fù)其上的region,需要將region server上的log進(jìn)行拆分,然后分發(fā)到其它region server上進(jìn)行恢復(fù)。
HLog文件就是一個(gè)普通的Hadoop Sequence File:
? HLog Sequence File 的Key是HLogKey對象,HLogKey中記錄了寫入數(shù)據(jù)的歸屬信息,除了table和region名字外,同時(shí)還包括 sequence number和timestamp,timestamp是”寫入時(shí)間”,sequence number的起始值為0,或者是最近一次存入文件系統(tǒng)中sequence number。
? HLog Sequece File的Value是HBase的KeyValue對象,即對應(yīng)HFile中的KeyValue,可參見上文描述。

1.1.3 尋址機(jī)制

1、尋址示意圖

2、-ROOT-和.META.表結(jié)構(gòu)

.META.行記錄結(jié)構(gòu)

3、尋址流程
現(xiàn)在假設(shè)我們要從Table2里面插尋一條RowKey是RK10000的數(shù)據(jù)。那么我們應(yīng)該遵循以下步驟:
1. 從.META.表里面查詢哪個(gè)Region包含這條數(shù)據(jù)。
2. 獲取管理這個(gè)Region的RegionServer地址。
3. 連接這個(gè)RegionServer, 查到這條數(shù)據(jù)。

系統(tǒng)如何找到某個(gè)row key (或者某個(gè) row key range)所在的region
bigtable 使用三層類似B+樹的結(jié)構(gòu)來保存region位置。
第一層是保存zookeeper里面的文件,它持有root region的位置。
第二層root region是.META.表的第一個(gè)region其中保存了.META.表其它region的位置。通過root region,我們就可以訪問.META.表的數(shù)據(jù)。
.META.是第三層,它是一個(gè)特殊的表,保存了hbase中所有數(shù)據(jù)表的region 位置信息。

說明:
1 root region永遠(yuǎn)不會(huì)被split,保證了最需要三次跳轉(zhuǎn),就能定位到任意region 。
**2.**META.表每行保存一個(gè)region的位置信息,row key 采用表名+表的最后一行編碼而成。
3 為了加快訪問,.META.表的全部region都保存在內(nèi)存中。
4 client會(huì)將查詢過的位置信息保存緩存起來,緩存不會(huì)主動(dòng)失效,因此如果client上的緩存全部失效,則需要進(jìn)行最多6次網(wǎng)絡(luò)來回,才能定位到正確的region(其中三次用來發(fā)現(xiàn)緩存失效,另外三次用來獲取位置信息)。

1.1.4 讀寫過程

1、讀請求過程:
1 客戶端通過zookeeper以及root表和meta表找到目標(biāo)數(shù)據(jù)所在的regionserver
2 聯(lián)系regionserver查詢目標(biāo)數(shù)據(jù)
3 regionserver定位到目標(biāo)數(shù)據(jù)所在的region,發(fā)出查詢請求
4 region先在memstore中查找,命中則返回
5 如果在memstore中找不到,則在storefile中掃描(可能會(huì)掃描到很多的storefile—-bloomfilter)

2、寫請求過程:
1 client向region server提交寫請求
2 region server找到目標(biāo)region
3 region檢查數(shù)據(jù)是否與schema一致
4 如果客戶端沒有指定版本,則獲取當(dāng)前系統(tǒng)時(shí)間作為數(shù)據(jù)版本
5 將更新寫入WAL log
6 將更新寫入Memstore
7 判斷Memstore的是否需要flush為Store文件。

細(xì)節(jié)描述:
hbase使用MemStore和StoreFile存儲(chǔ)對表的更新。
數(shù)據(jù)在更新時(shí)首先寫入Log(WAL log)和內(nèi)存(MemStore)中,MemStore中的數(shù)據(jù)是排序的,當(dāng)MemStore累計(jì)到一定閾值時(shí),就會(huì)創(chuàng)建一個(gè)新的MemStore,并 且將老的MemStore添加到flush隊(duì)列,由單獨(dú)的線程flush到磁盤上,成為一個(gè)StoreFile。于此同時(shí),系統(tǒng)會(huì)在zookeeper中記錄一個(gè)redo point,表示這個(gè)時(shí)刻之前的變更已經(jīng)持久化了。
當(dāng)系統(tǒng)出現(xiàn)意外時(shí),可能導(dǎo)致內(nèi)存(MemStore)中的數(shù)據(jù)丟失,此時(shí)使用Log(WAL log)來恢復(fù)checkpoint之后的數(shù)據(jù)。

StoreFile是只讀的,一旦創(chuàng)建后就不可以再修改。因此Hbase的更新其實(shí)是不斷追加的操作。當(dāng)一個(gè)Store中的StoreFile達(dá)到一定的閾值后,就會(huì)進(jìn)行一次合并(minor_compact, major_compact),將對同一個(gè)key的修改合并到一起,形成一個(gè)大的StoreFile,當(dāng)StoreFile的大小達(dá)到一定閾值后,又會(huì)對 StoreFile進(jìn)行split,等分為兩個(gè)StoreFile。
由于對表的更新是不斷追加的,compact時(shí),需要訪問Store中全部的 StoreFile和MemStore,將他們按row key進(jìn)行合并,由于StoreFile和MemStore都是經(jīng)過排序的,并且StoreFile帶有內(nèi)存中索引,合并的過程還是比較快。

1.1.5 Region管理

(1) region分配
任何時(shí)刻,一個(gè)region只能分配給一個(gè)region server。master記錄了當(dāng)前有哪些可用的region server。以及當(dāng)前哪些region分配給了哪些region server,哪些region還沒有分配。當(dāng)需要分配的新的region,并且有一個(gè)region server上有可用空間時(shí),master就給這個(gè)region server發(fā)送一個(gè)裝載請求,把region分配給這個(gè)region server。region server得到請求后,就開始對此region提供服務(wù)。

(2) region server上線
master使用zookeeper來跟蹤region server狀態(tài)。當(dāng)某個(gè)region server啟動(dòng)時(shí),會(huì)首先在zookeeper上的server目錄下建立代表自己的znode。由于master訂閱了server目錄上的變更消息,當(dāng)server目錄下的文件出現(xiàn)新增或刪除操作時(shí),master可以得到來自zookeeper的實(shí)時(shí)通知。因此一旦region server上線,master能馬上得到消息。

(3) region server下線
當(dāng)region server下線時(shí),它和zookeeper的會(huì)話斷開,zookeeper而自動(dòng)釋放代表這臺server的文件上的獨(dú)占鎖。master就可以確定:
1 region server和zookeeper之間的網(wǎng)絡(luò)斷開了。
2 region server掛了。
無論哪種情況,region server都無法繼續(xù)為它的region提供服務(wù)了,此時(shí)master會(huì)刪除server目錄下代表這臺region server的znode數(shù)據(jù),并將這臺region server的region分配給其它還活著的同志。

1.1.6 Master工作機(jī)制

? master上線
master啟動(dòng)進(jìn)行以下步驟:
1 從zookeeper上獲取唯一一個(gè)代表active master的鎖,用來阻止其它master成為master。
2 掃描zookeeper上的server父節(jié)點(diǎn),獲得當(dāng)前可用的region server列表。
3 和每個(gè)region server通信,獲得當(dāng)前已分配的region和region server的對應(yīng)關(guān)系。
4 掃描.META.region的集合,計(jì)算得到當(dāng)前還未分配的region,將他們放入待分配region列表。

? master下線
由于master只維護(hù)表和region的元數(shù)據(jù),而不參與表數(shù)據(jù)IO的過程,master下線僅導(dǎo)致所有元數(shù)據(jù)的修改被凍結(jié)(無法創(chuàng)建刪除表,無法修改表的schema,無法進(jìn)行region的負(fù)載均衡,無法處理region 上下線,無法進(jìn)行region的合并,唯一例外的是region的split可以正常進(jìn)行,因?yàn)橹挥衦egion server參與),表的數(shù)據(jù)讀寫還可以正常進(jìn)行。因此master下線短時(shí)間內(nèi)對整個(gè)hbase集群沒有影響。
從上線過程可以看到,master保存的信息全是可以冗余信息(都可以從系統(tǒng)其它地方收集到或者計(jì)算出來)
因此,一般hbase集群中總是有一個(gè)master在提供服務(wù),還有一個(gè)以上的‘master’在等待時(shí)機(jī)搶占它的位置。

動(dòng)手練習(xí)(增刪改查)

總結(jié)

以上是生活随笔為你收集整理的hbase系统架构图以及各部分的功能作用,物理存储,HBase寻址机制,读写过程,Regin管理,Master工作机制的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。