當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

HBase meta元数据损坏导致hbase master初始化失败

發(fā)布時(shí)間：2025/3/15 编程问答 49 豆豆

生活随笔收集整理的這篇文章主要介紹了 HBase meta元数据损坏导致hbase master初始化失败小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

故障起因：

跑kylin任務(wù)，過程出錯(cuò)，異常信息：Direct buffer memory，

java.io.IOException: java.lang.OutOfMemoryError: Direct buffer memoryat org.apache.hadoop.hbase.regionserver.HRegion$RegionScannerImpl.handleException(HRegion.java:5607)at org.apache.hadoop.hbase.regionserver.HRegion$RegionScannerImpl.<init>(HRegion.java:5579)at org.apache.hadoop.hbase.regionserver.HRegion.instantiateRegionScanner(HRegion.java:2627)at org.apache.hadoop.hbase.regionserver.HRegion.getScanner(HRegion.java:2613)at org.apache.hadoop.hbase.regionserver.HRegion.getScanner(HRegion.java:2595)at org.apache.hadoop.hbase.regionserver.RSRpcServices.scan(RSRpcServices.java:2282)at org.apache.hadoop.hbase.protobuf.generated.ClientProtos$ClientService$2.callBlockingMethod(ClientProtos.java:32295)

重啟HBase所有服務(wù)后，啟動(dòng)正常，一分鐘后ambari顯示，所有region server正常，但是active master和standby master全部掛掉。仍然報(bào)錯(cuò)：Direct buffer memory，修改hbase-env文件中的HBase off-heap MaxDirectMemorySize參數(shù)從4G調(diào)大到6G，重啟HBase后，Direct buffer memory異常消失。但某些節(jié)點(diǎn)的系統(tǒng)meta表一直處于RIT狀態(tài)。

癥狀描述：

1、region in transation

Ambari 顯示HBase master 正常啟動(dòng)，hbase master ui ：紅色警告hbase:meta region in transation，在其中一個(gè)數(shù)據(jù)節(jié)點(diǎn)，且一直在持續(xù)，估計(jì)HBase 元數(shù)據(jù)文件損壞，已經(jīng)落入永久RIT狀態(tài)

2、查看region server報(bào)錯(cuò)

去處于RIT狀態(tài)的region server查看實(shí)時(shí)log，主要有三種報(bào)錯(cuò)：

access denied

Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=hbase, access=WRITE, inode="/apps/hbase/data/archive/data/GatXtcYysLcsk/KYLIN_BM5CEA4Y43/473ee8eb537051873792fdb417f866ac/F1":root:hdfs:drwxr-xr-x

too many open files

2018-03-20 21:23:36,518 WARN [62309924@qtp-666312528-1 - Acceptor0 SelectChannelConnector@0.0.0.0:16030] mortbay.log: EXCEPTION java.io.IOException: Too many open filesat sun.nio.ch.ServerSocketChannelImpl.accept0(Native Method)at sun.nio.ch.ServerSocketChannelImpl.accept(ServerSocketChannelImpl.java:422)at sun.nio.ch.ServerSocketChannelImpl.accept(ServerSocketChannelImpl.java:250)at org.mortbay.jetty.nio.SelectChannelConnector$1.acceptChannel(SelectChannelConnector.java:75)at org.mortbay.io.nio.SelectorManager$SelectSet.doSelect(SelectorManager.java:695)at org.mortbay.io.nio.SelectorManager.doSelect(SelectorManager.java:193)at org.mortbay.jetty.nio.SelectChannelConnector.accept(SelectChannelConnector.java:124)at org.mortbay.jetty.AbstractConnector$Acceptor.run(AbstractConnector.java:708)at org.mortbay.thread.QueuedThreadPool$PoolThread.run(QueuedThreadPool.java:582)

查看hbase用戶、hdfs用戶的ulimit -a 發(fā)現(xiàn)open_files并不小，hbase open_files=32000應(yīng)該夠用。
3、hbase shell 執(zhí)行status 報(bào)錯(cuò)： HBase master failed to initization
4、執(zhí)行

su hbase hbase hbck -fixMeta

重試35次后，仍然報(bào)錯(cuò)：

2018-03-19 19:09:36,553 FATAL [hdmaster3:16000.activeMasterManager] master.HMaster: Unhandled exception. Starting shutdown. java.io.IOException: Failed to get result within timeout, timeout=60000msat org.apache.hadoop.hbase.client.ScannerCallableWithReplicas.call(ScannerCallableWithReplicas.java:206)at org.apache.hadoop.hbase.client.ScannerCallableWithReplicas.call(ScannerCallableWithReplicas.java:60)at org.apache.hadoop.hbase.client.RpcRetryingCaller.callWithoutRetries(RpcRetryingCaller.java:200)at org.apache.hadoop.hbase.client.ClientScanner.call(ClientScanner.java:327)at org.apache.hadoop.hbase.client.ClientScanner.nextScanner(ClientScanner.java:302)at org.apache.hadoop.hbase.client.ClientScanner.initializeScannerInConstruction(ClientScanner.java:167)at org.apache.hadoop.hbase.client.ClientScanner.<init>(ClientScanner.java:162)at org.apache.hadoop.hbase.client.HTable.getScanner(HTable.java:794)at org.apache.hadoop.hbase.MetaTableAccessor.fullScan(MetaTableAccessor.java:602)at org.apache.hadoop.hbase.MetaTableAccessor.fullScanOfMeta(MetaTableAccessor.java:143)at org.apache.hadoop.hbase.MetaMigrationConvertingToPB.isMetaTableUpdated(MetaMigrationConvertingToPB.java:163)at org.apache.hadoop.hbase.MetaMigrationConvertingToPB.updateMetaIfNecessary(MetaMigrationConvertingToPB.java:130)at org.apache.hadoop.hbase.master.HMaster.finishActiveMasterInitialization(HMaster.java:824)at org.apache.hadoop.hbase.master.HMaster.access$500(HMaster.java:214)at org.apache.hadoop.hbase.master.HMaster$1.run(HMaster.java:1884)at java.lang.Thread.run(Thread.java:745)

調(diào)整參數(shù)：hbase.client.scanner.timeout.period，由默認(rèn)60s改為600s，等待600s后master仍然會(huì)掛掉，所以考慮根本原因還是數(shù)據(jù)損壞。

解決途徑：

1、停止hbase所有服務(wù)
2、執(zhí)行命令：
hbase org.apache.hadoop.hbase.util.hbck.OfflineMetaRepair
離線修復(fù)meta元數(shù)據(jù)，因?yàn)閔base hbck -fixMeta只能在master正常，數(shù)據(jù)表丟失的情況下使用，master初始化失敗時(shí)，無法使用。
在此命令執(zhí)行過程中，先后出過多個(gè)異常：
1）kylin_meta表的region中有重復(fù)starttime，轉(zhuǎn)移meta數(shù)據(jù)
2）WALS文件報(bào)錯(cuò)，轉(zhuǎn)移到其他位置
3）成功啟動(dòng)master后，多數(shù)region上線，但仍有個(gè)別非meta表的region 處于RIT狀態(tài)，強(qiáng)行刪除后，過一段時(shí)間，所有region上線，表數(shù)據(jù)恢復(fù)。
3、刪除hbase znode，進(jìn)入zookeeper 命令端，刪除hbase znode
4、啟動(dòng)hbase
5、再有問題，可以執(zhí)行：
hbase hbck -repair修復(fù)數(shù)據(jù)

總結(jié)

這次的解決過程非常痛苦，生產(chǎn)環(huán)境出問題三天，在查master和region server 日志過程中走了很多彎路，也沒有找對(duì)方向，最終數(shù)據(jù)恢復(fù)了，但丟了kylin的元數(shù)據(jù)表，所有的cube都重新build的，要奉勸大家的是kylin的元數(shù)據(jù)要經(jīng)常備份，至此雖然服務(wù)都起來了，但沒有找到引起這個(gè)問題的真正原因，或許的kylin本身的bug，或許是多次不停的掛掉重啟，導(dǎo)致meta表?yè)p壞、異常。

總結(jié)

以上是生活随笔為你收集整理的HBase meta元数据损坏导致hbase master初始化失败的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： vue+layui获取CheckBox的
下一篇：开发springboot项目，遇到的一些