【HBase】调查HBase不进行Balance
問題描述:
有一臺(tái)RegionServer宕機(jī)了,恢復(fù)之后,始終不向這臺(tái)RegionServer上分配Region。
。。。。。。Balance相關(guān)內(nèi)容后面再寫。
解決:
首先出現(xiàn)這種問題,當(dāng)然是去看一眼日志了。
如果去看這臺(tái)RegionServer的日志,大概是這樣的,啥都看不著。
其實(shí)應(yīng)該去看Active Master節(jié)點(diǎn)的日志,因?yàn)镸aster負(fù)責(zé)集群的region和table哪種東西的管理。
但是Master日志大概也是什么也看不到。因?yàn)镠Base默認(rèn)的日志級別是INFO級別,可以下調(diào)日志級別到trace。然后重啟一下Master節(jié)點(diǎn)(如果不是HA,還是重啟集群吧。。。)
這時(shí)候就能看見日志了。
可以找找這條日志,說Balance被跳過了,原因是balancer計(jì)算出來cost大于最小的cost
Skipping load balancing because balanced cluster; total cost is 47.940677280639925, sum multiplier is 1102.0 min cost which need balance is 0.05這時(shí)候可以去看源碼了,查看StochasticLoadBalancer類的needsBalance方法。
@Overrideprotected boolean needsBalance(Cluster cluster) {ClusterLoadState cs = new ClusterLoadState(cluster.clusterState);double total = 0.0;float sumMultiplier = 0.0f;for (CostFunction c : costFunctions) {float multiplier = c.getMultiplier();if (multiplier <= 0) {continue;}if (!c.isNeeded()) {LOG.debug("{} not needed", c.getClass().getSimpleName());continue;}sumMultiplier += multiplier;total += c.cost() * multiplier;}if (total <= 0 || sumMultiplier <= 0|| (sumMultiplier > 0 && (total / sumMultiplier) < minCostNeedBalance)) {if (LOG.isTraceEnabled()) {LOG.trace("Skipping load balancing because balanced cluster; " + "total cost is " + total+ ", sum multiplier is " + sumMultiplier + " min cost which need balance is "+ minCostNeedBalance);}return false;}return true;}?可以看到是最后的一個(gè)判斷沒過。
通過上面的日志可以看到total <= 0 || sumMultiplier <= 0 、sumMultiplier > 0這幾個(gè)判斷都過了,最后那個(gè)判斷為啥沒過呢。
這就要去看看total和sumMultiplier這兩個(gè)值是怎么來的了。
我們看一下minCostNeedBalance這個(gè)值是怎么來的。其實(shí)是配置的。。。默認(rèn)值0.5f
minCostNeedBalance = conf.getFloat(MIN_COST_NEED_BALANCE_KEY, minCostNeedBalance);protected static final String MIN_COST_NEED_BALANCE_KEY ="hbase.master.balancer.stochastic.minCostNeedBalance";此時(shí)聰明的你一定想到了直接改了hbase.master.balancer.stochastic.minCostNeedBalance,(total / sumMultiplier) < minCostNeedBalance,讓它成立不就好了。
是的,https://issues.apache.org/jira/browse/HBASE-22349這個(gè)issue描述了這個(gè)問題,他給出的解決辦法就是改小這個(gè)配置。
接下來就可以重啟集群,如果你迫不及待可以去hbase shell 手動(dòng)balance,不然就等幾分鐘,master會(huì)執(zhí)行balancer程序。
總結(jié)
以上是生活随笔為你收集整理的【HBase】调查HBase不进行Balance的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于在arcgis中导入excel,并在
- 下一篇: PostgreSql中使用ctid去重