Ceph 的数据回填和恢复
ceph在增加osd的時(shí)候會觸發(fā)backfill,讓數(shù)據(jù)得到平均,觸發(fā)數(shù)據(jù)的遷移
ceph在移除osd的時(shí)候需要在節(jié)點(diǎn)上進(jìn)行數(shù)據(jù)的恢復(fù),也有數(shù)據(jù)的遷移和生成
只要是集群里面有數(shù)據(jù)的變動就會有網(wǎng)卡流量,cpu,內(nèi)存等資源的占用,并且最重要的是還有磁盤的占用,這個(gè)客戶端也是需要對磁盤進(jìn)行訪問的,當(dāng)請求出現(xiàn)碰撞的時(shí)候,肯定會比正常的情況下要慢很多,而且還有可能因?yàn)橘Y源方面的原因而引起機(jī)器down機(jī)等異常狀況的出現(xiàn)
主要引起的問題可能:
- 在peering的時(shí)候 block 了IO請求
- 在backfill的引起了slow requests
- 上面的兩個(gè)情況會引起客戶端的降速和出現(xiàn)soft lockup
這個(gè)在一般情況下會出現(xiàn)不同的需求:
這個(gè)需要根據(jù)自己可以掌控的程度來進(jìn)行控制,首先環(huán)境的不同,影響不同,遷移數(shù)據(jù)量,網(wǎng)卡的帶寬都是重要的影響因素,從整體上可以根據(jù)自己的環(huán)境按照上面的三個(gè)要求中的一個(gè)進(jìn)行控制
上面的三種情況:
第一個(gè)慢點(diǎn)遷移不能出問題,這個(gè)處理方式比較簡單,直接將相關(guān)參數(shù)控制到最低的值,這個(gè)能保證業(yè)務(wù)的影響最低,但是帶來的影響就是遷移需要很久的時(shí)間,可能長達(dá)幾十個(gè)小時(shí)
第二個(gè)越快越好就是用默認(rèn)的參數(shù)或者加大參數(shù),然后觀察這個(gè)遷移過程中的資源的占用情況
第三個(gè)就是需要在自己的環(huán)境下進(jìn)行多測試驗(yàn)證這個(gè)參數(shù),本篇主要就是根據(jù)思科的測試出來的參數(shù)進(jìn)行分析
下面的參數(shù)是思科測試出來的值:
osd recovery max active = 3 (default : 15)
osd recovery op priority = 3 (default : 10)
osd max backfills = 1 (default : 10)
測試過程的數(shù)據(jù)圖
這個(gè)圖開始的時(shí)候我也沒太明白,后來多看下就理解了,實(shí)際上在很多情況下,一個(gè)因素的變化是會引起其他兩個(gè)因素的變化,而這兩個(gè)因素是一個(gè)正面的因素和一個(gè)負(fù)面的因素,而找到這個(gè)平衡值就是最優(yōu)的情況,在這里的因素包括:
max-backfill和max-recovery :遷移相關(guān)參數(shù)
MTTR(mean time to recovery):失效恢復(fù)時(shí)間,也就是遷移完成
Soft Lockup:前面虛擬機(jī)出現(xiàn)的soft lockup,也可以理解為對前端的影響
測試環(huán)境一致,都是 down 掉10%的osd進(jìn)行恢復(fù):
在遷移參數(shù)最低的時(shí)候,沒有出現(xiàn)soft lockup ,也就是最低遷移參數(shù)的時(shí)候,影響最小,恢復(fù)使用了45分鐘
隨著遷移相關(guān)參數(shù)調(diào)大的時(shí)候,遷移的時(shí)間的曲線是先降低,在到達(dá)一定的值后又開始增加(這個(gè)地方可能是遷移過大出現(xiàn)了前端io鎖住,然后影響了遷移速度)
隨著遷移相關(guān)參數(shù)的調(diào)大,出現(xiàn)soft lockup的情況是增加的
從測試的曲線來看,在2-6之間是出現(xiàn)的最優(yōu)值,也就是出現(xiàn)異常的情況概率最低,并且遷移速度最快,最終選擇了一組最優(yōu)的值 :
osd recovery max active = 3 (default : 15)
osd recovery op priority = 3 (default : 10)
osd max backfills = 1 (default : 10)
這個(gè)值是思科的測試出來的值,這個(gè)值可以根據(jù)自己的需要進(jìn)行取用,大概的情況是這樣
- 完全無法把控就把參數(shù)調(diào)整到最低
- 使用思科的推薦值
- 根據(jù)自己的環(huán)境測出自己環(huán)境的最優(yōu)值
很多參數(shù)是別人根據(jù)自己的環(huán)境測試出來的,很多情況并不是通用的,得到別人測試的思路是最重要的,然后消化后自己根據(jù)自己的需要得出自己的值
總結(jié)
以上是生活随笔為你收集整理的Ceph 的数据回填和恢复的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 流媒体知识点
- 下一篇: 面试官:看你简历写了熟悉Kafka,它为