IBM-kmeans-坏盘预测
換盤(pán)預(yù)測(cè)
論文:《Predicting Disk Replacement towards Reliable Data Centers》
作者:Mirela Botezatu,IBM蘇黎世研究院
?
1.介紹
目標(biāo):
1)找到對(duì)換盤(pán)事件最相關(guān)的SMART屬性。
2)用這些屬性構(gòu)建統(tǒng)計(jì)模型,自動(dòng)預(yù)測(cè)下一次換盤(pán)事件。
?
方法:
1)時(shí)間序列的變化點(diǎn)偵測(cè),識(shí)別相關(guān)SMART屬性。
2)把事件序列轉(zhuǎn)換成樣本集合,通過(guò)把多個(gè)事件編碼成單獨(dú)的數(shù)據(jù)點(diǎn),從而得到壓縮過(guò),但是有價(jià)值的特征。
3)構(gòu)建預(yù)測(cè)分類(lèi)模型
4)用遷移學(xué)習(xí)方法
?
問(wèn)題:
1)不同廠商的SMART屬性不同,需要為廠商單獨(dú)建立模型。
2)磁盤(pán)數(shù)據(jù)不均衡,只有2%需要更換。
?
2.預(yù)測(cè)換盤(pán)
算法1 磁盤(pán)更換預(yù)測(cè)算法
輸入:SMART屬性時(shí)間序列,加上換盤(pán)信息
1. 找到指示換盤(pán)的SMART屬性子集,通過(guò)在時(shí)間序列中識(shí)別顯著變化點(diǎn)。
2. 對(duì)步驟1得到的每個(gè)相關(guān)序列,通過(guò)指數(shù)平滑,得到高度信息的壓縮表示。
3. 通過(guò)K-means聚類(lèi),進(jìn)行downsampling,來(lái)處理類(lèi)別間不均衡問(wèn)題。
4. 用步驟3的訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)分類(lèi)模型
輸出:用小規(guī)模SMART屬性可以預(yù)測(cè)換盤(pán)事件的預(yù)測(cè)模型。
?
2.1.選擇相關(guān)SMART屬性
表示目標(biāo)SMART屬性的時(shí)間序列,包含p個(gè)時(shí)間點(diǎn)的數(shù)據(jù),p是最近時(shí)間點(diǎn)。
用【7】的方法偵測(cè)中的顯著變化時(shí)間點(diǎn)t。總結(jié)而言,
?
使得:
?
這里的:
?
?
下一步,驗(yàn)證這個(gè)變化是不是永久性的,看如下兩個(gè)時(shí)間序列的差異是不是顯著:一個(gè)是現(xiàn)有的SMART屬性序列,另一個(gè)是相同屬性序列,但是去掉觀察到的t時(shí)刻的顯著變化。具體步驟如下:
?
第一步,令時(shí)間序列
?
表示觀察到的中從t到p的子序列。P時(shí)間點(diǎn)表示換盤(pán)時(shí)間點(diǎn)。
?
第二步,生成一個(gè)合成時(shí)間序列
?
除去了t時(shí)刻的顯著變化點(diǎn)。更確切說(shuō),我們用貝葉斯結(jié)構(gòu)時(shí)間序列模型計(jì)算的后驗(yàn)分布,
?
給定t時(shí)刻前的未變化序列,以及控制時(shí)間序列。控制時(shí)間序列是從健康磁盤(pán)采樣得到的時(shí)間序列。
?
最后,目標(biāo)SMART屬性的確是換盤(pán)指示屬性,如果變化點(diǎn)后面的實(shí)際時(shí)間序列的概率分布,與從健康磁盤(pán)生成的合成序列的分布顯著不同。通過(guò)假設(shè)檢驗(yàn)來(lái)估計(jì)這種區(qū)別。
?
形式化的,令和是從未知分布P和Q分別生成的。假設(shè)檢驗(yàn)下述:
?
?
我們檢查我們是否可以拋棄零假設(shè)。
2.2.壓縮時(shí)間序列表示
1)按天的觀察還不夠,我們需要考慮更長(zhǎng)的時(shí)間窗口。因?yàn)榇疟P(pán)內(nèi)部有恢復(fù)機(jī)制,造成單獨(dú)一天的記錄不夠穩(wěn)定。
2)如果我們考慮到磁盤(pán)生命周期的最后一天,模型不能提前預(yù)測(cè)。
?
我們用滑動(dòng)窗口,把原始數(shù)據(jù)集合劃分成小節(jié)。在時(shí)間窗口上用指數(shù)平滑,變成一個(gè)值。
?
?
上述公式中,作為時(shí)刻t平滑值,基于t時(shí)刻的觀測(cè)值,和t-1時(shí)刻的平滑值。當(dāng)把窗口寬度擴(kuò)展為k,成為一定數(shù)量的直到的過(guò)去觀測(cè)值的加權(quán)和。K越小,平滑效果差,但是對(duì)新的變化更敏感。參數(shù)控制老觀測(cè)值衰減的速度。
?
對(duì)每個(gè)SMART屬性,時(shí)間窗口寬度是2.1步驟中顯著變化的事件區(qū)間分布的中值。
?
2.3.通過(guò)降采樣來(lái)平衡類(lèi)別
大量的盤(pán)是好盤(pán),因此訓(xùn)練集是不均衡的。
解決方案是用健康磁盤(pán)的代表性子集。
用K-mean聚類(lèi)算法【15】,把觀察到的健康磁盤(pán)數(shù)據(jù)劃分成k個(gè)聚類(lèi)。
每一個(gè)聚類(lèi)中,選擇離聚類(lèi)中心最近的數(shù)據(jù)點(diǎn),作為代表性數(shù)據(jù)。
最后,我們生成一個(gè)平衡的訓(xùn)練集,通過(guò)選擇k與壞盤(pán)樣本數(shù)接近即可。
2.4. 分類(lèi)算法
訓(xùn)練數(shù)據(jù)集:
?
,表示多變量時(shí)序觀察信息,在時(shí)間點(diǎn)和之間。
y是二值響應(yīng)變量,
要學(xué)習(xí)一個(gè)函數(shù)
可以最小化損失函數(shù)
?
選擇的算法是RGF【14】。比GBDT【21】和隨機(jī)森林【6】,以及SVM【8】,邏輯回歸【9】的精確性更好。
- RGF引入一個(gè)明確的正則化項(xiàng):
?
?
- RGF引入fully-corrective貪婪算法,迭代修改當(dāng)前獲得的所有葉子節(jié)點(diǎn)(決策規(guī)則)的權(quán)重,同時(shí)通過(guò)貪婪搜索法向森林里增加新規(guī)則。這里,一個(gè)明確的正則項(xiàng)加到里面,防止過(guò)擬合。
- RGF利用結(jié)構(gòu)化稀疏來(lái)直接執(zhí)行貪婪搜索。
?
算法2 正則化貪婪森林框架
?
While 停止標(biāo)準(zhǔn)不滿足 do:
修改權(quán)重,調(diào)整森林結(jié)構(gòu)s
計(jì)算
If 某種條件匹配命中 then:
修正結(jié)構(gòu),改變F中的權(quán)重,使得,Q(F)中的loss最小化。
End if
End While
優(yōu)化F中的葉子權(quán)重,來(lái)最小化Q(F)中的loss
Return
結(jié)束
?
F表示一個(gè)森林
F中的每個(gè)節(jié)點(diǎn)v關(guān)聯(lián)一個(gè)元組
表示節(jié)點(diǎn)v的basis函數(shù)
表示節(jié)點(diǎn)v的權(quán)重
模型F定義為
對(duì)于v的內(nèi)部節(jié)點(diǎn),有
?
公式(4)的正則損失是F的一個(gè)函數(shù):
?
S(F)表示F的所有結(jié)構(gòu)改變操作(如,節(jié)點(diǎn)分割,或者增加一個(gè)新樹(shù))
?
2.5. 遷移學(xué)習(xí)
用某個(gè)特定磁盤(pán)訓(xùn)練的模型,遷移到同廠商的新磁盤(pán)模型上。
?
算法3:不同模型間的遷移學(xué)習(xí)
輸入:
從磁盤(pán)模型1搜集到的標(biāo)記數(shù)據(jù)
從磁盤(pán)模型2搜集到的未標(biāo)記數(shù)據(jù)
?
過(guò)程:
用來(lái)學(xué)習(xí)一個(gè)函數(shù),f(x)表示一塊磁盤(pán)屬于“”或“”的概率。
根據(jù)f,從采樣一個(gè)子集
用來(lái)學(xué)習(xí)一個(gè)函數(shù),g是算法2,g(x)表示一個(gè)類(lèi)型的磁盤(pán)需要更換的概率。
?
輸出:
磁盤(pán)模型2的更換預(yù)測(cè)模型。
?
算法背后的想法是,訓(xùn)練一個(gè)分類(lèi)器,可以rank相似性,介于,連接到一個(gè)特定磁盤(pán)模型的觀測(cè)結(jié)果,以及預(yù)訓(xùn)練的目標(biāo)磁盤(pán)模型的觀察結(jié)果。
?
3. 評(píng)估
3.1.模型描述和實(shí)驗(yàn)建立
數(shù)據(jù)集是Backblaze數(shù)據(jù)集:https://www.backblaze.com/hard-drive-test-data.html
包含了50984塊磁盤(pán),27個(gè)月(2013年4月到2015年6月)的觀察數(shù)據(jù),以天為粒度。
數(shù)據(jù)格式:
(1)時(shí)間戳
(2)磁盤(pán)序列號(hào)
(3)磁盤(pán)模型
(4)磁盤(pán)容量
(5)失效 健康0,換盤(pán)1
(6)SMART統(tǒng)計(jì)數(shù)據(jù)
?
從磁盤(pán)模型,可以提取廠商,我們的分析基于Hitachi和Seagate兩個(gè)廠商。
同時(shí)也除去了一些數(shù)據(jù),最終數(shù)據(jù)從2014年1月到2016年6月,共17個(gè)月。
?
構(gòu)建的磁盤(pán)模型
SgtA Seagate ST4000DM000
HitA Hitachi HDS22020ALA330
然后,我們?cè)u(píng)估遷移學(xué)習(xí)效果:
從SgtA到SgtB ST31500541AS
從HitA到HitB HDS5C3030ALA630
?
表一是數(shù)據(jù)信息:
?
?
?
3.2. SMART屬性選擇
每個(gè)SMART指示器有兩個(gè)值:原始值,和正則化值。
原始值表示技術(shù),或者物理計(jì)量值(溫度、毫秒數(shù)等)
正則化值是廠商特定的映射。
?
?
圖2圖示了SMART_187_raw的時(shí)間序列,SgtA磁盤(pán),80天。
我們對(duì)希捷和日立磁盤(pán)分布做了變化點(diǎn)分析,結(jié)果見(jiàn)表2。每個(gè)參數(shù),我們報(bào)告了磁盤(pán)數(shù)的百分比,觀察到了相關(guān)。
?
?
?
3.3. 數(shù)據(jù)壓縮
圖4展示了,當(dāng)6個(gè)變化點(diǎn)觀察到了之后,換盤(pán)天數(shù)的分布
read error rate,
the number of reallocated sectors,
the number of pending sectors,
the reported uncorrectable errors,
the seek error count
the transfer error rate
我們用這些中值來(lái)做事件序列窗口。
?
?
?
?
?
?
?
?
?
?
?
4. 部署
?
5. 相關(guān)工作
總結(jié)
以上是生活随笔為你收集整理的IBM-kmeans-坏盘预测的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 华为m40怎么升级鸿蒙,华为再亮剑,这四
- 下一篇: WSL安装桌面