日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

IBM-kmeans-坏盘预测

發布時間:2024/1/8 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 IBM-kmeans-坏盘预测 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

換盤預測

論文:《Predicting Disk Replacement towards Reliable Data Centers》

作者:Mirela Botezatu,IBM蘇黎世研究院

?

1.介紹

目標:

1)找到對換盤事件最相關的SMART屬性。

2)用這些屬性構建統計模型,自動預測下一次換盤事件。

?

方法:

1)時間序列的變化點偵測,識別相關SMART屬性。

2)把事件序列轉換成樣本集合,通過把多個事件編碼成單獨的數據點,從而得到壓縮過,但是有價值的特征。

3)構建預測分類模型

4)用遷移學習方法

?

問題:

1)不同廠商的SMART屬性不同,需要為廠商單獨建立模型。

2)磁盤數據不均衡,只有2%需要更換。

?

2.預測換盤

算法1 磁盤更換預測算法

輸入:SMART屬性時間序列,加上換盤信息

1. 找到指示換盤的SMART屬性子集,通過在時間序列中識別顯著變化點。

2. 對步驟1得到的每個相關序列,通過指數平滑,得到高度信息的壓縮表示。

3. 通過K-means聚類,進行downsampling,來處理類別間不均衡問題。

4. 用步驟3的訓練數據訓練一個分類模型

輸出:用小規模SMART屬性可以預測換盤事件的預測模型。

?

2.1.選擇相關SMART屬性

表示目標SMART屬性的時間序列,包含p個時間點的數據,p是最近時間點。

用【7】的方法偵測中的顯著變化時間點t。總結而言,

?

使得:

?

這里的:

?

?

下一步,驗證這個變化是不是永久性的,看如下兩個時間序列的差異是不是顯著:一個是現有的SMART屬性序列,另一個是相同屬性序列,但是去掉觀察到的t時刻的顯著變化。具體步驟如下:

?

第一步,令時間序列

?

表示觀察到的中從t到p的子序列。P時間點表示換盤時間點。

?

第二步,生成一個合成時間序列

?

除去了t時刻的顯著變化點。更確切說,我們用貝葉斯結構時間序列模型計算的后驗分布,

?

給定t時刻前的未變化序列,以及控制時間序列。控制時間序列是從健康磁盤采樣得到的時間序列。

?

最后,目標SMART屬性的確是換盤指示屬性,如果變化點后面的實際時間序列的概率分布,與從健康磁盤生成的合成序列的分布顯著不同。通過假設檢驗來估計這種區別。

?

形式化的,令和是從未知分布P和Q分別生成的。假設檢驗下述:

?

?

我們檢查我們是否可以拋棄零假設。

2.2.壓縮時間序列表示

1)按天的觀察還不夠,我們需要考慮更長的時間窗口。因為磁盤內部有恢復機制,造成單獨一天的記錄不夠穩定。

2)如果我們考慮到磁盤生命周期的最后一天,模型不能提前預測。

?

我們用滑動窗口,把原始數據集合劃分成小節。在時間窗口上用指數平滑,變成一個值。

?

?

上述公式中,作為時刻t平滑值,基于t時刻的觀測值,和t-1時刻的平滑值。當把窗口寬度擴展為k,成為一定數量的直到的過去觀測值的加權和。K越小,平滑效果差,但是對新的變化更敏感。參數控制老觀測值衰減的速度。

?

對每個SMART屬性,時間窗口寬度是2.1步驟中顯著變化的事件區間分布的中值。

?

2.3.通過降采樣來平衡類別

大量的盤是好盤,因此訓練集是不均衡的。

解決方案是用健康磁盤的代表性子集。

用K-mean聚類算法【15】,把觀察到的健康磁盤數據劃分成k個聚類。

每一個聚類中,選擇離聚類中心最近的數據點,作為代表性數據。

最后,我們生成一個平衡的訓練集,通過選擇k與壞盤樣本數接近即可。

2.4. 分類算法

訓練數據集:

?

,表示多變量時序觀察信息,在時間點和之間。

y是二值響應變量,

要學習一個函數

可以最小化損失函數

?

選擇的算法是RGF【14】。比GBDT【21】和隨機森林【6】,以及SVM【8】,邏輯回歸【9】的精確性更好。

  • RGF引入一個明確的正則化項:

?

?

  • RGF引入fully-corrective貪婪算法,迭代修改當前獲得的所有葉子節點(決策規則)的權重,同時通過貪婪搜索法向森林里增加新規則。這里,一個明確的正則項加到里面,防止過擬合。
  • RGF利用結構化稀疏來直接執行貪婪搜索。

?

算法2 正則化貪婪森林框架

?

While 停止標準不滿足 do:

修改權重,調整森林結構s

計算

If 某種條件匹配命中 then:

修正結構,改變F中的權重,使得,Q(F)中的loss最小化。

End if

End While

優化F中的葉子權重,來最小化Q(F)中的loss

Return

結束

?

F表示一個森林

F中的每個節點v關聯一個元組

表示節點v的basis函數

表示節點v的權重

模型F定義為

對于v的內部節點,有

?

公式(4)的正則損失是F的一個函數:

?

S(F)表示F的所有結構改變操作(如,節點分割,或者增加一個新樹)

?

2.5. 遷移學習

用某個特定磁盤訓練的模型,遷移到同廠商的新磁盤模型上。

?

算法3:不同模型間的遷移學習

輸入

從磁盤模型1搜集到的標記數據

從磁盤模型2搜集到的未標記數據

?

過程:

用來學習一個函數,f(x)表示一塊磁盤屬于“”或“”的概率。

根據f,從采樣一個子集

用來學習一個函數,g是算法2,g(x)表示一個類型的磁盤需要更換的概率。

?

輸出

磁盤模型2的更換預測模型。

?

算法背后的想法是,訓練一個分類器,可以rank相似性,介于,連接到一個特定磁盤模型的觀測結果,以及預訓練的目標磁盤模型的觀察結果。

?

3. 評估

3.1.模型描述和實驗建立

數據集是Backblaze數據集:https://www.backblaze.com/hard-drive-test-data.html

包含了50984塊磁盤,27個月(2013年4月到2015年6月)的觀察數據,以天為粒度。

數據格式:

(1)時間戳

(2)磁盤序列號

(3)磁盤模型

(4)磁盤容量

(5)失效 健康0,換盤1

(6)SMART統計數據

?

從磁盤模型,可以提取廠商,我們的分析基于Hitachi和Seagate兩個廠商。

同時也除去了一些數據,最終數據從2014年1月到2016年6月,共17個月。

?

構建的磁盤模型

SgtA Seagate ST4000DM000

HitA Hitachi HDS22020ALA330

然后,我們評估遷移學習效果:

從SgtA到SgtB ST31500541AS

從HitA到HitB HDS5C3030ALA630

?

表一是數據信息:

?

?

?

3.2. SMART屬性選擇

每個SMART指示器有兩個值:原始值,和正則化值。

原始值表示技術,或者物理計量值(溫度、毫秒數等)

正則化值是廠商特定的映射。

?

?

圖2圖示了SMART_187_raw的時間序列,SgtA磁盤,80天。

我們對希捷和日立磁盤分布做了變化點分析,結果見表2。每個參數,我們報告了磁盤數的百分比,觀察到了相關。

?

?

?

3.3. 數據壓縮

圖4展示了,當6個變化點觀察到了之后,換盤天數的分布

read error rate,

the number of reallocated sectors,

the number of pending sectors,

the reported uncorrectable errors,

the seek error count

the transfer error rate

我們用這些中值來做事件序列窗口。

?

?

?

?

?

?

?

?

?

?

?

4. 部署

?

5. 相關工作

總結

以上是生活随笔為你收集整理的IBM-kmeans-坏盘预测的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。