【PHM】PHM算法与智能分析技术——数据处理与特征提取方法1
PHM算法與智能分析技術——數據處理與特征提取方法1
- 數據預處理目標
- 數據預處理常用方法
本系列來自于北京天澤智云科技有限公司的PHM算法與智能分析技術公開課,內容非常有助于研究者對PHM的理解和學習,因此整理為文字版,方便閱讀和筆記。
公開課視頻地址
本堂課的主要介紹數據處理的宏觀的目標,就是要降低工業場景中建模的3B問題,然后介紹一些常見的數據處理的方法,包括工礦分割數據清洗,針對運動數據的質量檢測,還有數據規劃樣本平衡數據分割等等。
數據預處理目標
對于數據處理來說,核心目標就是要降低工業場景中數據3B問題對后續建模過程的影響。2015年,李杰教授對工業場景工業大數據分析的幾個挑戰做了一個非常精辟的一個概括:在工業場景里主要有Broken、Bad Quality、Background這三個B的挑戰。
第一個Broken是指數據的碎片化,在現場的工業環境之中,數據是分散在很多個信息系統中的,包括常見的這種SCADA系統,還有可能一些震動的CMS系統,還有管理工單ERP等運維輔助相關的系統數據,很難像互聯網場景那樣規整。
第二個挑戰是數據的質量很差,同樣也是來源于工業環境的特殊性,環境比較惡劣,所以采集出來的一些數據的噪聲,包括有時會存在很多異常點的現象,有的時候還是非常嚴重的。
第三個問題是Background,我們稱之為數據的背景性,就是說采集上來數據是受到設備的參數、運行工況、運行狀態,環境等很多背景信息的影響,甚至包括傳感器安裝的位置,這些都需要在數據處理的階段都加以整體化的考慮。
所以,在數據做預處理的時候,幾個最核心的目標就是要能夠把這3B問題盡可能的降低,從而使得后面的建模過程更加的順暢,而且達到模型理想的效果。
總結下來數據處理的目標:第一個是要在這個階段檢測數據的質量,不管是傳感器采上來的數據,還是主控系統接出來的數據,還是震動信號,要確保接下來在建模過程中的異常數據的干擾是非常小的,要在這個階段把數據質量盡可能保證住。
第二個目標就是要在這個過程中去識別數據的一些背景信息,包括剛剛提到的一些運行狀態,或者叫工況,要在這個階段能夠把不同的工況分割出來,而且有些時候要對不同工況下的數據做一定的標準化處理,以便后面的一些特征提取等建模工作。
第三個任務就是要在這個過程中整合碎片化的數據,包括比較常見的數據對齊的問題,比如剛剛舉到這個例子,在傳感器中,在控制器中,在其他的外接系統中采集出來的不同的數據,不同信息系統中提供的數據,要做數據的對齊和整合。
最后一點就是在數據處理過程中,通過數據的變換來強化數據中能夠指導后面建模的線索。比如在風機場景中,我們可能會計算一些葉間速比、風能利用指數等等更能夠表征風機運行狀態的物理量來輔助后續的建模。所以這個是我們數據預處理的一些目標。
數據預處理常用方法
在這一講中介紹六種常見的數據處理的方法,包括工況分割,數據清洗,平滑,針對振動數據的質量檢測,再到數據的規劃,數據的樣本平衡和數據的分割。 這六種常用的方法并不一定在每一次的建模場景中都需要用到,需要根據自己遇到的問題選擇適當的方法來做適當的數據處理。
工號分割的目的是要把設備在不同運行狀態下的數據分割出來,之后做有針對性的特征提取,或者是后續的信號處理。常用的一些用于分割工況的參數,有速度,包括流速轉速等;環境的參數,比如濕度溫度;負載信息;流程性的信息,包括加工的任務,用戶的ID或Recipe的ID等。
下圖是一個典型的工況分割的案例。左圖的數據可以明顯看到有爬升態的過程,有穩態,有下降過程。通過使用一些其他參數作為工況參數來分割這個數據之后,可以得到右邊的三個分割段,分別是兩個暫態:爬升過程和下降過程,還有一個穩態的過程。得到不同的數據段之后,就可以采用不同的特征提取方法來做處理。比如爬升段,把爬升速度作為一個特征,而穩態看穩定性標準差或是均值等特征。
數據清洗就是要把數據中的異常點盡可能的剔除,降低對模型訓練的干擾。在數據清洗過程中有幾種常用的算法。比如,基于數據分布的算法有One Class SVM、Robust covariance、Isolation forest、Local outlier factor等。在選取異常點檢測方法的時候,有時會根據對數據分布的直觀的理解去選擇,有時也需要做一些嘗試;針對時間序列的處理方法,有時候直接用Smoothing方法降低數據造成的影響。比如例圖中原始的數據是藍色的信號,它的波動范圍是比較大的,最后通過Smoothing模型,在這個場景中選擇的是running mean方法把這一個時間段的平均值取出來,然后作為最后特征。
典型的案例就是對風機功率曲線做的異常點剔除,實際采集上來的信號的噪聲是非常大的(紅色標記)。這個就是用One Class SVM方法紅色噪點識別出來,經過剔除之后,得到了清洗過的理想的功率曲線(右圖),來做后續的風機的性能評估。
數據質量檢測往往針對振動信號比較多。如下圖,左邊是一段比較正常的振動信號,右邊是一段不太正常的振動信號,可能是電磁干擾,或是傳感器松動的情況,導致有很多異常點,它的振動信號平均值也比零要偏低一些。常見的質量檢測方法,這里列舉了一些,包括平均值的檢測,RMS值的檢測,能量守恒的檢測等等。在對振動信號分析之前,也會適當地采用這樣的一些方法去檢測所分析的對象是否正常。對于不正常的信號,在后面的提取過程中做一些特別的處理,尤其是信號頻域分析中做一些特別處理,或者把這一段信號直接丟棄,避免它影響接下來建模的結果。
數據歸一化的含義是將數據中不同的變量要轉換到同樣的scale,同樣的取值區間。它的目的一個是要提升數據建模的精度。第二是加速整個參數優化求解的過程,尤其是對于SVM支持向量機或者神經網絡的建模方法,數據歸一化顯得特別重要,它的價值是保留數據中的pattern,而弱化取值大小對建模的影響。典型的案例是,CNC機床有不同類型的信號,比如電流信號,震動信號,經過歸一化處理之后,可以把他們整合在同一個取值范圍下。歸一化常見的方法是減去平均值除以標準差。
數據的樣本平衡在工業場景的建模之中會經常用到,因為往往遇到的一個問題是:采集上來數據的標簽非常不均等,尤其是針對小概率事件,時長一百小時的數據中可能只有兩三分鐘的數據是有異常的。所以在這種過程中往往會采用過采樣、重采樣、欠采樣等不同的采用方法去改善數據不同類別之間的平衡性。比如當故障數據很少的時候,用過采樣的方法把它的數量增多,或是把正常的數據降采樣來保證不同類別數據之間的這種平衡,來提升分類模型建模的效果。比如在下圖中,紅色數據是故障數據,通過過采樣之后,可以把它數據增強,數據的個數增多,然后做最后的建模。
數據分割是把數據集分割成好幾份來分別用作不同的目的。比如常用的生成的三類:訓練集、驗證集、測試集。訓練集就是要訓練模型的參數,驗證集往往是對模型的參數進行調優,而且可以作為初步評估模型是否準確的數據樣本,測試集往往是一類全新的數據,沒有在訓練和驗證過程中出現,是用來得到最后的模型的指標。 在做分割的時候,會采用分層抽樣的方法,對于分類模型采用分層抽樣的方法來確保訓練集、驗證集之間不同類型的樣本的比例,和整個population的比例是基本保持一致的。
要注意的一點,在數據預處理過程中,不能盲目的去做一些事情,要在這個過程中加深對數據本身、業務場景本身的理解,由機理驅動,做預處理的工作。
總結
以上是生活随笔為你收集整理的【PHM】PHM算法与智能分析技术——数据处理与特征提取方法1的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: FFmpeg移植
- 下一篇: 雷蛇被曝0day漏洞 插入鼠标或键盘可快