【项目实战】Python基于孤立森林算法(IsolationForest)实现数据异常值检测项目实战
說明:這是一個機器學習實戰項目(附帶數據+代碼+文檔+代碼講解),如需數據+代碼+文檔+代碼講解可以直接到文章最后獲取。
??
1.項目背景
? ? ? ?孤立森林是基于Ensemble的快速異常檢測方法,具有線性時間復雜度和高精準度,是符合大數據處理要求的state-of-the-art算法。孤立森林算法適用于連續數據的異常檢測,將異常定義為“容易被孤立的離群點”,可以理解為分布稀疏且離密度高的群體較遠的點。用統計學來解釋,在數據空間里面,分布稀疏的區域表示數據發生在此區域的概率很低,因而可以認為落在這些區域里的數據是異常的。
? ? 孤立森林最早來源于2008年發表的一篇論文《Isolation Forest》,該論文由莫納什大學的 Fei Tony Liu、Kai Ming Ting 和南京大學的周志華合作完成的。孤立森林算法的思想是通過不斷地分割數據集,從而把異常點給孤立出來。分割數據集的依據是反復隨機選取樣本特征,不斷地分割數據集直到每個樣本點都是孤立的。在此情況下,異常點因為具有不同或者特殊的特征值,因此異常點的路徑通常很短,也會比較早被分離出來。
2.數據獲取
本次建模數據來源于網絡(本項目撰寫人整理而成),數據項統計如下:
數據組成:訓練數據1460條、81個特征(38個數值特征和43個分類特征)
?數據詳情如下(部分展示):
3.數據預處理
3.1 用Pandas工具查看數據形狀
使用Pandas工具的shape ()方法查看數據的形狀:
關鍵代碼:
3.2缺失值數據填充
使用Pandas工具的fillna ()方法用0填充缺失的數據,關鍵代碼:
?
3.3生產數據集的特征列表
使用Pandas工具的columns屬性來生成數據集的特征列表:
關鍵代碼:
4.異常數據檢測
使用sklearn工具中的IsolationForest(算法)來進行數據集中異常數據的檢測。
4.1建模
模型參數如下:
4.2擬合與預測
應用fit()方法進行擬合,應用predict()進行預測,預測值分為1和-1,1為正常值,-1為異常值,那么在后續的深度神經網絡模型應用中將會丟棄掉異常值的數據。檢測結果如下:
?
關鍵代碼如下:
4.3正常值結果展示
使用Pandas工具的head()方法來展示正常值數據的前10行:
?
關鍵代碼如下:
5.特征工程
5.1數據歸一化
使用sklearn工具MinMaxScaler()方法來進行數據的無量綱化,即數據的歸一化,歸一化后的數據如下圖:
?
關鍵代碼:
5.2 建立特征數據和標簽數據
SalePrice為標簽數據,除SalePrice之外的為特征數據。關鍵代碼如下:
?
5.3數據集拆分
訓練集拆分,分為訓練集和驗證集,70%訓練集和30%驗證集。關鍵代碼如下:
?
6.構建深度神經網絡模型
主要使用Keras工具的Sequential()方法構建序慣模型,然后添加Dense層,用于目標回歸。
?6.1建模
?關鍵代碼如下:
7.模型評估
7.1評估指標及結果
評估指標主要包括均方誤差等等。
?從上表可以看出,損失值較小,深度神經網絡模型效果較好。
關鍵代碼如下:
?
7.3 真實值與預測值比對圖
?
從上圖可以看到,真實值和預測值波動基本一致,說明除去異常值之后的深度神經網絡模型效果較好。
8.結論與展望
綜上所述,使用了孤立森林算法對房價數據進行異常檢測。實驗結果表明,該算法可以有效檢測出房價數據中存在的異常數據。然后把異常數據去除,來構建深度神經網絡模型,模型效果較好。可用于日常生活中進行建模預測,以提高生產價值和效能。
測試集數據預測結果如下:
?
本次機器學習項目實戰所需的資料,項目資源如下:
項目說明:
鏈接:https://pan.baidu.com/s/1dW3S1a6KGdUHK90W-lmA4w?
提取碼:bcbp
網盤如果失效,可以添加博主微信:zy10178083
總結
以上是生活随笔為你收集整理的【项目实战】Python基于孤立森林算法(IsolationForest)实现数据异常值检测项目实战的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大数据带来新机遇:如何利用大数据技术优化
- 下一篇: Python: numpy tile()