當前位置：首頁 > 编程语言 > python >内容正文

python

【项目实战】Python基于孤立森林算法(IsolationForest)实现数据异常值检测项目实战

發布時間：2024/1/8 python 44 豆豆

生活随笔收集整理的這篇文章主要介紹了【项目实战】Python基于孤立森林算法(IsolationForest)实现数据异常值检测项目实战小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

說明：這是一個機器學習實戰項目（附帶數據+代碼+文檔+代碼講解），如需數據+代碼+文檔+代碼講解可以直接到文章最后獲取。

1.項目背景

? ? ? ?孤立森林是基于Ensemble的快速異常檢測方法，具有線性時間復雜度和高精準度，是符合大數據處理要求的state-of-the-art算法。孤立森林算法適用于連續數據的異常檢測，將異常定義為“容易被孤立的離群點”，可以理解為分布稀疏且離密度高的群體較遠的點。用統計學來解釋，在數據空間里面，分布稀疏的區域表示數據發生在此區域的概率很低，因而可以認為落在這些區域里的數據是異常的。

? ? 孤立森林最早來源于2008年發表的一篇論文《Isolation Forest》，該論文由莫納什大學的 Fei Tony Liu、Kai Ming Ting 和南京大學的周志華合作完成的。孤立森林算法的思想是通過不斷地分割數據集，從而把異常點給孤立出來。分割數據集的依據是反復隨機選取樣本特征，不斷地分割數據集直到每個樣本點都是孤立的。在此情況下，異常點因為具有不同或者特殊的特征值，因此異常點的路徑通常很短，也會比較早被分離出來。

2.數據獲取

本次建模數據來源于網絡(本項目撰寫人整理而成)，數據項統計如下：

數據組成：訓練數據1460條、81個特征(38個數值特征和43個分類特征)

?數據詳情如下(部分展示)：

3.數據預處理

3.1 用Pandas工具查看數據形狀

使用Pandas工具的shape ()方法查看數據的形狀：

關鍵代碼：

3.2缺失值數據填充

使用Pandas工具的fillna ()方法用0填充缺失的數據，關鍵代碼：

3.3生產數據集的特征列表

使用Pandas工具的columns屬性來生成數據集的特征列表：

關鍵代碼：

4.異常數據檢測

使用sklearn工具中的IsolationForest(算法)來進行數據集中異常數據的檢測。

4.1建模

模型參數如下：

4.2擬合與預測

應用fit()方法進行擬合，應用predict()進行預測，預測值分為1和-1,1為正常值，-1為異常值，那么在后續的深度神經網絡模型應用中將會丟棄掉異常值的數據。檢測結果如下：

關鍵代碼如下：

4.3正常值結果展示

使用Pandas工具的head()方法來展示正常值數據的前10行：

關鍵代碼如下：

5.特征工程

5.1數據歸一化

使用sklearn工具MinMaxScaler()方法來進行數據的無量綱化，即數據的歸一化，歸一化后的數據如下圖：

關鍵代碼：

5.2 建立特征數據和標簽數據

SalePrice為標簽數據，除SalePrice之外的為特征數據。關鍵代碼如下：

5.3數據集拆分

訓練集拆分，分為訓練集和驗證集，70%訓練集和30%驗證集。關鍵代碼如下：

6.構建深度神經網絡模型

主要使用Keras工具的Sequential()方法構建序慣模型，然后添加Dense層，用于目標回歸。

?6.1建模

?關鍵代碼如下：

7.模型評估

7.1評估指標及結果

評估指標主要包括均方誤差等等。

?從上表可以看出，損失值較小，深度神經網絡模型效果較好。

關鍵代碼如下：

7.3 真實值與預測值比對圖

從上圖可以看到，真實值和預測值波動基本一致，說明除去異常值之后的深度神經網絡模型效果較好。

8.結論與展望

綜上所述，使用了孤立森林算法對房價數據進行異常檢測。實驗結果表明，該算法可以有效檢測出房價數據中存在的異常數據。然后把異常數據去除，來構建深度神經網絡模型，模型效果較好。可用于日常生活中進行建模預測，以提高生產價值和效能。

測試集數據預測結果如下：

本次機器學習項目實戰所需的資料，項目資源如下：

項目說明：
鏈接：https://pan.baidu.com/s/1dW3S1a6KGdUHK90W-lmA4w?
提取碼：bcbp

網盤如果失效，可以添加博主微信：zy10178083

總結

以上是生活随笔為你收集整理的【项目实战】Python基于孤立森林算法(IsolationForest)实现数据异常值检测项目实战的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：大数据带来新机遇：如何利用大数据技术优化
下一篇： Python: numpy tile()