日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

【项目实战】Python基于孤立森林算法(IsolationForest)实现数据异常值检测项目实战

發布時間:2024/1/8 python 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【项目实战】Python基于孤立森林算法(IsolationForest)实现数据异常值检测项目实战 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

說明:這是一個機器學習實戰項目(附帶數據+代碼+文檔+代碼講解),如需數據+代碼+文檔+代碼講解可以直接到文章最后獲取。

??

1.項目背景

? ? ? ?孤立森林是基于Ensemble的快速異常檢測方法,具有線性時間復雜度和高精準度,是符合大數據處理要求的state-of-the-art算法。孤立森林算法適用于連續數據的異常檢測,將異常定義為“容易被孤立的離群點”,可以理解為分布稀疏且離密度高的群體較遠的點。用統計學來解釋,在數據空間里面,分布稀疏的區域表示數據發生在此區域的概率很低,因而可以認為落在這些區域里的數據是異常的。

? ? 孤立森林最早來源于2008年發表的一篇論文《Isolation Forest》,該論文由莫納什大學的 Fei Tony Liu、Kai Ming Ting 和南京大學的周志華合作完成的。孤立森林算法的思想是通過不斷地分割數據集,從而把異常點給孤立出來。分割數據集的依據是反復隨機選取樣本特征,不斷地分割數據集直到每個樣本點都是孤立的。在此情況下,異常點因為具有不同或者特殊的特征值,因此異常點的路徑通常很短,也會比較早被分離出來。

2.數據獲取

本次建模數據來源于網絡(本項目撰寫人整理而成),數據項統計如下:

數據組成:訓練數據1460條、81個特征(38個數值特征和43個分類特征)

?數據詳情如下(部分展示):

3.數據預處理

3.1 用Pandas工具查看數據形狀

使用Pandas工具的shape ()方法查看數據的形狀:

關鍵代碼:

3.2缺失值數據填充

使用Pandas工具的fillna ()方法用0填充缺失的數據,關鍵代碼:

?

3.3生產數據集的特征列表

使用Pandas工具的columns屬性來生成數據集的特征列表:

關鍵代碼:

4.異常數據檢測

使用sklearn工具中的IsolationForest(算法)來進行數據集中異常數據的檢測。

4.1建模

模型參數如下:

4.2擬合與預測

應用fit()方法進行擬合,應用predict()進行預測,預測值分為1和-1,1為正常值,-1為異常值,那么在后續的深度神經網絡模型應用中將會丟棄掉異常值的數據。檢測結果如下:

?

關鍵代碼如下:

4.3正常值結果展示

使用Pandas工具的head()方法來展示正常值數據的前10行:

?

關鍵代碼如下:

5.特征工程

5.1數據歸一化

使用sklearn工具MinMaxScaler()方法來進行數據的無量綱化,即數據的歸一化,歸一化后的數據如下圖:

?

關鍵代碼:

5.2 建立特征數據和標簽數據

SalePrice為標簽數據,除SalePrice之外的為特征數據。關鍵代碼如下:

?

5.3數據集拆分

訓練集拆分,分為訓練集和驗證集,70%訓練集和30%驗證集。關鍵代碼如下:

?

6.構建深度神經網絡模型

主要使用Keras工具的Sequential()方法構建序慣模型,然后添加Dense層,用于目標回歸。

?6.1建模

?關鍵代碼如下:

7.模型評估

7.1評估指標及結

評估指標主要包括均方誤差等等。

?從上表可以看出,損失值較小,深度神經網絡模型效果較好。

關鍵代碼如下:

?

7.3 真實值與預測值比對圖

?

從上圖可以看到,真實值和預測值波動基本一致,說明除去異常值之后的深度神經網絡模型效果較好。

8.結論與展望

綜上所述,使用了孤立森林算法對房價數據進行異常檢測。實驗結果表明,該算法可以有效檢測出房價數據中存在的異常數據。然后把異常數據去除,來構建深度神經網絡模型,模型效果較好。可用于日常生活中進行建模預測,以提高生產價值和效能。

測試集數據預測結果如下:

?

本次機器學習項目實戰所需的資料,項目資源如下:

項目說明:
鏈接:https://pan.baidu.com/s/1dW3S1a6KGdUHK90W-lmA4w?
提取碼:bcbp

網盤如果失效,可以添加博主微信:zy10178083

總結

以上是生活随笔為你收集整理的【项目实战】Python基于孤立森林算法(IsolationForest)实现数据异常值检测项目实战的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。