日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

孤立森林异常检测之入门

發布時間:2025/3/19 编程问答 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 孤立森林异常检测之入门 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

iForest (Isolation Forest)孤立森林 是一個基于Ensemble的快速異常檢測方法,具有線性時間復雜度和高精準度,是符合大數據處理要求的state-of-the-art算法(詳見新版教材“Outlier Analysis”第5和第6章 PDF)。其可以用于網絡安全中的攻擊檢測,金融交易欺詐檢測,疾病偵測,和噪聲數據過濾等。本文將通俗解釋實現方法和日常運用,即無需深厚的數學功底。

首先,我們先了解下該算法的動機。目前學術界對異常(anomaly detection)的定義有很多種,iForest 適用與連續數據(Continuous numerical data)的異常檢測,將異常定義為“容易被孤立的離群點 (more likely to be separated)”——可以理解為分布稀疏且離密度高的群體較遠的點。用統計學來解釋,在數據空間里面,分布稀疏的區域表示數據發生在此區域的概率很低,因而可以認為落在這些區域里的數據是異常的。一個例子如下(來源):

黑色的點為異常點,白色點為正常的點(在一個簇中)。iForest檢測到的異常邊界為紅色,它可以正確地檢測到所有黑點異常點。

iForest屬于Non-parametric和unsupervised的方法,即不用定義數學模型也不需要有標記的訓練。對于如何查找哪些點是否容易被孤立(isolated),iForest使用了一套非常高效的策略。假設我們用一個隨機超平面來切割(split)數據空間(data space), 切一次可以生成兩個子空間(想象拿刀切蛋糕一分為二)。之后我們再繼續用一個隨機超平面來切割每個子空間,循環下去,直到每子空間里面只有一個數據點為止。直觀上來講,我們可以發現那些密度很高的簇是可以被切很多次才會停止切割,但是那些密度很低的點很容易很早的就停到一個子空間了。上圖里面黑色的點就很容易被切幾次就停到一個子空間,而白色點聚集的地方可以切很多次才停止。

怎么來切這個數據空間是iForest的設計核心思想,本文僅介紹最基本的方法。由于切割是隨機的,所以需要用ensemble的方法來得到一個收斂值(蒙特卡洛方法),即反復從頭開始切,然后平均每次切的結果。iForest 由t個iTree(Isolation Tree)孤立樹 組成,每個iTree是一個二叉樹結構,其實現步驟如下:

1. 從訓練數據中隨機選擇Ψ個點樣本點作為subsample,放入樹的根節點。

2. 隨機指定一個維度(attribute),在當前節點數據中隨機產生一個切割點p——切割點產生于當前節點數據中指定維度的最大值和最小值之間。

3. 以此切割點生成了一個超平面,然后將當前節點數據空間劃分為2個子空間:把指定維度里小于p的數據放在當前節點的左孩子,把大于等于p的數據放在當前節點的右孩子。

4. 在孩子節點中遞歸步驟2和3,不斷構造新的孩子節點,直到 孩子節點中只有一個數據(無法再繼續切割) 或 孩子節點已到達限定高度 。

獲得t個iTree之后,iForest 訓練就結束,然后我們可以用生成的iForest來評估測試數據了。對于一個訓練數據x,我們令其遍歷每一棵iTree,然后計算x最終落在每個樹第幾層(x在樹的高度)。然后我們可以得出x在每棵樹的高度平均值,即 the average path length over t iTrees。*值得注意的是,如果x落在一個節點中含多個訓練數據,可以使用一個公式來修正x的高度計算,詳細公式推導見原論文。

獲得每個測試數據的average path length后,我們可以設置一個閾值(邊界值),average path length 低于此閾值的測試數據即為異常。也就是說 “iForest identifies anomalies as instances having the shortest average path lengths in a dataset ”(異常在這些樹中只有很短的平均高度). *值得注意的是,論文中對樹的高度做了歸一化,并得出一個0到1的數值,即越短的高度越接近1(異常的可能性越高)。

4個測試樣本遍歷一棵iTree的例子如下:

?

b和c的高度為3,a的高度是2,d的高度是1。

可以看到d最有可能是異常,因為其最早就被孤立(isolated)了。

?


生成一棵iTree的詳細算法(來源):

X為獨立抽取的訓練樣本。參數e的初始值為0。h是樹可以生成的最大高度。

iForest算法默認參數設置如下:

subsample size: 256

Tree height: 8

Number of trees: 100

通俗解釋就是——建100棵iTree,每棵iTree最高8層,且每棵iTree都是獨立隨機選擇256個數據樣本建成。


個人見解:

1. iForest具有線性時間復雜度。因為是ensemble的方法,所以可以用在含有海量數據的數據集上面。通常樹的數量越多,算法越穩定。由于每棵樹都是互相獨立生成的,因此可以部署在大規模分布式系統上來加速運算。

2. iForest不適用于特別高維的數據。由于每次切數據空間都是隨機選取一個維度,建完樹后仍然有大量的維度信息沒有被使用,導致算法可靠性降低。高維空間還可能存在大量噪音維度或無關維度(irrelevant attributes),影響樹的構建。對這類數據,建議使用子空間異常檢測(Subspace Anomaly Detection)技術。此外,切割平面默認是axis-parallel的,也可以隨機生成各種角度的切割平面,詳見“On Detecting Clustered Anomalies Using SCiForest”。

3. iForest僅對Global Anomaly 敏感,即全局稀疏點敏感,不擅長處理局部的相對稀疏點 (Local Anomaly)。目前已有改進方法發表于PAKDD,詳見“Improving iForest with Relative Mass”。

4. iForest推動了重心估計(Mass Estimation)理論發展,目前在分類聚類和異常檢測中都取得顯著效果,發表于各大頂級數據挖掘會議和期刊(如SIGKDD,ICDM,ECML)。


參考文獻

iForest 是劉飛博士(Fei Tony Liu)在莫納什大學就讀期間由陳開明(Kai-Ming Ting)教授和周志華(Zhi-Hua Zhou)教授指導發表的。第一個版本是在2008年ICDM上,獲得年度最佳論文,擴充版本發表與TKDD。

Liu, Fei Tony, Kai Ming Ting, and Zhi-Hua Zhou. "Isolation forest."Data Mining, 2008. ICDM'08. Eighth IEEE International Conference on. IEEE, 2008.

Liu, Fei Tony, Kai Ming Ting, and Zhi-Hua Zhou. "Isolation-based anomaly detection."ACM Transactions on Knowledge Discovery from Data (TKDD)6.1 (2012): 3.

論文下載

http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf

http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/tkdd11.pdf

源碼下載

R語言 ? ?https://sourceforge.net/projects/iforest/

Python語言 ? ?http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.IsolationForest.html

Java語言 ? ?http://weka.sourceforge.net/packageMetaData/isolationForest/index.html

Matlab語言?https://github.com/zhuye88/iForest



作者:YeZhu
鏈接:https://www.jianshu.com/p/5af3c66e0410
來源:簡書
簡書著作權歸作者所有,任何形式的轉載都請聯系作者獲得授權并注明出處。

與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的孤立森林异常检测之入门的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 蜜臀国产AV天堂久久无码蜜臀 | 日本少妇18p | 产乳奶汁h文1v1 | 免费看黄色片视频 | 国产一区二区视频播放 | 成人在线免费播放 | 国产色吧 | 亚洲最新在线观看 | 欧美成人综合 | 一区二区黄色 | 午夜av导航 | 在线观看欧美日韩视频 | 久操视频免费看 | 一区二区三区在线观看免费 | 偷拍视频一区二区 | 久久久久9| 丰满少妇高潮一区二区 | 制服中文字幕 | 五月天视频 | 一道本久在线中文字幕 | 国产夫妻在线观看 | 国产精品第8页 | 都市激情男人天堂 | 级毛片内射视频 | 在线成人毛片 | 蜜臀久久精品久久久久久酒店 | 18女人毛片| 国产精品一区二区入口九绯色 | 久久aaaa片一区二区 | 男女黄床上色视频 | 国语对白真实视频播放 | 日韩男女啪啪 | 黄色国产一级 | 一区二区视频在线观看 | 人妻va精品va欧美va | 中文国产| 欧美精品一区二区三区久久 | 裸体喂奶一级裸片 | 成人国产免费视频 | 九色婷婷 | av网站国产 | 天天色棕合合合合合合合 | 欧美极品在线视频 | av手机在线免费观看 | 91在线一区二区三区 | av黄色在线播放 | 色狠狠一区二区三区 | 国产福利视频一区二区 | 一本之道av | 国产黄色录相 | 免费一级做a爰片久久毛片潮 | av黄色影院 | 国产xxx在线 | 亚洲专区在线视频 | 裸体美女免费视频网站 | 亚洲中文字幕无码一区 | 欧美日韩另类一区 | 射网站| 一区二区三区不卡在线 | www.色综合 | 中文字幕一区二区视频 | 尤物视频在线 | 奇米影视四色777 | 亚洲国产成人无码av在线 | 久久久久网 | 亚洲第一色视频 | 一区二区三区av在线 | 欧美伦理一区 | 亚洲AV无码久久精品浪潮 | 美女网站免费观看 | 亚洲av成人精品一区二区三区 | 欧美手机在线观看 | 欧美做受高潮 | 亚洲av无码一区二区二三区软件 | 中文天堂av | 毛片毛片女人毛片毛片 | 免费视频中文字幕 | 在线观看免费视频黄 | 在线看的av网站 | 中文二区 | 天天操夜夜拍 | 久草中文在线观看 | 精品视频在线一区二区 | 久久青青草视频 | 爱豆国产剧免费观看大全剧集 | 午夜一级免费 | 桃色网站在线观看 | 天天做天天爱天天爽综合网 | 女儿的朋友4在线观看 | 一级片手机在线观看 | 视频一区日韩 | wwwxxoo| 快乐激情网| 无码人妻精品一区二区中文 | 国产猛男猛女超爽免费视频 | 日本a级c片免费看三区 | 日韩无马 | 欧美成人性色 | bl动漫在线观看 |