数据预处理—数据清洗(2)—异常值(极值)处理
生活随笔
收集整理的這篇文章主要介紹了
数据预处理—数据清洗(2)—异常值(极值)处理
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
3.1.2異常值(極值)處理
- 處于特定分布區(qū)域或范圍之外的數(shù)據(jù)通常會(huì)被定義為異常或“噪音”。產(chǎn)生數(shù)據(jù)“噪音”的原因很多,例如業(yè)務(wù)運(yùn)營操作、數(shù)據(jù)采集問題、數(shù)據(jù)同步問題等。對(duì)異常數(shù)據(jù)進(jìn)行處理前,需要先辨別出到底哪些是真正的數(shù)據(jù)異常。從數(shù)據(jù)異常的狀態(tài)看分為兩種:
- 由于業(yè)務(wù)特定運(yùn)營動(dòng)作產(chǎn)生的,正常反映業(yè)務(wù)狀態(tài),而不是數(shù)據(jù)本身的異常規(guī)律。
- 不是由于特定的業(yè)務(wù)動(dòng)作引起的,而是客觀地反映了數(shù)據(jù)本身分布異常
- 大多數(shù)情況下,異常值都會(huì)在數(shù)據(jù)的預(yù)處理過程中被認(rèn)為是噪音而剔除,以避免其對(duì)總體數(shù)據(jù)評(píng)估和分析挖掘的影響。但在以下幾種情況下,我們無須對(duì)異常值做拋棄處理。
- ※異常值由運(yùn)營活動(dòng)導(dǎo)致,正常反映了業(yè)務(wù)運(yùn)營結(jié)果
- 公司的A商品正常情況下日銷量為1000臺(tái)左右。由于昨日舉行優(yōu)惠促銷活動(dòng)導(dǎo)致總銷量達(dá)到10000臺(tái),由于后端庫存?zhèn)湄洸蛔銓?dǎo)致今日銷量又下降到100臺(tái)。在這種情況下,10000臺(tái)和100臺(tái)都正確地反映了業(yè)務(wù)運(yùn)營的結(jié)果,而非數(shù)據(jù)異常案例。
- ※異常檢測(cè)模型
- 圍繞異常值展開的分析工作,如異常客戶(羊毛黨)識(shí)別,作弊流量檢測(cè),信用卡詐騙識(shí)別等
- ※對(duì)異常值不敏感的數(shù)據(jù)模型
- 如決策樹
- ※異常值由運(yùn)營活動(dòng)導(dǎo)致,正常反映了業(yè)務(wù)運(yùn)營結(jié)果
- 處理方式
- 保留
- 刪除
- 用統(tǒng)計(jì)量或預(yù)測(cè)量進(jìn)行替換
3.1.3異常值(極值)處理API
dataframe.mean() #計(jì)算平局值 dataframe.std() #計(jì)算標(biāo)準(zhǔn)差-
判斷異常值方法:Z-Score
計(jì)算公式 Z = X-μ/σ 其中μ為總體平均值,X-μ為離均差,σ表示標(biāo)準(zhǔn)差。z的絕對(duì)值表示在標(biāo)準(zhǔn)差范圍內(nèi)的原始分?jǐn)?shù)與總體均值之間的距離。當(dāng)原始分?jǐn)?shù)低于平均值時(shí),z為負(fù),以上為正。
- 異常值處理的關(guān)鍵:如何判斷異常
- 有固定該業(yè)務(wù)規(guī)則的直接利用業(yè)務(wù)規(guī)則
- 沒有固定業(yè)務(wù)規(guī)則的,可以使用數(shù)學(xué)模型進(jìn)行判斷,如正態(tài)分布的標(biāo)準(zhǔn)差范圍,分位數(shù)法等
總結(jié)
以上是生活随笔為你收集整理的数据预处理—数据清洗(2)—异常值(极值)处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 幼儿抽象逻辑思维举例_2岁多的孩子,需要
- 下一篇: CAS操作确保原子性