3.6评分卡极端值的识别以及处理
生活随笔
收集整理的這篇文章主要介紹了
3.6评分卡极端值的识别以及处理
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1.極端值的識別
極端值的來源無非是數據差錯和數據差異。
大多數情況下,極端值被刪除或者被重置。但是,當極端值的觀測量很大時,需要考慮分群(segments),ie.針對每個群開發獨立的評分卡。
識別方法如下:
?
- 設定正常的取值范圍
- 考慮數據的多元屬性,建立擬合模型,偏離模型值為極端值
- 聚類算法
- 依靠決策樹發現包含少量觀測值的持續節點。這取決于一個好的交互式決策樹軟件和對數據進行可視化探索的可能。
2.用SAS實現對極端值的識別
?
?
- 計算出均值和標準差之后,調用宏%extremes
/* identifying outliers using the mean and three standard deviations */
?
%extremes(dsin,varx,idvar,nsigma,dsout);
/* 輸入數據集,被分析變量,ID變量,標準差倍數,輸出數據集 */
?
- K-均值聚類識別 (考慮了數據的多元特征)
/* 宏%clustol用proc fastclus創建總計為nclust的簇,參數pmin被設定一個簇中的觀測值相對于數據集總體的百分比。大多數風險評分實踐中,被設定為0.05~0.10 */
?
%ClustOL (&dsin,&varlist,&NClust,&Pmin,&DSout);
/* ?輸入數據集,變量列表,簇的數量,簇的最大規模,輸出數據集 */
?
- 多級別識別
?ie.首先單變量分析識別極端值,然后聚類在多元特征上識別極端值?
?
?
3.極端值的處理?
?
- 考慮分群處理?(極端值數量很多)
- 刪除
- 用一些單變量統計量替代(缺點:有偏)
- 多重歸因? (proc MI)
?
轉載于:https://www.cnblogs.com/jane-lau/p/8458924.html
總結
以上是生活随笔為你收集整理的3.6评分卡极端值的识别以及处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CodeChef - NWAYS 组合数
- 下一篇: Dubbo详解-说明(一)