python最优分箱计算iv值_GitHub - zhaoxingfeng/WOE: Weight of Evidence,基于iv值最大思想求最优分箱...
WOE
WOE Transformation常用于信用風險評分卡(Credit Risk Scorecard)模型中,采用分箱的方式對原始特征進行非線性映射。常見的分箱方法有等寬分箱、等頻分箱、最優分箱等,這里設計了一種基于決策樹的分箱算法,其核心是基于iv值最大求最優分箱,可同時處理連續型變量和離散型變量。
1、連續型變量:針對一對feature-label構造決策樹,選擇最優分裂點時需保證左樹iv+右樹iv之和最大,如果二者之和大于不分裂時的iv則分裂,否則不分裂;同時需要保證每個葉子節點樣本數量大于給定的最小樣本數量。最終,每個父節點存儲了用于分箱的分裂點信息,葉子節點存儲了該分箱內的woe、iv、正負樣本數量等信息;
2、離散型變量:對特征的每個離散值求woe值,用經woe值替換后的樣本構造決策樹,方法與處理連續型變量一致。需要注意的是在樹的每一次分裂過程中,都要記錄下分裂所涉及到的原始特征值。最終,每個葉子節點存儲了該分箱內的原始特征值、woe、iv、正負樣本數量等信息;
3、提取樹結構中存儲的的分裂點信息、分箱內的原始特征值、woe、iv、正負樣本數量信息構成分箱規則。最終生成的分箱規則中,bin_value_list表示離散特征每個分箱對應的原始特征值;split_left表示連續特征分箱左界(>),split_right表示連續特征分箱右界(<=);iv_sum表示該特征所有分箱iv之和。
針對UCI信用卡用戶違約和支付數據集credit?card,對比了model?builder和采用本方法得到的分箱結果,表明基于決策樹的最優分箱效果超過了model?builder:分箱數量合理、箱內樣本數量均勻、iv值比model?builder跑出來的要大。
總結
以上是生活随笔為你收集整理的python最优分箱计算iv值_GitHub - zhaoxingfeng/WOE: Weight of Evidence,基于iv值最大思想求最优分箱...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 常用原生js自定义函数
- 下一篇: python怎么读取图像的txt标注_使