當前位置：首頁 > 编程语言 > python >内容正文

python

python最优分箱计算iv值_GitHub - zhaoxingfeng/WOE: Weight of Evidence，基于iv值最大思想求最优分箱...

發布時間：2025/3/15 python 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 python最优分箱计算iv值_GitHub - zhaoxingfeng/WOE: Weight of Evidence，基于iv值最大思想求最优分箱... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

WOE

WOE Transformation常用于信用風險評分卡(Credit Risk Scorecard)模型中，采用分箱的方式對原始特征進行非線性映射。常見的分箱方法有等寬分箱、等頻分箱、最優分箱等，這里設計了一種基于決策樹的分箱算法，其核心是基于iv值最大求最優分箱，可同時處理連續型變量和離散型變量。

1、連續型變量：針對一對feature-label構造決策樹，選擇最優分裂點時需保證左樹iv+右樹iv之和最大，如果二者之和大于不分裂時的iv則分裂，否則不分裂；同時需要保證每個葉子節點樣本數量大于給定的最小樣本數量。最終，每個父節點存儲了用于分箱的分裂點信息，葉子節點存儲了該分箱內的woe、iv、正負樣本數量等信息；

2、離散型變量：對特征的每個離散值求woe值，用經woe值替換后的樣本構造決策樹，方法與處理連續型變量一致。需要注意的是在樹的每一次分裂過程中，都要記錄下分裂所涉及到的原始特征值。最終，每個葉子節點存儲了該分箱內的原始特征值、woe、iv、正負樣本數量等信息；

3、提取樹結構中存儲的的分裂點信息、分箱內的原始特征值、woe、iv、正負樣本數量信息構成分箱規則。最終生成的分箱規則中，bin_value_list表示離散特征每個分箱對應的原始特征值；split_left表示連續特征分箱左界(>)，split_right表示連續特征分箱右界(<=)；iv_sum表示該特征所有分箱iv之和。

針對UCI信用卡用戶違約和支付數據集credit?card，對比了model?builder和采用本方法得到的分箱結果，表明基于決策樹的最優分箱效果超過了model?builder：分箱數量合理、箱內樣本數量均勻、iv值比model?builder跑出來的要大。

總結

以上是生活随笔為你收集整理的python最优分箱计算iv值_GitHub - zhaoxingfeng/WOE: Weight of Evidence，基于iv值最大思想求最优分箱...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：常用原生js自定义函数
下一篇： python怎么读取图像的txt标注_使

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python最优分箱计算iv值_GitHub - zhaoxingfeng/WOE: Weight of Evidence，基于iv值最大思想求最优分箱...

總結