當前位置:
首頁 >
金融风控实战——风控数据挖掘方法
發布時間:2025/3/21
85
豆豆
生活随笔
收集整理的這篇文章主要介紹了
金融风控实战——风控数据挖掘方法
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
星座屬性單變量分析
import pandas as pd import numpy as np ft_zodiac = pd.read_csv('ft_zodiac.txt') print(ft_zodiac.shape) ft_zodiac.head()結果:?
zodiac_label = pd.read_csv('zodiac_label.txt') #這里去除標簽為2的數據 ft_label = zodiac_label[zodiac_label.label != 2] ft_label.head()結果:
?
pd15作為好壞的分割節點。>15為壞人,<15為好人?
15天以上的人為壞,5天以內的人為好人,中間的人不用管了
data = pd.merge(ft_label,ft_zodiac,on = 'order_id',how = 'inner') data.head()結果:
計算一下每個星座的bad rate?
#用集合將出現的值存起來 zodiac_list = set(data.zodiac) chinese_zodiac_list = set(data.chinese_zodiac) #創建字典,來表示星座及對應的壞賬率 zodiac_badrate = {} for i in zodiac_list:total = data[data.zodiac == i]bad = total[total.label == 1]['label'].count()good = total[total.label == 0]['label'].count()zodiac_badrate[i] = round(bad/(bad + good),3) zodiac_badrate結果:
?
結果:
決策樹算法?
決策樹的生成只考慮局部最優,
決策樹的剪枝則考慮全局最優。
?
?
?
信息增益的缺點——當特征的取值較多時,根據此特征劃分更容易得到純度更高的子集,因此劃分之后的熵更低,由于劃分前的熵是一定的,因此信息增益更大,因此信息增益比較偏向取值較多的特征。
?
總結
以上是生活随笔為你收集整理的金融风控实战——风控数据挖掘方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 李宏毅深度学习——第一天
- 下一篇: 金融风控实战——特征工程上