當前位置：首頁 >

金融风控实战——风控数据挖掘方法

發布時間：2025/3/21 85 豆豆

生活随笔收集整理的這篇文章主要介紹了金融风控实战——风控数据挖掘方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

星座屬性單變量分析

import pandas as pd import numpy as np ft_zodiac = pd.read_csv('ft_zodiac.txt') print(ft_zodiac.shape) ft_zodiac.head()

結果：?

zodiac_label = pd.read_csv('zodiac_label.txt') #這里去除標簽為2的數據 ft_label = zodiac_label[zodiac_label.label != 2] ft_label.head()

結果：

pd15作為好壞的分割節點。>15為壞人，<15為好人？

15天以上的人為壞，5天以內的人為好人，中間的人不用管了

data = pd.merge(ft_label,ft_zodiac,on = 'order_id',how = 'inner') data.head()

結果：

計算一下每個星座的bad rate?

#用集合將出現的值存起來 zodiac_list = set(data.zodiac) chinese_zodiac_list = set(data.chinese_zodiac)

#創建字典，來表示星座及對應的壞賬率 zodiac_badrate = {} for i in zodiac_list:total = data[data.zodiac == i]bad = total[total.label == 1]['label'].count()good = total[total.label == 0]['label'].count()zodiac_badrate[i] = round(bad/(bad + good),3) zodiac_badrate

結果：
?

f = zip(zodiac_badrate.keys(),zodiac_badrate.values()) f = sorted(f,key = lambda x : x[1],reverse = True) zodiac_badrate = pd.DataFrame(f) zodiac_badrate.columns = pd.Series(['星座','badrate'])#可視化操作 import matplotlib.pyplot as plt %matplotlib inline plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False plt.rcParams['figure.figsize'] = (8, 5) x = zodiac_badrate['星座'] y = zodiac_badrate['badrate'] fig = plt.figure() ax = fig.add_subplot(111) ax.set(title='變量星座與壞賬率的關系',ylabel='badrate',xlabel='星座') ax.set_ylim(0.08,0.16,0.05) ax.plot(x, y, color='blue', linewidth=3) plt.show()#或者 from pyecharts import Line x = zodiac_badrate["星座"] y = zodiac_badrate["badrate"] line = Line("星座") line.add(1,x,y)

結果：

決策樹算法?

決策樹的生成只考慮局部最優，

決策樹的剪枝則考慮全局最優。

信息增益的缺點——當特征的取值較多時，根據此特征劃分更容易得到純度更高的子集，因此劃分之后的熵更低，由于劃分前的熵是一定的，因此信息增益更大，因此信息增益比較偏向取值較多的特征。

總結

以上是生活随笔為你收集整理的金融风控实战——风控数据挖掘方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

金融风控实战——风控数据挖掘方法

星座屬性單變量分析

決策樹算法?

總結