日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

金融风控实战——风控数据挖掘方法

發(fā)布時(shí)間:2025/3/21 编程问答 55 豆豆
生活随笔 收集整理的這篇文章主要介紹了 金融风控实战——风控数据挖掘方法 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

星座屬性單變量分析

import pandas as pd import numpy as np ft_zodiac = pd.read_csv('ft_zodiac.txt') print(ft_zodiac.shape) ft_zodiac.head()

結(jié)果:?

zodiac_label = pd.read_csv('zodiac_label.txt') #這里去除標(biāo)簽為2的數(shù)據(jù) ft_label = zodiac_label[zodiac_label.label != 2] ft_label.head()

結(jié)果:

?

pd15作為好壞的分割節(jié)點(diǎn)。>15為壞人,<15為好人?

15天以上的人為壞,5天以內(nèi)的人為好人,中間的人不用管了

data = pd.merge(ft_label,ft_zodiac,on = 'order_id',how = 'inner') data.head()

結(jié)果:

計(jì)算一下每個(gè)星座的bad rate?

#用集合將出現(xiàn)的值存起來 zodiac_list = set(data.zodiac) chinese_zodiac_list = set(data.chinese_zodiac)

#創(chuàng)建字典,來表示星座及對應(yīng)的壞賬率 zodiac_badrate = {} for i in zodiac_list:total = data[data.zodiac == i]bad = total[total.label == 1]['label'].count()good = total[total.label == 0]['label'].count()zodiac_badrate[i] = round(bad/(bad + good),3) zodiac_badrate

結(jié)果:
?

f = zip(zodiac_badrate.keys(),zodiac_badrate.values()) f = sorted(f,key = lambda x : x[1],reverse = True) zodiac_badrate = pd.DataFrame(f) zodiac_badrate.columns = pd.Series(['星座','badrate'])#可視化操作 import matplotlib.pyplot as plt %matplotlib inline plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False plt.rcParams['figure.figsize'] = (8, 5) x = zodiac_badrate['星座'] y = zodiac_badrate['badrate'] fig = plt.figure() ax = fig.add_subplot(111) ax.set(title='變量星座與壞賬率的關(guān)系',ylabel='badrate',xlabel='星座') ax.set_ylim(0.08,0.16,0.05) ax.plot(x, y, color='blue', linewidth=3) plt.show()#或者 from pyecharts import Line x = zodiac_badrate["星座"] y = zodiac_badrate["badrate"] line = Line("星座") line.add(1,x,y)

結(jié)果:

決策樹算法?

決策樹的生成只考慮局部最優(yōu),

決策樹的剪枝則考慮全局最優(yōu)。

?

?

?

信息增益的缺點(diǎn)——當(dāng)特征的取值較多時(shí),根據(jù)此特征劃分更容易得到純度更高的子集,因此劃分之后的熵更低,由于劃分前的熵是一定的,因此信息增益更大,因此信息增益比較偏向取值較多的特征。

?

總結(jié)

以上是生活随笔為你收集整理的金融风控实战——风控数据挖掘方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。