关于金融风险数据的ETL到分析(下)
距離上一份文章過(guò)去很久了,剛好碰到婚期和春節(jié),希望環(huán)境快點(diǎn)好轉(zhuǎn)起來(lái),大家也都要能在恐慌中穩(wěn)定心態(tài),快點(diǎn)恢復(fù)過(guò)來(lái),雖然在環(huán)境的影響下取消了婚禮,但還是挺慶幸能在環(huán)境爆發(fā)前取消了計(jì)劃。借著這樣的機(jī)會(huì),完成上次欠各位的幾項(xiàng)指標(biāo)介紹,雖然寫了停停了寫,但還是完稿了
這里接著上次的文章繼續(xù)寫,如有新的讀者想了解,可見(jiàn)上一篇文章《關(guān)于金融風(fēng)險(xiǎn)數(shù)據(jù)的ETL到分析(上)》
二、指標(biāo)之催回率
1.催回率是什么?
在金融行業(yè)中,資金的流程都需要被各項(xiàng)指標(biāo)來(lái)衡量,上文所說(shuō)的vintage和首逾都是說(shuō)明資金風(fēng)險(xiǎn),說(shuō)明了一個(gè)公司風(fēng)控能力、用戶管控能力,而催回率這個(gè)指標(biāo)則是說(shuō)明了資金在產(chǎn)生逾期后為了最小化公司損失而進(jìn)行風(fēng)控催收,對(duì)逾期資金催回的能力,從另一方面說(shuō)明了公司的兜底能力。
2.口徑是什么?
催回的口徑準(zhǔn)確來(lái)說(shuō)就是逾期金額中催回占比,但是很多機(jī)構(gòu)不會(huì)區(qū)分為逾期催回是機(jī)構(gòu)催回還是用戶逾期主動(dòng)還款,所以以下口徑主要說(shuō)明后者,當(dāng)然我們公司也是后者。
口徑如下:
催回率 = 催回金額(含曾經(jīng)逾期)/逾期金額 (金額口徑)
催回率 = 催回筆數(shù)(含曾經(jīng)逾期)/逾期筆數(shù) (訂單筆數(shù)口徑)
具體維度可分:用戶畫像維度(地區(qū)、年齡、性別等等)、訂單維度(期數(shù)、利率等等)
當(dāng)然還有用戶口徑,此處不一一列舉,但是另外需要說(shuō)明的是,此處還可以分觀測(cè)時(shí)點(diǎn)和分放款月來(lái)取,邏輯方面來(lái)說(shuō),放款月邏輯會(huì)更復(fù)雜,所以這里主要講后者,前者可借鑒后者。
3.催回率的ETL過(guò)程(E過(guò)程同上)
(1)T
數(shù)據(jù)清洗常規(guī)步驟略,詳情見(jiàn)vintage,此處只說(shuō)明核心邏輯:
同vintage相似,各公司數(shù)倉(cāng)表設(shè)計(jì)都有所差異,本處只以自身所處公司為例說(shuō)明,如下表都是為上述所例表
計(jì)劃表如下:
詳細(xì)表介紹及說(shuō)明可見(jiàn)上篇,具體不再概述
還款表如下:
表介紹:
還款流水表,記錄每一筆還款流水
獲取率代催回率代碼(HQL):
create table default.repayment_payback1 as select -- 目前逾期金額day,business_type,over_status,sum(left_principal) left_principal fromdefault.vintage_test whereday(date_add(day,1))= 1and ord_stt in ()and order_status in ()and fst_its_dte >= '2016-06-01'and fst_its_dte <= day group by business_type,over_status,day;create table default.repayment_payback2 as select-- 曾經(jīng)逾期(已還)day,business_type,ovd_stt,sum(repayment_prcinple) repayment_prcinple from (selectbusiness_type,repayment_prcinple,day,case when datediff(to_date(repayment_time),to_date(repayment_date)) >0 and datediff(to_date(repayment_time),to_date(repayment_date)) <=30 then 'M1'when datediff(to_date(repayment_time),to_date(repayment_date)) >31 and datediff(to_date(repayment_time),to_date(repayment_date)) <=60 then 'M2' when datediff(to_date(repayment_time),to_date(repayment_date)) >61 and datediff(to_date(repayment_time),to_date(repayment_date)) <=90 then 'M3' when datediff(to_date(repayment_time),to_date(repayment_date)) >91 and datediff(to_date(repayment_time),to_date(repayment_date)) <=120 then 'M4'when datediff(to_date(repayment_time),to_date(repayment_date)) >120 and datediff(to_date(repayment_time),to_date(repayment_date)) <=150 then 'M5'when datediff(to_date(repayment_time),to_date(repayment_date)) >150 and datediff(to_date(repayment_time),to_date(repayment_date)) <=180 then 'M6'else 'M7' end ovd_stt fromdefault.stage_repayment_test whereday(date_add(day,1)) = 1and substring(repayment_time,1,10) <= dayand business_type in ()and datediff(to_date(repayment_time),to_date(repayment_date)) > 0) a group by day,business_type,ovd_stt;select -- 摧回率 a.day, a.business_type, a.over_status, sum(b.repayment_prcinple) / sum(a.left_principal+b.repayment_prcinple) from default.repayment_payback1 a left join default.repayment_payback2 b on a.day = b.day and a.business_type = b.business_type and a.over_status =b.ovd_stt group by a.day, a.business_type, a.over_status以上是最簡(jiǎn)單核心的代碼邏輯,具體可據(jù)此擴(kuò)充各維度、對(duì)象等等
(2)L (load 加載,可視化)
(4)分析
以上數(shù)據(jù)為真實(shí)數(shù)據(jù),主要口徑為by觀測(cè)月看全量資產(chǎn)M1-M7催回率,個(gè)人建議by放款月觀測(cè)催回更為合理,分析動(dòng)態(tài)資產(chǎn)各逾期資產(chǎn),會(huì)更有利于分析和管理;
分析點(diǎn):
1.各逾期狀態(tài)催回率:主要看處于同一逾期狀態(tài)下資產(chǎn)催回情況,曲線波動(dòng)情況能夠反映出催收手段強(qiáng)弱和市場(chǎng)情況;
2.各逾期狀態(tài)催回率差值:能夠直觀反映出資產(chǎn)變壞后的催回情況,主要一項(xiàng)指標(biāo)壞賬(大部分公司定義為M3+)催回率,此項(xiàng)
此項(xiàng)指標(biāo)可以取每月末觀測(cè)各到期月逾期率,結(jié)合vintage分析資產(chǎn)的整體回收情況
三、指標(biāo)之截面逾期率
1.截面逾期率是什么?
在金融行業(yè)中,此項(xiàng)指標(biāo)也非常重要,相比vintage/催回而言,此項(xiàng)指標(biāo)數(shù)據(jù)較為簡(jiǎn)單直接,整體概括而言,截面逾期率可拆分為截面和逾期率來(lái)理解,截面,可以通俗的理解為觀測(cè)點(diǎn),觀測(cè)日;而逾期率就是逾期金額占比整體在貸比值;綜合來(lái)說(shuō),截面逾期率就是在不同觀測(cè)時(shí)點(diǎn)下逾期占比情況。
2.口徑是什么?
截面逾期率相比前面所述的幾個(gè)指標(biāo)而言比較簡(jiǎn)單,上面定義也很簡(jiǎn)單明了。
口徑如下:
截面逾期率 = 逾期在貸金額 / 所有在貸金額
截面逾期率 = 逾期在貸筆數(shù) / 所有在貸筆數(shù)
具體維度可分:用戶畫像維度(地區(qū)、年齡、性別等等)、訂單維度(期數(shù)、利率等等)
這里需要著重說(shuō)明,逾期在貸不同口徑看也大不一樣,目前各個(gè)金融方向的公司看的也不太一樣,通俗和大家介紹下:
一般金融信貸會(huì)分期數(shù)還款,那么逾期之后會(huì)有公司著重關(guān)注到期逾期的那一期,也有會(huì)關(guān)注逾期以及剩余所有期,更有甚著會(huì)區(qū)分逾期是那一期,是總期數(shù)靠前還是靠后的那一期,關(guān)注點(diǎn)不一樣,那么逾期在貸金額的計(jì)算方式也不一樣,具體大家可做了解
3.催回率的ETL過(guò)程(E過(guò)程同上)
(1)T
如下表都是為上述所例表
create table default.vintage_test (order_number string comment '訂單號(hào)',uid string comment 'uid',create_order_date date comment '訂單創(chuàng)建日',principal decimal(20, 4) comment '訂單本金',fee decimal(20, 4) comment '訂單利息',over_status string comment '逾期狀態(tài)',left_principal decimal(20, 4) comment '剩余訂單本金',left_fee decimal(20, 4) comment '剩余訂單利息',order_status string comment '訂單狀態(tài)',business_type string comment '業(yè)務(wù)類型',bank string comment '資金方' ) comment '訂單表' partitioned by (day string) stored as orc
獲取率代催回率代碼(HQL):
以上是最簡(jiǎn)單核心的代碼邏輯,具體可據(jù)此擴(kuò)充各維度、對(duì)象等等
(2)L (load 加載,可視化)
截面逾期率具體視圖與分析和各逾期催回率類似,不再做一一介紹
四、指標(biāo)之用戶畫像
1.用戶畫像是什么?
其實(shí)這個(gè)也不算指標(biāo)吧,它更像用戶的代表,用戶的身份,從我自己的角度而言,這個(gè)指標(biāo)是所有指標(biāo)里最喜歡之一,緯度越細(xì),我們對(duì)于用戶的掌握就越足,就更有利于我們給用戶推薦匹配的產(chǎn)品,對(duì)于系統(tǒng)開(kāi)發(fā)層面來(lái)說(shuō),它更有利于在銷售界面上部署實(shí)時(shí)推薦系統(tǒng),總之,這項(xiàng)指標(biāo)代表的不僅僅是分析,就連我也不能說(shuō)是完全掌握其中端倪,需要花費(fèi)大量時(shí)間去研究。
2.口徑是什么?
用戶的全流程、借款、登陸等等各項(xiàng)指標(biāo)分布,根據(jù)用戶的各個(gè)緯度分布,
用戶畫像沒(méi)有一個(gè)統(tǒng)一通用的指標(biāo),凡是能夠描述用戶的身份構(gòu)成和行為構(gòu)成的都算是用戶畫像的范疇,以下主要舉例用戶借款行為相關(guān):
借款金額/筆數(shù)在全量用戶中地區(qū)/年齡/性別/學(xué)歷等緯度的占比
或者在借款利率/借款期數(shù)/借款金額范圍等緯度的占比
3.用戶畫像的ETL過(guò)程(E過(guò)程同上)
(1)T
數(shù)據(jù)清洗常規(guī)步驟略,詳情見(jiàn)vintage,此處只說(shuō)明核心邏輯:
同vintage相似,各公司數(shù)倉(cāng)表設(shè)計(jì)都有所差異,本處只以自身所處公司為例說(shuō)明,如下表都是為上述所例表:
計(jì)劃表如下:
這里引進(jìn)一張新的樣表-用戶表,表的設(shè)計(jì)較為簡(jiǎn)單,只包含了基本信息,方便大家了解,當(dāng)然除了這些還有很多關(guān)于用戶的信息,大家可自行擴(kuò)充
詳細(xì)表介紹及說(shuō)明可見(jiàn)上篇,具體不再概述
獲取率代催回率代碼(HQL):
selectb.sex,b.age,b.are,b.education,sum(a.principal) principal,count(a.order_number) order_number fromdefault.vintage_test a -- 這里訂單表中的相關(guān)條件可篩選出自己想要的有效訂單 left join default.user_test b on a.uid = b.uid group by b.sex,b.age,b.are,b.education以上是最簡(jiǎn)單核心的代碼邏輯,具體可據(jù)此擴(kuò)充各維度、對(duì)象等等
(2)L (load 加載,可視化)
用戶畫像的可視化很豐富,在此處我沒(méi)有取自己測(cè)試數(shù)據(jù)的樣表,在網(wǎng)上自己提取了比較經(jīng)典的用戶畫像的可視化圖例:
還有最近使用比較多的因?yàn)榄h(huán)境而設(shè)計(jì)出的環(huán)境地圖,也是比較清晰的就能看的出環(huán)境分布:
(4) 分析
用戶畫像的使用五花八門,其作用也很廣,個(gè)人了解下來(lái)包含以下幾點(diǎn),僅僅代表個(gè)人了解的幾點(diǎn),絕不僅限這幾點(diǎn),大家有興趣可以深入了解:
實(shí)時(shí)用戶推薦系統(tǒng):根據(jù)用戶畫像,深入分析用戶行為和喜好,實(shí)時(shí)給用戶推薦喜歡的產(chǎn)品
定向獲客:這一點(diǎn)主要針對(duì)于市場(chǎng)部,我們可以從用戶畫像中獲得客群的主要分布,從而有針對(duì)性的制定獲客方案,讓費(fèi)用投入獲取最大化
風(fēng)險(xiǎn)定位:各種客群的風(fēng)險(xiǎn)都是不一樣的,比如男性風(fēng)險(xiǎn)普遍會(huì)偏高于女性,學(xué)歷為專科的借款率會(huì)高于本科,但是其風(fēng)險(xiǎn)會(huì)高于本科,等等,做到客群的精確劃分,會(huì)更有利于我們對(duì)風(fēng)險(xiǎn)的把控
促動(dòng)支/促申完的有效投入:我們會(huì)從同種用戶標(biāo)簽和畫像中獲取到相同用戶的促動(dòng)/申完方案,獲取促動(dòng)/申完規(guī)律,節(jié)約人力成本/資金成本
除了上述所說(shuō)的作用當(dāng)然還遠(yuǎn)遠(yuǎn)不止這些。
以上主要說(shuō)明了作用,那么其分析我舉例的也是主要針對(duì)以上作用說(shuō)明,其實(shí)我給總結(jié)基本上會(huì)圍繞推薦算法的主要核心思想:
1.同種人群基本會(huì)有相同愛(ài)好;
2.相同愛(ài)好的基本都是同種人群;
3.對(duì)同種人群發(fā)生的相關(guān)行為帶來(lái)的效果基本類似;
對(duì)用戶畫像的分析個(gè)人了解這么多,描述不夠全面,有興趣可留言交流
至此,關(guān)于金融風(fēng)險(xiǎn)數(shù)據(jù)相關(guān)的介紹全部結(jié)束,很遺憾最后兩項(xiàng)大的指標(biāo)滾動(dòng)率和遷移率沒(méi)展開(kāi)介紹,這兩項(xiàng)我了解的不是很深入只是最簡(jiǎn)單的數(shù)據(jù)指標(biāo)獲取,但是對(duì)于分析仍有欠缺,后面如果有深入的了解會(huì)更新到文章中,希望大家持續(xù)關(guān)注,謝謝
總結(jié)
以上是生活随笔為你收集整理的关于金融风险数据的ETL到分析(下)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 计算机学院社会实践项目,社会实践-北京邮
- 下一篇: css的div,span,img,a,m