金融风控实战——信贷评分卡
信貸評分卡介紹
風(fēng)控系統(tǒng)業(yè)務(wù)流程
??在一個完整的風(fēng)控系統(tǒng)中,信貸準(zhǔn)入模型在整個體系的前半部分,下面我們了解一下一個完整的風(fēng)控系統(tǒng)是如何構(gòu)建的
獲客階段
??基本的,對于一個信貸產(chǎn)品來說,首先要有目標(biāo)客戶愿意去使用才有構(gòu)建信貸準(zhǔn)入模型的意義,對于小型信貸公司來說,如果本身用戶的數(shù)量很少,人工信審和評估綽綽有余,則沒有太大的必要去使用人工智能技術(shù)來處理信貸審批的問題,當(dāng)用戶的數(shù)量到達(dá)了較大量級之后才有意義,對于銀行來說,用戶不是問題,銀行本身用戶的量級一般都很大并且質(zhì)量整體較好,對于互聯(lián)網(wǎng)巨頭來說,例如阿里、京東、字節(jié)等,本身的流量用戶數(shù)量非常大,這些用戶客群是天然的信貸產(chǎn)品的目標(biāo)用戶
??信貸產(chǎn)品的獲客方式有很多,例如企業(yè)內(nèi)積累的一些其它業(yè)務(wù)領(lǐng)域的用戶、渠道的引流(短信、廣告、人工電話推銷等),大家平常在日常生活中可能經(jīng)常會收到XXX機(jī)構(gòu)的電話,問你要不要借錢,或者是短信:“恭喜您獲得XXX機(jī)構(gòu)的XXXXXX元額度,請點(diǎn)擊XXXX網(wǎng)址下載對應(yīng)app進(jìn)行借款,利息優(yōu)惠放款快哦”,etc,關(guān)于用戶的獲客,很多機(jī)構(gòu)使用的獲客方式都比較偏向純營銷一些,當(dāng)然也有一些機(jī)構(gòu)會使用精準(zhǔn)營銷的方式來提高營銷的成功率,基于算法的精準(zhǔn)營銷算是風(fēng)控領(lǐng)域的“推薦”項(xiàng)目,和傳統(tǒng)的電商推薦存在很多相似之處但也存在較大的區(qū)別,本課程并不會在推薦相關(guān)項(xiàng)目上進(jìn)行詳細(xì)描述。
初期的冷啟動問題
??當(dāng)獲客的用戶達(dá)到一定數(shù)量之后,并且有了一定的深度和厚度的用戶數(shù)據(jù)積累,我們才可以開始構(gòu)建一個風(fēng)控體系,這個時候問題來了,初期沒有用戶的信貸資料的情況下我們?nèi)绾畏婪讹L(fēng)險?此時就涉及到了信貸準(zhǔn)入模型的冷啟動問題,即初期只有少量甚至沒有用戶數(shù)據(jù)(例如沒有用戶的標(biāo)簽因?yàn)橛脩舸藭r壓根就還沒開始借款),此時一般來說機(jī)構(gòu)往往依賴于(下面按照重要程度依次展開)
??1.第三方數(shù)據(jù):第三方機(jī)構(gòu)數(shù)據(jù)可以說是機(jī)構(gòu)非常重要的信息來源了,過去,互聯(lián)網(wǎng)信息獲取的方式處于較為灰色的地方,小貸公司可以非常自由的獲取用戶的基本身份信息,家庭住址,通訊錄等隱私信息,這也導(dǎo)致了非常大的公民信息泄露的隱患,這兩年國家對于互聯(lián)網(wǎng)信息獲取的手段管制越來越嚴(yán)格,目前許多早期重要的用戶個人信息已經(jīng)不允許隨意獲取了,因此信貸機(jī)構(gòu)逐漸非常依賴于第三方數(shù)據(jù)。
??目前在市面上有許多第三方數(shù)據(jù)商,這類數(shù)據(jù)商往往具有一些較為特殊的背景,例如百信金融,數(shù)美科技,永安科技等等,這類數(shù)據(jù)商往往和社保局,公安,運(yùn)營商等具有一定的聯(lián)系,因此可以從公共服務(wù)部門獲取大量原始數(shù)據(jù),典型的,例如用戶的多頭借貸數(shù)據(jù)(即用戶在幾家機(jī)構(gòu)貸款),征信黑名單,設(shè)備風(fēng)險評級等等,這類數(shù)據(jù)對于初期的冷啟動問題都具有極其重要的作用;
??2.風(fēng)控策略:和風(fēng)控算法工程師一樣,風(fēng)控策略工程師也是整個風(fēng)控體系中非常重要的一環(huán),可以說,在數(shù)據(jù)的質(zhì)量得到保證之前,風(fēng)控體系的主力就是風(fēng)控策略工程師,并且在后期也具有很重要的協(xié)調(diào)作用,主要原因在于模型是死的,而人是活的;
人工信審
??一般來說,對銀行等這類大型的機(jī)構(gòu)都有專門的信審部門,當(dāng)然,有的信貸公司可能信審只是走個形式甚至完全依賴于一些自動化技術(shù),例如用戶申請貸款的時候常常需要用戶填寫身份證,地址,進(jìn)行人臉識別的活體驗(yàn)證等等,這些過程通過計算機(jī)視覺,自然語言處理等技術(shù)已經(jīng)有非常成熟的解決方案了。
??信審部門的主要工作是對用戶的基本信息、資產(chǎn)信息等進(jìn)行審查,其實(shí)大家在申請信貸產(chǎn)品的時候一般都會有一定的夸大收入、資產(chǎn)等自身資質(zhì)水平的傾向,所以很多用戶的申請信息與相關(guān)數(shù)據(jù)等都存在一定的水分,需要通過信審部門進(jìn)行調(diào)查與證實(shí),對于資料造假或者資料不足的用戶直接進(jìn)行拒絕;
風(fēng)控引擎
??關(guān)于風(fēng)控引擎,很多機(jī)構(gòu)的叫法和用法都不盡相同,但是可以確定地一點(diǎn)是風(fēng)控引擎的核心其實(shí)就是大量的if else規(guī)則,在風(fēng)控領(lǐng)域,可以說萬物皆規(guī)則,無論是根據(jù)某些征信黑名單直接對黑名單用戶進(jìn)行拒絕這樣簡單的規(guī)則,還是模型輸出的用戶的信用評分,確定某個閾值,接受高于閾值的用戶的申請,拒絕低于閾值的用戶的申請,其本質(zhì)上都是規(guī)則。
??風(fēng)控引擎是整個風(fēng)控體系的主要組成部分,并且往往管理著不止一個的信貸產(chǎn)品,對于不同類型的產(chǎn)品,用戶的規(guī)則存在區(qū)別,例如針對于白領(lǐng)用戶的“白領(lǐng)貸”類型產(chǎn)品,會內(nèi)置一些基本規(guī)則對所有申請的用戶進(jìn)行查詢和篩選,例如年齡太大與太小,收入太低,沒有固定職業(yè)或從事高風(fēng)險職業(yè)等用戶,在用戶數(shù)據(jù)進(jìn)入信貸準(zhǔn)入模型之前,全量申請用戶都會先經(jīng)過風(fēng)控引擎的“洗禮”之后然后過渡到模型階段進(jìn)行用戶信用分的評估;
??這里需要額外去詳細(xì)解釋的,就是關(guān)于規(guī)則部分,整體來說,常見的規(guī)則體系可以劃分為下面幾種:
??1.前置規(guī)則:這類規(guī)則往往是定死的一些基本規(guī)則,典型的年齡限制,超過六十歲或小于十八歲的用戶一般是不受理其貸款申請的;
??2.風(fēng)控規(guī)則:這類規(guī)則常常是由風(fēng)控策略工程師來幫助制定的,我們前面提到的很多重要的第三方數(shù)據(jù)常常會被直接當(dāng)作風(fēng)控規(guī)則來使用,例如騰訊的設(shè)備評分,螞蟻的高危支付號關(guān)聯(lián)手機(jī)號等等;
??3.模型規(guī)則:需要注意的是,在整個風(fēng)控體系中,模型并不一定是占據(jù)主導(dǎo),很多時候,算法工程師所擔(dān)任的工作的最終輸出可以概括為用戶的評分體系,例如從用戶的行為信息,用戶的消費(fèi)序列等等,相對而言較為弱的弱特征中挖掘出一定有價值的結(jié)果,并以評分的形式輸出,作為風(fēng)控規(guī)則之一納入整個風(fēng)控體系中。
反欺詐
??值得一提的是,反欺詐規(guī)則常見的方式也有兩種,一種是常規(guī)的基于某些第三方數(shù)據(jù)或自有的重要數(shù)據(jù)直接構(gòu)建一些硬規(guī)則,例如對于平臺而言,逾期次數(shù)超過三次則用戶將被拉入黑名單不再對其進(jìn)行貸款業(yè)務(wù)受理,或是命中了多條高風(fēng)險的評分,例如同時命中騰訊和阿里的高風(fēng)險手機(jī)號,則申請直接拒絕,另外一種形式就是反欺詐評分卡了,其實(shí)本質(zhì)上也是用常見的邏輯回歸或xgb等極其學(xué)習(xí)算法,使用欺詐用戶標(biāo)簽構(gòu)建一個有監(jiān)督模型,欺詐標(biāo)簽一般來自于第三方數(shù)據(jù)或自身業(yè)務(wù)推進(jìn)過程中的積累。
??反欺詐評分卡或反欺詐規(guī)則分析,反欺詐在評分卡中的應(yīng)用僅僅是反欺詐領(lǐng)域的一個小分支,反欺詐本身所涵蓋的知識體系是非常豐富而復(fù)雜的,相對于成熟穩(wěn)定,套路固定的評分卡構(gòu)建來說,反欺詐的難度往往要高幾個級別,尤其是電商領(lǐng)域的反欺詐問題,根據(jù)不同的場景,或是同一個場景下的欺詐手法,使用的套路和模型常常是大相徑庭的;
??風(fēng)控反欺詐,尤其是互聯(lián)網(wǎng)反欺詐業(yè)務(wù)也是目前的一個比較常見的崗位,相對于純粹的評分卡性質(zhì)的風(fēng)控算法來說,
信貸評分卡
申請評分卡、A卡
??這一部分就是該風(fēng)控算法工程師大展身手的時候了,我們通過一些機(jī)器學(xué)習(xí)算法來構(gòu)建一個健壯而泛化性能良好的模型,根據(jù)存量用戶的數(shù)據(jù)來對新用戶的信用進(jìn)行評分,然后根據(jù)某個閾值來進(jìn)行截斷,高于閾值的用戶進(jìn)行放款,低于閾值的用戶拒絕放款,并且,用戶的信用評分作為重要的參考指標(biāo)參與到后續(xù)的用戶的額度、期限、利率的定價上。關(guān)于用戶的額度、利率、期限等,其中常見的消費(fèi)分期和現(xiàn)金分期產(chǎn)品的期限一般比較常見的有6和12個月。除此之外也有少部分3個月的極短期信貸產(chǎn)品和2~3年的較長期的信貸產(chǎn)品。需要注意,我們平常所說的車貸,房貸等大型貸款項(xiàng)目一般不屬于本課程主要涉及的部分,因?yàn)檫@類貸款往往是需要一定的抵押物,相對而言其用戶群體的質(zhì)量較高,相對來說并沒有特別大的建模需求,因此市面上往往也比較少見這類直接對標(biāo)車貸和房貸的風(fēng)控崗位。
行為評分卡、B卡
??行為評分卡可以看作申請評分卡在時間上的擴(kuò)展,相對于A卡的數(shù)據(jù)來說,B卡的特征更加豐富,因?yàn)槲覀儞碛辛擞脩粼谀玫劫J款之后的還款行為數(shù)據(jù)等一系列時序類數(shù)據(jù),當(dāng)然,我們前面提到過,并不是所有產(chǎn)品都有構(gòu)建B卡的數(shù)據(jù)基礎(chǔ)與必要,例如7天為周期的現(xiàn)金分期產(chǎn)品,用戶貸后的數(shù)據(jù)往往是稀少的也難以反映用戶的某種潛在的不良行為模式。
??需要注意的是,行為評分卡一般是基于存量客戶上的,即“老客”,并且往往需要保證有較長周期的數(shù)據(jù)才能較好的保障B卡的模型效果,和A卡的作用一樣,行為評分卡也可以作為用戶放款(后續(xù))的依據(jù),并且因?yàn)閾碛辛烁嗑S度的特征,行為評分卡的泛化性能往往相對于申請評分卡更高,我們可以根據(jù)行為評分卡的結(jié)果來作為參考,決定是否對老客戶的新的申請予以批準(zhǔn),并且在能夠動態(tài)的調(diào)整用戶的額度和利率,例如某個老客在還款期間經(jīng)常出現(xiàn)拖欠的問題,則下次老客再來申請新的信貸產(chǎn)品則降低額度,提高利率或直接拒絕;
催收評分卡、C卡
??相對A和B卡而言,C卡的出場率較低,很多公司對C卡也沒有那么重視,造成這種現(xiàn)象的主要原因有:
??1.貸前風(fēng)控是整個風(fēng)控的重中之重,貸前做好了,貸中和貸后就相對容易;
??2.人的因素對貸后催收的效果影響很大,且很多公司在用戶發(fā)生M1(銀行一般是M2或M3)之后都會進(jìn)行委外處理
??我們前面說過,很多公司往往在催收階段往往使用一些簡單的催收策略比如無腦給所有逾期用戶打電話消耗大量的人力和成本,或者直接委外處理,但是伴隨著目前整個信貸行業(yè)的發(fā)展趨勢,委外被慢慢的淘汰,各家公司開始重視自己的貸后催收團(tuán)隊(duì),為了提高利潤,貸后催收也越來越會向精細(xì)化的方法發(fā)展,模型+策略的優(yōu)化則變得越來越重要。
??催收評分卡和A、B卡不一樣,催收評分卡往往包括了多個模型,其中有緩催模型、貸后N天響應(yīng)模型、失聯(lián)修復(fù)模型等等
反欺詐評分卡、F卡
??反欺詐評分卡和我們常聽到的互聯(lián)網(wǎng)風(fēng)控中的反欺詐的概念略微不同,反欺詐評分卡的做法其實(shí)本質(zhì)仍舊是做有監(jiān)督模型,其作用往往是作為反欺詐規(guī)則的補(bǔ)充,輸出反欺詐分,用于評估用戶是欺詐用戶的可能性是高or低
傳統(tǒng)信貸評分卡和大數(shù)據(jù)信用評分模型
??傳統(tǒng)信用評分卡基本是邏輯回歸一把梭,邏輯回歸因?yàn)槠淠P偷妮p量、易于部署、可解釋性強(qiáng)大、方便加入人工先驗(yàn)知識,至今仍舊是很多銀行和金融機(jī)構(gòu)所使用的主要模型,基本思想就是將好壞用戶的區(qū)分定義為傳統(tǒng)的機(jī)器學(xué)習(xí)中的線性的二分類問題,使用借款人基本信息、資產(chǎn)信息、征信報告等數(shù)據(jù),預(yù)測借款人未來發(fā)生違約的概率,并根據(jù)概率對用戶的信用進(jìn)行評分,比較常見的例如螞蟻的芝麻信用分、京東的小白信用分等形式都是很典型的信用評分體系(當(dāng)然螞蟻和京東的評分卡不像銀行那么簡單)
大數(shù)據(jù)信用評分模型
??傳統(tǒng)信用評分模型使用的特征往往是嚴(yán)格限制數(shù)量的,一般主要包括了用戶的基本屬性、金融屬性、征信等強(qiáng)信貸類型的屬性特征,傳統(tǒng)的金融機(jī)構(gòu)偏向于簡約型模型,即使用簡單的線性模型,并且特征的數(shù)量控制在一個較小的范圍內(nèi),這樣整個模型的可解釋性強(qiáng),可控,穩(wěn)定性高,便于人工進(jìn)行分析和控制,然而這種做法是對大量弱特征的浪費(fèi),并對模型的精度和泛化性能有較大程度的削弱。
??大數(shù)據(jù)信用評估模型的基本思路是一切數(shù)據(jù)都和信用有關(guān),在能夠獲取的數(shù)據(jù)中盡可能的挖掘信用信息。
??通過大數(shù)據(jù)采集技術(shù),挖掘一個借款人的信用變得更加多元化,比如一個借款人缺乏銀行信用卡的數(shù)據(jù),但從借款人的航旅出行數(shù)據(jù)中挖掘出具備較好的信用資質(zhì),同樣可以完成借款人的信用貸款。
??通過多源化的信息采集,一方面?zhèn)鞒辛藗鹘y(tǒng)征信體系的金融決策變量,重視深度挖掘授信對象的信貸歷史,另一方面能夠?qū)⒂绊懹脩粜刨J水平的其他因素也考慮進(jìn)去,如社交網(wǎng)絡(luò)數(shù)據(jù)、用戶地址文本信息等,從而實(shí)現(xiàn)深度和廣度的高度融合。
??以網(wǎng)絡(luò)數(shù)據(jù)為例,如設(shè)備是否蘋果,用戶申請貸款時的gps信息,用戶申請貸款的總時間等,這些數(shù)據(jù)一定程度上可以反應(yīng)用戶的某些較為隱蔽的信息,有利于評估用戶當(dāng)下的信貸風(fēng)險。
??大數(shù)據(jù)信用評估模型通過融合多源信息,采用先進(jìn)的人工智能技術(shù)進(jìn)行大數(shù)據(jù)挖掘。
??這一點(diǎn)對于大型互聯(lián)網(wǎng)金來說尤其突出,例如支付寶,背靠阿里巴巴,往往擁有海量的電商數(shù)據(jù),用戶的商品購買記錄,消費(fèi)水平等對于用戶的信用評估具有重要的作用,除此之外,螞蟻?zhàn)陨硪泊嬖谠S多的理財產(chǎn)品例如典型的余額寶,因此,螞蟻?zhàn)陨淼臄?shù)據(jù)是非常多維而豐富的,而這類數(shù)據(jù)和銀行所擁有的信貸性質(zhì)的特征不同,互聯(lián)網(wǎng)數(shù)據(jù)往往是海量而弱關(guān)聯(lián)的特征,這個時候就需要我們使用廣泛而前沿的技術(shù)來幫助挖掘出弱屬性特征中的magic。
信貸準(zhǔn)入模型(A卡)的構(gòu)建全流程
??一般來說,前期工作都完成妥當(dāng)之后,申請用戶會被削減一部分,剩余的通過前置的各類規(guī)則之后的用戶會進(jìn)入我們的建模過程,成為我們的樣本,在實(shí)際應(yīng)用的過程中,我們拿到的原始數(shù)據(jù)是不直接包含標(biāo)簽信息的,并且一般情況下也不太可能是直接的一張大寬表,而是不同的數(shù)據(jù)表,這些數(shù)據(jù)表的重要性各不相同,從用戶的注冊到登錄,到瀏覽,填寫資料到最終的申請等,再整個用戶的生命周期中,不同周期都對應(yīng)著大量的表格,除此之外,還有第三方數(shù)據(jù)源,前置規(guī)則的預(yù)警或攔截日志等等,并且最為重要的是,初始的A卡的標(biāo)簽需要我們根據(jù)用戶的還款情況記錄來進(jìn)行定義。
??一般來說,我們要先根據(jù)用戶的還款情況,借助vintage分析和滾動率分析來對用戶的好壞以及表現(xiàn)期做出明確的定義
觀察時點(diǎn)的確定
??觀察期與表現(xiàn)期:
??觀察期:在觀察期,主要抽取用戶歷史的數(shù)據(jù)作為特征,用于后續(xù)建模
??表現(xiàn)期:用來定義用戶的標(biāo)簽,作為模型預(yù)測的目標(biāo)
??觀察點(diǎn)大部分時候是根據(jù)數(shù)據(jù)的完整情況+拍腦袋得到的,為了排除觀察點(diǎn)選擇時的隨機(jī)影響,一般會多次選擇不同的觀察點(diǎn)然后重復(fù)后續(xù)的建模步驟,例如我們有一段跨度為15個月的數(shù)據(jù),一開始需要根據(jù)不同時間點(diǎn)或時間段的用戶數(shù)量,歷史數(shù)據(jù)的厚度和廣度等確定一個觀察時間點(diǎn)
??一這個時候我們需要先使用滾動率分析確定用戶的好壞定義,然后使用vintage分析來確定用戶的表現(xiàn)期
??補(bǔ)充:之所以選擇觀察時點(diǎn)是因?yàn)槲覀冃枰獙τ?xùn)練,驗(yàn)證和測試集進(jìn)行劃分,才能在離線階段評估模型的泛化性能,一般來說,我們線上的預(yù)測過程是使用歷史的數(shù)據(jù)建模預(yù)測未來數(shù)據(jù),具有時間上的先后關(guān)系,所以我們需要保證模型構(gòu)建階段也滿足和線上的預(yù)測過程一致的時間順序,即我們需要使用過去的數(shù)據(jù)來預(yù)測未來,而不能簡單的對全部數(shù)據(jù)繼續(xù)寧交叉驗(yàn)證;
??之所以需要選擇觀察期(觀察期指觀察點(diǎn)往過去后推的一段時間,一般比較常見的是半年到一年的長度,太短則數(shù)據(jù)太少,太長則過于久遠(yuǎn)的數(shù)據(jù)的分布和當(dāng)前存在較大差異)和表現(xiàn)期,表現(xiàn)期的設(shè)定主要是考慮到用戶的風(fēng)險需要一定的時間才能表現(xiàn)出來,常見的情況是用戶可能頭一兩個月正常還款,后面就開始賴賬了,因此我們需要盡量給用戶一個寬松的表現(xiàn)時間,將其逾期還款的無賴本質(zhì)暴露出來。
滾動率分析
??在信用評分領(lǐng)域,一般會有一個叫客戶還款周期表的數(shù)據(jù)表來刻畫客戶的還款情況,逾期時間越長,客戶風(fēng)險越高。但是,并不是客戶一旦有逾期行為就定義為’壞客戶‘,相反,逾期一定周期內(nèi)的客戶的還款概率也是較高的,是有收益的,是可以接受的。因此,問題轉(zhuǎn)化為如何找到逾期周期與收益的平衡點(diǎn),逾期超過多少天定義為’壞用戶‘是合理的呢?這就需要使用到滾動率分析。
??滾動率:一個時間段過渡到另一個時間段內(nèi)的所有用戶逾期情況的比率變化。在信貸交易過程中,實(shí)際上是用戶的還款狀態(tài)由上個時間段向下個時間段滾動的比率計算。
??注意,前面說過,用戶的實(shí)際還款情況一般會記錄在一張單獨(dú)的還款記錄表上存放在數(shù)據(jù)庫中,我們要先根據(jù)用戶的逾期情況對用戶進(jìn)行逾期周期標(biāo)注,這里涉及到了逾期期數(shù)的概念,逾期期數(shù)M,指實(shí)際還款日與應(yīng)還款日之間的逾期天數(shù),并按區(qū)間劃分為不同的逾期狀態(tài)。M取自Month on Book的第一個單詞?;旧洗蟛糠謾C(jī)構(gòu)的逾期標(biāo)準(zhǔn)定義如下:
??M0:當(dāng)前未逾期(或用C表示,取自Current)
??M1: 逾期1-30日
??M2:逾期31-60日
??M3:逾期61-90日
??M4:逾期91-120日
??M5:逾期121-150日
??M6:逾期151-180日
??M7:逾期180日以上。
??此時也被稱為呆賬(Bad Debts),會予以注銷賬戶(write-off)
例如某一個用戶的逾期情況可能是這樣的:??上述為一個還款周期為14個月的信貸產(chǎn)品,即該信貸產(chǎn)品的周期為14個月,需要注意,信貸產(chǎn)品的周期并不一定以一個完整的自然年為定義,例如上述14期的信貸產(chǎn)品我們就無法以年為單位,并且不同用戶發(fā)放貸款的月份是不同的,因此實(shí)際上我們所說的用戶的還款周期實(shí)際上是按照用戶被發(fā)放貸款到產(chǎn)品周期結(jié)束來定義的。
??假設(shè)一個客戶在11月還款日的時候沒有及時還上錢,那么他的逾期期數(shù)就記為1,如果他在下個月仍然沒能在還款日時還上這筆款,那么他的逾期期數(shù)就記為2,期數(shù)會持續(xù)累加,直到他把這筆款還上。
??所以上表中的這個客戶,他在觀察期里11月有過1次逾期,12月還清欠款,但是在次年的3-5月連續(xù)逾期,也就是說該客戶在一個完整的還款周期里的逾期記錄應(yīng)該是3期(一般我們是取用戶的最長的逾期記錄作為用戶的逾期情況的評估)。同理,在后1年里面最壞的逾期記錄是2期。
??注意這里的前1年對應(yīng)上面的觀察期,后1年對應(yīng)上面的表現(xiàn)期,因此上圖的觀察時點(diǎn)是前一年的8~9月份之間的某一天,往前推14個月為觀察期,往后推12個月為表現(xiàn)期。
??那么當(dāng)我們有n個用戶的時候,就有n個上述的記錄,然后:
??1、統(tǒng)計客戶在觀察期(如前一年)的最長逾期期數(shù),按最壞逾期狀態(tài)將用戶分為幾個層次,如M0、M1、M2、M3、M4.。。。。
??2、以觀察點(diǎn)為起始時間,統(tǒng)計客戶在表現(xiàn)期(如后一年)的最長逾期期數(shù),按最壞逾期狀態(tài)將用戶分為幾個層次,如M0、M1、M2、M3、M4.。。。。。
??3、如果某個用戶觀察期最壞逾期狀態(tài)為m1,表現(xiàn)期最壞逾期狀態(tài)為m2,則滾動率表格中,(m1,m2)的計數(shù)加1,依次類推;
??4、統(tǒng)計客戶占比;
??5、為了排除觀察點(diǎn)選擇時的隨機(jī)影響,一般會選擇多個觀察點(diǎn),然后重復(fù)上述步驟得到最終的較為客觀和穩(wěn)定的用戶的好壞定義
滾動率分析表如下圖
??得到了滾動率分析表之后,就基本完成了滾動率分析了,可以看到,滾動率分析本質(zhì)上就是分析觀察期和表現(xiàn)期,用戶的最壞逾期狀態(tài)的遷移情況。可以看到,上表中,(m0.m0)對應(yīng)的90.81%表示的是觀察期未逾期的用戶在表現(xiàn)期也沒有逾期的占比,例如觀察期未逾期用戶為100人,表現(xiàn)期這100個人中僅僅10個人發(fā)生逾期,則(m0,m0)對應(yīng)的值為1-10/100=0.9,可以看到,上圖中,觀察期逾期狀態(tài)為m7的用戶在表現(xiàn)期仍舊有93.07%的用戶未改變逾期狀態(tài),即這批人
??為了更好的理解滾動率分析的過程,這里放一下大佬求是汪的知乎圖
從這張圖中,我們就可以很清楚的明白滾動率分析的具體過程了:
??1.從老客中選擇10000個用戶進(jìn)行計算;
??2.統(tǒng)計觀察期所有用戶的逾期狀態(tài)并進(jìn)行統(tǒng)計,可以看到,觀察期間,有9000個用戶未逾期,500個用戶發(fā)生了m1的逾期,300個用戶發(fā)生了m2的逾期,150個用戶發(fā)生了m3的逾期,50個用戶發(fā)生了m4的逾期;
??3.統(tǒng)計表現(xiàn)期的用戶的逾期情況,可以看到,觀察期未逾期的用戶中,有8640個用戶繼續(xù)保持未逾期的狀態(tài),270個用戶逾期1個月,90個用戶逾期兩個月;依次類推
??4.可以看到,在觀察期逾期m4+的用戶中有40個仍舊處于m4+的逾期狀態(tài),可以看到這批用戶基本上大部分無法轉(zhuǎn)化為未逾期或逾期較輕的用戶,因此我們可以初步認(rèn)為,m4+就是一個壞客戶的定義,因?yàn)閙4+逾期的用戶很難變成正常用戶而是繼續(xù)保持老賴狀態(tài)
vintage分析
??vintage分析是用來確定成熟期的,前面提到過,用戶的風(fēng)險需要一定的時間來暴露,這個時間段就是成熟期,注意,成熟期是指觀察時點(diǎn)之后我們要取得表現(xiàn)期的時間的長度,這里比較容易和我們上面談到的表現(xiàn)期混淆,一個簡單的例子幫助了解,假設(shè)我們獲取了某個觀察時點(diǎn),這個觀察時點(diǎn)前,數(shù)據(jù)有記錄的時刻開始到觀察時點(diǎn)的時間我們可以稱之為“歷史數(shù)據(jù)時間間隔”,但是一般來說我們不可能取所有的歷史數(shù)據(jù),只會取最近一段時間的數(shù)據(jù)作為觀察期,比如我們不太可能取過去五年的所有數(shù)據(jù),因?yàn)樵皆绲臄?shù)據(jù)分布情況和觀察時點(diǎn)的數(shù)據(jù)分布情況差異往往越大,因此,假設(shè)數(shù)據(jù)日期有5年,我們可能只會取最近一年甚至是最近半年的數(shù)據(jù)作為觀察期,同理,觀察時點(diǎn)到當(dāng)前時間之間的數(shù)據(jù)記錄我們可以稱之為“當(dāng)前日期時間間隔”,當(dāng)然,我們也不一定會使用到當(dāng)前的所有最新數(shù)據(jù)來建模,因?yàn)橛械挠脩艨赡芫嚯x當(dāng)前時點(diǎn),上個月甚至上周才放款,這類用戶壓根就沒什么充足的數(shù)據(jù),必須驅(qū)逐在外,所以假設(shè)觀察時間點(diǎn)到當(dāng)前時間點(diǎn)時間間隔為6個月,則可能我們會取4~5個月作為表現(xiàn)期長度,而成熟期的長度必然是小于等于表現(xiàn)期長度的;
??vintage涉及到賬齡MOB的概念:
??賬齡(Month of Book,MOB)、
??指資產(chǎn)放款月份。類似于嬰孩一出生就有了年齡,一旦申貸訂單被放款,也便擁有了賬齡和生命周期。
??MOB0:放款日至當(dāng)月月底
??MOB1:放款后第二個完整的月份
??MOB2:放款后第三個完整的月份
?? 。。。依此類推
??一圖勝千言,可以看到vintage分析一般是按照月份進(jìn)行統(tǒng)計的,需要注意,我們是先做滾動率分析確定了好壞客戶的定義之后,然后再做vintage分析確定用戶的成熟期,以上圖為例,滾動率分析確定m4+的用戶為壞客戶,因此,mob的1~3個月的占比均為0,因?yàn)榇藭r用戶還沒有觸發(fā)逾期定義,到達(dá)第四個月之后,可以發(fā)現(xiàn),所有放款用戶中的壞客戶比例開始出現(xiàn),我們以2018年01月為例,第四個月壞客戶占比0.93%,第五個月1.52%,第6個月2.05%。。。第十二個月3.85%,可以看到,隨著時間的延長,整個用戶群體的風(fēng)險暴露的越來越徹底,從最初的0.93%到最終的3.85%左右,并且壞用戶的占比不再發(fā)生顯著的變化,
??我們需要一個良好的成熟期長度來讓用戶的風(fēng)險徹底暴露,但是成熟期又不能太長,比如你成熟期定義個12個月,則數(shù)據(jù)的分布在太長的周期下又會發(fā)生變化,并且成熟期太長則觀察期相應(yīng)會縮短,建模樣本變少對模型不利,那么這里的成熟期如何定義,很簡單,根據(jù)上表和上圖,可以看到,從9月份開始,9~12月,不同月份(2018年1、2、3、4.。。。)下觀測的用戶的整體的壞客戶比例就趨于穩(wěn)定了:
??可以看到,壞樣本占比在一個非常小的區(qū)間內(nèi)波動,此時我們可以認(rèn)為壞客戶比例“收斂”,用戶已經(jīng)充分暴露風(fēng)險了,那么我們就可以選擇9個月作為我們的成熟期長度。
??那么當(dāng)我們確定了成熟期長度之后要做什么呢,很簡單,正式構(gòu)建建模用的樣本,具體的過程是這樣的:
??1.2018年1月份放款用戶往后推9個月,凡是在這9個月之內(nèi)最壞逾期情況為m4+的用戶我們打上標(biāo)簽1,其它用戶則打上標(biāo)簽0;
??2.2018年2月份放款用戶往后推9個月,凡是在這9個月之內(nèi)最壞逾期情況為m4+的用戶我們打上標(biāo)簽1,其它用戶則打上標(biāo)簽0;
??3.依此類推。。。
??最后我們可以構(gòu)建出許多好客戶和壞客戶的樣本
pay attention
??在實(shí)際的應(yīng)用過程中,我們并不一定教科書式的完全按照上述的方法來,而是業(yè)務(wù)根據(jù)實(shí)際的產(chǎn)品性質(zhì),例如偏保守還是偏盈利,來對用戶的好壞定義進(jìn)行選擇,比如說對于那種短周期一個月的現(xiàn)金分期產(chǎn)品,一般就直接拍腦袋,逾期就算壞客戶,所以具體情況還要結(jié)合具體實(shí)際產(chǎn)品分析,除此之外,好壞客戶的定義也不一定是固定的,當(dāng)我們后續(xù)的建模發(fā)現(xiàn)模型的效果較差的時候,也常常需要對之前的分析進(jìn)行一定的調(diào)整,例如m3的用戶定義為壞客戶,成熟期重定義等等
總結(jié)
以上是生活随笔為你收集整理的金融风控实战——信贷评分卡的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 电信用户流失预测案例(3)
- 下一篇: 金融风控实战——Hive详解(数据读取、