【采用】机器学习在金融大数据风险建模中的应用
本文在傳統風險模型體系的基礎上,嫁接邏輯回歸和決策樹模型建立T-L模型,并結合Random Forest模型完善模型結構。采用T-L核模型替代RF模型中的傳統決策樹模型,將RF模型和T-L核模型結合,建立了ScoreNet模型體系。既大大提升了風險模型區分能力,也保證了模型結構的清晰和評分廣泛的應用。
【關鍵詞】大數據風控??T-L模型??Random?Forest??ScoreNet
1.選題背景及意義
目前,央行的個人征信中心收錄的自然人數達8.6億多人,但其中僅有3億多人有信貸記錄,同時信貸記錄主要來源于商業銀行和農村信用社等金融機構,在數據時效性、全面性和層次性上存在嚴重短板。因此深度挖掘互聯網大數據信息,開發大數據風控模型,彌補央行個人征信信息的不足,在互聯網金融蓬勃發展的今天尤為重要。
無論是線上還是線下的用戶消費、社交數據,都有著不同于傳統征信信息的獨有特征:
數據的稀疏性強(用戶線上線下的行為散布廣泛,極難全量收集和覆蓋;用戶行為偏好亦各有不同,在不同門類的行為差異很大,因此數據的稀疏性極為明顯。一般情況下,用戶行為信息的缺失率均超過50%);
數據覆蓋面廣(信息覆蓋面廣泛,支付寶或微信都有超4億活躍用戶,用戶行為覆蓋服裝、書籍、租房、休閑、娛樂等各方面,單指標維度超過1000個);
單變量風險區分能力弱(不同于傳統風險模型采用的歷史履約情況,個人資產評估等強變量,消費或社交變量一般均為區分能力較弱的弱變量)。
傳統信用風險評估模型在業務邏輯架構下,利用數據驅動或專家經驗開發模型模板,最終結合統計分析模型(邏輯回歸、判別分析等)得到精準的計量結果。然而在新的數據畫像和業務情景下,不僅喪失了原有的業務邏輯框架,更使得傳統統計分析模型的應用受到嚴重限制。近年來,機器學習技術得到飛速的發展,在信息識別、推薦引擎等領域都取得了出色的應用效果,大量實驗結果證明機器學習模型有著良好的魯棒性和泛化性。但機器學習模型的模型邏輯極為復雜,很難把控模型的真實效果,也不易于直觀展示和解釋變量的風險特性。如何結合傳統風險評估模型體系和機器學習技術,在保證業務邏輯和評分廣泛應用的前提下,更加精準的評估風險已經成了新一代信用風險模型體系建設的核心課題。
2.文獻綜述
David?Durand(1941)在信用評分領域首先使用判別分析,預測貸款者的還貸情況;20世紀50年代,Bill?Fair和Earl?Isaac發明了基于logistics回歸模型的FICO信用評分體系,得益于清晰的業務邏輯和解釋性,該評分體系逐漸成為了最為廣泛應用的風險模型體系。然而無論是邏輯回歸還是判別分析模型,都主要針對線性問題,無法對變量的非線性結構進行分析,同時對數據完整性和有效性要求較高,對數據噪聲亦比較敏感,不適用于大數據背景下的模型開發和集成。
McCulloch,?Warren;?Walter?Pitts(1943)[1]提出了神經網絡模型,取得了十分廣泛的應用,并首次描繪了機器學習理論的雛形;Ray?Solomonoff(1956)?[2]在An?Inductive?Inference?Machine一文中,首度提出了機器學習的概念;Aizerman,?Mark?A.;?Braverman,?Emmanuel?M.;?and?Rozonoer,?Lev?I.?(1964)[3]在統計學習領域的研究中提出了應用最為廣泛的機器學習模型支持向量機(SVM);Breiman,?Leo?(1996)[4]、Michael?Kearns(1988)[5]、Ho,?Tin?Kam?(1995)[6]提出了集成學習算法:Bagging、Boosting、Random?Forest,完美的解決了傳統機器學習算法過度擬合的困境,使得算法的穩定性、泛化性和魯棒性都有了顯著的提高。近年來,機器學習算法在圖像識別、語音識別、信息檢索、推薦引擎、非結構化數據挖掘等領域都取得了突破性的進展。推薦算法與風險模型的一致性,及GBDT[7]和Random?Forest在推薦算法上優異表現,為我們研究金融大數據風險模型提供了新的方向和挑戰。然而無論是單一機器學習算法,還是集成學習算法都有著復雜的模型結構,這種復雜的結構不僅使模型喪失了解釋性,而且限制了專業模型分析人員對模型的把控能力,很難實現真正意義上的廣泛的應用。
3.研究的理論框架與模型建設
本文在傳統風險模型體系的基礎上,嫁接邏輯回歸和決策樹模型建立T-L模型,并結合Random?Forest模型完善模型結構,建立了ScoreNet模型。既大大提升了風險模型區分能力,也保證了業務邏輯的清晰和評分廣泛的應用。
3.1.T-L核模型
傳統信用風險評估模型在業務邏輯架構下分析變量的基本屬性及風險區分能力,用邏輯回歸等統計分析模型進行量化分析,得到精準的風險計量結果。然而用戶行為數據獨有的稀疏性會使得統計模型極不穩定。決策樹對局部數據分析有著極強的穩定性和魯棒性,同時可以揭示變量風險區分能力的非線性結構關系。因此我們將決策樹模型和邏輯回歸模型進行嫁接,建立T-L核模型。即在進行統計建模前添加一層決策樹模型進行單變量分析,同時利用CHAID決策樹生成二元決策樹變量,然后將決策樹模型的輸出結果(單變量、交叉變量及二元決策樹變量)一同導入邏輯回歸模型中進行統計建模,確定所有風險因子的風險權重。
3.1.1.決策樹模型
在決策樹各種算法中,CHAID[8](Chi-Squared?Automatic?Interaction?Detection)既適用于二值型變量,也適用于連續型變量。針對每一次分叉,CHAID對二元響應和連續型目標變量分別采用了卡方和F檢驗。因此在本文中,選擇CHAID算法作為決策樹算法。
CHAID算法以因變量為根結點,對每個自變量(只能是分類或有序變量,也就是離散性的,如果是連續變量,如年齡,收入要定義成分類或有序變量)進行分類,產生一系列二維表,然后分別計算所生成二維表的卡方統計量或F統計量。如果因變量(目標變量)是定類變量(例如PD模型),則采用卡方檢驗(Chi-Square-Test);如果因變量是定距變量(例如LGD,EAD模型),則采用F檢驗(F-Test)。如果幾個備選變量的分類均顯著,則比較這些分類的顯著程度(P值的大小),然后選擇最顯著的分類變量以及劃分作為子節點。
3.1.2.邏輯回歸模型
邏輯回歸模型[9]是因變量服從二項分布,且自變量的線性預測與因變量的logit變換相連接的一種廣義線性模型[10],具體數學表達式為:
?
由此可以得到
?
理論可以證明,如果樣本的分布服從多元正態分布,那么該樣本正好符合對數回歸的假設。對數模型的誤差項服從二項分布,因此,在擬合時采用最大似然估計法進行參數估計要比最小平方誤差法估計。
3.2.?Random?Forest模型
3.2.1.Random?Forest的基本原理
隨機森林是由美國科學家Leo?Breiman將其在1996年提出的Bagging集成學習理論[4]與Ho在1998年提出的隨機子空間方法[11]相結合,于2001年發表的一種機器學習算法[12]。隨機森林是以決策樹為基本分類器的一個集成學習模型,它包含多個由Bagging集成學習技術訓練得到的決策樹,當輸入待分類的樣本時,最終的分類結果由單個決策樹的輸出結果投票決定,如下圖所示。隨機森林克服了決策樹過擬合問題,對噪聲和異常值有較好的容忍性,對高維數據分類問題具有良好的可擴展性和并行性。此外,隨機森林是由數據驅動的一種非參數分類方法,只需通過對給定樣本的學習訓練分類規則,同時亦不需要分類的先驗知識。
?
隨機森林是以K個決策樹為基本分類器,進行集成學習后得到的一個組合分類器。當輸入待分類樣本時,隨機森林輸出的分類結果由每個決策樹的分類結果簡單投票決定。這里的
是一個隨機變量序列,它是由隨機森林的兩大隨機化思想決定的:
(1)Bagging思想:從原樣本集X中有放回地隨機抽取K個與原樣本集同樣大小的訓練樣本集(每次約有37%的樣本未被抽中),每個訓練樣本集構造一個對應的決策樹。
(2)特征子空間思想:在對決策樹每一個節點進行分裂時,從全部屬性中等概率隨機抽取一個屬性子集,再從這個子集中選擇一個最優屬性來分裂節點。
由于構建每個決策樹時,隨機抽取訓練樣本集和屬性子集的過程都是獨立的,且總體都是一樣的,因此
?
是一個獨立同分布的隨機變量序列。
訓練隨機森林的過程就是訓練各個決策樹的過由于各個決策樹的訓練是相互獨立的,因此隨機森林的訓練可以通過并行處理來實現,這將大大提高生成模型的效率。隨機森林中第
?
訓練過程如下圖所示。
?
將以同樣的方式訓練得到K個決策樹組合起來,就可以得到一個隨機森林。當輸入待分類的樣本時,隨機森林輸出的分類結果由每個決策樹的輸出結果進行簡單投票(即取眾數)決定。
3.2.2.Random?Forest模型的缺陷及改進方向
不難證明隨機森林的泛化性誤差的上界[12]為:
3.3.?ScoreNet模型
本文引入3.1中建立的T-L核模型替代3.2中RF模型中的傳統決策樹模型,將RF模型和T-L核模型結合,建立了ScoreNet模型體系。
?
ScoreNet模型以傳統模型為基礎搭建,保留傳統模型的業務解釋性和穩定性。
ScoreNet模型以隨機森林模型為基本架構搭建了隨機模型,客服了傳統模型對數據噪聲亦比較敏感的缺陷,使模型的泛化性與穩定性有了進一步的提高。
ScoreNet模型客服了傳統模型一般只能容納10-15個變量的缺陷,模型可以涵蓋100+個變量。可以從源頭杜絕用戶刷分現象,提升模型的公信力。
ScoreNet模型的在應用層面的高度穩定性與業務解釋性,使其有著比純粹機器學習模型更廣泛的應用空間。
4.模型開發與結果分析
本文通過互聯網爬蟲技術及第三方合作機構通過跨商家、瀏覽器、設備、微信進行實時互聯網數據采集分析,包括但不限于:商品消費行為采集與挖掘、資訊、社區與視頻閱覽行為采集與挖掘、O2O消費行為采集與挖掘、高單價商品消費行為采集與挖掘、金融服務行為采集與挖掘等。
通過各渠道數據采集與挖掘形成用戶全方位的畫像數據(如:人口統計學標簽、用戶通用標簽、資產價值標簽、消費行為喜好、閱讀喜好標簽、金融服務標簽、社交圈標簽等),進而了解用戶全方位屬性信息。
本文采用大數據風險模型ScoreNet技術,針對身份信息核查、穩定性信息、金融申請信息、資產評估信息、商品消費信息、媒體閱覽信息等6大維度對用戶違約風險進行評估。
?
4.1數據分析
4.1.1.數據采集
本文采集了:身份信息核查、穩定性信息、金融申請信息、重要資產信息、商品消費信息、媒體閱覽信息等6大維度近1000個子項的互聯網數據。
?
從模型表現可看出模型在不同樣本上皆具備一定程度的區分能力,表示其穩定性高,未來應用時能適應不同的人群。
?
4.3模型結果對比分析
傳統模型與ScoreNet模型對比分析結果:
?
傳統模型與機器學習模型(Random Forest)對比分析結果:
?
模型對比分析結果顯示,ScoreNet模型較傳統模型(Logistics)在區分能力上有了較大幅度的提高,可提升KS/AR值約0.05,同時延續了傳統模型(Logistics)的穩定性和解釋性;ScoreNet模型較純粹機器學習模型(Random?Forest)在穩定性、泛化性上有著絕對的優勢,區分能力也更加優越。
?
5.應用分析及方案建議
5.1.征信多元化與風險量化
傳統金融機構的征信信息來源主要是央行征信,但央行征信僅有3億多人有信貸記錄,信貸記錄又主要來源于商業銀行和農村信用社等金融機構。隨著互聯網不斷滲入人們生活,互聯網行為數據是央行征信的有效補充,可以不斷強化征信數據的時效性、全面性和層次性,從無形中記錄用戶的行為,去偽存真,還原真實的客戶?。從而大大提升信息的利用率和有效性。
同時,大數據風險模型的應用,可以不斷提高金融機構風險識別、計量能力。從而不斷完善征信信息體系架構,為精細化風險定價提供必要的基礎和土壤。
?
5.2.授信審批決策/自動化審批
傳統上,金融機構的授信審批決策主要依賴于信貸人員的主觀經驗和判斷,缺乏統一的標準,不利于金融機構整體風險政策的執行。隨著大數據模型開發技術與內部評級體系建設的深度融合,金融機構可更加廣泛和全面地將評分/評級結果應用于授信審批,為貸款決策提供參考和支持。
大數據風險模型優秀的風險排序及區分能力能夠大力推進自動化審批的進程及線上產品的改革與創新。對模型評分高于一定級別且滿足其它授信決策條件的,授信申請可以自動通過,不需要再經人工審核,對于評分低于一定級別的,模型自動拒絕其申請;只有模型評分介于以上兩者之間的客戶,才由人工介入進行申請審核。
?
5.3風險監控與預警
風險監控與預警是指借助各類信息來源或渠道,通過對數據與信息進行整合與分析,運用定量和定性分析相結合的方法來發現授信客戶及業務的早期風險征兆,準確識別風險的類別、程度、原因及其發展變化趨勢,并按規定的權限和程序對問題授信采取針對性處理措施,以及時防范、控制和化解授信風險的一系列管理過程。
大數據風險模型較傳統內部評級體系更為精細和靈敏,可以快速識別貸后風險,為不同的用戶設定不同的監控頻率、自動篩選高風險客戶,制定有針對性的貸后管理措施、貸后管理工作等。
總結
以上是生活随笔為你收集整理的【采用】机器学习在金融大数据风险建模中的应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python评分卡建模-卡方分箱
- 下一篇: 【机器学习】--模型评估指标之混淆矩阵,