【待继续研究】除了专家模型,这两大模型也被普遍应用于信用评估
66號(hào)學(xué)苑小書童:信用風(fēng)險(xiǎn)計(jì)量模型的基本技術(shù)路線是:利用借款者的特征指標(biāo)和宏觀經(jīng)濟(jì)變量,收集這些特征指標(biāo)和宏觀變量的歷史數(shù)據(jù),并將其應(yīng)用于預(yù)測(cè)違約借款人與履約借款人。預(yù)測(cè)模型旨在評(píng)估未知借款者將來是否還款的信用價(jià)值,將潛在借款者的特征值輸入模型,從模型中輸出信用價(jià)值評(píng)估,從而可對(duì)潛在借款人進(jìn)行信用評(píng)估。
一般的評(píng)級(jí)方法可以分為專家經(jīng)驗(yàn)判斷法、參數(shù)模型和非參數(shù)模型。
所謂的專家經(jīng)驗(yàn)判斷,就是相關(guān)專家根據(jù)主觀經(jīng)驗(yàn)進(jìn)行打分,后兩種方法都是根據(jù)模型進(jìn)行客觀的計(jì)算。而對(duì)于參數(shù)模型與非參數(shù)模型的區(qū)分:用代數(shù)方程、微分方程、微分方程組以及傳遞函數(shù)等描述的模型都是參數(shù)模型。建立參數(shù)模型就在于確定已知模型結(jié)構(gòu)中的各個(gè)參數(shù),通過理論分析總是得出參數(shù)模型;非參數(shù)模型是直接或間接地從實(shí)際系統(tǒng)的實(shí)驗(yàn)分析中得到的響應(yīng),例如通過實(shí)驗(yàn)記錄到的系統(tǒng)脈沖響應(yīng)或階躍響應(yīng)就是非參數(shù)模型。
這三種模型通俗通俗來說,可以這樣解釋:
1.項(xiàng)目組小翟最近喜歡上了一個(gè)姑娘,但是非??鄲拦媚锸遣皇窍矚g自己。小翟來咨詢他的人生導(dǎo)師-小張姐姐,小張姐姐根據(jù)自己的經(jīng)驗(yàn)判斷姑娘不會(huì)喜歡他,小翟非常傷心,這就是專家經(jīng)驗(yàn)判斷法。
2.之后,小翟又來咨詢數(shù)據(jù)分析高手-小金哥哥,小金哥哥通過分析小翟和姑娘的生辰八字,列出了回歸方程,判斷姑娘會(huì)有37.28%概率喜歡上小翟,小翟非常傷心,這就是參數(shù)模型。
3.最后,小翟又來咨詢數(shù)學(xué)專業(yè)高材生-小沈姐姐,小沈姐姐收集了幾十對(duì)在一起的情侶又收集了幾十對(duì)沒有在一起的情侶,通過決策樹的算法,判斷小翟和姑娘的數(shù)據(jù)更偏向于沒有在一起的情侶,小翟非常傷心,這就是非參數(shù)模型。
一、專家模型判斷法
專家經(jīng)驗(yàn)判斷是根據(jù)信貸專家多年從業(yè)經(jīng)驗(yàn)進(jìn)行定性判斷。
1、層次分析法
層次分析法(簡(jiǎn)稱AHP)是美國運(yùn)籌學(xué)家Saaty教授于20世紀(jì)70年代初提出的,其特點(diǎn)是把復(fù)雜問題中的各種因素通過劃分為相互聯(lián)系的有序?qū)哟?#xff0c;使之條理化。
作為規(guī)劃、決策和評(píng)價(jià)的工具,AHP自問世以來,已在各個(gè)領(lǐng)域得到迅速普及和推廣,取得了大量的研究成果。層次分析法主要用于確定綜合評(píng)價(jià)的權(quán)重系數(shù),所用數(shù)學(xué)工具主要是矩陣的運(yùn)算。信用風(fēng)險(xiǎn)的測(cè)算是一個(gè)復(fù)雜的、多層次的評(píng)價(jià)過程,每個(gè)指標(biāo)要素之間的關(guān)系是相互依存、相互作用的,它們是一個(gè)整體。
層次分析法計(jì)算過程如下:
(1)每?jī)蓚€(gè)指標(biāo)的相對(duì)重要性判斷假設(shè)函數(shù)f(x,y)
它表示評(píng)價(jià)指標(biāo)x對(duì)于評(píng)價(jià)指標(biāo)y的重要程度。約定f(x,y)=1/f(y,x)。如下表所示。
重要程度
說明
f(x,y)
x比y同等重要
x,y對(duì)總指標(biāo)有相同的重要程度
1
x比y稍微重要
x的重要程度大于y,但是不明顯
3
x比y明顯重要
x的重要程度明顯大于y,但不十分明顯
5
x比y非常重要
x的重要程度十分明顯大于y,但不特別突出
7
x比y絕對(duì)重要
x的重要程度以壓倒優(yōu)勢(shì)大于y
9
x比y介于各等級(jí)之間
相鄰兩判斷的折中
2,4,6,8
(2)構(gòu)造判斷矩陣
設(shè)為全部評(píng)價(jià)指標(biāo)所組成的一個(gè)集,按照上表中所列的各個(gè)指標(biāo)之間的重要程度,對(duì)所有同層次之間的評(píng)價(jià)指標(biāo)進(jìn)行兩兩之間的對(duì)比,構(gòu)造矩陣,其中,并且矩陣C稱之為判斷矩陣。
(3)計(jì)算權(quán)重
根據(jù)上述構(gòu)造的判斷矩陣C,通過矩陣運(yùn)算,計(jì)算它的最大特征值
,并求出矩陣C關(guān)于最大特征值的特征向量
,經(jīng)過歸一化處理后的xi就是各評(píng)價(jià)因子的權(quán)重。
,矩陣A即為權(quán)重向量。
(4)一致性檢驗(yàn)
根據(jù)下式計(jì)算一致性指標(biāo)CI
查找平均隨機(jī)一致性指標(biāo)RI.
n
1
2
3
4
5
6
7
8
9
10
RI
0
0
0.25
0.89
1.12
1.24
1.36
1.41
1.46
1.49
根據(jù)下式計(jì)算一致性比例CR。
當(dāng)CR<0.10,認(rèn)為判斷矩陣的一致性是可以接受的,否則對(duì)判斷矩陣進(jìn)行適當(dāng)?shù)男薷?#xff0c;最終達(dá)到一致性要求。
二、參數(shù)模型
1.邏輯回歸
Logistic回歸用于分類的應(yīng)用比較廣泛,利用Logistic回歸模型可以將因變量與自變量之間關(guān)系的求解轉(zhuǎn)變?yōu)榍蠼獗唤忉屪兞堪l(fā)生類別的相應(yīng)概率。
Logistic回歸模型的思想來自于線性回歸,是一種非線性概率回歸,多元線性回歸用來預(yù)測(cè)由多個(gè)連續(xù)解釋變量構(gòu)成的函數(shù)模型的被解釋變量數(shù)值的大小,而Logistic回歸是用來預(yù)測(cè)由一個(gè)或多個(gè)解釋變量構(gòu)成的分類函數(shù)中屬于其中一類的概率。
Logistic邏輯回歸分析的假設(shè)前提為:
數(shù)據(jù)來自隨機(jī)樣本;
自變量之間不存在多重共線性關(guān)系。
Logistic函數(shù)的形式為:
那么在回歸模型基礎(chǔ)上計(jì)算得出的發(fā)生的概率和之間存在如下的回歸關(guān)系:
邏輯回歸模型是解決0-1回歸問題行之有效的方法,模型的曲線為S型,最大值趨近1,最小值趨近0。通過設(shè)定臨界值作為事件發(fā)生與否的標(biāo)準(zhǔn),如果事件發(fā)生的概率大于臨界值,則判定事件發(fā)生;反之,判定事件不發(fā)生。和判別分析方法不同,Logistic回歸模型在理論上并不存在“最優(yōu)”的分割點(diǎn),分割點(diǎn)的選取取決于模型使用者的具體目的。
2.實(shí)現(xiàn)方式
一般邏輯回歸數(shù)據(jù)量不是特別大,spss操作起來簡(jiǎn)單易懂,同時(shí)SAS\Python都可以實(shí)現(xiàn)。
SAS基礎(chǔ)代碼:
proc logistic data=數(shù)據(jù)名 desending;model 因變量=自變量; run;
3.判別分析
紐約大學(xué)斯特恩商學(xué)院教授愛德華·阿特曼(Edward Altman)在1968年就對(duì)美國破產(chǎn)和非破產(chǎn)生產(chǎn)企業(yè)進(jìn)行觀察,采用了22個(gè)財(cái)務(wù)比率經(jīng)過數(shù)理統(tǒng)計(jì)篩選建立了著名的5變量Z-score模型。
Z-score模型是以多變量的統(tǒng)計(jì)方法為基礎(chǔ),以破產(chǎn)企業(yè)為樣本,通過大量的實(shí)驗(yàn),對(duì)企業(yè)的運(yùn)行狀況、破產(chǎn)與否進(jìn)行分析、判別的系統(tǒng)。Z-score模型在美國、澳大利亞、巴西、加拿大、英國、法國、德國、愛爾蘭、日本和荷蘭得到了廣泛的應(yīng)用。
X1=(流動(dòng)資產(chǎn)-流動(dòng)負(fù)債)/資產(chǎn)總額;
X2=(未分配利潤(rùn)+盈余公積金)/資產(chǎn)總額;
X3=(稅前利潤(rùn)十財(cái)務(wù)費(fèi)用)/資產(chǎn)總額;
x4=(每股市價(jià)*流通股數(shù)+每股凈資產(chǎn)*非流通股數(shù))/負(fù)債總額;
X5=主營(yíng)業(yè)務(wù)收入/資產(chǎn)總額
判斷準(zhǔn)則:Z<1.8,破產(chǎn)區(qū);1.8≤Z<2.99,灰色區(qū);2.99<Z,安全區(qū)
4.BSM莫頓模型
1973年,美國芝加哥大學(xué)教授 Fischer Black&Myron Scholes提出了著名的B-S定價(jià)模型,用于確定歐式股票期權(quán)價(jià)格,在學(xué)術(shù)界和實(shí)務(wù)界引起了強(qiáng)烈反響;同年,Robert C. Merton獨(dú)立地提出了一個(gè)更為一般化的模型,布萊克-舒爾斯-默頓期權(quán)定價(jià)模型(下文簡(jiǎn)稱B-S-M模型),并由此導(dǎo)出衍生證券定價(jià)的一般方法。
舒爾斯和莫頓由此獲得了1997年的諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)。現(xiàn)在,布萊克—斯科爾斯—莫頓定價(jià)公式已被期貨市場(chǎng)參與者廣泛接受,是金融工程中所有定價(jià)理論的基石。
經(jīng)典BSM模型:
信用資產(chǎn)的違約行為表現(xiàn)為借款人到期不能償還貸款的本金利息。莫頓理論假設(shè)一旦借款人的資產(chǎn)市值在一年內(nèi)低于其現(xiàn)有負(fù)債價(jià)值,則借款人將發(fā)生違約。如果我們能獲得資產(chǎn)波動(dòng)的相關(guān)性,借助以資產(chǎn)為基礎(chǔ)的違約,就可以獲得違約的相關(guān)性。而資產(chǎn)波動(dòng)的相關(guān)性,在資本市場(chǎng)上是可以觀察到的,并有完整的數(shù)據(jù)積累。當(dāng)借款人的資產(chǎn)市場(chǎng)價(jià)值小于一個(gè)閥值(負(fù)債)時(shí),借款人發(fā)生違約。
根據(jù)BSM模型,可以將貸款看做一種期權(quán),一旦市值小于其負(fù)債就看做執(zhí)行期權(quán),產(chǎn)生違約。期權(quán)執(zhí)行的概率=N(d2),即違約概率
三、非參數(shù)模型
1.聚類分析
對(duì)沒有目標(biāo)變量的數(shù)據(jù)集根據(jù)數(shù)據(jù)的相似性給出 “自然的”分組,類內(nèi)對(duì)象相似性盡量大,類間對(duì)象相似性盡量小。根據(jù)結(jié)果類的分離性,聚類分為重疊聚類與互斥聚類。
首先定義能度量樣品(或變量)間相似程度(親疏關(guān)系)的統(tǒng)計(jì)量,在此基礎(chǔ)上求出各樣品(或變量)間相似程度的度量值;然后按相似程度的大小,把樣品(或變量)逐一歸類,關(guān)系密切的聚集到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位,直到所有的樣品(或變量)都聚合完畢,把不同的類型一一劃分出來,形成一個(gè)由小到大的分類系統(tǒng)。
聚類分析可以由SPSS點(diǎn)擊實(shí)現(xiàn),也可以由SAS函數(shù)實(shí)現(xiàn)。
聚類分析SAS代碼:
proc varclus data=數(shù)據(jù)集 outtree=tree;
var 變量;
run;
proc tree data =tree;run;
2.決策樹
決策樹(Decision Tree)是一種簡(jiǎn)單但是廣泛使用的分類器。通過訓(xùn)練數(shù)據(jù)構(gòu)建決策樹,可以高效的對(duì)未知的數(shù)據(jù)進(jìn)行分類。決策數(shù)有兩大優(yōu)點(diǎn):
(1)決策樹模型可以讀性好,具有描述性,有助于人工分析;
效率高,決策樹只需要一次構(gòu)建,反復(fù)使用,每一次預(yù)測(cè)的最大計(jì)算次 數(shù)不超過決策樹的深度。
決策樹在SPSS里有成型的算法,直接單擊使用即可。SAS中的Proc split或Proc hpsplit函數(shù)可以直接調(diào)用。R語言中的rpart()函數(shù)也可以直接調(diào)用生成決策樹。
決策樹有很多優(yōu)點(diǎn),比如:易于理解、易于解釋、可視化、無需大量數(shù)據(jù)準(zhǔn)備。使用決策樹(預(yù)測(cè)數(shù)據(jù))的成本是訓(xùn)練決策時(shí)所用數(shù)據(jù)的對(duì)數(shù)量級(jí)。
但這些模型往往不直接使用,決策樹一些常見的缺陷是:
構(gòu)建的樹過于復(fù)雜,無法很好地在數(shù)據(jù)上實(shí)現(xiàn)泛化、數(shù)據(jù)的微小變動(dòng)可能導(dǎo)致生成的樹完全不同,因此決策樹不夠穩(wěn)定、決策樹學(xué)習(xí)算法在實(shí)踐中通常基于啟發(fā)式算法,如貪婪算法,在每一個(gè)結(jié)點(diǎn)作出局部最優(yōu)決策。此類算法無法確保返回全局最優(yōu)決策樹。如果某些類別占據(jù)主導(dǎo)地位,則決策樹學(xué)習(xí)器構(gòu)建的決策樹會(huì)有偏差。因此推薦做法是在數(shù)據(jù)集與決策樹擬合之前先使數(shù)據(jù)集保持均衡。
由于決策樹容易對(duì)數(shù)據(jù)產(chǎn)生過擬合,因此分支更少(即減少區(qū)域 R_1, … ,R_J)的小樹雖然偏差略微高一點(diǎn),但其產(chǎn)生的方差更低,可解釋性更強(qiáng)。減少?zèng)Q策樹的方差可以通過袋裝(bagging)和隨機(jī)扥林方法來實(shí)現(xiàn),由于隨機(jī)森林在效果上好于袋裝,下面只介紹隨機(jī)森林函數(shù)。
3.隨機(jī)森林
顧名思義,森林是由很多顆樹構(gòu)成,隨機(jī)森林也是由很多個(gè)決策樹構(gòu)成。
隨機(jī)森林通過隨機(jī)擾動(dòng)而令所有的樹去相關(guān),在構(gòu)建每一棵樹時(shí),每一個(gè)結(jié)點(diǎn)分割前都是采用隨機(jī)樣本預(yù)測(cè)器。隨機(jī)森林可以考慮使用大量預(yù)測(cè)器,不僅因?yàn)檫@種方法減少了偏差,同時(shí)局部特征預(yù)測(cè)器在樹型結(jié)構(gòu)中充當(dāng)重要的決策。
隨機(jī)森林可以使用巨量的預(yù)測(cè)器,甚至預(yù)測(cè)器的數(shù)量比觀察樣本的數(shù)量還多。采用隨機(jī)森林方法最顯著的優(yōu)勢(shì)是它能獲得更多的信息以減少擬合數(shù)值和估計(jì)分割的偏差。
隨機(jī)森林可由R語言中的randomforest()函數(shù)實(shí)現(xiàn)。函數(shù)默認(rèn)生成500顆樹,并且默認(rèn)每個(gè)節(jié)點(diǎn)抽取個(gè)變量。
4.支持向量機(jī)(SVM)
支持向量機(jī)分類器的基本原理是通過一個(gè)非線性變換將一個(gè)線性不可分的空間映射到另一個(gè)高維的線性可分的空間,并建立一個(gè)分類器,這個(gè)分類器具有極小的 VC 維數(shù)。
該分類器僅由大量樣本中的極少數(shù)支持向量確定,并且具有最大的邊界寬度。支持向量機(jī)算法的好處在于不是直接計(jì)算復(fù)雜的非線性變換,而是通過計(jì)算非線性變換的點(diǎn)積,因而大大簡(jiǎn)化了計(jì)算量。通過把核函數(shù)引入到一些學(xué)習(xí)算法中來,可以很方便地把線性算法轉(zhuǎn)換為非線性算法,將其與支持向量機(jī)一起稱為基于核函數(shù)的方法。
從信用評(píng)級(jí)問題的特點(diǎn)來看,適合采用SVM進(jìn)行處理。SVM的特點(diǎn)之一是簡(jiǎn)單、推廣能力強(qiáng)和易于解釋。銀行信用評(píng)級(jí)歷史數(shù)據(jù)的一個(gè)特點(diǎn)是分布零散,各個(gè)信用等級(jí)的樣本數(shù)據(jù)量差別很大,而且可能存在較多的有缺陷的樣本。如果使用一般的模式識(shí)別模型,由于各個(gè)類別樣本數(shù)據(jù)量不對(duì)稱,訓(xùn)練過程中分類器分類效果會(huì)向樣本量大的類別傾斜。然而對(duì)商業(yè)銀行來說,一些高風(fēng)險(xiǎn)類別的對(duì)象,其數(shù)量雖然少,但是將其識(shí)別出來卻是至關(guān)重要的。
另一方面,借款人的歷史數(shù)據(jù)中存在缺陷是很正常的,甚至?xí)刑摷傩畔?#xff0c;這些樣本應(yīng)該被剔除掉。如果使用全部樣本訓(xùn)練分類器的話,這些樣本的存在可能會(huì)對(duì)分類器性能產(chǎn)生極大影響。
但在SVM模型中,只有支持向量才對(duì)優(yōu)化起作用,而支持向量的數(shù)量是非常有限的。因此,可以在使用SVM模型得到結(jié)果后,由專家對(duì)支持向量集進(jìn)行研究,既可以得到對(duì)結(jié)果的深入認(rèn)識(shí),又可以對(duì)支持向量樣本進(jìn)行審查,如果其中包含了有嚴(yán)重缺陷的樣本的話可以剔除出去重新訓(xùn)練。
SVM模型的另一個(gè)特點(diǎn)是泛化能力強(qiáng),SVM模型的復(fù)雜度可以由支持向量的數(shù)量來描述,而這又很容易控制。因此,SVM模型不會(huì)出現(xiàn)過擬合問題,模型的穩(wěn)定性相當(dāng)好,能很好滿足銀行對(duì)信用評(píng)級(jí)系統(tǒng)的穩(wěn)定性要求。
支持向量機(jī)可以通過R語言中kernlab包的ksvm()函數(shù)和e1071包中的svm()函數(shù)實(shí)現(xiàn)。
5.K緊鄰學(xué)習(xí)-KNN
最簡(jiǎn)單最初級(jí)的分類器是將全部的訓(xùn)練數(shù)據(jù)所對(duì)應(yīng)的類別都記錄下來,當(dāng)測(cè)試對(duì)象的屬性和某個(gè)訓(xùn)練對(duì)象的屬性完全匹配時(shí),便可以對(duì)其進(jìn)行分類。
KNN是通過測(cè)量不同特征值之間的距離進(jìn)行分類。它的的思路是:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。K通常是不大于20的整數(shù)。KNN算法中,所選擇的鄰居都是已經(jīng)正確分類的對(duì)象。該方法在定類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別。
R語言里的kknn包可以實(shí)現(xiàn)最鄰近算法——使用kknn()函數(shù)。
6.貝葉斯分類器
貝葉斯分類器的分類原理是通過某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對(duì)象屬于某一類的概率,選擇具有最大后驗(yàn)概率的類作為該對(duì)象所屬的類。也就是說,貝葉斯分類器是最小錯(cuò)誤率意義上的優(yōu)化。
經(jīng)典貝葉斯公式:
貝葉斯分類器可通過R語言樸素貝葉斯包 klaRNaiveBayes()實(shí)現(xiàn)。
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的【待继续研究】除了专家模型,这两大模型也被普遍应用于信用评估的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 你知道你的模型可以为公司赚多少钱吗
- 下一篇: 原来评分卡模型的概率是这么校准的!