金融业信贷风控算法1-初等概率论
文章目錄
- 一. 前言
- 1.1 一個(gè)小故事
- 1.2 為什么要學(xué)習(xí)概率論
- 二. 初等概率論
- 2.1 離散隨機(jī)變量
- 2.1.1 伯努利分布
- 2.1.2 二項(xiàng)分布
- 2.1.3 泊松分布
- 2.1.4 幾何分布
- 2.2 期望和方差
- 2.2.1 期望和方差概述
- 2.2.2 期望與方差的性質(zhì)
- 2.2.3 幾種常見的離散型隨機(jī)變量的期望和方差
- 三. 連續(xù)型隨機(jī)變量與分布函數(shù)
- 3.1 連續(xù)型隨機(jī)變量
- 3.2 分布函數(shù)
- 3.2.1 均勻分布
- 3.2.2 正態(tài)分布
- 3.2.3 指數(shù)分布
- 四. 獨(dú)立變量,條件概率與貝葉斯公式
- 4.1 聯(lián)合分布
- 4.2 邊緣分布
- 4.3 獨(dú)立變量
- 4.4 全概率公式
- 4.5 貝葉斯公式
- 4.6 馬爾科夫矩陣
- 參考:
一. 前言
1.1 一個(gè)小故事
??盛夏的傍晚,涼風(fēng)習(xí)習(xí)。明朗的月色之下,小明一邊吃著西瓜一邊在手機(jī)上看著《初等概率論》的教學(xué)視頻。聽到曉風(fēng)老師慷慨激昂的聲音,小明不禁露出自信的微笑,心里想著:曉風(fēng)老師講地這么好,這次我一定能把《從零入門金融業(yè)信貸風(fēng)控算法》的知識(shí)學(xué)地很牢靠!未來幾天天氣應(yīng)該不錯(cuò),白天努力工作,晚上認(rèn)真上課,生活真的很美好,哈哈哈!
從上述這段話里,我們得到兩類不同的信息:
1.2 為什么要學(xué)習(xí)概率論
我們身處的世界里,非確定事件是無處不在的。這里的“非確定”由兩種不同的因素造成:
現(xiàn)實(shí)生活中遇到的隨機(jī)事件更多的是由后一種情況造成的。但是并不會(huì)因?yàn)槿祟悷o法精準(zhǔn)推算事件發(fā)生與否而放棄推算,相反,有了概率論這一利器,我們依然能夠掌握充足的規(guī)律來推算事件的發(fā)展。
二. 初等概率論
我們先定義某一個(gè)事件A所處的樣本空間Ω, Ω上事件A發(fā)生的概率P要滿足以下要求
不嚴(yán)格的情況下,我們用“隨機(jī)變量”定義某事件發(fā)生的結(jié)果
2.1 離散隨機(jī)變量
如果某隨機(jī)變量的取值個(gè)數(shù)是有限的(例如擲骰子的結(jié)果)或者至多可數(shù)的(例如一小時(shí)內(nèi)到達(dá)某窗口排隊(duì)的人群),那么我們稱之為離散型隨機(jī)變量,其取值結(jié)果的概率稱之為概率密度函數(shù)。
幾種常見的離散型隨機(jī)變量:
2.1.1 伯努利分布
單次事件A發(fā)生的概率為P(A)=𝑝,則不發(fā)生的概率為P(~A)=1?𝑝
2.1.2 二項(xiàng)分布
事件A發(fā)生的概率為p,不發(fā)生的概率為1-p。則試驗(yàn)N次的結(jié)果中,事件A發(fā)生n次的概率為:
其中Y表示A發(fā)生的次數(shù)
參數(shù)含義:
P : 事件發(fā)生的概率 Y: 事件A發(fā)生的次數(shù)2.1.3 泊松分布
單位時(shí)間內(nèi)平均發(fā)生違約的人為𝜆, 則觀察到有n個(gè)人發(fā)生違約的概率為:
參數(shù)含義:
𝜆 單位時(shí)間內(nèi)平均發(fā)生違約的人 P 概率 k 發(fā)生違約人為k k! k的階乘 e 自然常數(shù),大約為2.71828……,就是對(duì)數(shù)函數(shù)lnx的底特別地,t時(shí)間內(nèi)發(fā)生違約的人數(shù)為:
泊松分布是二項(xiàng)分布n很大,p很小的極限形式,也就是說泊松分布可以由二項(xiàng)分布推倒出來
在二項(xiàng)分布Binomial(N,p)中,當(dāng)N很大、p很小時(shí):
泊松分布更通俗的理解:
知乎上大佬 泊松分布公式:
最小二乘法:
https://www.zhihu.com/question/37031188
泊松分布通俗的解釋:
https://blog.csdn.net/ccnt_2012/article/details/81114920
2.1.4 幾何分布
在循環(huán)授信產(chǎn)品(如信用卡)中,假設(shè)每一期發(fā)生違約的概率為p,則第一次違約發(fā)生在第k期的事件服從集合分布,概率密度函數(shù)為:
2.2 期望和方差
2.2.1 期望和方差概述
假設(shè)信貸人群的規(guī)模為100人,每人在未來一個(gè)月內(nèi)發(fā)生違約的概率是0.05。二項(xiàng)分布告訴我們,違約人數(shù)為n的概率為:
當(dāng)違約人數(shù)很多時(shí),這一概率很小;反之,當(dāng)違約人數(shù)比較小時(shí),這一概率較大。我們用“期望值”來描述人數(shù)可能的規(guī)模:
盡管我們可以用期望值來刻畫違約人群可能的規(guī)模,但是由于有隨機(jī)性的存在,真實(shí)情況下觀察到的違約人群不一定會(huì)精準(zhǔn)地等于期望值。例如,實(shí)際觀察到的違約人群可能是4,也可能是6或者7。因此,我們還需要用另一個(gè)量來刻畫實(shí)際觀察到的人數(shù)與期望值的差:𝑥?𝐸(𝑥)。注意到,同樣也由于隨機(jī)性的存在, 𝑥?𝐸(𝑥)依然是隨機(jī)變量。我們用這個(gè)隨機(jī)變量的平方的期望來進(jìn)行刻畫,稱之為方差:
注意到,E(x)并不是隨機(jī)變量。展開上式,有
2.2.2 期望與方差的性質(zhì)
期望的性質(zhì):
期望不是隨機(jī)變量
可加性:𝐸(𝑋+𝑌)=𝐸(𝑋)+𝐸(𝑌)
倍數(shù)性:𝐸(𝑘𝑋)=𝑘𝐸(𝑋), k為常數(shù)
方差的性質(zhì):
方差不是隨機(jī)變量
非負(fù)性:𝑣𝑎𝑟(𝑋)≥0
倍數(shù)性:𝑣𝑎𝑟(𝑘𝑋)=𝑘^2 𝑣𝑎𝑟(𝑋), k為常數(shù)
2.2.3 幾種常見的離散型隨機(jī)變量的期望和方差
三. 連續(xù)型隨機(jī)變量與分布函數(shù)
3.1 連續(xù)型隨機(jī)變量
與離散型隨機(jī)變量相對(duì)應(yīng)的是,取值為連續(xù)數(shù)值的連續(xù)型隨機(jī)變量,例如違約人群的欠款金額。對(duì)于連續(xù)型隨機(jī)變量,概率𝑃(𝑋=𝑥)是沒有意義的(永遠(yuǎn)為0),我們需要考察區(qū)間化的概率𝑃(𝑋<𝑥).此時(shí)𝑃(𝑋<𝑥)是一個(gè)與x相關(guān)的函數(shù)。例如,在數(shù)軸上的有限區(qū)間[0,1]中隨機(jī)選取一點(diǎn)X,X小于0.5的概率必然大于X小于0.1的概率。我們用累計(jì)分布函數(shù)F(x)來刻畫𝑃(𝑋<𝑥)。特別地,如果F(x)可導(dǎo),其導(dǎo)函數(shù)𝑓(𝑥)=(𝑑𝐹(𝑥))/𝑑𝑥稱為連續(xù)型隨機(jī)變量的概率密度函數(shù)。
𝐹(𝑥)的性質(zhì):
𝐹(𝑥)關(guān)于x單調(diào)上升(同時(shí)也使得𝑓(𝑥)大于0)
連續(xù)型隨機(jī)變量的期望與方差
我們依然可以用期望與方差來刻畫大樣本下連續(xù)型隨機(jī)變量可能的取值大小以及波動(dòng)
3.2 分布函數(shù)
3.2.1 均勻分布
𝒙~𝑼𝒏𝒊𝒇𝒐𝒓𝒎(𝒂,𝒃)
X落在區(qū)間[a,b]的任何地方的概率都是一樣的。
3.2.2 正態(tài)分布
Font metrics not found for font: .
最常見的隨機(jī)變量,分布函數(shù)也成為高斯分布
特別地,當(dāng)Font metrics not found for font: .時(shí),稱之為標(biāo)準(zhǔn)正態(tài)分布
由于大數(shù)定律和中心極限定理,正態(tài)分布是很多分布的極限分布。同時(shí),如果一個(gè)量受到很多獨(dú)立的隨機(jī)因素的影響,最終這個(gè)量也會(huì)漸進(jìn)服從正態(tài)分布。
與正態(tài)分布相關(guān)的還有卡方分布、t-分布和F-分布。
3.2.3 指數(shù)分布
指數(shù)分布詳解:
https://blog.csdn.net/ccnt_2012/article/details/89875865
四. 獨(dú)立變量,條件概率與貝葉斯公式
4.1 聯(lián)合分布
除了單個(gè)隨機(jī)變量可以有分布函數(shù)外,可以有2個(gè)或者多個(gè)隨機(jī)變量擁有聯(lián)合分布函數(shù)。例如,我們關(guān)心信貸違約人群的年齡分布和收入的分布,即𝑃(𝑎𝑔𝑒<𝑎,𝑖𝑛𝑐𝑜𝑚𝑒<𝑏)。聯(lián)合分布函數(shù)用F(X,Y)表示
非負(fù)性:0≤𝐹(𝑋,𝑌)≤1
單調(diào)性: 𝐹(𝑋,𝑌)關(guān)于X和Y單調(diào)上升
收斂性:
4.2 邊緣分布
在隨機(jī)變量的聯(lián)合分布𝑃(𝑋,𝑌)里,如果我們只關(guān)心其中一個(gè)變量X的分布,就得到X的邊緣分布:
4.3 獨(dú)立變量
如果X和Y的聯(lián)合分布等于二者的邊緣分布的乘積,則稱X和Y是獨(dú)立的:
𝑓(𝑋,𝑌)=𝑓(𝑋)𝑓(𝑌)
此時(shí),X的變化不會(huì)引起Y的變化,反之亦然。
案例:
下圖是X和Y的聯(lián)合分布,例如 P(X=x1,Y=y1)=0.1
從X的邊緣分布P(X)=∑𝑃(𝑋,𝑌) 可得P(X=x1)=0.1+0.2+0.3=0.6
同理可得,P(Y=y1)=0.1+0.1=0.2
由于并不是所有的P(X,Y)=P(X)*P(Y),因此X和Y不獨(dú)立
4.4 全概率公式
假設(shè)如下一個(gè)場(chǎng)景:考慮校園貸中的違約事件與授信人的學(xué)歷的關(guān)系。全部樣本的學(xué)歷為{本科,碩士,博士}。用Y=1表示違約,Y=0表示非違約;用X=1,2,3分別表示學(xué)歷為本科,碩士和博士。由于數(shù)據(jù)的搜集是按照學(xué)歷進(jìn)行整理的,因此看不到全部人群的違約狀態(tài)。但是每個(gè)學(xué)歷都能看到具體的違約狀態(tài),即P(Y|X)是已知的;學(xué)歷的分布也是已知,即P(X)也是已知的,如何求出全部人群的違約概率P(Y)?
假設(shè)有N個(gè)樣本,因此本科,碩士,博士的人群的期望為N*P(X=1), N*P(X=2), N*P(X=3). 各自對(duì)應(yīng)的違約人群的期望為N*P(X=1)*P(Y|X=1), N*P(X=2) *P(Y|X=2), N*P(X=3)*P(Y|X=3). 所以總的違約人群的期望為D=N*P(X=1)*P(Y|X=1)+N*P(X=2) *P(Y|X=2)+N*P(X=3)*P(Y|X=3). 則違約概率等于P(Y)=D/N=P(X=1)*P(Y|X=1)+P(X=2) *P(Y|X=2)+P(X=3)*P(Y|X=3). 這就是全概率公式:
4.5 貝葉斯公式
在上述的案例里,當(dāng)我們得知學(xué)歷的分布以及每個(gè)學(xué)歷對(duì)應(yīng)的違約概率后,就能得到某個(gè)樣本屬于違約的概率。但是對(duì)于逆問題,即得知某樣本屬于違約的時(shí)候,他的學(xué)歷最有可能的是?解決這個(gè)問題,就要引入貝葉斯公式:
貝葉斯公式的思想在概率統(tǒng)計(jì)模型、機(jī)器學(xué)習(xí)模型的很多領(lǐng)域都有應(yīng)用。
貝葉斯公式的詳細(xì)解釋:
https://matongxue.blog.csdn.net/article/details/81113923
https://zhuanlan.zhihu.com/p/78297343
4.6 馬爾科夫矩陣
在信貸業(yè)務(wù)中,對(duì)企業(yè)或個(gè)人進(jìn)行信用評(píng)級(jí)是信貸風(fēng)控工作中的常用手段。假設(shè)評(píng)級(jí)結(jié)果只有A,B和C三種狀態(tài)。當(dāng)前的評(píng)級(jí)結(jié)果為𝑅𝑡𝑅_𝑡Rt?, 下一階段的評(píng)級(jí)結(jié)果為𝑅(𝑡+1)𝑅_{(𝑡+1)}R(t+1)?. 于是形成一個(gè)3x3的狀態(tài)矩陣,其中第i行第j列的元素表示從當(dāng)前第i個(gè)狀態(tài)變?yōu)橄乱浑A段為第j個(gè)狀態(tài)的概率:
從該矩陣的定義可以看出,每一行的概率值相加等于1。這樣的矩陣稱為馬爾科夫矩陣。
用符號(hào)𝑀(1)𝑀^{(1)}M(1)表示經(jīng)過一個(gè)階段后的狀態(tài)的轉(zhuǎn)移矩陣,即從𝑅𝑡𝑅_𝑡Rt?轉(zhuǎn)移到𝑅(𝑡+1)𝑅_{(𝑡+1)}R(t+1)?.的概率。如果考察經(jīng)過2個(gè)階段的轉(zhuǎn)移,即𝑅𝑡→𝑅(𝑡+1)→𝑅(𝑡+2)𝑅_𝑡→𝑅_{(𝑡+1)}→𝑅_{(𝑡+2)}Rt?→R(t+1)?→R(t+2)?的轉(zhuǎn)移概率𝑀(2)𝑀^{(2)}M(2),我們有
可以驗(yàn)證的是,𝑀(2)𝑀^{(2)}M(2)也滿足“行相加等于1”的條件,即𝑀(2)𝑀^{(2)}M(2)也屬于馬爾科夫矩陣。
馬爾科夫矩陣的穩(wěn)定性
假設(shè)初始狀態(tài)中,A、B、C三種評(píng)級(jí)的人群個(gè)數(shù)分別為100、200、150,經(jīng)過第1階段的轉(zhuǎn)移后,三種評(píng)級(jí)的人群個(gè)數(shù)分別為130、205、115,經(jīng)過第2階段的轉(zhuǎn)移后,三種評(píng)級(jí)的人群個(gè)數(shù)分別為137、209、104,…,經(jīng)過第9階段的轉(zhuǎn)移后,三種評(píng)級(jí)的人群個(gè)數(shù)分別為139、213、98,經(jīng)過第10階段的轉(zhuǎn)移后,三種評(píng)級(jí)的人群個(gè)數(shù)分別為139、213、98,后面的轉(zhuǎn)移后的人數(shù)保持不變。因此馬爾科夫矩陣具有一個(gè)很獨(dú)特的性質(zhì):經(jīng)過若干次轉(zhuǎn)移后,三種狀態(tài)的人群分布不再變化。
參考:
總結(jié)
以上是生活随笔為你收集整理的金融业信贷风控算法1-初等概率论的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 嵌入式系统Linux Arm安装net6
- 下一篇: 一些英语谚语