金融业信贷风控算法1-初等概率论
文章目錄
- 一. 前言
- 1.1 一個小故事
- 1.2 為什么要學習概率論
- 二. 初等概率論
- 2.1 離散隨機變量
- 2.1.1 伯努利分布
- 2.1.2 二項分布
- 2.1.3 泊松分布
- 2.1.4 幾何分布
- 2.2 期望和方差
- 2.2.1 期望和方差概述
- 2.2.2 期望與方差的性質
- 2.2.3 幾種常見的離散型隨機變量的期望和方差
- 三. 連續型隨機變量與分布函數
- 3.1 連續型隨機變量
- 3.2 分布函數
- 3.2.1 均勻分布
- 3.2.2 正態分布
- 3.2.3 指數分布
- 四. 獨立變量,條件概率與貝葉斯公式
- 4.1 聯合分布
- 4.2 邊緣分布
- 4.3 獨立變量
- 4.4 全概率公式
- 4.5 貝葉斯公式
- 4.6 馬爾科夫矩陣
- 參考:
一. 前言
1.1 一個小故事
??盛夏的傍晚,涼風習習。明朗的月色之下,小明一邊吃著西瓜一邊在手機上看著《初等概率論》的教學視頻。聽到曉風老師慷慨激昂的聲音,小明不禁露出自信的微笑,心里想著:曉風老師講地這么好,這次我一定能把《從零入門金融業信貸風控算法》的知識學地很牢靠!未來幾天天氣應該不錯,白天努力工作,晚上認真上課,生活真的很美好,哈哈哈!
從上述這段話里,我們得到兩類不同的信息:
1.2 為什么要學習概率論
我們身處的世界里,非確定事件是無處不在的。這里的“非確定”由兩種不同的因素造成:
現實生活中遇到的隨機事件更多的是由后一種情況造成的。但是并不會因為人類無法精準推算事件發生與否而放棄推算,相反,有了概率論這一利器,我們依然能夠掌握充足的規律來推算事件的發展。
二. 初等概率論
我們先定義某一個事件A所處的樣本空間Ω, Ω上事件A發生的概率P要滿足以下要求
不嚴格的情況下,我們用“隨機變量”定義某事件發生的結果
2.1 離散隨機變量
如果某隨機變量的取值個數是有限的(例如擲骰子的結果)或者至多可數的(例如一小時內到達某窗口排隊的人群),那么我們稱之為離散型隨機變量,其取值結果的概率稱之為概率密度函數。
幾種常見的離散型隨機變量:
2.1.1 伯努利分布
單次事件A發生的概率為P(A)=𝑝,則不發生的概率為P(~A)=1?𝑝
2.1.2 二項分布
事件A發生的概率為p,不發生的概率為1-p。則試驗N次的結果中,事件A發生n次的概率為:
其中Y表示A發生的次數
參數含義:
P : 事件發生的概率 Y: 事件A發生的次數2.1.3 泊松分布
單位時間內平均發生違約的人為𝜆, 則觀察到有n個人發生違約的概率為:
參數含義:
𝜆 單位時間內平均發生違約的人 P 概率 k 發生違約人為k k! k的階乘 e 自然常數,大約為2.71828……,就是對數函數lnx的底特別地,t時間內發生違約的人數為:
泊松分布是二項分布n很大,p很小的極限形式,也就是說泊松分布可以由二項分布推倒出來
在二項分布Binomial(N,p)中,當N很大、p很小時:
泊松分布更通俗的理解:
知乎上大佬 泊松分布公式:
最小二乘法:
https://www.zhihu.com/question/37031188
泊松分布通俗的解釋:
https://blog.csdn.net/ccnt_2012/article/details/81114920
2.1.4 幾何分布
在循環授信產品(如信用卡)中,假設每一期發生違約的概率為p,則第一次違約發生在第k期的事件服從集合分布,概率密度函數為:
2.2 期望和方差
2.2.1 期望和方差概述
假設信貸人群的規模為100人,每人在未來一個月內發生違約的概率是0.05。二項分布告訴我們,違約人數為n的概率為:
當違約人數很多時,這一概率很小;反之,當違約人數比較小時,這一概率較大。我們用“期望值”來描述人數可能的規模:
盡管我們可以用期望值來刻畫違約人群可能的規模,但是由于有隨機性的存在,真實情況下觀察到的違約人群不一定會精準地等于期望值。例如,實際觀察到的違約人群可能是4,也可能是6或者7。因此,我們還需要用另一個量來刻畫實際觀察到的人數與期望值的差:𝑥?𝐸(𝑥)。注意到,同樣也由于隨機性的存在, 𝑥?𝐸(𝑥)依然是隨機變量。我們用這個隨機變量的平方的期望來進行刻畫,稱之為方差:
注意到,E(x)并不是隨機變量。展開上式,有
2.2.2 期望與方差的性質
期望的性質:
期望不是隨機變量
可加性:𝐸(𝑋+𝑌)=𝐸(𝑋)+𝐸(𝑌)
倍數性:𝐸(𝑘𝑋)=𝑘𝐸(𝑋), k為常數
方差的性質:
方差不是隨機變量
非負性:𝑣𝑎𝑟(𝑋)≥0
倍數性:𝑣𝑎𝑟(𝑘𝑋)=𝑘^2 𝑣𝑎𝑟(𝑋), k為常數
2.2.3 幾種常見的離散型隨機變量的期望和方差
三. 連續型隨機變量與分布函數
3.1 連續型隨機變量
與離散型隨機變量相對應的是,取值為連續數值的連續型隨機變量,例如違約人群的欠款金額。對于連續型隨機變量,概率𝑃(𝑋=𝑥)是沒有意義的(永遠為0),我們需要考察區間化的概率𝑃(𝑋<𝑥).此時𝑃(𝑋<𝑥)是一個與x相關的函數。例如,在數軸上的有限區間[0,1]中隨機選取一點X,X小于0.5的概率必然大于X小于0.1的概率。我們用累計分布函數F(x)來刻畫𝑃(𝑋<𝑥)。特別地,如果F(x)可導,其導函數𝑓(𝑥)=(𝑑𝐹(𝑥))/𝑑𝑥稱為連續型隨機變量的概率密度函數。
𝐹(𝑥)的性質:
𝐹(𝑥)關于x單調上升(同時也使得𝑓(𝑥)大于0)
連續型隨機變量的期望與方差
我們依然可以用期望與方差來刻畫大樣本下連續型隨機變量可能的取值大小以及波動
3.2 分布函數
3.2.1 均勻分布
𝒙~𝑼𝒏𝒊𝒇𝒐𝒓𝒎(𝒂,𝒃)
X落在區間[a,b]的任何地方的概率都是一樣的。
3.2.2 正態分布
Font metrics not found for font: .
最常見的隨機變量,分布函數也成為高斯分布
特別地,當Font metrics not found for font: .時,稱之為標準正態分布
由于大數定律和中心極限定理,正態分布是很多分布的極限分布。同時,如果一個量受到很多獨立的隨機因素的影響,最終這個量也會漸進服從正態分布。
與正態分布相關的還有卡方分布、t-分布和F-分布。
3.2.3 指數分布
指數分布詳解:
https://blog.csdn.net/ccnt_2012/article/details/89875865
四. 獨立變量,條件概率與貝葉斯公式
4.1 聯合分布
除了單個隨機變量可以有分布函數外,可以有2個或者多個隨機變量擁有聯合分布函數。例如,我們關心信貸違約人群的年齡分布和收入的分布,即𝑃(𝑎𝑔𝑒<𝑎,𝑖𝑛𝑐𝑜𝑚𝑒<𝑏)。聯合分布函數用F(X,Y)表示
非負性:0≤𝐹(𝑋,𝑌)≤1
單調性: 𝐹(𝑋,𝑌)關于X和Y單調上升
收斂性:
4.2 邊緣分布
在隨機變量的聯合分布𝑃(𝑋,𝑌)里,如果我們只關心其中一個變量X的分布,就得到X的邊緣分布:
4.3 獨立變量
如果X和Y的聯合分布等于二者的邊緣分布的乘積,則稱X和Y是獨立的:
𝑓(𝑋,𝑌)=𝑓(𝑋)𝑓(𝑌)
此時,X的變化不會引起Y的變化,反之亦然。
案例:
下圖是X和Y的聯合分布,例如 P(X=x1,Y=y1)=0.1
從X的邊緣分布P(X)=∑𝑃(𝑋,𝑌) 可得P(X=x1)=0.1+0.2+0.3=0.6
同理可得,P(Y=y1)=0.1+0.1=0.2
由于并不是所有的P(X,Y)=P(X)*P(Y),因此X和Y不獨立
4.4 全概率公式
假設如下一個場景:考慮校園貸中的違約事件與授信人的學歷的關系。全部樣本的學歷為{本科,碩士,博士}。用Y=1表示違約,Y=0表示非違約;用X=1,2,3分別表示學歷為本科,碩士和博士。由于數據的搜集是按照學歷進行整理的,因此看不到全部人群的違約狀態。但是每個學歷都能看到具體的違約狀態,即P(Y|X)是已知的;學歷的分布也是已知,即P(X)也是已知的,如何求出全部人群的違約概率P(Y)?
假設有N個樣本,因此本科,碩士,博士的人群的期望為N*P(X=1), N*P(X=2), N*P(X=3). 各自對應的違約人群的期望為N*P(X=1)*P(Y|X=1), N*P(X=2) *P(Y|X=2), N*P(X=3)*P(Y|X=3). 所以總的違約人群的期望為D=N*P(X=1)*P(Y|X=1)+N*P(X=2) *P(Y|X=2)+N*P(X=3)*P(Y|X=3). 則違約概率等于P(Y)=D/N=P(X=1)*P(Y|X=1)+P(X=2) *P(Y|X=2)+P(X=3)*P(Y|X=3). 這就是全概率公式:
4.5 貝葉斯公式
在上述的案例里,當我們得知學歷的分布以及每個學歷對應的違約概率后,就能得到某個樣本屬于違約的概率。但是對于逆問題,即得知某樣本屬于違約的時候,他的學歷最有可能的是?解決這個問題,就要引入貝葉斯公式:
貝葉斯公式的思想在概率統計模型、機器學習模型的很多領域都有應用。
貝葉斯公式的詳細解釋:
https://matongxue.blog.csdn.net/article/details/81113923
https://zhuanlan.zhihu.com/p/78297343
4.6 馬爾科夫矩陣
在信貸業務中,對企業或個人進行信用評級是信貸風控工作中的常用手段。假設評級結果只有A,B和C三種狀態。當前的評級結果為𝑅𝑡𝑅_𝑡Rt?, 下一階段的評級結果為𝑅(𝑡+1)𝑅_{(𝑡+1)}R(t+1)?. 于是形成一個3x3的狀態矩陣,其中第i行第j列的元素表示從當前第i個狀態變為下一階段為第j個狀態的概率:
從該矩陣的定義可以看出,每一行的概率值相加等于1。這樣的矩陣稱為馬爾科夫矩陣。
用符號𝑀(1)𝑀^{(1)}M(1)表示經過一個階段后的狀態的轉移矩陣,即從𝑅𝑡𝑅_𝑡Rt?轉移到𝑅(𝑡+1)𝑅_{(𝑡+1)}R(t+1)?.的概率。如果考察經過2個階段的轉移,即𝑅𝑡→𝑅(𝑡+1)→𝑅(𝑡+2)𝑅_𝑡→𝑅_{(𝑡+1)}→𝑅_{(𝑡+2)}Rt?→R(t+1)?→R(t+2)?的轉移概率𝑀(2)𝑀^{(2)}M(2),我們有
可以驗證的是,𝑀(2)𝑀^{(2)}M(2)也滿足“行相加等于1”的條件,即𝑀(2)𝑀^{(2)}M(2)也屬于馬爾科夫矩陣。
馬爾科夫矩陣的穩定性
假設初始狀態中,A、B、C三種評級的人群個數分別為100、200、150,經過第1階段的轉移后,三種評級的人群個數分別為130、205、115,經過第2階段的轉移后,三種評級的人群個數分別為137、209、104,…,經過第9階段的轉移后,三種評級的人群個數分別為139、213、98,經過第10階段的轉移后,三種評級的人群個數分別為139、213、98,后面的轉移后的人數保持不變。因此馬爾科夫矩陣具有一個很獨特的性質:經過若干次轉移后,三種狀態的人群分布不再變化。
參考:
總結
以上是生活随笔為你收集整理的金融业信贷风控算法1-初等概率论的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 嵌入式系统Linux Arm安装net6
- 下一篇: 一些英语谚语