當(dāng)前位置：首頁 >

手绘导图版：深入解析机器学习在风控场景中的8大应用

發(fā)布時間：2025/3/15 44 豆豆

生活随笔收集整理的這篇文章主要介紹了手绘导图版：深入解析机器学习在风控场景中的8大应用小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

導(dǎo)讀：本文詳細(xì)梳理風(fēng)控領(lǐng)域的基本概念，并將風(fēng)控模型的使用場景分為8大板塊，逐一解析機(jī)器學(xué)習(xí)在其中的應(yīng)用。

作者：梅子行

來源：大數(shù)據(jù)風(fēng)控與機(jī)器學(xué)習(xí)

01 風(fēng)控領(lǐng)域的特點(diǎn)

風(fēng)控領(lǐng)域是新興的機(jī)器學(xué)習(xí)應(yīng)用場景之一，其特點(diǎn)非常明顯：

負(fù)樣本占比極少，是均衡學(xué)習(xí)的算法的主戰(zhàn)場之一。有標(biāo)簽樣本稀缺，從而使得半監(jiān)督和無監(jiān)督算法在風(fēng)控場景下大放異彩。
業(yè)務(wù)對模型解釋性要求偏高。同時對時效性有一定要求，這要求在實(shí)際建模中要學(xué)會去權(quán)衡模型復(fù)雜度與精度，并且適當(dāng)?shù)膬?yōu)化算法內(nèi)核。
業(yè)務(wù)模型多樣。每一個模型都和業(yè)務(wù)目標(biāo)有著非常高的聯(lián)系，因此每一個從業(yè)者對業(yè)務(wù)和模型都有很好的理解，從而為業(yè)務(wù)定制合適的模型。
風(fēng)控數(shù)據(jù)源豐富。圍繞著人展開的數(shù)據(jù)皆可用，而數(shù)據(jù)多樣帶來的就是新興技術(shù)的井噴，結(jié)構(gòu)化數(shù)據(jù)、圖像、文本等等多個領(lǐng)域的方法都在風(fēng)控領(lǐng)域有一定應(yīng)用。

02 信用管理與風(fēng)險控制

信用貸款的邏輯可以參見這幅漫畫：

信用好的小雞是可以賒賬的。面對平時信用較差的狐貍，貓老師則想辦法拒絕他的賒賬需求。這就是基本的信用價值。

信用管理主要分為兩個概念，信用和管理。信用意味著先買后付，即使用信用值預(yù)支金錢購買相應(yīng)服務(wù)。而管理即通過用戶信息對用戶的信用度進(jìn)行評估，并根據(jù)信用情況定制風(fēng)險規(guī)避策略。所謂風(fēng)險控制（風(fēng)控），即針對用戶風(fēng)險進(jìn)行管理規(guī)避的過程。

03 風(fēng)險分類

在信貸領(lǐng)域有兩類風(fēng)險：一類是信用風(fēng)險，一類是欺詐風(fēng)險。

信用風(fēng)險：指借款人的還款能力和還款意愿在貸款后出現(xiàn)問題。通常由于不可抗力因素導(dǎo)致用戶的經(jīng)濟(jì)能力和思想狀態(tài)發(fā)生改變。
欺詐風(fēng)險：指借款人的貸款目的不正當(dāng)。在貸款初始便沒有還款計劃。多見于有組織有紀(jì)律的中介平臺。

一般情況下，借款人出現(xiàn)信用風(fēng)險，金融機(jī)構(gòu)可通過風(fēng)險定價策略等手段進(jìn)行防范，風(fēng)險可控性較大。而借款人在一開始，就以騙貸為目的進(jìn)行借貸并且貸款成功，則金融機(jī)構(gòu)會造成相當(dāng)一部分的損失。因?yàn)槠脚_不僅沒有盈利，還會被欺詐者騙走本金。

尤其在遇上團(tuán)伙欺詐時，信貸業(yè)務(wù)會在短時間內(nèi)遭受非常嚴(yán)重的打擊。金融機(jī)構(gòu)面對欺詐風(fēng)險幾乎毫無處置能力，因此欺詐檢測是信貸中的風(fēng)險管控最重要的一環(huán)。

而風(fēng)險的管控，主要依靠信貸領(lǐng)域的兩大類系統(tǒng)：一類是信用評分系統(tǒng)，另一類是欺詐檢測系統(tǒng)。信用評分系統(tǒng)是對借款人還款能力和還款意愿進(jìn)行評估，針對的是信用風(fēng)險。而欺詐檢測系統(tǒng)則是對借款人的目的是否正當(dāng)進(jìn)行判斷，針對的是欺詐風(fēng)險。

1. 自動化規(guī)則挖掘

互聯(lián)網(wǎng)金融是傳統(tǒng)信貸業(yè)務(wù)在互聯(lián)網(wǎng)場景下的繼承與拓展。互聯(lián)網(wǎng)金融風(fēng)控體系主要由三大部分組成：數(shù)據(jù)信息、策略體系、人工智能模型。

數(shù)據(jù)信息：包括用戶基本信息、用戶行為信息、用戶授權(quán)信息、外部接入信息。
策略體系：包括反欺詐規(guī)則、準(zhǔn)入規(guī)則、運(yùn)營商規(guī)則、風(fēng)險名單、網(wǎng)貸規(guī)則。
人工智能模型：包括欺詐檢測模型、準(zhǔn)入模型、授信模型、風(fēng)險定價、額度管理、流失預(yù)警、失聯(lián)修復(fù)。優(yōu)質(zhì)策略的制定需要資深的業(yè)務(wù)經(jīng)驗(yàn)以及優(yōu)秀的數(shù)據(jù)敏感度保駕護(hù)航。因此基于單變量分析以及專家思想從經(jīng)驗(yàn)出發(fā)的策略生成，是風(fēng)控領(lǐng)域最常用的兩種方法。

然而對于多規(guī)則組合的探索優(yōu)化以及具體規(guī)則的閾值確定，需要借助于決策樹（Decision Tree）模型。依托于基尼指數(shù)和均方差最小化原理對策略的組合進(jìn)行貪心搜索，從而得到業(yè)務(wù)期望的優(yōu)質(zhì)策略。

2. 評分卡模型

信用評分模型的主要目的是為了衡量一個用戶的信用風(fēng)險。相比于策略規(guī)則，評分模型的靈活度更高。不會根據(jù)某個變量直接對樣本群體進(jìn)行“一刀切”，而是從多個角度進(jìn)行綜合判定。

在數(shù)據(jù)源固化的情況下，模型的效果通常與特征工程直接相關(guān)。而業(yè)內(nèi)有兩套相異的建模方法。一個是簡單特征工程與復(fù)雜模型結(jié)合。另一個是復(fù)雜特征工程與簡單模型結(jié)合。

在之前的漫畫中為什么貓老師不為狡猾的賒賬？

因?yàn)椤?/p>

傳統(tǒng)的評分卡采用邏輯回歸模型，就是一種復(fù)雜特征工程與簡單模型結(jié)合的方法。簡單特征工程與復(fù)雜模型結(jié)合的例子有很多，如XGBoost、LightGBM、CNN、RNN、DeepFM等。集成模型在結(jié)構(gòu)化數(shù)據(jù)上可以自動的實(shí)現(xiàn)特征交叉組合。但仍需要部分人工特征工程以保證模型效果。

而深度學(xué)習(xí)作為一種表示學(xué)習(xí)方法，可以自動的抽取數(shù)據(jù)中的重要信息，其在部分結(jié)構(gòu)化數(shù)據(jù)上也有較好的表現(xiàn)。復(fù)雜模型的優(yōu)點(diǎn)在于其對新手更加友好，且相比于人工特征工程，其效果通常更好。缺點(diǎn)是對數(shù)據(jù)量和計算資源的要求較高。否則難以收斂。

對于復(fù)雜模型在風(fēng)控領(lǐng)域的應(yīng)用，其最大的問題還在于貸前審批對模型的解釋性要求極高，因此對于復(fù)雜模型解釋性的問題，也需要進(jìn)行額外關(guān)注。SHAP作為一種擁有一致性的特征貢獻(xiàn)評判方法，根據(jù)訓(xùn)練樣本的子集計算整體模型預(yù)測均值，可以提供復(fù)雜模型中的特征影響期望。對于復(fù)雜模型的解釋有大幫助。

3. 項(xiàng)目冷啟動

冷啟動，指在沒有或只有很少量數(shù)據(jù)的情況下，從0到1建立業(yè)務(wù)模型的過程。對于冷啟動，基本準(zhǔn)則為策略先行，模型為輔。由于策略分析以及模型訓(xùn)練都必須有一定的數(shù)據(jù)積累，在冷啟動業(yè)務(wù)中，缺乏數(shù)據(jù)困擾著很多從業(yè)者。

近年來，研究者們提出了多種實(shí)現(xiàn)域自適應(yīng)的模型和算法，本文介紹其中比較常用的三大類算法。

第一類方法：對源域中的樣本賦予某種權(quán)重，使其分布靠近目標(biāo)域。
第二類方法：尋找一個低維子空間，使得源域和目標(biāo)域的數(shù)據(jù)樣本在映射到該子空間后服從相同或相近的分布。
第三類方法：利用低秩矩陣重構(gòu)數(shù)據(jù)點(diǎn)，實(shí)現(xiàn)域之間的魯棒自適應(yīng)。

部分遷移模型的主要作用為對源域樣本進(jìn)行篩選，從而用于目標(biāo)域的策略輔助決策。因此即使業(yè)務(wù)需求是在線上部署策略，遷移模型對其線下分析也有很大幫助。而對于初步數(shù)據(jù)積累的場景，遷移學(xué)習(xí)大多可以有效的輔助模型進(jìn)行決策優(yōu)化。

4. 幸存者偏差

幸存者偏差（SurvivorshipBias）與樣本不均衡（Imbalance Learning）問題都是由于風(fēng)控模型的拒絕屬性導(dǎo)致的。但表現(xiàn)形式略有不同。幸存者偏差是指，每次模型迭代時，使用的樣本都是被前一個模型篩選過的，從而導(dǎo)致的樣本空間不完備。

只有高于前一版模型分?jǐn)?shù)閾值的樣本，才可以進(jìn)入當(dāng)前模型進(jìn)行訓(xùn)練，這些人就是幸存者。他們不攜帶或者很少攜帶被拒絕的人的信息，導(dǎo)致樣本逐漸偏離真實(shí)分布。如下圖所示。

只有綠色樣本出現(xiàn)在樣本集中，這些綠色的點(diǎn)即為幸存者。而灰色樣本由于被模型拒絕，導(dǎo)致未被模型觀察到。根據(jù)有偏差的樣本集學(xué)習(xí)得到的模型，在應(yīng)對沒能被表征的人群時，很難給出準(zhǔn)確的結(jié)果。久而久之，隨著模型迭代，區(qū)分能力強(qiáng)的特征被弱化，甚至對模型起到完全相反的作用（如某個特征的權(quán)重系數(shù)由正數(shù)變?yōu)樨?fù)數(shù)）。

因此，需要使用無偏樣本進(jìn)行修正。在該場景下，遷移學(xué)習(xí)、增量學(xué)習(xí)（Incremental Learning）、生成對抗網(wǎng)絡(luò)（GenerativeAdversative Nets，GAN）、高斯聚類模型（GaussianMixture Model，GMM）、半監(jiān)督學(xué)習(xí)等都有一定應(yīng)用。

5. 不均衡學(xué)習(xí)

通常二分類機(jī)器學(xué)習(xí)任務(wù)，期望兩種類別的樣本是均衡的，即兩類樣本的總量接近相同。因?yàn)樵谔荻认陆颠^程中，不同類別的樣本量有較大差異時，很難收斂到最優(yōu)解。但在很多真實(shí)場景下，數(shù)據(jù)集往往是不平衡的。也就是說，在數(shù)據(jù)集中，有一類含有的數(shù)據(jù)要遠(yuǎn)遠(yuǎn)多于其他類的數(shù)據(jù)。

尤其是在風(fēng)控場景下，負(fù)樣本的占比要遠(yuǎn)遠(yuǎn)小于正樣本的占比。通常的思想是從現(xiàn)有數(shù)據(jù)出發(fā)，通過加權(quán)或構(gòu)造更多的相似數(shù)據(jù)用于樣本均衡訓(xùn)練。因此代價敏感學(xué)習(xí)、遷移學(xué)習(xí)、多種采樣算法、半監(jiān)督學(xué)習(xí)在該領(lǐng)域均有一定應(yīng)用。

6. 異常檢測

離群點(diǎn)是指樣本空間中，分布遠(yuǎn)離其余樣本的點(diǎn)的集合。通常認(rèn)為樣本集由真實(shí)數(shù)據(jù)和噪聲組成。離群點(diǎn)是和大部分觀測量之間有明顯不同的觀測值，屬于樣本集中的一部分，它既有可能是真實(shí)數(shù)據(jù)產(chǎn)生的，也有可能是噪聲帶來的。

噪聲被定義為被測量的變量的隨機(jī)誤差或方差。而離群點(diǎn)的定義是數(shù)據(jù)集中包含一些數(shù)據(jù)對象，它們偏離整體數(shù)據(jù)集的趨勢。

而噪聲普遍被認(rèn)為是正常數(shù)據(jù)和異常的邊界，可以視為一種離群點(diǎn)，但未必能達(dá)到異常的標(biāo)準(zhǔn)。大多異常檢測算法需要指定量化指標(biāo)，來度量樣本點(diǎn)的離群程度。通常情況下，異常的離群程度是大于噪聲的。然而在實(shí)際應(yīng)用中，兩者并不容易區(qū)分。

欺詐檢測可以細(xì)分為個體欺詐檢測與團(tuán)伙欺詐檢測。其中個體欺詐具有占比極小、與整體顯著不同的特點(diǎn)。這與離群點(diǎn)的性質(zhì)相同。因此常將異常檢測技術(shù)用于個體欺詐檢測。在實(shí)踐中，配合相關(guān)的業(yè)務(wù)經(jīng)驗(yàn)，可以達(dá)到較好的效果。

然而無監(jiān)督模型的建模難點(diǎn)并不在于模型，而在于特征的選取。由于沒有標(biāo)簽，因此特征的構(gòu)造并不能通過數(shù)據(jù)分析手段進(jìn)行，通常需要結(jié)合領(lǐng)域知識進(jìn)行精準(zhǔn)的特征構(gòu)造。

7. 模型優(yōu)化

為了在信用評分模型中取得較好的表現(xiàn)，通常要經(jīng)歷數(shù)據(jù)清洗、特征工程、模型組合三個步驟。

模型組合，是指根據(jù)不同的數(shù)據(jù)或模型特點(diǎn)，選擇合適的模型訓(xùn)練，再將多個模型進(jìn)行融合，從而直接或間接地提升模型在未來樣本上的表現(xiàn)。如動態(tài)數(shù)據(jù)源模型組合就是一種組合優(yōu)化方法。

此外，還有多損失函數(shù)適應(yīng)性組合、決策樹與線性模型組合、深度學(xué)習(xí)與圖算法組合等方法。

8. 網(wǎng)絡(luò)挖掘

知識圖譜是用于識別團(tuán)伙欺詐的主要手段，它采用基于圖的數(shù)據(jù)結(jié)構(gòu)，以圖的方式存儲知識并返回經(jīng)過加工和推理的關(guān)聯(lián)信息。

知識圖譜在金融領(lǐng)域的主要應(yīng)用場景有欺詐檢測、信用評級、失聯(lián)管理等。工業(yè)界常用的網(wǎng)絡(luò)挖掘方法包括：計算節(jié)點(diǎn)屬性、社區(qū)發(fā)現(xiàn)算法、節(jié)點(diǎn)分類算法、網(wǎng)絡(luò)表示學(xué)習(xí)等。

通過網(wǎng)絡(luò)中的中心度和相似度計算，可以進(jìn)行基本的團(tuán)伙欺詐檢測規(guī)則抽取。比如在網(wǎng)絡(luò)中中心度超過某一閾值或者和其他節(jié)點(diǎn)的相似度超過某一閾值，即會觸發(fā)預(yù)警。但是通過對每一個樣本進(jìn)行遍歷的比對相似度，是一種非常低效的做法，實(shí)際中更常使用的是社區(qū)發(fā)現(xiàn)算法。

而每一個節(jié)點(diǎn)的二度聯(lián)系人和三度聯(lián)系人，可以作為用戶失聯(lián)后的潛在聯(lián)系人。由于用戶失聯(lián)后，貸后管理人員無法進(jìn)行適當(dāng)?shù)氖?#xff0c;通過網(wǎng)絡(luò)輸出多度聯(lián)系人，成為了當(dāng)前失聯(lián)補(bǔ)全模型的主要手段。

此外，每一個節(jié)點(diǎn)的中心度也可以抽取出來，放入風(fēng)控模型中作為一種來源于知識圖譜的信息，與其他類型的數(shù)據(jù)一同建立監(jiān)督模型。類似的方法還有網(wǎng)絡(luò)表示學(xué)習(xí)，如隨機(jī)游走、圖卷積神經(jīng)網(wǎng)絡(luò)等。

關(guān)于作者：梅子行，系列暢銷書《智能風(fēng)控》作者。歷任多家知名金融科技公司風(fēng)控算法研究員、數(shù)據(jù)挖掘工程師等職位。現(xiàn)供職于智能物流獨(dú)角獸——滿幫科技。師承Experian、Discover等頂級風(fēng)控專家。擅長深度學(xué)習(xí)、復(fù)雜網(wǎng)絡(luò)、遷移學(xué)習(xí)、異常檢測等非傳統(tǒng)機(jī)器學(xué)習(xí)方法。熱衷于數(shù)據(jù)挖掘以及算法的跨領(lǐng)域優(yōu)化實(shí)踐。公眾號與知乎專欄：“大數(shù)據(jù)風(fēng)控與機(jī)器學(xué)習(xí)”。

文章內(nèi)容整理自梅子行老師的手繪風(fēng)系列書籍——《智能風(fēng)控》中的《智能風(fēng)控：原理、算法與工程實(shí)踐》一書。

延伸閱讀《智能風(fēng)控：原理、算法與工程實(shí)踐》

推薦語：資深專家，基于Python，原理、算法、實(shí)踐3維度講解機(jī)器學(xué)習(xí)的風(fēng)控實(shí)踐，21種算法26種解決方案，9位專家推薦

有話要說????

Q:?機(jī)器學(xué)習(xí)還有哪些神應(yīng)用？

歡迎留言與大家分享

猜你想看????

手把手教你用Python畫直方圖：其實(shí)跟柱狀圖完全不同
無處不在的流計算到底是什么？終于有人講明白了(附導(dǎo)圖)
曾成功預(yù)測H1N1病毒疫情，細(xì)數(shù)這些年大數(shù)據(jù)的神應(yīng)用
騰訊阿里都在用！機(jī)器學(xué)習(xí)最熱研究方向入門，附學(xué)習(xí)路線圖

更多精彩????

在公眾號對話框輸入以下關(guān)鍵詞

查看更多優(yōu)質(zhì)內(nèi)容！

PPT?|?讀書?|?書單?|?硬核?|?干貨?

大數(shù)據(jù)?|?揭秘?|?Python?|?可視化

AI?|?人工智能?|?5G?|?中臺

機(jī)器學(xué)習(xí)?|?深度學(xué)習(xí)?|?神經(jīng)網(wǎng)絡(luò)

合伙人?|?1024?|?大神?|?數(shù)學(xué)

據(jù)統(tǒng)計，99%的大咖都完成了這個神操作

????

總結(jié)

以上是生活随笔為你收集整理的手绘导图版：深入解析机器学习在风控场景中的8大应用的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：键值数据库LevelDB的优缺点及性能分
下一篇：揭秘“21世纪最性感的职业”：数学、编程