手绘导图版:深入解析机器学习在风控场景中的8大应用
導(dǎo)讀:本文詳細(xì)梳理風(fēng)控領(lǐng)域的基本概念,并將風(fēng)控模型的使用場(chǎng)景分為8大板塊,逐一解析機(jī)器學(xué)習(xí)在其中的應(yīng)用。
作者:梅子行
來(lái)源:大數(shù)據(jù)風(fēng)控與機(jī)器學(xué)習(xí)
01 風(fēng)控領(lǐng)域的特點(diǎn)
風(fēng)控領(lǐng)域是新興的機(jī)器學(xué)習(xí)應(yīng)用場(chǎng)景之一,其特點(diǎn)非常明顯:
負(fù)樣本占比極少,是均衡學(xué)習(xí)的算法的主戰(zhàn)場(chǎng)之一。有標(biāo)簽樣本稀缺,從而使得半監(jiān)督和無(wú)監(jiān)督算法在風(fēng)控場(chǎng)景下大放異彩。
業(yè)務(wù)對(duì)模型解釋性要求偏高。同時(shí)對(duì)時(shí)效性有一定要求,這要求在實(shí)際建模中要學(xué)會(huì)去權(quán)衡模型復(fù)雜度與精度,并且適當(dāng)?shù)膬?yōu)化算法內(nèi)核。
業(yè)務(wù)模型多樣。每一個(gè)模型都和業(yè)務(wù)目標(biāo)有著非常高的聯(lián)系,因此每一個(gè)從業(yè)者對(duì)業(yè)務(wù)和模型都有很好的理解,從而為業(yè)務(wù)定制合適的模型。
風(fēng)控?cái)?shù)據(jù)源豐富。圍繞著人展開(kāi)的數(shù)據(jù)皆可用,而數(shù)據(jù)多樣帶來(lái)的就是新興技術(shù)的井噴,結(jié)構(gòu)化數(shù)據(jù)、圖像、文本等等多個(gè)領(lǐng)域的方法都在風(fēng)控領(lǐng)域有一定應(yīng)用。
02 信用管理與風(fēng)險(xiǎn)控制
信用貸款的邏輯可以參見(jiàn)這幅漫畫:
信用好的小雞是可以賒賬的。面對(duì)平時(shí)信用較差的狐貍,貓老師則想辦法拒絕他的賒賬需求。這就是基本的信用價(jià)值。
信用管理主要分為兩個(gè)概念,信用和管理。信用意味著先買后付,即使用信用值預(yù)支金錢購(gòu)買相應(yīng)服務(wù)。而管理即通過(guò)用戶信息對(duì)用戶的信用度進(jìn)行評(píng)估,并根據(jù)信用情況定制風(fēng)險(xiǎn)規(guī)避策略。所謂風(fēng)險(xiǎn)控制(風(fēng)控),即針對(duì)用戶風(fēng)險(xiǎn)進(jìn)行管理規(guī)避的過(guò)程。
03 風(fēng)險(xiǎn)分類
在信貸領(lǐng)域有兩類風(fēng)險(xiǎn):一類是信用風(fēng)險(xiǎn),一類是欺詐風(fēng)險(xiǎn)。
信用風(fēng)險(xiǎn):指借款人的還款能力和還款意愿在貸款后出現(xiàn)問(wèn)題。通常由于不可抗力因素導(dǎo)致用戶的經(jīng)濟(jì)能力和思想狀態(tài)發(fā)生改變。
欺詐風(fēng)險(xiǎn):指借款人的貸款目的不正當(dāng)。在貸款初始便沒(méi)有還款計(jì)劃。多見(jiàn)于有組織有紀(jì)律的中介平臺(tái)。
一般情況下,借款人出現(xiàn)信用風(fēng)險(xiǎn),金融機(jī)構(gòu)可通過(guò)風(fēng)險(xiǎn)定價(jià)策略等手段進(jìn)行防范,風(fēng)險(xiǎn)可控性較大。而借款人在一開(kāi)始,就以騙貸為目的進(jìn)行借貸并且貸款成功,則金融機(jī)構(gòu)會(huì)造成相當(dāng)一部分的損失。因?yàn)槠脚_(tái)不僅沒(méi)有盈利,還會(huì)被欺詐者騙走本金。
尤其在遇上團(tuán)伙欺詐時(shí),信貸業(yè)務(wù)會(huì)在短時(shí)間內(nèi)遭受非常嚴(yán)重的打擊。金融機(jī)構(gòu)面對(duì)欺詐風(fēng)險(xiǎn)幾乎毫無(wú)處置能力,因此欺詐檢測(cè)是信貸中的風(fēng)險(xiǎn)管控最重要的一環(huán)。
而風(fēng)險(xiǎn)的管控,主要依靠信貸領(lǐng)域的兩大類系統(tǒng):一類是信用評(píng)分系統(tǒng),另一類是欺詐檢測(cè)系統(tǒng)。信用評(píng)分系統(tǒng)是對(duì)借款人還款能力和還款意愿進(jìn)行評(píng)估,針對(duì)的是信用風(fēng)險(xiǎn)。而欺詐檢測(cè)系統(tǒng)則是對(duì)借款人的目的是否正當(dāng)進(jìn)行判斷,針對(duì)的是欺詐風(fēng)險(xiǎn)。
1. 自動(dòng)化規(guī)則挖掘
互聯(lián)網(wǎng)金融是傳統(tǒng)信貸業(yè)務(wù)在互聯(lián)網(wǎng)場(chǎng)景下的繼承與拓展。互聯(lián)網(wǎng)金融風(fēng)控體系主要由三大部分組成:數(shù)據(jù)信息、策略體系、人工智能模型。
數(shù)據(jù)信息:包括用戶基本信息、用戶行為信息、用戶授權(quán)信息、外部接入信息。
策略體系:包括反欺詐規(guī)則、準(zhǔn)入規(guī)則、運(yùn)營(yíng)商規(guī)則、風(fēng)險(xiǎn)名單、網(wǎng)貸規(guī)則。
人工智能模型:包括欺詐檢測(cè)模型、準(zhǔn)入模型、授信模型、風(fēng)險(xiǎn)定價(jià)、額度管理、流失預(yù)警、失聯(lián)修復(fù)。優(yōu)質(zhì)策略的制定需要資深的業(yè)務(wù)經(jīng)驗(yàn)以及優(yōu)秀的數(shù)據(jù)敏感度保駕護(hù)航。因此基于單變量分析以及專家思想從經(jīng)驗(yàn)出發(fā)的策略生成,是風(fēng)控領(lǐng)域最常用的兩種方法。
然而對(duì)于多規(guī)則組合的探索優(yōu)化以及具體規(guī)則的閾值確定,需要借助于決策樹(shù)(Decision Tree)模型。依托于基尼指數(shù)和均方差最小化原理對(duì)策略的組合進(jìn)行貪心搜索,從而得到業(yè)務(wù)期望的優(yōu)質(zhì)策略。
2. 評(píng)分卡模型
信用評(píng)分模型的主要目的是為了衡量一個(gè)用戶的信用風(fēng)險(xiǎn)。相比于策略規(guī)則,評(píng)分模型的靈活度更高。不會(huì)根據(jù)某個(gè)變量直接對(duì)樣本群體進(jìn)行“一刀切”,而是從多個(gè)角度進(jìn)行綜合判定。
在數(shù)據(jù)源固化的情況下,模型的效果通常與特征工程直接相關(guān)。而業(yè)內(nèi)有兩套相異的建模方法。一個(gè)是簡(jiǎn)單特征工程與復(fù)雜模型結(jié)合。另一個(gè)是復(fù)雜特征工程與簡(jiǎn)單模型結(jié)合。
在之前的漫畫中為什么貓老師不為狡猾的賒賬?
因?yàn)椤?/p>
傳統(tǒng)的評(píng)分卡采用邏輯回歸模型,就是一種復(fù)雜特征工程與簡(jiǎn)單模型結(jié)合的方法。簡(jiǎn)單特征工程與復(fù)雜模型結(jié)合的例子有很多,如XGBoost、LightGBM、CNN、RNN、DeepFM等。集成模型在結(jié)構(gòu)化數(shù)據(jù)上可以自動(dòng)的實(shí)現(xiàn)特征交叉組合。但仍需要部分人工特征工程以保證模型效果。
而深度學(xué)習(xí)作為一種表示學(xué)習(xí)方法,可以自動(dòng)的抽取數(shù)據(jù)中的重要信息,其在部分結(jié)構(gòu)化數(shù)據(jù)上也有較好的表現(xiàn)。復(fù)雜模型的優(yōu)點(diǎn)在于其對(duì)新手更加友好,且相比于人工特征工程,其效果通常更好。缺點(diǎn)是對(duì)數(shù)據(jù)量和計(jì)算資源的要求較高。否則難以收斂。
對(duì)于復(fù)雜模型在風(fēng)控領(lǐng)域的應(yīng)用,其最大的問(wèn)題還在于貸前審批對(duì)模型的解釋性要求極高,因此對(duì)于復(fù)雜模型解釋性的問(wèn)題,也需要進(jìn)行額外關(guān)注。SHAP作為一種擁有一致性的特征貢獻(xiàn)評(píng)判方法,根據(jù)訓(xùn)練樣本的子集計(jì)算整體模型預(yù)測(cè)均值,可以提供復(fù)雜模型中的特征影響期望。對(duì)于復(fù)雜模型的解釋有大幫助。
3. 項(xiàng)目冷啟動(dòng)
冷啟動(dòng),指在沒(méi)有或只有很少量數(shù)據(jù)的情況下,從0到1建立業(yè)務(wù)模型的過(guò)程。對(duì)于冷啟動(dòng),基本準(zhǔn)則為策略先行,模型為輔。由于策略分析以及模型訓(xùn)練都必須有一定的數(shù)據(jù)積累,在冷啟動(dòng)業(yè)務(wù)中,缺乏數(shù)據(jù)困擾著很多從業(yè)者。
近年來(lái),研究者們提出了多種實(shí)現(xiàn)域自適應(yīng)的模型和算法,本文介紹其中比較常用的三大類算法。
第一類方法:對(duì)源域中的樣本賦予某種權(quán)重,使其分布靠近目標(biāo)域。
第二類方法:尋找一個(gè)低維子空間,使得源域和目標(biāo)域的數(shù)據(jù)樣本在映射到該子空間后服從相同或相近的分布。
第三類方法:利用低秩矩陣重構(gòu)數(shù)據(jù)點(diǎn),實(shí)現(xiàn)域之間的魯棒自適應(yīng)。
部分遷移模型的主要作用為對(duì)源域樣本進(jìn)行篩選,從而用于目標(biāo)域的策略輔助決策。因此即使業(yè)務(wù)需求是在線上部署策略,遷移模型對(duì)其線下分析也有很大幫助。而對(duì)于初步數(shù)據(jù)積累的場(chǎng)景,遷移學(xué)習(xí)大多可以有效的輔助模型進(jìn)行決策優(yōu)化。
4. 幸存者偏差
幸存者偏差(SurvivorshipBias)與樣本不均衡(Imbalance Learning)問(wèn)題都是由于風(fēng)控模型的拒絕屬性導(dǎo)致的。但表現(xiàn)形式略有不同。幸存者偏差是指,每次模型迭代時(shí),使用的樣本都是被前一個(gè)模型篩選過(guò)的,從而導(dǎo)致的樣本空間不完備。
只有高于前一版模型分?jǐn)?shù)閾值的樣本,才可以進(jìn)入當(dāng)前模型進(jìn)行訓(xùn)練,這些人就是幸存者。他們不攜帶或者很少攜帶被拒絕的人的信息,導(dǎo)致樣本逐漸偏離真實(shí)分布。如下圖所示。
只有綠色樣本出現(xiàn)在樣本集中,這些綠色的點(diǎn)即為幸存者。而灰色樣本由于被模型拒絕,導(dǎo)致未被模型觀察到。根據(jù)有偏差的樣本集學(xué)習(xí)得到的模型,在應(yīng)對(duì)沒(méi)能被表征的人群時(shí),很難給出準(zhǔn)確的結(jié)果。久而久之,隨著模型迭代,區(qū)分能力強(qiáng)的特征被弱化,甚至對(duì)模型起到完全相反的作用(如某個(gè)特征的權(quán)重系數(shù)由正數(shù)變?yōu)樨?fù)數(shù))。
因此,需要使用無(wú)偏樣本進(jìn)行修正。在該場(chǎng)景下,遷移學(xué)習(xí)、增量學(xué)習(xí)(Incremental Learning)、生成對(duì)抗網(wǎng)絡(luò)(GenerativeAdversative Nets,GAN)、高斯聚類模型(GaussianMixture Model,GMM)、半監(jiān)督學(xué)習(xí)等都有一定應(yīng)用。
5. 不均衡學(xué)習(xí)
通常二分類機(jī)器學(xué)習(xí)任務(wù),期望兩種類別的樣本是均衡的,即兩類樣本的總量接近相同。因?yàn)樵谔荻认陆颠^(guò)程中,不同類別的樣本量有較大差異時(shí),很難收斂到最優(yōu)解。但在很多真實(shí)場(chǎng)景下,數(shù)據(jù)集往往是不平衡的。也就是說(shuō),在數(shù)據(jù)集中,有一類含有的數(shù)據(jù)要遠(yuǎn)遠(yuǎn)多于其他類的數(shù)據(jù)。
尤其是在風(fēng)控場(chǎng)景下,負(fù)樣本的占比要遠(yuǎn)遠(yuǎn)小于正樣本的占比。通常的思想是從現(xiàn)有數(shù)據(jù)出發(fā),通過(guò)加權(quán)或構(gòu)造更多的相似數(shù)據(jù)用于樣本均衡訓(xùn)練。因此代價(jià)敏感學(xué)習(xí)、遷移學(xué)習(xí)、多種采樣算法、半監(jiān)督學(xué)習(xí)在該領(lǐng)域均有一定應(yīng)用。
6. 異常檢測(cè)
離群點(diǎn)是指樣本空間中,分布遠(yuǎn)離其余樣本的點(diǎn)的集合。通常認(rèn)為樣本集由真實(shí)數(shù)據(jù)和噪聲組成。離群點(diǎn)是和大部分觀測(cè)量之間有明顯不同的觀測(cè)值,屬于樣本集中的一部分,它既有可能是真實(shí)數(shù)據(jù)產(chǎn)生的,也有可能是噪聲帶來(lái)的。
噪聲被定義為被測(cè)量的變量的隨機(jī)誤差或方差。而離群點(diǎn)的定義是數(shù)據(jù)集中包含一些數(shù)據(jù)對(duì)象,它們偏離整體數(shù)據(jù)集的趨勢(shì)。
而噪聲普遍被認(rèn)為是正常數(shù)據(jù)和異常的邊界,可以視為一種離群點(diǎn),但未必能達(dá)到異常的標(biāo)準(zhǔn)。大多異常檢測(cè)算法需要指定量化指標(biāo),來(lái)度量樣本點(diǎn)的離群程度。通常情況下,異常的離群程度是大于噪聲的。然而在實(shí)際應(yīng)用中,兩者并不容易區(qū)分。
欺詐檢測(cè)可以細(xì)分為個(gè)體欺詐檢測(cè)與團(tuán)伙欺詐檢測(cè)。其中個(gè)體欺詐具有占比極小、與整體顯著不同的特點(diǎn)。這與離群點(diǎn)的性質(zhì)相同。因此常將異常檢測(cè)技術(shù)用于個(gè)體欺詐檢測(cè)。在實(shí)踐中,配合相關(guān)的業(yè)務(wù)經(jīng)驗(yàn),可以達(dá)到較好的效果。
然而無(wú)監(jiān)督模型的建模難點(diǎn)并不在于模型,而在于特征的選取。由于沒(méi)有標(biāo)簽,因此特征的構(gòu)造并不能通過(guò)數(shù)據(jù)分析手段進(jìn)行,通常需要結(jié)合領(lǐng)域知識(shí)進(jìn)行精準(zhǔn)的特征構(gòu)造。
7. 模型優(yōu)化
為了在信用評(píng)分模型中取得較好的表現(xiàn),通常要經(jīng)歷數(shù)據(jù)清洗、特征工程、模型組合三個(gè)步驟。
模型組合,是指根據(jù)不同的數(shù)據(jù)或模型特點(diǎn),選擇合適的模型訓(xùn)練,再將多個(gè)模型進(jìn)行融合,從而直接或間接地提升模型在未來(lái)樣本上的表現(xiàn)。如動(dòng)態(tài)數(shù)據(jù)源模型組合就是一種組合優(yōu)化方法。
此外,還有多損失函數(shù)適應(yīng)性組合、決策樹(shù)與線性模型組合、深度學(xué)習(xí)與圖算法組合等方法。
8. 網(wǎng)絡(luò)挖掘
知識(shí)圖譜是用于識(shí)別團(tuán)伙欺詐的主要手段,它采用基于圖的數(shù)據(jù)結(jié)構(gòu),以圖的方式存儲(chǔ)知識(shí)并返回經(jīng)過(guò)加工和推理的關(guān)聯(lián)信息。
知識(shí)圖譜在金融領(lǐng)域的主要應(yīng)用場(chǎng)景有欺詐檢測(cè)、信用評(píng)級(jí)、失聯(lián)管理等。工業(yè)界常用的網(wǎng)絡(luò)挖掘方法包括:計(jì)算節(jié)點(diǎn)屬性、社區(qū)發(fā)現(xiàn)算法、節(jié)點(diǎn)分類算法、網(wǎng)絡(luò)表示學(xué)習(xí)等。
通過(guò)網(wǎng)絡(luò)中的中心度和相似度計(jì)算,可以進(jìn)行基本的團(tuán)伙欺詐檢測(cè)規(guī)則抽取。比如在網(wǎng)絡(luò)中中心度超過(guò)某一閾值或者和其他節(jié)點(diǎn)的相似度超過(guò)某一閾值,即會(huì)觸發(fā)預(yù)警。但是通過(guò)對(duì)每一個(gè)樣本進(jìn)行遍歷的比對(duì)相似度,是一種非常低效的做法,實(shí)際中更常使用的是社區(qū)發(fā)現(xiàn)算法。
而每一個(gè)節(jié)點(diǎn)的二度聯(lián)系人和三度聯(lián)系人,可以作為用戶失聯(lián)后的潛在聯(lián)系人。由于用戶失聯(lián)后,貸后管理人員無(wú)法進(jìn)行適當(dāng)?shù)氖?#xff0c;通過(guò)網(wǎng)絡(luò)輸出多度聯(lián)系人,成為了當(dāng)前失聯(lián)補(bǔ)全模型的主要手段。
此外,每一個(gè)節(jié)點(diǎn)的中心度也可以抽取出來(lái),放入風(fēng)控模型中作為一種來(lái)源于知識(shí)圖譜的信息,與其他類型的數(shù)據(jù)一同建立監(jiān)督模型。類似的方法還有網(wǎng)絡(luò)表示學(xué)習(xí),如隨機(jī)游走、圖卷積神經(jīng)網(wǎng)絡(luò)等。
關(guān)于作者:梅子行,系列暢銷書《智能風(fēng)控》作者。歷任多家知名金融科技公司風(fēng)控算法研究員、數(shù)據(jù)挖掘工程師等職位。現(xiàn)供職于智能物流獨(dú)角獸——滿幫科技。師承Experian、Discover等頂級(jí)風(fēng)控專家。擅長(zhǎng)深度學(xué)習(xí)、復(fù)雜網(wǎng)絡(luò)、遷移學(xué)習(xí)、異常檢測(cè)等非傳統(tǒng)機(jī)器學(xué)習(xí)方法。熱衷于數(shù)據(jù)挖掘以及算法的跨領(lǐng)域優(yōu)化實(shí)踐。公眾號(hào)與知乎專欄:“大數(shù)據(jù)風(fēng)控與機(jī)器學(xué)習(xí)”。
文章內(nèi)容整理自梅子行老師的手繪風(fēng)系列書籍——《智能風(fēng)控》中的《智能風(fēng)控:原理、算法與工程實(shí)踐》一書。
延伸閱讀《智能風(fēng)控:原理、算法與工程實(shí)踐》
推薦語(yǔ):資深專家,基于Python,原理、算法、實(shí)踐3維度講解機(jī)器學(xué)習(xí)的風(fēng)控實(shí)踐,21種算法26種解決方案,9位專家推薦
有話要說(shuō)????
Q:?機(jī)器學(xué)習(xí)還有哪些神應(yīng)用?
歡迎留言與大家分享
猜你想看????
手把手教你用Python畫直方圖:其實(shí)跟柱狀圖完全不同
無(wú)處不在的流計(jì)算到底是什么?終于有人講明白了(附導(dǎo)圖)
曾成功預(yù)測(cè)H1N1病毒疫情,細(xì)數(shù)這些年大數(shù)據(jù)的神應(yīng)用
騰訊阿里都在用!機(jī)器學(xué)習(xí)最熱研究方向入門,附學(xué)習(xí)路線圖
更多精彩????
在公眾號(hào)對(duì)話框輸入以下關(guān)鍵詞
查看更多優(yōu)質(zhì)內(nèi)容!
PPT?|?讀書?|?書單?|?硬核?|?干貨?
大數(shù)據(jù)?|?揭秘?|?Python?|?可視化
AI?|?人工智能?|?5G?|?中臺(tái)
機(jī)器學(xué)習(xí)?|?深度學(xué)習(xí)?|?神經(jīng)網(wǎng)絡(luò)
合伙人?|?1024?|?大神?|?數(shù)學(xué)
據(jù)統(tǒng)計(jì),99%的大咖都完成了這個(gè)神操作
????
總結(jié)
以上是生活随笔為你收集整理的手绘导图版:深入解析机器学习在风控场景中的8大应用的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 键值数据库LevelDB的优缺点及性能分
- 下一篇: 揭秘“21世纪最性感的职业”:数学、编程