风控特:关系网络特征工程入门实践
風(fēng)控業(yè)務(wù)背景
常規(guī)RFM時間切片統(tǒng)計特征側(cè)重于縱向維度量化用戶風(fēng)險,而關(guān)系網(wǎng)絡(luò)特征則從橫向維度來評估。縱向是指同一用戶在不同時間段上的行為異常風(fēng)險;橫向是指在同一個時間段里聚集的不同用戶放在一起評估風(fēng)險。因此,關(guān)系網(wǎng)絡(luò)特征可作為常規(guī)RFM特征的一個有力補充,為風(fēng)控模型帶來可預(yù)見的增量效果。
芝麻信用分中的人脈關(guān)系維度可以給我們帶來很多啟發(fā),其又細分為人脈圈穩(wěn)定性、社交影響力指數(shù)和信用環(huán)境指數(shù)三個子指標。其中信用環(huán)境指數(shù)是本文主要參考學(xué)習(xí)的方向。
圖1 - 芝麻信用評分維度之人脈關(guān)系
本文不圍繞各種復(fù)雜的社區(qū)發(fā)現(xiàn)算法展開,只從業(yè)務(wù)角度分享下構(gòu)建關(guān)系特征的一些實踐經(jīng)驗。關(guān)系網(wǎng)絡(luò)中最重要的兩部分無非就是——邊(edge)和節(jié)點(node)。圍繞這兩點,我們可以考慮幾個問題:如何分析可用數(shù)據(jù)?如何根據(jù)已有數(shù)據(jù)源來構(gòu)建關(guān)系網(wǎng)絡(luò)?如何構(gòu)建關(guān)系特征?如何評估關(guān)系特征的性能?如何落實上線方案?
目錄
Part 1. 如何分析可用數(shù)據(jù)?
Part 2. 如何構(gòu)建邊關(guān)系?
Part 3. 如何使用節(jié)點特征?
Part 4. 如何使用存量數(shù)據(jù)和增量數(shù)據(jù)?
Part 5. 如何實時上線?
Part 6. 如何驗證關(guān)系特征的效果?
Part 7. 如何去優(yōu)化關(guān)系特征?
致謝
版權(quán)聲明
Part 1. 如何分析可用數(shù)據(jù)?
考慮數(shù)據(jù)源的穩(wěn)定性。
在風(fēng)控中,?穩(wěn)定性壓倒一切。數(shù)據(jù)源是構(gòu)建特征的前提,如果數(shù)據(jù)源采集上就不穩(wěn)定,必然導(dǎo)致特征波動。那么為了調(diào)研數(shù)據(jù)源采集情況,我們該咨詢哪些人員,以及關(guān)注哪些問題呢?以下是筆者的一些實踐建議:
-
信貸產(chǎn)品設(shè)計人員?:了解產(chǎn)品頁面跳轉(zhuǎn)流程,包括:在哪個頁面將會要求用戶導(dǎo)入資料?需要用戶授權(quán)同意哪些數(shù)據(jù)采集協(xié)議?新用戶相對于老用戶會少哪些數(shù)據(jù)?
-
外部數(shù)據(jù)對接開發(fā)人員?:外部數(shù)據(jù)是其他數(shù)據(jù)公司所提供的,從而可能存在一些不確定性。例如,由于輸出變量不穩(wěn)定而被使用方下線,或者由于協(xié)議到期而被提供商下線。需要明確:外部數(shù)據(jù)在哪個環(huán)節(jié)(額度、定價、支用)調(diào)用?覆蓋哪些產(chǎn)品和客群?外部數(shù)據(jù)接口調(diào)用的穩(wěn)定性?
-
風(fēng)控策略人員?:了解風(fēng)控流程和未來業(yè)務(wù)調(diào)整計劃。風(fēng)控流程圖幫助你理解在整個風(fēng)控鏈路上數(shù)據(jù)采集和風(fēng)控策略之間的映射關(guān)系;業(yè)務(wù)調(diào)整計劃幫助你排除一些未來不可用數(shù)據(jù)。例如,為提高用戶轉(zhuǎn)化率或合規(guī)性要求,未來計劃把某些用戶數(shù)據(jù)?由必導(dǎo)項改為自選項?,那么可預(yù)見這塊數(shù)據(jù)未來的采集率將會逐漸下降。如果對這塊數(shù)據(jù)依賴性高,就會導(dǎo)致模型不穩(wěn)定。此時,我們就不得不放棄實時數(shù)據(jù)的使用,或者考慮分箱等方式來平滑影響,或者考慮如何利用存量歷史數(shù)據(jù)。
👉?建議?:可分產(chǎn)品線、時間粒度(天/月)等維度統(tǒng)計數(shù)據(jù)的缺失率,以此分析數(shù)據(jù)的穩(wěn)定性。
2. 考慮數(shù)據(jù)源的厚薄度?。
由于各個數(shù)據(jù)源在不同時間點開始采集,因此數(shù)據(jù)的厚薄程度存在差異。在構(gòu)建時間切片特征時也需注意這一點——?明確觀察期窗口是否有效。例如,數(shù)據(jù)采集時間是從2018-01-01開始的,如果要統(tǒng)計最近30天內(nèi)的RFM特征,那么有效的觀察期窗口就是30天,有效的觀察點(樣本)就只能從2018-02-01開始,2018年1月份的樣本由于觀察期不滿30天就無法統(tǒng)計到有效的特征。在樣本特征回溯中,筆者經(jīng)常看到某些同學(xué)犯這個錯誤。
因此,如果某塊數(shù)據(jù)在最近才開始采集,那也不得不舍棄。
3. 考慮模型的應(yīng)用場景。
特征是為模型服務(wù)的。因此,在構(gòu)建關(guān)系特征前,我們需要明確模型的應(yīng)用場景,為模型“量身定制”。如果計劃用在風(fēng)險定價(A卡模型)環(huán)節(jié),那么某些在A卡之后的環(huán)節(jié)才能獲取的數(shù)據(jù)就無法使用。很多建模經(jīng)驗不足的同學(xué),不管三七二十一,直接把所有可能使用的數(shù)據(jù)拿來測算,根本沒考慮過線上如何使用的問題。最后,要么離線測算結(jié)果就不佳,要么最后根本無法上線使用。
👉?建議?:羅列一份數(shù)據(jù)源質(zhì)量分析清單,筆者在整理中的結(jié)果表示例:
圖2 - 數(shù)據(jù)源質(zhì)量分析清單
Part 2. 如何構(gòu)建邊關(guān)系?
我們可以從?關(guān)系強弱(邊權(quán)重)?和?覆蓋率(邊數(shù)量)兩個維度來衡量數(shù)據(jù)源對定義邊的重要性。由于各家公司對數(shù)據(jù)源獲取情況各異,在此就只對目前市場上的數(shù)據(jù)源分析關(guān)系強弱。
運營商數(shù)據(jù)?:關(guān)系??????????。可根據(jù)最近N天內(nèi)通話記錄次數(shù)等指標來衡量兩個人之間的親密程度。
設(shè)備數(shù)據(jù)?:關(guān)系????????。可根據(jù)最近N天內(nèi)是否共同使用過一臺設(shè)備、是否共同使用過同一個Wi-Fi等指標衡量。
通訊錄數(shù)據(jù)?:關(guān)系??????????。通訊錄中所存號碼的備注信息可判斷親密度。
緊急聯(lián)系人數(shù)據(jù)?:關(guān)系??????????。通常情況下,用戶所填的緊急聯(lián)系人會是自己的家人、同事、親友等。
電商地址數(shù)據(jù)?:關(guān)系??????。根據(jù)地址相似度比對來判斷用戶之間存在的關(guān)系。由于地址數(shù)據(jù)需要提前規(guī)整,處理難度大。
運營老客拉新數(shù)據(jù)?:關(guān)系??????。產(chǎn)品運營活動中常會推出各種老客拉新活動以實現(xiàn)用戶增長。鏈接傳播渠道一般是微信。因此被拉的新客與老客之間通常是微信朋友關(guān)系。
銀行卡轉(zhuǎn)賬記錄數(shù)據(jù)?:關(guān)系??????。通常情況下,覆蓋率較低。
LBS地址位置數(shù)據(jù)?:關(guān)系??。由于設(shè)備經(jīng)緯度數(shù)據(jù)采集誤差和位置時效性強的問題,這塊數(shù)據(jù)對于衡量用戶關(guān)系較弱。
其他數(shù)據(jù)?。
在羅列出所有可用于構(gòu)建邊關(guān)系的數(shù)據(jù)后,我們又會面臨一個問題:每個數(shù)據(jù)源就可以提取出多個邊關(guān)系,那么就可以構(gòu)造多個子網(wǎng)絡(luò),我們該如何處理這些邊?
可以有以下2種做法:
-
特征層融合?:對每個子網(wǎng)絡(luò)獨立構(gòu)建圖特征,在特征層中融合。該方案在實踐中的優(yōu)點在于方便直觀,可并行;缺點在于工作量大,如果有a個數(shù)據(jù)源,每個數(shù)據(jù)源可提取b種關(guān)系的邊,又有c個節(jié)點特征,此時就會衍生出 a ? b ? c個特征。在建模中,也不可能對這所有的特征入模,需要開展大量的特征篩選工作。
-
網(wǎng)絡(luò)層融合?:該方案在實踐中的優(yōu)點在于將各類強邊弱邊融合在一起(w1 * e1 + w2 * e2 + w3 * e3 + ...),使邊的內(nèi)在含義更為豐富,邊的覆蓋率得到提升;缺點在于無法很好對融合權(quán)重賦值,前期可考慮專家經(jīng)驗拍定,后期優(yōu)化可以考慮結(jié)合具體的target來訓(xùn)練估計。
圖3 - 特征層融合 VS 網(wǎng)絡(luò)層融合
Part 3. 如何使用節(jié)點特征?
一般情況下,節(jié)點特指用戶(當(dāng)然也可以是手機號、設(shè)備等)。我們可以通過RFM模型批量生產(chǎn)出大量時間切片特征,或者根據(jù)業(yè)務(wù)理解構(gòu)造出強業(yè)務(wù)特征。
而關(guān)系網(wǎng)絡(luò)的一個價值在于:利用節(jié)點所在群體(可以是一度、二度,或者社區(qū)發(fā)現(xiàn)算法挖掘出的簇)中的鄰居節(jié)點特征,通過關(guān)系網(wǎng)絡(luò)傳播到某個節(jié)點上。
如果節(jié)點特征表對鄰居節(jié)點的覆蓋率低(通常情況下,鄰居節(jié)點數(shù) >> 特征表中節(jié)點數(shù)),那么網(wǎng)絡(luò)傳播過程將會大打折扣。試想,一個下單用戶好不容易找出100個一度鄰居,然而只有3個鄰居節(jié)點特征變量有值,其余鄰居節(jié)點特征都為null,那么通過傳播(對鄰居節(jié)點求mean、max、min、sum聚合操作)后,該下單用戶僅僅利用了3個鄰居的信息。
👉因此,?節(jié)點特征表中的用戶量決定了特征傳播的上限。
接下來,我們就會考慮如何去擴充節(jié)點特征表中的用戶量?最直接的做法——我們把歷史全量用戶的特征都拿過來用不就行了?但需要注意的是,用戶特征具有時效性。?所謂?時效性,是指用戶特征是否能有效反映用戶最近的風(fēng)險。?因此,貪多反而會引起特征質(zhì)量下降,兩者需要做權(quán)衡。
如果該特征的穩(wěn)定性比較好(反映用戶穩(wěn)定屬性的特征,如性格、信用等),那么就可以盡可能使用歷史存量數(shù)據(jù)。也就是說,設(shè)定節(jié)點特征表的有效期為1年(或更長),在有效期內(nèi)的歷史全量節(jié)點特征,我們都可以拿來傳播。例如信用卡額度,通常認為一個用戶在1年內(nèi)的額度不會發(fā)生太大變化。
反之,對于時效性強的特征,我們寧可犧牲覆蓋率,也要縮短有效期,目的是為了保證特征的時效性。例如同盾這類的多頭借貸數(shù)據(jù),隨著接入和退出機構(gòu)的動態(tài)變化,半年前的同盾數(shù)據(jù)可能已經(jīng)無法反映用戶當(dāng)前的借貸風(fēng)險,若直接使用反而會引入噪聲。
對于某個節(jié)點(用戶)特征表在不同時間點存在多條記錄的,可以考慮以下策略:
取最近一條,保證特征的時效性最強。
參考遺忘曲線,對不同時間點的特征進行加權(quán)融合。
圖4 - 特征有效期和取用策略
Part 4.?如何使用存量數(shù)據(jù)和增量數(shù)據(jù)?
增量數(shù)據(jù):一般指實時數(shù)據(jù),可直接計算一度關(guān)系的邊權(quán)重。例如,如果用戶申貸下單時必須導(dǎo)運營商數(shù)據(jù),那么就可以根據(jù)實時導(dǎo)入的通話記錄來構(gòu)建圖關(guān)系網(wǎng)絡(luò)。這是最新的數(shù)據(jù),自然更能反映用戶此時的風(fēng)險。
存量數(shù)據(jù):在一些場景下,我們不得不依賴于使用存量數(shù)據(jù)。
-
場景1: 前期業(yè)務(wù)流程中要求用戶強制導(dǎo)運營商數(shù)據(jù),后期變成用戶可選提額項。
-
場景2: 某塊數(shù)據(jù)之前都是在定價環(huán)節(jié)才調(diào)用,而此次建模希望用在額度環(huán)節(jié)(在定價之前)。
此時,我們該如何使用呢?考慮到對于某些新用戶,雖然其自己沒有導(dǎo)入運營商這類的關(guān)系數(shù)據(jù),但是可能其身邊的人在歷史申貸時就已經(jīng)導(dǎo)入過資料。那么,在歷史關(guān)系網(wǎng)絡(luò)中,該新用戶就被囊括在其中。因此,存量數(shù)據(jù)也有其使用價值。
同樣的道理,我們需要考慮關(guān)系網(wǎng)絡(luò)也具有時效性。某些歷史關(guān)系網(wǎng)絡(luò)比較穩(wěn)定,比如家人關(guān)系,那么就可以使用較久版本的,否則就只能用最近的,甚至不使用。
圖 5 - 關(guān)系網(wǎng)絡(luò)有效期
Part 5.?如何實時上線?
據(jù)筆者所知,目前線上計算二度關(guān)系的技術(shù)門檻仍然很高,因此我們在實時計算時考慮一度關(guān)系(應(yīng)該也能達到80%的baseline效果,剩下的20%可能就需要靠高階關(guān)系了),二度關(guān)系甚至更為復(fù)雜的社區(qū)發(fā)現(xiàn)算法則放在離線計算。因此,在實時構(gòu)建一度關(guān)系和離線提供一度和多度關(guān)系的相互補充下,將會得到相對于只用實時一度關(guān)系更好的效果。
節(jié)點特征表則可通過離線提前計算,并將有效期范圍的不同觀察點的節(jié)點特征匯總成一張表,導(dǎo)入到線上數(shù)據(jù)庫。
對于實時訂單,可實時構(gòu)建出關(guān)系網(wǎng)絡(luò),取出一度聯(lián)系人和相應(yīng)的邊權(quán)重。并從節(jié)點特征表中取出鄰居用戶的特征,進而傳播擴散,生成實時圖特征。
Part 6. 如何驗證關(guān)系特征的效果?
在風(fēng)控建模中,評估特征性能最為關(guān)注穩(wěn)定性和區(qū)分度。穩(wěn)定性可用PSI(群體穩(wěn)定性)來計算,而區(qū)分度可用IV(信息量)來衡量。再次強調(diào)穩(wěn)定性在風(fēng)控中的重要性。
因此,可按照以下步驟來快速評估:
考慮先回溯足夠多的樣本,通常是要求幾個月以能評估穩(wěn)定性
先評估特征的區(qū)分度。對于IV很高的特征,再次確認取數(shù)邏輯中是否用到未來信息。
篩選出區(qū)分度較強的特征,進一步評估穩(wěn)定性。
Part 7. 如何去優(yōu)化關(guān)系特征?
引入邊權(quán)重,而不僅僅是有關(guān)聯(lián)的一度用戶。
離線增加更多關(guān)系較強但覆蓋率較低的邊,以起到補充更多一度聯(lián)系人的作用。
節(jié)點特征增加更多維度。本質(zhì)還是在于特征傳播,因此加有效的節(jié)點特征是最重要的。
利用樣本和target變量對關(guān)系網(wǎng)絡(luò)融合權(quán)重參數(shù)估計,以期達到更合理的網(wǎng)絡(luò)融合。
總結(jié)
以上是生活随笔為你收集整理的风控特:关系网络特征工程入门实践的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 风控特征:时间滑窗统计特征体系
- 下一篇: AQS的原理及应用