风控特征:时间滑窗统计特征体系
風控業務背景
俗話說,?路遙知馬力,日久見人心。在風控中也是如此,我們常從時間維度提取借款人在不同時間點的特征,以此來判斷借款人的風險。在實踐中,這類特征通常會占到80%以上。由于是通過時間切片和聚合統計函數來構造,因此一般被稱為時間滑窗統計特征。
本文的主要意義在于:
-
對于需要入門風控建模的同學而言,希望能幫助你快速上手特征工程。
-
對已經有特征工程經驗的同學而言,希望能帶給你一些風控業務理解。
目錄
Part 1. 觀察期、觀察點及表現期
Part 2. RFM模型介紹
Part 3. 時間滑窗?數量?統計類特征
Part 4. 時間滑窗?占比?統計類特征
Part 5. 時間滑窗?趨勢?統計類特征
Part 6. 時間滑窗?穩定性?衍生特征
Part 7. 第三方多頭借貸變量衍生
Part 8. 總結
參考資料
Part 1. 觀察期、觀察點及表現期
理解這三者的概念是風控建模前期樣本準備的基礎,在此簡單介紹。
-
觀察點(?Observation Point?)?:并非是一個具體的時間點,而是一個時間區間,表示的是客戶申請貸款的時間。在該時間段申請的客戶?可能?會是我們用來建模的樣本 。(提示:為什么用“可能”這個描述,因為還需剔除一些強規則命中的異常樣本,這部分樣本將不會加入建模)
-
觀察期?(Observation Window):用以?構造特征X?的時間窗口。相對于觀察點而言,是?歷史?時間。觀察期的選擇依賴于用戶數據的厚薄程度。通常數據越厚,可提取的信息也就越全面、可靠。
-
表現期?(Performance Window):定義?好壞標簽Y?的時間窗口。相對于觀察點而言,是?未來?時間。由于風險需要有一定時間窗才能表現出來,因此信貸風險具有?滯后性?。表現期的長短可以通過Vintage分析和滾動率分析來確定,在此不做展開。
圖 1 - 觀察期、觀察點及表現期
表現期越長,信用風險暴露將越徹底,但意味著觀察期離當前將越遠,用以提取樣本特征的歷史數據將越陳舊,建模樣本和未來樣本的差異也越大。反之,表現期越短,風險還未暴露完全,但好處是能用到更近的樣本。
Part 2. RFM模型介紹
RFM模型最早是用來衡量客戶價值和客戶創利能力。理解RFM框架的思想是構造統計類特征的基礎,其含義為:
-
R(Recency)?:客戶最近一次交易消費時間的間隔。R值越大,表示客戶交易發生的日期越久,反之則表示客戶交易發生的日期越近。
-
F(Frequency)?:客戶在最近一段時間內交易消費的次數。F值越大,表示客戶交易越頻繁,反之則表示客戶交易不夠活躍。
-
M(Monetary)?:客戶在最近一段時間內交易消費的金額。M值越大,表示客戶價值越高,反之則表示客戶價值越低。
Part 3. 時間滑窗數量統計類特征
對于不同數據源,我們可以統計得到不同內容的RFM特征。例如:
-
運營商數據:用戶每天的通話記錄次數、時長等。
-
信用卡賬單或電商交易數據:用戶每天的交易筆數、金額等。
-
埋點行為數據:用戶每天在某頁面的瀏覽量、點擊量等。
-
設備數據:用戶每天的登陸、活躍次數。
為了擴展更多的維度,我們常會維護一個分類名單庫(或?分類指標體系?),可參考《 ?信貸風控中的名單庫挖掘、使用和維護 》(https://zhuanlan.zhihu.com/p/77238851)。接下來,我們就可以繼續?細分類目?來統計。例如:
-
信用卡交易數據:用戶每天在母嬰用品、交通出行、餐飲、美容美發等交易筆數、金額。
-
設備App數據:用戶手機上安裝的借貸類、生活類、運動類、音樂類等App的數量。
以設備App數據為例,我們將統計得到如下數據:
圖 2 - 截止下單日,用戶每天統計的App數量
需要指出的是,我們?需要結合業務去分析數據,數據因為業務才具有溫度?。
🌟?敲黑板劃重點1——了解數據采集邏輯
特征是從原始數據中提取的信息,如果數據源采集上就存在問題,那么所構造的特征也必然有問題。
對于一些采集客觀、可靠的數據源而言,分析過程就相對簡單。例如,如果用戶某天沒有打電話,那么這天的通話次數為0,這是因為運營商客觀保留了用戶的原始數據。這時候,0的含義就是用戶在當天未有通話行為?。當然,對于用戶借用他人手機打電話這種情況,則不在考慮范圍內。
對于依賴于用戶登陸、活躍行為才能采集到的數據,就更需要結合采集方式來分析。例如,在設備App數據中,如果某天統計得到用戶安裝的借貸類App為0。這個數字后面可能有哪些原因呢?可能的猜想有:
-
1.?統計函數原理?:用戶這一天并沒有使用手機,導致數據采集上缺失。但SQL中count()函數在統計時會count(null) = 0,也就是說會將缺失值填充默認值為0。
-
2.?用戶使用行為?:用戶使用了?新安卓手機?,數據采集正常,但確實沒安裝借貸類App,因此用戶維度統計值為0。或者,用戶使用了?老安卓手機?,但主動卸載了所有借貸類App。
-
3.?數據采集技術?:用戶使用了?蘋果手機,?由于無法采集到App數據,哪怕手機上實際安裝了借貸App,但統計值也為0。
-
4.?變量構造邏輯?:雖然手機上安裝了借貸類App,但并不在你的借貸App名單庫中,因此匹配數為0。
那么到底是哪種原因呢?對于這些猜想,我們可以從以下維度加以佐證:
-
用戶當天是否活躍?
-
用戶使用設備是否出現新的UMID(設備ID)?
-
用戶使用設備的平臺(iOS / Android)?
-
名單庫是否很久沒有維護?
這也就是需要?結合業務經驗對多個特征交叉衍生新特征?的原因,這種特征具有強業務含義,因此往往能發揮出更好的效果。
🌟?敲黑板劃重點2——定義觀察期有效性
我們還需?考慮觀察期的有效性,以及不同用戶的數據厚薄程度?。
比如,如果一個用戶手機號網齡才6個月,那么在統計最近6個月、12個月、24個月的通話記錄次數時,可想而知這幾個變量的數值都是一樣的。
同理,對于手機號網齡分別是6個月的新用戶和6年的老用戶而言,“最近12個月的通話記錄次數”這種特征是?不公平(unfair)?的。兩者的數據厚薄程度?不同,新用戶的觀察期實際上只有6個月,而老用戶的觀察期是12個月。
為了區分這種情況,有以下建議:
1.?定義觀察期有效性,?在時間滑窗統計時,更需要有意識地留出有效的觀察期。
2.?定義分群變量?。比如將數據有效期只有6個月和12個月的用戶分成2個群體。
Part 4. 時間滑窗占比統計類特征
在得到數量統計類特征后,我們繼續衍生?占比(ratio)?類特征,一方面可用來?去除量綱影響?,另一方面?衡量用戶的行為偏好。例如:
最近N個月內?母嬰類?消費次數?占比?= 最近N個月內?母嬰類?消費?次數?/ 最近N個月內消費次數
如果用戶在某類消費次數或者金額占比上有明顯的傾向,我們就更能掌握用戶的消費行為偏好和其他屬性。比如,如果用戶的母嬰類消費支出占比較大,說明用戶是有娃一族,風險也就相對更低。
Part 5. 時間滑窗趨勢統計類特征
由于一個人的行為是會動態變化的,衡量這種變化趨勢對于風險識別也很重要。例如,對于借款人的多頭借貸風險,如果多頭指標呈現逐步上升的趨勢,我們就覺得多頭負債風險在上升。借款人往往會采取“拆東墻補西墻”的措施,如果哪一天連東墻都找不到拆,這個擊鼓傳花的游戲也就game over。
我們一般計算?斜率(slope)?來衡量這種變化趨勢。例如:
多頭借貸趨勢 =(當月的多頭借貸次數 - 上個月的多頭借貸次數)/ 上個月的多頭借貸次數
Part 6. 時間滑窗穩定性衍生特征
在不同時間點統計的數量特征基礎上,我們可以繼續衡量用戶行為的穩定性。
在數學上,我們通常可以用?變異系數(?Coefficient of Variation,CV?)來衡量這種數據波動水平。變異系數越小,代表波動越小,穩定性越好。
變異系數的計算公式為:變異系數 C·V =( 標準偏差 SD / 平均值Mean )× 100%
例如,對于借貸次數,我們可以計算CV來衡量借貸行為的穩定性。
另外需要注意的是,對于持續多頭借貸的老哥,其實風險并不會很高,因為有持續穩定的借貸渠道。但對于集中性爆發的多頭借貸行為,我們就更需要加以關注。這背后的動機,可能是手頭突然緊張(比如網賭輸錢),可能是破罐子破摔,可能是前期潛伏突然爆發,可能是行業大環境影響。
Part 7. 第三方多頭借貸變量衍生
據筆者所知,目前市場上所提供的第三方多頭借貸數據通常包含以下變量:
借款人最近7天、1個月、3個月、6個月、12個月、18個月、24個月的某類平臺借貸次數
某類平臺包含:消費金融公司、互聯網金融公司、銀行信貸、數據風控公司等等。
根據這些原始變量,我們可以按照以上方法論衍生一些新變量。例如:
如果以“?最近7天的多頭借貸次數 / 最近1個月的多頭借貸次數”,我們便可以判斷借款人的時間維度上的借貸行為分布。這個變量數值越大,代表近期借貸集中,短期風險更大。
如果以“?最近1個月的銀行信貸借貸次數 / 最近1個月的多頭借貸次數”,我們便可以判斷借款人的在借貸平臺維度的分布。這個變量數值越大,可以認為越趨于正面。
在使用這些變量時,我們還需考慮第三方數據公司所接入的機構數的變化。也就是說,如果接入機構數在持續增長,那么整體人群的多頭借貸指數也可能往高分偏移。
Part 8. 總結
本文系統總結了時間滑窗統計特征的構造方法論,以及相應的業務理解。總的來說,我們先統計數量,再從占比、趨勢、穩定性、集中性等維度去衍生。當然,最重要的一點還是多結合業務去思考。
?
參考資料
felix:JDATA京東算法大賽入門(score0.07+時間滑動窗口特征+xgboost模型)(https://zhuanlan.zhihu.com/p/26177617)
高階用戶運營 | 如何用RFM模型實現用戶分層管理(附案例)|推薦收藏(https://www.douban.com/note/698611890/)
「回顧」自動化特征工程和自動建模在風控場景的應用(https://mp.weixin.qq.com/s/SiD8HZ2eFuuNE3CTYaPYSA)
總結
以上是生活随笔為你收集整理的风控特征:时间滑窗统计特征体系的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 复方蟾酥膏_功效作用注意事项用药禁忌用法
- 下一篇: 风控特:关系网络特征工程入门实践