blp模型 上读下写_CreditX在线借贷欺诈检测框架BLP
本次介紹的文章是來自于氪信科技的《Behavior Language Processing with Graph based Feature Generation for Fraud Detection in Online Lending》。氪信科技利用行為語言處理技術(BehaviorLanguageProcessing,BLP)對欺詐性質的網絡借貸行為進行識別。
一、基于用戶行為的反欺詐框架(BLP)
- 數據獲取模塊 :通過schema映射到網貸專家知識圖譜上
- 知識圖譜模塊
- 特征自動抽取模塊
- 集成學習模塊:樹模型+LR集成
在BLP中有很多類型的特征,如文本特征、時序特征、位置軌跡特征、圖特征以及人工特征,這篇論文講的是基于關聯數據的圖特征生成。關于時序特征的生成,可以參考:
金柔:CraiditX基于行為序列的欺詐檢測建模?zhuanlan.zhihu.com二、網絡構建
通過APP中的數據采集模塊,可以獲取許多不同類型的信息實體,如份證號、郵箱、電話、地址、設備 GPS。那么這就出現了一個問題,我們應該選擇哪些實體作為網絡的關系進行節點的連接。
選擇的方法是這樣的,針對每一類型的實體都可以構成一個單部圖,圖上的節點是申請件,若兩個申請件關聯到該類型實體下(至少)同一個實體,那么則形成邊。通過計算單部圖的連通性和同質性指標,確定連接的實體。
1.1 同質性指標
欺詐與非欺詐結點關聯稀疏,而欺詐結點間關聯緊密的網絡,更具有挖掘價值。
- 同質性檢驗(Homophilic Test):反映網絡中欺詐與非欺詐申請結點的關聯緊密程度,衡量指標是CrossEdgeFraction=由欺詐和非欺詐節點形成的邊/總邊數;
- Dyadicity:反映欺詐結點之間的關聯緊密程度,Dyadicity=欺詐結點之間的邊數觀察值/欺詐結點之間的邊數期望值,Dyadicity>1表示與隨機網絡相比,欺詐結點之間的關聯緊密;
- Heterophilicity:反映欺詐與非欺詐結點之間的緊密程度,Heterophilicity=欺詐和非欺詐節點形成的邊的觀察值/欺詐和非欺詐節點形成的邊期望值,Heterophilicity<1表示與隨機網絡相比,欺詐與非欺詐結點的關聯稀疏。
1.2 連通性指標
- Connectedness: 用于刻畫網絡的稠密程度,該值越接近于1表征網絡越稠密,稠密的網絡更有利于欺詐標簽的傳播。
1.3 篩選結果
有121164申請件 , 其中6%被標記為詐騙,計算指標對關系進行篩選:
根據上述討論,挑選低CrossEdgeFraction、高Dyadicity、低Heterophilicity、高Connectedness的Relation,從上表的計算結果中identity number、mobile number這些就比較好而像ip address則不能挑選。
2. 雙模網絡構建
根據篩選出的節點、邊、節點的屬性以及邊的屬性構建出雙模網絡
3. 計算邊權重
邊權重表示連接的強度,使用公式a*exp(-b)進行計算,其中a是同質性指標,b是時間衰減系數。
4. 移除hubs
對圖數據中各節點,按關系類型分別計算各點的中心度,通過Head-tail-break算法剔除中心度極大的結點,篩選出構建雙模網絡模型所需的結點。
三、網絡風險特征提取
采用一下三種方法提取基于網絡的特征:
- 局部網絡風險特征:用于描述申請件鄰居結點的統計類特性,包括鄰結點風險特征、四角形風險特征和局部聚合系數風險特征等,如當前申請件關聯的欺詐申請件個數、當前申請件關聯申請件中欺詐申請的比例等;
- 全局網絡風險特征:用于描述當前申請的風險情況,在通過圖挖掘算法(如pagerank)得到各結點的欺詐概率之后,可計算當前申請的欺詐概率,鄰居結點(一度關聯的信息結點)欺詐概率的最大值、平均值等;
- 專家風險特征:常根據業務經驗進行定義,如不同渠道個人信息重合度比對、個人信息與網絡一致性檢驗等。
通過上述方法可以抽取數百維特征,使用IV評估特征有效性。結合專家經驗,挑選最合適的網絡特征,與個體特征分別建立反欺詐模型,并在此基礎上進行樹模型集成,從而獲得信貸申請人欺詐概率預測。
這篇論文在如何挑選關聯關系構建圖上有值得借鑒的地方,如何構造網絡特征在需要解釋的評分卡應用中也值得取學習。下面拋出幾個問題供大家討論:
總結
以上是生活随笔為你收集整理的blp模型 上读下写_CreditX在线借贷欺诈检测框架BLP的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: cadence安装完怎么打开_Linux
- 下一篇: 差动机器人毕业设计_双轮差动机器人曲线算