日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

blp模型 上读下写_CreditX在线借贷欺诈检测框架BLP

發布時間:2025/3/20 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 blp模型 上读下写_CreditX在线借贷欺诈检测框架BLP 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本次介紹的文章是來自于氪信科技的《Behavior Language Processing with Graph based Feature Generation for Fraud Detection in Online Lending》。氪信科技利用行為語言處理技術(BehaviorLanguageProcessing,BLP)對欺詐性質的網絡借貸行為進行識別。

一、基于用戶行為的反欺詐框架(BLP)

  • 數據獲取模塊 :通過schema映射到網貸專家知識圖譜上
  • 知識圖譜模塊
  • 特征自動抽取模塊
  • 集成學習模塊:樹模型+LR集成

在BLP中有很多類型的特征,如文本特征、時序特征、位置軌跡特征、圖特征以及人工特征,這篇論文講的是基于關聯數據的圖特征生成。關于時序特征的生成,可以參考:

金柔:CraiditX基于行為序列的欺詐檢測建模?zhuanlan.zhihu.com

二、網絡構建

  • 圖關系選擇
  • 通過APP中的數據采集模塊,可以獲取許多不同類型的信息實體,如份證號、郵箱、電話、地址、設備 GPS。那么這就出現了一個問題,我們應該選擇哪些實體作為網絡的關系進行節點的連接。

    選擇的方法是這樣的,針對每一類型的實體都可以構成一個單部圖,圖上的節點是申請件,若兩個申請件關聯到該類型實體下(至少)同一個實體,那么則形成邊。通過計算單部圖的連通性和同質性指標,確定連接的實體。

    1.1 同質性指標

    欺詐與非欺詐結點關聯稀疏,而欺詐結點間關聯緊密的網絡,更具有挖掘價值。

    • 同質性檢驗(Homophilic Test):反映網絡中欺詐與非欺詐申請結點的關聯緊密程度,衡量指標是CrossEdgeFraction=由欺詐和非欺詐節點形成的邊/總邊數;
    • Dyadicity:反映欺詐結點之間的關聯緊密程度,Dyadicity=欺詐結點之間的邊數觀察值/欺詐結點之間的邊數期望值,Dyadicity>1表示與隨機網絡相比,欺詐結點之間的關聯緊密;
    • Heterophilicity:反映欺詐與非欺詐結點之間的緊密程度,Heterophilicity=欺詐和非欺詐節點形成的邊的觀察值/欺詐和非欺詐節點形成的邊期望值,Heterophilicity<1表示與隨機網絡相比,欺詐與非欺詐結點的關聯稀疏。

    1.2 連通性指標

    • Connectedness: 用于刻畫網絡的稠密程度,該值越接近于1表征網絡越稠密,稠密的網絡更有利于欺詐標簽的傳播。

    1.3 篩選結果

    有121164申請件 , 其中6%被標記為詐騙,計算指標對關系進行篩選:

    根據上述討論,挑選低CrossEdgeFraction、高Dyadicity、低Heterophilicity、高Connectedness的Relation,從上表的計算結果中identity number、mobile number這些就比較好而像ip address則不能挑選。

    2. 雙模網絡構建

    根據篩選出的節點、邊、節點的屬性以及邊的屬性構建出雙模網絡

    3. 計算邊權重

    邊權重表示連接的強度,使用公式a*exp(-b)進行計算,其中a是同質性指標,b是時間衰減系數。

    4. 移除hubs

    對圖數據中各節點,按關系類型分別計算各點的中心度,通過Head-tail-break算法剔除中心度極大的結點,篩選出構建雙模網絡模型所需的結點。

    三、網絡風險特征提取

    采用一下三種方法提取基于網絡的特征:

    • 局部網絡風險特征:用于描述申請件鄰居結點的統計類特性,包括鄰結點風險特征、四角形風險特征和局部聚合系數風險特征等,如當前申請件關聯的欺詐申請件個數、當前申請件關聯申請件中欺詐申請的比例等;
    • 全局網絡風險特征:用于描述當前申請的風險情況,在通過圖挖掘算法(如pagerank)得到各結點的欺詐概率之后,可計算當前申請的欺詐概率,鄰居結點(一度關聯的信息結點)欺詐概率的最大值、平均值等;
    • 專家風險特征:常根據業務經驗進行定義,如不同渠道個人信息重合度比對、個人信息與網絡一致性檢驗等。

    通過上述方法可以抽取數百維特征,使用IV評估特征有效性。結合專家經驗,挑選最合適的網絡特征,與個體特征分別建立反欺詐模型,并在此基礎上進行樹模型集成,從而獲得信貸申請人欺詐概率預測。

    這篇論文在如何挑選關聯關系構建圖上有值得借鑒的地方,如何構造網絡特征在需要解釋的評分卡應用中也值得取學習。下面拋出幾個問題供大家討論:

  • 除了論文介紹的方法,還有哪些可以評估圖構建的合理性;
  • 使用network embedding提取網絡特征與論文采用的方法相比,在有監督的欺詐檢測任務中有什么利弊。
  • 總結

    以上是生活随笔為你收集整理的blp模型 上读下写_CreditX在线借贷欺诈检测框架BLP的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。