日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

欺诈检测相关论文

發布時間:2024/7/5 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 欺诈检测相关论文 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

欺詐檢測相關論文

  • 一、分類
    • 1、GEM
    • 2、HACUD
    • 3、MAHINDER
    • 4、Semi-GNN
    • 5、MvMoE
    • 6、AMG-DP
    • 7、AddGraph
    • 8、NetWalk
    • 9、DOMINANT
    • 10、GraphConsis
    • 11、PC-GNN
    • 12、TRUST
  • 二、類別不平衡

一、分類

1、GEM


來自螞蟻金服的論文,他們提出GEM模型,是一個異質圖神經網絡方法,用于支付寶中惡意賬戶的檢測。數據量有4.5億個用戶。

作者從數據中總結了來自攻擊者的兩個主要特征:
1、攻擊者要承受計算資源帶來的成本,所以大多數攻擊者只在少數計算資源上注冊或頻繁地登錄。(x:設備id,y:賬戶id,左:正常,右:異常)
2、攻擊者受攻擊時間的限制,通常要在很短的時間內完成既定目標,所以惡意賬戶的行為可能在有限的時間內爆發。(x:時間,y:賬戶id,左:正常,右:異常)

異質圖構建:
設備聚集:從不同設備角度(如ip地址,電話等)提取D個子圖,每個子圖都包含G中所有節點。
行為聚集:矩陣X=[N,p+|D|], 前p維 表示賬戶i行為,0~T時間劃分p個時間段,每個時間段有一個行為次數,最后D為表示所屬設備(子圖)的one-hot編碼

2、HACUD



來自螞蟻金服的論文,他們提出HACUD模型,將實際場景建模為屬性異質信息網絡。用于信用支付中套現用戶的檢測。數據量級5百萬用戶

數據:
三類節點:用戶U、商家M、設備D,每個節點都有豐富的屬性
兩種元路徑:UU(用戶和用戶有資金交易)、UMU(用戶和用戶有相同的交易商家)

作者從數據中觀測到兩個現象:
1、套現率高的用戶往往有更多的套現鄰居。這意味著用戶的特征可以源于他們基于元路徑的鄰居的特征。
2、不同的基于元路徑的鄰居對用戶有不同的影響。這意味著不同元路徑對用戶重要程度不同,可以用注意力機制去捕獲。

模型:
初始數據是 用戶屬性 和 基于元路徑的用戶鄰居屬性。
然后使用分層注意力機制獲得在鄰居粒度和鄰居類型層面的向量表示。
最后將用戶表示送入分類器訓練模型。

3、MAHINDER


來自阿里的論文,他們提出MAHINDER模型,將實際場景建模為多視圖屬性異質信息網絡。用于信用支付中違約用戶的檢測。數據量189萬用戶

屬性異質網絡劃分為三種視圖:社交視圖、資金視圖、設備視圖

作者從數據中觀測到的現象:
1、不同視圖下不同直接違約鄰居數量下,違約者的概率和提升有明顯差異。(說明1、用戶的特征可以用鄰居的特征來表示,2、不同的path重要性不同,使用attention機制進行捕獲)
2、同一視圖不同鏈接類型下,違約者的概率有明顯差異。(所以對meta-path編碼的時候,鏈接類型也進行了編碼)

模型:
首先人工選取元路徑;
其次使用LSTM建模元路徑的細粒度語義;
最后使用注意力整合不同的元路徑獲取用戶表示送入后續分類器。

4、Semi-GNN


來自螞蟻金服的論文,他們提出Semi-GNN模型,將實際場景建模為異質圖。用于花唄中欺詐用戶的檢測,是第一篇使用半監督圖神經網絡進行欺騙檢測的論文。

作者收集了4百萬個有label的用戶,然后從有label的用戶的一跳朋友/同學/同事 中采樣沒有label的用戶,所以一共是1億用戶。
從關系(朋友/同學/同事)、app、昵稱、地址四個角度分別構建視圖。

數據現象: 欺詐常呈團伙聚集, 標注為負樣本的用戶, 其鄰居節點也可疑.
基于上述假設, 受DeepWalk啟發, 作者設計的無監督部分Loss希望:鄰近節點的表示相似, 不同節點的表示差異較大。

模型:
模型分為兩部分:監督學習部分(左)和無監督學習部分(右),兩部分模型結構相同。
使用層次注意機制聚合視圖內特征和視圖間特征,得到用戶表示。
監督學習:利用預測的標簽和實際標簽計算損失
無監督學習:利用鄰近節點的表示相似, 不同節點的表示差異較大,來計算損失。

5、MvMoE


這篇是來自阿里的論文,他們提出MvMoE模型,將實際場景建模為多視圖異構網絡。在阿里電商數據上實驗,是一個信用風險預測和信用限額設置的雙任務模型。數據量544萬用戶

三種視圖:user profiles、user sequential behaviors、user relationship
他們的數據不缺label,下個月就可以拿到這個月實驗用戶的label

采樣: 對正樣例向上采樣,使正樣例率在10%左右。(這里的正樣例 就是 違約用戶)

模型:
1、將異構多視圖數據源,進行全面的用戶建模。
2、分別采用多層感知器(MLP)、雙向長短期記憶(BiLSTM)和圖神經網絡(GNN)對每個視圖的特征進行編碼。
3、使用層次注意機制按重要性聚合視圖內特征和視圖間特征。
4、使用視圖感知專家混合結構,來捕獲不同任務的更好的信息。
5、利用CRF任務的輸出,根據財務先驗知識,通過每個任務塔之間的漸進網絡來引導CLS任務。

6、AMG-DP


來自螞蟻金服的論文,他們提出AMG-DP模型,將實際場景建模為多重圖。用于信用支付中還款拖欠用戶的檢測。每個月有150萬用戶,一共用了10個月的數據

數據中觀測到兩個現象:
1、不同關系為刻畫違約用戶提供了不同的角度(所以作者將多重圖根據關系transfer/transaction/social/use劃分為不同的視圖,做聚合的時候把邊也考慮了進來)
2、有更多違約鄰居的用戶更可能是違約用戶(所以可以通過聚合鄰居的特征來表示用戶)

模型:
根據relation劃分multi-view graph,
分別在multi-view graph上做GAT聚合,聚合包括兩個點和兩點之間的邊的屬性,
再對不同的關系做attention聚合,得到用戶最終表示
最后預測用戶的違約概率

7、AddGraph


來自阿里的論文,他們提出Addgraph模型,將實際場景建模為同質圖動態圖。在Digg數據集上進行異常邊的檢測,數據集包含3w節點、8w邊

假設: 認為圖中存在的邊是正常的邊,對不存在的邊進行采樣認為是異常邊。

模型:
按時間段劃分 t 個快照圖
使用gcn學習快照圖中每個節點的表示
快照節點表示序列通過attention得到short embedding
當前快照和最后一個快照表示得到current embedding
通過GRU整合short/current embedding得到最終每個節點表示

通過最大化正常邊和異常邊之間的margin來得到損失

8、NetWalk


來自高校的論文,他們提出NetWalk模型,模型的主要思路是提出一種動態圖embedding的方法,再用其節點表示進行異常檢測。
作者在4個數據集上進行異常節點的檢測,最大的數據集包含30w節點

假設:不屬于某個圖聚類的點為異常點

模型:
由網絡中每個節點為起始節點,生成 walk
通過最小化每條walk的所有節點對距離和最小化自編碼器的重構誤差,來學習每個節點的向量表示。
通過聚類得到聚類中心點,計算新來的邊/點到中心點的距離,來判斷該邊/點是否異常。

動態圖 增量維護:
Network為每個頂點維持一個reservoir,存放的是對頂點鄰居采樣的集合,集合大小是固定的。
新來邊的時候,針對里面的每個頂點,都會以概率p替換。刪除邊的時候只針對刪除了的頂點進行替換。
然后,通過reservior去產生新的walk更新網絡。

9、DOMINANT


來自高校的論文,他們提出DOMINANT模型,將實際場景建模為同質圖,進行異常節點的檢測。
數據:使用了三個數據集,最大數據集有1w個節點
假設:圖重構過程中屬性和結構信息丟失多的節點為異常節點

模型:
使用gcn對圖中每個節點(帶有屬性)進行編碼,
通過解碼節點屬性和圖結構來學習圖的結構和屬性信息
最小化屬性重構和結構重構的受損,得到每個用戶的表示
對每個用戶進行異常度打分 排序。

10、GraphConsis


來自高校的論文,他們提出GraphConsis模型,將實際場景建模為同質圖,主要用來緩解圖神經網絡進行欺詐檢測時的不一致問題。

數據:在垃圾郵件評論數據集上進行實驗,包含4w多用戶和7百多萬邊。

不一致問題:
針對3個不一致的解決方法:

11、PC-GNN


這篇來自阿里的論文,他們提出PC-GNN模型,將實際場景建模為同質圖,主要用來解決圖神經網絡進行欺詐檢測時的類別不平衡問題。

數據:在垃圾郵件評論數據集上進行實驗,包含4w多用戶和3百多萬邊。

類別不平衡時,如果欺詐用戶聚合的鄰居中有大量正常節點,就會將欺詐用戶隱藏。(和上篇論文中上下文不一致類似)

12、TRUST


來自阿里的論文,他們提出TRUST模型,進行信用風險的預測,是一個基于元學習的半監督方法的欠抽樣學習,可以解決樣本不平衡問題。

數據:在阿里在線電子商務消費貸款數據上進行實驗,有175萬用戶。

在該場景中,用戶被分為3類,違約用戶、良性用戶、不確定用戶(貸款了但還沒到還款日期)

訓練:
采樣器W1從有標記的數據集Dk中采樣一部分數據V,通過訓練得到一個基本分類器F;
未標記的數據Du通過分類器F得到數據的label,再通過采樣器w2采樣部分數據U;
用數據 V 和 U 來訓練模型 F;
通過驗證集Dv在模型F上的效果來進行反向傳播;
循環這個過程直到收斂,整個迭代學習的過程是元學習的思想。

二、類別不平衡

總結

以上是生活随笔為你收集整理的欺诈检测相关论文的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。