论文学习7-Spam Review Detection with Graph Convolutional Networks(阿里巴巴)
生活随笔
收集整理的這篇文章主要介紹了
论文学习7-Spam Review Detection with Graph Convolutional Networks(阿里巴巴)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
- Introduction
- 2. 相關工作
- 3. 本文的model
- 3.1 Preliminaries
- 3.2建立問題
- 3.3閑魚圖上的異構卷積網絡
- 3.3.1Aggregation Sub-layer
- 3.3.2 Time-related Sampling
- 3.3.4將圖形網絡與文本分類模型相結合。
- 3.4 GCN-based反垃圾郵件模式
- 4.實驗
Introduction
ppt
- 任務:垃圾郵件檢測
- 挑戰
- 大規模數據
- 1e9 items
- 1e7 users
- 敵對行為
- 偽裝
- 撥打此號碼進行兼職工作
- 變形評論
- Add my vx
- Add my vx
xianyu==閑魚
- 閑魚的評論發生在購買之前(交流
- 反垃圾郵件系統的一大挑戰:是識別垃圾郵件發送者設計的各種模式。
- 通過介紹評論的上下文可以減輕敵對行動的影響。
- 上下文定義為兩類:局部上下文和全局上下文。
- 局部上下文是指來自發布者和相關項目的信息,而
- 全局上下文是指所有評論的特性分發所提供的信息。
- GAS:GCN-based Anti-Spam method在這項工作中,我們提出了一種基于圖卷積網絡(GCN)的高度可擴展的反垃圾郵件方法,稱為基于GCN的反垃圾郵件方法
- 本文貢獻:
- 提出了一種基于gcn的異構圖垃圾郵件檢測算法,該算法適用于在閑魚上具有邊屬性的二部圖。一種基于元路徑[23]的異構GCN算法,用于各種異構圖和應用。
- 除了利用局部評論上下文的異構圖外,我們還利用全局上下文并提出了自己的解決方案–GAS
- 我們使用分布式部署所提出的反垃圾郵件模型Tensorflow框架每天處理成千上萬的評論。根據離線實驗和在線評估,我們的系統在滿足效率要求的同時,顯著地識別出更多的垃圾評論,減輕了對抗行為的影響
2. 相關工作
- 大多數現有的垃圾郵件檢測方法側重于從評論內容或評論行為中提取健壯的工程特性。
- [7]研究了評論內容的重復來檢測垃圾評論。他們收集了以評審為中心、以評審者為中心和以產品為中心的特性,并將它們輸入邏輯回歸模型。
- [17]僅僅關注于評論的內容。作者使用三種策略作為樸素貝葉斯和支持向量機分類器。
- [13]總結了意見挖掘領域專家的特征,并設計了一套詳細的特征對意見挖掘領域專家進行分類。
- 缺陷:這些以功能為中心的方法忽略了評論者、商品和評論之間的關系。然而,根據我們的觀察,關系在垃圾郵件檢測中也扮演著重要的角色。例如,垃圾郵件廣告通常由垃圾郵件發送者成組發布。
- —關系很重要
- 使用圖的
- 基于類似的觀察,一些學者開始利用圖信息。
- 第一個基于圖的垃圾郵件檢測方法以[26]。他們用三種類型的節點構建了“審查圖”——審查者、存儲和審查。然后以一種類似于[10]的方式加強了審核的可信度、存儲的可靠性和審核的真實性。
- Liang等人使用了兩種圖:一種是上面提到的異質圖,另一種是表示評論者之間的支持或沖突關系。
- Soliman[22]提出了一種新的基于圖的技術,該技術在一個已構建的用戶相似圖上使用圖聚類來檢測垃圾郵件,該相似圖在其拓撲結構中編碼用戶行為模式。
- GCN
- 近年來,開發基于圖的深度學習算法的興趣日益濃厚,包括無監督方法[5,12,18]和監督方法[6,9,11,25]。
- 其中最顯著的進展之一是GCN[9],它將節點的特征從本地鄰居聚集起來。將“圖卷積”算子定義為一跳鄰居的特征集合。通過迭代卷積,信息在圖中傳播多個躍點。與之前的圖形挖掘方法(如DeepWalk[18])相比,GCN實現了顯著的改進。
- William等人[6]提出了GraphSAGE,這是一個歸納框架,利用節點采樣和特征聚合技術,有效地為不可見數據生成節點嵌入,這打破了在轉換設置中應用GCN的限制。
- 圖注意網絡(GAT)[25]將注意機制整合到GCN中。通過計算節點之間的注意系數,GAT允許每個節點將注意力集中在最相關的鄰居上,從而做出決策。
- –上面都是同構圖
- 異構圖
- EAGCN[20]使用注意機制計算異構節點嵌入。該模型著重于圖中連接節點的多種類型的鏈接的情況。作者建議使用“多注意力”——每個注意力函數只考慮由特定鏈接類型定義的鄰居。
- GEM[14]關注的是存在多種類型節點的情況。作者提出了一種注意機制來學習不同類型節點的重要性。具體來說,他們將圖按節點類型劃分為子圖,并計算每個子圖對整個系統的貢獻作為注意系數。
- 本文第一次將GCN用于垃圾檢測
3. 本文的model
先介紹如何擴展異構圖的GCN算法,然后通過進一步結合全局上下文來演示GAS
3.1 Preliminaries
- 以前都關注同構圖
- 基于gcn的方法遵循分層傳播方式。在每個傳播層中,所有節點同時更新。 如[28,29]所述,傳播層可以分為兩個子層:聚集層和組合層。
- 第l層聚合和組合層表示為
其中N(v)是v相鄰的一組節點,AGG是節點v相鄰節點的聚合嵌入函數,該函數可由特定模型定制,如max-pooling、mean-pooling[6]或基于注意的加權求和[25]。wl是一個可訓練的矩陣,在第l層的所有節點之間共享。σ是一個非線性激活函數,例如,Relu。hlN (v)表示第l層節點v鄰居的聚集特征。
使用COMBINE函數來組合自嵌入和鄰居的聚合嵌入,這也是針對不同圖形模型的自定義設置,如GraphSAGE[6]中的拼接。
3.2建立問題
- 閑魚圖:
- 二部圖G(U, I, E),U-用戶,I-產品,E-評論(邊)
- 鄰居N(i) ∈ U and N(u) ∈ I
- U (e) and I (e) :設U (e)和I(e)分別表示e邊的用戶節點和項節點。
3.3閑魚圖上的異構卷積網絡
- 在同構圖上基于gcn的節點分類任務中,使用來自最后一層的節點嵌入作為分類器的輸入
- 我們利用來自最后傳播層的邊緣嵌入以及該邊緣鏈接到的兩個節點的嵌入。
- 我們將這三個嵌入連接起來進行邊緣分類
- 閑魚圖上的異構卷積網絡
- Aggregation Sub-layer
- Combination Sub-layer
- Time-related Sampling
3.3.1Aggregation Sub-layer
- E:使用TextCNN模型獲得評論嵌入(一起訓練)
對于用戶節點u∈u和項目節點i∈i,除了收集鄰居節點的信息外,還收集與其相連的邊的屬性 - 聚合鄰居嵌入:
- 對于每個項目/用戶節點,我們對固定數量的鄰居進行抽樣,以形成一個小型的批處理饋送矩陣
3.3.2 Time-related Sampling
- 需要在一次迭代中更新所有實體的整批訓練在大量數據上是不切實際的,因為這會消耗時間。考慮到閑魚圖的規模,小批量訓練策略更合適。
- 根據時間選擇最接近的M個評論
- 選擇最接近的注釋比隨機抽樣更合理
- 當候選對象的數量小于M時,用占位符填充它們
- 填充比重采樣更合理(避免改變鄰域分布)
- 填充比重采樣更合理(避免改變鄰域分布)
3.3.4將圖形網絡與文本分類模型相結合。
- 使用TextCNN模型獲得評論嵌入
- TextCNN的參數與其他參數一起訓練
3.4 GCN-based反垃圾郵件模式
-
全局上下文–評論圖
-
問題
- 對人類閱讀來說,垃圾郵件只有輕微影響,但往往混淆我們的NLP模型
- 性能很難從增加傳播層的數量中獲益
-
解決方案
- 評論圖:構建一個齊次圖命名圖通過連接具有類似內容的評論
- 齊次圖上的GCNs可以看作是拉普拉斯平滑的一種特殊形式。
- 節點的特征可以被它的鄰居平滑化
- 利用近似KNN圖算法[3]構造基于K近鄰節點的圖。
- 構造
- 刪除所有重復的注釋,以避免繁瑣的解決方案
- 生成評論嵌入
- 利用近似KNN圖算法得到相似的評論對
- 刪除由同一用戶發布的評論對或在同一項下發布的評論對,因為在Xianyu Graph上考慮了本地上下文。
- 評論圖:構建一個齊次圖命名圖通過連接具有類似內容的評論
-
各種垃圾郵件評論可以通過集成它們的鄰居的特性來平滑。
-
通過定量分析,證明了經過平滑處理后的評論更具有可分性。兩個邏輯回歸模型在圖6中的原始嵌入和平滑嵌入上進行了培訓和測試。AUC和f1評分見表1。
結果表明,經過平滑處理后,樣品的線性可分性得到改善。這種改進表明,基于平滑嵌入的分類器性能更好。
4.實驗
總結
以上是生活随笔為你收集整理的论文学习7-Spam Review Detection with Graph Convolutional Networks(阿里巴巴)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JUnit-4.12报java.lang
- 下一篇: SIRIM上海,http://www.s