【深度学习】最新「深度学习社区发现」综述论文,174篇文献概述六大类方法(含Github资源)...
|?作者:Xing Su
|?單位:麥考瑞大學
|?研究方向:人工智能與數據科學
社區發現能夠揭示各類網絡中成員的特征與聯系,在網絡分析中具有重要意義。近年來,深度學習技術在發現社區結構時,以處理高維數據的優勢得到了顯著的發展。
本文將為大家介紹一篇2021年最新深度學習社區發現綜述。該綜述囊括了基于深度學習的社區發現最新方法,并將其分為六大類:基于卷積網絡的方法、基于圖注意力網絡(GAT)的方法、基于生成對抗網絡(GAN)的方法、基于自動編碼器(AE)的方法、基于深度非負矩陣分解(DNMF)的方法、基于深度稀疏濾波(DSF)的方法。此外,該綜述總結了相應的基準數據集、評估指標和開源代碼,概述了深度社區發現在不同領域的實際應用場景。最后,作者討論了深度學習為社區發現問題所帶來的各種機遇與挑戰,建議了十二個未來研究方向。
論文地址:https://arxiv.org/abs/2105.12584
Github鏈接:https://github.com/FanzhenLiu/Awesome-Deep-Community-Detection(全面匯總了該綜述所調研的文章鏈接、代碼、數據集下載地址等公開資源,將持續更新深度社區發現相關工作)
—1— 簡介
俗話說,物以類聚,人以群分。根據六度分離理論,世界上任何一個人都可以通過六個熟人認識其他人,那么我們的世界則是一個由一系列「社區」組成的巨大網絡。例如,如圖1所示,通過發現社交網絡中的社區,平臺贊助商可以向目標用戶推廣他們的產品。在引文網絡中,社區發現可以檢測研究方向的重要性、關聯性、演化,并能識別研究的發展趨勢。在代謝網絡和蛋白質相互作用網絡中,社區發現揭示了具有相似生物學功能的代謝和蛋白質。在腦網絡中,社區發現可以反映腦區域的功能和解剖分離。
圖1:圖與社區的直觀說明由于社區發現可以廣泛應用,許多傳統的技術(如譜聚類、統計推理)已被用于小型網絡和簡單場景。然而,由于傳統技術的計算成本和空間成本巨大,它們無法擴展到大型網絡或具有高維特征的網絡。同時,現實網絡中非線性結構信息豐富,也使得傳統模型在實際應用中不太適用。因此,我們需要更強大且具有良好計算性能的技術,深度學習從以下幾點為社區發現提供了靈活的解決方案:(1) 學習非線性網絡屬性,如節點之間的關系,(2) 提供能夠保留復雜網絡結構特征的低維網絡表示,(3) 利用更多信息發現社區以提高性能。總而言之,深度學習用于社區發現是一種新的趨勢(如圖2所示),我們需要一個及時全面的綜述。
圖2:社區發現的發展這篇綜述首次全面概述了深度學習在社區發現方面的貢獻,旨在幫助研究人員和從業者從以下幾個方面了解社區發現領域的過去、現在和未來趨勢:
系統的分類和深入的調研。此綜述基于深度學習為社區發現方法提出了一個新的分類(見圖3),并分析、總結、比較了每類的代表性工作。
豐富的資源和高影響力的參考文獻。此項綜述還整合了社區發現的基準數據集、評估指標、開源實現和實際應用的資源。
未來的發展方向。由于深度學習對社區發現是一個新的研究趨勢,此綜述討論了當前研究的局限性,以及未來研究的關鍵挑戰和開放性問題。
—2— 模型與算法
2.1 基于卷積網絡的方法
基于卷積網絡的社區發現方法包括基于CNN的社區發現和基于GCN的社區發現。卷積神經網絡(CNN)是一種為網格式拓撲數據提出的前饋深度神經網絡,其中卷積層降低了計算成本,而池化操作保證了 CNN 在特征表達上的魯棒性。圖卷積網絡(GCN)是基于CNN和圖的局部譜濾波器的一階近似提出的用于圖結構數據的卷積網絡。
2.1.1 基于CNN的社區發現
由于CNN模型通常僅處理圖像數據(image),當輸入數據為圖(graph)時,必須根據節點或邊對數據進行預處理。總體框架中(如圖4所示),CNN的隱藏層可以對數據的d維潛在特征進行卷積映射,接下來,由全連接層輸出每個節點或每條邊的表示以進行社區的分類。
圖4:基于CNN的社區發現總體框架根據節點進行數據預處理時,圖4中的工作流1將節點分類為k類(即k個社區),具有相同標簽的節點會被劃分到同一個社區中;根據邊進行數據預處理時,工作流2將邊分為2類(即社區內的邊、社區間的邊)。訓練過程中,通過刪除社區間的邊形成社區結構,并將其反向傳播回CNN嵌入進行優化,從而得到最佳的社區劃分結果。
2.1.2 基于GCN的社區發現
GCN 在圖卷積層中聚合節點的鄰域信息,因此可以從全局上捕獲用于社區發現的復雜特征。基于GCN的社區發現方法有兩類:(1)監督/半監督社區分類;(2)基于無監督網絡表示的社區聚類。社區分類方法受到現實世界中缺乏標簽的限制,相比之下,通過矩陣重構和目標優化等技術,對網絡表示進行聚類可以更靈活地發現社區結構。
圖5:基于GCN的社區發現總體框架如圖5所示,基于GCN的社區發現方法的輸入為圖結構(A)和節點屬性(X)。這類方法通過GCN層,基于社區發現的需求對圖的潛在特征進行平滑(信息聚合)處理。在圖5的4條工作流中,工作流1和2使用了最終的節點表示,而工作流3和4則使用了隱層中的特征表示。工作流1基于給定節點標簽,使用節點分類得到社區劃分;工作流2基于嵌入H對節點進行聚類;工作流3通過互信息等評估手優化節點表示,從而得到最佳的社區關系;工作流4則同時優化聚類結果和節點表示。
2.2 基于圖注意力網絡(GAT)的方法
基于GAT的社區發現方法可以發現復雜的網絡場景下的社區結構。如圖6所示,GAT通過可訓練的權重聚合鄰域內的節點特征,該權重通過考慮多種因素(特別是具有多種關系類型的網絡)的注意力來計算。
圖6:基于GAT的社區發現總體框架在圖6所示的框架中,GAT在每個隱層l中為每個節點及其相連的節點之間分配注意力系數(圖中綠色、藍色、紫色的箭頭所示)。不同工作流所表示的向量分別聚合了所有可用信息:(1)多層網絡中同一對節點之間的多種關系;(2)異構網絡中的語義元路徑。將嵌入信息整合到GAT的表征中后,即可對最后輸出的表征進行社區聚類。
2.3 基于生成對抗網絡(GAN)的方法
在基于GAN的社區發現方法中,GAN通過生成器生成人造樣本來欺騙判別器,判別器將多層感知機、圖神經網絡等深度神經網絡作用于表征上。因此,真實樣本和人造樣本會通過競爭博弈進行調優,從而得到最優的社區特征。
圖6:基于GAN的社區發現總體框架為了獲得具有競爭性的表征,圖6的GAN中使用的真實樣本包括:(1)拓撲結構A;(2)拓撲結構與節點屬性(A,X);(3)節點嵌入;(4)節點的社團歸屬。網絡的拓撲結構以三元組、派系、社區等形式在表征或GAN模型中得到分析。這類方法能夠在融合網絡拓撲、屬性和表征的過程中發現社區。
2.4 基于自動編碼器(AE)的方法
自編碼器(AE)是最常被用于無監督社區發現的模型,社區發現中常見的AE變體包括棧式AE、稀疏AE、去躁AE、卷積AE、變分AE。AE通常由一個編碼器和一個解碼器組成,編碼器將網絡結構和可獲取的屬性信息映射到一個低維潛在空間中,解碼器則根據編碼得到的表示進行網絡重構。
圖6:基于棧式AE的社區發現總體框架棧式AE在多個隱層中將一組AE堆疊起來,以更加靈活地處理豐富的輸入。圖6總結了棧式AE中5種具有代表性的工作流程,其分別考慮了靜態圖、動態圖、跨域圖、異構圖中的多種信息,5種工作流都使用了成對約束和重建損失優化。其余4類基于AE的方法介紹見原文(https://arxiv.org/abs/2105.12584)。
2.5 基于深度非負矩陣分解(DNMF)的方法
非負矩陣分解旨在將一個矩陣分解成兩個小的非負矩陣,該方法具有高度的可解釋性,能夠發現如何將節點分配給社區。在深度社區發現中,深度自編碼器式非負矩陣分解(DANMF)是無監督學習環境下影響最大的模型。與傳統的基于NMF的社區發現方法映射簡單的社區成員不同,DANMF使用AE框架在分層映射上進行網絡重構。盡管深度NMF提供了一種在形成社區的過程中映射多個變量的方案,但是其矩陣分解的計算成本相對較高。為此,研究者們提出了模塊化的深度非負矩陣分解(MDNMF),直接將模塊度應用于基本的多層深度學習結構中。
2.6 基于深度稀疏濾波(DSF)的方法
稀疏濾波是一種簡單的雙層學習模型,它可以處理高維的圖數據,將高度稀疏的輸入表征為低維特征向量。為了探索節點的社團歸屬等更深入的信息,深度SF將多個隱層堆疊起來,從而對更多超參數和大量的平滑數據分布進行調優,其代表性的算法為DSFCD。
—3— 公開資源
該綜述總結了深度社區發現相關的實驗資源,包括:
數據集:整理了現實世界數據集和人工合成數據集的分類、來源、下載鏈接、生成工具等。
評價指標:詳細介紹了10個最流行的社區發現評價指標的使用方法與含義。
開源代碼:整理了公布開源實現的深度社區發現方法的Github鏈接。
(實驗資源詳情見原文附錄及Github)
—4— 應用
該綜述總結了社區發現在各類任務和領域的廣泛應用,如推薦系統、生物化學、社交網絡、社區欺詐、社區搜索等。
圖7:應用—5— 未來研究方向
本文總結了深度學習技術為社區發現帶來的機遇與挑戰,分析了該領域的公開問題并建議了12個未來研究方向:
社區個數未知問題
社區嵌入問題
不同粒度的社區發現問題
多層網絡的社區發現問題
異質網絡的社區發現問題
社區發現中的網絡Heterophily問題
拓撲不全網絡中的社區發現問題
跨域網絡中的社區發現問題
多屬性視角網絡中的社區發現問題
符號網絡中的社區發現問題
動態網絡中的社區發現問題
大規模網絡中的社區發現問題
總結
以上是生活随笔為你收集整理的【深度学习】最新「深度学习社区发现」综述论文,174篇文献概述六大类方法(含Github资源)...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 搜狐视频如何开启青少年模式
- 下一篇: 【深度学习】Transformer长大了