《大数据》2015年第3期“专题”——网络表示学习(上)
網絡表示學習
陳維政,張 巖,李曉明
(北京大學信息科學技術學院 北京 100871)
摘要:以Facebook、Twitter、微信和微博為代表的大型在線社會網絡不斷發展,產生了海量體現網絡結構的數據。采用機器學習技術對網絡數據進行分析的一個重要問題是如何對數據進行表示。首先介紹了網絡表示學習的研究背景和相關定義。然后按照算法類別,介紹了當前5類主要的網絡表示學習算法,特別地,對基于深度學習的網絡表示學習技術進行了詳細的介紹。之后討論了網絡表示學習的評測方法和應用場景。最后,探討了網絡表示學習的研究前景。
關鍵詞:網絡;表示學習;深度學習
doi: 10.11959/j.issn.2096-0271.2015025
Network Representation Learning
Chen Weizheng, Zhang Yan, Li Xiaoming
(School ofElectronic Engineering and Computer Science, Peking University, Beijing 100871,China)
Abstract: Along with the constant growth of massive online social networks such as Facebook,Twitter, Weixin and Weibo, a tremendous amount of network data sets aregenerated. How to represent the data is an important aspect when we apply machine learning techniques to analyze network data sets. Firstly, the research background was introduced and the definitions of NRL (network representation learning) were related. According to the categories of different algorithms,five kinds of primary NRL algorithms were introduced. Particularly, a detailed introduction to NRL algorithms based deep learning techniques was given emphatically. Then the evaluation methods and application scenarios of NRL were discussed. Finally, the research prospect of NRL in the future was discussed.
Key words: network, representation learning, deep learning
論文引用格式: 陳維政, 張巖, 李曉明. 網絡表示學習. 大數據, 2015025
Chen W Z, Zhang Y, Li X M. Network representation learning. Big Data Research, 2015025
1 引言
在互聯網興起之前,社會網絡分析一直是社會科學、心理學和人類學等專業的研究領域,數據規模一直都相對較小。伴隨著互聯網的快速普及,以Facebook、Twitter、微信、微博為代表的大型在線社會網絡不斷發展,這些網絡動輒擁有數千萬乃至數億用戶,產生的數據極其豐富,結構極其復雜,成為人類社會生活的一種真實寫照。同時,學術論文引用網絡、移動通信網絡、維基百科乃至整個互聯網等具有網絡結構的數據也得到了學術界廣泛的研究。網絡數據挖掘已經成為當前計算機科學的重要研究領域,每年在KDD、WSDM和ICDM等國際會議上都會發表大量相關的研究論文。
機器學習算法為相關研究提供了重要的模型和工具。如何對網絡數據進行合理表示以作為機器學習算法的輸入,是機器學習算法應用在網絡數據分析中首先要面對的問題,從2013年開始舉辦的ICLR(International Conference on Learning Representations)表明,表示學習已經成為學術界關心的重要問題。
網絡數據最大的特點在于樣本點之間存在著鏈接關系,這表明網絡中樣本點之間并非完全獨立。除了節點間的鏈接關系,網絡中節點自身也可能含有信息,比如互聯網中網頁節點對應的文本信息,這些特性使得網絡表示學習需要考慮更多的因素。傳統的基于譜嵌入、最優化、概率生成模型等框架的網絡表示算法已經不能適應大數據時代對網絡表示學習問題在算法效率和精度方面的更高要求。近年來,基于深度神經網絡的算法在特征學習上獲得了極大的進展,給語音識別、圖像識別、自然語言處理等領域帶來了一種新氣象。就自然語言處理而言,近兩年以word2vec模型為代表的基于深度學習的詞向量表示模型,掀起了一股表示學習的研究熱潮。這些深度學習模型也啟發了網絡表示學習的研究,近兩年的相關工作已經展現出這一方向的廣闊前景。
2 相關定義
俗話說“巧婦難為無米之炊”,再強大的機器學習算法也需要數據進行支持。在同樣的數據集上,針對同一個任務,由于特征的不同,同一個算法的結果也可能會有天壤之別。圖1展示了應用機器學習算法的過程,首先從數據中提取有價值的信息,然后把數據表示成特征向量,進而采用機器學習算法完成相關任務。由于特征的選擇和設計對算法結果的決定性作用,很多數據挖掘方面的研究工作淪為了特征工程,即把工作重心放到了針對特定的數據由人工設計出有價值的特征。因為數據的規模越來越大,復雜性越來越高,特征工程需要耗費大量的人力,而且需要特征設計者具備專業的領域知識,這與應用機器學習算法的初衷是相違背的。這種狀況表明傳統的機器學習算法嚴重依賴于特征的設計,而不能從原始數據中分辨出有價值的信息。
圖1 應用機器學習算法的流程
表示學習又稱作特征學習,是機器學習領域中的一個重要研究問題,它的目標是自動學習一個從原始輸入數據到新的特征表示的變換,使得新的特征表示可以有效應用在各種機器學習任務中,從而把人從繁瑣的特征工程中解放出來。根據訓練數據的區別,可以把表示學習算法分為如下兩類。
●監督表示學習(supervised representation learning):是指從已標注數據中學習數據的新的特征表示。比如處理分類或者回歸任務的多層神經網絡,其中的隱藏層可以作為輸入數據的新的特征。參考文獻[1]提出的有監督字典學習也是一類典型的有監督表示學習算法。
●無監督表示學習(unsupervised representation learning):是指從未標注數據中學習數據的新的特征表示。無監督表示學習算法通常也是一種降維算法,用來從高維輸入數據中發現有意義的低維特征表示。經典的代表性算法包括主成分分析、局部線性嵌入[2]、獨立成分分析[3]和無監督字典學習[4]等。
參考文獻[5]對表示學習的評價準則和主要方法進行了詳細的綜述,但對網絡表示學習基本沒有涉及, 而且上述的表示學習算法通常都無法直接應用到網絡數據上。在一個網絡中,相連的節點之間通常存在著依賴關系。以網頁分類任務為例,每個網頁都可以認為是一個文檔,只考慮文檔的文本內容信息雖然也可以對網頁進行分類,但卻忽視了網頁之間的鏈接關系。因為在現實世界中,網絡中通常具有同質性,相似的節點更有可能存在著聯系,直觀上說就是“人以類聚,物以群分”以及“近朱者赤,近墨者黑”,這表明有可能通過網絡中的鏈接信息獲得更好的節點(這里指一個網頁)特征表示。參考文獻[6]提出了通過網絡表示學習把節點表示為向量的3種好處:
●可以直接利用得到的節點向量表示作為機器學習算法的輸入,避免針對網絡數據重新設計新的機器學習算法;
●網絡中節點的距離、乘積等需要定量計算的概念不容易給出明確的定義,通過把節點表示成向量,可以在向量空間中直接進行各種運算;
●在大規模網絡數據中,節點之間的鏈接關系可能會非常復雜而不易觀察,但是通過在低維向量空間中進行可視化分析展示,可以很直觀地觀察節點之間的關系。
為了給出網絡表示學習的定義,下面首先介紹一些基本的概念。
●節點(vertex, node):節點是網絡中的一個功能個體,引文網絡中的一篇文章、社交網絡中的一個用戶,都可以看作一個節點。
●邊(edge):邊是用來刻畫兩個節點之間關系的,可能具有方向性,稱為有向邊,比如引文網絡中的引用關系和郵件網絡中的發送接收關系;也可能不具備方向性,稱為無向邊,比如Facebook中的好友關系。
●網絡(network):網絡是對關系數據的刻畫,定義網絡G=(V,E),V是G的節點集合, E是G的邊集合。
●鄰接矩陣(adjacency matrix):網絡G=(V,E)對應的鄰接矩陣A是|V|×|V|的,鄰接矩陣直接給出了網絡的矩陣表示,如果(vi,vj)∈E,那么Aij=1,否則Aij=0。
●相似度矩陣(similarity matrix):網絡 G =( V,E )對應的相似度矩陣 W是|V|×|V|的,如果沒有額外的信息,可以通過把鄰接矩陣A中每一行進行歸一化得到W 矩陣,W 矩陣可以作為計算PageRank值時用到的轉移概率矩陣。如果有額外的信息,比如在引文網絡中,可以用兩篇論文的文檔相似度作為節點之間的相似度。相似度矩陣有時也被稱為親和度矩陣(affinity matrix)。
●度數矩陣(degree matrix):網絡G=(V,E)對應的度數矩陣D是|V|×|V|的對角矩陣,如果i=j,那么Dij=i 的度數,否則Dij =0。
●拉普拉斯矩陣(Laplacian matrix):網絡G=(V,E)對應的拉普拉斯矩陣L滿足L=D-A。
●特征矩陣:網絡G=(V,E)只給出網絡的鏈接關系,而網絡中的每個節點v可能擁有其他屬性,比如社會網絡中的用戶除了好友鏈接關系外,自身還擁有標簽數據,在論文引用網絡中,每個文章節點還對應著自身的文本內容。定義G的特征矩陣為X,X是|V|×m維的,m是節點屬性的特征空間大小。X通常是一個高度稀疏的矩陣,傳統的表示學習算法圍繞在如何對X有效降維以獲得數據點的低維表示方面,而沒有考慮網絡的顯式鏈接關系。
●信息網絡:如果網絡G=(V,E)對應的特征矩陣X是非空的,那么G是一個信息網絡。
借鑒參考文獻[7]中對網絡表示學習的定義并進行擴展,給出如下定義。
定義1(網絡表示學習)給定網絡G=(V,E),G對應的節點特征矩陣是X,對任意節點v∈V,學習低維向量表示rv∈Rk,rv是一個稠密的實數向量,并且滿足k遠小于|V|。
定義1并不限定網絡G 的方向性,即無論G 中的邊是有向的還是無向的,都會予以考慮。定義1也不對網絡G 中的節點類型做出限制,如果G 中只含有一種類型的節點,那么G 是一個同構網絡;如果G 中的節點屬于不同的類型,那么G 是一個異構網絡。由于針對異構網絡表示學習的工作相對較少,在下文中,如果沒有特別指出,提到的網絡通常是指同構網絡。特征矩陣X 也可以是一個空矩陣,由于隱私性的要求,有時無法獲得網絡除了結構之外的數據,此時只有網絡中顯式的鏈接信息,節點本身不能提供更多的信息,那么網絡G是一個純網絡。反之,如果G 是非空矩陣,那么網絡G有結構之外的信息,G 是一個信息網絡。互聯網就是一個典型的信息網絡,考慮到在線社會網絡中存在大量的UGC(user generated content, 用戶原創內容),在線社會網絡也可以構建為信息網絡。
下文將針對上述各種情況下的網絡表示學習進行介紹。直觀上,有兩種依據可以對不同的算法進行分類:一種是參考表示學習的分類,即將所有的網絡表示學習算法分為有監督的網絡表示學習和無監督的網絡表示學習;另一種是根據輸入數據的不同進行劃分,比如按照網絡的方向性、是否是異構網絡等性質。然而這兩種劃分依據并不合適,因為當前的網絡表示學習算法的主要區別在于算法類型,同一算法類型下的算法框架都是相似的,因此第3節將按照算法類型的區別對相關研究工作進行分類整理。
3 網絡表示學習方法介紹
3.1 基于譜方法的網絡表示學習
從廣義上看,譜方法是指利用輸入數據矩陣的譜(比如特征值和特征向量,奇異值和奇異向量)的一類算法的統稱[7]。針對網絡表示學習,這個矩陣由特定的算法設計決定,可能是相似度矩陣、拉普拉斯矩陣等類型。譜方法常用來獲得數據的低維表示[8],比如經典的PCA(principal components analysis,主成分分析)算法中就是對樣本的協方差矩陣選取特征向量進行降維。雖然可以把網絡表示成鄰接矩陣,作為PCA或者SVD(singular value decomposition,奇異值分解)的輸入以獲得節點的低維表示,但是由于缺乏節點內在的信息, 通常這種表示的質量較差[9]。基于譜方法的網絡表示學習只考慮了結構信息,難以直接對信息網絡進行應用,這里對幾個代表性算法進行介紹。
參考文獻[2]提出LLE(locally linear embedding)是一種非線性降維算法。LLE算法認為每一個數據點都可以由其近鄰點的線性加權組合構造得到。LLE算法的輸入是一個鄰接矩陣[10],然后計算出每個節點的局部重建權值矩陣,最后推導出一個特征值分解問題,進而計算節點的低維表示。
參考文獻[11]提出的LaplacianEigenmaps算法的直觀思想是希望相鄰的節點在降維后的空間中盡可能地接近。LaplacianEigenmaps算法可以反映出數據內在的流形結構。LaplacianEigenmap算法的輸入也是鄰接矩陣,與LLE算法不同的是LaplacianEigenmaps算法最終選取拉普拉斯矩陣的最小k個非零特征值對應的特征向量作為學習到的網絡表示。
LLE算法和LaplacianEigenmaps算法都只能處理無向網絡,但現實中很多網絡(如網頁鏈接網絡)都是有方向的,Chen等基于隨機游走的思想提出了DGE(directed graph embedding)算法[6],DGE算法可以處理有向或無向網絡,如果無向網絡是連通的,DGE算法此時等價于LaplacianEigenmaps算法。圖2給出了DGE算法把WebKB數據映射到二維空間的可視化效果,WebKB數據集包括康奈爾、德克薩斯和威斯康辛3所大學的2 883個網頁組成的鏈接網絡,圖2中3種不同顏色的節點對應了不同大學的網絡。
圖2 DGE 算法的降維效果展示[6]
參考文獻[12]從社團檢測的角度設計網絡表示學習算法,目的在于希望學習到的網絡表示向量的每一維度都代表一個社團所占的權重。其目標函數是希望模塊度最大化[13],最終將問題轉化為選取模塊度矩陣的前k個特征值對應的特征向量作為網絡特征表示。
3.2 基于最優化的網絡表示學習
基于最優化的網絡表示學習算法是指根據一個明確的優化目標函數,并且以節點在低維空間的向量表示作為參數,通過求解目標函數的最大化或最小化,求出節點的低維表示的一類算法。下面介紹兩個代表性的工作。
網絡表示學習的一個重要應用是節點標簽預測[14]。通常的情景是,在一個網絡上每個節點都有對應的標簽,但是只有部分節點的標簽是已知的,其余節點的標簽是未知的,針對這個任務,參考文獻[15]中提出了LSHM(latent space heterogeneous model)算法。 LSHM算法同時學習節點的向量表示和標簽的線性分類函數,它的優化目標函數包括兩部分:一部分考慮了網絡上的平滑性,即相鄰節點的標簽盡可能相似;另一部分考慮了分類函數對已知標簽的預測能力,因此LSHM算法是一種半監督的網絡表示學習算法。如果只考慮目標函數的第一部分,那么LSHM算法就可以以相似度矩陣作為輸入。
LSHM算法可以處理異構網絡,圖3給出了一個異構網絡的示例,這個異構網絡包括作者、論文和詞語3種類型的節點,作者都有一個表示其所屬研究領域的標簽,論文都有一個會議標簽。LSHM算法處理異構網絡的思想是無論節點屬于何種類型,都對節點在同一向量空間學習低維表示。LSHM算法提出了一種針對節點屬性的擴展方式,這里對節點屬性和節點標簽進行區分,比如引文網絡中,文章的文本內容是節點屬性,文章所屬的會議是節點標簽。LSHM算法針對節點屬性的擴展方式是把屬性也作為一種沒有標簽的節點,比如文本屬性中的每一個詞語都對應一個新的節點,圖3中的關鍵詞節點即論文節點的屬性,文章節點與詞語節點的權重可以定義為詞頻等指標,這樣新的網絡依然可以用LSHM算法處理。
圖3 異構網絡示例[15]
網絡信息傳播預測中,一類傳統的方法是首先從用戶的行為中發現傳播的隱式結構[16],直觀上說就是建立一個網絡,然后在網絡上模擬信息擴散的過程。參考文獻[17]學習用戶節點在連續隱空間上的低維表示,把在網絡上的擴散問題轉化為在隱空間上的擴散問題。如圖4所示,每個用戶都對應隱空間中的一個向量(也可以稱作位置、點)。
圖4 隱空間上的信息擴散[17]
以上兩個基于最優化的網絡表示學習算法,各自和特定的網絡分析任務有關,在設計優化目標函數時都使用hinge損失函數,求解方法通常是隨機梯度下降。
3.3 基于概率生成式模型的網絡表示學習
概率生成式算法是指用一個基于概率的生成過程去建模觀測數據的產生過程,經典的PLSA、LDA都屬于概率生成式算法,本質上都是概率圖模型。基于概率生成式算法的網絡表示學習,是指用一個采樣過程去建模網絡數據的生成過程。這些模型的求解方法通常是Gibbs 采樣、變分推斷和期望最大化算法等。
考慮到概率生成模型通常被用來建模文本數據,基于概率生成式算法的網絡表示學習通常也是以文本網絡作為輸入數據,文本網絡是指網絡中的每個節點都有對應的文本屬性,典型的例子如:網頁超鏈接網絡中的每個網頁都有自己的文本內容,在線社會網絡中每個用戶都有自己的文本屬性。當前針對文本網絡的表示學習,通常學習到的都是文本節點在主題空間上的向量表示,下面介紹3個代表性的工作:Link-PLSA-LDA模型[18]、RTM模型[19]和PLANE模型[9]。
Link-PLSA-LDA模型是為學術論文引用網絡設計的,其圖模型如圖5所示,這個模型首先建模被引用論文集合的生成過程,然后建模引用論文集合的過程。
圖5 Link-PLSA-LDA 的圖模型[18]
RTM模型建模文本的生成過程與傳統的主題模型LDA保持一致,不同之處在于RTM建模了鏈接關系的產生,這個模型的假設是如果兩個文本節點之間存在邊,那么它們在主題上的分布應該更相似。 PLANE和RTM的圖模型表示的對比如圖6所示。
圖6 RTM 和 PLANE 的圖模型對比[9]
PLANE模型對RTM模型進行了擴展,希望從可視化的角度學習主題和文本節點的低維表示。 PLANE模型的生成過程希望同時建模兩個方面:一是表示學習,即對每個主題和每個文本節點都學習其在二維空間上的坐標,二是傳統的主題建模。RTM模型不能直接得到文本節點在二維空間上的表示,故PLANE的作者用PE算法[20]對RTM模型學習到的文章話題表示進行降維。
如果只有網絡的結構信息,而沒有節點各自的文本內容,那么上面提到的3種算法都無法直接使用,因為這些算法需要學習節點在主題空間上的分布。解決這個問題的一種思路是學習節點在社團層面上的分布[21, 22],這類算法假設每個節點在社團空間上有一個分布,然后建模網絡中邊的產生。參考文獻[23]進一步考慮了文本內容,在學習節點在社團空間上的分布的同時,可以學習社團在主題空間上的分布。
3.4 基于力導向繪圖的網絡表示學習
力導向繪圖(force-directed graph drawing)是指一類在美學上讓人感到舒適的節點繪圖方法,通常是基于網絡中節點的相對位置,在節點之間和邊之間分配作用力,從而將網絡中的節點以某種方式放置在二維或者三維空間中,使得邊的長度盡量相等,同時盡可能減少交叉邊的數量[24]。
代表性的方法有FR-layout[25]和KK-layout[26],圖7給出了這兩種算法對同一網絡的可視化效果。這些方法將網絡視為一個彈簧系統,對節點位置進行調整的最終目標是希望這個系統的能量最小化。此類方法通常會被應用到網絡可視化軟件中[27,28],而與機器學習、數據挖掘等任務沒有直接的應用關系。
圖7 FR-layout 與 KK-layout 示意
3.5 基于深度學習的網絡表示學習
近年來,深度學習技術在語音處理、圖像識別、自然語音處理等領域掀起了巨大的熱潮。深度學習本質上是一種特征學習方法[29],其思想在于將原始數據通過非線性模型轉變為更高層次的特征表示,從而獲得更抽象的表達。與特征工程中需要人工設計特征不同,深度學習會自動從數據中學習出特征表示。
在自然語言處理領域,一個重要的研究方向是學習詞語、句子、文章等的分布式向量表示。針對網絡表示學習,2014年以來也出現了兩個具有代表性的基于深度學習的模型: Deepwalk[30]、LINE[31]。這兩個模型都是基于當前最流行的神經網絡語言模型word2vec[32~34],下面首先簡要回顧神經網絡語言模型的發展過程,然后介紹神經網絡語言模型在網絡表示學習中的應用。
學習分布式表示的思想最早來源于Hinton在1986年的工作[35],利用神經網絡語言模型學習詞語的詞向量則是Bengio在2001年提出的[36]。圖8是Bengio等人設計的一個4層神經網絡語言模型(NNLM)。這個模型用一個長度為n(這里n=4)的窗口在語料中滑動,然后用前n-1個詞預測觀測到窗口內的最后一個詞的概率。輸入層是窗口內前n-1個詞的向量表示,投影層將輸入層的向量進行拼接,隱藏層對投影層的輸出進行了非線性轉換,輸出層是每個詞出現在下一個位置的概率。這個模型的求解方法用的是隨機梯度下降和反向傳播,其中詞向量僅是這個神經網絡語言模型的副產品。
圖8 Bengio 提出的4層神經網絡語言模型
Bengio提出的這種前向神經網絡語言模型的復雜度很高,特別是輸出層Softmax計算的復雜度是和詞匯表大小同階。在多個后續工作中,都對Softmax計算進行了替換或優化。如參考文獻[37]提出的Hierarchical Softmax,這個算法將輸出層建模為一棵霍夫曼樹。參考文獻[38]中使用了hinge loss函數。Noise contrastive estimation[39]也是一種常用的降低NNLM時間復雜度的算法。
近年來最受關注的神經網絡語言模型是Mikolov提出的word2vec, word2vec去掉了前向神經語言網絡中的隱藏層,使得訓練詞向量的速度大幅提高。如圖9所示,word2vec包括兩個不同的模型,一個是CBOW模型(continuous bag-of-words mode),另一個是Skip-gram模型(continuous skip-gram model)。CBOW模型利用窗口中間詞的上下文預測中間的詞, Skip-gram反其道行之,用窗口中間的詞去預測這個詞的上下文。
圖9 word2vec的兩種模型[37]
在詞向量學習任務中,輸入是文本語料,在網絡表示學習任務中,輸入是一個網絡,看上去這兩個任務毫不相關,但Deepwalk算法的出現,解決了這兩個任務之間的鴻溝。Deepwalk算法的作者觀察到在文本語料中詞語出現的頻率服從冪律分布,而在無標度網絡上進行隨機游走的話,節點被訪問到的次數也服從冪律分布。因此Deepwalk把節點作為一種人造語言的單詞,通過在網絡中進行隨機游走,獲得隨機游走路徑,把節點作為單詞,把隨機游走路徑作為句子,這樣獲得的數據就可以直接作為word2vec算法的輸入以訓練節點的向量表示。這是一個非常具有創造性的想法。圖10給出了Deepwalk模型的框架示意。
圖10 Deepwalk 模型框架
Deepwalk算法被證明等價于分解矩陣M,其中,M的第i行第j列的元素是節點i在固定步數內隨機游走到節點j的次數[40]。同樣,word2vec也被證明等價于分解PMI矩陣[41]或者詞共現矩陣[42]。在矩陣分解模型框架下,Yang等人提出了在Deepwalk中考慮節點的文本信息的算法TADW模型[43]。Deepwalk和TADW的矩陣分解示意如圖11所示,其中矩陣M都可以由網絡的鄰接矩陣導出。
圖11 Deepwalk和 TADW 的矩陣分解示意[43]
Deepwalk中矩陣M被分解為兩個矩陣的乘積,這兩個矩陣進行拼接后作為節點最終的向量表示,所用的求解方法是正則化的低秩矩陣分解[44]。TADW將矩陣M分解為3個矩陣的乘積,其中,矩陣T是節點的文本特征矩陣,通過對TF-IDF矩陣進行奇異值分解降維得到的,計算H和T的乘積,把得到的矩陣和W拼接后得到的矩陣被作為節點的特征矩陣。
Deepwalk在網絡中基于隨機游走獲得訓練數據,因此針對網絡本身的結構沒有一個明確的優化目標函數。參考文獻[32]提出的LINE算法,認為網絡中存在兩種接近度,一種是first-order接近度,是指如果網絡中兩個節點之間存在邊,那么它們之間的first-order接近度是這條邊的權重,沒有邊相連則接近度等于0,這可以看作“物以類聚,人以群分”的一種體現。
然后是second-order接近度,是指如果網絡中兩個節點有共同好友,那么它們之間的second-order接近度是它們好友集合的相似度,沒有共同好友則接近度等于0。以圖12為例,節點6和節點7擁有較高的first-order接近度,節點5和節點6擁有較高的second-order接近度。 LINE算法對兩種接近度分別設計了一個優化目標函數,然后分別訓練出一個向量表示,最后以兩種向量的拼接作為節點最終的向量表示。Deepwalk算法只考慮了second-order接近度,參考文獻[31]中的實驗表明LINE算法在節點標簽預測任務上要優于Deepwalk算法。參考文獻[45]基于LINE算法針對文檔標簽預測任務提出了PTE算法,將部分標簽已知的文檔集合數據轉換為了一個包括詞語、文檔、標簽3種節點的異構網絡,然后學習各種節點的向量表示,提高了文檔標簽預測任務的效果。
圖12 LINE中接近度的說明[31]
總結
以上是生活随笔為你收集整理的《大数据》2015年第3期“专题”——网络表示学习(上)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: delphi中的dll编程
- 下一篇: TRzCheckTree