日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【论文翻译】HeteSim:异构网络中相关性度量的通用框架

發布時間:2024/7/5 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【论文翻译】HeteSim:异构网络中相关性度量的通用框架 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

原文鏈接:https://blog.csdn.net/Mrong1013967/article/details/115330139

HeteSim:異構網絡中相關性度量的通用框架

摘要

相似性搜索是許多應用中的一個重要功能,它通常側重于度量同一類型對象之間的相似性。然而,在許多場景中,我們需要測量具有不同類型的對象之間的相關性。隨著異構網絡研究的興起,對不同類型對象的相關性度量變得越來越重要。本文研究了異構網絡中的相關搜索問題,其任務是度量異構對象(包括具有相同類型或不同類型的對象)的相關性。提出了一種新的度量方法HeteSim,該方法具有以下特點:(1)一致性度量:可以在一個統一的框架內度量同一類型或不同類型對象之間的關聯性;(2)路徑約束性度量:基于兩個對象之間的搜索路徑,通過遵循一個序列來定義對象對之間的關聯性半度量測度:HeteSim具有一些良好的性質(如自極大性和對稱性),這些性質對許多數據挖掘任務至關重要。分析了HeteSim的計算特點,提出了相應的快速計算策略。實證研究表明,HeteSim能夠有效地評價異構對象之間的相關性。

一、簡介

相似性搜索是廣泛應用中的一項重要任務,如web搜索[1]和產品推薦[2]。相似性搜索的關鍵是相似性度量,它評估對象對之間的相似性。對于傳統的分類和數值數據類型,如Jaccard系數和余弦相似性,相似性度量已經得到了廣泛的研究。也有一些關于利用網絡中的鏈路信息來度量節點相似性的研究,如Personalized PageRank[3]、SimRank[4]和PathSim[5]。傳統的相似性度量研究主要集中在同一類型的對象上。也就是說,被測量的對象具有相同的類型,例如“文檔到文檔”、“網頁到網頁”和“用戶到用戶”。對于不同類型物體的相似性度量研究很少。也就是說,被測量的對象是不同類型的,例如“作者到會議”和“用戶到電影”。這是合理的。不同類型物體的相似性有點違背我們的常識。此外,與同類對象的相似性可以在同質情況下(如同一特征空間或同質鏈接結構)進行度量不同,不同類型對象的相似性更是難以定義。

然而,不同類型對象的相似性不僅有意義,而且在某些場景中也很有用。例如,作者J.F.naugton與SIGMOD的關系比KDD更密切。青少年可能更喜歡電影《哈利波特》,而不是《肖申克的救贖》。此外,在許多應用中需要對不同類型的對象進行相似性度量。例如,在推薦系統中,我們需要知道用戶和電影之間的關系,才能做出準確的推薦。在自動輪廓提取應用中,我們需要測量不同類型對象的相關性,如作者和會議、會議和組織等。特別是隨著異構信息網絡研究的出現[5],[6],研究不同類型對象之間的關聯性不僅越來越重要,而且是可行的。異構信息網絡是指包含多類型對象和表示不同關系的多類型鏈接的邏輯網絡[7]。例如,書目網絡包括作者、論文、會議、術語及其表示它們之間關系的鏈接。很明顯,異構信息網絡無處不在,是現代信息基礎設施的重要組成部分[7]。因此,在這樣的網絡中提供對不同類型對象的相關搜索功能是非常必要的,這是許多應用的基礎。由于不同類型的對象共存于同一網絡中,因此可以通過鏈接結構來度量它們的相關性。

本文研究了異構信息網絡中的相關搜索問題。關聯搜索的目的是有效地度量異構對象(包括具有相同類型或不同類型的對象)之間的關聯性。與相似性搜索只度量同類型對象之間的相似性不同,關聯性搜索度量的是異構對象之間的相關性,而不局限于同類型對象。與信息檢索領域中的關系檢索[8]、[9]不同,這里的關聯搜索是在異構網絡上進行的,而異構網絡是由對象的元數據構成的。此外,基于以下原因,我們認為一個理想的相關性度量應該滿足對稱性。(1) 對稱度量在許多學習任務中更為通用和有用。雖然對稱性在查詢任務中是不必要的,但是對于許多重要的任務,如聚類和協同過濾,對稱性是必不可少的。此外,它也是度量的必要條件。(2) 對稱度量在許多應用中更有意義,特別是對于異構對象對的相關性。例如,在一些應用程序中,我們需要回答這樣的問題,比如誰對會議SIGIR的重要性與J.F.naugton對SIGMOD的重要性相似。通過比較對象對之間的相關性,我們可以推斷出它們的相對重要性。然而,它只能通過對稱測度來實現,而不能通過非對稱測度來實現??梢酝ㄟ^圖1所示的示例來解釋。對于對稱測度,我們可以推斷W.B.Croft1對SIGIR的重要性與J.F.Naughton2對SIGMOD的重要性相同,因為它們的關聯度很接近。假設我們知道J.F.諾頓是SIGMOD中一位有影響力的研究者,我們可以得出結論,W.B.克羅夫特也是SIGIR中一位有影響力的研究者。然而,我們不能從如圖1(b)所示的不對稱度量中推斷出相對重要性信息。從作者與會議、會議與作者的關系中,我們會得出相互矛盾的結論。

盡管異構網絡中的關聯搜索有著重要的價值和意義,但到目前為止還很少有人對其進行研究。它面臨著以下研究挑戰。(1) 異構網絡比傳統的同構網絡復雜得多。在異構網絡中,不同類型的對象和鏈接共存于一個網絡中,具有不同的語義。作為圖2(b)所示的書目示例(更多細節見第V.A節),它包括作者、論文、術語和會議類型?!白髡哒撐摹笔侵缸髡咦珜懙恼撐?#xff0c;而“論文會議”是指在會議上發表的論文。如果不考慮類型和語義的差異,混合不同類型的對象來度量相似度是沒有意義的。我們可以發現,通過一系列對象類型之間的關系連接兩個對象的搜索路徑,體現了豐富的語義信息[5]?;诓煌乃阉髀窂?#xff0c;兩個對象的相關性可能完全不同。例如,作者與會議的關系應根據“作者-論文-作者-論文-作者-論文-會議”路徑和“作者-論文-作者-論文-會議”路徑的不同而有所不同,即作者在會議上發表論文與合作作者在會議上發表論文的關系。因此,一個理想的相關性度量應該是路徑依賴的,因為這樣的度量可以捕獲路徑下的語義并基于不同的路徑返回有意義的值。(2) 對于異構對象,很難設計一個統一的、對稱的關聯度量。在異構網絡中,連接同一類型對象的路徑通常是對稱的,路徑長度是偶數,因此根據對稱路徑設計對稱度量并不困難,正如PathSim[5]所做的那樣。然而,連接不同類型對象的路徑是不對稱的,路徑長度可能是奇數。在這種情況下,設計一個對稱的相關性度量是不容易的。對于這兩種情況,設計一個統一的相關性度量更具挑戰性。

受兩個對象被相關對象引用時是相關的這一直覺的啟發,我們提出了一個通用的框架HeteSim來評估異構網絡中異構對象的相關性。HeteSim是一種基于路徑的相關性度量方法,能夠有效地捕捉搜索路徑的微妙語義?;诔蓪﹄S機游走模型,HeteSim統一處理任意搜索路徑,保證了HeteSim的對稱性。另一個好處是HeteSim可以用相同的方法評估具有相同或不同類型對象的相關性。此外,HeteSim是一個半度量度量。換句話說,HeteSim滿足非負性、不可分辨的同一性和對稱性。這意味著HeteSim可以用于許多學習任務(如聚類和協作過濾)。我們還考慮了HeteSim的計算問題,提出了四種快速計算策略。大量的實驗驗證了HeteSim的有效性。作為一種通用的關聯度量,HeteSim通過四個實例說明了其在異構網絡知識發現中的優勢和通用性:自動提取對象輪廓、通過對象對的相對重要性進行專家查找、基于路徑語義的關聯搜索和基于語義的電影推薦。HeteSim在機器學習任務(即查詢和聚類)中也顯示了它的潛力,在這些任務中,HeteSim優于其他成熟的相似性度量。此外,大量實驗驗證了HeteSim快速計算策略的重要性。

二 相關工作

與相關性搜索最相關的工作是相似性搜索。這里我們簡要地總結一下這些工作。相似性搜索已經被很好地研究了很長一段時間。這些研究大致可以分為兩類:基于特征的方法和基于鏈接的方法。基于特征的方法根據對象的特征值(如余弦相似度、Jaccard系數和歐氏距離)來度量對象的相似度。k近鄰也廣泛應用于相似度量[10],[11],其目的是根據數值特征上定義的相似性來尋找top-k近鄰。基于特征相似性,top-k相似對搜索算法(即top-k-join)考慮元組之間的相似性[12]。這種方法不考慮對象之間的鏈接關系,因此不能應用于網絡數據。

基于鏈接的方法基于對象在圖中的鏈接結構來度量對象的相似性。非對稱相似性度量個性化PageRank3]通過重新啟動隨機行走來評估從源對象到目標對象的概率。它擴展到在線查詢[13]、[14]和top-k答案[15]的可伸縮計算。SimRank[4]是一個對稱的相似性度量,它通過兩個對象的鄰居的相似性來評估它們的相似性。由于其計算復雜性,許多后續研究都是為了加速這種計算[16],[17]。SCAN[18]通過比較兩個對象的近鄰集來度量它們的相似性。最近,Jin等人提出了RoleSim,通過自守等價來度量節點對的角色相似性[19]。這些方法只考慮同一類型的對象,不適用于異構網絡。ObjectRank[20]將基于權限的排序應用于標簽圖中的關鍵字搜索,PopRank[21]提出了一種與領域無關的對象級鏈接分析模型。盡管這兩種方法注意到異構關系會影響相似性,但它們沒有考慮包含不同類型對象的路徑的不同語義,因此也無法度量異構網絡中對象的相似性。

近年來,異構數據的相關性研究應運而生。Wang等人[22]提出了一個從異構數據中學習相關性的模型,而他們的模型更側重于分析異構網絡的上下文,而不是網絡結構。Fouss等人[23]基于隨機游走的Markovchain模型,設計了一個具有良好性質和解釋力的相似度量ECTD。不幸的是,由于缺乏路徑約束,ECTD無法捕捉到異構網絡中的微妙語義。Sun等人[5]考慮到由不同類型對象構成的元路徑的語義,提出了基于對稱路徑的PathSim來度量相同對象的相似性。然而,許多有價值的路徑是不對稱的,不同類型對象之間的相關性也是有意義的。PathSim不適合這些條件。在信息檢索領域,Lao和Cohen[9],[24]提出了一種路徑約束隨機游走(PCRW)模型來度量由豐富的科學文獻元數據構造的有向圖中的實體鄰近性。雖然PCRW模型可以用來度量不同類型對象之間的相關性,但是PCRW模型的非對稱性限制了它的應用。在我們的HeteSim定義中,用戶可以基于任意的搜索路徑來度量異構對象的相關性。HeteSim的優點(如對稱性和自最大性)使它適合于更多的應用。

三、 初步

異構信息網絡是一種特殊類型的信息網絡,它包含多種類型的對象或多種類型的鏈接。

定義1:信息網絡。給定一個由一組實體類型和一組關系組成的模式,信息網絡被定義為一個有向圖G=(V,E),它具有一個對象類型映射函數和一個連接類型映射函數。每個對象屬于一個特定的對象類型每個連接屬于一個特定的關系,當對象類型或關系類型時,該網絡稱為異構信息網絡,否則稱為同質信息網絡

在信息網絡中,我們區分對象類型和關系類型。作為網絡的模板,網絡模式描述對象類型和對象類型之間存在的關系。對于A型到B型之間存在的關系R,表示為A和B是關系R的源類型目標類型,分別表示為R.S和R.T。對于,逆關系自然保持不變。通常,R不等于,除非R是對稱的,這兩種類型相同。

實例1:書目信息網絡是典型的異構信息網絡。ACM數據集的網絡模式(見第V.A節)如圖2(a)所示。它包含來自七種實體的對象:論文(P)、作者(A)、從屬關系(F)、術語(T)、主題(S)、地點(V)和會議(C)(會議包括多個地點,例如KDD包括KDD2010、KDD2009等等)。存在連接不同類型對象的鏈接。鏈接類型由兩個對象類型之間的關系定義。例如,作者和論文之間存在著表示寫作或按關系寫作的聯系,地點和論文之間存在著表示出版或按關系出版的聯系。圖2(b)和(c)分別顯示了DBLP數據集和IMDB電影數據的網絡模式(見第V.A節)。

與同構網絡不同,異構網絡中的兩個對象可以通過不同的路徑連接,這些路徑具有不同的含義。例如,在圖2(a)中,作者和會議可以通過“作者論文會場會議”(APVC)路徑、“作者論文主題論文會場會議”(APSPVC)路徑等連接。這兩條路徑下的語義是不同的。APVC路徑意味著由作者撰寫的論文在會議上發表,而APSPVC路徑意味著與作者論文主題相同的論文在會議上發表。顯然,不同路徑下不同的語義會導致不同的結果。APVC路徑下的關聯性強調作者參與的會議,APSPVC路徑下的關聯性強調發表與作者論文主題相同的論文的會議。例如,Christos Faloutsos的大部分論文都發表在KDD、VLDB和SIGMOD上。然而,與他的論文主題相同的論文可能會在廣泛的會議上發表,如ICDM、SDM和CIKM。因此,在異構網絡中,對象的關聯性依賴于搜索路徑。形式上,我們將元搜索路徑定義為關聯路徑。

定義2:關聯路徑。關聯路徑P是在模式上定義的路徑,并且以的形式表示,其定義了類型和之間的復合關系。路徑P的長度是P中關系的個數,即l。

為了簡單起見,如果同一對類型之間沒有多重關系,我們也可以使用表示關聯路徑的類型名稱:。我們說,網絡G中和之間的具體路徑是相關路徑p的路徑實例,如果每個、和每個鏈路屬于p中的關系,則可表示為。關聯路徑是P的反向路徑,定義了P定義的逆關系。同樣,我們將的反向路徑實例定義為P的反向路徑,在G中,如果由P定義的關系R是對稱的(即P等于),如APA和APCPA。兩個相關路徑和在等于時才可確定,且連接路徑寫為,等于。一個簡單的可解釋的例子是AP和P V可以連接到路徑AP V。

四、 HETESIM:一個統一對稱的關聯度量

A.基本思路

在許多領域中,相似對象更可能與其他相似對象相關。例如,相似的研究人員通常發表許多相似的論文;相似的顧客購買相似的商品。因此,如果兩個對象被相似的對象引用,則它們是相似的。這種直覺也適用于異構對象。例如,研究人員與研究人員發表論文的會議更相關;客戶對客戶通常購買的品牌更忠誠。盡管SimRank[4]中也應用了類似的思想,但它僅限于同構網絡。當我們將這一思想應用于異構網絡時,它面臨著以下挑戰。(1) 異構對象的關聯性是路徑約束的。關聯路徑不僅捕獲語義信息,而且對行走路徑進行約束。因此需要設計一種基于路徑的相似度度量方法。(2) 應為任意路徑設計均勻對稱的度量。對于給定的路徑(對稱或非對稱),該度量可以用一個分數來評估異構對象對(相同或不同類型)的相關性。在下一節中,我們將詳細說明這些挑戰及其解決方案。

B.基于路徑的相關性度量

與同構網絡不同,異構網絡中的路徑具有語義,使得對象對的關聯性依賴于給定的關聯路徑。根據相似對象與相似對象相關的基本思想,提出了一種基于路徑的相關性度量方法:HeteSim。

定義3:HeteSim:給定一條關聯路徑,兩個對象s和t(s∈R1.s和t∈Rl.t)之間的HeteSim得分為:

其中是基于關系的s,是基于關系的t的近鄰.

當s沒有任何外鄰居(即)或t沒有任何內鄰居(即,)時,我們無法推斷出s和t之間的任何關聯,因此我們將它們的關聯值定義為0。特別是我們認為同一類型的對象具有自關系(表示為I關系),每個對象都只與自身有自關聯。顯然,一個對象與我的關系本身是相似的。因此,其相關性測度可定義如下:

定義4:基于自我關系的HeteSim:基于自我關系I的兩個相同類型對象s和t之間的HeteSim是:

其中δ(s,t)=1,如果s和t相同,或者δ(s,t)=0。

等式(1)表明,的計算需要迭代(s,t)沿路徑(s沿路徑和t對路徑)的所有對,并總結這些對的相關性。然后,我們用s的外鄰居和t的內鄰居的總數對其進行歸一化,即s和t之間的關系是s的外鄰居和t的內鄰居之間的平均關系,這個過程一直持續到s和t沿著路徑相遇。與SimRank[4]類似,HeteSim也是基于成對隨機游走,同時考慮了路徑約束。正如我們所知,SimRank測量了兩個隨機沖浪者在同一個節點相遇的時間[4]。相比之下,度量了當s沿著路徑走,而t逆著路徑走時,s和t在同一節點相遇的可能性。

C.關聯路徑分解

然而,源對象s和目標對象t可能不會沿著給定的路徑P相遇。對于同一類型對象的相似性度量,相關路徑通常是等長的,甚至是對稱的,因此源對象和目標對象將在中間對象處相遇。然而,對于不同類型對象的關聯度量,關聯路徑通常是奇數長度。在這種情況下,源對象和目標對象將永遠不會在同一個對象上相遇。以APVC路徑為例,沿著路徑的作者和反對路徑的會議永遠不會在同一個對象中相遇。因此,原HeteSim算法不適用于奇長相關路徑。為了解決這一難題,一個基本思想是將奇數長度的路徑變換為偶數長度的路徑,從而使源對象和目標對象總是能夠在同一個對象上相遇。因此,可以將任意路徑分解為兩條等長路徑。

當相關路徑的長度l為偶數時,源對象(沿路徑)和目標對象(對路徑)將在中間位置中間類型對象處相遇,因此相關路徑P可分為兩條等長路徑和,即,其中,。

當路徑長度l為奇數時,源對象和目標對象將在關系處相遇。例如,基于APSPVC路徑,源對象和目標對象經過兩步之后將在SP關系處相遇。為了使源對象和目標對象在同一類型對象上相遇,我們可以在原子關系之間添加一個中間類型的對象E,同時保持和之間的關系。然后新路徑變成,長度為l+1,一個偶數。在前面的例子中,路徑變成APSEPVC,其長度現在是偶數。源對象和目標對象將在中間位置上的中間類型對象M=E處相遇。因此,新的關聯路徑P′也可以分解為兩條等長路徑和。

定義5:關聯路徑分解。任意相關路徑可分解為兩條相等的路徑和(即),其中和。M和mid的定義如上所述。

顯然,對于對稱路徑,等于。例如,關聯路徑P=AP CP A可以分解為和。對于相關路徑APSPVC,我們可以在SP中添加中間類型對象E,從而使路徑成為APSEPVC,因此和。

下一個問題是,我們如何將中間類型的對象E添加到奇數長度路徑中和之間的原子關系R中。為了包含原來的原子關系,我們需要使R關系成為兩個新關系的組合。為此,對于關系R的每個實例,我們可以添加一個E實例來連接關系實例的源對象和目標對象。圖3(a)中示出了一個示例,其中中間類型對象E沿著每個路徑實例添加在原子關系AB之間。

定義6:原子關系的分解。對于原子關系R,我們可以在R.S和R.T之間添加一個對象類型E(稱為邊對象)。因此,原子關系R被分解為和,其中表示R.S和E之間的關系,表示E和R.T之間的關系。對于每個關系實例r∈R,一個實例e∈E連接r.S和r.T。路徑r.S→e和e→r.T分別是和的實例。

很明顯,分解具有以下性質,其證明見附錄A。
性質1。原子關系R可以分解為和,,這種分解是唯一的。

基于此分解,具有原子關系R的兩個對象的關聯度可計算如下:

定義7:基于原子關系的HeteSim:基于原子關系R(s∈R.s和t∈R.t)的兩個不同類型對象s和t之間的HeteSim是:

很容易發現HeteSim(s,t | I)是HeteSim(s,t | R)的一個特例,因為對于自關系I,和。定義7意味著HeteSim可以通過計算兩個不同類型對象相互影響的平均值,直接測量兩個具有原子關系R的對象之間的關聯性。

實例2:圖3(a)示出了原子關系分解的示例。將AB關系分解為AE和EB關系。此外,關系AB是AE和EB的組成,如圖3(b)所示。圖3(c)中示出了兩個HeteSim示例。我們可以發現,異質性恰恰反映了事物的關聯性。以為例,雖然與、、等連接,但由于只與連接,因此與更接近。這一信息正確地反映在基于AB路徑的的HeteSim得分中:(0,0.17,0.33,0.17)。

我們還發現,在HeteSim中,物體和物體本身的相似性不是1。以圖3(c)右圖為例,a2與自身的關聯度為0.33。這顯然是不合理的。在下一節中,我們將對異質性進行規范,使關聯性測度更加合理。

D.異象的正常化

首先,我們介紹了給定任意關聯路徑的任意兩個對象之間的HeteSim的計算。

定義8:轉移概率矩陣。對于關系,是A型和B型之間的相鄰矩陣。是沿行向量的歸一化矩陣,它是基于關系R的A→B的轉移概率矩陣。是沿列向量的歸一化矩陣,它是基于關系的B→A的轉移概率矩陣。

很容易證明轉移概率矩陣具有以下性質。證據見附錄A。

性質2。和,其中是的轉置。
定義9:可達概率矩陣。給定網絡G=(V,E)遵循網絡模式,路徑的可達概率矩陣PM被定義為(為簡單起見,PM)。PM(i,j)表示目標在路徑P下到達目標的概率。

根據HeteSim的定義和性質2,基于關聯路徑,和中的對象之間的關聯是

上述公式表明,基于路徑P的和的相關性是兩個概率分布的內積,即沿路徑到達中間型對象M,沿路徑到達M。對于和中的兩個實例a和b,它們基于路徑P的相關性為

式中,表示中的第a行。

我們已經說過,HeteSim需要正?;?。相同對象的相關性為1是合理的,因此HeteSim可以標準化如下:

定義10:HeteSim的正常化。基于相關路徑P的兩個對象a和b之間的歸一化HeteSim是:

事實上,歸一化HeteSim是源對象a和目標對象b到達中間類型對象M的概率分布的余弦,其范圍為0到1。圖3(d)顯示了標準化的HeteSim分數。顯然,規范化的HeteSim更為合理。規范化是HeteSim的一個重要步驟,具有以下優點。(1) 歸一化HeteSim具有良好的性質。下面的屬性4表明HeteSim滿足不可分辨的恒等式。(2) 它有很好的解釋。歸一化HeteSim是表示可達概率的兩個向量的余弦。正如Fouss等人指出的[23],節點向量之間的角度比節點之間的距離更具預測性。在下一節中,HeteSim是指標準化的HeteSim。

E.HeteSim的特性

HeteSim具有良好的性能,這使得它在許多應用中非常有用。這些特性的證明見附錄A。

特性3:對稱

性質3顯示了HeteSim的對稱性質。盡管PathSim[5]也具有類似的對稱屬性,但只有當路徑是對稱的并且a和b具有相同類型時,它才成立。HeteSim不僅對于對稱路徑(注意對于對稱路徑P等于)而且對于非對稱路徑具有更一般的對稱特性.

特性4。自極大值:HeteSim(a,b | P)∈[0,1]。HeteSim(a,b | P)等于1當且僅當等于。

屬性4表明HeteSim受到很好的約束。對于對稱路徑P(即),等于,因此HeteSim(a,a | P)等于1。如果我們將兩個對象(即dis(s,t))之間的距離定義為dis(s,t)=1?HeteSim(s,t),則同一對象的距離為零(即dis(s,s)=0)。因此,和合論滿足了不可分辨的同一性。請注意,這是一個不可分辨的一般身份。對于不同類型的兩個對象,如果它們在中間類型對象上具有相同的概率分布,則它們的HeteSim得分也為1。這是合理的,因為它們基于給定的路徑具有相似的結構。

由于HeteSim服從非負性、不可分辨恒等式和對稱性,我們可以說HeteSim是一個半度量測度[25]。由于基于路徑的度量,HeteSim不服從三角形不等式。半度量測度有許多優點,可以廣泛應用于許多領域[25]。

特性5。連接到SimRank。對于基于模式S=({a,B},{R})的二部圖G=(V,E),假設SimRank中的常數C為1,

其中和。這里HeteSim是非標準化版本。

這個性質揭示了SimRank和HeteSim的聯系。SimRank總結了兩個對象在經過所有可能的步驟后的相遇概率。HeteSim只計算沿著給定關聯路徑的相遇概率。如果相關路徑探索了兩個對象之間所有可能的元路徑,那么基于這些路徑的HeteSim之和就是SimRank。所以我們可以說HeteSim是SimRank的路徑約束版本。通過關聯路徑,HeteSim可以精細地評估異構對象的相似性。這一性質也意味著HeteSim比SimRank更有效,因為HeteSim只需要計算給定關聯路徑上的相遇概率,而不是所有可能的元路徑。

F.討論

讓我們分析一下計算的時空復雜性。假設一類對象的平均大小為n,有T類對象,則HeteSim的空間要求為來存儲相關矩陣。設d是基于關系和的所有對象對(s,t)上的平均值。對于給定的l長度相關路徑,所需時間是,因為節點對(即n2)沿相關路徑計算它們的相關度。對于SimRank,同時迭代計算所有類型(即(Tn)2)中節點對的相似性,因此其空間復雜度為O(T2n2),時間復雜度為O(k(T2d)(T n)2),即),其中k是迭代次數。所以計算HeteSim的復雜度要比SimRank小得多。

在這里,我們討論如何選擇關聯路徑。有幾種方法可以做到這一點。(1) 用戶可以根據自己的領域知識和經驗選擇合適的路徑。(2) 監督學習可用于自動確定相關路徑的重要性。在信息檢索領域,Lao和Cohen[24]提出了一種可學習的接近度度量,其中接近度由簡單的“路徑專家”的加權組合來定義。通過標記訓練數據,學習算法可以推斷出路徑的權值。類似的策略也可用于路徑選擇。(3) 最近,Sun等人[26]將元路徑選擇和用戶引導信息結合起來用于異構網絡中的聚類。類似的用戶引導信息也可以應用于HeteSim中相關路徑的選擇。

相似性度量有很多種,其中大部分基于三種基本策略[5]:(1)路徑計數策略度量連接源對象和目標對象的路徑實例數;(2)隨機游走(RW)策略度量從源對象到目標對象隨機游走概率;(3)成對隨機游動(Pairwise random walk,PRW)策略度量從源對象和目標對象出發到達相同中間對象的成對隨機游動概率。由于對稱性和任意路徑約束,本文采用了PRW模型。雖然RW模型也可以通過基于路徑和的可達概率的組合來滿足對稱性,但它對于對稱路徑是冗余的,并且缺乏良好的可解釋性。對于PRW模型,當關聯路徑長度為奇數時,不可避免地會遇到源對象和目標對象不相交的問題。為了解決這個問題,可以采用一些可選的策略,例如分配會議對象類型?;谝韵聝烖c,本文采用路徑沉積策略。(1) 它有一個統一的框架來評估相同或不同類型對象對任意路徑的相關性。(2) 它提供了一種簡單而有效的方法來評估基于原子關系的兩個不同類型對象的相關性(參見定義7).

進一步比較了表一中六個已建立的相似度量,分別對異構網絡(Heteim、PathSim和PCWR)和三種同質網絡的相似度量(P-PageRank、SimRank和RoleSim)進行了比較。雖然這些相似性度量都是通過網絡結構來評價節點的相似性,但它們具有不同的屬性和特征。異構網絡的三種度量都是基于路徑的,因為異構網絡中的元路徑體現了語義,簡化了網絡結構。基于RW模型的兩種度量(即P-PageRank和PCRW)不滿足對稱性。由于滿足三角不等式,Rolesi是度量,而HeteSim、PathSim和SimRank是半度量。

五、實驗

在實驗中,我們用四個案例研究和兩個學習任務驗證了HeteSim在三個數據集上的有效性。

A.數據集

實驗中采用了三種異構信息網絡。

ACM數據集:ACM數據集于2010年6月從ACM數字圖書館3下載。ACM數據集來自14個具有代表性的計算機科學會議:KDD、SIGMOD、WWW、SIGIR、CIKM、SODA、STOC、SOSP、SPAA、SIGCOMM、MobiCOMM、ICML、COLT和VLDB。這些會議包括196個相應的會場會議記錄(例如,KDD會議包括12個會議記錄,如KDD'10、KDD'09等)。這個數據集有1.2萬篇論文,1.7萬名作者,1.8萬名作者。在去掉論文標題和摘要中的停止詞之后,我們得到了1.5萬個出現在超過1%的論文中的術語。該網絡還包括73個主題,這些論文在ACM類。ACM數據集的網絡架構如圖2(a)所示。

DBLP數據集[27]:DBLP數據集是從DBLP網站收集的一個子網絡,涉及數據庫、數據挖掘、信息檢索和人工智能四個研究領域的主要會議,自然形成四個類。該數據集包含14K篇論文、20個會議、14K位作者和89k個術語,總鏈接數為17K。在數據集中,4057位作者,所有20個會議和100篇論文都被標注為四個研究領域之一。網絡架構如圖2(b)所示。

電影數據集[28]:IMDB電影數據來自互聯網電影數據庫5,包括電影、演員、導演和類型。從電影數據構造電影異構網絡,其模式如圖2(c)所示。電影數據包括1.5K部電影、5K演員、551名導演和112種類型。

B.案例研究

在本節中,我們通過四個任務的案例研究來展示HeteSim的特點:自動對象分析、專家發現、關聯搜索和語義推薦。

1) 任務1:自動對象分析:我們首先在自動對象分析任務中研究了我們的方法對不同類型相關性度量的有效性。如果我們想知道一個對象的輪廓,我們可以測量該對象與我們感興趣的對象的相關性。例如,我們想知道克里斯托斯法魯索斯的學術概況??梢酝ㄟ^測量Christos Faloutsos與相關對象(如會議、附屬機構、其他作者等)的相關性來解決該問題。表II顯示了ACM數據集上各種類型的頂級相關對象列表。AP V C路徑顯示了他積極參加的會議。請注意,KDD和SIGMOD是Christos Faloutsos參加的兩個主要會議,這在他的主頁中有提到。從路徑APT中,我們可以得到他的研究興趣:數據挖掘、模式發現、可伸縮圖挖掘和社會網絡。利用aps路徑,我們可以發現他的研究領域,表現為ACM主題:數據庫管理(H.2)和數據存儲(E.2)。根據AP A路徑,HeteSim找到了最重要的合著者,其中大部分是他的博士生。另一個有趣的例子見附錄B。

2) 任務2:專家發現:在這種情況下,我們希望通過專家發現任務來驗證HeteSim的有效性,以反映對象對的相對重要性。我們知道,通過比較對象對的關聯性,可以揭示對象對的相對重要性。假設我們知道某個領域的專家,這里的專家查找任務是通過其他領域的專家的相對重要性來查找他們。表三顯示了ACM數據集上六對“會議作者”的不同方法返回的相關性得分?;贏PVC和CVPA路徑定義了會議與作者的關聯性,這兩種路徑具有相同的語義:作者在會議中發表論文。由于對稱特性,HeteSim為兩條路徑返回相同的值,而PCRW為這兩條路徑返回不同的值。假設我們熟悉數據挖掘領域,并且已經知道C.Faloutsos是KDD領域一位有影響力的研究者。比較這些HeteSim分數,我們可以發現在其他研究領域有影響力的研究人員,即使我們不太熟悉這些領域。J.F.諾頓、W.B.克羅夫特和A.古普塔應該分別是西格莫德、西格爾和蘇打的有影響力的研究者,因為他們的HeteSim得分與C.法洛索斯非常相似。此外,我們還可以推斷,羅思和陳彥可能分別是SIGIR和SIGCOMM的積極研究者,因為他們的HeteSim分數適中。事實上,C.Faloutsos、J.F.Naughton、W.B.Croft和A.Gupta是他們研究社區排名第一的作者。羅思和陳彥是年輕的教授,他們在各自的研究領域都做了很好的工作。然而,如果相關性度量不是對稱的(例如,PCRW),那么在比較這些相關性得分時很難判斷哪些作者更具影響力。例如,嚴晨和SIGCOMM的PCRW得分是APVC路徑中最大的。然而,當考慮相反的路徑(即CVPA路徑)時,該值是最小的。附錄C中的定量實驗表明,與PCRW相比,HeteSim能更準確地揭示作者會議對的相對重要性。

?

3) 任務3:基于路徑語義的相關性搜索:如前所述,基于路徑的相關性度量可以捕獲路徑的語義。在這個相關搜索任務中,我們將通過比較三種基于路徑的度量(HeteSim、PCRW和PathSim)和SimRank來觀察路徑的重要性和語義捕獲的有效性。這項任務是根據AP V CV P A路徑,即在同一會議上發表論文的作者,找出與Christos Faloutsos相關的前10位作者。通過忽略對象的異構性,我們直接在整個網絡上運行SimRank,從不同類型對象混合在一起的排名結果中選出前十名作者。比較結果如表四所示。乍一看,我們可以發現,三個基于路徑的措施都返回研究人員具有類似的聲譽與克里斯托斯略有不同的順序。然而,SimRank的結果完全違背了我們的常識。我們認為SimRank性能不好的原因是它只考慮了鏈接結構而忽略了鏈接語義。在異構網絡中,不同類型的對象連接在一起。如果忽略鏈接語義,對不同類型的鏈接一視同仁,就會充滿噪音。通過選擇有用的關系序列,元路徑避免了復雜結構帶來的噪聲。此外,元路徑體現了關系序列的語義。因此,元路徑是異構網絡的基本分析工具。

另外,讓我們分析三種基于路徑的度量返回的結果的細微差異。PathSim發現了類似的同行作者,比如Philip Yu和Jiawei Han。它們在數據挖掘領域有著相同的聲譽。對PCRW來說,奇怪的是,與克里斯托斯·法魯索斯最相似的作家不是他自己,而是查魯·C·阿加瓦爾和賈維漢。這顯然是不合理的。我們推測,在Christos Faloutsos參加的會議上,Charu C.Aggarwal和Jiawei Han發表了大量的論文,因此Christos Faloutsos對Charu C.Aggarwal和Jiawei Han的可達概率比他本人更高。赫特西姆的結果有點不同。最相似的作家是斯里尼瓦?!づ了_拉西和閻錫峰,而不是菲利普·俞正聲和韓嘉偉。讓我們重溫路徑AP VCVP A的語義:作者在同一會議上發表論文。圖4顯示了沿著路徑APVC從作者到會議的可達概率分布。很明顯,Srinivasan Parthasarathy和Xifeng Yan關于會議的論文的概率分布更接近Christos Faloutsos,因此基于相同的會議出版物,它們應該更類似于Christos。雖然俞敏洪和韓嘉偉與C.Faloutsos享有相同的聲譽,但他們的論文在不同的會議上發表的范圍更廣。因此,根據APVCVP A路徑,他們不是與C.Faloutsos最相似的作者。因此,我們的HeteSim更準確地捕捉了路徑的語義。附錄D中的另一個例子進一步說明了HeteSim捕獲相關路徑語義的能力。

4) 任務4:語義推薦:在這個案例研究中,我們展示了在推薦系統中應用HeteSim的潛力。推薦系統的一個重要目標是根據用戶的意圖推薦產品。理想的推薦系統應該能夠捕捉不同用戶意圖的微妙之處。以電影數據集為例。假設“M”代表電影,“T”代表電影類型?!癆”和“D”分別代表演員和導演。如果用戶希望找到與《鋼鐵俠》演員相同的電影,可以在推薦系統中使用MAM路徑。對于喜歡與《鋼鐵俠》類型相同的電影的用戶,可以使用路徑MTM。推薦結果如表五所示。結果表明,HeteSim可以根據不同的路徑推薦不同的電影。MAM路徑推薦與電影《鋼鐵俠》共用演員的電影,如《追風箏的人》和《晚安》。雖然前四部推薦電影(除了《鋼鐵俠》本身)都只有一個與《鋼鐵俠》相同的演員,但《追風箏的人》的演員較少,所以得分較高。MTM路徑推薦與《鋼鐵俠》類型相同的電影,如《不可思議的綠巨人》、《少年變種海龜》和《繁殖》?!安豢伤甲h的綠巨人”與“鋼鐵俠”有著更為常見的類型,因此它排名第一。更有趣的是,基于相關路徑,HeteSim可以推薦不同類型的對象。例如,用戶可能喜歡與演員“西爾維斯特·史泰龍”的電影類型相同的電影??刹捎肁MTM路徑。結果顯示在表五的最后一列。由于“西爾維斯特·史泰龍”在許多有關拳擊和體育的電影中扮演主角,HeteSim推薦這類電影,如《洛奇》和《百萬美元寶貝》。遵循這一思想,我們設計了一個基于語義的推薦系統HeteRecom[28]。

C.查詢任務性能

查詢任務將驗證HeteSim在異構對象查詢搜索中的有效性。由于PathSim不能度量不同類型對象之間的關聯性,因此本實驗只比較了HeteSim和PCRW。在DBLP數據集上,我們基于CPA路徑來度量會議和作者之間的接近度。對于每一次會議,我們根據相關作者的測量分數對他們進行排名。然后根據作者標簽繪制前100名作者的ROC曲線(當作者標簽和會議標簽相同時,為真,否則為假)。之后,我們計算AUC(Area Under ROC Curve)得分來評估排名結果的表現。請注意,DBLP數據集上的所有會議和一些作者都標有四個研究領域之一(見第V.A節)。分數越大意味著表現越好。我們評估了9個代表性會議的表現,其AUC分數如表六所示。我們可以發現,HeteSim在所有9個會議中都始終優于PCRW。結果表明,所提出的HeteSim方法比非對稱相似性度量PCRW更適合于鄰近查詢任務。

D.群集任務的性能

由于HeteSim的對稱性,它可以直接應用于聚類任務。為了評估它的性能,我們將HeteSim與五個成熟的相似性度量進行了比較,包括兩個基于路徑的度量(即PathSim和PCRW)和三個同質度量(即SimRank、RoleSim和P-PageRank)。這些度量使用相同的信息來確定對象之間的成對相似性。我們評估了DBLP數據集的聚類性能。主要包括三個任務:基于CPAPC路徑的會議聚類、基于APCPA路徑的作者聚類和基于P-AP-CP路徑的論文聚類。對于非對稱度量(即PCRW和P-PageRank),可通過基于路徑P和P-1的相似矩陣的平均來獲得對稱相似矩陣。對于RoleSim,它應用于路徑P構造的網絡中。對于SimRank和P-PageRank,它們應用于路徑PL構造的子網絡中(注意,實驗中的三條路徑是對稱的)。例如,對于CPAPC路徑,從路徑CPA導出的二部圖MCA可以用于SimRank和P-PageRank度量。然后,基于不同度量返回的相似矩陣,我們應用歸一化割[29]進行聚類。群集數設置為4。NMI準則(歸一化互信息)[30]用于評估會議、作者和論文的聚類性能。NMI介于0和1之間,越高越好。在實驗中,P-PageRank、SimRank和RoleSim的阻尼因子分別設置為0.9、0.8和0.1。

表七總結了100次運行的平均聚類精度結果。我們可以發現HeteSim在兩個任務(作者和論文聚類)上取得了最好的性能,在會議聚類任務上取得了第三名的成績??傊?#xff0c;它在三種類型的聚類精度的加權平均方面表現最好。PCWR和P-PageRank的一般結果表明,盡管兩個隨機游走過程的組合可以構造對稱的相似性度量,但簡單的組合不能生成良好的相似性度量。RoleSim的目標是檢測角色相似度,與結構相似度略有不同,因此在這些聚類任務中性能較差。此外,我們還記錄了所有度量的相似度計算的運行時間。由于篇幅限制,我們只在表VII的最后一列顯示了作者集群任務的代表性運行時間。我們可以發現HeteSim和PCWR的運行時間最小,因為它們只需要沿路徑計算一次矩陣乘法。SimRank和P-PageRank中的迭代計算使它們的運行時間更長。RoleSim中的鄰域匹配過程具有很高的時間復雜度,這使得它非常耗時。實驗表明,HeteSim不僅在同類對象的相似性度量上有很好的表現,而且作為一種高效聚類的相似性度量方法也有潛力。

?

六、 快速計算策略與實驗

HeteSim對時間和空間的計算要求很高。在大規模的信息網絡中,在線查詢是負擔不起的。因此,一個主要的策略是離線計算相關矩陣,并用這些矩陣進行在線查詢。對于常用的關聯路徑,關聯矩陣可以提前具體化。在線查詢將非???#xff0c;因為它只需要定位矩陣中的行和列。然而,實現所有常用路徑也需要花費大量的時間和空間。因此,本文提出了四種快速計算關聯矩陣的策略。此外,實驗驗證了這些策略的有效性。

A.HeteSim的計算特點

HeteSim的計算包括兩個階段:矩陣乘法(表示為MUL,即和的計算)、相關性計算(表示為REL,即的計算和歸一化)。為了分析HeteSim的計算特性,我們通過實驗觀察了這兩個相位在不同路徑上的運行時間。

基于ACM數據集(見第V.A節),我們選擇了四條不同長度的路徑(l):、、和。l表示路徑重復次數,范圍從1到5。我們根據這些路徑記錄了HeteSim不同階段的運行時間,如圖5所示。我們首先觀察圖5(a)中MUL的運行時間。不同的路徑有不同的運行時間。隨著路徑長度的增加,由于需要乘法的矩陣越來越多,矩陣乘法的運行時間不斷增加。然后我們考慮圖5(b)中REL階段的運行時間。除與圖5(a)相同的觀察外,REL的運行時間受長度l的影響很大,即當l為2和4時,和的REL運行時間顯著增加。讓我們以為例來分析原因。當l為1、3和5時,源節點和目標節點將沿著路徑在中間節點C處相遇,因此相關性計算為。然而,當l為2和4時,相關性計算是。由于A的尺寸比C大得多,的運行時間比長得多。相似的原因使有相反的波動。此外,當矩陣變得稠密時,REL所花費的時間不再增長。因此其增長率逐漸降低。對于路徑,A和P的維數很接近(#A 17K和#P 12K),因此對于不同的路徑長度,其運行時間沒有明顯的差異。另外,可達概率矩陣始終保持稀疏,使得的運行時間小于其它路徑的運行時間。

圖5(c)和(d)顯示了這兩個階段的運行時間與總運行時間的比率。一方面,它說明了REL階段主導了HeteSim的運行時間。另一方面,MUL的比率隨著路徑長度的增加而增加。從這些實驗中,我們可以總結出HeteSim計算的兩個特點。(1) 相關性計算是主要的耗時階段。這意味著矩陣乘法的加速可能不會顯著減少HeteSim的運行時間,盡管這種策略被廣泛用于加速SimRank[4]和PCWR[24]。(2) 矩陣的維數和稀疏性對HeteSim算法的效率有很大的影響

B.快速計算策略

雖然不能直接減少相關計算階段的運行時間,但可以通過調整矩陣維數和保持矩陣稀疏來加快HeteSim的計算速度?;谏鲜鏊枷?#xff0c;我們設計了以下四種策略。

1) 動態規劃策略:矩陣乘法服從聯想性。而且,不同的計算序列具有不同的時間復雜度。動態規劃策略(DP)利用聯想特性改變矩陣乘法的順序。DP的基本思想是分配具有高計算優先級的低維矩陣。對于路徑HeteSim的期望最小計算復雜度可由下式計算,計算順序由i記錄。

利用O(l2)復雜度的動態規劃方法,可以很容易地求解上述方程。運行時間可以省略,因為l比矩陣維數小得多。

相關路徑中可能有許多重復的子路徑。顯然,這些重疊子路徑只需計算一次。例如,通過計算矩陣APT一次,可以得到APTPA的結果。在矩陣乘法過程中,DP策略保留了矩陣的計算序列和相應的結果。對于一個新的計算序列,如果以前計算過,則可以直接使用相應的結果。因此,復用策略進一步加快了矩陣乘法。注意,DP策略只加速多階段(即矩陣乘法),并且不會改變相關結果,因此DP是一種信息無損策略。

2) 截短策略:截短策略是基于去掉那些不太重要的節點上的概率不會顯著降低性能的假設,這已經被許多研究所證明[24],[31]。這種策略的一個優點是保持矩陣稀疏。稀疏矩陣大大減少了空間和時間的消耗。截斷策略的基本思想是在隨機游動的每一步中增加一個截斷步長。在截斷步驟中,當相關值小于閾值ε時,將這些節點的相關值設置為0。靜態閾值通常用于許多方法(例如,參考文獻[24])。然而,該算法存在以下缺點:對于元素都具有高概率的矩陣,它可能不截斷任何元素;對于元素都具有高概率的矩陣,它可能會截斷任意一個,并且對于所有元素概率都很低的矩陣,它可能會截斷大多數節點。由于查詢任務中的k對象通常都是最為關注的,因此閾值ε可以設置為每個搜索對象的k相關值。對于尺寸為M×L的相似矩陣,k可以動態調整如下。

其中W是頂部對象的數量,由用戶決定。動態調整的基本思想是,對于超對象類型(即L較大),k緩慢增加。W和β決定截斷水平。較大的W或β將導致較大的k,這意味著更密集的矩陣。確定每個目標的前k個相關值代價很大,因此我們可以通過整個矩陣的前kM值來估計該值。此外,最高kM值可以由原始矩陣中具有比率γ的樣本數據來近似。γ越大,運行時間越長,逼近精度越高??傊?#xff0c;截斷策略是一種信息丟失策略,它以較小的精度代價保持矩陣稀疏。另外,估計閾值ε需要額外的時間。

3) 混合策略:如上所述,DP策略可以加速MUL階段,而截斷策略可以通過保持稀疏矩陣間接加速REL階段。因此,可以設計一種混合策略來結合這兩種策略。對于多階段,采用DP策略。在獲得和之后,添加截斷策略。與上述截斷策略不同,混合策略只截斷和。混合策略利用了DP和截斷策略的優點。這也是一種信息丟失策略,因為采用了截斷策略。

4) 蒙特卡羅策略:蒙特卡羅方法(montecarlo method,MC)是一類通過重復隨機抽樣來估計結果的計算算法。它已用于計算矩陣乘法的近似值。Fogaras等人[13]應用montecarlo算法來計算近似的個性化PageRank。最近,Ni等人[24]在路徑約束隨機游走模型的上下文中測試了montecarlo抽樣策略的有效性。

在這項研究中,我們應用MC策略來估計和的價值。的值可以由步行者沿著路徑P從a訪問節點b的次數的歸一化計數來近似。

?

C.快速計算實驗

我們在ACM數據集上驗證了快速計算策略的效率和有效性。使用四個路徑:、、和。?l表示路徑重復的次數,范圍從1到5。采用了四種快速計算策略和原始方法(即基線)。截斷過程中的參數設置如下:頂對象數W為200,β為0.5,γ為0.005。MC策略中的步行者(即K)數量為500。記錄所有策略的運行時間和準確性。在精度評估中,以原方法得到的關聯矩陣作為基線。準確性是每個策略獲得的前100個對象的召回標準。所有實驗都是在具有2.13 GHz英特爾至強8核處理器和64 GB內存的機器上進行的。

圖6顯示了四種策略在不同路徑上的運行時間和準確性。這些策略的運行時間如圖6 (a)-(d)所示。我們可以觀察到,DP策略幾乎與基線具有相同的運行時間。只有當多相流階段主導整個運行時間時(例如,和),它才能加速異質結構計算。截斷和混合策略的情況并非如此,截斷和混合策略顯著地加速了HeteSim計算,并且在大多數情況下具有接近的加速比。除了AP A路徑,MC策略在大多數情況下都是四種策略中加速比最高的。然后,讓我們從圖6 (e)-(h)觀察它們的準確性。DP策略的精度始終接近1。對于大多數路徑,混合策略實現了第二性能。MC策略的準確性對于大多數路徑來說也很高,而它在不同的路徑上波動。顯然,截斷策略在大多數情況下精度最低。

正如我們已經注意到的,動態規劃是一種信息無損的策略,它只會加速多階段規劃階段。此外,對于大多數路徑來說,MUL階段不是主要的耗時部分。因此,動態規劃策略以接近1的精度顯著地加速了故障樹。截斷策略是一種保持矩陣稀疏的信息丟失策略,因此可以有效地加速HeteSim。這就是為什么截斷策略具有高加速比但精度低的原因。混合策略結合了動態規劃和截斷策略。因此它的加速比接近截斷策略?;旌喜呗灾辉陔S機行走的最后一步進行截斷,減少了信息損失。說明其精度高于截斷策略。我們知道,MC策略的本質是反復隨機抽樣。為了達到高精度,高維或稀疏矩陣需要更多的walkers(即K較大)。在我們的實驗中,固定步行者(即K為500)使得MC策略在某些條件下精度較差。例如,在圖6 (h)中,對于,相關性計算是。P的高維數和均勻分布導致了MC策略的低精度。

為了清楚地說明這些策略對異構計算兩個階段的影響,圖7給出了一個典型的運行時示例。顯然,發展伙伴關系戰略確實大大加快了多國部隊階段,但對REL階段沒有影響。相反,由于稀疏矩陣和估計閾值所花費的額外時間,截斷策略比MUL階段的基線慢。然而,由于保留了稀疏矩陣,截斷策略大大加速了REL相位。與截斷策略相比,多載波策略不僅加速了REL相位,而且有利于密集矩陣上的多載波相位。

根據以上分析,這些策略適用于不同的路徑和場景。對于非常稀疏的矩陣(如)和低維矩陣(如),所有策略都不能顯著提高效率。然而,在這些條件下,可以在不應用任何快速計算策略的情況下快速計算異質結。對于計算開銷較大的密集矩陣(如)和高維矩陣(如),截斷、混合和多中心策略可以有效提高混合矩陣的效率。特別地,混合策略和MC策略的加速比高達100,而精確度損失很小。如果多路徑階段是路徑的主要耗時部分,那么動態規劃策略也可以在不損失準確性的情況下大大加快速度。矩陣運算策略具有很高的效率,但對于高維矩陣,其精度可能會下降。所以需要通過平衡效率和效果來設置合適的K。

七.結論

在本文中,我們研究了在異構網絡中度量異構對象(包括相同類型或不同類型的對象)相關性的相關性搜索問題。我們提出了一個通用的相關性度量,稱為HeteSim。作為一種路徑約束度量,HeteSim可以在一個統一的框架中度量同類型和不同類型對象的相關性。此外,HeteSim是一種半度量度量,可以在許多應用中使用。大量的實驗驗證了異構對象相關度評價的有效性和高效性。

未來的工作有一些有趣的方向。首先,可以探索更多的方法來度量異構對象的相關性,如路徑計數和讀寫策略。其次,由于本文提出的快速計算策略都是內存中的方法,因此異構系統的并行計算方法是一個值得探索的課題。最后,如何選擇和加權不同的元路徑也是異構網絡的重要問題。

總結

以上是生活随笔為你收集整理的【论文翻译】HeteSim:异构网络中相关性度量的通用框架的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。