HIN2Vec:异质信息网络中的表示学习 | PaperDaily #18
在碎片化閱讀充斥眼球的時(shí)代,越來越少的人會去關(guān)注每篇論文背后的探索和思考。
在這個(gè)欄目里,你會快速 get 每篇精選論文的亮點(diǎn)和痛點(diǎn),時(shí)刻緊跟 AI 前沿成果。
點(diǎn)擊本文底部的「閱讀原文」即刻加入社區(qū),查看更多最新論文推薦。
這是 PaperDaily 的第?18?篇文章本期推薦的論文筆記來自 PaperWeekly 社區(qū)用戶 @YFLu。這篇論文發(fā)表在剛剛結(jié)束的 2017CIKM 會議上,論文提出了一種針對異質(zhì)信息網(wǎng)絡(luò)的表示學(xué)習(xí)框架 HIN2Vec。
不同于之前很多基于 Skip-gram 語言模型的工作,HIN2Vec 的核心是一個(gè)神經(jīng)網(wǎng)絡(luò)模型,不僅能夠?qū)W習(xí)網(wǎng)絡(luò)中節(jié)點(diǎn)的表示,同時(shí)還學(xué)到了關(guān)系(元路徑)的表示。
如果你對本文工作感興趣,點(diǎn)擊底部的閱讀原文即可查看原論文。
關(guān)于作者:陸元福,北京郵電大學(xué)計(jì)算機(jī)系碩士生,研究方向?yàn)楫愘|(zhì)信息網(wǎng)絡(luò)的表示學(xué)習(xí)。
■?論文 | HIN2Vec: Explore Meta-paths in Heterogeneous Information Networks for Representation Learning
■ 鏈接 | https://www.paperweekly.site/papers/1182
■ 作者 | YFLu
HIN2Vec 是一篇關(guān)于異質(zhì)信息網(wǎng)絡(luò)中的表示學(xué)習(xí)的論文,發(fā)表在剛剛結(jié)束的 2017CIKM 會議上。這篇論文和我最近的工作有一些相似之處,一些想法甚至有些相同,同樣有很多地方值得借鑒。?
論文提出了一種針對異質(zhì)信息網(wǎng)絡(luò)的表示學(xué)習(xí)框架 HIN2Vec,不同于之前很多基于 Skip-gram 語言模型的工作,HIN2Vec 的核心是一個(gè)神經(jīng)網(wǎng)絡(luò)模型,不僅能夠?qū)W習(xí)網(wǎng)絡(luò)中節(jié)點(diǎn)的表示,同時(shí)還學(xué)到了關(guān)系(元路徑)的表示。?
同時(shí)論文還對異質(zhì)信息網(wǎng)絡(luò)中表示學(xué)習(xí)的一些問題做了研究實(shí)驗(yàn),例如:元路徑向量的正則化、負(fù)采樣過程中節(jié)點(diǎn)的選擇以及隨機(jī)游走中的循環(huán)序列問題。
Introduction
論文首先指出了現(xiàn)有模型存在的一些問題,之前的很多工作僅僅局限于同質(zhì)信息網(wǎng)絡(luò),而且往往只考慮節(jié)點(diǎn)之間的整合的信息或者限制類型的關(guān)系。雖然 ESim 模型考慮了節(jié)點(diǎn)間的不同關(guān)系,但是該模型過于依賴人為定義的元路徑以及每條元路徑人為設(shè)置的權(quán)重。
基于現(xiàn)有模型存在的問題,論文提出了 HIN2Vec 模型,通過研究節(jié)點(diǎn)之間不同類型的關(guān)系和網(wǎng)絡(luò)結(jié)構(gòu),學(xué)習(xí)異質(zhì)信息網(wǎng)絡(luò)中豐富的信息。由于不同的元路徑可能有不同的語義信息,所以作者認(rèn)為對嵌入在元路徑和整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中的豐富信息進(jìn)行編碼,有助于學(xué)習(xí)更有意義的表示。
和之前的一些模型相比,HIN2Vec 模型保留了更多的上下文信息,不僅假設(shè)存在關(guān)系的兩個(gè)節(jié)點(diǎn)是相關(guān)的,而且還區(qū)分節(jié)點(diǎn)之間的不同關(guān)系,并通過共同學(xué)習(xí)關(guān)系向量區(qū)別對待。
論文的主要貢獻(xiàn):
-
證明了節(jié)點(diǎn)間不同類型的關(guān)系能夠更好的捕獲更多嵌入在網(wǎng)絡(luò)結(jié)構(gòu)中的細(xì)節(jié)信息,因此通過捕獲節(jié)點(diǎn)間各種不同類型的關(guān)系,有助于網(wǎng)絡(luò)的表示學(xué)習(xí)。
-
提出了 HIN2Vec 模型,包括兩部分:首先,基于隨機(jī)游走和負(fù)采樣生成訓(xùn)練數(shù)據(jù),然后,設(shè)計(jì)邏輯二元分類器用于預(yù)測兩個(gè)給定的節(jié)點(diǎn)是否存在特定的關(guān)系。同時(shí),考慮了循環(huán)序列、負(fù)采樣和正則化問題。
-
實(shí)驗(yàn)很充分,包括多標(biāo)簽分類和鏈路預(yù)測,同時(shí)實(shí)驗(yàn)研究了循環(huán)序列、負(fù)采樣以及正則化對實(shí)驗(yàn)分類結(jié)果的影響。
HIN2Vec
Framework
HIN2Vec 模型分為兩部分:基于隨機(jī)游走的數(shù)據(jù)生成部分和表示學(xué)習(xí)部分。數(shù)據(jù)生成部分,基于隨機(jī)游走和負(fù)采樣生成符合目標(biāo)關(guān)系的數(shù)據(jù),以用于表示學(xué)習(xí)。表示學(xué)習(xí)部分是一個(gè)神經(jīng)網(wǎng)絡(luò)模型,通過最大化預(yù)測節(jié)點(diǎn)之間關(guān)系的可能性,同時(shí)學(xué)習(xí)節(jié)點(diǎn)和關(guān)系的表示向量,模型的整體框架可以見下圖。
值得注意的是,HIN2Vec 模型同時(shí)學(xué)習(xí)了節(jié)點(diǎn)和關(guān)系(元路徑)的表示向量,這種多任務(wù)學(xué)習(xí)(multi-task learning)方法能夠把不同關(guān)系的豐富信息和整體網(wǎng)絡(luò)結(jié)構(gòu)聯(lián)合嵌入到節(jié)點(diǎn)向量中。?
Representation Learning?
HIN2Vec 模型的基本想法是對于多個(gè)預(yù)測任務(wù),每個(gè)任務(wù)對應(yīng)于一條元路徑,聯(lián)合學(xué)習(xí)一個(gè)模型,學(xué)到每個(gè)節(jié)點(diǎn)的向量表示,所以一個(gè)簡單的想法就是構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)模型,預(yù)測任意給定節(jié)點(diǎn)對之間的一組目標(biāo)關(guān)系。?
論文最初的想法是一個(gè)多分類模型,即給定兩個(gè)節(jié)點(diǎn)和一個(gè)目標(biāo)關(guān)系集合,通過下圖 2 的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練預(yù)測概率值 P(ri|x,y),(i=1…|R|),但是對于這樣的一個(gè)模型的訓(xùn)練數(shù)據(jù)的獲取是非常復(fù)雜的,因?yàn)閷τ谝粋€(gè)復(fù)雜網(wǎng)絡(luò)而言,獲取網(wǎng)絡(luò)中兩個(gè)節(jié)點(diǎn)的所有關(guān)系是很困難的。
所以論文退而求其次,將問題簡化成二分類問題,即給定兩個(gè)節(jié)點(diǎn) x,y,預(yù)測節(jié)點(diǎn)間是否存在確定的關(guān)系 r,這樣就避免了遍歷網(wǎng)絡(luò)中的所有關(guān)系,圖 3 所示就是 HIN2Vec 的神經(jīng)網(wǎng)絡(luò)模型。
模型的輸入層是三個(gè) one-hot 編碼的向量,經(jīng)過隱層層轉(zhuǎn)換到隱含向量,值得注意的是,因?yàn)殛P(guān)系和節(jié)點(diǎn)的語義含義是不同的,所以論文對關(guān)系向量 r 做了正則化處理,這種處理方式限制了關(guān)系向量的值在 0 到 1 之間。
然后,模型對三個(gè)隱含向量運(yùn)用一個(gè) Hadamard 函數(shù)(例如,對應(yīng)元素相乘),對乘積再運(yùn)用一個(gè)線性激活函數(shù),最后輸出層對成績求和后的值進(jìn)行一個(gè) sigmoid 非線性轉(zhuǎn)換。?
模型的訓(xùn)練數(shù)據(jù)集是以四元組的形式給出的,形如 $,其中,其中 L(x,y,r) 指示指示 x,y 之間是否存在關(guān)系之間是否存在關(guān)系 r。具體的:
Traning Data Preparation
論文采用隨機(jī)游走的方式生成節(jié)點(diǎn)序列,但是需要注意的是,不同于 metapath2vec[1] 按照給定元路徑模式游走的方式,HIN2Vec 模型完全隨機(jī)選擇游走節(jié)點(diǎn),只要節(jié)點(diǎn)有連接均可游走。
例如,隨機(jī)游走得到序列 P1,P2,A1,P3,A1,那么對于節(jié)點(diǎn) P1,可以產(chǎn)生訓(xùn)練數(shù)據(jù) $和$。
在論文中,作者討論了隨機(jī)游走過程中可能出現(xiàn)的循環(huán)的情況,提出通過檢查重復(fù)節(jié)點(diǎn)的方式消除循環(huán),并在實(shí)驗(yàn)部分分析了是否消環(huán)對實(shí)驗(yàn)結(jié)果的影響,但是個(gè)人認(rèn)為這個(gè)地方的原理性介紹比較欠缺,對于消除循環(huán)的具體做法沒有給出很詳細(xì)的說明解釋,循環(huán)的檢測是根據(jù)前面已生成的所有節(jié)點(diǎn)還是部分節(jié)點(diǎn),也沒有給出說明。
論文還討論了訓(xùn)練數(shù)據(jù)集中負(fù)樣本的選擇,論文也是采用 word2vec 中的負(fù)采樣的方法產(chǎn)生負(fù)樣本。對于一個(gè)正樣本 $,通過隨機(jī)替換,通過隨機(jī)替換 x,y,r 中的任意一個(gè),生成負(fù)樣本中的任意一個(gè),生成負(fù)樣本,其中,其中 x’’ 和 y’’ 之間不一定有確定的關(guān)系之間不一定有確定的關(guān)系 r’’$。
但是,由于網(wǎng)絡(luò)中的關(guān)系數(shù)量是很少的,節(jié)點(diǎn)的數(shù)量遠(yuǎn)遠(yuǎn)大于關(guān)系的數(shù)量,這樣就很容易產(chǎn)生錯(cuò)誤的負(fù)樣本(其實(shí)是可能正樣本),所以論文采用只隨機(jī)替換 x 或 y 中的一個(gè),而保持 r 是不變的,同時(shí)保持 x 或 y 的類型不變。
Summary
總體來說,論文的想法還是很新穎的,把節(jié)點(diǎn)和節(jié)點(diǎn)間的關(guān)系作為一種二分類問題考慮,給定兩個(gè)節(jié)點(diǎn) x,y,通過預(yù)測節(jié)點(diǎn)之間是否存在確定的關(guān)系 r,同時(shí)學(xué)習(xí)到了節(jié)點(diǎn)和關(guān)系的向量表示。
此外,論文考慮到了節(jié)點(diǎn)和關(guān)系的語義是不同的,因此它們的表示空間也應(yīng)該不通,所以論文對關(guān)系向量運(yùn)用了一個(gè)正則函數(shù)。對于隨機(jī)游走過程中可能會出現(xiàn)循環(huán)節(jié)點(diǎn)的問題,論文也給出了實(shí)驗(yàn)分析,同時(shí)闡述了負(fù)采樣時(shí)候節(jié)點(diǎn)及節(jié)點(diǎn)類型的選擇。
個(gè)人認(rèn)為,論文的不足之處在于隨機(jī)游走過程中如何消除循環(huán),沒有給出較為詳細(xì)的說明。此外,對于學(xué)習(xí)到的關(guān)系的表示如何應(yīng)用到實(shí)際的數(shù)據(jù)挖掘任務(wù)中,論文也沒有給出實(shí)驗(yàn)分析。
Reference
[1] Dong Y, Chawla N V, Swami A. metapath2vec: Scalable representation learning for heterogeneous networks[C]//Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2017: 135-144.
本文由 AI 學(xué)術(shù)社區(qū) PaperWeekly 精選推薦,社區(qū)目前已覆蓋自然語言處理、計(jì)算機(jī)視覺、人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和信息檢索等研究方向,點(diǎn)擊「閱讀原文」即刻加入社區(qū)!
? ? ? ? ??
?我是彩蛋
?解鎖新功能:熱門職位推薦!
PaperWeekly小程序升級啦
今日arXiv√猜你喜歡√熱門職位√
找全職找實(shí)習(xí)都不是問題
?
?解鎖方式?
1. 識別下方二維碼打開小程序
2. 用PaperWeekly社區(qū)賬號進(jìn)行登陸
3. 登陸后即可解鎖所有功能
?職位發(fā)布?
請?zhí)砑有≈治⑿?#xff08;pwbot01)進(jìn)行咨詢
?
長按識別二維碼,使用小程序
*點(diǎn)擊閱讀原文即可注冊
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 查看原論文
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的HIN2Vec:异质信息网络中的表示学习 | PaperDaily #18的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开源代码上新!6 份最新「Paper +
- 下一篇: 本期最新 9 篇论文,帮你完美解决「读什