當(dāng)前位置：首頁 >

HIN2Vec：异质信息网络中的表示学习 | PaperDaily #18

發(fā)布時(shí)間：2024/10/8 43 豆豆

生活随笔收集整理的這篇文章主要介紹了 HIN2Vec：异质信息网络中的表示学习 | PaperDaily #18 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在碎片化閱讀充斥眼球的時(shí)代，越來越少的人會去關(guān)注每篇論文背后的探索和思考。

在這個(gè)欄目里，你會快速 get 每篇精選論文的亮點(diǎn)和痛點(diǎn)，時(shí)刻緊跟 AI 前沿成果。

點(diǎn)擊本文底部的「閱讀原文」即刻加入社區(qū)，查看更多最新論文推薦。

這是 PaperDaily 的第?18?篇文章

本期推薦的論文筆記來自 PaperWeekly 社區(qū)用戶 @YFLu。這篇論文發(fā)表在剛剛結(jié)束的 2017CIKM 會議上，論文提出了一種針對異質(zhì)信息網(wǎng)絡(luò)的表示學(xué)習(xí)框架 HIN2Vec。

不同于之前很多基于 Skip-gram 語言模型的工作，HIN2Vec 的核心是一個(gè)神經(jīng)網(wǎng)絡(luò)模型，不僅能夠?qū)W習(xí)網(wǎng)絡(luò)中節(jié)點(diǎn)的表示，同時(shí)還學(xué)到了關(guān)系（元路徑）的表示。

如果你對本文工作感興趣，點(diǎn)擊底部的閱讀原文即可查看原論文。

關(guān)于作者：陸元福，北京郵電大學(xué)計(jì)算機(jī)系碩士生，研究方向?yàn)楫愘|(zhì)信息網(wǎng)絡(luò)的表示學(xué)習(xí)。

■?論文 | HIN2Vec: Explore Meta-paths in Heterogeneous Information Networks for Representation Learning

■ 鏈接 | https://www.paperweekly.site/papers/1182

■ 作者 | YFLu

HIN2Vec 是一篇關(guān)于異質(zhì)信息網(wǎng)絡(luò)中的表示學(xué)習(xí)的論文，發(fā)表在剛剛結(jié)束的 2017CIKM 會議上。這篇論文和我最近的工作有一些相似之處，一些想法甚至有些相同，同樣有很多地方值得借鑒。?

論文提出了一種針對異質(zhì)信息網(wǎng)絡(luò)的表示學(xué)習(xí)框架 HIN2Vec，不同于之前很多基于 Skip-gram 語言模型的工作，HIN2Vec 的核心是一個(gè)神經(jīng)網(wǎng)絡(luò)模型，不僅能夠?qū)W習(xí)網(wǎng)絡(luò)中節(jié)點(diǎn)的表示，同時(shí)還學(xué)到了關(guān)系（元路徑）的表示。?

同時(shí)論文還對異質(zhì)信息網(wǎng)絡(luò)中表示學(xué)習(xí)的一些問題做了研究實(shí)驗(yàn)，例如：元路徑向量的正則化、負(fù)采樣過程中節(jié)點(diǎn)的選擇以及隨機(jī)游走中的循環(huán)序列問題。

Introduction

論文首先指出了現(xiàn)有模型存在的一些問題，之前的很多工作僅僅局限于同質(zhì)信息網(wǎng)絡(luò)，而且往往只考慮節(jié)點(diǎn)之間的整合的信息或者限制類型的關(guān)系。雖然 ESim 模型考慮了節(jié)點(diǎn)間的不同關(guān)系，但是該模型過于依賴人為定義的元路徑以及每條元路徑人為設(shè)置的權(quán)重。

基于現(xiàn)有模型存在的問題，論文提出了 HIN2Vec 模型，通過研究節(jié)點(diǎn)之間不同類型的關(guān)系和網(wǎng)絡(luò)結(jié)構(gòu)，學(xué)習(xí)異質(zhì)信息網(wǎng)絡(luò)中豐富的信息。由于不同的元路徑可能有不同的語義信息，所以作者認(rèn)為對嵌入在元路徑和整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中的豐富信息進(jìn)行編碼，有助于學(xué)習(xí)更有意義的表示。

和之前的一些模型相比，HIN2Vec 模型保留了更多的上下文信息，不僅假設(shè)存在關(guān)系的兩個(gè)節(jié)點(diǎn)是相關(guān)的，而且還區(qū)分節(jié)點(diǎn)之間的不同關(guān)系，并通過共同學(xué)習(xí)關(guān)系向量區(qū)別對待。

論文的主要貢獻(xiàn)：

證明了節(jié)點(diǎn)間不同類型的關(guān)系能夠更好的捕獲更多嵌入在網(wǎng)絡(luò)結(jié)構(gòu)中的細(xì)節(jié)信息，因此通過捕獲節(jié)點(diǎn)間各種不同類型的關(guān)系，有助于網(wǎng)絡(luò)的表示學(xué)習(xí)。
提出了 HIN2Vec 模型，包括兩部分：首先，基于隨機(jī)游走和負(fù)采樣生成訓(xùn)練數(shù)據(jù)，然后，設(shè)計(jì)邏輯二元分類器用于預(yù)測兩個(gè)給定的節(jié)點(diǎn)是否存在特定的關(guān)系。同時(shí)，考慮了循環(huán)序列、負(fù)采樣和正則化問題。
實(shí)驗(yàn)很充分，包括多標(biāo)簽分類和鏈路預(yù)測，同時(shí)實(shí)驗(yàn)研究了循環(huán)序列、負(fù)采樣以及正則化對實(shí)驗(yàn)分類結(jié)果的影響。

HIN2Vec

Framework

HIN2Vec 模型分為兩部分：基于隨機(jī)游走的數(shù)據(jù)生成部分和表示學(xué)習(xí)部分。數(shù)據(jù)生成部分，基于隨機(jī)游走和負(fù)采樣生成符合目標(biāo)關(guān)系的數(shù)據(jù)，以用于表示學(xué)習(xí)。表示學(xué)習(xí)部分是一個(gè)神經(jīng)網(wǎng)絡(luò)模型，通過最大化預(yù)測節(jié)點(diǎn)之間關(guān)系的可能性，同時(shí)學(xué)習(xí)節(jié)點(diǎn)和關(guān)系的表示向量，模型的整體框架可以見下圖。

值得注意的是，HIN2Vec 模型同時(shí)學(xué)習(xí)了節(jié)點(diǎn)和關(guān)系（元路徑）的表示向量，這種多任務(wù)學(xué)習(xí)（multi-task learning）方法能夠把不同關(guān)系的豐富信息和整體網(wǎng)絡(luò)結(jié)構(gòu)聯(lián)合嵌入到節(jié)點(diǎn)向量中。?

Representation Learning?

HIN2Vec 模型的基本想法是對于多個(gè)預(yù)測任務(wù)，每個(gè)任務(wù)對應(yīng)于一條元路徑，聯(lián)合學(xué)習(xí)一個(gè)模型，學(xué)到每個(gè)節(jié)點(diǎn)的向量表示，所以一個(gè)簡單的想法就是構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)模型，預(yù)測任意給定節(jié)點(diǎn)對之間的一組目標(biāo)關(guān)系。?

論文最初的想法是一個(gè)多分類模型，即給定兩個(gè)節(jié)點(diǎn)和一個(gè)目標(biāo)關(guān)系集合，通過下圖 2 的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練預(yù)測概率值 P(ri|x,y),(i=1…|R|)，但是對于這樣的一個(gè)模型的訓(xùn)練數(shù)據(jù)的獲取是非常復(fù)雜的，因?yàn)閷τ谝粋€(gè)復(fù)雜網(wǎng)絡(luò)而言，獲取網(wǎng)絡(luò)中兩個(gè)節(jié)點(diǎn)的所有關(guān)系是很困難的。

所以論文退而求其次，將問題簡化成二分類問題，即給定兩個(gè)節(jié)點(diǎn) x,y，預(yù)測節(jié)點(diǎn)間是否存在確定的關(guān)系 r，這樣就避免了遍歷網(wǎng)絡(luò)中的所有關(guān)系，圖 3 所示就是 HIN2Vec 的神經(jīng)網(wǎng)絡(luò)模型。

模型的輸入層是三個(gè) one-hot 編碼的向量，經(jīng)過隱層層轉(zhuǎn)換到隱含向量，值得注意的是，因?yàn)殛P(guān)系和節(jié)點(diǎn)的語義含義是不同的，所以論文對關(guān)系向量 r 做了正則化處理，這種處理方式限制了關(guān)系向量的值在 0 到 1 之間。

然后，模型對三個(gè)隱含向量運(yùn)用一個(gè) Hadamard 函數(shù)（例如，對應(yīng)元素相乘），對乘積再運(yùn)用一個(gè)線性激活函數(shù)，最后輸出層對成績求和后的值進(jìn)行一個(gè) sigmoid 非線性轉(zhuǎn)換。?

模型的訓(xùn)練數(shù)據(jù)集是以四元組的形式給出的，形如 $，其中，其中 L(x,y,r) 指示指示 x,y 之間是否存在關(guān)系之間是否存在關(guān)系 r。具體的：

Traning Data Preparation

論文采用隨機(jī)游走的方式生成節(jié)點(diǎn)序列，但是需要注意的是，不同于 metapath2vec[1] 按照給定元路徑模式游走的方式，HIN2Vec 模型完全隨機(jī)選擇游走節(jié)點(diǎn)，只要節(jié)點(diǎn)有連接均可游走。

例如，隨機(jī)游走得到序列 P1,P2,A1,P3,A1，那么對于節(jié)點(diǎn) P1，可以產(chǎn)生訓(xùn)練數(shù)據(jù) $和$。

在論文中，作者討論了隨機(jī)游走過程中可能出現(xiàn)的循環(huán)的情況，提出通過檢查重復(fù)節(jié)點(diǎn)的方式消除循環(huán)，并在實(shí)驗(yàn)部分分析了是否消環(huán)對實(shí)驗(yàn)結(jié)果的影響，但是個(gè)人認(rèn)為這個(gè)地方的原理性介紹比較欠缺，對于消除循環(huán)的具體做法沒有給出很詳細(xì)的說明解釋，循環(huán)的檢測是根據(jù)前面已生成的所有節(jié)點(diǎn)還是部分節(jié)點(diǎn)，也沒有給出說明。

論文還討論了訓(xùn)練數(shù)據(jù)集中負(fù)樣本的選擇，論文也是采用 word2vec 中的負(fù)采樣的方法產(chǎn)生負(fù)樣本。對于一個(gè)正樣本 $，通過隨機(jī)替換，通過隨機(jī)替換 x,y,r 中的任意一個(gè)，生成負(fù)樣本中的任意一個(gè)，生成負(fù)樣本，其中，其中 x’’ 和 y’’ 之間不一定有確定的關(guān)系之間不一定有確定的關(guān)系 r’’$。

但是，由于網(wǎng)絡(luò)中的關(guān)系數(shù)量是很少的，節(jié)點(diǎn)的數(shù)量遠(yuǎn)遠(yuǎn)大于關(guān)系的數(shù)量，這樣就很容易產(chǎn)生錯(cuò)誤的負(fù)樣本（其實(shí)是可能正樣本），所以論文采用只隨機(jī)替換 x 或 y 中的一個(gè)，而保持 r 是不變的，同時(shí)保持 x 或 y 的類型不變。

Summary

總體來說，論文的想法還是很新穎的，把節(jié)點(diǎn)和節(jié)點(diǎn)間的關(guān)系作為一種二分類問題考慮，給定兩個(gè)節(jié)點(diǎn) x,y，通過預(yù)測節(jié)點(diǎn)之間是否存在確定的關(guān)系 r，同時(shí)學(xué)習(xí)到了節(jié)點(diǎn)和關(guān)系的向量表示。

此外，論文考慮到了節(jié)點(diǎn)和關(guān)系的語義是不同的，因此它們的表示空間也應(yīng)該不通，所以論文對關(guān)系向量運(yùn)用了一個(gè)正則函數(shù)。對于隨機(jī)游走過程中可能會出現(xiàn)循環(huán)節(jié)點(diǎn)的問題，論文也給出了實(shí)驗(yàn)分析，同時(shí)闡述了負(fù)采樣時(shí)候節(jié)點(diǎn)及節(jié)點(diǎn)類型的選擇。

個(gè)人認(rèn)為，論文的不足之處在于隨機(jī)游走過程中如何消除循環(huán)，沒有給出較為詳細(xì)的說明。此外，對于學(xué)習(xí)到的關(guān)系的表示如何應(yīng)用到實(shí)際的數(shù)據(jù)挖掘任務(wù)中，論文也沒有給出實(shí)驗(yàn)分析。

Reference

[1] Dong Y, Chawla N V, Swami A. metapath2vec: Scalable representation learning for heterogeneous networks[C]//Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2017: 135-144.

本文由 AI 學(xué)術(shù)社區(qū) PaperWeekly 精選推薦，社區(qū)目前已覆蓋自然語言處理、計(jì)算機(jī)視覺、人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和信息檢索等研究方向，點(diǎn)擊「閱讀原文」即刻加入社區(qū)！

? ? ? ? ??

?我是彩蛋

?解鎖新功能：熱門職位推薦！

PaperWeekly小程序升級啦

今日arXiv√猜你喜歡√熱門職位√

找全職找實(shí)習(xí)都不是問題

?解鎖方式?

1. 識別下方二維碼打開小程序

2. 用PaperWeekly社區(qū)賬號進(jìn)行登陸

3. 登陸后即可解鎖所有功能

?職位發(fā)布?

請?zhí)砑有≈治⑿?#xff08;pwbot01）進(jìn)行咨詢

長按識別二維碼，使用小程序

*點(diǎn)擊閱讀原文即可注冊

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號后臺點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點(diǎn)擊 |?閱讀原文?| 查看原論文

與50位技術(shù)專家面對面20年技術(shù)見證，附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的HIN2Vec：异质信息网络中的表示学习 | PaperDaily #18的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：开源代码上新！6 份最新「Paper +
下一篇：本期最新 9 篇论文，帮你完美解决「读什