论文浅尝 | 主题驱动的分子图表示对比学习
筆記整理 |?方尹,浙江大學(xué)在讀博士,研究方向:圖表示學(xué)習(xí)。
論文地址:https://arxiv.org/abs/2012.12533
動(dòng)機(jī)與貢獻(xiàn)
現(xiàn)有的對比學(xué)習(xí)框架中可能存在以下幾個(gè)弊端:
1.把節(jié)點(diǎn)看成一種視圖,在節(jié)點(diǎn)和圖之間進(jìn)行對比學(xué)習(xí),這樣可能會(huì)限制模型捕獲整體信息的能力;
2.把子圖看成一種視圖,挑選子圖的方法比如隨機(jī)游走或著k-hop鄰居很大概率會(huì)得到完全沒有意義的子圖。而依賴于子圖結(jié)構(gòu)計(jì)數(shù)的motif mining方法又不適用于大規(guī)模數(shù)據(jù)集。
?
作者提出了MICRO-Graph框架:
1.自動(dòng)化找出motif,再找出這個(gè)motif下的子圖
2.一種子圖到圖的對比學(xué)習(xí)框架
模型與算法
整體框架分為三部分:1.找出重要的子圖;2.cluster抽出來的子圖,并定義主題;3.子圖到圖的對比學(xué)習(xí)。
圖通過GNN encoder得到節(jié)點(diǎn)的表示,再通過segmenter模塊抽取子圖,子圖通過encoder獲得子圖表示,子圖的表示通過motif learner模塊學(xué)習(xí)子圖屬于哪些主題,更新的參數(shù)又會(huì)影響segmenter抽取子圖的方式和節(jié)點(diǎn)表示。把最終生成的子圖和整個(gè)圖進(jìn)行對比學(xué)習(xí)。
Motif learner
input graph通過segmenter抽取出N個(gè)子圖,每個(gè)子圖通過encoder學(xué)習(xí)到子圖的表示。這里要用到的兩個(gè)矩陣:S衡量了主題和子圖的相似度,Q衡量了子圖被分配到某個(gè)主題的概率。
E-step的目標(biāo)就是求解Q,使得子圖和它被分配到的主題的相似度最大。
目標(biāo)函數(shù):最大化 分配矩陣Q和相似度矩陣S乘積的跡 其實(shí)就是最大化子圖和它被分配到的主題的相似度。因?yàn)樵谶M(jìn)行表示學(xué)習(xí)時(shí)representation會(huì)發(fā)生變化,可能會(huì)導(dǎo)致退化的問題,比如所有的表示都聚到一個(gè)cluster。所以這里引入了一個(gè)約束H(Q).
M-step的目標(biāo)是在已知最優(yōu)Q的情況下,尋找似然函數(shù)最大化時(shí)對應(yīng)的參數(shù),更新encoder的參數(shù)和motif embedding table。相當(dāng)于一個(gè)label為Q,預(yù)測得分為S的K-分類問題。利用負(fù)對數(shù)似然做損失函數(shù),這里的S做了softmax normalization.
motif learner的作用就是在給定的子圖上學(xué)習(xí)他們的主題。
Motif-guided subgraph segmenter
包含n個(gè)節(jié)點(diǎn)的graph通過encoder得到每個(gè)節(jié)點(diǎn)的embedding, 計(jì)算了節(jié)點(diǎn)兩兩之間的相似度。通過A,進(jìn)行譜聚類:將聚類后,組成成分多于3個(gè)節(jié)點(diǎn)的子結(jié)構(gòu)作為subgraph, 聚合子結(jié)構(gòu)包含的所有節(jié)點(diǎn)embedding作為subgraph embedding.
它的訓(xùn)練基于一種直覺:如果子圖和主題很相似,那么子圖的節(jié)點(diǎn)embedding隨著update也會(huì)相似。Loss:如果子圖和任意主題相似度高于某個(gè)閾值,就讓子圖中節(jié)點(diǎn)的affinity values更高,這些節(jié)點(diǎn)和不在子圖中的其他節(jié)點(diǎn)的affinity values越低。
經(jīng)過訓(xùn)練,在下一個(gè)sampling回合中,產(chǎn)生出來的motif-like的子圖的節(jié)點(diǎn)更有可能被分割在一起,這樣的子圖才會(huì)更有意義。
Contrastive learning between graph and subgraphs
圖和從這張圖中sample出的子圖作為positive pairs;這張圖和從其他圖中sample出的子圖作為negative pairs. W是圖和子圖的相似度矩陣。
Joint training
訓(xùn)練時(shí)同時(shí)考慮三個(gè)模塊的損失。
實(shí)驗(yàn)與結(jié)果
1.兩種evaluation protocol:
2.五個(gè)最頻繁出現(xiàn)的主題,用與他們最相近的subgraph表示:
3.Ablation study
歡迎有興趣的同學(xué)閱讀原文。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 主题驱动的分子图表示对比学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 面向开放域的无监督实体对齐
- 下一篇: 技术动态 | 藏经阁计划发布一年,阿里知