论文浅尝 - IJCAI2020 | KGNN:基于知识图谱的图神经网络预测药物与药物相互作用...
轉載公眾號?|? AI TIME?論道
藥物間相互作用(DDI)預測是藥理學和臨床應用中一個具有挑戰性的問題,在臨床試驗期間,有效識別潛在的DDI對患者和社會至關重要。現有的大多數方法采用基于AI的計算模型,通常傾向于集成多個數據源并結合先進的圖嵌入方法來實現。然而研究人員很少關注藥物與其他實體(例如靶標和基因)之間存在的潛在關聯。此外,最近的研究還采用知識圖譜(KG)進行DDI預測。這一系列方法都是采取直接學習節點的潛在嵌入向量,但它們對于獲得KG中每個實體的豐富鄰域信息受到限制。
為解決上述局限性,林軒等人提出了一種端到端的框架,即基于知識圖譜的圖神經網絡(KGNN),以解決DDI預測問題。該框架可通過在KG中挖掘相關聯的關系,來有效地捕獲藥物及其潛在的鄰域實體信息。為了提取KG中的高階結構和語義關系,對KG中每個實體的鄰域進行學習,作為它們的局部感知域,然后將鄰域信息與來自當前實體表示的偏差進行整合。這樣,感知域可以自然地擴展到多個躍點,以對高階拓撲信息進行建模并獲得潛在的藥物長距離相關性特征。本次報告,我們有幸邀請到來自湖南大學的林軒博士為大家分享他們的這項研究工作!
林軒:湖南大學計算機科學與技術四年級博士生,導師為全哲副教授。于2019年10月前往伊利諾伊大學芝加哥分校計算機學院進行博士聯合培養,指導老師是Philip S.Yu教授。主要研究方向為機器學習、圖神經網絡和藥物重定位。目前已在IJCAI、AAAI、ECAI、Briefings in Bioinformatics等國際會議和期刊發表論文7篇,并擔任IJCAI、AAAI、Briefings in Bioinformatics、Neurocomputing等會議和期刊審稿人。
一、背景和動機
藥物間的相互作用(DDI)是指同時或先后服用兩種或兩種以上藥物時,藥物之間所產生的相互作用,而該相互作用可能會導致意想不到的副作用。舉個例子,在日常生活中,某人因睡眠不佳,服用了助眠藥物,比如鎮定劑。與此同時他又出現了過敏反應,需要服用治療過敏的藥物,比如抗組胺藥。當兩種藥物混合服用,就可能會減緩大腦的反應。如果此人是從事車輛駕駛或者機械操作等需要注意力高度集中的工作,那么一旦出現緊急情況,就可能因無法及時做出反應,發生難以預料的危險。因此,如果能夠提前預測DDI,就能有效避免類似情況的發生。
圖1 藥物間相互作用
總結歸納現有DDI預測方法,大致可分為兩大類。一類是分子表示,主要聚焦于藥物分子的特征學習。這類方法都基于同樣的假設:即具有相似嵌入表示的藥物分子將會表現出相似的DDI。如圖2右邊所示,分子A和分子B有相似的分子結構,那它們所學到的特征向量也是相似的,如果分子A與分子C存在相互作用,那么可以推斷分子B和分子C也有類似DDI存在。藥物分子特征學習有很多方法,比如類似文本編碼的一維SMILES序列,比如傳統基于分子描述符或分子指紋ECFP的方法,或是基于3D坐標軸位置信息的方法。如文獻2中提到了一種新穎的分子表示方法,即基于多視角藥物特征學習更好的藥物相似性,但這種方法僅限于對藥物分子本身的表示學習,大多數情況下都依賴于領域知識。
另一類常用的DDI預測方法是基于網絡嵌入的方法,通過構建各種與藥物有關的生物網絡,在這個網絡中,將藥物看作網絡中的節點,通過學習節點的嵌入表示來預測潛在的邊,即DDI的關系。構建映射關系網絡也有多種方法,比如矩陣分解,把目標關系構建成一個矩陣進行求解;比如隨機游走,在圖中選擇固定的路徑進行游走以獲取更多的節點特征。這類方法的目標在于預測藥物之間的標簽邊,但它們只關注單一的DDI關系,并沒有考慮與藥物有關的其他聯系。
圖2 現有DDI預測方法
通過以上分析可以發現,這些方法的初衷是希望獲得更多生物關聯的信息。如果一個圖或數據能夠提供更多信息,那么就能有效輔助DDI預測,此時知識圖譜就成為了一個上佳的選擇。因為知識圖譜蘊含了豐富的信息,包括多個實體之間的結構關系、與每個節點關聯的語義關系等。在對過去DDI預測方法的梳理中,我們也找到了基于知識圖譜的方法,但這個方法是采用知識圖譜嵌入的方式,直接學習節點的嵌入表示,沒有考慮每個實體豐富的鄰域信息。為突破局限,林軒等人在知識圖譜中引入圖神經網絡,借用圖神經網絡對每個節點進行鄰域采樣,通過聚合鄰域信息獲得實體的嵌入表示,這也就是基于知識圖譜的圖神經網絡的動機來源。
圖3 知識圖譜和圖神經網絡
二、基于知識圖譜的圖神經網絡
圖4是基于知識圖譜的圖神經網絡的整體框架,共包括三個模塊:(1)DDI提取與KG構建;(2)KGNN層;(3)藥物與藥物相互作用預測。
圖4 基于知識圖譜的圖神經網絡框架
具體來說,第一步中DDI提取主要使用了DrugBank和KEGG-drug兩個數據集。對數據集進行解析以提取藥物對,這里的藥物對其實是經過FDA認證的DDI,如圖4中“DB00001-DB01181”所示。知識圖譜構建,使用Bio2RDF工具構建鏈接的數據網絡,基于傳輸定義從不同格式的數據源中獲取數據,從而創建與RDF數據格式兼容的鏈接數據。
圖5 DDI提取和KG構建
獲得輸入以后,需要對實體的鄰域進行采樣。每一個藥物實體的鄰域分布情況是不一樣的,圖6中紅色的節點表示藥物節點,考慮每個藥物節點兩跳的鄰域范圍。H參數可以理解為CNN中的感知域,H=1相當于只考慮與當前節點直接相連的鄰居節點,H=2表示考慮二階相連的節點情況,這樣能夠學習到更多的鄰域實體信息,當然H可以取更大值。在這個框架中GNN是一種空間域的方法。在構建的知識圖譜中,把和藥物節點直接相連的節點定義為Nneigh(e)。因為每個藥物節點鄰域的分布是不同的,為了計算方便,借鑒GraphSAGE方法,采用固定大小的鄰域范圍S(e)。采樣完成之后,通過三種聚合方法將實體自身的嵌入表示和鄰域信息的嵌入表示聚合起來,最終得到當前實體的嵌入表示。其中,sum聚合方法是一種疊加操作,concat是一種拼接操作,neighbor只考慮鄰域的信息,而忽略自身實體嵌入表示。
圖6 KGNN層
圖7總結了KGNN算法,回顧整個框架可分為三個步驟:(1)從數據集中提取藥物對并構建相應的知識圖譜;(2)將信息輸入KGNN中,獲得藥物及其相關實體鄰域的特征;(3)計算兩個藥物的相似度并反饋輸出交互值。
圖7 KGNN算法
三、實驗結果
實驗部分,通過DrugBank和KEGG-drug兩個數據集來評估KGNN的性能。對于兩個數據集,以8/1/1的比例將所有批準的DDI作為正樣本隨機分為訓練、驗證和測試集,并隨機抽取正樣本的補集作為負樣本用于模型訓練。使用多種指標評估預測性能,包括ACC、AUPR、AUC-ROC和F1分數。選取5類(MF、RW、NN、DL、KG)共9種方法作為實驗基準,以更好對比實驗結果。
圖8 實驗設定
圖9是KGNN與基準方法的性能比較,每種方法的第一/第二行分別對應于DrugBank和KEGG-drug數據集上的實驗結果。通過對比實驗結果可以發現,KGNN在兩個數據集上都取得了最優的效果。另外,在消融實驗部分測試了三種聚合方法的性能,發現通過拼接聚合(concat)的方法效果是最好的。同時,這些變體的結果均優于基準對比方法,反映出了KGNN方法的穩定性。
圖9 對比、消融實驗結果
實驗還研究了k、H、d三個關鍵參數對KGNN性能的影響。首先,改變鄰域大小k發現,當k=16時,KGNN可獲得最佳性能。這說明如果采樣的鄰居節點個數太少,鄰域所能夠包含的信息會不夠。其次,通過設置為1到6(大于6時超出系統內存)來研究感知域深度H的影響。實驗結果顯示,當H=2時可以學到較多的特征,但模型所有指標的性能都會從H = 3開始降低。最后,檢驗嵌入維度大小d的影響如設置由8變化為512。結果表明,可通過設置適當的維度大小來提高其學習能力,值過大反而會帶來過擬合的情況。
圖10 不同參數的實驗結果
四、總結和未來展望
總結來說,林軒等人的工作提出了一種新穎的框架來預測DDI任務。該框架將圖神經網絡應用到了知識圖譜當中,同時考慮了藥物實體在知識圖譜中的拓撲結構信息以及自身附帶的語義關聯信息。對于未來的工作,主要有以下幾點想法:(1)考慮更大規模的知識圖譜;(2)設計有效的鄰域采樣方法;(3)拓展到多類型的DDI預測或其他相關任務,而不是僅限于二分類預測。
圖11 總結和未來工作
?
Paper: https://www.ijcai.org/Proceedings/2020/0380.pdf
Code:?https://github.com/jacklin18/KGNN
(直播回放:https://b23.tv/ifBA8L)
(點擊“閱讀原文”下載本次報告ppt)
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
總結
以上是生活随笔為你收集整理的论文浅尝 - IJCAI2020 | KGNN:基于知识图谱的图神经网络预测药物与药物相互作用...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | PairRE: 通过成对的
- 下一篇: 征稿 | Big Data Resear