论文浅尝 - ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练
論文題目:OntoProtein: Protein Pretraining With Gene Ontology Embedding
本文作者:張寧豫(浙江大學)、畢禎(浙江大學)、梁孝轉(浙江大學)、程思源(浙江大學)、洪浩森(浙江大學)、鄧淑敏(浙江大學)、連佳長(浙江大學)、張強(浙江大學)、陳華鈞(浙江大學)
發表會議:ICLR 2022
論文鏈接:https://arxiv.org/pdf/2201.11147.pdf
代碼鏈接:https://github.com/zjunlp/OntoProtein
一、引言
近年來,預訓練模型以強大的算法效果,席卷了自然語言處理為代表的各大AI榜單與測試數據集。與自然語言類似,蛋白質的一級結構具有序列特性,這為將語言預訓練模型引入蛋白質表示提供了有利條件。然而,蛋白質本質上不同于自然語言文本,其包含了大量預訓練目標較難習得的生物學知識。事實上,人類科學家已經積累了海量的關于蛋白質結構功能的生物學知識。那么如何利用這些知識促進蛋白質預訓練呢?本文將介紹被ICLR2022錄用的新工作:OntoProtein,其提出一種新穎的融入知識圖譜的蛋白質預訓練方法。
二、蛋白質預訓練
?蛋白質是控制生物和生命本身的基本大分子,對蛋白質的研究有助于理解人類健康和發展疾病療法。蛋白質包含一級結構,二級結構和三級結構,其中一級結構與語言具有相似的序列特性。受到自然語言處理預訓練模型的啟發,諸多蛋白質預訓練模型和工具被提出,包括MSA Transformer[1]、ProtTrans[2]、悟道 · 文溯[3]、百度的PaddleHelix等。大規模無監督蛋白質預訓練甚至可以從訓練語料中習得一定程度的蛋白質結構和功能。然而,蛋白質本質上不同于自然語言文本,其包含了諸多生物學特有的知識,較難直接通過預訓練目標習得,且會受到數據分布影響低頻長尾的蛋白質表示。為了解決這些問題,我們利用人類科學家積累的關于蛋白質結構功能的海量生物知識,提出融合知識圖譜的蛋白質預訓練方法。下面首先介紹知識圖譜構建的方法。
三、基因知識圖譜
我們通過訪問公開的基因本體知識圖譜“Gene Ontology(簡稱Go)”,并將其和來自Swiss-Prot數據庫的蛋白質序列對齊,來構建用于預訓練的知識圖譜ProteinKG25,該知識圖譜包含4,990,097個三元組, 其中4,879,951個蛋白質-Go的三元組,110,146 個Go-Go三元組,并已全部開放供社區使用。如下圖所示,基于“結構決定功能”的思想,如果在蛋白質預訓練過程中顯式地告訴模型什么樣的結構具備什么樣的功能,顯然能夠促進如蛋白質功能預測、蛋白質交互預測等任務的效果。
四、融入基因知識圖譜的蛋白質預訓練:OntoProtein
基于構建好的知識圖譜,我們設計了一個特殊的蛋白質預訓練模型OntoProtein。注意到在預訓練輸入中包含兩種不同的序列:蛋白質序列和描述蛋白質功能、生物過程等的文本描述信息。因此,我們采取兩路不同的編碼器。對蛋白質序列我們采用已有的蛋白質預訓練模型ProtBert進行編碼,對文本序列我們采用BERT進行編碼。為了更好地進行預訓練和融合三元組知識信息,我們采用了兩個優化目標。首先是傳統的掩碼語言模型目標,我們通過隨機Mask序列中的一個Token并預測該Token。其次是三元組知識增強目標,我們通過類似知識圖譜嵌入學習的方式來植入生物學三元組知識,如下公式所示:
注意到這里的事實知識分為兩類不同的三元組,分別是Go-Go和蛋白質-Go,因此我們提出一種知識增強的負采樣方法,以獲得更有代表性的負樣本提升預訓練效果,采樣方式如下 :
五、實驗分析
我們在蛋白質測試基準TAPE,以及蛋白質蛋白質交互、蛋白質功能預測(我們參考CAFA競賽構建了一個新的蛋白質功能預測數據集)上進行了實驗。如下表所示,可以發現融合知識圖譜的蛋白質預訓練方法在一定程度上取得了較好或可比的性能。特別地,我們的方法沒有使用同源序列比對(MSA),因此較難超越基于MSA Transformer的方法。詳細的實驗結果請參見論文,我們會在近期將預訓練模型整理并發布到Huggingface上供社區使用。
六、小結與展望
當下蓬勃興起的 AI for Science 正在促使以數據驅動的開普勒范式和以第一性原理驅動的牛頓范式的深度融合?;凇皵祿c知識雙輪驅動”的學術思想,我們在本文中提出了融合知識圖譜的蛋白質預訓練方法OntoProtein,并在多個下游任務中驗證了模型的效果。在未來,我們將維護好OntoProtein以供更多學者使用,并計劃探索融合同源序列比對的知識圖譜增強預訓練方法以實現更優性能。
[1] MSA Transformer ICML2021
[2] ProtTrans: Towards Cracking the Language of Life’s Code Through Self-Supervised Learning TPAMI2021
[3] Modeling Protein Using Large-scale Pretrain Language Model 2021
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 - ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | Convolutional
- 下一篇: 肖仰华 | 知识图谱落地的基本原则与最