日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 - ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练

發(fā)布時(shí)間:2024/7/5 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 - ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文題目:OntoProtein: Protein Pretraining With Gene Ontology Embedding

本文作者:張寧豫(浙江大學(xué))、畢禎(浙江大學(xué))、梁孝轉(zhuǎn)(浙江大學(xué))、程思源(浙江大學(xué))、洪浩森(浙江大學(xué))、鄧淑敏(浙江大學(xué))、連佳長(zhǎng)(浙江大學(xué))、張強(qiáng)(浙江大學(xué))、陳華鈞(浙江大學(xué))

發(fā)表會(huì)議:ICLR 2022

論文鏈接:https://arxiv.org/pdf/2201.11147.pdf

代碼鏈接:https://github.com/zjunlp/OntoProtein


一、引言

近年來,預(yù)訓(xùn)練模型以強(qiáng)大的算法效果,席卷了自然語言處理為代表的各大AI榜單與測(cè)試數(shù)據(jù)集。與自然語言類似,蛋白質(zhì)的一級(jí)結(jié)構(gòu)具有序列特性,這為將語言預(yù)訓(xùn)練模型引入蛋白質(zhì)表示提供了有利條件。然而,蛋白質(zhì)本質(zhì)上不同于自然語言文本,其包含了大量預(yù)訓(xùn)練目標(biāo)較難習(xí)得的生物學(xué)知識(shí)。事實(shí)上,人類科學(xué)家已經(jīng)積累了海量的關(guān)于蛋白質(zhì)結(jié)構(gòu)功能的生物學(xué)知識(shí)。那么如何利用這些知識(shí)促進(jìn)蛋白質(zhì)預(yù)訓(xùn)練呢?本文將介紹被ICLR2022錄用的新工作:OntoProtein,其提出一種新穎的融入知識(shí)圖譜的蛋白質(zhì)預(yù)訓(xùn)練方法。

二、蛋白質(zhì)預(yù)訓(xùn)練

?蛋白質(zhì)是控制生物和生命本身的基本大分子,對(duì)蛋白質(zhì)的研究有助于理解人類健康和發(fā)展疾病療法。蛋白質(zhì)包含一級(jí)結(jié)構(gòu),二級(jí)結(jié)構(gòu)和三級(jí)結(jié)構(gòu),其中一級(jí)結(jié)構(gòu)與語言具有相似的序列特性。受到自然語言處理預(yù)訓(xùn)練模型的啟發(fā),諸多蛋白質(zhì)預(yù)訓(xùn)練模型和工具被提出,包括MSA Transformer[1]、ProtTrans[2]、悟道 · 文溯[3]、百度的PaddleHelix等。大規(guī)模無監(jiān)督蛋白質(zhì)預(yù)訓(xùn)練甚至可以從訓(xùn)練語料中習(xí)得一定程度的蛋白質(zhì)結(jié)構(gòu)和功能。然而,蛋白質(zhì)本質(zhì)上不同于自然語言文本,其包含了諸多生物學(xué)特有的知識(shí),較難直接通過預(yù)訓(xùn)練目標(biāo)習(xí)得,且會(huì)受到數(shù)據(jù)分布影響低頻長(zhǎng)尾的蛋白質(zhì)表示。為了解決這些問題,我們利用人類科學(xué)家積累的關(guān)于蛋白質(zhì)結(jié)構(gòu)功能的海量生物知識(shí),提出融合知識(shí)圖譜的蛋白質(zhì)預(yù)訓(xùn)練方法。下面首先介紹知識(shí)圖譜構(gòu)建的方法。

三、基因知識(shí)圖譜

我們通過訪問公開的基因本體知識(shí)圖譜“Gene Ontology(簡(jiǎn)稱Go)”,并將其和來自Swiss-Prot數(shù)據(jù)庫的蛋白質(zhì)序列對(duì)齊,來構(gòu)建用于預(yù)訓(xùn)練的知識(shí)圖譜ProteinKG25,該知識(shí)圖譜包含4,990,097個(gè)三元組, 其中4,879,951個(gè)蛋白質(zhì)-Go的三元組,110,146 個(gè)Go-Go三元組,并已全部開放供社區(qū)使用。如下圖所示,基于“結(jié)構(gòu)決定功能”的思想,如果在蛋白質(zhì)預(yù)訓(xùn)練過程中顯式地告訴模型什么樣的結(jié)構(gòu)具備什么樣的功能,顯然能夠促進(jìn)如蛋白質(zhì)功能預(yù)測(cè)、蛋白質(zhì)交互預(yù)測(cè)等任務(wù)的效果。

四、融入基因知識(shí)圖譜的蛋白質(zhì)預(yù)訓(xùn)練:OntoProtein

基于構(gòu)建好的知識(shí)圖譜,我們?cè)O(shè)計(jì)了一個(gè)特殊的蛋白質(zhì)預(yù)訓(xùn)練模型OntoProtein。注意到在預(yù)訓(xùn)練輸入中包含兩種不同的序列:蛋白質(zhì)序列和描述蛋白質(zhì)功能、生物過程等的文本描述信息。因此,我們采取兩路不同的編碼器。對(duì)蛋白質(zhì)序列我們采用已有的蛋白質(zhì)預(yù)訓(xùn)練模型ProtBert進(jìn)行編碼,對(duì)文本序列我們采用BERT進(jìn)行編碼。為了更好地進(jìn)行預(yù)訓(xùn)練和融合三元組知識(shí)信息,我們采用了兩個(gè)優(yōu)化目標(biāo)。首先是傳統(tǒng)的掩碼語言模型目標(biāo),我們通過隨機(jī)Mask序列中的一個(gè)Token并預(yù)測(cè)該Token。其次是三元組知識(shí)增強(qiáng)目標(biāo),我們通過類似知識(shí)圖譜嵌入學(xué)習(xí)的方式來植入生物學(xué)三元組知識(shí),如下公式所示:

注意到這里的事實(shí)知識(shí)分為兩類不同的三元組,分別是Go-Go和蛋白質(zhì)-Go,因此我們提出一種知識(shí)增強(qiáng)的負(fù)采樣方法,以獲得更有代表性的負(fù)樣本提升預(yù)訓(xùn)練效果,采樣方式如下 :

五、實(shí)驗(yàn)分析

我們?cè)诘鞍踪|(zhì)測(cè)試基準(zhǔn)TAPE,以及蛋白質(zhì)蛋白質(zhì)交互、蛋白質(zhì)功能預(yù)測(cè)(我們參考CAFA競(jìng)賽構(gòu)建了一個(gè)新的蛋白質(zhì)功能預(yù)測(cè)數(shù)據(jù)集)上進(jìn)行了實(shí)驗(yàn)。如下表所示,可以發(fā)現(xiàn)融合知識(shí)圖譜的蛋白質(zhì)預(yù)訓(xùn)練方法在一定程度上取得了較好或可比的性能。特別地,我們的方法沒有使用同源序列比對(duì)(MSA),因此較難超越基于MSA Transformer的方法。詳細(xì)的實(shí)驗(yàn)結(jié)果請(qǐng)參見論文,我們會(huì)在近期將預(yù)訓(xùn)練模型整理并發(fā)布到Huggingface上供社區(qū)使用。

六、小結(jié)與展望

當(dāng)下蓬勃興起的 AI for Science 正在促使以數(shù)據(jù)驅(qū)動(dòng)的開普勒范式和以第一性原理驅(qū)動(dòng)的牛頓范式的深度融合。基于“數(shù)據(jù)與知識(shí)雙輪驅(qū)動(dòng)”的學(xué)術(shù)思想,我們?cè)诒疚闹刑岢隽巳诤现R(shí)圖譜的蛋白質(zhì)預(yù)訓(xùn)練方法OntoProtein,并在多個(gè)下游任務(wù)中驗(yàn)證了模型的效果。在未來,我們將維護(hù)好OntoProtein以供更多學(xué)者使用,并計(jì)劃探索融合同源序列比對(duì)的知識(shí)圖譜增強(qiáng)預(yù)訓(xùn)練方法以實(shí)現(xiàn)更優(yōu)性能。

[1] MSA Transformer ICML2021

[2] ProtTrans: Towards Cracking the Language of Life’s Code Through Self-Supervised Learning TPAMI2021

[3] Modeling Protein Using Large-scale Pretrain Language Model 2021


OpenKG

OpenKG(中文開放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開源開放。

點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 - ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美色图另类 | 日本va视频| 男女av网站 | 欧美久久影院 | 女同另类之国产女同 | 草莓巧克力香氛动漫的观看方法 | 欧美不卡在线视频 | 亚洲欧美国产精品久久久久久久 | 99精品免费在线观看 | av在线一区二区三区 | 国产传媒在线视频 | 欧美日韩系列 | 日韩精品在线不卡 | 美日韩精品 | www五月婷婷 | 国产精品视频一区二区三区, | 五十路母| av无限看 | 美女扒开腿让男生捅 | www.狠狠撸.com| 欧美日韩在线影院 | 亚洲人在线| 美女让男人捅 | 高潮在线视频 | 亚洲欧美精品aaaaaa片 | 色综合久久综合 | 毛片视频大全 | 蜜乳av一区二区三区 | 人妻少妇被猛烈进入中文字幕 | 99精彩视频| 女生和男生一起插插插 | 日韩色图在线观看 | 五十路av在线 | 中文字幕日韩三级 | 在线观看的av | 少妇被黑人到高潮喷出白浆 | 91亚色视频在线观看 | 日韩三级成人 | 国产免费高清 | 综合av| 神秘马戏团在线观看免费高清中文 | 久久国内精品视频 | 欧美色女人 | 久久女人天堂 | 亚洲情涩 | 亚洲国产亚洲 | 国产精品老熟女一区二区 | 久久精品国产一区二区三区 | 亚洲激情欧美 | 色吧在线视频 | 亚洲色图影院 | 成人禁污污啪啪入口 | 国产精品色婷婷 | 污污免费在线观看 | 国产a国产片国产 | 国产主播啪啪 | 91av在线网站| 奇米综合| 9久久9毛片又大又硬又粗 | 精品二区在线观看 | 精品一区二区在线免费观看 | 天天色天天草 | 午夜影院在线视频 | 中国在线观看免费高清视频播放 | 国产激情亚洲 | 前任攻略在线观看免费完整版 | 日韩影视一区二区三区 | 国产在线视频网址 | 性高潮网站 | 沟厕沟厕近拍高清视频 | 亚洲码欧美码一区二区三区 | 欧洲性猛交 | 深夜福利av | 亚洲一区在线观 | 欧产日产国产精品 | 美日韩一区二区 | 成人久久久精品乱码一区二区三区 | 国产又粗又猛视频免费 | 亚洲伦理视频 | 久久久久久久久久久综合 | 激情婷婷综合 | 免费av大全 | 粗大黑人巨茎大战欧美成人免费看 | 青青青在线视频免费观看 | 久久99精品久久久久婷婷 | 日韩在线精品视频一区二区涩爱 | 91精品人妻互换一区二区 | 亚洲欧美视频一区 | 久久久久久国产精品一区 | 国产亚洲精品久久久久久打不开 | 狠狠躁夜夜躁xxxxaaaa | 欧美高清hd19 | 国产无码精品一区二区 | 日欧一级片 | 色网站观看 | 91精品综合久久久久久五月天 | 成年人福利网站 | 精品黑人一区二区三区观看时间 | 一区二区三区蜜桃 |