论文解读:PeSTo:用于精确预测蛋白质结合界面的无参数几何深度学习
Title:PeSTo: parameter-free geometric deep learning for accurate prediction of protein binding interfaces
期刊:nature communication
分區:一區
影響因子:16.6
webserver:t Pesto
Github:GitHub - LBM-EPFL/PeSTo
摘要
? ? ? ? 蛋白質是生命的重要分子組成部分,由于其特定的分子相互作用,負責大多數生物功能。然而,預測它們的綁定接口仍然是一個挑戰。在這項研究中,我們提出了一個幾何變換器,它直接作用于僅標有元素名稱的原子坐標。由此產生的模型——蛋白質結構轉換器,PeSTo——在預測蛋白質-蛋白質界面方面超越了當前的技術水平,并且還可以高度自信地預測和區分涉及核酸、脂質、離子和小分子的界面。它的低計算成本使得能夠處理大量的結構數據,例如分子動力學系綜,允許發現在靜態實驗解決的結構中保持不明顯的界面。此外,由從頭結構預測提供的不斷增長的折疊體可以很容易地被分析,為揭示未探索的生物學提供了新的機會。
方法和數據集
數據集
數據集由來自蛋白質數據庫的所有生物組件組成。使用簇之間最大30%的序列同一性來聚集亞基。亞基簇被分成大約70%的訓練集(376216條鏈),15%的驗證集(101700條鏈),和15%的測試集(97424條鏈)。我們通過評估驗證集上的模型來選擇最佳超參數。測試集由包含來自MaSIF-site基準數據集的53個亞單位或來自蛋白質-蛋白質對接基準5.038 (PPDB5)數據集的230個結構中的任何一個的簇組成。此外,我們提取了在ScanNet15的基準數據集和PeSTo的測試數據集中常見的子集417結構。除非特別說明,所有被選擇用來評估模型預測質量的例子都屬于測試集。
特征和標簽
我們確定了PDB上30種最常見的原子元素。元素被用作onehot編碼。輸入矢量要素最初設置為零。距離矩陣和歸一化位移向量矩陣被用作幾何特征。氨基酸、核酸、離子、配體和脂質分別選自20、8、16、31和4種最常見的分子。用于幫助解決結構的非天然分子被忽略。界面被定義為5英寸以內的殘基-殘基接觸。所有蛋白質-蛋白質界面以及蛋白質-核酸、蛋白質-離子、蛋白質-配體和蛋白質-脂質界面都被識別。每個子單元的接口細節作為交互類型矩陣(79×79)存儲在數據集中。這使得能夠在訓練會話開始時選擇特定接口作為標簽,而不必重建整個數據集。界面靶標可以從79個可用分子的子集的任意組合中選擇。
方法
蛋白質結構的Transformer架構
輸入特征被嵌入到一個輸入狀態大小為S = 32的三層神經網絡中,其中隱層大小為32。每個幾何變換器由3層的5個神經網絡組成,以執行補充算法1中描述的多頭自關注(S = 32,Nkey = 3,Nhead = 2)。對于原子數量小于設置的最近鄰(nn)數量的結構,額外的不存在的相互作用被發送到具有設
置為零的標量和矢量狀態的匯聚節點。連續應用4組8個幾何變換器,每組的最近鄰數量遞增(nn = 8、16、32和64)。如補充算法2中所述,通過在形成每個殘基(S = 32,Nhead = 4)的原子上使用局部多頭掩碼,幾何殘基匯集模塊將結構的原子級編碼聚集成殘基級描述。最后一個模塊是一個多層感知器,具有3層S = 32的隱藏大小,解碼所有殘差的狀態并計算預測,返回從0到1的置信度得分。
Transformer的蛋白質結構(PesTo)
許多成功的方法結合了transformers和幾何深度學習,將結構表示為圖形或點云,并整合了神經網絡的不變性或等方差要求。主要突破來自蛋白質折疊領域,其中AlphaFold將注意力整合到Evoformer模塊和結構模塊中,RoseTTAFold20模型的第三個軌道使用阿瑟(3)轉換器在折疊過程中細化原子坐標。此外,遞歸幾何網絡?(RGN2)利用Frenet-Serret公式來表示蛋白質的主鏈,幾何矢量感知器?(GVP)使用線性運算來構成帶有gating的矢量特征。已經開發了多種其他基于機器學習的蛋白質-蛋白質相互作用位點預測方法。
我們在這里介紹PeSTo,一個無參數的幾何變換器,直接作用于蛋白質結構的原子。如圖1所示以及在方法中詳細描述的,該結構被表示為以原子位置為中心的點云,并且其幾何形狀通過保證平移不變性的成對距離和相對位移向量來描述。僅使用它們的元素名稱和坐標來描述原子,而沒有任何明確的數值參數化,例如質量、半徑、電荷或疏水性。每個原子都與一個標量態(q)和一個矢量態(p)相關聯,對結構的性質進行編碼。如圖1a所示,我們定義了作用于該點云的幾何變換操作,以使用其局部鄰域中的狀態和幾何來更新這些狀態。所有最近鄰(nn)的原子之間的相互作用使用幾何形狀(即,距離和位移向量)和所涉及的原子對的狀態來編碼。多頭注意力層最終解碼并調節信息的傳播(補充算法1)
幾何變換操作是平移不變的、旋轉等變的,并且獨立于原子的順序和相互作用的順序。為了保持向量狀態的旋轉等方差(參見補充方法),轉換器注意力線性地組合來自局部幾何形狀和局部狀態向量的縮放向量,以基于局部上下文動態地傳播向量狀態信息。注意操作允許動態數量的最近鄰居(nn)。然而,在實踐中,對于固定數量的最近鄰,該操作的計算效率要高得多。與對圖像應用卷積運算的方式相同,鏈接幾何變換可以在比單個運算的局部上下文更遠的范圍內傳播信息。因此,主要架構基于自下而上的方法,從8個最近鄰居(≈3.4半徑)的小環境開始,直到與64個最近鄰居(≈8.2半徑,圖1b)的遠程交互。
上下文的大小逐漸增加,允許模型逐漸包括更多的信息,同時保持深度模型的計算要求和存儲器更便宜。幾何變換器之間的剩余連接能夠訓練更深的神經網絡結構。兩個額外的模塊在殘基水平上聚集基于原子的幾何描述,而不依賴于殘基內的原子數(即幾何殘基匯集,補充算法2),并預測每個氨基酸是否在相互作用的界面上(圖1c)。
與之前使用球諧函數對幾何背景進行編碼的SE(3)transformer31等方法相比,我們的方法僅使用向量,通過transformer attention調制其信息。與等變卷積相比,我們的方法基于具有幾何圖形的圖,并且使用變換器來執行消息傳遞。
訓練
該模型被訓練來預測蛋白質與蛋白質、核酸、配體、離子或脂質的界面。最佳神經網絡架構在單個NVIDIA V100 (32 GB) GPU上訓練了8天。具有最多8192個原子(≈100 kDa)且不含氫的亞基用于限制訓練期間的記憶需求。少于48個氨基酸的亞基在訓練中被忽略。我們只在PDB數據庫提供的第一個生物裝配上進行訓練。過濾后的有效廣義蛋白質界面數據集由113805個用于訓練的亞基和29786個用于測試的亞基組成。
結果
Protein–protein interface prediction
我們使用來自PDB的300,000多條蛋白質鏈訓練了一個PeSTo模型(參見“方法”),以預測蛋白質-蛋白質界面中涉及哪些殘基,其輸出值范圍從0到1(圖2a)。零表示預測殘基不會參與相互作用,而值1預測殘基會在界面上。實際上,預測的實際值反映了殘差水平上的預測的置信度,使得遠離0.5的值意味著更高的置信度,參見補充圖1。
我們首先評估了PeSTo的性能,并與解決類似任務的最新方法(即ScanNet15)進行了比較。我們使用了兩種方法共有的417個結構的基準數據集(參見“方法”)。在該基準上,PeSTo優于沒有多重序列比對(MSA)的ScanNet,具有0.93對0.87的中值接收操作特征(ROC)曲線下面積(AUC)(圖2b和補充表1用于對不同數據集和指標的擴展比較,包括precisionrecall AUC和Matthews相關系數)。此外,我們對這兩種方法的速度進行了定量比較(補充圖2),發現PeSTo的平均運行時間(5.3±2.8秒)和不含MSA的ScanNet的平均運行時間(9.1±1.8秒)在CPU上不相上下。然而,具有MSA(160±83秒)的ScanNet的運行時間比PeSTo慢兩個數量級,根據所有指標(補充表1),相對于PeSTo沒有提供實質性的改進。
我們在用于基準測試MaSIF-site7,36(目前可用的最佳算法之一)的同一數據集上進一步比較了PeSTo,我們以30%的序列同一性將其從我們的訓練集中排除。PeSTo達到0.92的曲線下中值接收操作特征(ROC)面積(AUC ),而MaSIF-site為0.8,接著是SPPIDER35和PSIVER37(圖2b)。對于53個結構中的38個,PeSTo預測的界面具有比所有其他方法更高的ROC AUC。
最后,我們將PeSTo預測的蛋白質-蛋白質界面與alpha fold-多聚體預測的進行了比較。我們從PeSTo和AlphaFold(見“方法”)的驗證集中的結構中選擇了23個二聚體(即46個界面)。我們觀察到PeSTo的表現幾乎與α折疊多聚體一樣好(見補充表2 ),而沒有計算任何多序列比對的額外成本。因此,這些結果顯示了我們的方法如何能夠以與α折疊多聚體相當的準確度用于快速篩選潛在的界面。
為了進一步展示現實世界應用中的預測質量,我們測試了蛋白質-蛋白質對接基準5.038 (PPDB5)數據集的蛋白質的未結合構象。圖2a中的實施例顯示PeSTo從其未結合的構象(離結合狀態0.93 RMSD)恢復了鏈菌素B與卵類粘蛋白的相互作用界面,ROC AUC為0.96。總的來說,在由各種不同難度的靶組成的整個PPDB5數據集上,對于蛋白質-蛋白質對接的一般任務,PeSTo對未結合結構的預測達到了0.78的ROC AUC中值,對各個結合狀態的預測達到了0.85。
重要的是,運行該模型所需的時間很短(例如,對于100 kDa的蛋白質,在單個NVIDIA V100 GPU上從PDB加載到預測需要300 ms,補充圖3),這使我們能夠有效地評估從分子動力學(MD)模擬中提取的大型結構集合的快照。我們應用PeSTo對構象進行蛋白質-蛋白質界面預測,這些構象是通過對從PPDB5中提取的20個選擇的二元復合物的實驗性衍生的未結合和結合亞基進行1 s長原子MD模擬而采樣的(圖2c)。結合的和未結合的結構以及MD取樣的構象分別達到0.85、0.82和0.79的ROC AUC中值(參見補充表3的其他指標)。
我們觀察到該模型在實驗解決的結合和非結合構象上表現幾乎一樣好。盡管總體上ROC AUC隨著結合結構的RMSD增加而降低(補充圖4),但對于大多數結構和MD取樣構象,我們的方法仍然能夠恢復ROC AUC高于80%的界面。
在某些情況下,用PeSTo處理未結合蛋白質的MD軌跡比在起始靜態結構上運行PeSTo時更好地識別某些界面,這表明我們的方法在現實生活情況中的有效實際應用(圖2d)。努力為PeSTo的日常應用提供一個協議,我們認為用戶可能會尋找一些高等級的殘基預測來表征結合界面。因此,我們將“回收率”定義為預測10%高級殘基的能力,在我們的多維數據集的情況下,這相當于3 2個殘基。如果所有這些殘基預測正確,我們認為界面完全恢復。在由40個組成亞基和相關界面組成的20個復合物中,當直接應用于未結合亞基的實驗結構時,該模型對16個界面具有完美的恢復率。在剩余的24個案例中,我們表明,使用MD更廣泛地對蛋白質構象景觀進行采樣并聚類以進一步分組預測的界面,完全恢復另外16個亞單位(80%)的結合界面是可能的。
例如,PeSTo預測實驗解決的未結合的豬胰腺彈性蛋白酶(PDB ID 9EST)的結構沒有界面(圖2e)。與彈力素結合的復合物(PDB ID 1FLE)相比,未結合的實驗構象的主鏈RMSD為1.2。
然而,從單獨的未結合的豬胰腺彈性蛋白酶開始的MD模擬顯示構象轉換導致與彈性蛋白的相互作用界面的恢復,具有0.92的簇中心ROC AUC和預測結合界面的完美恢復率(即,在這種情況下3個殘基)。檢查MD模擬揭示了彈性蛋白酶中的環的運動是允許彈性蛋白進入口袋并容納分子間β-折疊所必需的,分子間β-折疊使復合物穩定,如實驗所解決的。
通用蛋白質綁定界面預測
根據蛋白質-蛋白質界面預測的結果,我們擴展了該模型以發現和識別更多類型的界面,產生了一個廣義的PeSTo模型,該模型預測蛋白質與其他蛋白質以及核酸、離子、配體和脂質的相互作用界面。我們訓練了一個具有PDB結構的廣義PeSTo模型,該模型具有所有類型的預期相互作用,如方法中所述。蛋白質-核酸界面的界面預測幾乎與蛋白質-蛋白質界面一樣好,測試組的ROC AUC達到0.89(圖3a)。通用模型還可以檢測離子、配體和脂質界面,ROC AUCs在每個測試集上分別為0.87、0.86和0.77(其他指標見補充表4)。該模型確實經歷了離子和配體之間的一些混淆,如混淆矩陣所揭示的(補充圖5)。蛋白質-脂質預測的較差性能取決于目前在PDB可獲得的非常有限的蛋白質-脂質復合物數量(僅占我們匯編的可利用數據的0.7%)。我們注意到,在相同的數據集上重新訓練模型,但是在訓練、驗證和測試集之間具有最大5%的序列同一性,而不是30%,導致在所有界面預測類型上平均在1% ROC AUC內的等效性能,證實了PeSTo在同源性降低上的穩定性。
接下來,我們舉例說明了廣義PeSTo模型,展示了測試集中的五個例子,這些例子證明了它在各種界面之間進行辨別的能力,即使當它們在PDB中重疊或代表性不足時。第一個例子(圖3b)對應于大腸菌素E7核酸內切酶結構域,其通過包含鋅離子的界面結合DNA(PDB ID 1 ZnS)。通過廣義PeSTo運行脫輔基蛋白返回兩個界面的正確預測,甚至在重疊部分。第二種情況(圖3c)對應于由RUNX1形成的復合物,其一端結合有dsDNA,另一端結合有蛋白質CBFβ(PDB ID 1H9D)。
通過一般化模型運行分離的RUNX1通過DNA和蛋白質通道返回清晰、準確的界面。在第三個實施例中(圖3d ),我們用結合RNA的抗體(PDB ID 6U8K)的結構來挑戰一般化的模型,這與大多數可獲得的結合其它蛋白靶標的抗體相反。廣義模型正確地預測了蛋白質沒有界面,而RNA有正確的界面。
盡管在與脂質的界面上,廣義PeSTo表現不太好,但在實踐中,我們觀察到該模型能夠準確地檢測可溶性蛋白質的脂質結合袋(由圖3e中的類固醇生成因子舉例說明)甚至跨膜蛋白的膜結合區(補充圖6)。
盡管沒有經過專門的訓練,但在這兩種情況下,PeSTo都能夠檢測到具有更強得分的脂質的特定口袋。我們注意到,許多蛋白質與脂質的界面在PDB結構中僅部分明顯(例如,單個脂質結合到膜掃描區域),導致低訓練數據質量,從而導致ROC AUC的人為下降。
有趣的是,我們還發現PeSTo將其預測能力擴展到其自身的訓練之上,例如DNA結合細菌整合宿主因子(mIHF)的情況,其DNA結合形式的X射線結構是可用的(圖3f)。這種結構在生物裝配中呈現一個DNA結合界面39,該界面包括在訓練集中,但是溶液狀態NMR滴定顯示了更廣泛的相互作用表面,主要分布在彎曲DNA所需的兩個表面區域,如AFM40所示。PeSTo對這種蛋白質的預測超越了它的訓練,指出了兩個與溶液中核磁共振數據非常匹配的表面補丁。
人類蛋白質組結合界面的高通量預測
我們試圖探索整個人類蛋白質組,并分析我們下文所稱的界面組,即所有能夠結合其他蛋白質、核酸、脂質、配體和離子的潛在蛋白質界面。為此,我們從歐洲生物信息學研究所(AF-EBI)數據庫19,41中獲得了人類蛋白質的所有結構和模型。該數據庫目前包括高度精確的結構,許多實際上包含具有實驗解決的結構的結構域,在PDB中沒有結構或與PDB結構幾乎沒有同源性但通過AlphaFold預測局部距離差異測試(pLDDT)和預測比對誤差(PAE)判斷高度精確的模型,以及幾個非常低的pLDDT和PAE分數的模型。我們根據pLDDT和PAE得分從總共20504個條目中選擇了7464個高質量模型進行進一步分析,如方法中所述。
我們可以立即注意到,我們的模型產生了穩健的結果,進一步驗證了界面預測的質量。特別地,特定分子界面的氨基酸分布概括了已知的生物化學(例如,Arg和Lys殘基主要參與核酸相互作用,疏水氨基酸參與脂質結合位點等)。參見補充圖7、8)。此外,將預測的接口映射到UniProt注釋的特征顯示了與綁定接口的預期功能角色的強烈一致(圖4a和補充數據1)。對預測質量的額外支持來自預測界面及其亞細胞定位、GO功能和過程的繪圖(補充圖9-19)。
我們進一步詢問了人類界面組的預測界面的幾何特征,并觀察到當計算它們的溶劑可及表面積(SASA)時,與蛋白質和核酸的相互作用分別涉及32±22和29±23 nm2的最大面積,而配體和離子涉及16±7和7±4 nm2的小區域。蛋白質-脂質相互作用的SASA分布具有雙峰分布,反映了特定的脂質結合位點(17±9 nm2)和跨膜蛋白域周圍的大脂質冠狀物(75±19 nm2,補充圖20)。
作為進一步的驗證,將分析擴展到另一個真核生物蛋白質組,我們將PeSTo預測與AlphaFold和RoseTTAFold42衍生的酵母蛋白質組的蛋白質二元復合物的可用預測進行了比較。同樣在這種情況下,我們觀察到界面中涉及的殘基組之間具有非常好的相關性,ROC AUC穩步增加,因為分析限于更高質量模型的區域(圖4d)。此外,我們鑒定了額外的結合界面,其可以進一步擴展二元復合物的相互作用網絡,并可以用作補充手段來更好地描述和模擬大蛋白質復合物的結構(補充圖21)。
值得注意的是,突變位點的47%的UniProt注釋落在預測的界面中,28%對應于致病性天然變異位點,14%對應于良性天然變異位點,隨機殘基的基線為19%在界面內(圖4b)。由于我們在PeSTo網站上完全提供了所有這些預測,并且在EBI數據庫中可以免費獲得潛在的結構模型,因此細胞生物學家可以直接咨詢這些致病突變的確切位置以及它們可能損害的相互作用,以便開發合理的工作假說,從而幫助進一步的治療開發。
繼續對預測界面進行大規模分析,我們觀察到某些種類界面的強烈分離和其他界面的相當大的重疊(圖4c和補充圖22)。前一種情況的一個例子是蛋白質界面傾向于與高度分離的蛋白質或離子/配體相互作用。進一步研究這些模式可能有助于發現變構調節機制。在以相當廣泛的重疊為特征的成對界面中,那些介導與其他蛋白質和脂質相互作用的界面可能指向膜上可逆的蛋白質二聚化/寡聚化。在實際應用PeSTo解決生物學問題時,應仔細研究具體案例,重疊或缺乏重疊可能會帶來如下舉例說明的信息。
重要的是,人類蛋白質組以及其他蛋白質組的高分辨率結構和高質量AlphaFold模型的可用性,為生物學家提供了一個機會,可以立即輕松地詢問他們感興趣的蛋白質的特定相互作用預測,快速開發有效的假設,并設計新的實驗,從而發現新的生物學。
預測形成蛋白質結合界面的另一組殘基定位于跨膜區外的4個位置(圖4e)。在細胞膜的胞質側,三個具有強預測蛋白相互作用潛力的STRA6片段定位于由兩個折疊元件組成的位點,這兩個折疊元件與Berry等人43實際上提出的序列片段重疊,作為調節細胞視黃醇結合蛋白1 (CRBP1)的結合位點,與對應于已知激酶結合位點(JAK2)的預測相互作用位點相鄰。在膜的細胞外側,還預測了載體視黃醇結合蛋白(RBP)的預期結合位點。因此,具有高蛋白質相互作用分數的殘基(例如,報道的RBP的K324-K348,報道的CRBP1位點周圍的L251R257和R638-L46,以及激酶位點的D612-K626,圖4e)是旨在探測各種相互作用的誘變研究的潛在候選物。
第二個值得描述的例子是PRAMEfm1,在UniProt中被注釋為可能通過轉錄的負調節與細胞分化、增殖和凋亡過程相關。這種蛋白質與一些核糖核酸酶抑制因子具有非常弱的序列同源性,并且高置信度α折疊模型發現除了N-末端部分的某些插入和變形之外,與其中一些具有實質上的結構相似性。
與PeSTo對核糖核酸酶抑制因子的預測相反,其完全局限于已知的核糖核酸酶結合界面(補充圖24),在PRAMEfm1的AlphaFold-EBI模型上,PeSTo檢測到兩個易于蛋白質相互作用的清晰區域。C-末端一半的區域可以容納蛋白質,類似于核糖核酸酶抑制劑如何與核糖核酸酶相互作用,這立即表明一組殘基的突變將破壞與該側蛋白質靶標的相互作用(例如,由H243、T278、G303、Q360、N387、L422、T455和C-末端P464-L472周圍的β-轉角的短片段組成的rim)。
PeSTo預測的第二個蛋白質界面位于N-末端的一半,它包括一個低置信度的短片段,可能是無序的,并與PeSTo預測的結合核酸的大表面區域重疊。這是另一個明確的區域,其作用可以通過靶向殘基L122Q145以及可能的連接β鏈進行實驗研究。雖然很難從這種計算分析中得出PRAMEfm1的具體作用,但在UniProt注釋的背景下,PeSTo預測將提示其作為連接其他蛋白質(通過C-末端部分)和核酸(通過N-末端部分)的樞紐的作用,鑒于其細胞質定位,可能是RNA,并可能受也結合到N-末端部分的其他蛋白質的調節。
我們最后比較了PeSTo的蛋白質-蛋白質界面預測和使用AlphaFoldmultimer16模擬蛋白質-蛋白質相互作用,這是一種信息更豐富的方法,也包括進化偶聯。在STRA6的例子中,α折疊多聚體預測CRBP1在我們從文獻中討論的相同殘基周圍結合到STRA6上,即基本上與PeSTo相同的預測。
然而,α折疊多聚體根本不能預測JAK2的任何相互作用,并預測RBP的不正確結合位點。在PRAMEfm1的情況下,我們檢測到一個似是而非的核酸結合界面,這是AlphaFold沒有訓練預測的,我們檢測到一個高度可信的蛋白質相互作用區域,但沒有任何關于配偶體身份的信息,排除了用AlphaFold測試任何明顯的、特異性的復合物。這些比較突出了PeSTo和α折疊多聚體在預測蛋白質-蛋白質相互作用方面的協同交叉。也就是說,PeSTo可以產生與報道的生物化學一致的預測,而當相互作用網絡已知時,α折疊多聚體可以詢問這些結合界面。
與現有方法比較
我們的方法與ScanNet15、MaSIF-site7、36、SPPIDER35和PSIVER37進行了比較。ScanNet是最新的基于幾何的深度學習方法,用于蛋白質-蛋白質界面預測。MaSIF-site是蛋白質-蛋白質界面預測的最佳可用的基于表面的深度學習方法。SPPIDER是一種歷史悠久、久經考驗的方法,用作蛋白質-蛋白質界面預測的參考。PSIVER只使用序列信息,并進行基準測試,以顯示基于結構的方法和基于序列的方法之間的性能差異。PeSTo的基準測試是使用專門取自測試數據集的結構進行的。對于蛋白質、離子和配體界面的預測,我們使用每種界面類型512種結構。對于核酸和脂質界面預測,可用結構的低數量將測試數據集分別限制為391和161個結構。
討論
我們在這里表明,蛋白質原子坐標的幾何變換足以以高分辨率檢測和分類蛋白質結合界面,超過了其他方法的預測能力,而不需要明確描述系統的物理和化學性質,因此沒有預先計算分子表面和/或附加性質的開銷。所有這些使用適度的計算資源并以非常高的速度實現了對大型結構系綜的分析,例如由分子動力學模擬產生的那些,這揭示了研究蛋白質相互作用網絡的動態特征的機會。
同樣,大型結構數據集,如由最新一代三級蛋白質結構預測工具創建的數據集,可以很容易地進行分析,就像這里對人類基因組所做的那樣,并有可能快速獲得新的生物學發現。
為了使基于PeSTo的蛋白質預測對社區可用,我們在https://pesto.epfl.ch/,的一個web服務器上實現了它,無需注冊即可免費訪問。服務器采用PDB格式的任何蛋白質結構和模型(上傳或從PDB或阿爾法折疊-EBI數據庫中獲取),并返回它們和基于每個殘基的預測置信度的附加信息報告。輸出文件可以下載或可視化的權利在網站上。此外,我們還提供了源代碼(https://github.com/LBM-EPFL/PeSTo ),以便于應用到大型結構集合中,就像這里為人機界面me所做的那樣。
如果有足夠的訓練數據可用,該方法可以很容易地升級(例如改進進一步的蛋白質-脂質預測),并可重復用于其他特定應用。事實上,無參數的PeSTo架構是足夠通用的,可以很容易地適應其他基于結構的問題,如對接或建模與材料的相互作用。該描述完全不知道結構中原子的確切物理化學性質,因此容易擴展到其他材料和領域,并且與需要表面和體積的中間計算的方法相比,可能對與起始結構相關的問題(例如缺少原子)不太敏感。
鑒于結構信息的不斷積累和預測折疊體數據的快速膨脹,PeSTo是一種準確、靈活、快速和用戶友好的解決方案,可用于剖析蛋白質的巨大和動態相互作用景觀,并可用于發現新的和更豐富的生物學見解。
總結
以上是生活随笔為你收集整理的论文解读:PeSTo:用于精确预测蛋白质结合界面的无参数几何深度学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【2019年计划】
- 下一篇: 梳理百年深度学习发展史-七月在线机器学习