预测新冠病毒“蛋白质折叠”重磅武器:AlphaFold!碾压生物与病毒专家
作者/新智元
來源:新智元(ID:AI_era)
谷歌母公司 Alphabet 旗下的明星 AI 公司 DeepMind 以打敗人類享譽世界,憑借 AlphaGo 擊敗人類圍棋世界冠軍,憑借 AlphaStar 擊敗 99.8% 的人類玩家。而這一次,DeepMind 要幫助人類擊敗新冠病毒。
要想檢測病毒并開發疫苗,科學家必須首先了解病毒,特別是病毒蛋白質的結構。這是一個漫長的過程,需要幾個月的時間,并且有時候是徒勞的。近年來,研究人員已經轉向計算機預測。
世界各地的實驗室正在研究冠狀病毒,DeepMind 的深度學習系統叫做“AlphaFold”。
日前,DeepMind 發布了一篇文章,表示希望通過“發布與 SARS-CoV-2(引起 COVID-19 的病毒)相關的幾種未被充分研究的蛋白質的結構預測”來幫助進行這項研究。接下來先來和大家分享 DeepMind 的這篇文章。
DeepMind:COVID-19 相關蛋白結構的計算預測
“人類對冠狀病毒的研究已經有幾十年的歷史,所以利用以往的數據庫對 COVID-19 疫情能做出較快的反應,短短幾天就研究出了新病毒的檢測方法。
而此次 COVID-19 的罪魁禍首 SARS-CoV-2 病毒相關的蛋白質結構一直未能確定,傳統的方法可能需要幾個月甚至更長時間,這對我們理解病毒的功能和傳播機制造成了很大的障礙。
鑒于傳統方法耗時過長,我們將新版的 AlphaFold 用于 SARS-CoV-2 相關的蛋白質結構預測,新系統可以在沒有類似蛋白質結構的前提下,得出精確預測。
我們分享了幾種模型預測的病毒蛋白質結構,希望能為廣大研究人員提供一些幫助。
我們相信新系統比我們早期的 CASP13 系統更準確。此前,我們成功預測了一個蛋白質數據庫中經過實驗驗證的 SARS-CoV-2 棘突蛋白結構,這給了我們足夠的信心,新系統預測其他蛋白質結構也是有可能的。
最近,我們與英國弗朗西斯·克里克研究院的幾位同事分享了我們的研究結果,其中包括結構生物學家和病毒學家,他們鼓勵我們現在就公布我們的結構。我們的模型會指出結構的哪些部分更有可能是正確的。雖然這些未被研究的蛋白質不是當前治療的重點,但它們可能會增加研究人員對 SARS-CoV-2 的理解。
正常情況下,我們會等到這項工作經過同行評審再發表。但是鑒于時間的緊迫性和疫情的嚴重程度,我們決定發布 SARS-CoV-2 相關的六種蛋白質的預測結構,這些數據文件采用開源的許可證,現在任何人都可以使用了。
有興趣的研究人員可以通過我們提供的鏈接下載這些數據文件,其中還附帶了很多技術細節。最后還要強調一下,這些都是預測的結構,還沒有經過實驗驗證。”
新智元根據 DeepMind 文章中提供的下載文件制作出了六種蛋白質的預測結構圖,僅供參考(不保證 100% 精確):
原文件下載地址:
https://storage.googleapis.com/deepmind-com-v3-datasets/alphafold-covid19/structures_4_3_2020.zip
DeepMind 預測新冠病毒“蛋白質折疊”的重磅武器:AlphaFold!精度碾壓友商和人類
預測出新冠病毒的蛋白質結構至關重要,可以使科學家能夠通過模擬和模型獲得更多關于蛋白質形狀及其運作方式的知識,也給新藥物的開發開辟了新的潛力,降低了實驗成本,并極大的加快科學家找出更有效治療方法的流程,最終得以拯救全世界患者。
而此次 DeepMind 用來預測新冠病毒蛋白質結構的重磅武器,就是其在 2018 年底推出的、被各路媒體熱捧的 AlphaFold。
DeepMind 匯集了來自結構生物學、物理學和機器學習領域的專家,以應用尖端技術,僅根據其基因序列預測蛋白質的 3D 結構。
據悉,在有蛋白質結構預測的“奧運會”之稱 CASP 全球競賽上,AlphaFold 不僅在友商中遙遙領先,甚至其預測的精度已經碾壓了人類專家。
純粹從基因序列中確定蛋白質的三維形狀是一項復雜的任務,挑戰在于 DNA 僅包含有關蛋白質結構塊序列的信息,這些結構塊稱為氨基酸殘基,排布形成長鏈。預測這些長鏈按照何種方式折疊成蛋白質的復雜 3D 結構,就是所謂的“蛋白質折疊問題”。
蛋白質越大,模型就越復雜和困難,因為氨基酸之間的相互作用更加復雜。有研究人員估計,以現有的條件的水平,要想準確確定全部蛋白質的 3D 結構,需要的時間可能比宇宙的壽命還要長。
基于深度學習的蛋白質結構預測新方法
AlphaFold 從頭開始對蛋白質的形態結構進行建模,而沒有使用已經解析的蛋白質作為模板。結果在預測蛋白質結構的物理性質時達到高準確度,在此基礎上使用兩種不同的方法,來構建完整蛋白質結構的預測。
這兩種方法都依賴于深度神經網絡,可以從蛋白質的基因序列中預測其特性。該網絡預測指標主要有兩個:(1)氨基酸對之間的距離(2)連接這些氨基酸的化學鍵之間的角度。該技術用于估計氨基酸對之間是否彼此接近。
上圖具有三種蛋白質的距離矩陣。每個像素的亮度代表著蛋白質序列中氨基酸之間的距離。像素越亮,配對越近。在頂部行中顯示的是真實的,實驗確定的距離,而在底部行中顯示的是 Alphafold 的預期距離分布的平均值。重要的是,這些匹配在全球范圍和地方范圍都很好。底部面板使用 3D 模型來表示相同的比較,其特征是阿爾法福爾德的預測(藍色)與地面真實數據(綠色)相對于相同的三種蛋白質。
DeepMind 團隊訓練神經網絡,預測蛋白質中每對殘基之間的距離的單獨分布。然后將這些概率進行組合,形成相應蛋白質結構預測的準確度分數。此外還訓練了一個單獨的神經網絡,將所有的預測距離匯總,估計出預測結構與實際結構間的接近程度。
使用這些評分函數,可以找到與預測相匹配的蛋白質結構。第一種方法建立在結構生物學中常用的技術基礎上,用新的蛋白質結構片段反復替換原蛋白質結構片段。為此,研究團隊訓練了一個生成神經網絡來發明新的蛋白質片段,不斷提高預測的蛋白質結構的得分。
第二種方法通過梯度下降來優化得分。梯度下降是機器學習中常用的技術,可用于實現微小的,漸進式的改進,最終產生高精確的結構。研究人員將該技術用于整個蛋白質長鏈上,而不是在組裝之前必須單獨折疊的碎片上,降低了預測過程的復雜度。
等不及同行評審,第一時間發布預測結果,準確度未知
和之前 GPT-2 捂著不發布形成鮮明對比,由于當前疫情的急迫性,DeepMind 等不及通過同行評審,第一時間就發布了蛋白質結構的預測結果,并以 pdb 文件存放,研究者下載后可自行利用 pdb 文件中的數據繪制圖像。
目前看來,AlphaFold 雖然在比賽中獲得了優異的成績,但其在預測的穩定性方面的缺陷也是非常顯著的。在比賽中表現出兩個極端:43 項預測中,25 個預測的非常準確,而其他則錯的離譜。因此 AlphaFold 對新冠病毒的預測結果的準確度仍是未知數,期待同行評審結果,以及實際臨床治療的驗證。
不管怎樣,DeepMind 此舉為 AI 應用到實際場景,尤其是應用于抗疫斗爭中,開辟了一條新的思路。同時也期待更多的國內的 AI 企業能夠在此次抗疫斗爭中,找到自己的突破口!
總結
以上是生活随笔為你收集整理的预测新冠病毒“蛋白质折叠”重磅武器:AlphaFold!碾压生物与病毒专家的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 求一个初中生qq网名。
- 下一篇: 英国将投资12亿英磅建“气象超脑”,只为