深度学习寻找肺炎病毒宿主:AI“进化”的“一小步”
文 |劉志剛
1月24日,北京大學工學院教授朱懷球團隊在bioRxiv預印版平臺發(fā)表《深度學習算法預測新型冠狀病毒的宿主和感染性》一文中指出,蝙蝠和水貂可能是新型冠狀病毒的兩個潛在宿主,水貂可能是中間宿主。
▲論文截圖
據朱懷球團隊的研究表明,新型冠狀病毒與云南菊頭蝠中存在的RaTG13冠狀病毒一致性高達96%;另外,基于深度學習開發(fā)的VHP(病毒宿主預測)方法預測的結構化顯示,水貂的病毒的傳染性模式更接近新型冠狀病毒。
據悉,在此次研究中,該團隊使用了基于深度學習模型的AI技術尋找病毒宿主。這可能是國內首次在2019新型冠狀病毒的研究中使用深度學習AI取得成果。
AI加入抗擊疫情一線,深度學習尋找病毒宿主
一種前所未知的新型病毒出現后,確定病毒宿主是十分重要的。由于病毒復雜的多樣性,目前人類已知的病毒和對病毒本身的了解還遠遠不夠,大多數以人類為宿主的病毒,通常對人類造成生命安全威脅之后,才會進一步引起人們的重視。
對一些本不以人類為宿主的病毒來說,其本身也可能突發(fā)變異,或者通過中間宿主也可感染至人類。因此,快速尋找鑒別未知病毒的宿主,能夠幫助人類了解病毒與宿主間的相互作用,以應對突發(fā)變異等潛在威脅,從而有針對性的對病毒進行預防和控制,具有重要意義。
▲圖片來源:新京報網
為了檢測新病毒的潛在宿主和致病性,傳統(tǒng)的方法是基于通過建立病毒基因庫,將新型病毒的DNA序列與已知病毒的基因序列做對比檢索,通過比較病毒DNA局部的相似性,從而做出對新病毒宿主的模糊預測。
北京大學朱懷球團隊在對2019新型冠狀病毒的宿主研究和預測中,通過構建VHP算法模型,將已經提取的新型冠狀病毒的基因組,與已有病毒基因數據庫做數據檢索和對比。在算力的支持下,通過深度學習模型對病毒基因數據的廣域檢索,實現新型冠狀病毒自然宿主的尋找和預測。
VHP模型計算出新型冠狀病毒的感染性
朱懷球團隊在bioRxiv預印版平臺發(fā)表的論文中稱:“為了構建VHP模型,我們使用了一個雙路卷積神經網絡用于預測病毒序列宿主;我們把病毒的宿主分為五種類型,包括植物、細菌、無脊椎動物、脊椎動物和人類;輸入病毒核苷酸序列,基于深度學習的VHP模型,將為每種宿主類型分別輸出5類結果,分別反映出新型冠狀病毒在每種類型中感染性。”
通過對VHP模型計算的結果分析,篩選的病毒宿主包括犬、豬、貂、龜和貓。研究人員經過分析比較后認為水貂的病毒的傳染性模式更接近新型冠狀病毒。
▲圖片來源:新京報網
實際上,相比傳統(tǒng)的AI機器學習方法,AI深度學習的方法訓練出的模型可以適用于多種不同類型的數據,還可以結合多種來源的數據,共同完成一個任務。
在基因數據中,并不是所有的數據都有準確的高質量數據標簽,而通過深度生成模型,即使沒有高質量標簽的數據也能得到充分使用,從而使得模型能夠持續(xù)的提升性能。
因而,從AI深度學習的種類上來看,除了常見的有監(jiān)督學習和無監(jiān)督學習,半監(jiān)督學習與強化學習更適合,也更需要醫(yī)學界、生物界更多的關注。
深度學習AI+醫(yī)療:應用前景廣闊但也有局限性
在AI的應用場景中,醫(yī)療行業(yè)是其應用前景最為廣闊的行業(yè)之一。生物信息領域中,制藥企業(yè)的藥物研發(fā)、醫(yī)療設備收集的健康數據、病患者的診斷以及治療方案的確定都有深度學習型AI的應用需求。
深度學習的本質,是一個復雜的AI學習算法。目前,深度學習應用最為廣泛的是在計算機視覺以及語言識別領域。其中計算機視覺技術在醫(yī)療領域也有一定的應用,如醫(yī)學影像的識別。
不過,深度學習在醫(yī)療領域的應用也面臨現實應用的局限性,其中之一就是分析過程缺乏解釋性。實際上,深度學習本質上也是統(tǒng)計學習的一種,通過對已知數據的匯總和檢索,以算法的優(yōu)化達到某種結果的預測。
▲圖片來源:新京報網
也就是說,深度學習算法得出的結果是概率學上對現有數據條件下的結果預測,并不能給出“解題過程”只能給出結果。這也使得不可避免的出現一定的現實結果偏差。
以此次新型冠狀病毒宿主研究為例,在VHP模型計算給出結果后,篩選的病毒宿主包括犬、豬、貂、龜和貓,仍需要研究人員對比分析后得出進一步的結論:水貂的病毒的傳染性模式更接近新型冠狀病毒。
技術之力亦需“跨越偏見”
此外,如果輸入數據樣本本身帶有“大數據偏見”,那么模型計算則會放大這種“偏見”,從而影響結果在現實場景中的準確性。
對于基于深度學習的醫(yī)療AI而言,這樣的情況也很難以能夠說百分之百避免,特別是面對復雜龐大的醫(yī)療數據而言,這樣的“偏見”帶來的結果是人們難以接受的。
因而對于深度學習AI在醫(yī)療領域的落地,除了技術實現本身要解決的問題之外,由技術引發(fā)蝴蝶效應也更應該獲得關注。
從好的一面來看,深度學習型AI在醫(yī)療領域的落地,不啻為補充優(yōu)質醫(yī)療資源的“良方”,同時深度學習AI以及大數據等新技術的應用,也為人們在未來面對“新型冠狀病毒”之類的突發(fā)性傳染病給予技術的力量。
05我們將生活在一個分析所有數據的時代
《大數據時代》作者維克托·邁爾-舍恩伯格前瞻性地預見到:“在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴于隨機采樣。”
▲圖片來源:新京報網
總結
以上是生活随笔為你收集整理的深度学习寻找肺炎病毒宿主:AI“进化”的“一小步”的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 40家社会组织联名致信 呼吁暂停人脸识别
- 下一篇: 新冠病毒疫苗紧急研发中,但历史上它常“赶