从病毒到免疫, “科学地”揭开新冠病毒的神秘面纱
鼠年春節期間,新型冠狀病毒(2019-nCoV,后正式命名為 SARS-CoV-2)肆虐,疫情牽動人心。面對不斷變化的疫情發展,微軟亞洲研究院機器學習組的研究員們基于自己在計算生物學和機器學習等領域的專業知識和研究經驗,在第一時間梳理分析了疫情爆發以來科研界針對新冠病毒的研究成果,并嘗試利用 AI 技術對新冠病毒進行了初步性的研究探索。
在本文中,研究員們對冠狀病毒的基因組與蛋白質結構、免疫應答與分子機理、疫苗與藥物研發等進行了介紹,希望能逐步揭開新冠病毒的“神秘面紗”,幫助讀者全面了解新冠病毒的致病機理、研發特效藥物和疫苗背后的科學問題。同時,研究員們也希望 AI 等計算方法可以與新冠病毒的研究有更深入的結合,為后續的病毒研究帶來更多幫助。
一、病毒篇
初識新冠病毒
不同于絕大多數由細胞組成的生物,病毒是一類無細胞結構的簡單生物。病毒由負責繁殖后代的遺傳物質(核酸)和保護遺傳物質的蛋白質外殼組成。不同的病毒通常具有不同形狀的蛋白質外殼,而冠狀病毒正是因為其外殼像一頂皇冠而得名。2003 年爆發的 SARS(嚴重急性呼吸道綜合征)和 2012 年爆發的 MERS(中東呼吸綜合征)都是由冠狀病毒引起的。在冠狀病毒的結構中,像皇冠一樣的刺突稱為刺突糖蛋白(Spike Glycoprotein,以下簡稱 S 蛋白),是結合人體細胞上相應受體的罪魁禍首;E 蛋白是包膜蛋白,將病毒內部的遺傳物質包裹起來;還有膜蛋白(M 蛋白)和核衣殼蛋白(N 蛋白)等結構。
圖1:冠狀病毒結構示意圖
基于序列比對的基因組分析
與我們人類的遺傳物質雙鏈 DNA 不同,冠狀病毒是一類單鏈 RNA 病毒。比起穩定的雙鏈 DNA 結構,單鏈的遺傳物質使得冠狀病毒具有更強的變異性。冠狀病毒家族已知的至少有幾十個成員,其中的大多數與我們人類相安無事,而經過多次變異產生的 SARS-CoV,MERS-CoV 等 7 種冠狀病毒可以感染人類。近期的研究表明,與 SARS-CoV 和 MERS-CoV 病毒類似,SARS-CoV-2(2019-nCoV)的基因組也分為非結構基因和結構基因兩個部分。其中約占 SARS-CoV-2 全基因組總長度三分之二的非結構基因含有兩段編碼蛋白質的序列,稱為 ORF1a 和 ORF1b。而緊隨其后的結構基因區域則編碼 S 蛋白、E 蛋白等結構蛋白。
圖2:幾種冠狀病毒基因組的序列比較
序列比對技術是生物信息學對人類社會最為重要的貢獻之一。無論是親緣鑒定、新物種識別還是潛在遺傳病分析,都離不開序列比對。序列比對分為局部序列比對和全局序列比對,具有不同的匹配算法。從最簡單的動態規劃算法基礎上,局部序列比對開發出“水人算法”(Smith–Waterman algorithm),全局序列比對則采用“針人算法”(Needleman–Wunsch algorithm)。從全基因組結構上分析,SARS-CoV-2 (2019-nCoV) 的基因組結構與其它冠狀病毒比較相似。它與發現自蝙蝠的兩種冠狀病毒(Bat-SL-CoVZC45 和 Bat-SL-CoVZXC21)的相似度分別為 87.5% 和 87.6%;與 SARS 病毒的序列相似度約為 79%;而與 MERS 病毒的序列相似度僅有 50%。值得注意的是,SARS-CoV-2 與 SARS-CoV 在基因組的不同區域的序列相似性不盡相同:在編碼病毒與宿主受體結合的 S 蛋白區域,SARS-CoV-2 與 SARS-CoV 的序列相似性顯著降低。
圖3:SARS-CoV-2 與 SARS-CoV、MERS-CoV 基因組序列相似性的比較
冠狀病毒的進化
基于層次聚類的進化關系分析
基于序列比對的結果,我們還可以進行層次化聚類,從而得到不同病毒之間的親疏關系和進化路徑。依照下圖所示的冠狀病毒序列進化樹,我們可以看出 SARS-CoV-2 與另外兩種冠狀病毒 Bat-SL-CoVZC45 以及 Bat-SL-CoVZXC21 在全基因組的進化關系分析中最為親近。進一步分析,在 7 種已知可致病的冠狀病毒中,SARS-CoV 與 SARS-CoV-2 的進化關系最近,而與造成較高致死率的中東呼吸綜合征病毒 MERS-CoV 的進化關系較遠[4]。這一研究表明 SARS-CoV-2 與 SARS-CoV 具有較為保守的進化關系,從而暗示新型冠狀病毒在受體結合以及致病機理等方面可能與 SARS-CoV 有諸多共通之處。
圖4:SARS-CoV-2(2019-nCoV)進化分析(左上為進化標尺)
新冠病毒結構的解析與預測
基于深度學習的蛋白質結構預測
如果把基因組序列比喻為標識一個人的身份信息,蛋白質的三維結構就是一個人的身形容貌。三維結構的解析對于新冠病毒致病機理和藥物設計具有非常重要的先決意義。令人欣喜的是我國科學家已經解析出 SARS-CoV-2 非結構區域基因對應的高分辨率三維蛋白結構,而對于編碼結構蛋白的基因區域,我們在拿到新冠病毒的基因序列后,第一時間利用我們基于深度學習技術自主開發的結構預測軟件進行了三維結構的預測。對于 SARS-CoV-2,S 蛋白區域無疑是我們最為關注的一個部分。針對于 S 蛋白和某個已知結構的模板蛋白,我們首先使用深度學習技術預測單個氨基酸殘基和成對氨基酸殘基的基本特征,然后根據預測的特征計算兩個蛋白比對打分,最后通過交替方向乘子法求解出兩者之間最優比對。我們通過搜索結構庫中所有蛋白,選擇出最佳結構模板以及計算出兩者最優比對,進而以此為基礎利用常用的結構建模軟件預測出 S 蛋白的三維結構。
我們將預測的 S 蛋白結構(下圖左邊藍色結構)與 SARS-CoV 的 S 蛋白(下圖左邊紅色結構)進行了結構聯配,結果表明預測的 S 蛋白與 SARS-CoV 對應區域的結構高度相似。根據以上結果,我們推測雖然 SARS-CoV-2 與 SARS-CoV 在 S 蛋白區域的基因序列相似性不高,但二者在蛋白質的真實結構上可能比較類似。此外,我們預測的 S 蛋白結構(下圖右邊藍色結構)與密歇根大學 Yang Zhang 組利用 C-I-TASSER 軟件預測的三維結構[5](下圖右邊紅色結構)做了比較,除了左側幾個螺旋結構有所不同,兩個研究組預測的整體結構非常相似。
圖5:SARS-CoV-2 的 S 蛋白預測結構與 SARS-CoV 中對應結構(左, PDB ID: 5X58A)以及 C-I-TASSER 預測結果[5] (右) 的比較
新冠病毒與宿主結合機制推斷
基于分子動力學模擬的受體結合分析
冠狀病毒與宿主細胞受體結合的位點通常位于 S 蛋白上的部分區域(稱為亞結構域)。不同種類的病毒其對應結合的受體也不盡相同。例如,SARS-CoV 的結合受體為 ACE2 (血管緊張素轉化酶2)。如前文所述,根據我們的三維結構預測結果,新型冠狀病毒的 S 蛋白結構可能與 SARS-CoV 的較為類似。對 S 蛋白預測的三維結構進一步分析表明雖然部分氨基酸殘基與 SARS 病毒中對應的氨基酸殘基有所不同,但是 SARS-CoV-2 的 S 蛋白中潛在的負責與受體結合的亞結構域與 SARS-CoV 蛋白中對應的亞結構域非常類似。最新研究發現,SARS-CoV-2 的 S 蛋白和 ACE2 具有較高的結合強度,表明 ACE2 非常可能是 SARS-CoV-2 的宿主細胞受體[3][6]。在后續的研究中,我們期待有更多的利用分子動力學模擬、分子對接等計算生物學技術手段對 SARS-CoV-2 與其對應的宿主受體的結合過程、構象變化、親和力和自由能等方面展開更為深入的研究,以及對 SARS-CoV、MERS-CoV 等重要冠狀病毒的致病機制在分子層面更為細致的闡述與比較。這些研究將加深我們對冠狀病毒的認識,對設計藥物和疫苗具有重要的價值和意義。
SARS-Cov-2 的 S 蛋白同源建模結構與 ACE2 互作示意圖
二、免疫篇
人體免疫系統是由多個器官、多種免疫細胞以及各種免疫分子構成的一個復雜系統。它們通力合作,構建起防御各種病原體(病毒、細菌、寄生蟲等)的層層防線。人體免疫系統分為固有免疫和適應性免疫系統。其中,固有免疫也被稱為非特異性免疫,可以對入侵的病原體快速作出反應。比如固有免疫系統中的巨噬細胞、中粒性細胞通常可以在第一時間達到人體發生炎癥的地方,吞噬病原體或清理死亡的人體細胞。此外,固有免疫系統還會通過抗原呈遞等方式激活人體的特異性免疫應答。
適應性免疫系統
固有免疫是非特異性免疫系統,要想更加高效地對付某種特定病原體則需要通過適應性免疫系統產生特異性免疫應答來發揮作用。大家平時所關心的抗體或者疫苗,都與其有著密切的聯系。B 細胞和 T 細胞是適應性免疫中的主要“兵種”。與固有免疫中不同的是,這些兵種的戰士可以識別并消滅某一種特定的病原體。同時,有些士兵還能記住目標敵人的樣子,一旦相同的敵人再次入侵,它們就可以快速拉響警報,發起對入侵者的剿滅戰。
成熟的 B 細胞會攜帶一種被稱作 B 細胞受體的探測器,一旦偵測到相應的抗原,并在輔助 T 細胞的幫助下,它們就會進行增殖分化。一部分分化成能夠產生抗體的漿細胞,另一部分變成記憶 B 細胞。抗體具有和產生它的 B 細胞一樣的探測器,在體液中巡邏,并標記那些特定的病原體或直接阻礙它們感染人體細胞。疫苗正是利用了這一機制,通過來自病原體的抗原信息激發 B 細胞產生抗體防御外敵。
T 細胞是另一類重要的特異性免疫細胞。輔助 T 細胞的主要功能是在識別抗原之后,通過釋放細胞因子來調控或輔助其他免疫細胞發揮作用,比如協助激活 B 細胞、活化殺手 T 細胞等。殺手 T 細胞則會瞄準那些帶有特定抗原信息的受感染細胞,通過釋放細胞毒素來殺死他們。T 細胞和 B 細胞一樣,也是利用一種被稱作 T 細胞受體的探測器來識別特定抗原。
殺手 T 細胞在毒殺癌細胞
抗原和抗體
抗原是指那些能夠激起機體免疫應答并能被特異性免疫產物識別的物質。當 B 細胞受體或 T 細胞受體能夠和抗原上的某些部分結合時,就完成了對這個抗原的識別。這些能夠被結合的部分被稱為抗原決定簇或抗原表位。
對于一個抗原而言,并不是它身上的任何部位都能夠成為探測器的靶子。并且,由于個體之間的基因差異,能夠成為靶子的抗原表位在不同個體之間也可以是不同的。正是因為這一點,研發疫苗過程中一個很重要的步驟就是去確定抗原上能夠成為靶子的部位,同時盡可能尋找對不同人群都起作用的那些靶子。
T 細胞受體識別抗原表位示意圖
1、基于數據庫檢索和序列比對的抗原表位預測
那么新冠病毒上的靶子有哪些呢?這些靶子能夠覆蓋多少人群呢?香港科技大學的 Syed Faraz Ahmed 等研究人員利用已有的關于 SARS 病毒的抗原表位數據,篩選出了 268 個 T 細胞抗原表位候選,這些抗原表位在當前已經公布的新冠病毒蛋白質序列中均可以找到,并估計可以覆蓋約 96.29% 的全球人口和 88.11% 的中國人[9]。這些候選抗原表位可以為新冠病毒疫苗的研發提供有用的信息。
T 細胞抗原表位在 SARS-CoV S 蛋白中的位置
2、基于深度學習的抗原-T 細胞受體綁定預測
隨著高通量測序和免疫實驗技術的發展,越來越多的基因和免疫實驗數據可以被生物學家和計算機科學家利用,通過計算方法來理解免疫系統、研發疫苗、以及輔助疾病的診斷和治療。微軟亞洲研究院機器學習組的研究員一直在利用深度學習技術積極開展有關抗原識別的一系列工作。例如,在抗原的多個靶子中,預測哪些能夠激發強免疫反應;給定一個抗原靶子的時候,預測哪些 T 細胞能夠識別它。生物學家通過高通量的免疫實驗篩選出與某種抗原產生免疫反應的 T 細胞,并通過高通量測序技術測定出這些 T 細胞受體的 DNA 序列,這樣就產生出了一組抗原-T 細胞受體的綁定數據。隨著這些實驗數據的不斷產生和積累,我們就有機會利用機器學習技術對其進行建模從而幫助解釋 T 細胞受體和抗原綁定的規律。這方面的研究工作目前還處于起步階段,由于數據規模相對有限,模型的泛化能力還有待進一步的提高。
3、基于免疫實驗方法的抗體分析
當一個病毒感染者被治愈后,只要其免疫系統中的 B 細胞被激活,體內通常會存在抗體。對于新冠病毒而言,它會在人體中產生什么樣的抗體呢?全面回答這個問題還有待進一步的研究。復旦大學醫學院的應天雷教授團隊在這方面有了初步的成果[10]。新型冠狀病毒和 SARS 冠狀病毒在 RNA 序列和蛋白結構上有比較高的相似度,并且都可以通過刺突蛋白與 ACE2 受體結合來感染人體細胞。因此,他們分析了已知的幾個針對 SARS 冠狀病毒刺突蛋白的抗體,通過免疫實驗發現其中的 CR3022 很可能也是針對新型冠狀病毒刺突蛋白的抗體之一。
SARS-CoV RBD 及 2019-nCoV RBD 與抗體復合結構(左)及抗體與 2019-nCoV 的 ELISA 實驗結果(右)
抗體在目前的疾病診斷與治療上有著不同程度的應用。利用抗體輔助診斷已經是臨床疾病診斷中的常見手段,但是在疾病的治療上,由于受到純化、儲存、有效性等方面的制約,目前的臨床應用還相當有限。值得一提的是,蛋白質結構預測、分子動力學模擬等計算技術正在越來越多的被應用到抗體的發現和設計中。
三、藥物和疫苗篇
藥物研發
1、干濕實驗結合的藥物篩選
特效藥物研發是“永遠在路上”的科研攻關。目前還沒有完全解析 SARS-CoV-2 的全部蛋白結構,對其與受體結合分子機理的研究方興未艾,但我們欣喜地看到很多研究表明多種治療其它病毒的藥物對 SARS-CoV-2 具有潛在的治療作用。由蔣華良院士、饒子和院士領銜的科研團隊,在解析 SARS-CoV-2 的 ORF1ab 區域后,通過計算機模擬和生化實驗驗證相結合的手段篩選出 30 種可能對 SARS-CoV-2 有治療作用的藥物分子。這些潛在的藥物多為蛋白酶抑制劑,對病毒繁殖的抑制、阻斷病毒與受體細胞結合方面具有潛在的功效。另據報道,用于抵抗埃博拉病毒的試驗藥物 Remdesivir(RDV)可能具有抗 SARS-CoV-2 的功效。作為一款新型核苷類似物抗病毒藥,多個研究組的報道顯示有病人在服用 RDV 后發熱、咳嗽等臨床癥狀有所減輕,病情出現好轉。
2、基于互作網絡分析和分子動力學模擬的高通量藥物篩選
除了以上通過生物實驗和臨床測試等手段篩選藥物,結合機器學習和人工智能等技術,利用高通量的計算機輔助藥物設計和預測也在“老藥新用”的策略中大展拳腳。通過生物醫學的實驗手段研發藥物,主要是對已經批準上市的廣譜抗病毒藥物進行測試和篩選。這類藥物以抗病毒的干擾素和阻礙病毒侵入宿主細胞的信號通路類藥物為主,其作用主要是通過抑制病毒的逆轉錄、復制等過程和增強人體自身的免疫應答實現。與臨床實驗篩選不同,通過計算手段進行的藥物篩選可以在更廣的范圍上進行高通量篩選。
Docking 模擬是分子模擬的重要方法之一。其本質是兩個或多個分子之間的識別過程,是預測蛋白質結構與有機小分子結合的常用計算模擬手段。從經典的牛頓力場,到通過機器學習算法設計高效、簡化的量子力場,Docking 模擬的準確性和效率都得到顯著的提升。Docking 模擬可以快速分析不同小分子與蛋白質結合的作用位點和結合作用方式,解釋藥物作用靶點發揮藥效的原因,為計算機輔助藥物篩選提供指導。通過 SARS-CoV-2 蛋白結構與已知的有機小分子藥物庫中的海量候選分子進行 Docking 模擬,分析不同分子與病毒蛋白結合的自由能和親和力,高通量地篩選出抵御病毒的潛在藥物分子。目前國內外已經有多個研究組采用這種技術篩選出洛匹那韋(Lopinavir)等抗 HIV 藥物可能具有抵御新冠病毒的潛力。此外,利用生物信息學的分析手段,從 DrugBank、Therapeutic Target、PharmGKB 等多個數據庫中提取已知的藥物-靶點互作信息,構建藥物-靶點互作網絡,通過已知的作用于冠狀病毒靶點的藥物預測對 SARS-CoV-2 具有潛在作用的藥物分子。有研究表明,通過構建基于系統藥理學的網絡,量化冠狀病毒與藥物靶點之間的相互作用,已經找出西羅莫司加放線菌素、巰基嘌呤加褪黑素、托瑞米芬加大黃素等多種潛在的藥物組合[11]。雖然計算機輔助的“老藥新用”可以高通量地篩選潛在藥物,但真實的藥效、副作用等關鍵因素仍然需要嚴格的臨床試驗才能得到驗證。
“老藥新用”是快速篩選藥物的手段,而針對 SARS-CoV-2 的特效新藥的研發則是對新冠病毒的精準打擊。然而,新藥的研發通常需要極為漫長的流程。而隨著深度學習技術在蛋白質結構預測和蛋白質小肽藥物設計等領域的深入應用,新藥研發的效率將得到有效提升。我們相信隨著“老藥新用”在臨床上的不斷嘗試,以及針對 SARS-CoV-2 特效新藥的快速研發,緩解和治療 SARS-CoV-2 的藥物會陸續被研發上市。
部分潛在的抵抗 SARS-CoV-2 的藥物
疫苗研發
目前還沒有針對新冠病毒的疫苗問世。疫苗按照不同的分類方法和制備工藝,可以分為很多類別。但是疫苗的基本原理和作用是一致的,即利用抗原本身來制備生物制劑,通過接種到人體來激活免疫反應,比如生成抗體,從而使得人們在將來遇到真正的相同病原體時,可以及時地發現和消滅它們。
疫苗需要具有幾個基本特性。第一是安全。疫苗既然來源于抗原,比如新冠病毒,它必須經過減毒等措施,使得被接種到人體之后不會致病或引起不良反應。第二是有效。疫苗要能夠促使 B 細胞產生抗體,并在下一次遇到相同的抗原時,抗體能夠準確識別。第三是普適。疫苗是一種公共衛生干預措施,疫苗研制的目標之一就是希望制備出的疫苗能夠盡可能多的覆蓋人群。
疫苗的研制是一個非常復雜、嚴格和漫長的過程。以傳統病毒疫苗為例,通常需要經過毒株的篩選、減毒、繁殖、過濾、提取等過程;在建立動物模型、完成動物試驗并取得申報許可后,才能進入共三期的臨床試驗階段;最后還需要通過專家評審和國家批準方可投入生產并最終上市[12]。此外,疫苗是具有特異性的,而病毒是不斷進化的。這意味著一種疫苗在病毒發生變異之后可能就會失效。這也是為什么世界衛生組織會積極跟蹤各類病毒,尤其是流感病毒的進化,并積極推動降低疫苗研制和生產周期與成本的相關研究。
針對新冠病毒的疫苗研發正在如火如荼地進行著。雖然最新的 mRNA 疫苗技術可以大大縮短疫苗的研發周期,但是為了嚴格保證安全和有效性,動物試驗、臨床試驗等步驟仍然不可或缺。
四、展望
當下,對病毒的抗擊仍未結束。病毒藏其形于微小,人類必治之以群智。面對這場病毒對人類的“突襲”,各行業傾力合作,共同抗擊。醫療和生物研究中產生的海量數據蘊藏了非常有價值的信息和知識,而 AI 技術在知識提取和建模分析中表現出了巨大潛力。我們在本文中展示了 AI 技術在序列分析、結構預測、免疫學研究和藥物研發等方面的諸多應用。展望未來,醫學、生物、計算機等研究機構在數據和技術上的共享與合作將更加深入,繼續為人類健康保駕護航。風雨同舟,愛相隨,AI 相伴!
本文作者:王童*、夏歡歡*、朱建偉、何亮、邵斌、劉鐵巖
(*同等貢獻)
總結
以上是生活随笔為你收集整理的从病毒到免疫, “科学地”揭开新冠病毒的神秘面纱的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 边缘AI芯片再添杀器,性能超Arm架构3
- 下一篇: 宇宙早期“恒星摇篮”星系现身