免疫信息学
http://blog.sciencenet.cn/blog-204973-845856.html
第一節(jié) 免疫信息學(xué)源流
上個世紀(jì)中葉充滿科學(xué)傳奇。那不僅是個DNA雙螺旋結(jié)構(gòu)闡明、分子生物學(xué)產(chǎn)生與興起的時代,也是系統(tǒng)論、控制論、信息論紛紛形成問世并引起全球廣泛關(guān)注的時代,還是電子計(jì)算機(jī)走進(jìn)人類社會并產(chǎn)生重要影響的時代。香農(nóng)發(fā)表了《通信的數(shù)學(xué)理論》,奠定了他信息論之父的地位;維納出版了專著《控制論-關(guān)于在動物和機(jī)器中控制和通訊的科學(xué)》;貝塔朗菲出版了系統(tǒng)論的代表作《一般系統(tǒng)理論:基礎(chǔ)、發(fā)展與應(yīng)用》。信息科學(xué)與計(jì)算機(jī)注定從一開始就與生命科學(xué)有著千絲萬縷的聯(lián)系。維納專著的標(biāo)題就有動物一詞,貝塔朗菲本身就是生物學(xué)家。也就在那時,計(jì)算生物學(xué)(ComputationalBiology)、理論生物學(xué)(TheoreticalBiology)悄然問世。進(jìn)入上個世紀(jì)八十年代,隨著人類基因組計(jì)劃的醞釀與實(shí)施,數(shù)據(jù)驅(qū)動的生命科學(xué)研究開始橫掃一切,生物信息學(xué)應(yīng)運(yùn)而生,日新月異,并不斷滲透或應(yīng)用到生命科學(xué)各學(xué)科甚至信息科學(xué)的一些前沿領(lǐng)域。
免疫學(xué)也不例外,生物信息學(xué)與免疫學(xué)的交叉融合形成了生物信息學(xué)的一個分支學(xué)科:免疫信息學(xué)(immunoinformatics)。俄亥俄州立大學(xué)已故外科與病理學(xué)系教授、移植免疫學(xué)家Charles G. Orosz在本世紀(jì)初首先創(chuàng)造了immuno-informatics一詞,并將其定義為研究免疫系統(tǒng)產(chǎn)生、傳遞、處理及存儲信息規(guī)律的學(xué)科(the study of the principles by which the immune system generates, posts, processes, and stores information)[1, 2]。或許人類偷懶的天性使然,在第239期的諾華基金研討會(Novartis Foundation Symposium)*上,以色列魏茨曼科學(xué)院計(jì)算機(jī)科學(xué)與應(yīng)用數(shù)學(xué)系的Lee A. Segel教授省掉該詞中間的連字符,immunoinformatics這一詞匯第一次出現(xiàn)在文獻(xiàn)中[3]。在這篇題為“通過擴(kuò)散信息網(wǎng)絡(luò)的擴(kuò)散反饋控制免疫系統(tǒng)”的文章中,Segel教授在文中寫道[3]:“
免疫系統(tǒng)是研究生物信息處理的絕佳對象。由于免疫系統(tǒng)本身極為有趣,加上它在醫(yī)學(xué)上的重要性,因此,雖然還有許多研究要做,但免疫系統(tǒng)的硬件相對已研究得較為清楚。在分子水平,顯著的高頻體細(xì)胞突變改變了遺傳信息,使B細(xì)胞受體更具多樣性。然而,更為吸引我的是在細(xì)胞水平,因?yàn)槲蚁嘈牛@一水平的規(guī)律,不僅決定免疫系統(tǒng)的行為,而且也能用于其它主要的生物系統(tǒng),以及非生物的分布式自主系統(tǒng)。
脊椎動物擁有許多不同類型免疫細(xì)胞,總數(shù)可達(dá)1018個,卻沒有明顯的老王(Boss)。不同類型的細(xì)胞群調(diào)動起來對付、攻擊各種病原及毒株。此外,免疫系統(tǒng)也參與傷口愈合、組織重建等其它自身穩(wěn)定任務(wù)。大量被稱為細(xì)胞因子的信號分子指導(dǎo)著免疫系統(tǒng)。每種細(xì)胞因子具有幾種功能,每種功能受幾種細(xì)胞因子的影響。當(dāng)配體與相應(yīng)受體結(jié)合,通常分泌多種而非一種細(xì)胞因子。
這一超級復(fù)雜的分布式自主系統(tǒng)是如何確定做什么,何時做,做到何等程度的?我將從各個方面討論這一問題,著重強(qiáng)調(diào)信息的作用。我尤其要論證基于細(xì)胞因子的擴(kuò)散信息網(wǎng)絡(luò)(diffuse informational network)所起的決定性作用。這樣,我也就回應(yīng)了Orosz關(guān)于免疫信息學(xué)(immunoinformatics)關(guān)鍵作用的建議。其中,免疫信息學(xué)被定義為研究免疫系統(tǒng)產(chǎn)生、傳遞、處理及存儲信息的學(xué)科。”
2002年10月,諾華基金會資助下的史上首次免疫信息學(xué)研討會在倫敦召開,來自實(shí)驗(yàn)免疫學(xué)、理論免疫學(xué)、生物信息學(xué)等各個領(lǐng)域?qū)W者暢所欲言[4]。在這次會議上(即第254期的諾華基金研討會),會議主席德國教授Rammensee提出:免疫信息學(xué)可分為硬的、半軟及軟的三個領(lǐng)域,硬領(lǐng)域主要指免疫學(xué)相關(guān)核酸、多肽序列等數(shù)據(jù)及數(shù)據(jù)庫工作,半軟領(lǐng)域指處理免疫數(shù)據(jù)的方法及各種預(yù)測算法、軟件等,軟領(lǐng)域指免疫相關(guān)數(shù)學(xué)模型及其它各類理論免疫學(xué)研究[5]。此次研討會迄今,免疫信息學(xué)已經(jīng)過十余年發(fā)展,已經(jīng)成為免疫學(xué)、生物信息學(xué)、計(jì)算機(jī)科學(xué)相結(jié)合的前沿領(lǐng)域。
廣義地講,當(dāng)前免疫信息學(xué)可大體以下兩大領(lǐng)域:
一是人工免疫系統(tǒng)(Artificial Immune System, AIS)及其應(yīng)用[6, 7]。所謂人工免疫系統(tǒng)是指根據(jù)免疫系統(tǒng)的機(jī)理、特征、原理開發(fā)的人工智能算法與系統(tǒng),如克隆選擇算法、B細(xì)胞算法、陰性選擇算法、樹突狀細(xì)胞算法等。人工免疫系統(tǒng)已應(yīng)用到聚類分類、異常檢測、信息安全、智能優(yōu)化、圖像處理、機(jī)器人控制、網(wǎng)絡(luò)數(shù)據(jù)及文本挖掘等眾多領(lǐng)域。該領(lǐng)域?qū)W者主要來自計(jì)算機(jī)與信息科學(xué)背景,模擬免疫機(jī)制,構(gòu)建新的算法來解決各種科學(xué)及工程實(shí)踐問題。該領(lǐng)域的研究內(nèi)容從字面上看,非常貼近免疫信息學(xué),源自免疫原理,落腳于信息方法。由于筆者對此領(lǐng)域沒有深入研究,本章也不再贅述。
二是計(jì)算免疫學(xué)(Computational Immunology)及其應(yīng)用。所有應(yīng)用數(shù)學(xué)、計(jì)算機(jī)、人工智能、生物信息學(xué)方法來處理免疫學(xué)數(shù)據(jù)、分析免疫學(xué)問題的研究都屬于計(jì)算免疫學(xué),具體內(nèi)容涵蓋:理論免疫學(xué)(TheoreticalImmunology)分析,免疫相關(guān)數(shù)學(xué)模型,各類免疫相關(guān)數(shù)據(jù)庫構(gòu)建,各種免疫相關(guān)預(yù)測算法、計(jì)算工具、網(wǎng)絡(luò)服務(wù)及其應(yīng)用如計(jì)算疫苗學(xué)(Computational Vaccinology)[8, 9]、反向疫苗學(xué)(Reverse Vaccinology)[10, 11]、計(jì)算機(jī)輔助疫苗設(shè)計(jì)[12]、計(jì)算機(jī)輔助抗體設(shè)計(jì)[13]等。一言以蔽之,用計(jì)算的方法解決免疫相關(guān)科學(xué)或工程實(shí)踐問題就是計(jì)算免疫學(xué),這也是當(dāng)前免疫信息學(xué)的主流方向[14]。有趣的是,這一方向的工作從字面上看,用“信息免疫學(xué)”一詞或許更為貼切,即源自信息學(xué)方法,落腳于免疫學(xué)問題。本章將結(jié)合筆者的科研工作,主要介紹計(jì)算免疫學(xué)資源及其應(yīng)用。
第二節(jié) 免疫信息學(xué)資源
所謂免疫信息學(xué)資源,主要是指免疫相關(guān)的數(shù)據(jù)集、數(shù)據(jù)庫、單機(jī)及網(wǎng)絡(luò)程序等能夠給用戶解決相關(guān)問題提供便利與幫助的數(shù)據(jù)資料和軟件工具。實(shí)驗(yàn)免疫學(xué)家、生物技術(shù)企業(yè)、咨詢機(jī)構(gòu)等作為這些資源的普通用戶,可能并不太關(guān)心相關(guān)數(shù)據(jù)庫如何構(gòu)建、程序算法細(xì)節(jié),但需要了解到哪兒去找特定數(shù)據(jù),對于特定問題,什么軟件好用等等。對于生物技術(shù)專業(yè)的同學(xué)——未來生命科學(xué)的研究者、生物技術(shù)的探索者、生物產(chǎn)業(yè)的創(chuàng)業(yè)者與經(jīng)營者、政策的制定者與管理者,亦復(fù)如是。本節(jié)著重介紹開源、免費(fèi)、共享、方便的網(wǎng)絡(luò)免疫信息學(xué)資源。
1、免疫學(xué)數(shù)據(jù)庫
在生物信息學(xué)研究中,構(gòu)建專業(yè)的數(shù)據(jù)庫、高質(zhì)量的數(shù)據(jù)集是關(guān)鍵的基礎(chǔ)性工作。沒有相應(yīng)的專業(yè)數(shù)據(jù)支持,后續(xù)研究工作無法開展。當(dāng)然,有了數(shù)據(jù)仍不夠,還必須有質(zhì)控標(biāo)準(zhǔn)與措施來保證數(shù)據(jù)的質(zhì)量,否則,生物信息學(xué)研究就是垃圾進(jìn)、垃圾出。這就好比實(shí)驗(yàn)生物學(xué)研究,必需要有合適的模式生物及獨(dú)到可靠的研究材料一樣。
由于生物技術(shù)的飛速發(fā)展與信息技術(shù)的進(jìn)步,海量的生物數(shù)據(jù)產(chǎn)生了,這就需要各種類型的數(shù)據(jù)庫來存儲、管理、檢索各種類型數(shù)據(jù),如核酸序列、蛋白序列、空間結(jié)構(gòu)、表達(dá)譜芯片、網(wǎng)絡(luò)與通路等。大量生物信息學(xué)數(shù)據(jù)庫產(chǎn)生了,如GenBank[15]、UniProt[16]、MMDB[17]、KEGG[18]等。這些數(shù)據(jù)庫當(dāng)然也包含了部分免疫學(xué)相關(guān)數(shù)據(jù),但構(gòu)建專門的免疫學(xué)數(shù)據(jù)庫對免疫學(xué)研究而言無疑更為專業(yè)與方便。自從1970年第一個免疫學(xué)數(shù)據(jù)庫KABAT誕生以來,大批高度專一或涵蓋廣泛的免疫學(xué)數(shù)據(jù)庫紛紛登場。本節(jié)我們重點(diǎn)介紹幾個重要的門戶型綜合數(shù)據(jù)庫及一些具有歷史意義或特色鮮明的專一型數(shù)據(jù)庫。
(1)免疫遺傳信息的門戶IMGT[19]
IMGT數(shù)據(jù)庫最初由Marie-Paule Lefranc (Université Montpellier II, CNRS)創(chuàng)建于1989年,目前已發(fā)展成為全球免疫遺傳信息的門戶。IMGT是“免疫遺傳學(xué)(ImMunoGeneTics)”的縮寫,目前包括7個子數(shù)據(jù)庫。這些子數(shù)據(jù)庫可分為序列數(shù)據(jù)庫(IMGT/LIGM-DB、IMGT/MH-DB、IMGT/PRIMER-DB、IMGT/CLL-DB),基因數(shù)據(jù)庫(IMGT/GENE-DB)、結(jié)構(gòu)數(shù)據(jù)庫(IMGT/3D structure-DB)和單克隆抗體數(shù)據(jù)庫(IMGT/mAb-DB)。IMGT/LIGM-DB是一個具有詳細(xì)注釋的人類和其他脊椎動物免疫球蛋白(IG)與T細(xì)胞受體(TCR)的序列數(shù)據(jù)庫,目前收錄了來自303個物種的16萬多條序列。IMGT/MH-DB是一個人類主要組織相容性復(fù)合物(HLA)的專門數(shù)據(jù)庫,其中包括世界衛(wèi)生組織HLA系統(tǒng)命名委員會的官方序列;目前,該數(shù)據(jù)庫服務(wù)器主機(jī)放在歐洲生物信息學(xué)研究所(EBI)。IMGT/PRIMER-DB是標(biāo)準(zhǔn)化的IG和TCR寡核苷酸探針或引物數(shù)據(jù)庫;目前該數(shù)據(jù)庫有來自11個物種的1864條記錄。IMGT/PRIMER-DB提供的信息尤其適用于正常和病理情況下的IG和TCR的表達(dá)研究、單鏈抗體、噬菌體展示、基因芯片設(shè)計(jì)。IMGT/CLL-DB是一個新的數(shù)據(jù)庫,主要收集來自慢性淋巴細(xì)胞性白血病患者的IG序列。IMGT/GENE-DB是人類、小鼠、大鼠、家兔IG和TCR基因的數(shù)據(jù)庫;到目前為止,它收錄了IG和TCR基因2893個、等位基因4139個。IMGT結(jié)構(gòu)數(shù)據(jù)庫收錄IG、TCR、MHC空間結(jié)構(gòu)及相關(guān)信息,目前有2686個記錄。IMGT/mAb-DB收錄已上市及臨床試驗(yàn)中的單克隆抗體、抗體-受體融合蛋白及其他免疫應(yīng)用的融合蛋白,目前有單抗272個、抗體-受體融合蛋白18個,共計(jì)420個條目。此外,IMGT網(wǎng)站目前還提供了15個與數(shù)據(jù)庫配套的在線分析工具。IMGT已廣泛用于自身免疫、感染、腫瘤的相關(guān)醫(yī)學(xué)研究、獸醫(yī)學(xué)研究及抗體生物技術(shù)研究中。IMGT的所有資源都可通過其主頁http://www.imgt.org免費(fèi)使用。
(2)免疫表位信息的門戶IEDB[20]
所謂表位(epitope)就是抗原中能被免疫細(xì)胞特異性識別的線性片段或空間構(gòu)象性結(jié)構(gòu),是引起免疫應(yīng)答和免疫反應(yīng)的基本單位。表位在免疫學(xué)基礎(chǔ)與應(yīng)用研究中具有核心地位,是疫苗、抗體藥物、腫瘤免疫、移植免疫、超敏反應(yīng)的結(jié)構(gòu)基礎(chǔ)。IEDB是免疫表位數(shù)據(jù)庫(Immune Epitope DataBase)的縮寫,創(chuàng)建于2003年。IEDB雖然不是最早出現(xiàn)的表位數(shù)據(jù)庫,但在NIAID的資助下,經(jīng)過10年的發(fā)展,它已毫無疑問地發(fā)展成為全球免疫表位信息的門戶。目前IEDB收錄的表位及相關(guān)信息涵蓋除腫瘤和HIV以外的99%已發(fā)表文獻(xiàn)。文本挖掘程序自動掃描了2200萬多篇PubMed文摘;大量專家對其中13000多篇文獻(xiàn)(含7000多篇感染相關(guān)文獻(xiàn)、1000多篇變態(tài)反應(yīng)相關(guān)文獻(xiàn)、約4000篇自身免疫相關(guān)文獻(xiàn)、1000篇移植免疫相關(guān)文獻(xiàn))進(jìn)行了人工歸類、信息提取與注釋。到筆者撰寫此節(jié)為止,IEDB已提取文獻(xiàn)14718篇,收錄了人類及其它各種動物識別的多肽表位92407個,非多肽表位1831個。IEDB還包含了直接提交及來自FIMM、TopBank等一系列MHC配體數(shù)據(jù)庫的數(shù)據(jù),共有MHC配體(抗原肽)214704條。IEDB收錄的表位不僅數(shù)量最多,而且質(zhì)量最好,包含的表位相關(guān)的各種背景信息最為豐富,甚至連實(shí)驗(yàn)細(xì)節(jié)也不放過。此外,IEDB還提供了一些配套工具用于表位預(yù)測與分析[21]。所有IEDB數(shù)據(jù)及工具均可通過www.immuneepitope.org免費(fèi)訪問與使用。
(3)免疫多態(tài)性數(shù)據(jù)庫IPD[22]
該數(shù)據(jù)庫由安東尼.諾南研究所(Anthony Nolan Research Institute)#的HLA信息學(xué)小組與歐洲生物信息學(xué)研究所緊密合作,創(chuàng)建于2003年,旨在為研究免疫系統(tǒng)基因的多態(tài)性提供方便。IPD目前包括MHC、KIR、HPA、ESTDAB等四個子數(shù)據(jù)庫。IPD-MHC數(shù)據(jù)庫收錄了大量物種的MHC序列。這些物種包括:家犬、狼、山狗,家貓,僧帽猴、狨猴、梟猴、松鼠猴、絹猴、葉猴、狒狒、獼猴、白眉猴以及其它猴類,倭黑猩猩、黑猩猩、長臂猿、大猩猩、猩猩等。ESTDAB是一個腫瘤細(xì)胞系的數(shù)據(jù)庫。IPD最具特色的是KIR數(shù)據(jù)庫和HPA數(shù)據(jù)庫;KIR收錄了人類殺傷細(xì)胞免疫球蛋白樣受體(Killer-cell Immunoglobulin-like Receptors, KIR)共614個各等位基因及相應(yīng)蛋白質(zhì)的序列;HPA收錄了人類同種異體血小板抗原數(shù)據(jù)。這些數(shù)據(jù)庫均可通過http://www.ebi.ac.uk/ipd免費(fèi)使用。
(4)HIV數(shù)據(jù)庫
這是第一個面向病原體的數(shù)據(jù)庫,收錄獲得性免疫缺陷病毒(HIV)的核酸序列、免疫表位、耐藥相關(guān)突變及疫苗試驗(yàn)。其中,HIV分子免疫學(xué)數(shù)據(jù)庫始建于1987年,由洛斯阿拉莫斯國家實(shí)驗(yàn)室開發(fā),最初的目的只是提供一個已知HIV表位的全面列表,包括細(xì)胞毒性T細(xì)胞表位、輔助性T細(xì)胞表位和抗體結(jié)合位點(diǎn)。目前這一模式已推廣到其他病原體,如丙型肝炎病毒(Hepatitis C Virus, HCV)和出血熱病毒(Hemorrhagic Fever Viruses,HFV)。HIV數(shù)據(jù)庫提供了大量分析工具,如表位比對(QuickAlign)、PeptGen、基序檢索(Motif Scan)、序列定位(Sequence Locator)、ELF(Epitope Location Finder)等等。QuickAlign可用于比對表位、功能域或其它任何感興趣的蛋白質(zhì)區(qū)域。PeptGen可創(chuàng)建蛋白質(zhì)的重疊肽圖譜,有助于多肽設(shè)計(jì)與表位確定。基序檢索工具可找出蛋白序列中具有某一指定HLA基因型、血清型或超型基序的亞序列。序列定位工具能給出用戶序列相對于HIV參考序列(HXB2)或SIV參考序列(SIVMM239)的位置。整個項(xiàng)目受NIAID資助,所有數(shù)據(jù)及工具均可通過http://www.hiv.lanl.gov免費(fèi)獲得或使用。
(5)KABAT數(shù)據(jù)庫[23]
為了確定抗體序列中的抗原結(jié)合部位,著名免疫學(xué)家Elvin A Kabat(1914-2000)和他的研究小組于1970年創(chuàng)立了KABAT數(shù)據(jù)庫;這也是第一個免疫學(xué)數(shù)據(jù)庫。現(xiàn)在的KABAT數(shù)據(jù)庫包括來自許多物種的IG、TCR、MHC及其它免疫相關(guān)分子的序列。一方面,新的序列仍在不斷加入KABAT數(shù)據(jù)庫;另一方面,該數(shù)據(jù)庫相關(guān)信息分析工具也越來越多,這些工具包括關(guān)鍵詞搜索、變異性分析和序列比對等。KABAT數(shù)據(jù)庫及相應(yīng)工具曾經(jīng)可以從http://immuno.bme.nwu.edu免費(fèi)獲得;但現(xiàn)在只有付費(fèi)注冊才能使用。2003年以后,該數(shù)據(jù)庫不再更新,第一個免疫學(xué)數(shù)據(jù)庫就這樣在不適宜的商業(yè)模式下成為僵尸數(shù)據(jù)庫。
(6)SYFPEITHI數(shù)據(jù)庫[24]
1999年,Hans-Georg Rammensee教授及其同事開發(fā)了一個關(guān)于MHC配體和基序的數(shù)據(jù)庫—SYFPEITHI。該數(shù)據(jù)庫的名字來源于第一個直接測序的天然MHC配體,即SYFPEITHI九肽;該配體洗脫自小鼠P815腫瘤細(xì)胞的H-2Kd分子。目前,SYFPEITHI數(shù)據(jù)庫收錄了來自人類和其他物種(如猿、牛、雞、小鼠等)MHC-I類和II類配體的序列7000多條,基序200多種,所有的數(shù)據(jù)僅來源于文獻(xiàn)。SYFPEITHI數(shù)據(jù)庫工具可檢索等位基因、基序、天然配體、T細(xì)胞表位、源蛋白質(zhì)/物種及參考文獻(xiàn)。數(shù)據(jù)庫與EMBL和PubMed數(shù)據(jù)庫有超鏈接。SYFPEITHI數(shù)據(jù)庫提供了一個基于基序打分的表位預(yù)測界面,可預(yù)測人類及小鼠的多種MHC分子配體,通過www.syfpeithi.de免費(fèi)在線使用。SYFPEITHI數(shù)據(jù)庫的脫機(jī)版本,可在個人電腦或局域網(wǎng)內(nèi)使用,但需付費(fèi)(單機(jī)每年3000歐元)。又一個具有歷史意義的數(shù)據(jù)庫在商業(yè)化模式中迷失。
(7)未完待續(xù)
從半抗原小分子、佐劑、表位、抗原、變應(yīng)原到抗體,但凡當(dāng)前免疫學(xué)課本上有的,互聯(lián)網(wǎng)往往已有相應(yīng)數(shù)據(jù)庫。例如:半抗原數(shù)據(jù)庫(HaptenDB[25]),佐劑數(shù)據(jù)庫(Vaxjo[26])表位數(shù)據(jù)庫(Bcipep[27]、CED[28]),保護(hù)性抗原數(shù)據(jù)庫(Protegen[29])、腫瘤抗原數(shù)據(jù)庫(TANTIGEN、CIDB[30]),變應(yīng)原及表位數(shù)據(jù)庫(ALLERDB[31]、Farrp、InformAll[32, 33]、SDAP[34]),抗體數(shù)據(jù)庫(SACS[35]、Abysis)等等,不一而足。從紙質(zhì)版到電子版,從平面文件(flat file)到關(guān)系型數(shù)據(jù)庫,從單機(jī)到網(wǎng)絡(luò),免疫學(xué)數(shù)據(jù)庫經(jīng)過幾十年的發(fā)展,種類與數(shù)量越來越多,數(shù)據(jù)庫的容量越來越大,結(jié)構(gòu)也越來越復(fù)雜。除了這些數(shù)據(jù)庫外,免疫學(xué)相關(guān)的測試數(shù)據(jù)集(Benchmarks)也是重要的資源。由于篇幅限制,我們不再列舉免疫學(xué)數(shù)據(jù)庫及數(shù)據(jù)集。好事者,可通過Google等搜索引擎,Nucleic Acids Research、Database及其它專業(yè)期刊查詢相關(guān)數(shù)據(jù)庫與數(shù)據(jù)集。
2.單機(jī)軟件與網(wǎng)絡(luò)程序
有了數(shù)據(jù)的支持,理論免疫學(xué)家就可以通過數(shù)學(xué)方法建立理論模型,進(jìn)行模擬仿真;計(jì)算免疫學(xué)家則可在此基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘,建立新的算法,或用這些數(shù)據(jù)訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī),建立新的預(yù)測模型并進(jìn)行測試、評估與分析。這些模型、仿真、算法及預(yù)測器往往最終實(shí)現(xiàn)為單機(jī)或網(wǎng)絡(luò)程序。如前所述,網(wǎng)絡(luò)程序已經(jīng)成為免疫信息學(xué)乃至生物信息學(xué)軟件開發(fā)的大趨勢,但出于數(shù)據(jù)安全保密等各種考慮,單機(jī)軟件仍受一些公司與研究組的青睞。另外一個趨勢是數(shù)據(jù)庫自帶的分析工具越來越多,數(shù)據(jù)庫與網(wǎng)絡(luò)程序的界限日漸模糊。此外,不少時候,解決一個免疫學(xué)問題往往需要一系列小的軟件工具與步驟,由于這些小軟件大都是現(xiàn)成的,因此只需要進(jìn)行系統(tǒng)集成,形成合理的工作流程即可,這樣的工作可通過諸如Accelrys公司的Pipeline Pilot等平臺來自動化。由于免疫學(xué)相關(guān)網(wǎng)絡(luò)程序不可勝數(shù),本節(jié)不再具體羅列,而在免疫信息學(xué)的具體應(yīng)用中部分提及。
第三節(jié) 免疫信息學(xué)的應(yīng)用
免疫學(xué)不僅是研究分子識別與相互作用的基礎(chǔ)學(xué)科,而且貼近應(yīng)用。FDA近年批準(zhǔn)進(jìn)入市場銷售或臨床試驗(yàn)的藥物中,新型抗體與新型疫苗屢拔頭籌。由于抗體藥物的巨大成功,以新型抗體、新型疫苗開發(fā)為核心的免疫學(xué)研究已經(jīng)成為世界各國生物技術(shù)學(xué)術(shù)界與產(chǎn)業(yè)界全力追捧與投入的領(lǐng)域。與生物信息學(xué)相結(jié)合免疫信息學(xué)研究不僅可以解決一些分子識別的基本生物學(xué)問題,而且也必將為產(chǎn)業(yè)界提供新的工具。免疫信息學(xué)資源已在生命科學(xué)基礎(chǔ)研究與應(yīng)用開發(fā)研究中廣泛應(yīng)用。這里,筆者結(jié)合自己的研究工作進(jìn)行部分介紹。
1.表位預(yù)測
表位預(yù)測是免疫信息學(xué)研究的核心問題之一,也是抗體、疫苗、移植免疫、變態(tài)反應(yīng)計(jì)算分析的基礎(chǔ)。因此,發(fā)現(xiàn)一個重要的新表位和發(fā)現(xiàn)一個新基因一樣,都蘊(yùn)藏著巨大的財(cái)富。因此,從IT巨人微軟到世界500強(qiáng)的生物醫(yī)藥公司羅氏,都有人在做表位預(yù)測研究。1999年,納斯達(dá)克上市公司Epimmune(Nasdaq:EPMN)將其發(fā)現(xiàn)鑒定的一個可能用于乳癌、肺癌、結(jié)腸癌治療的候選"先導(dǎo)表位"作價(jià)200萬美元賣給了給美國Searle公司(世界500強(qiáng)的轉(zhuǎn)基因寡頭孟山都公司的制藥部)。靠著它的另一項(xiàng)專利成果泛DR表位PADRE,Epimmune公司還從Elan公司、Pharmexa公司獲得了不菲的非獨(dú)占授權(quán)費(fèi),而后,Genencor公司更為此付出了6000萬美元的獨(dú)占性授權(quán)費(fèi);不僅如此,Epimmune公司今后還將享有上述3家公司所有PADRE相關(guān)產(chǎn)品的銷售提成。
回到現(xiàn)實(shí),如果我們將抗原比作一篇文章,那么表位就好比文章的關(guān)鍵詞;而表位簇集區(qū)域就好比是摘要。根據(jù)表位特異性免疫應(yīng)答的程度,可將抗原中的表位分為免疫優(yōu)勢表位、亞優(yōu)勢表位和隱性表位;根據(jù)表位對機(jī)體的影響,可分為保護(hù)性表位(免疫位)、致病性表位(變應(yīng)位)、耐受性表位(耐受位);根據(jù)識別的免疫細(xì)胞,可分為B細(xì)胞表位、輔助性T細(xì)胞(Th)表位、細(xì)胞毒性T細(xì)胞(Tc)表位等。表位預(yù)測就好比對抗原這篇文章進(jìn)行鉤玄摘要。目前有關(guān)研究主要是B細(xì)胞表位、Th表位、Tc表位的預(yù)測上。
(1)B細(xì)胞表位預(yù)測
B細(xì)胞表位要被抗體識別,只能位于抗原表面。因此,早期的線性B細(xì)胞表位預(yù)測采用唯象方法(Phenomenological theory),通過計(jì)算蛋白亞序列的理化性質(zhì)或二級結(jié)構(gòu),利用B細(xì)胞表位與上述理化特性或二級結(jié)構(gòu)的相關(guān)性進(jìn)行預(yù)測。例如,親水的氨基酸更多位于液相面,而疏水的更多地深埋在抗原內(nèi)核,因此可以計(jì)算蛋白質(zhì)序列局部的親水性來間接推斷B細(xì)胞表位。對蛋白序列局部理化性質(zhì)或二級結(jié)構(gòu)傾向的理論計(jì)算大多依據(jù)相應(yīng)的屬性量表,這些量表可通過實(shí)驗(yàn)或統(tǒng)計(jì)分析得到。常用的量表如Janin可及性量表、Hopp和Woods親水量表、Parker親水量表(示例見圖7-1)、Thornton突出指數(shù)量表、Welling抗原性量表等。30多年來,經(jīng)典量表時有優(yōu)化更新,對滑窗法的預(yù)測性能也有所改進(jìn)。
圖7-1基于Parker親水量表的線性B細(xì)胞表位預(yù)測示例
復(fù)雜網(wǎng)絡(luò)(Complex networks)已經(jīng)成為近年自然科學(xué)乃至社會科學(xué)諸多學(xué)科領(lǐng)域研究的一個焦點(diǎn)與超級熱點(diǎn)。現(xiàn)實(shí)世界中的很多系統(tǒng)都可以用復(fù)雜網(wǎng)絡(luò)的模型來描述與研究,如互聯(lián)網(wǎng)、集成電路、電力網(wǎng)、通訊網(wǎng)、鐵路網(wǎng)、食物鏈、人際關(guān)系網(wǎng)等等。各種網(wǎng)絡(luò)在數(shù)學(xué)上都可以用圖(Graph)來表述。圖論(Graph theory)源于18世紀(jì)大數(shù)學(xué)家歐拉(Leonhard Euler)對規(guī)則圖(regular graph)的研究;20世紀(jì)50年代,兩位匈牙利科學(xué)家Erdös和Rényi的研究使經(jīng)典圖論出現(xiàn)重大突破,確立了隨機(jī)圖理論(Random Graph Theory)。但不管是表征何種網(wǎng)絡(luò)的圖,它們都是由一些基本單元和它們之間的連接構(gòu)成的;在圖論中,我們通常把前者稱為節(jié)點(diǎn)(nodes)、頂點(diǎn)(vertices)或點(diǎn)(point),把后者稱為邊(edges)、連接(links)或者線(lines)。基于圖論的系統(tǒng)生物學(xué)研究已經(jīng)取得了許多重大成果,食物鏈網(wǎng)絡(luò)、大腦皮層神經(jīng)元網(wǎng)絡(luò)、代謝網(wǎng)絡(luò)、基因調(diào)節(jié)網(wǎng)絡(luò)等許多生物系統(tǒng)的復(fù)雜網(wǎng)絡(luò)已被證實(shí)具有小世界(small-world)或/和標(biāo)度無關(guān)(scale-free)特性。在基因調(diào)節(jié)網(wǎng)絡(luò)、代謝網(wǎng)絡(luò)的研究中,蛋白質(zhì)(或酶)被簡單地看作為網(wǎng)絡(luò)節(jié)點(diǎn)。但是,當(dāng)把研究聚焦于蛋白質(zhì)本身或其部分片段的時候,例如對蛋白質(zhì)抗原,我們同樣可以把抗原看作一個復(fù)雜網(wǎng)絡(luò),一個大的“圖”。它的節(jié)點(diǎn)是氨基酸殘基,它的邊是氨基酸殘基之間在序列上與空間結(jié)構(gòu)上的聯(lián)系(如圖7-2)。
圖7-2:蛋白質(zhì)抗原氨基酸殘基網(wǎng)絡(luò)示意圖(家兔子宮珠蛋白: 1UTG)
我們從PDB數(shù)據(jù)庫中篩選出無冗于、高分辨率的代表性晶體結(jié)構(gòu)640個,以氨基酸殘基為節(jié)點(diǎn),殘基之間序列上的聯(lián)系(實(shí)質(zhì)是肽鍵)或空間上的聯(lián)系(實(shí)質(zhì)是二硫鍵等其它共價(jià)鍵或氫鍵、疏水相互作用、范德華力等非共價(jià)相互作用)為邊,構(gòu)建了640個抗原的氨基酸殘基網(wǎng)絡(luò)。計(jì)算這些網(wǎng)絡(luò)中每個氨基酸殘基的連接度(Connectivity)、聚類系數(shù)(Clustering coefficient)、完形度(Closeness)、間度(Betweeness)等復(fù)雜網(wǎng)絡(luò)參數(shù),統(tǒng)計(jì)推演出基于復(fù)雜網(wǎng)絡(luò)的4個新量表(見表7-1),即相對連接度(Rk)、相對聚類系數(shù)(Rc)、相對完形度(Ro)、相對連接度(Rb)。
表7-1基于抗原氨基酸殘基網(wǎng)絡(luò)拓?fù)湫再|(zhì)的新屬性量表[36]
我們把上述新量表用于基于滑動窗的B細(xì)胞表位殘基預(yù)測。結(jié)果顯示,在5個測試數(shù)據(jù)集中,相對連接度(Rk)表現(xiàn)穩(wěn)定優(yōu)越,在注釋最完整、質(zhì)量最佳的HEL數(shù)據(jù)集中,相對連接度的ROC曲線下面積最大,提示預(yù)測性能顯著優(yōu)于Parker親水性(Ph)及Levitt指數(shù)(Li)等兩個已知最好的B細(xì)胞表位預(yù)測量表(見圖7-3)[37]。因?yàn)橄鄬B接度反應(yīng)了一個氨基酸殘基在網(wǎng)絡(luò)中相鄰氨基酸殘基數(shù)目的傾向。偏愛在抗原內(nèi)核的,鄰居一般較多,在表面的,鄰居相對較少。因此,用相對連接度來預(yù)測B細(xì)胞表位能有如此表現(xiàn)也就不奇怪了。
圖7-3相對連接度、Parker親水性及Levitt指數(shù)預(yù)測性能比較
專門的線性B細(xì)胞表位預(yù)測工具有PREDITOP、ADEPT、PEOPLE、BepiPred[38]等;一些綜合性序列分析軟件,如OMIGA、UWGCG、ANTHEPROT等,也包含了的線性B細(xì)胞表位預(yù)測功能。線性B細(xì)胞表位預(yù)測往往是根據(jù)蛋白質(zhì)抗原的氨基酸序列,預(yù)測其上可能的B細(xì)胞表位區(qū)段。由于B細(xì)胞表位在沒有其對應(yīng)抗體時是不能確定的,它的存在取決于相應(yīng)抗體的存在,所以,從學(xué)術(shù)的角度,目前的線性B細(xì)胞表位預(yù)測似乎是個偽命題。但就是這個命題卻是目前大部分抗體公司急需解決,有著重大現(xiàn)實(shí)需求的。例如,根據(jù)預(yù)測結(jié)果,用從天然蛋白中篩選出的合成肽段來免疫動物,以期獲得的抗多肽抗體能與天然蛋白本身發(fā)生交叉反應(yīng)。這具有重要的實(shí)用價(jià)值,相應(yīng)抗體既可用于親和層析,達(dá)到分離純化完整蛋白抗原的目的,又可用于免疫組化或其它免疫反應(yīng)而有助于基礎(chǔ)研究與臨床診斷,可以開發(fā)為科研甚至臨床診斷試劑。當(dāng)前,人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等機(jī)器學(xué)習(xí)方法已用于線性B細(xì)胞表位預(yù)測,但性能仍不令人滿意。此外,基于噬菌體展示或抗原空間結(jié)構(gòu)的構(gòu)象表位預(yù)測近年來也廣受關(guān)注。前者我們將在后文中單獨(dú)論述;后者包括Java語言編寫的基于隨機(jī)森林的單機(jī)程序Bpredictor[39],網(wǎng)絡(luò)程序CEP[40]、DiscoTope[41]及SEPPA[42]等。
(2)T細(xì)胞表位預(yù)測
T細(xì)胞表位的預(yù)測研究肇始于對Th表位的預(yù)測。早期的Th表位預(yù)測明顯受線性B細(xì)胞表位預(yù)測思路的影響,不少研究試圖從實(shí)驗(yàn)證實(shí)的Th表位中找出它們在理化特性或二級結(jié)構(gòu)上的共同特征并在一定程度上獲得了成功,第一個Th表位預(yù)測程序AMPHI就是早期研究的代表作品。二十世紀(jì)80年代末90年代初,MHC-I類分子晶體結(jié)構(gòu)的闡明和多種Tc表位基序的發(fā)現(xiàn)使Tc表位預(yù)測研究率先取得突破。這帶動了MHC-II類分子晶體結(jié)構(gòu)與各種Th表位基序的揭示,使Th表位預(yù)測擺脫了B細(xì)胞表位預(yù)測思路的影響。目前,打分矩陣、隱馬爾可夫模型(Hidden Markov Model,HMM)、比較分子力場分析(comparative molecular field analysis, CoMFA)、比較分子相似性指數(shù)分析(comparative molecular silmilarity indices analysis, CoMSIA)、人工神經(jīng)網(wǎng)絡(luò)(artificial neural network , ANN)、支持向量機(jī)(Support Vector Machine,SVM)等各種方法都已用于T細(xì)胞表位預(yù)測。相關(guān)單機(jī)及網(wǎng)絡(luò)程序包括AMPHI、Tepitope、TSites、EpiMer、EpiMatrix、BIMAS、MHCPred、NetMHC、NetMHCpan、NetMHCcons、NetCTL、NetCTLpan、NetMHCII、NetMHCIIpan、MetaMHC[43]、TEPITOPEpan等。這個領(lǐng)域非常熱鬧,于是該領(lǐng)域元老Brusic教授于2009年組織了首屆機(jī)器學(xué)習(xí)在免疫學(xué)中的應(yīng)用——HLA-I類配體預(yù)測(MLI)大賽[44]。行筆至此,2012倫敦奧運(yùn)與第二屆MLI大賽正如火如荼,發(fā)揚(yáng)奧運(yùn)精神,我們也參與其中。希望有興趣的同學(xué)今后能加入我們。
雖然對Tc表位預(yù)測的探索起步最晚,但進(jìn)展最快,研究最深入,預(yù)測最成功,尤其是基于支持向量機(jī)的方法。目前,對Tc表位的預(yù)測,研究內(nèi)容已經(jīng)不只限于對MHC-I類分子結(jié)合及其結(jié)合能力的預(yù)測,而且還拓展到對候選Tc表位自然產(chǎn)生可能性及其轉(zhuǎn)運(yùn)效率的預(yù)測,即對蛋白酶體酶切位點(diǎn)及抗原處理相關(guān)轉(zhuǎn)運(yùn)蛋白(transporters associated with antigen processing, TAP)的轉(zhuǎn)運(yùn)進(jìn)行預(yù)測,范圍涵蓋整個抗原處理與遞呈過程,相關(guān)程序如FragPredict、PAProC、NetChop等。此外,近些年的研究越來越重視雜合性T細(xì)胞表位、超型表位及表位簇集區(qū)域的預(yù)測。
2.噬菌體展示
(1)噬菌體與噬菌體展示
噬菌體(phage)是一類感染細(xì)菌的病毒。有些噬菌體,如絲狀噬菌體M13、fd、f1等,是非常好的表達(dá)載體[45]。通過基因工程方法,可以將外源基因片段或隨機(jī)DNA序列插入噬菌體基因III或VIII中,表達(dá)后形成的融合蛋白仍能夠自主裝配成噬菌體外殼并將外源蛋白或多肽展示在噬菌體顆粒表面(見圖7-4)。
圖7-4:通過基因III或VIII展示外源序列的M13噬菌體示意圖
噬菌體易于培養(yǎng),增殖迅速。通過隨機(jī)PCR等分子生物學(xué)技術(shù),可以很方便地構(gòu)建多樣性從數(shù)百萬到數(shù)百億的噬菌體文庫(phage library)[46]。這就使得生物學(xué)家可以像釣魚一樣,從“魚塘”(噬菌體文庫)里高效地釣到能與“魚餌(bait)”結(jié)合的展示了特定多肽的噬菌體。通常,用來篩選噬菌體文庫的物質(zhì)被稱為靶位(target);靶位的天然配體稱為模板(template)。如圖7-5所示,使用靶位(如細(xì)胞、抗體、受體、酶、化合物、半導(dǎo)體材料等),經(jīng)過幾輪結(jié)合、洗脫、增殖的循環(huán)淘選(panning),通常能快速從噬菌體文庫中篩出一系列可能與靶位特異性結(jié)合的噬菌體;通過DNA測序能快捷、可靠地推導(dǎo)出它們所展示外源多肽的氨基酸序列。這些能與靶位結(jié)合的外源多肽,通常模擬了相應(yīng)模板的特定位點(diǎn),因而被稱為模擬肽(mimotope);而上述獲得模擬肽的分子生物學(xué)實(shí)驗(yàn)流程與技術(shù)則被稱為生物淘選(biopanning)或噬菌體展示(phage display)[47]。
噬菌體展示技術(shù)一經(jīng)問世便迅速發(fā)展,并在現(xiàn)代分子生物醫(yī)學(xué)研究中廣泛應(yīng)用。在基礎(chǔ)研究中,利用噬菌體展示技術(shù)可以預(yù)測出表位[48]、其他蛋白質(zhì)相互作用位點(diǎn)[49]與網(wǎng)絡(luò)[50, 51],確定藥物作用的靶標(biāo)蛋白;在應(yīng)用研究中,噬菌體展示技術(shù)可用于開發(fā)器官靶向試劑[52]、新診斷試劑[53]、新生物技術(shù)藥物[54]和疫苗[55]。尤其值得一提的是,噬菌體展示技術(shù)在基于新型生物材料的新能源如生物鋰電池[56]、氫能源[57]等研究中大放異彩,美國總統(tǒng)奧巴馬曾因此專程參觀了麻省理工學(xué)院的相關(guān)實(shí)驗(yàn)室。
圖7-5噬菌體展示技術(shù)示意圖(Science 2002)[58]
(2)噬菌體展示數(shù)據(jù)中的信號與噪聲
在噬菌體展示實(shí)驗(yàn)的結(jié)果中,信號是研究者想要得到的模擬肽序列,也就是能特異性結(jié)合靶位的多肽。但是,由于噬菌體展示技術(shù)本身固有的原因,在淘選得到模擬肽的同時,也將不可避免地得到一些噪聲序列,也就是所謂的靶位無關(guān)多肽(target-unrelated peptides, TUP)[59, 60]。這些噪聲序列可分為兩類。一類是選擇相關(guān)TUP (Selection-related TUP, SrTUP),專指發(fā)生在噬菌體的結(jié)合選擇環(huán)節(jié),能夠結(jié)合篩選體系中某種成分但并非與靶位特定位點(diǎn)結(jié)合的噬菌體展示多肽。由于靶位本身及淘選體系的復(fù)雜性,文庫中的噬菌體除了與研究者期待的靶位位點(diǎn)結(jié)合外,還可能與淘選體系中的固相基質(zhì)(如塑料和磁珠)、檢測放大分子(如鏈親和素、蛋白A)、封閉試劑(如牛血清白蛋白)、污染分子(如胎牛血清中的牛免疫球蛋白、大腸桿菌內(nèi)毒素)及靶位的其它位點(diǎn)結(jié)合。另一類是增殖相關(guān)TUP (Propagation-related TUP, PrTUP),專指發(fā)生在噬菌體增殖環(huán)節(jié),不是因?yàn)槟芘c靶位結(jié)合,而是因?yàn)榫哂懈臁⒏鼜?qiáng)的增殖能力而進(jìn)入實(shí)驗(yàn)結(jié)果里的多肽[61]。與選擇相關(guān)TUP一樣,增殖相關(guān)TUP也極其常見,尤其多見于最為常用的基于M13噬菌體的Ph.D.系列商業(yè)化文庫[62]。基于fd-tet噬菌體的文庫增加了抵抗增殖相關(guān)噪聲的設(shè)計(jì);即便如此,增殖相關(guān)噪聲序列仍不時出現(xiàn)在噬菌體展示實(shí)驗(yàn)結(jié)果中[61]。實(shí)驗(yàn)結(jié)果顯示,增殖相關(guān)TUP不僅可能混入噬菌體展示的結(jié)果中,有的時候甚至?xí)髟资删w展示數(shù)據(jù)[62]。計(jì)算機(jī)模擬結(jié)果顯示,噬菌體增殖能力的差異即便微小到10%,經(jīng)過幾輪增殖后也能引起噬菌體文庫克隆豐度的極顯著差異[63]。因此,噬菌體展示的實(shí)驗(yàn)結(jié)果往往是模擬肽與靶位無關(guān)多肽的混合物。
如果不加區(qū)分,將噪聲作為信號,也就是把噬菌體展示實(shí)驗(yàn)結(jié)果中的靶位無關(guān)多肽當(dāng)作模擬肽,不言而喻,其研究結(jié)果往往是誤導(dǎo)的和悲劇的。令人遺憾的是,這種情況相當(dāng)常見。例如,全球有幾十個研究組都報(bào)道過一種序列為SVSVGMKPSPRP的神奇“模擬肽”。匯總各研究組的實(shí)驗(yàn)結(jié)果,提示它可能與40多種不同的靶位結(jié)合[64, 65]。這些靶位包括:多種器官與組織(如頭發(fā)、皮膚、小鼠腫瘤血管、小鼠胚胎),多種細(xì)胞(如神經(jīng)元、前列腺癌細(xì)胞、肝癌細(xì)胞、小鼠卵細(xì)胞、金黃色葡萄球菌),RNA,DNA,多種抗體,多種酶(如葡萄糖氧化酶、乙酰膽堿酯酶),多種蛋白(如神經(jīng)生長因子、艾滋病毒Vif蛋白),多種多肽及各種材料(如磷脂酰絲氨酸脂質(zhì)體、腦膜炎球菌脂多糖、羥基磷灰石、聚四氟乙烯、墨水染料、單壁碳納米管、鈷納米顆粒、鉑鐵合金及磷化銦、砷化鎵、氮化鎵等半導(dǎo)體材料)結(jié)合。難道SVSVGMKPSPRP是無所不能的萬能膠水?實(shí)際上,上述多數(shù)實(shí)驗(yàn)里它只是一條增殖相關(guān)的TUP。然而,具有諷刺意味的是,相當(dāng)多的實(shí)驗(yàn)小組把噪聲作為信號,最終得出了一些錯誤的結(jié)論還如獲至寶。
令人欣慰的是,在噬菌體展示領(lǐng)域,無論是實(shí)驗(yàn)研究者還是理論研究者,都已經(jīng)開始注意到實(shí)驗(yàn)數(shù)據(jù)中的噪聲問題。在進(jìn)行后續(xù)研究之前,很有必要預(yù)先減少或盡量消除實(shí)驗(yàn)數(shù)據(jù)中的靶位無關(guān)多肽,這已逐漸成為本領(lǐng)域研究者的共識。因此,靶位無關(guān)多肽的研究已經(jīng)成為近年來噬菌體展示領(lǐng)域?qū)嶒?yàn)與生物信息學(xué)研究的熱點(diǎn)。通過采取消減淘選(subtractive panning)、提高靶位結(jié)合選擇的嚴(yán)謹(jǐn)度、減少淘選次數(shù)等各種實(shí)驗(yàn)措施,能在一定程度上減少選擇相關(guān)及增殖相關(guān)噪聲。但是,僅靠實(shí)驗(yàn)本身的改進(jìn)并不能徹底消除靶位無關(guān)多肽,這是由噬菌體展示內(nèi)在的結(jié)合選擇與感染增殖環(huán)節(jié)所決定的[63]。因此,借助信息學(xué)手段來檢測噪聲序列,進(jìn)而對噬菌體展示數(shù)據(jù)進(jìn)行計(jì)算純化等一系列預(yù)處理,不失為省時、省力、省錢的上佳之選。
(3)噬菌體展示數(shù)據(jù)預(yù)處理研究進(jìn)展
目前,噬菌體展示數(shù)據(jù)的預(yù)處理方法大體可分為三類。一是是基于信息論的方法,二是基于TUP序列特征的方法,三是基于數(shù)據(jù)庫搜索比對的方法[66]。
早在2004年,Mandava等就根據(jù)香農(nóng)的信息論提出了用信息含量(Information content)這一指標(biāo)來衡量噬菌體展示結(jié)果中每條多肽是信號還是噪聲[67]。對于噬菌體展示實(shí)驗(yàn)結(jié)果中任意一條多肽序列X1X2…XN,其出現(xiàn)在初始文庫中的概率P = P1×P2×…×PN,其中PN代表著初始文庫中某種氨基酸出現(xiàn)在第N位的頻率。多肽的信息含量INFO =﹣㏑(P)。Mandava等所謂的信息含量類似于信息論中的信息熵(information entropy)。Mandava等認(rèn)為,初始文庫中越罕見的多肽,信息含量越高,經(jīng)過幾輪淘選還能出現(xiàn)在結(jié)果中,這就越不可能是隨機(jī)事件,這樣的多肽應(yīng)該是有意義的信號;反之,越是具有增殖優(yōu)勢的噬菌體,在初始庫中就越常見,信息含量也就越低,如果出現(xiàn)在結(jié)果中則很可能是噪聲序列。根據(jù)上述假設(shè),他們開發(fā)了INFO程序[63]。
2010年,我們研究組根據(jù)Menendez等的綜述,總結(jié)了當(dāng)時所有已知靶位無關(guān)多肽的序列特征,編寫了一個基于TUP序列特征的靶位無關(guān)多肽檢測、報(bào)告與濾除程序(SAROTUP,http://immunet.cn/sarotup)[68]。我們的測試結(jié)果顯示,給噬菌體展示實(shí)驗(yàn)數(shù)據(jù)增加一個基于TUP序列特征的預(yù)處理環(huán)節(jié),不僅能極大地提高Pepsurf、Mapitope等程序預(yù)測蛋白質(zhì)相互作用位點(diǎn)的性能,還有助于基于噬菌體展示的候選疫苗篩選[68]。
為了檢測不具備已知TUP序列特征的靶位無關(guān)多肽,我們接著又構(gòu)建了一個噬菌體展示實(shí)驗(yàn)結(jié)果的數(shù)據(jù)庫(MimoDB,http://immunet.cn/mimodb),收集了全球各研究組利用噬菌體展示淘選隨機(jī)文庫的實(shí)驗(yàn)結(jié)果[64]。該數(shù)據(jù)庫每季度更新,筆者成文時版本有數(shù)據(jù)1956套,多肽序列16500條,是目前世界上最大、最全的噬菌體展示實(shí)驗(yàn)結(jié)果數(shù)據(jù)庫。去年底,我們又開發(fā)了MimoSearch、MimoBlast等幾個基于該噬菌體展示數(shù)據(jù)庫的小工具。通過MimoSearch小工具搜索數(shù)據(jù)庫,可以查看實(shí)驗(yàn)者提交的多肽序列是否與其它已發(fā)表的結(jié)果完全相同。如果多個研究組在淘選實(shí)驗(yàn)中使用的靶位不同卻又得到了完全相同的多肽序列,那么相應(yīng)多肽極可能是噪聲序列,即便它很可能不具備任何已知的噪聲序列特征。通過MimoBlast小工具可對MimoDB進(jìn)行全數(shù)據(jù)庫序列搜索比對,不僅可以找到與實(shí)驗(yàn)者提交多肽序列不完全相同但高度相似的已發(fā)表結(jié)果,從而提示靶位無關(guān)多肽,還能找出與已知TUP高度相似的多肽從而推導(dǎo)新的TUP序列特征[65]。目前,這些基于數(shù)據(jù)庫搜索比對的工具也已集成到了SAROTUP程序的2.0版中。
(4)基于噬菌體展示的表位預(yù)測[49]
由于模擬肽和抗原上的天然表位能與同一抗體結(jié)合,所以,通常認(rèn)為,模擬肽及其所模擬的天然表位應(yīng)該具有相似的物理化學(xué)性質(zhì)和空間關(guān)系。這是目前所有基于噬菌體展示的表位預(yù)測方法共同的假設(shè)與前提。在這個假設(shè)與前提下,通過比對模擬肽序列(或一套模擬肽的共同序列)與抗原序列,抗原序列中與模擬肽序列匹配(一致或高度相似)的部分可能就是相應(yīng)的天然表位。這種情況已得到不少實(shí)驗(yàn)結(jié)果的驗(yàn)證。但是,在針對蛋白質(zhì)抗原的體液免疫中,所產(chǎn)生的抗體約有90%所識別的都是空間構(gòu)象性表位;或者說與抗體結(jié)合的絕大多數(shù)天然表位在序列上都是不連續(xù)。因此,基于噬菌體展示的表位預(yù)測,在絕大多數(shù)情況下,模擬肽與抗原在一級結(jié)構(gòu)上沒有或者僅有非常低的相似性。因此,如何把模擬肽合理映射到抗原的空間結(jié)構(gòu)上或分散的抗原序列中,就成為基于噬菌體展示的表位預(yù)測研究的核心問題。目前,相關(guān)算法、流程、單機(jī)及網(wǎng)絡(luò)程序包括PEPTIDE、FINDMAP、EPIMAP、SiteLight、Mapitope、RELIC、3DEX、MIMOX、MIMOP、PepSurf、Pepitope、Pep-3D-Search、EpiSearch、MimoPro、LocaPep、PepMapper等[66]。
(5)噬菌體展示免疫信息學(xué)研究感悟
回顧既往7年我們在噬菌體展示領(lǐng)域的免疫信息學(xué)研究,我們做了數(shù)據(jù)集、數(shù)據(jù)庫、數(shù)據(jù)預(yù)處理軟件、數(shù)據(jù)解析預(yù)測軟件,我們深深感受到了計(jì)算的力量。僅以我們的噬菌體展示實(shí)驗(yàn)結(jié)果數(shù)據(jù)庫而言,這讓我們充分體會到為什么Rammensee教授要將之稱為hard了。數(shù)據(jù)的核實(shí)、提取及無休止的更正與更新,讓數(shù)據(jù)庫工作真的非常艱苦hard。當(dāng)然,Rammensee教授的原意是指這些直接來源的實(shí)驗(yàn)結(jié)果的數(shù)據(jù)是如何hard,如何可靠;而建立在數(shù)據(jù)之上的算法與預(yù)測軟件,那產(chǎn)出就軟了,因?yàn)槭怯?jì)算預(yù)測結(jié)果,但好歹還可通過實(shí)驗(yàn)驗(yàn)證,所以就算個半軟吧;至于無法實(shí)驗(yàn)驗(yàn)證的數(shù)學(xué)模型與仿真,那就全軟了。這種認(rèn)識,籠罩整個生物醫(yī)學(xué)界,那就是:實(shí)驗(yàn)最可靠,實(shí)驗(yàn)是金標(biāo)準(zhǔn);生物信息學(xué),奇技淫巧罷了,計(jì)算的結(jié)果靠不住。但是,當(dāng)我們搜集所有噬菌體展示實(shí)驗(yàn)結(jié)果到MimoDB數(shù)據(jù)庫中時,我遇到了實(shí)驗(yàn)研究的各種怪狀;當(dāng)所有噬菌體展示實(shí)驗(yàn)結(jié)果通過MimoDB平臺可以相互對照后,我們發(fā)現(xiàn),實(shí)驗(yàn)結(jié)果也不都是可靠的,實(shí)驗(yàn)結(jié)果也不都是金標(biāo)準(zhǔn),以子之矛、攻子之盾的地方實(shí)在太多。意外地,MimoDB可以成為一個噬菌體展示領(lǐng)域的循證生物學(xué)分析平臺,可以幫助實(shí)驗(yàn)研究者消除實(shí)驗(yàn)結(jié)果中的噪聲,這就是數(shù)據(jù)庫的力量。
3.在抗體研究中的應(yīng)用
目前,有很多單機(jī)及網(wǎng)絡(luò)程序可用于抗體的基礎(chǔ)與應(yīng)用研究的方方面面[13]。例如,使用Abnum可按Kabat、Chothia等三種方式給抗體序列定位編號,從而確定CDR區(qū)[69];使用SUBIM確定抗體重鏈、輕鏈的亞類[70];使用AbCheck檢查提交的抗體序列中是否可能存在克隆偽跡(cloning artifacts*)或測序錯誤[71];使用SHAB評估抗體的人源化程度[72];使用PAPS預(yù)測抗體重鏈與輕鏈堆疊角度(VH/VL packing angle)[73];使用AbM、WAM[74]、SWISS-MODEL[75]、PIGS[76]、RosettaAntibody[77]等建立抗體的三維結(jié)構(gòu)模型。此外,計(jì)算方法也可用于抗體親和力成熟、防止凝聚、延長半衰期的設(shè)計(jì)等各個方面[13]。
免疫信息學(xué)已經(jīng)極大地改變了單克隆抗體產(chǎn)業(yè)。目前,抗體測序已成常規(guī),而一旦有了抗體序列,就可以通過序列分析確定其重鏈、輕鏈類型而無需實(shí)驗(yàn)確認(rèn);通過同源建模、分子對接及動力學(xué)等分析更能推斷其相應(yīng)抗原的大致情況。我們與華西醫(yī)大合作,對他們通過雜交瘤技術(shù)獲得的抗蘇丹紅I單抗進(jìn)行了免疫信息學(xué)研究,通過從頭計(jì)算與同源建模相結(jié)合的方式,獲得了其空間結(jié)構(gòu)的理論模型(見圖7-6)。該圖左側(cè)為抗體輕鏈,其綠色、水色、藍(lán)色、紫色部分對應(yīng)LFR、L1、L2、L3;右側(cè)為抗體重鏈,其紅色、水色、藍(lán)色、紫色段分別對應(yīng)HFR、H1、H2、H3。正中凹洞為抗原結(jié)合位點(diǎn),凹洞底部主要由重鏈骨架區(qū)形成,側(cè)壁主要由L3和H3形成。整個圖像由通過PMV軟件以分子表面的方式顯示,其中分子表面用MSMS軟件計(jì)算。
圖7-6抗蘇丹紅I單抗可變區(qū)空間結(jié)構(gòu)理論模型
我們在劍橋結(jié)構(gòu)數(shù)據(jù)庫(Cambridge Structural Database,CSD)中查詢到的蘇丹紅I的晶體結(jié)構(gòu)實(shí)驗(yàn)數(shù)據(jù)共4條,沒有蘇丹紅II、III、IV晶體結(jié)構(gòu)的實(shí)驗(yàn)數(shù)據(jù)。使用Gaussian軟件,計(jì)算出蘇丹紅I-IV的空間結(jié)構(gòu)。將4條實(shí)驗(yàn)驗(yàn)數(shù)據(jù)與理論計(jì)算的蘇丹紅I結(jié)構(gòu)進(jìn)行疊合,發(fā)現(xiàn)實(shí)驗(yàn)數(shù)據(jù)之間RMSD差別竟然比與理論結(jié)果之間的差異還大,說明計(jì)算結(jié)果精確可靠。用Autodock4.1將理論計(jì)算的蘇丹紅I-IV結(jié)構(gòu)與抗蘇丹紅I單抗模型進(jìn)行了盲對接與定位對接,得到了蘇丹紅I(見圖7-7)到蘇丹紅IV與抗蘇丹紅I單抗可能的結(jié)合模式。頗為有趣的是,蘇丹紅I、II與抗蘇丹紅I單抗的抗原結(jié)合位點(diǎn)對接結(jié)合時構(gòu)象相似:“2-萘酚”(naphthalen-2-ol)基團(tuán)在內(nèi),其余部分朝外;蘇丹紅III、IV與抗蘇丹紅I單抗的抗原結(jié)合位點(diǎn)對接結(jié)合時構(gòu)象相似:2-萘酚”(naphthalen-2-ol)基團(tuán)在外,其余部分在內(nèi)。
圖7-7 抗蘇丹紅I單抗-蘇丹紅I相互作用示意圖
在上圖中,抗體輕鏈綠色,重鏈橙色,均按卡通模式顯示。根據(jù)CCP4軟件包計(jì)算結(jié)果,蘇丹紅I在抗原結(jié)合袋中與輕鏈的H34、Q89、T97(綠字標(biāo)出)及重鏈的V37、W47、E50、V97、K98、W103等主要通過范德華力相互作用,圖中僅顯示了這些殘基中直接與蘇丹紅有范德華相互作用的重原子。此外,蘇丹紅I的N13原子與輕鏈T97殘基的OG1之間距離2.69 Å,形成氫鍵(黃色虛線)。抗蘇丹紅I單抗與蘇丹紅II的相互作用與抗蘇丹紅I單抗-蘇丹紅I的相互作用非常相似,蘇丹紅II的N13原子與輕鏈T97殘基的OG1之間距離2.67 Å,氫鍵更強(qiáng),不再另圖顯示。
我們使用了SplitPocket[78]計(jì)算了抗蘇丹紅I單抗的抗原結(jié)合袋的體積以及蘇丹紅I、II、III、IV分子的體積。在抗蘇丹紅I單抗所有袋結(jié)構(gòu)中,最大的袋位于抗原結(jié)合位點(diǎn),我們將其稱為抗原結(jié)合袋。它的尺寸為5.23Å×6.64Å×10.36 Å(寬×厚×深度),體積為359.56Å3;而蘇丹紅I、II、III、IV分子的體積分別為228.28 Å3、261.12 Å3、323.76 Å3、356.56 Å3。由于已有的研究顯示[79]:結(jié)合袋往往都要比配體大得多,配體極少能夠占據(jù)整個結(jié)合袋,所以,以上計(jì)算結(jié)果顯示,抗蘇丹紅I單抗的抗原結(jié)合袋容納結(jié)合蘇丹紅I、II分子比較容易,而要容納蘇丹紅III則有些困難,蘇丹紅IV則幾無可能。這些結(jié)果,與對接結(jié)合能數(shù)據(jù)也是較為一致的。總之,我們免疫信息學(xué)的計(jì)算分析提示:蘇丹紅I、II能與抗蘇丹紅I單抗的抗原結(jié)合位點(diǎn)結(jié)合,強(qiáng)度相近;蘇丹紅III可能有較弱的結(jié)合,而蘇丹紅IV不大可能與抗蘇丹紅I單抗結(jié)合。我們的結(jié)果返回華西后與他們實(shí)驗(yàn)的結(jié)果不盡一致!他們的實(shí)驗(yàn)結(jié)果顯示,抗蘇丹紅I單抗與蘇丹紅I親和力最高,其次蘇丹紅III,與蘇丹紅II結(jié)合較弱,不結(jié)合蘇丹紅IV。是實(shí)驗(yàn)錯了還是我們的計(jì)算不對?后來,我們的合作者反復(fù)研究,發(fā)現(xiàn)當(dāng)初結(jié)合實(shí)驗(yàn)時未考慮蘇丹紅I-IV之間溶解度的差異,糾正后的實(shí)驗(yàn)結(jié)果與我們計(jì)算的一致。計(jì)算的力量,由此可見一斑!我們也進(jìn)一步仔細(xì)閱讀他們的專利,發(fā)現(xiàn)免疫用的半抗原是蘇丹紅I修飾物(蘇丹紅I號-3-丙酸,Sudan1-C3)而并非蘇丹紅I本身。Sudan1-C3與OVA、BSA等偶聯(lián)后,除了橋聯(lián)的羧基碳原子外,其結(jié)構(gòu)比蘇丹紅I多了2個碳原子,而與蘇丹紅II的一個甲基碳原子正好重疊,另一個碳原子位置不同。因此,Sudan1-C3與蘇丹紅I、II很相近,推測引起的單克隆抗體能與蘇丹紅I、II發(fā)生較強(qiáng)交叉反應(yīng)。
我們也曾對抗CD147的美妥昔單抗(metuximab)進(jìn)行過同源建模,其理論模型見圖7-8。該圖左側(cè)為輕鏈,其綠色、水色、藍(lán)色、紫色部分對應(yīng)輕鏈骨架區(qū)(LFR)、輕鏈互補(bǔ)決定區(qū)1、2、3(L1、L2、L3);右側(cè)為重鏈,其紅色、水色、藍(lán)色、紫色段分別對應(yīng)HFR、H1、H2、H3。美妥昔單抗的抗原結(jié)合位點(diǎn)呈兩端開放的扁槽狀,L3和H3構(gòu)成槽底,L1、L2構(gòu)成左槽壁,H1、H2構(gòu)成右槽壁,LFR2區(qū)的F49及HFR3區(qū)的R94殘基也參與了形成美妥昔單抗的抗原結(jié)合位點(diǎn)。從圖中不難看出,針對蛋白質(zhì)抗原的抗體與先前針對化學(xué)小分子的抗體,它們所形成的抗原結(jié)合位點(diǎn)形態(tài)迥然不同。對于任一抗體,通過建模后對抗原結(jié)合位點(diǎn)形態(tài)的觀察,似乎就能大概知道其所針對抗原的大致類型。計(jì)算之神奇,嘆為觀止矣!
圖7-8 美妥昔單抗三維空間理論模型
4.在疫苗研究中的應(yīng)用
疫苗極大地促進(jìn)了人類健康事業(yè)的發(fā)展。但是,人類的生命與財(cái)產(chǎn)仍面臨巨大的威脅。這些威脅主要體現(xiàn)在以下五個方面。其一,是新的傳染病病原不斷出現(xiàn),如埃博拉病毒、人類獲得性免疫缺陷病毒(HIV)、新的傳染性肝炎病毒、瘋牛病病毒及SARS病毒等。其二,是一些為人熟知的人畜致病微生物不斷產(chǎn)生新的變種或耐藥性并再次成為人類生命的殺手與財(cái)富的終結(jié)者,如大腸桿菌O157、結(jié)核分枝桿菌、口蹄疫病毒、禽流感病毒等。其三,是911后整個世界面臨著日益嚴(yán)重的生物恐怖主義威脅,如911后的炭疽恐慌。其四,是大量疑難疾病急需新的治療手段,如癌癥的免疫治療。其五,是對藥品及疫苗本身生物安全性的擔(dān)憂,如傳統(tǒng)疫苗通常使用某種疾病的減毒或滅活的致病原,但這仍可能造成疾病傳播或中。正因?yàn)槿绱耍祟惿鐣牌惹行枰斓負(fù)碛懈唷⒏踩⒏煽康男碌囊呙绠a(chǎn)品。
就以疫苗最經(jīng)典的應(yīng)用領(lǐng)域——傳染病預(yù)防為例,目前已明確的致病微生物超過400中,但只針對其中30多種開發(fā)出了上市的疫苗。因此,仍然大量傳染病預(yù)防疫苗仍亟待開發(fā)。目前的疫苗研發(fā)已從傳統(tǒng)的預(yù)防性疫苗發(fā)展到治療性疫苗,適用范圍從原來單純的傳染病預(yù)防發(fā)展到對過敏性疾病、自身免疫性疾病、器官移植性疾病、計(jì)劃生育、免疫去勢、不孕不育癥、老年癡呆、腫瘤防治、戒煙戒毒等各個方面。隨著人類基因組計(jì)劃的完成與大量病原微生物基因組的闡明,人類已進(jìn)入從基因組到候選保護(hù)性抗原到保護(hù)性表位到個體化定制疫苗的時代,免疫信息學(xué)在其中發(fā)揮著重要的助推作用。
例如,在表位疫苗設(shè)計(jì)方面,EpiVax公司設(shè)計(jì)了iVAX工具包。iVAX是一套根據(jù)蛋白抗原序列,設(shè)計(jì)表位疫苗的免疫信息學(xué)工具,包括Conservatrix、EpiMatrix、ClustiMer、BlastiMer、EpiAssembler、Aggregatrix和VaccineCAD等程序。其中,Conservatrix評估九肽片段在同一病原不同毒株之間的保守性;EpiMatrix評估多肽片段的HLA-I、II分子結(jié)合能力;ClustiMer根據(jù)EpiMatrix輸出確定富含T細(xì)胞表位多肽群;BlastiMer評估這些多肽群與人類基因組間的相似性,相似的序列要么耐受難以引起免疫應(yīng)答,要么造成自身免疫病,因此需去掉;EpiAssembler將保守、特異且富含T細(xì)胞表位的多肽群合起來;Aggregatrix確定覆蓋最多HLA型別,最多毒株病原的最小一套表位;VaccineCAD將候選表位多肽合理串接,避免因多肽連接形成新的表位。
疫苗研究在線信息網(wǎng)(VaccineInvestigation andOnLineInformationNetwork,VIOLIN)也提供了大量疫苗研發(fā)相關(guān)信息,包括疫苗相關(guān)的各種數(shù)據(jù)庫及程序[80]。其中,Vaxign是一個集成的反向疫苗學(xué)在線軟件[81]。它包括兩個部分:一是可直接查詢預(yù)先已預(yù)測好的結(jié)果;二是對提交的新基因組或蛋白序列進(jìn)行實(shí)時交互分析預(yù)測。Vaxign集成了一系列軟件,包括:(1)確定蛋白抗原亞細(xì)胞定位的PSORTb,分泌或病原外膜蛋白可能是理想的候選靶標(biāo),而胞漿及內(nèi)膜蛋白則不理想;(2)預(yù)測蛋白質(zhì)跨膜方式的TMHMM,跨膜超過1次的蛋白難以克隆、表達(dá)、純化,不適宜作為重組疫苗的抗原;(3)預(yù)測粘附及粘附樣分子的SPAAN,粘附樣分子的通常是理想的疫苗靶標(biāo);(4)預(yù)測MHC-I及II結(jié)合能力的Vaxitope,此軟件由He研究組自己開發(fā);(5)分析序列相似性的BLAST,與宿主高度相似的序列要么耐受要么導(dǎo)致自身免疫,不是理想的靶標(biāo)。
最后,舉一個實(shí)際案例。腦膜炎奈瑟菌是流行性腦脊髓膜炎(簡稱流腦)的病原菌。根據(jù)其莢膜多糖抗原的差異,可將腦膜炎奈瑟菌分為至少13個血清型,其中致病的主要是A、B、C、Y及W-135血清型。迄今,A、C、Y及W-135血清型的純化多糖疫苗已使用了多年,取得了較好的預(yù)防效果;但到目前為止仍然未能開發(fā)出針對腦膜炎奈瑟菌B血清型(MenB)的疫苗。原因主要是MenB莢膜多糖一段與人唾液酸一致,其莢膜多糖不宜作為疫苗,而主要的外膜蛋白PorA變異度大,免疫后只能引起毒株特異性保護(hù),不能預(yù)防所有MenB感染(見圖7-9)。這樣,MenB導(dǎo)致的流腦愈發(fā)常見,已占美國流腦的1/3,歐洲流腦的45%-80%以上,成為嚴(yán)重的健康威脅。2000年,MenB-MC58株的全基因組測序完成[82],生物信息學(xué)方法立刻用于預(yù)測其基因,免疫信息學(xué)方法立刻用于預(yù)測、篩選保護(hù)性抗原[83],預(yù)測與實(shí)驗(yàn)相結(jié)合,很快確定了在外膜上含量相對較少、但更加保守的幾個保護(hù)性抗原如H因子結(jié)合蛋白(factor H-binding protein,FHBP)、奈瑟菌粘附素A(Neisseria adhesin A,NadA)及奈瑟菌肝素結(jié)合抗原(Neisseria heparin-binding antigen,NHBA)等。正是由于采用了這種計(jì)算加實(shí)驗(yàn)的轉(zhuǎn)化醫(yī)學(xué)策略,目前,MenB疫苗已在上市審批中[84]。
圖7-9 腦膜炎奈瑟菌B示意圖
5.在移植免疫中的應(yīng)用
人工神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法已經(jīng)用于移植免疫領(lǐng)域多年;例如,用于預(yù)測肝移植排斥、肝移植后他克莫司血藥濃度、輔助診斷腎移植超急排斥、評估腎移植并發(fā)癥、預(yù)測腎移植后巨細(xì)胞病毒感染、預(yù)測胰腺移植的預(yù)后等。器官移植,最重要的是HLA配型。然而,由于供者有限,在沒有完全匹配的情況下,如何從不完全匹配的供者選出最合適、最兼容的。美國匹茲堡大學(xué)醫(yī)學(xué)中心的Duquesnoy教授研究該問題10余年,開發(fā)了一系列基于EXCEL的宏程序HLAMatchmaker[85]。由于該程序要創(chuàng)建臨時文件并要反復(fù)地在EXCEL表格之間剪切粘貼,既費(fèi)時間又容易出錯,因此Filho等最近開發(fā)了基于HLAMatchmaker的EpHLA程序,實(shí)現(xiàn)的分析過程的完全自動化。[86]
6.在變態(tài)反應(yīng)防治中的應(yīng)用
民以食為天。然而,自古以來食物過敏(food allergy)就一直困擾著人類。流傳于民間和傳統(tǒng)醫(yī)學(xué)中的“發(fā)物”之說以及與之相關(guān)的種種飲食禁忌,在一定程度上反應(yīng)了人們對食物過敏的經(jīng)驗(yàn)認(rèn)識。現(xiàn)代醫(yī)學(xué)與免疫學(xué)研究表明,絕大多數(shù)食物過敏屬于IgE介導(dǎo)的I型變態(tài)反應(yīng),一般表現(xiàn)為哮喘、腹瀉、腹痛、蕁麻疹等;但嚴(yán)重的也可能出現(xiàn)危及生命的、與青霉素過敏反應(yīng)類似的過敏性休克。流行病學(xué)調(diào)查的數(shù)據(jù)顯示,食物過敏在成年人中的發(fā)病率約為2 ~4%;而在兒童中則更高達(dá)8%;每年每100萬人中,約32人發(fā)生嚴(yán)重甚至致命的食物過敏[87]。隨著轉(zhuǎn)基因農(nóng)作物的出現(xiàn)及其在食品工業(yè)中的廣泛應(yīng)用,公眾對食物過敏的擔(dān)憂進(jìn)一步加深。了解、獲取食物過敏的相關(guān)信息已經(jīng)成為公眾的迫切需求。“新買的轉(zhuǎn)基因玉米會不會有更高的引起食物過敏的風(fēng)險(xiǎn)?”、“我吃豌豆過敏,那吃山里朋友送來的土特產(chǎn)小扁豆會不會也過敏呢?”人們自然而然會有諸如此類的種種問題。也就是說,公眾迫切需要一個與天氣預(yù)報(bào)與預(yù)警類似的,使用方便、通俗易懂的食物過敏預(yù)測、預(yù)警與查詢系統(tǒng)。
由于食物過敏極為常見,危害廣泛,且與公眾日常生活與健康息息相關(guān),美國、日本、歐盟國家及相關(guān)國際組織如世界衛(wèi)生組織(World Health Organization, WHO)、聯(lián)合國糧農(nóng)組織(Food and Agriculture Organization, FAO)一直非常重視食物過敏及其防治研究。現(xiàn)代醫(yī)學(xué)研究認(rèn)為,食物過敏主要由食物中一些特別的蛋白質(zhì)引起;這些引起過敏(變態(tài)反應(yīng))的蛋白質(zhì)在免疫學(xué)中被統(tǒng)稱為變應(yīng)原(allergen)。目前,對食物過敏除了一些對癥治療外,并沒有根治措施。因此,避免接觸或攝入過敏食物,從而預(yù)防食物過敏的發(fā)生就至關(guān)重要了。臨床上,主要通過皮試和體外IgE檢測來診斷食物過敏。然而,臨床診斷用變應(yīng)原的種類有限,而食物及其蛋白質(zhì)組成卻紛繁復(fù)雜。如何根據(jù)有限的實(shí)驗(yàn)結(jié)果,科學(xué)嚴(yán)謹(jǐn)?shù)赝茢嗟礁辔唇?jīng)實(shí)驗(yàn)檢測的食品(包括轉(zhuǎn)基因食品)中去,從而預(yù)測、預(yù)警其引起食物過敏的風(fēng)險(xiǎn),這已經(jīng)成為免疫信息學(xué)研究的一個前沿與熱點(diǎn)。
這主要體現(xiàn)在以下兩個方面:其一是1996年以來,大量變應(yīng)原數(shù)據(jù)庫及IgE表位數(shù)據(jù)庫出現(xiàn);其二是食物過敏預(yù)測方法日趨成熟。目前,食物過敏的免疫信息學(xué)預(yù)測已經(jīng)發(fā)展出短肽匹配、序列比對、結(jié)構(gòu)比較等3種不同方法[88]。短肽匹配方法比較用戶提交的蛋白質(zhì)氨基酸序列與數(shù)據(jù)庫中所有已知過敏原有沒有8個連續(xù)相同氨基酸。如果有,則認(rèn)為該蛋白質(zhì)可能引起食物過敏。在美國、歐盟、日本,短肽匹配方法已經(jīng)廣泛用于轉(zhuǎn)基因植物的安全評估中。序列比對方法采用BLAST或FASTA程序,把用戶提交的蛋白質(zhì)氨基酸序列與數(shù)據(jù)庫中所有已知過敏原進(jìn)行序列相似性的兩兩比對。2001年,F(xiàn)AO/WHO專家組推薦,兩比對序列80個氨基酸殘基的序列節(jié)段內(nèi),如果35%以上的氨基酸殘基相同則預(yù)測該蛋白質(zhì)可能引起過敏反應(yīng)。新近的研究顯示,兩條比對好的序列中如有70%以上的氨基酸殘基相同,則幾乎肯定會有食物過敏的發(fā)生。例如,Sanchez-Monge等報(bào)道,對豌豆過敏的18位患者同時也都對小扁豆過敏[89]。豌豆中的過敏原主要是豌豆種子球蛋白(vicilin)和伴球蛋白(convicilin);而小扁豆的種子球蛋白與豌豆種子球蛋白有90%以上的氨基酸殘基相同,豌豆伴球蛋白與小扁豆伴球蛋白之間,相同氨基酸殘基超過70%。Beyer等報(bào)道[90],14位對榛子過敏的患者中,12位經(jīng)檢測有能與11S榛子球蛋白結(jié)合的IgE。同時,這14位對榛子過敏的患者約有一半也對花生或核桃、巴西果、腰果、杏仁等過敏。這些堅(jiān)果的11S球蛋白序列有45%~55%的氨基酸殘基與榛子相同。本領(lǐng)域最新的研究思路是通過比較結(jié)構(gòu)進(jìn)行食物過敏預(yù)測。由于食物過敏主要由IgE介導(dǎo),而大多數(shù)IgE識別的是變應(yīng)原上的空間構(gòu)象性表位;同時,大多數(shù)重要的變應(yīng)原都可歸結(jié)到少數(shù)幾個結(jié)構(gòu)家族,提示只要與已知變應(yīng)原具有相似空間結(jié)構(gòu),即使氨基酸序列相似性程度低,也可能形成相似的空間構(gòu)象性表位,并因此可能引發(fā)交叉的過敏反應(yīng)。2005年,在西班牙召開了一場關(guān)于過敏預(yù)測方法的專題國際學(xué)術(shù)討論會。與會專家一致認(rèn)為,F(xiàn)AO/WHO專家組2001年推薦的雙測試中,6連續(xù)氨基酸短肽匹配方法假陽性率高,不主張繼續(xù)采用。對序列比對方法中的同率閾值,與會專家存在分歧,主流意見認(rèn)為,F(xiàn)AO/WHO專家組2001年推薦的35%的閾值較為保守,但仍可在應(yīng)用中繼續(xù)檢驗(yàn)。此外,與會專家還一致看好結(jié)構(gòu)比較方法,但由于目前結(jié)構(gòu)數(shù)據(jù)仍然缺乏,同時還沒有與序列比對類似的統(tǒng)一清晰的結(jié)構(gòu)相似性指標(biāo),結(jié)構(gòu)比較方法仍有待進(jìn)一步研究。
藥物過敏是另一種最為常見的變態(tài)反應(yīng)。最近,藥物過敏有突破性發(fā)現(xiàn)[91]。至少有部分藥物,如阿巴卡韋、卡馬西平等導(dǎo)致嚴(yán)重甚至是致命的IV變態(tài)反應(yīng),其機(jī)制完全不同于傳統(tǒng)觀點(diǎn)。現(xiàn)已確定,阿巴卡韋與卡馬西平能分別結(jié)合到HLA-B*57:01、HLA-B*15:02分子的抗原結(jié)合槽,從而使相應(yīng)分子遞呈抗原肽的特性發(fā)生改變,就仿佛用藥后機(jī)體有了一個新的HLA分子,從而導(dǎo)致具有該HLA等位基因的患者發(fā)生類似器官移植不匹配的后果。今后,免疫信息學(xué)在預(yù)測藥物過敏方面必定大有所為。免疫信息學(xué)還能用到什么地方?未來總是超乎想象。
腳注
*諾華基金會是一個國際性的科學(xué)和教學(xué)慈善機(jī)構(gòu),它旨在促進(jìn)生物學(xué)、醫(yī)學(xué)和化學(xué)研究方面的合作。John Wiley從1986年起就是諾華基金會的出版商,出版了獨(dú)一無二的、受到業(yè)界高度尊重的諾華系列叢書。這些書籍包括諾華基金研討會的論文集,并且還匯編了主要科學(xué)家和學(xué)者演講后廣泛的鼓舞人心的討論和辯論。這些珍貴的資源涵蓋了20世紀(jì)后期所有關(guān)鍵的生物學(xué)發(fā)展,并且由國際知名的專家作為撰稿人,其中更包括很多諾貝爾獎獲得者。生動的辯論加上撰稿人的國際地位,為諾華基金研討會系列叢書贏得了在科學(xué)文獻(xiàn)方面獨(dú)一無二的尊貴地位。
#1971年Anthony Nolan出生并發(fā)現(xiàn)患有Wiskott-Aldrich綜合征,只能通過骨髓移植治療,但當(dāng)時沒有尋找除至親之外的供者系統(tǒng)。1973年,世界上第一例無親緣關(guān)系的配型與骨髓移植成功。居住在澳洲的安東尼媽媽雪莉.諾南(Shirley Nolan)看到了希望,不遠(yuǎn)千里回到英國,呼吁國人踴躍驗(yàn)血,并于1975年催生了Anthony Nolan基金會,建立了世界上第一個骨髓資料庫。可惜,安東尼.諾南沒有等到合適的供者,于1979年去世。1993年安東尼.諾南研究所建成;迄今已有職員171位,登記的供者已超過40萬份。
參考文獻(xiàn)
Orosz CG: An introduction to immuno-ecology and immuno-informatics. In: Design Principles for the Immune System and Other Distributed Autonomous Systems. Edited by Segel LA, Cohen IR: Oxford University Press; 2001: 125–149.
Orosz CG: The case for immuno-informatics. Graft 2002, 5(8):462-465.
Segel LA: Controlling the immune system: Diffuse feedback via a diffuse informational network. In: Complexity in biological information processing: Novartis Foundation Symposium 239. Edited by Bock GR, Goode JA: John Wiley & Sons; 2001: 31–44.
Petrovsky N, Schonbach C, Brusic V: Bioinformatic strategies for better understanding of immune function. In Silico Biol 2003, 3(4):411-416.
Rammensee HG: Immunoinformatics: bioinformatic strategies for better understanding of immune function. Introduction. Novartis Found Symp 2003, 254:1-2.
Hart E, Timmis J: Application areas of AIS: The past, the present and the future. Applied Soft Computing 2008, 8(1):191-201.
Timmis J: Artificial immune systems-today and tomorrow. Natural Computing 2007, 6(1):1-18.
Flower DR, McSparron H, Blythe MJ, Zygouri C, Taylor D, Guan P, Wan S, Coveney PV, Walshe V, Borrow P et al: Computational vaccinology: quantitative approaches. Novartis Found Symp 2003, 254:102-120; discussion 120-105, 216-122, 250-102.
Pinheiro CS, Martins VP, Assis NR, Figueiredo BC, Morais SB, Azevedo V, Oliveira SC: Computational vaccinology: an important strategy to discover new potential S. mansoni vaccine candidates. J Biomed Biotechnol 2011, 2011:503068.
Rappuoli R, Covacci A: Reverse vaccinology and genomics. Science 2003, 302(5645):602.
Jones D: Reverse vaccinology on the cusp. Nat Rev Drug Discov 2012, 11(3):175-176.
Hagmann M: Computers aid vaccine design. Science 2000, 290(5489):80-82.
Kuroda D, Shirai H, Jacobson MP, Nakamura H: Computer-aided antibody design. Protein Eng Des Sel 2012:in press.
Tomar N, De RK: Immunoinformatics: an integrated scenario. Immunology 2010, 131(2):153-168.
Benson DA, Karsch-Mizrachi I, Clark K, Lipman DJ, Ostell J, Sayers EW: GenBank. Nucleic Acids Res 2012, 40(Database issue):D48-53.
UniProtConsortium: Ongoing and future developments at the Universal Protein Resource. Nucleic Acids Res 2011, 39(Database issue):D214-219.
Madej T, Addess KJ, Fong JH, Geer LY, Geer RC, Lanczycki CJ, Liu C, Lu S, Marchler-Bauer A, Panchenko AR et al: MMDB: 3D structures and macromolecular interactions. Nucleic Acids Res 2012, 40(Database issue):D461-464.
Kanehisa M, Goto S, Sato Y, Furumichi M, Tanabe M: KEGG for integration and interpretation of large-scale molecular data sets. Nucleic Acids Res 2012, 40(Database issue):D109-114.
Lefranc MP, Giudicelli V, Ginestoux C, Jabado-Michaloud J, Folch G, Bellahcene F, Wu Y, Gemrot E, Brochet X, Lane J et al: IMGT, the international ImMunoGeneTics information system. Nucleic Acids Res 2009, 37(Database issue):D1006-1012.
Salimi N, Fleri W, Peters B, Sette A: The Immune Epitope Database: A Historical Retrospective of the First Decade. Immunology 2012:in press.
Kim Y, Ponomarenko J, Zhu Z, Tamang D, Wang P, Greenbaum J, Lundegaard C, Sette A, Lund O, Bourne PE et al: Immune epitope database analysis resource. Nucleic Acids Res 2012, 40(Web Server issue):W525-530.
Robinson J, Mistry K, McWilliam H, Lopez R, Marsh SG: IPD--the Immuno Polymorphism Database. Nucleic Acids Res 2010, 38(Database issue):D863-869.
Johnson G, Wu TT: Kabat Database and its applications: future directions. Nucleic Acids Res 2001, 29(1):205-206.
Rammensee H, Bachmann J, Emmerich NP, Bachor OA, Stevanovic S: SYFPEITHI: database for MHC ligands and peptide motifs. Immunogenetics 1999, 50(3-4):213-219.
Singh MK, Srivastava S, Raghava GP, Varshney GC: HaptenDB: a comprehensive database of haptens, carrier proteins and anti-hapten antibodies. Bioinformatics 2006, 22(2):253-255.
Sayers S, Ulysse G, Xiang Z, He Y: Vaxjo: a web-based vaccine adjuvant database and its application for analysis of vaccine adjuvants and their uses in vaccine development. J Biomed Biotechnol 2012, 2012:831486.
Saha S, Bhasin M, Raghava GP: Bcipep: a database of B-cell epitopes. BMC Genomics 2005, 6:79.
Huang J, Honda W: CED: a conformational epitope database. BMC Immunol 2006, 7:7.
Yang B, Sayers S, Xiang Z, He Y: Protegen: a web-based protective antigen database and analysis system. Nucleic Acids Res 2011, 39(Database issue):D1073-1078.
Jongeneel V: Towards a cancer immunome database. Cancer Immun 2001, 1:3.
Zhang ZH, Tan SC, Koh JL, Falus A, Brusic V: ALLERDB database and integrated bioinformatic tools for assessment of allergenicity and allergic cross-reactivity. Cell Immunol 2006, 244(2):90-96.
Mills EN, Valovirta E, Madsen C, Taylor SL, Vieths S, Anklam E, Baumgartner S, Koch P, Crevel RW, Frewer L: Information provision for allergic consumers--where are we going with food allergen labelling? Allergy 2004, 59(12):1262-1268.
Mills EN, Jenkins JA, Sancho AI, Miles S, Madsen C, Valovirta E, Frewer L: Food allergy information resources for consumers, industry and regulators. Arb Paul Ehrlich Inst Bundesamt Sera Impfstoffe Frankf A M 2006(95):17-25; discussion 25-17.
Ivanciuc O, Schein CH, Braun W: SDAP: database and computational tools for allergenic proteins. Nucleic Acids Res 2003, 31(1):359-362.
Allcorn LC, Martin AC: SACS--self-maintaining database of antibody crystal structure information. Bioinformatics 2002, 18(1):175-181.
Huang J, Kawashima S, Kanehisa M: New amino acid indices based on residue network topology. Genome Inform 2007, 18:152-161.
Huang J, Honda W, Kanehisa M: Predicting B cell epitope residues with network topology based amino acid indices. Genome Inform 2007, 19:40-49.
Larsen JE, Lund O, Nielsen M: Improved method for predicting linear B-cell epitopes. Immunome Res 2006, 2:2.
Zhang W, Xiong Y, Zhao M, Zou H, Ye X, Liu J: Prediction of conformational B-cell epitopes from 3D structures by random forests with a distance-based feature. BMC Bioinformatics 2011, 12:341.
Kulkarni-Kale U, Bhosle S, Kolaskar AS: CEP: a conformational epitope prediction server. Nucleic Acids Res 2005, 33(Web Server issue):W168-171.
Haste Andersen P, Nielsen M, Lund O: Prediction of residues in discontinuous B-cell epitopes using protein 3D structures. Protein Sci 2006, 15(11):2558-2567.
Sun J, Wu D, Xu T, Wang X, Xu X, Tao L, Li YX, Cao ZW: SEPPA: a computational server for spatial epitope prediction of protein antigens. Nucleic Acids Res 2009, 37(Web Server issue):W612-616.
Hu X, Zhou W, Udaka K, Mamitsuka H, Zhu S: MetaMHC: a meta approach to predict peptides binding to MHC molecules. Nucleic Acids Res 2010, 38(Web Server issue):W474-479.
Zhang GL, Ansari HR, Bradley P, Cawley GC, Hertz T, Hu X, Jojic N, Kim Y, Kohlbacher O, Lund O et al: Machine learning competition in immunology - Prediction of HLA class I binding peptides. J Immunol Methods 2011, 374(1-2):1-4.
Smith GP: Filamentous fusion phage: novel expression vectors that display cloned antigens on the virion surface. Science 1985, 228(4705):1315-1317.
Devlin JJ, Panganiban LC, Devlin PE: Random peptide libraries: a source of specific protein binding molecules. Science 1990, 249(4967):404-406.
Smith GP, Petrenko VA: Phage Display. Chem Rev 1997, 97(2):391-410.
Huang J, Gutteridge A, Honda W, Kanehisa M: MIMOX: a web tool for phage display based epitope mapping. BMC Bioinformatics 2006, 7:451.
Huang J, Ru B, Dai P: Prediction of protein interaction sites using mimotope analysis. In: Protein-Protein Interactions - Computational and Experimental Tools. Edited by Cai W: InTech; 2012: 189-206.
Tong AH, Drees B, Nardelli G, Bader GD, Brannetti B, Castagnoli L, Evangelista M, Ferracuti S, Nelson B, Paoluzi S et al: A combined experimental and computational strategy to define protein interaction networks for peptide recognition modules. Science 2002, 295(5553):321-324.
Thom G, Cockroft AC, Buchanan AG, Candotti CJ, Cohen ES, Lowne D, Monk P, Shorrock-Hart CP, Jermutus L, Minter RR: Probing a protein-protein interaction by in vitro evolution. Proc Natl Acad Sci U S A 2006, 103(20):7619-7624.
Pasqualini R, Ruoslahti E: Organ targeting in vivo using phage display peptide libraries. Nature 1996, 380(6572):364-366.
Hsiung PL, Hardy J, Friedland S, Soetikno R, Du CB, Wu AP, Sahbaie P, Crawford JM, Lowe AW, Contag CH et al: Detection of colonic dysplasia in vivo using a targeted heptapeptide and confocal microendoscopy. Nat Med 2008, 14(4):454-458.
Macdougall IC, Rossert J, Casadevall N, Stead RB, Duliege AM, Froissart M, Eckardt KU: A peptide-based erythropoietin-receptor agonist for pure red-cell aplasia. N Engl J Med 2009, 361(19):1848-1855.
Knittelfelder R, Riemer AB, Jensen-Jarolim E: Mimotope vaccination--from allergy to cancer. Expert Opin Biol Ther 2009, 9(4):493-506.
Lee YJ, Yi H, Kim WJ, Kang K, Yun DS, Strano MS, Ceder G, Belcher AM: Fabricating genetically engineered high-power lithium-ion batteries using multiple virus genes. Science 2009, 324(5930):1051-1055.
Nam YS, Magyar AP, Lee D, Kim JW, Yun DS, Park H, Pollom TS, Jr., Weitz DA, Belcher AM: Biologically templated photocatalytic nanostructures for sustained light-driven water oxidation. Nat Nanotechnol 2010, 5(5):340-344.
Smothers JF, Henikoff S, Carter P: Affinity selection from biological libraries. Science 2002, 298(5593):621-622.
Menendez A, Scott JK: The nature of target-unrelated peptides recovered in the screening of phage-displayed random peptide libraries with antibodies. Anal Biochem 2005, 336(2):145-157.
Vodnik M, Zager U, Strukelj B, Lunder M: Phage display: selecting straws instead of a needle from a haystack. Molecules 2011, 16(1):790-817.
Thomas WD, Golomb M, Smith GP: Corruption of phage display libraries by target-unrelated clones: diagnosis and countermeasures. Anal Biochem 2010, 407(2):237-240.
Brammer LA, Bolduc B, Kass JL, Felice KM, Noren CJ, Hall MF: A target-unrelated peptide in an M13 phage display library traced to an advantageous mutation in the gene II ribosome-binding site. Anal Biochem 2008, 373(1):88-98.
Derda R, Tang SK, Li SC, Ng S, Matochko W, Jafari MR: Diversity of Phage-Displayed Libraries of Peptides during Panning and Amplification. Molecules 2011, 16(2):1776-1803.
Ru B, Huang J, Dai P, Li S, Xia Z, Ding H, Lin H, Guo F, Wang X: MimoDB: a New Repository for Mimotope Data Derived from Phage Display Technology. Molecules 2010, 15(11):8279-8288.
Huang J, Ru B, Zhu P, Nie F, Yang J, Wang X, Dai P, Lin H, Guo FB, Rao N: MimoDB 2.0: a mimotope database and beyond. Nucleic Acids Res 2012, 40(Database issue):D271-277.
Huang J, Ru B, Dai P: Bioinformatics resources and tools for phage display. Molecules 2011, 16(1):694-709.
Mandava S, Makowski L, Devarapalli S, Uzubell J, Rodi DJ: RELIC--a bioinformatics server for combinatorial peptide analysis and identification of protein-ligand interaction sites. Proteomics 2004, 4(5):1439-1460.
Huang J, Ru B, Li S, Lin H, Guo FB: SAROTUP: scanner and reporter of target-unrelated peptides. J Biomed Biotechnol 2010, 2010:101932.
Abhinandan KR, Martin AC: Analysis and improvements to Kabat and structurally correct numbering of antibody variable domains. Mol Immunol 2008, 45(14):3832-3839.
Deret S, Maissiat C, Aucouturier P, Chomilier J: SUBIM: a program for analysing the Kabat database and determining the variability subgroup of a new immunoglobulin sequence. Comput Appl Biosci 1995, 11(4):435-439.
Martin AC: Accessing the Kabat antibody sequence database by computer. Proteins 1996, 25(1):130-133.
Abhinandan KR, Martin AC: Analyzing the "degree of humanness" of antibody sequences. J Mol Biol 2007, 369(3):852-862.
Abhinandan KR, Martin AC: Analysis and prediction of VH/VL packing in antibodies. Protein Eng Des Sel 2010, 23(9):689-697.
Whitelegg NR, Rees AR: WAM: an improved algorithm for modelling antibodies on the WEB. Protein Eng 2000, 13(12):819-824.
Arnold K, Bordoli L, Kopp J, Schwede T: The SWISS-MODEL workspace: a web-based environment for protein structure homology modelling. Bioinformatics 2006, 22(2):195-201.
Marcatili P, Rosi A, Tramontano A: PIGS: automatic prediction of antibody structures. Bioinformatics 2008, 24(17):1953-1954.
Sircar A, Kim ET, Gray JJ: RosettaAntibody: antibody variable region homology modeling server. Nucleic Acids Res 2009, 37(Web Server issue):W474-479.
Tseng YY, Dupree C, Chen ZJ, Li WH: SplitPocket: identification of protein functional surfaces and characterization of their spatial patterns. Nucleic Acids Res 2009, 37(Web Server issue):W384-389.
Liang J, Edelsbrunner H, Woodward C: Anatomy of protein pockets and cavities: measurement of binding site geometry and implications for ligand design. Protein Sci 1998, 7(9):1884-1897.
Xiang Z, Todd T, Ku KP, Kovacic BL, Larson CB, Chen F, Hodges AP, Tian Y, Olenzek EA, Zhao B et al: VIOLIN: vaccine investigation and online information network. Nucleic Acids Res 2008, 36(Database issue):D923-928.
He Y, Xiang Z, Mobley HL: Vaxign: the first web-based vaccine design program for reverse vaccinology and applications for vaccine development. J Biomed Biotechnol 2010, 2010:297505.
Tettelin H, Saunders NJ, Heidelberg J, Jeffries AC, Nelson KE, Eisen JA, Ketchum KA, Hood DW, Peden JF, Dodson RJ et al: Complete genome sequence of Neisseria meningitidis serogroup B strain MC58. Science 2000, 287(5459):1809-1815.
Pizza M, Scarlato V, Masignani V, Giuliani MM, Arico B, Comanducci M, Jennings GT, Baldi L, Bartolini E, Capecchi B et al: Identification of vaccine candidates against serogroup B meningococcus by whole-genome sequencing. Science 2000, 287(5459):1816-1820.
Black S, Pizza M, Nissum M, Rappuoli R: Toward a meningitis-free world. Sci Transl Med 2012, 4(123):123ps125.
Duquesnoy RJ: Antibody-reactive epitope determination with HLAMatchmaker and its clinical applications. Tissue Antigens 2011, 77(6):525-534.
Filho HL, da Mata Sousa LC, von Glehn Cde Q, da Silva AS, dos Santos Neto Pde A, do Nascimento F, de Castro AF, do Nascimento LM, Kneib C, Bianchi Cazarote H et al: EpHLA software: a timesaving and accurate tool for improving identification of acceptable mismatches for clinical purposes. Transpl Immunol 2012, 26(4):230-234.
Gibson J: Bioinformatics of protein allergenicity. Mol Nutr Food Res 2006, 50(7):591.
Goodman RE: Practical and predictive bioinformatics methods for the identification of potentially cross-reactive protein matches. Mol Nutr Food Res 2006, 50(7):655-660.
Sanchez-Monge R, Lopez-Torrejon G, Pascual CY, Varela J, Martin-Esteban M, Salcedo G: Vicilin and convicilin are potential major allergens from pea. Clin Exp Allergy 2004, 34(11):1747-1753.
Beyer K, Grishina G, Bardina L, Grishin A, Sampson HA: Identification of an 11S globulin as a major hazelnut food allergen in hazelnut-induced systemic reactions. J Allergy Clin Immunol 2002, 110(3):517-523.
Illing PT, Vivian JP, Dudek NL, Kostenko L, Chen Z, Bharadwaj M, Miles JJ, Kjer-Nielsen L, Gras S, Williamson NA et al: Immune self-reactivity triggered by drug-modified HLA-peptide repertoire. Nature 2012, 486(7404):554-558.
總結(jié)
- 上一篇: ansible系列3-pyYAML
- 下一篇: 建行信用卡装修贷款申请条件有哪些?你是否