databasemetadata获取表注释_宏基因组测序中短序列的注释
宏基因組中短序列的注釋是理解測序微生物群落潛在功能的重要步驟之一。單純利用局部匹配的注釋容易混淆那些蛋白同源性且局部序列非常相似的序列,進而不能真實準確反映復雜蛋白質家族中多變的結構和功能域。
今天我們介紹一種新方法MetaGeneHunt,該方法可以識別特定的蛋白質結構域,并根據結構域的長度對hit-counts進行標準化。使用MetaGeneHunt對MG-RAST對公開獲取的宏基因組進行分析,包括哺乳動物微生物群和Twin Gut腸道菌群研究,以評估短序列中含GH蛋白的頻率和位于GH區域的匹配頻率。
在對糖苷水解酶(GHs)的研究,發現在所有樣本中4726,023條含有GH區域蛋白匹配的短讀序列中,有58.3%的序列位于目標區域之外。接下來,在比較樣本之前,將匹配到目標區域的hit-counts標準化,以說明對應的域長度。腸道和盲腸中的菌群顯示出與不同微生物組合相匹配的GH譜特征。
相反,胃和結腸的菌群在結構和功能上顯示出更多樣性和多變性。在樣本中,盡管有波動,但碳水化合物處理的潛在功能變化與群落組成的變化相關。這表示,在利用MG-RAST平臺處理宏基因組測序序列時,MetaGeneHunt是一種能快速準確地識別短序列宏基因組中離散蛋白結構域的新方法。
在過去的幾十年里,宏基因組DNA的高通量測序已經產生了大量的序列,這些序列的特征為我們了解微生物群落的結構和功能提供了許多認知。例如,截至2019年12月,MG-RAST托管了約40萬個可公開訪問的帶注釋的數據集。在數據處理過程中,不考慮目標區域(或蛋白質)的長度會導致兩個主要的系統偏差。
首先,目標區域越長,他們的頻率就越容易被高估。其次,如果數據處理涉及稀疏性,較短的、不太豐富的域,盡管重要,也可能被丟棄。為了解決這些問題,研究人員設計了MetaGeneHunt來精確注釋從MG-RAST檢索到的短序列宏基因組中的蛋白質結構域。MetaGeneHunt將MG-RAST提供的短序列局部比對與M5nr數據庫中精確的基于PFam的蛋白質結構域識別相結合,以在公共可訪問數據集中識別蛋白質結構域。
方 法
MetaGeneHunt簡要說明:
MetaGeneHunt的設計基于MG-RAST平臺注釋的數據集的。在使用GeneHunt創建的M5nr數據庫中,MetaGeneHunt使用了糖苷水解酶和輔助結構域(如CBMs)的精確的特定結構域注釋(PFam)作為參考注釋表(RAT)。
首先,MetaGeneHunt使用MG-RAST應用程序接口從MG-RAST(“330”和“650”文件)檢索M5nr注釋的宏基因組。接下來,使用來自RAT的注釋命中的MD5id,在文件“650”中識別與潛在的GHs匹配的序列。
接下來,對于這些局部匹配,將精確對齊位置與RAT中特定于域的注釋進行比較。如果查詢中的>20AAs與特定的蛋白質結構域(考慮到RAT中的HMM-envelope位置)對齊,則該結構域注釋被轉移到查詢中。
相反,如果查詢的>20AAs匹配在目標區域之外(例如,在連接域、輔助域、信號肽中),則該注釋被認為是否定的。用戶可以隨意修改重疊(overlapping)的閾值。接下來,從序列聚集文件( “330”文件)中檢索每個識別出的命中的實際序列計數。最后,在后續的數據處理和標準化過程中,根據Pfam數據庫中蛋白質結構域的大小,對每個蛋白質結構域的命中計數進行標準化。
方法驗證:
文中使用的原始數據和預處理數據可在MG-RAST服務器上公開訪問。在mgp20861項目中可獲得對應于?555百萬個100 bp序列的小鼠微生物組數據。使用MG-RAST API 檢索了哺乳動物微生物組數據(mgp116)和雙腸腸道菌群研究(mgp10)其他數據集。哺乳動物微生物組研究糖苷水解酶(GHs)和相關酶的附加注釋表是從Brian Muegge(直接對應)獲得的。使用MG-RAST API檢索了預處理的數據,包括從門到屬水平的讀物分類注釋。數據分析和統計使用R統計語言。
主 要 結 果
1. 糖苷水解酶的識別,識別蛋白質結構域并考慮其長度產生了一個健壯的功能注釋系統,對hit-count的標準化反應了目標區域的實際分布。
a).橫軸為目標區域的原始hit-count,縱軸為標準化后的hit-count,圖中的顏色階梯表示目標區域的長度。這種標準化主要影響長度短的域(例如,GH78、GH25)、小的亞域(例如,GH31N、GH36C)和目標區域的附屬域(例如,CMB5_12)。
b).小鼠胃腸道中目標區域的標準化后的hit-count(僅顯示大于100的hit-count的區域),可見,標準化后的hit-count與結構域長度無關(附加文件中有對兩者做相關分析,結果分別為P.pearson=0.38,P.spearman=0.33)
c).熱圖顯示了小鼠胃腸道中最受樣本來源影響的被稀疏標準化的GH區域的分布(two-way方差分析)。縱軸的注釋列Mx:F/M:S/I/C/L分別表示小鼠(樣本號):雌性/雄性:胃/腸/盲腸/結腸
2. 小鼠腸道菌群的結構,與盲腸中的微生物群落相比,結腸與腸道中的微生物群落結構更相似,結腸和胃中的微生物群落有較高的相似性。
a).對受樣本來源影響較大的樣本根據屬水平進行樣本聚類(Bray-Curtis距離指數,complete linkage)。
b).樣本間的微生物群落組成,只展示了相對豐度至少占群落中1%的屬水平物種(V:疣微菌門,B:擬桿菌門,A:放線菌門,F:厚壁菌門)。
c).NMDS分析(2D stress=0.020),展示了在樣本聚類中都存在的這些菌屬,在b)中的主要類群用標簽指示,不同門水平按顏色區分,點的大小反映該屬在樣本中的最大頻率。
微生物組中的結構-功能關系,多樣性仍然與潛在功能高度相關。胃和盲腸的群落在結構和功能上是最多樣化的。其次,腸道中的群落組成和功能大多是保守的,而與保守的微生物群落相關的大腸則顯示出可變功能潛力。
對同一位置的樣本的微生物群落結構和功能差異進行成對比較(Bray-Curtis),線條為線性回歸的結果。在胃,腸,盲腸和結腸中,屬水平群落結構的變化與多糖解構功能的相關性分析結果表示除大腸外,其余的P.pearson的值都在0.001以下。胃和盲腸的群落在結構和功能上是最多樣化的,盡管多樣性仍然與功能潛力高度相關。其次,腸道中的群落組成和功能大多是保守的,而與保守的微生物群落相關的大腸則顯示出可變的功能潛力。
結 論
MetaGeneHune提供了一種新的方法來識別短序列宏基因組中的GHs及其相關結構域。識別結構域而不是蛋白質是至關重要的,因為GH結構域與許多可變結構域相關。這種新方法基于GeneHunt注釋方法,并對其進行補充,旨在分析MG-RAST中的短序列宏基因組。因此,它不需要大型計算機基礎設施。
通過這種新方法對小鼠胃腸道菌群的GHs研究發現,在胃中,雖然富含碳水化合物處理的酶,但相對于胃腸道的其他部分,胃中沒有特定酶可供選擇;在腸道中,出現了更保守的菌群,最為富集的是擬桿菌門,它們的潛在功能主要在多糖處理上;來自結腸和胃的菌群雖然是距離最遠的,但在結構和功能上卻表現出高度的相似性。
研究人員認為在未來,利用GeneHunt和MetaGeneHunt相結合創建新的專用參考注釋表將為研究宏基因組的潛在功能提供新的更有效的途徑。
MetaGeneHunt和GH的RAT可在GitHub上公開訪問。(https://github.com/renober/MetaGeneHunt)
參 考 文 獻
Berlemont R, Winans N, Talamantes D, Dang H, Tsai HW.MetaGeneHunt for protein domain annotation in short-read metagenomes. Sci Rep.2020 May 7;10(1):7712. doi: 10.1038/s41598-020-63775-1. PMID: 32382098; PMCID:PMC7205989.
Muegge BD, et al. Diet drives convergence in gut microbiomefunctions across mammalian phylogeny and within humans. Science.2011;332:970–4. doi: 10.1126/science.1198719
Turnbaugh PJ, et al. A core gut microbiome in obese and leantwins. Nature. 2009;457:480–484. doi: 10.1038/nature07540.
Berlemont R, Martiny AC. Glycoside Hydrolases acrossEnvironmental Microbial Communities. PLOS Comput. Biol. 2016;12:e1005300. doi:10.1371/journal.pcbi.1005300.
Lozupone CA, Stombaugh JI, Gordon JI, Jansson JK, Knight R. Diversity,stability and resilience of the human gut microbiota. Nature. 2012;489:220–30.doi: 10.1038/nature11550.
Sharpton TJ. An introduction to the analysis of shotgunmetagenomic data. Front. Plant Sci. 2014;5:209. doi: 10.3389/fpls.2014.00209.
相關閱讀:
谷禾健康:多快好省的宏基因組研究技巧 — 資深專家分享?zhuanlan.zhihu.com谷禾健康:如何讀懂和利用你的微生物多樣性測序結果??zhuanlan.zhihu.com谷禾健康:宏基因組的一些坑和解決方案?zhuanlan.zhihu.com谷禾健康:最新研究 《CELL》縱向多組學揭示腸易激綜合征(IBS)的潛在機制?zhuanlan.zhihu.com谷禾健康官網:
谷禾健康 - 讓你我更健康?www.guhejk.com谷禾健康 是谷禾面向健康領域的品牌,通過無創采集微量糞便樣品,常溫快遞運輸至谷禾檢測中心,經全自動化樣品處理和提取后大規模高通量測序獲取菌群基因數據并進行分析解讀,憑借全球領先的樣本積累和業界獨有的人工智能算法實現了基于腸道菌群的疾病預測和系統健康風險評估, 以及腸道菌群,病原物感染,重金屬污染以及營養物質和激素代謝水平等在內的綜合健康風險提示,并提供精準個性化的健康管理方案。公司成立于2012年,總部位于杭州,擁有優秀的研發團隊和獨立實驗室,經過多年的積累,已完成超7萬例臨床腸道菌群樣本檢測,并構建了超過25萬各類人群樣本數據庫。
谷禾健康的服務旨在通過持續不斷的研發和改進,大量自動化提升效率,降低檢測成本,為廣大消費者提供更好更有價值的產品。
聯系方式:400-161-1580
總結
以上是生活随笔為你收集整理的databasemetadata获取表注释_宏基因组测序中短序列的注释的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: vc2010中开始执行不调试灰的_消防水
- 下一篇: 怎么判断是不是欧拉回路_儿科医生分享:宝