GPB | 陈润生/何顺民团队发布新版SmProt数据库,提供小蛋白丰富、可靠的系统性注释...
小蛋白是翻譯自小開放閱讀框(small open reading frame, sORF)、長(zhǎng)度低于100個(gè)氨基酸的蛋白質(zhì),在此前的基因組注釋中通常被忽略。sORF廣泛存在于人類等多種生物的基因組中,包括mRNA的非翻譯區(qū)(untranslated regions, UTR)以及多種非編碼RNA (non-coding RNA, ncRNA)區(qū)域,部分能夠翻譯成小蛋白。近年來(lái),越來(lái)越多的研究發(fā)現(xiàn)小蛋白在胚胎發(fā)育、細(xì)胞凋亡、肌肉收縮等多種生物學(xué)過(guò)程中行使功能,并在腫瘤等疾病進(jìn)展中發(fā)揮作用。
由于序列較短和研究技術(shù)的限制,小蛋白在此前的基因組注釋中通常被忽略。此外,雖然基因組中有豐富的sORF,但經(jīng)過(guò)充分研究的小蛋白數(shù)量非常有限,其遺傳學(xué)功能與角色仍存在著許多未知。因此,我們亟需對(duì)小蛋白進(jìn)行系統(tǒng)的挖掘與注釋,以促進(jìn)對(duì)非編碼RNA和基因組的全面了解,并為各種生理和病理過(guò)程的研究提供參考。
為此,中國(guó)科學(xué)院生物物理研究所陳潤(rùn)生院士團(tuán)隊(duì)和何順民研究員團(tuán)隊(duì)合作在國(guó)際學(xué)術(shù)期刊Genomics, Proteomics & Bioinformatics在線發(fā)表了題為“SmProt: A Reliable Repository with Comprehensive Annotation of Small Proteins Identified from Ribosome Profiling”的文章(圖1),介紹了該團(tuán)隊(duì)關(guān)于新版小蛋白數(shù)據(jù)庫(kù)SmProt(http://bigdata.ibp.ac.cn/SmProt/)(圖2)的工作,旨在提供關(guān)于小蛋白豐富、可靠的系統(tǒng)性注釋。?
圖1.?文章發(fā)表于Genomics, Proteomics & Bioinformatics。?
圖2. SmProt數(shù)據(jù)庫(kù)。來(lái)源:Genomics, Proteomics & Bioinformatics
SmProt基于對(duì)419套公共核糖體圖譜測(cè)序(ribosome profiling, Ribo-seq)數(shù)據(jù)的嚴(yán)格質(zhì)控與重新分析,對(duì)已發(fā)表文獻(xiàn)、數(shù)據(jù)庫(kù)的信息挖掘,鑒定了來(lái)自人(Homo sapiens)、小鼠(Mus musculus)、大鼠(Rattus norvegicus)、果蠅(Drosophila melanogaster)、線蟲 (Caenorhabditis elegans)、酵母(Saccharomyces cerevisiae)、斑馬魚(Danio rerio)、大腸桿菌(Escherichia coli)8個(gè)物種300余種組織/細(xì)胞系的3,165,229條小蛋白翻譯事件記錄,并收集了從人類微生物組中鑒定的小蛋白家族。通過(guò)對(duì)各種來(lái)源信息的交叉整合以及對(duì)結(jié)果的合并去冗余,獲得了638,958個(gè)唯一的小蛋白,包括大量由UTR、非編碼RNA編碼的小蛋白(圖3)。??
圖3. SmProt中的小蛋白統(tǒng)計(jì)數(shù)據(jù)。來(lái)源:Genomics, Proteomics & Bioinformatics
SmProt主要基于肽酰基位點(diǎn)(peptidyl-tRNA site, P-site)偏移譜的三堿基周期性特征保證所鑒定小蛋白翻譯事件的可靠性:
首先,研究團(tuán)隊(duì)基于獨(dú)立發(fā)布的工具Ribo-TISH構(gòu)建了新的翻譯事件解析系統(tǒng),允許使用常規(guī)Ribo-seq(regular Ribo-seq, rRibo-seq)和翻譯起始測(cè)序(translation initiation sequencing, TI-seq)準(zhǔn)確檢測(cè)ORF和TIS。其使用秩和檢驗(yàn)檢測(cè)三堿基周期性,使用負(fù)二項(xiàng)分布檢驗(yàn)檢測(cè)翻譯起始位點(diǎn)(translation initiation site, TIS),預(yù)測(cè)精度優(yōu)于其他已建立的方法。
其次,除了基于Ribo-TISH quality模塊的質(zhì)量控制外,對(duì)所有數(shù)據(jù)集進(jìn)行人工校驗(yàn),以確保Ribo-seq數(shù)據(jù)具有清晰的三堿基周期性和明確的P-site偏移量,進(jìn)一步消除噪聲。
第三,提供多水平的支持證據(jù),包括 (1)多個(gè)Ribo-seq數(shù)據(jù)集鑒定結(jié)果的P value,代表不同樣本和處理?xiàng)l件下檢測(cè)小蛋白的置信度;(2)相應(yīng)基因組區(qū)域的PhyloCSF分值,反映其編碼能力;(3)來(lái)自質(zhì)譜數(shù)據(jù)的肽段證據(jù)。另外,基于文獻(xiàn)數(shù)據(jù)庫(kù)挖掘的小蛋白也與以上分析結(jié)果進(jìn)行交叉整合,以互相驗(yàn)證。
同一物種中,從不同數(shù)據(jù)集和轉(zhuǎn)錄本鑒定出的相同基因組定位的sORF,被認(rèn)為是相同的小蛋白,對(duì)其進(jìn)行合并但保留不同數(shù)據(jù)集和轉(zhuǎn)錄本來(lái)源的信息。對(duì)于所鑒定的小蛋白,SmProt還進(jìn)行了系統(tǒng)全面的注釋,包括基本注釋(圖4)與功能性注釋(圖5):
1.SmProt整合多種來(lái)源的小蛋白信息,提供基本注釋包括物種來(lái)源、組織/細(xì)胞系來(lái)源、數(shù)據(jù)來(lái)源、基因來(lái)源、長(zhǎng)度、序列、基因組定位、起始密碼子、編碼基因區(qū)塊、基因組區(qū)域編碼能力、分子量,提供小蛋白的Ribo-seq分析信息、文獻(xiàn)數(shù)據(jù)庫(kù)收集信息、質(zhì)譜檢測(cè)肽段信息,并基于Ribo-seq數(shù)據(jù)提供其基因注釋、翻譯起始注釋、顯著性水平、翻譯水平等信息。
2.基于蛋白序列分析,提供小蛋白功能域與蛋白家族注釋,為功能性小蛋白的鑒定與研究提供參考依據(jù)。
3.基于翻譯起始位點(diǎn)選擇,提供小蛋白的不同亞型注釋。
4.參考RNA-seq數(shù)據(jù)計(jì)算表達(dá)量RPKM?(Reads Per Kilobase per Million mapped reads)的方式,基于Ribo-seq數(shù)據(jù)對(duì)每個(gè)sORF的閱讀框內(nèi)reads(in-frame reads)進(jìn)行計(jì)數(shù),并基于文庫(kù)測(cè)序深度(樣本in-frame reads總數(shù))和sORF長(zhǎng)度進(jìn)行歸一化,以代表sORF的翻譯水平。
5.SmProt基于人類Ribo-seq數(shù)據(jù)鑒定了小蛋白編碼序列上2萬(wàn)多個(gè)變異,及其對(duì)小蛋白的影響。有研究表明,上游ORF(upstream ORF, uORF)可通過(guò)泄漏掃描、重新啟動(dòng)和核糖體停滯等機(jī)制來(lái)調(diào)節(jié)下游 CDS的翻譯。為促進(jìn)對(duì)基因組調(diào)控機(jī)制的全面了解,SmProt集成多個(gè)全基因組測(cè)序(whole genome sequencing, WGS)項(xiàng)目資源,評(píng)估了人類全基因組變異對(duì)可能翻譯的uORF及其下游蛋白編碼序列(coding sequence, CDS)的影響。
6.進(jìn)一步地,基于人類的Ribo-seq數(shù)據(jù)來(lái)源樣本的表型信息,SmProt鑒定了包括腫瘤在內(nèi)16種疾病中特異性存在的小蛋白及小蛋白上的變異,并基于已發(fā)表文獻(xiàn)收錄了已知的疾病相關(guān)小蛋白,為臨床醫(yī)學(xué)提供基于小蛋白視角的研究前景。
圖4. 基于多種數(shù)據(jù)來(lái)源的小蛋白基本注釋。?來(lái)源:Genomics, Proteomics & Bioinformatics
圖5. 小蛋白的功能性注釋。來(lái)源:Genomics, Proteomics & Bioinformatics
綜上,SmProt對(duì)多個(gè)物種中小蛋白編碼基因進(jìn)行了系統(tǒng)性鑒定,進(jìn)一步豐富了基因組注釋,并通過(guò)全新的和多種來(lái)源、級(jí)別的翻譯證據(jù),確保結(jié)果的可靠性。當(dāng)前SmProt版本提供了更加豐富全面的注釋信息和功能模塊,數(shù)據(jù)量、數(shù)據(jù)質(zhì)量極大提升,并為非編碼RNA研究、功能基因組學(xué)研究以及臨床研究提供了新的參考。
中國(guó)科學(xué)院生物物理研究所的何順民研究員、張鵬副研究員、陳潤(rùn)生院士為該文共同通訊作者,中國(guó)科學(xué)院大學(xué)的李燕燕、中國(guó)科學(xué)院生物物理研究所的周紅紅與陳曉敏為該文并列第一作者。該研究得到了國(guó)家重點(diǎn)研發(fā)計(jì)劃、國(guó)家自然科學(xué)基金、中國(guó)科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(xiàng)(B類)、中國(guó)科學(xué)院信息化專項(xiàng)、科技部科技基礎(chǔ)資源調(diào)查專項(xiàng)、國(guó)家基因組科學(xué)數(shù)據(jù)中心的支持。?
參考資料:
Yanyan Li, Honghong Zhou, Xiaomin Chen, Yu Zheng, Quan Kang, Di Hao, et al. SmProt: A Reliable Repository with Comprehensive Annotation of Small Proteins Identified from Ribosome Profiling. Genomics Proteomics?Bioinformatics?2021. ?https://doi.org/10.1016/j.gpb.2021.09.002.?
往期精品(點(diǎn)擊圖片直達(dá)文字對(duì)應(yīng)教程)
機(jī)器學(xué)習(xí)
后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集
總結(jié)
以上是生活随笔為你收集整理的GPB | 陈润生/何顺民团队发布新版SmProt数据库,提供小蛋白丰富、可靠的系统性注释...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 监督学习 | 集成学习 之Bagging
- 下一篇: 基于VTK User Guide和VTK