Cell | 大规模多组织转录组学研究揭示长非编码RNA与人类复杂疾病的联系
長非編碼RNA(long noncoding RNA, lncRNA)是一類普遍存在的異質RNA。與蛋白質編碼基因不同,lncRNA的表達較低,組織特異性強,個體間的表達差異較大,因此,其表觀遺傳標記、剪接和轉錄結構各不相同。許多lncRNA基因在基因調控中起著重要作用,是一類廣泛參與人類疾病發生機制的調控元件。但目前只有少數lncRNA基因與人類疾病的關系已知,例如癌癥中的HOTAIR、阿爾茨海默病的BACE1-AS、前列腺癌中的PRNCR1和PCGEM1。而在成千上萬的lncRNA基因中識別具有重要功能的lncRNA仍然是一個重大挑戰。
文章發表于Cell
近日,斯坦福大學Stephen B. Montgomery研究團隊在Cell上發表題為“Population-scale tissue transcriptomics maps long non-coding RNAs to complex disease”的研究文章。在該研究中,研究團隊利用基因型組織表達項目(The Genotype Tissue Expression (GTEx) Project)的v8數據和多組織轉錄組學數據,對來自49個不同組織中14100個lncRNA基因的表達、遺傳調控、細胞環境和性狀關聯進行了分析,確定了1432個lncRNA基因特有的性狀和疾病關聯,其中800個不能通過鄰近蛋白質編碼基因的強效應來解釋,揭示了lncRNA與人類疾病發生之間的聯系。
圖1.研究概要。來源:Cell
首先,該研究通過比較不同組織轉錄組中lncRNA基因的表達情況,探究了lncRNA基因的組織特異性。研究人員觀察到,在14100個lncRNA基因中約95%至少在一個組織中表達。進一步將lncRNA基因分為反義基因和基因間基因,發現其表達率分別為96.5%和94%。同時,GTEx數據分析結果也顯示出lncRNA基因表達的組織特異性,特別是基因間lncRNA基因。此外,研究團隊開發了一種基于微陣列的檢測新方法,以檢測到更多組織特異性lncRNA基因。在上述14100個基因中,最終檢測到316個組織特異性lncRNA基因(圖2A),且組織特異性lncRNA基因在睪丸、大腦、血液和皮膚組織中表達最頻繁。
為探究基因變異對lncRNA表達的影響,研究人員通過表達數量性狀定位(expression quantitative trait locus,eQTL)分析了基因突變與lncRNA基因表達量之間的相關性。研究發現,在14100個lncRNA基因中,有67.3%是eGenes,意味著它們至少與一種遺傳變異顯著相關。在每個組織中,約50%的lncRNA基因檢測為eGenes,約80%表達蛋白質編碼基因(圖2B)。除了觀察到含有eQTLs的lncRNA基因豐度較低之外,還發現與蛋白質編碼基因相比,lncRNA基因與其相關基因轉錄起始位點(TSS)之間的距離較短(圖2C),表明lncRNA基因比蛋白質編碼基因具有更簡單的調控機制。此外,lncRNA eQTLs比編碼蛋白質的eQTLs具有更高的效應大小(圖2D),表明lncRNA表達的調控靶點較少,調控方式更簡單。
在發現的lncRNA基因中,觀察到2783例有組織特異性,比蛋白質編碼基因更為常見(圖2F),睪丸、皮膚、血液、甲狀腺和大腦的數量最多。此外,15%的組織特異性基因在所有組織類別中都有表達(圖2G),表明lncRNA基因調控效應具有組織特異性。
圖2. GTEx組織中基因表達的特異性和eQTLs。來源:Cell
研究團隊發現,相對于所有的lncRNA基因,無組織特異性的eGenes在線粒體和胞質核糖體的細胞間中富集,組織特異性eGenes主要在精細胞中富集,這與許多睪丸組織特異性eGenes一致。在鑒定其他與細胞類型相關的lncRNA基因過程中,研究人員發現,與蛋白質編碼基因相比,lncRNA基因的連接程度不高(圖3D)。高度連接的lncRNA基因常分配給早期精子細胞、肌肉細胞、上皮和組織駐留B細胞(圖3E)。
圖3.共表達網絡注釋lncRNA基因的細胞環境。來源:Cell
人類基因組中存在數千種罕見變異,這些罕見的遺傳變異會帶來疾病風險。研究人員試圖通過離群點富集方法(outlier enrichment approach)來尋找lncRNA基因表達與罕見遺傳變異之間的關系。該研究重點分析了1119個離群點,在所有組織中這些離群點都檢測到基因間lncRNA基因(圖4A)。
基因間lncRNA基因離群點因附近遺傳變異的存在而富集,特別是對于罕見遺傳變異和罕見結構變異(SVs)。研究團隊通過對罕見變異所在位點的離群值與非離群值(RR)進行評估,發現SNVs的RRs為1.14,小的插入或缺失(indels)的RRs為1.31,結構變異的RRs為16.52,在較高的Z值閾值下富集度增加(圖4B),蛋白質編碼基因結果與之相反??偟膩碚f,受測個體中55%的基因間lncRNA異常事件與附近的罕見變異有關。
缺失、拷貝數變異(CNVs)和重復都在離群基因附近的離群個體中特別富集(圖4C)。研究人員利用UK Biobank全基因組關聯數據(GWAS),分析這些變異體是否受復雜性狀的影響而富集。結果顯示,與非異常罕見變異體相比,相關異常罕見變異對體重指數的影響更大(圖4D),表明與基因間lncRNA基因表達相關的罕見變異會影響常見的復雜性狀。
圖4.罕見遺傳變異影響基因間lncRNA基因表達和復雜性狀。來源:Cell
為進一步揭示lncRNA基因與疾病的相關性,研究人結合了多種共定位分析方法:SMR+HEIDI、FINEMAP+eCAVIAR和coloc,系統地評估了lncRNA基因在復雜性狀和疾病中的作用。結果顯示,QTL和GWAS信號的共定位產生了1432個與性狀相關的lncRNA基因。狼瘡、多發性硬化癥和血細胞計數等性具有高比例的lncRNA eQTL共定位事件狀。對于其他性狀,如肌萎縮側索硬化癥、帕金森病等,均未觀察到lncRNA共定位事件。
此外,研究團隊還發現lncRNA基因LINC01475和RP11-129J12.1共定位的組織(腸組織、脾臟和小唾液腺)與潰瘍性結腸炎相關,并在炎癥性腸病和克羅恩氏病的GWAS數據中也發現這兩種lncRNA的共定位模式,表明這兩種lncRNA的調控途徑參與了潰瘍性結腸炎和克羅恩氏病的發展。
綜上所述,該研究利用GTEx的v8數據,結合多種方法,包括eQTL分析、基因表達異常分析、WGCNA和GWAS共定位分析,探究了lncRNA的表達模式和功能,確定了1432個lncRNA基因-性狀關聯,補充了lncRNA基因表達的證據。此外,通過系統地評估lncRNA基因的調控模式,揭示了其在特定細胞環境中與各種復雜性狀和疾病之間的關聯,有助于增強我們對lncRNA基因對人類疾病作用的了解。
參考文獻:
Goede, O. M. D. , Nachun, D. C. , Ferraro, N. M. , Gloudemans, M. J. , Rao, A. S. , & Smail, C. , et al. (2021). Population-scale tissue transcriptomics maps long non-coding rnas to complex disease.?Cell, S0092-8674(21)00381-0.
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的Cell | 大规模多组织转录组学研究揭示长非编码RNA与人类复杂疾病的联系的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: “你都硕士博士了,竟然还不如我!”
- 下一篇: 你的数据可也可以发三篇NAR的文章