Briefings in Bioinformatics | 王秀杰/裴小兵合作开发单细胞组学细胞标记基因鉴定算法COSG...
在單細胞測序數據分析中,對細胞進行準確分類是數據分析的重要基礎。在利用聚類算法將細胞進行分組后,需要通過鑒定不同細胞群特異表達的標記基因來注釋細胞類型。同時,細胞標記基因在所有細胞類群中的表達模式也能夠幫助判斷聚類、標準化、批次效應校正等分析結果的準確性,進而進行參數優化。然而,如何準確鑒定不同細胞類型的細胞標記基因 (cell marker gene)仍面臨巨大的挑戰。
2022年1月19日,中國科學院遺傳與發育生物學研究所的王秀杰研究組聯合華中科技大學軟件學院的裴小兵研究組在生物信息學期刊Briefings in Bioinformatics在線發表了題為Accurate and fast cell marker gene identification with COSG的研究成果,提出了一種基于余弦相似度的方法COSG,該方法能在單細胞RNA測序數據、單細胞ATAC測序數據和空間轉錄組數據中更準確和快速地鑒定出細胞標記基因。
細胞標記基因鑒定需要準確找出在目標細胞類群中具有表達特異性的基因。目前常用的細胞標記基因鑒定方法通常基于統計分析來鑒定在目標細胞類群和其余細胞之間存在表達差異的基因,并以此作為目標細胞類群的標記基因【1-2】,例如目前最為常用的標記基因鑒定方法Wilcoxon test【3-6】。然而,當比較一種類型的細胞和其余多種類型細胞時,統計學方法選擇的差異表達基因有時并不是真正的細胞標記基因,因此無法保證鑒定得到的細胞標記基因在目標類群細胞中存在表達特異性。例如,僅在目標細胞和一小群非目標細胞中高度表達,而在其他細胞中不表達的基因會被基于差異表達分析的統計方法選為目標細胞的標記基因,但這樣的基因并不具備細胞類型特異表達性。值得注意的是,基于差異表達分析的統計方法是大多數單細胞數據分析工具包中默認的細胞標記基因鑒定方法,包括常用的Scanpy【7】和Seurat【8】。此外,隨著單細胞RNA測序技術的完善和普及,每次實驗捕獲的細胞數量迅速增加【9】,目前可用的細胞標記基因鑒定方法在處理包含大量細胞的數據時往往存在運算速度慢的問題。隨著單細胞ATAC測序技術和空間轉錄組測序技術的發展,也越來越需要一種能夠從不同類型測序數據中鑒定細胞標記基因的通用方法。
為解決上述問題,王秀杰組聯合裴小兵組開發了基于余弦相似度的COSG算法,其核心思想是通過比較基因在n維細胞空間的向量夾角大小來描述基因在所有細胞中表達模式的相似性 (圖1a)。在細胞空間內,每個維度代表一個細胞,每個基因在n維細胞空間內所對應的向量由n個基 (basis)組成,其中n為總細胞數。基因在每個基上的坐標代表該基因在每個細胞中的表達水平。因此,在n維細胞空間中,兩個基因的余弦相似度等價于這兩個基因所對應向量的夾角的余弦值。基因在所有細胞上的表達模式越相似,其對應向量的夾角也就越小。如果兩個基因有相同的表達模式,那么無論它們的表達豐度是否存在差異,這兩個基因所對應的向量之間的夾角為零。因此,余弦相似度的計算不受基因表達豐度值的影響【10】。同時,由于單細胞測序數據具有稀疏性 (包含大量零值)的特點,而余弦相似度對稀疏矩陣的計算非常高效,所以COSG能夠更有效地鑒定出目標細胞類群中特異表達的基因。
在模擬數據和真實實驗數據集上的評測結果表明,COSG鑒定出的標記基因或標記基因組區域具有更好的細胞類型特異性。同時,COSG具有很好的計算效率和可擴展性,能應用于超過百萬細胞的大規模數據集,并在不到2分鐘的時間內鑒定出超過100萬個細胞的細胞標記基因,表明COSG相比于其他現有方法在準確性和計算效率上具有明顯優勢 (圖1)。
圖1. COSG的計算流程和評測結果。(a) COSG的計算流程。(b) Logistic regression、Wilcoxon-test、Wilcoxon-test (TIE)和COSG四種方法鑒定得到的RGL細胞前10個標記基因的富集得分比較。(c) Logistic regression、Wilcoxon-test、Wilcoxon-test (TIE)和COSG在三個不同單細胞ATAC測序數據集上的運行時間比較。(d) Logistic regression、Wilcoxon-test、Wilcoxon-test (TIE)和COSG鑒定得到的心臟成纖維細胞的前3個標記基因的表達模式。
除了單細胞RNA測序數據,COSG還能夠有效應用于單細胞ATAC測序數據和空間轉錄組數據。不同數據類型包含不同特點,例如單細胞ATAC測序數據相比于單細胞RNA測序數據有著更低的測序深度,同時包含更多的特征,而空間轉錄組數據中每個檢測位點 (spot)中往往包含屬于多個細胞類型的細胞,給細胞類型鑒定帶來更大的挑戰。實驗結果表明,COSG對不同類型數據細胞標記基因鑒定的準確性均優于其他方法 (圖2)。
圖2. Logistic regression、Wilcoxon-test、Wilcoxon-test (TIE)和COSG在10x Genomics Visium的小鼠大腦空間轉錄組數據集上細胞標記基因鑒定效果的比較。(a) 10x Genomics Visium空間轉錄組從成年小鼠腦矢狀面后部組織中檢測到的3,355個信號位點的聚類結果。不同顏色代表不同的細胞分組。(b) UMAP投影展示(a)中的信號位點。不同顏色代表不同的細胞分組。(c)表達氣泡圖展示Logistic regression、Wilcoxon-test、Wilcoxon-test (TIE) 和COSG四種方法鑒定得到的每個細胞類型的前3個細胞標記基因在所有細胞分組中的表達模式。
COSG程序的代碼已通過GitHub網站開源發布。COSG程序的Python語言版本和R語言版本的代碼鏈接分別為https://github.com/genecell/COSG和https://github.com/genecell/COSGR,并且可以很方便地整合到常用的單細胞數據分析軟件Scanpy【8】和Seurat【9】中。中國科學院遺傳與發育生物學研究所王秀杰研究組的博士研究生戴敏為該論文的第一作者,中國科學院遺傳與發育生物學研究所王秀杰研究員、華中科技大學軟件學院的裴小兵教授為論文的共同通訊作者。
原文鏈接:https://doi.org/10.1093/bib/bbab579 (點擊閱讀原文直達)
參考文獻
Finak, G., McDavid, A., Yajima, M., Deng, J., Gersuk, V., Shalek, A.K., Slichter, C.K., Miller, H.W., McElrath, M.J., Prlic, M., et al. (2015). MAST: A flexible statistical framework for assessing transcriptional changes and characterizing heterogeneity in single-cell RNA sequencing data. Genome Biol. 16, 1–13.
Soneson, C., and Robinson, M.D. (2018). Bias, robustness and scalability in single-cell differential expression analysis. Nat. Methods 15, 255–261.
Elmentaite, R., Kumasaka, N., Roberts, K., Fleming, A., Dann, E., King, H.W., Kleshchevnikov, V., Dabrowska, M., Pritchard, S., Bolt, L., et al. (2021). Cells of the human intestinal tract mapped across space and time. Nature 597, 250–255.
Litviňuková, M., Talavera-López, C., Maatz, H., Reichart, D., Worth, C.L., Lindberg, E.L., Kanda, M., Polanski, K., Heinig, M., Lee, M., et al. (2020). Cells of the adult human heart. Nature 588, 466–472.
Ranzoni, A.M., Tangherloni, A., Berest, I., Riva, S.G., Myers, B., Strzelecka, P.M., Xu, J., Panada, E., Mohorianu, I., Zaugg, J.B., et al. (2021). Integrative single-cell RNA-Seq and ATAC-Seq analysis of human developmental hematopoiesis. Cell Stem Cell 28, 472-487.
Squair, J.W., Gautier, M., Kathe, C., Anderson, M.A., James, N.D., Hutson, T.H., Hudelle, R., Qaiser, T., Matson, K.J.E., Barraud, Q., et al. (2021). Confronting false discoveries in single-cell differential expression. Nat. Commun. 12, 5692.
Wolf, F.A., Angerer, P., and Theis, F.J. (2018). SCANPY: Large-scale single-cell gene expression data analysis. Genome Biol. 19, 15.
Stuart, T., Butler, A., Hoffman, P., Hafemeister, C., Papalexi, E., Mauck, W.M., Hao, Y., Stoeckius, M., Smibert, P., and Satija, R. (2019). Comprehensive integration of single-cell data. Cell 177, 1888-1902.
Svensson, V., Vento-Tormo, R., and Teichmann, S.A. (2018). Exponential scaling of single-cell RNA-seq in the past decade. Nat. Protoc. 13, 599–604.
Haghverdi, L., Lun, A.T.L., Morgan, M.D., and Marioni, J.C. (2018). Batch effects in single-cell RNA-sequencing data are corrected by matching mutual nearest neighbors. Nat. Biotechnol. 36, 421–427.
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的Briefings in Bioinformatics | 王秀杰/裴小兵合作开发单细胞组学细胞标记基因鉴定算法COSG...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: shfflenetv2代码解读
- 下一篇: torch.flatten()函数