如何使用Bioconductor进行单细胞分析?
最近的技術進步使得能夠在單個細胞中分析全基因組特征。但是,單細胞數據為分析提出了獨特的挑戰,需要開發專用的方法和數據架構才能成功解析數據背后的生物問題。Bioconductor項目托管了社區開發的開源R包以滿足這些分析需求。我們為潛在用戶提供了單細胞方法的概述和在線圖書,內容涵蓋最先進的計算方法、標準化的數據基礎架構和交互式數據可視化工具,存儲于 https://osca. bioconductor.org。
從2001年開始,Bioconductor項目已經吸引了來自不同科學領域的眾多開發人員和用戶社群,推動了使用R語言進行高通量生物數據分析的開源軟件包的開發。盡管大量組學技術催生了重要的科學見解和研究方法,近來單細胞組學圖譜的發展可以回答以前無法回答的科學問題。Bioconductor擁有大量用于分析組學數據的軟件包,最近,隨著社區貢獻的軟件包迅速增多,Bioconductor已顯著擴展到單細胞數據分析領域(圖1)。
Fig. 1 | Number of Bioconductor packages for the analysis of highthroughput sequencing data over ten years.
當前的單細胞測序既可以是高通量的,同時測量數千到數百萬個細胞;也可以是高維的,同時測量單個細胞內的數千個特征。與大量細胞樣品的圖譜相比,單細胞數據有兩個特征,必須對其進行特殊處理才能獲得有意義的生物結果:(1)數據中的細胞數目增加了多個量級,如人類細胞圖集和小鼠細胞圖集等;(2)由于所測量特征(基因/轉錄本)的生物波動性高或對少量分子進行定量分析的敏感性有限,導致數據稀疏性增加。這些特性促進了針對單細胞數據分析的統計方法的發展。此外,隨著單細胞技術的成熟,數據復雜性和數據量的增加要求對數據訪問、管理和基礎架構進行根本性的改變,同時需要專門的方法來促進可擴展的分析。
為了應對這些挑戰,為分析單細胞數據而開發的軟件包已成為Bioconductor項目不可或缺的一部分。在這里,我們主要集中在分析單細胞RNA測序(scRNA-seq)數據,其中提到的許多概念也可推廣到其他類型的單細胞項目。我們的描述涵蓋了數據導入、存儲單細胞實驗數據的通用數據結構和用于將原始單細胞數據轉換為適合下游分析、交互式數據可視化和下游分析的快速而強大的方法。為了幫助用戶利用這個強大且可擴展的框架,我們介紹了選定的軟件包并提供了在線圖書(https://osca.bioconductor.org),內容涵蓋軟件包安裝、使用幫助、特定scRNA-seq分析主題和分析各種scRNA-seq數據集的完整工作流程。有關所有軟件包的參考資料,請參見:http://bioconductor.org/packages/.
數據結構
Bioconductor的一個強大的優勢是提供了一個復雜的、高度互相依賴的數據集的通用表示形式和基礎架構。Bioconductor使用標準化的數據容器來實現各種包的模塊化和交互操作,同時保持強大的終端用戶易用性。為此,Bioconductor采用了一種稱為S4的靈活的面向對象范式,可以使用豐富且用戶友好的方式將多個對象組件封裝到單個實例中。這種方法對于生物學分析尤其重要,因為在整個分析過程中,數值數據和元數據需要在整個分析過程中都維持一致性。
Bioconductor使用SingleCellExperiment類來存儲單細胞測序數據和元數據(圖2). 諸如計數矩陣之類的主要數據以一個或多個矩陣的形式存儲在assay組件中,其中行代表特征(例如基因和轉錄本),列代表細胞。此外,基本數據的低維形式和描述細胞或特征屬性的元數據也可以存儲在SingleCellExperiment對象中。通過SingleCellExperiment類,可以將與scRNA-seq實驗相關的所有數據和結果存儲在單個實例中。通過單細胞數據和結果的標準化存儲,Bioconductor促進了單細胞分析程序包之間的交互性,并促進了復雜分析工作流程的開發和使用。
Fig. 2 | Overview of the SingleCellExperiment class.
數據處理
本節的目的是描述大多數scRNA-seq分析所共有的前期分析步驟。這些基本步驟遵循通用的分析流程(圖3):(1)預處理原始測序數據生成每個基因(或轉錄本)X?每個細胞的表達計數矩陣,然后創建SingleCellExperiment對象;(2)對數據進行質控并去除可能會干擾下游分析的低質量細胞;(3)將原始計數轉換為標準化的表達值,以消除細胞和基因特異性偏好;(4)進行特征選擇篩選生物學相關基因進行下游分析;(5)應用降維方法壓縮數據并降噪;(6)如果需要,整合多批次scRNA-seq數據。
Fig. 3 | Bioconductor workflow for analyzing single-cell data. A typical analytical workflow using Bioconductor leads to the creation and evolution of a SingleCellExperiment (sce) object during data processing and downstream statistical analysis (left column). An example of an sce object evolving throughout the course of a workflow is shown, including visualization, analysis and annotation (right column).
預處理。對于scRNA-seq數據,預處理包括將測序reads與參考轉錄組進行比對,然后獲得每個細胞和每個基因的表達值計數矩陣。盡管多種命令行軟件形式的預處理方法已經存在,scPipe和scruff等Bioconductor軟件包提供了完全用R編寫的預處理工作流。DropletUtils和tximeta等Bioconductor軟件包可以讀入各種命令行軟件工具如Cell Ranger) (10X基因組學),Kallisto-Bustools和Alevin的結果。值得注意的是,偽對齊(pseudo-alignment?)方法(例如Alevin和Kallisto)顯著減少了計算時間和運行內存。
在上述所有工作流程中,最終結果是將計數矩陣導入R并創建SingleCellExperiment對象。對于特定的文件格式,我們可以使用DropletUtils(用于10X數據)或tximeta(用于偽對齊方法)包中的專用方法。
質量控制。造成scRNA-seq數據中的低質量文庫可能有多種原因,如解離時的細胞損傷或文庫制備失敗(例如,不成功的逆轉錄或PCR擴增)。這些通常表現為“細胞”的總計數低、表達的基因數目很少、線粒體基因表達占比高。這些低質量的文庫可能會導致下游分析中獲得誤導性結果。
對于基于液滴的實驗方式,通常只保留包含且只包含一個細胞的液滴生成的數據。DropletUtils程序包根據觀察到的每個液滴的表達譜與周圍溶液的表達譜來區分空的(只含溶液中RNA的)液滴和含細胞的液滴。它還可以去除基于液滴的實驗中由于barcode序列錯誤產生的假細胞。同樣,scran或scds程序包可以比較實驗檢測到的液滴與模擬的doublets液滴的表達譜識別可能包含多個細胞(doublets)的液滴。在排除空液滴并識別潛在的doublets后,將含有潛在受損細胞或測序覆蓋度較差的液滴過濾掉。庫大小(定義為每個細胞所有相關基因的總計數之和)是一個常用的過濾指標。具有較小文庫大小的細胞更可能是低質量細胞,這可能是因為在RNA制備過程中的某個步驟如細胞裂解、不成功的cDNA捕獲和擴增等造成了RNA丟失。另一個指標是每個細胞中表達的基因的數量,定義為該細胞中具有非零計數的內源基因的數量。表達基因很少的細胞可能是轉錄本群體沒有被成功捕獲。線粒體基因組中基因的表達比例也是一個指標,因為線粒體基因比例高可能是因為細胞損傷造成細胞質RNA丟失,而線粒體因為體積大于單個轉錄物分子不太可能通過細胞膜上的孔逸出。Scater軟件包簡化了這些指標的計算。
標準化。scRNA-seq數據不同文庫之間存在覆蓋率的系統差異,例如測序深度差異。這通常是由于細胞之間cDNA捕獲或PCR擴增效率不同而引起的,而這又是由于起始RNA量低導致的。標準化的目的是消除這些系統差異,以使它們不干擾聚類或差異表達分析時細胞之間表達譜的比較。
我們先只考慮在單個scRNA-seq實驗中降低系統差異的方法,因為它們造成數據的偏好性的原因相似。例如,測序深度的變化將所有基因的表達計數按一定因子進行縮放。文庫大小歸一化是最簡單策略,如scater中所實現。盡管此方法假設任何一對細胞之間的差異表達基因(DEG)上下調平衡(基因整體表達量不變),但是標準化準確性通常不是scRNA-seq探索性分析的主要考慮因素,因為它們對簇聚類的影響很小。
但是,準確的標準化在解釋每個基因的統計數據如差異基因分析時非常重要。當在一個給定的scRNA-seq數據集中存在多種細胞類型時,最經常觀察到表達偏差是表達變化對數值的偏移。通過反卷積進行歸一化可以克服這一點,方法是合并許多細胞中的計數數據增加計數的大小以進行準確的size factor估計,然后將其解卷積為基于細胞的因子以對每個細胞進行標準化(如在scran中實現).
另外,BASiCS,?zinbwave和MAST提供了基于模型的標準化方法,不僅可以處理此類文庫大小或組成偏差,還可以針對已知的協變量或其他可能干擾生物學上有意義的變異的技術因素進行校正。這些方法支持更復雜的標準化策略,例如數據的非線性轉換。有關此主題的評論,請參考(42).
缺失數據填充 (imputation)。數據插補方可以用來解決單細胞測序數據的稀疏性問題。由于scRNA-seq實驗經常無法測量到某些基因的表達,從而導致數據表中零值過多,為此開發了零膨脹模型(zero-inflated models)。但是,其效果取決于檢測方法或protocol的類型,尚無適應所有數據的最優工具。此外,研究表明,scRNA-seq數據的插補方法會導致假陽性結果,并降低了細胞類型特異性標記基因鑒定的可重復性.
特征選擇。scRNA-seq數據的探索性分析通常旨在表征細胞間的異質性。諸如聚類和降維之類的分析會根據細胞的基因表達譜進行比較。但是,在這些計算中選擇哪些基因用于下游分析影響重大。特征選擇方法旨在識別能對研究的生物系統提供有用信息的基因,同時刪除導致隨機噪聲的基因。通過只對此類基因進行分析,可以在排除排除混淆信息的基礎上保留有意義的生物學結構。此外,只關注轉錄組的這一子集可以顯著減小數據集的大小,從而提高下游分析的計算效率。參見(50,51)有關特征選擇方法的評論。
特征選擇的最簡單方法是根據基因在整個細胞群體中的表達來選擇變化最大的基因。這基于一個假設,真正的生物學差異導致的基因表達變化大于其他僅受技術噪聲影響或無關的生物因素引起的表達變化。但是,對數轉換無法實現完美的方差穩定化(variance stabilization)。這意味著相比生物異質性,基因的豐度對其程度影響更大。因此,特征選擇計算每個基因的方差時通常需要對均-方差關系進行建模。軟件包scran,BASiCS?和scFeatureFilter都采用這種方法。
另外,還有可以替代方差的度量標準,例如基于基因的偏離度(deviance)選擇特征基因,該方法評估每個基因與細胞間恒定表達的零模型(null model)的擬合程度。與基于方差的特征選擇方法不同,偏離度的計算是根據原始的唯一分子標識符(UMI)計數完成的,因此該方法對標準化帶來的錯誤不太敏感。偏離度可以使用glmpca軟件包進行計算。
降維。降維旨在減少數據中獨立維度的數量。如果不同的基因受同一生物學過程的影響,它們的表達就會存在相關性,這使得降維是可行的。因此,我們不需要單獨存儲每個基因的信息,而是可以將多個基因的信息壓縮成一個特征存儲。降維方法在保留有數據集中最有意義的信息結構基礎上實現了數據的降維。降維的一個額外好處是降低了噪音,它可以把多個基因(比如,跟某一個通路相關的基因)用類似平均值的操作整合在一起,獲得的特征可以反應更精確的表達變化模式。降維后下游分析中的計算工作也減少了,因為只需要針對幾個維度而不是數千個基因進行計算。效果更好的降維方案(aggressive dimensionality reduction schemes)可以在二維或三維空間對數據進行可視化以幫助解釋結果。
scRNA-seq數據降維的常見第一步是主成分分析(PCA)。PCA在高維空間中鑒定可捕獲數據變異最大的軸(也成為主成分,PC)(PCA主成分分析實戰和可視化 附R代碼和測試數據)。前幾個主成分維度捕獲了數據集中主要的異質性的信息,因此可以有效的降維。這利用了PCA成熟的理論特性,即,對于給定的矩陣,由前幾維PC形成的低階近似矩陣是原始數據的最佳表示。鑒于此屬性,使用前幾維PC(或任何類似的低秩近似表示)執行的計算(諸如聚類之類的下游分析)將充分利用數據壓縮和去噪的優勢。
無論采用哪種方法,用于可視化的降維必然涉及信息丟失并改變細胞之間的距離。因此,直接分析用于繪圖的低維坐標是不明智的。相反,這些圖應僅只用于解釋或傳達基于更精確的、更多維度的定量分析結果。這樣可以保證分析充分利用了壓縮到二維空間時丟失的信息。假如二維圖上呈現的細胞分布與使用更多數目的PC進行聚類獲得的結果之間存在差異,應傾向于相信后者的結果。
SingleCellExperiment類具有一個專用存儲空間reducedDims用于存儲降維后的數據(圖5.2).scater?軟件包提供了多個用于降維分析的便捷函數,可以進行主成分分析(PCA),t-SNE(t-Distributed Stochastic Neighbor Embedding,以及UMAP?(Uniform Manifold Approximation and Projection)分析。density包提供了Diffusion map降維方法。zinbwave和glmpca?程序包分別使用零膨脹(zero-inflated)負二項模型和多項式模型進行基于模型的降維分析,優勢是在模型中可以考慮混雜因素的影響。
數據整合。由于技術限制(logistical constraints),大型scRNA-seq項目通常需要分多個批次生成數據。但是,不同批次的處理通常會遇到無法控制的差異,例如操作員操作獨特性或試劑質量的差異。這導致在不同批次的細胞中觀察到的表達發生系統性差異。此外,隨著scRNA-seq數據的普及和參考數據集的普及,在整合分析中不可避免地會遇到這種混雜變量的影響。在這個情況下,批次效應可能是數據異質性的主要驅動力,會掩蓋相關的生物學差異并使結果的解釋變得復雜。
盡管可以使用廣義線性模型來整合不同的數據集,但在scRNA-seq分析中,這些方法可能不是最佳的。因為它們基于一個假設,即不同批次的細胞中細胞群體的組成是已知的或相同的。為了克服這一限制,研究者開發了不基于細胞群體構成的先驗知識的特制方法用于單細胞數據的批次校正 。這便利了scRNA-seq數據的探索性分析,因為這些先驗知識通常是不可用的。
在批次校正之前,最好先檢查是否有批次影響。基于特征基因的對數表達值進行PCA分析,再使用基于圖的聚類方法展示群體結構。理想情況下,每個聚類簇都應包含來自各個重復scRNA-seq數據集的細胞。然而,如果細胞簇只包含單個批次的細胞,則表明批次效應把本來相同類型的細胞錯誤地區分開了。諸如t-SNE和UMAP之類的方法也會顯示出來自不同批次的細胞之間的差異,這與聚類結果是一致的。值得注意的是,如果某個批次確實包含獨特的細胞亞群時,這種依賴于混合程度的可視化診斷可能并不有效,但是仍然是有用的近似方法。
諸如scMerge、scamap之類的包可以使用先驗細胞標記(請參閱“注釋”部分)進行有監督的整合分析,用以指導對基因表達值進行任何批次校正或調整較低維度的展示形式。另一方面,諸如相互最近鄰居(MNN,mutual nearest neighbours)之類的無監督方法會從彼此相鄰的鄰居集合中識別不同批次中成對的細胞。然后,MNN對中的細胞之間的差異可以用作批次效應的估計值,將其相減得出批處理校正值。實際上,通過調整最近鄰居的數量值k,可以調整批次校正的強弱,其中,較高的k值會導致批次之間子群體的匹配更加廣泛(generous matching)。這種基于MNN的方法在batchelor軟件包中有實現。
批次校正的成功取決于生物異質性信息的保留,因為可以設想一種校正方法將所有細胞簡單地聚集在一起,雖然實現了細胞的完美混合,但丟棄了感興趣的生物信息。為此,CellMixS軟件包可用于評估批次之間的細胞混合程度。另一個有用的評估方法是將數據合并后的聚簇結果與每個批次數據分別獲得的聚簇結果相比較。理想情況下,我們應該看到多對一的映射關系,跨批次聚簇結果嵌套在批次內聚類結果,這表明任何批次內結構都在校正后得以保留。統計量如蘭德指數(Rand index,https://en.wikipedia.org/wiki/Rand_index)可用于評估聚類結果(蘭德指數越大聚類效果越好)。
下游統計分析
因研究目標或實驗手段的不同,下游分析的方法和工作流程的選擇也差異很大。數據前期處理后,可以使用Bioconductor中能夠處理SingleCellExperiment類并且可以處理大量細胞的工具進行具體的生物探索分析。我們的在線圖書(https://osca.bioconductor. org)為用戶提供了用于下游分析和可視化的分析流程和案例研究(圖4)。
Fig. 4 | Select visualizations derived from various Bioconductor workflows. Various visualizations associated with pre-processing (blue boxes) and downstream statistical analyses (pink boxes). The example data set used throughout was generated as part of the Human Cell Atlas 21 . Details on the generation of these figures are described in our online companion book (https://osca.bioconductor.org).
聚類。在scRNA-seq數據分析中使用經驗性的聚類方式定義具有相似表達譜的細胞為一簇。這使我們可以用更容易理解的離散標記來描述種群異質性,而不是試圖理解細胞自身所處的高維流形。在基于差異表達獲得的標記基因進行注釋后,可以將簇視為更抽象的生物學概念(例如細胞類型或狀態)的代名詞。
值得強調的是細胞簇與細胞類型之間的區別。前者是一種經驗稱謂,而后者是一個生物學事實(盡管定義有些模糊)。因此,需要認識到聚類,其實像顯微鏡一樣,只是探索數據的一個工具。更改聚類參數可以類比于放大和縮小分辨率來調整觀察的粒度,并嘗試使用不同的聚類算法來獲得數據的其它查看角度。
基于圖的聚類方法是對大型scRNA-seq數據集進行聚類分析的一種靈活且擴展性強的技術。在一個高維空間中,每個點(也就是一個細胞)與其最近的鄰居相連構成一幅網絡圖。邊基于相連的細胞的相似性加權,連接越相似的細胞的邊的權重越高。louvain和leiden等算法 可以用來鑒定細胞簇。
BiocNeighbors提供了用于精確和近似最近鄰檢測的分析工具,并通過scran構建實際連接圖形。值得注意的是,對于大型scRNA-seq數據集,近似NN方法以可接受的準確性損失為代價極大地縮短了運行時間,并具有平滑噪聲和稀疏性的額外優勢。替代方法包括SIMLR軟件包,它使用多個kernal來學習最適合數據的細胞距離度量方式,并可用于聚類和降維。對于大數據,mbkmeans軟件包實現了k-means算法的高速版本。最后,SC?和clusterExperiment程序包構建了基于多重參數的一致性聚類比較分析。
許多這些程序包都可以對聚類結果進行定量和視覺評估,此外,還專門設計有用于數據可視化和評估的其它程序包(例如clustree)。另外可以通過一些度量參數(例如簇模塊性或輪廓系數silhouette coefficient)來獨立評估聚類結果。
差異表達。差異基因表達(DGE)分析可用于識別驅動簇分離的標記基因。這些標記基因使我們能夠根據其功能注釋為每個簇賦予生物學意義。在最明顯的情況下,每個簇的標記基因與已經注釋的特定細胞類型相關,從而讓聚類結果等同于細胞類型鑒定結果。同時還可以應用相同原理檢測更細微的差異,例如激活狀態或分化狀態之間的比較。DGE分析用于細胞類型注釋的替代方案是基因集富集分析,該分析將基因歸類到先驗的基因模塊或生物途徑,以便于進行生物解釋。我們將在“注釋”部分中討論此主題。
在差異表達方法中,有兩種通用方法很突出。第一種方法是把最初廣泛應用于普通轉錄組測序的R包(如edgeR,DESeq2和limma-voom)等通過各種方法(例如通過創建偽普通轉錄組圖譜)改造后應用于scRNA-seq分析。或者,諸如zinbwave之類的方法在離散度估計和模型擬合步驟中減輕在scRNA-seq數據中大量零的權重,然后再進行差異分析,也可以促進普通轉錄組差異基因分析方法應用于scRNA-seq數據。第二類方法是專門針對單細胞數據的特征開發的,其使用的統計方法直接對scRNA-seq數據常見的大量零值直接建模。這些方法將基因表達明確地分為兩個部分:離散部分(描述零與非零表達的基因的比例)以及連續部分(基因表達定量水平)。盡管本文提到的所有方法都可以對”連續部分”進行差異分析,但是只有第二類方法可以明確地對“離散部分”進行建模(explicitly model),從而對表達頻率的差異進行統計分析。為此,MAST軟件包使用了hurdle model( Hurdle模型是二分類模型與零截尾模型的聯合,它可通過對兩部分分別進行極大似然估計而得到參數估計值。),而scDD,BASiCS和SCDE?分別使用貝葉斯混合和層級模型。這些方法可以提供更廣泛的檢測功能,并且可以直接用于SingleCellExperiment類中包含的scRNA-seq數據。
有關DE分析和上述各種軟件包的比較分析的更多詳細信息,請參見參考資料65–67.
軌跡分析。細胞異質性還可以建模為一個連續的生物過程,如細胞分化。軌跡分析(或偽時間推斷)是專門針對單細胞降維分析的一個特殊應用,它使用系統發育方法來沿著(通常是時間連續性的)軌跡對細胞進行排序,如隨時間的發育。推斷的軌跡可以識別細胞狀態之間的過渡、分化過程或動態細胞過程中導致的二分事件。
軌跡推斷的最新方法的改進在最大程度地減少了用戶輸入參數,并且可以基于各種拓撲結構進行差異基因表達分析(例如Monocle,LineagePulse和switchde)。此外,用于軌跡推斷的多個Bioconductor軟件包(例如,slingshot,?TSCAN,Monocle,?cellTree和MFA)最近被證明具有出色的性能。由于對于同一個數據集,不同的方法可能產生截然不同的結果,因此一系列的方法和參數設置需要進行比較測試以評估其魯棒性。(NBT|45種單細胞軌跡推斷方法比較,110個實際數據集和229個合成數據集)
Bioconductor通過提供標準化的數據形式(例如SingleCellExperiment類對象)來方便此類測試。參見(74)獲得進一步討論。
聚類簇注釋
scRNA-seq數據分析中最具挑戰性的任務可以說是聚類簇注釋。獲得細胞簇方法非常直接,但是要確定每個簇代表的細胞類型或細胞狀態則更加困難。完成這個工作需要彌合當前數據集和先驗生物學知識之間的鴻溝,而后者并不總能以一致和定量的方式獲得。因此,對scRNA-seq數據的注釋通常是手動的,并且是分析流程中的常見瓶頸。
為了加快此步驟,可以應用各種計算方法利用先驗信息為新的scRNA-seq數據集賦予生物意義。先驗信息的最明顯來源是與特定生物學過程相關的認證基因集(例如,來自基因本體論(GO,gene ontology)或KEGG通路信息)。另一種方法是將表達譜與已發布的經過領域專家做過注釋的參考數據集直接進行比較。
基因集富集。經典基因集富集(GSE)方法的優點是不需要參考表達值。當處理來自文獻或其他定性形式的生物學知識的基因集時,這特別有用。在細胞注釋時,通常在一組細胞(或簇)上執行GSE分析以識別這些細胞富集的基因集或生物通路。然后可以根據富集的通路推導細胞類型(或狀態)。
Bioconductor提供了專用軟件包從數據庫(如MSigDB、KEGG、Reactome、GO)中獲得預定義的基因特征信息。EnrichmentBrowser簡化了從此類數據庫收集基因集的過程。最初為普通轉錄組數據開發的基因集富集分析方法也可應用于scRNA-seq數據中特定基因模塊的富集。EnrichmentBrowser,EGSEA和fgsea軟件包分別提供了一些經典GSE分析的工具。在MAST、AUCell和slalom中也有進行GSE分析的方法。
自動注釋細胞。從概念上講,最直接的注釋方法是將單細胞表達譜與先前注釋的參考數據集進行比較。然后,根據最相似的參考樣本或某些其他相似性指標,將生物標簽分配給待確認的細胞。這是一個常見的分類問題,可以通過標準的機器學習技術如隨機森林和支持向量機來解決。任何公開且帶有標簽的RNA-seq數據集(普通或單細胞的)都可以用作參考,其可靠性在很大程度上取決于給參考集細胞進行注釋的原始作者的專業性。
SingleR方法提供了一種用于細胞類型注釋的自動化系統。SingleR基于具有最高Spearman相關性的參考樣本標記細胞,因此可以認為是k-近鄰分類的排序變體。為了減少噪聲,SingleR可以識別兩組細胞之間的標記基因,并僅使用那些標記基因來計算相關性。程序包中包含許多內置參考數據集,這些數據集來自多個項目,包括免疫基因組計劃(ImmGen),ENCODE和免疫細胞表達數據庫(DICE)。
分析工具易用性 Accessible analysis
隨著對單細胞測序數據的分析興趣日益濃厚,Bioconductor不僅開發了分析數據的方法和軟件,而且還優先考慮使數據本身和數據分析工具更易于用戶和開發人員使用。具體而言,社區提供了數據包,其中包含公開可用的已發布數據和模擬數據,以及交互式數據可視化工具。這樣可以使單細胞數據和數據分析工具更易于訪問,使研究人員可以在自己的工作中利用這些資源并使數據分析民主化(democratizes data analysis)。
基準測試。隨著新的單細胞檢測、統計方法和相應軟件的開發,方便數據集的發布、再現現有分析以及實現新工具與現有工具的比較變得越來越重要。Bioconductor收集了一系列數據包,著重于提供可以直接用于分析的帶有版本信息的數據,以及可用于復制手稿圖形和展示數據特征的手冊。
為了便于查詢Bioconductor上已發布的數據包,ExperimentHub包允許使用標準化接口以編程方式訪問已發布的數據集。值得注意的是,scRNAseq軟件包可以從各種來源獲得校正過的高質量scRNA-seq數據集。另外,模擬數據集對評判軟件也很有幫助。
另外,splatter包可以模擬包含多種細胞類型、批次效應、不同水平的drop-out事件、差異基因表達和軌跡的模擬scRNA-seq數據集。splatter?包使用自己的模擬策略框架,并整合其它不同模型的模擬策略以提供全面的單細胞模擬數據資源。
為了提高評估單細胞方法性能的基準比較的可重復性,Bioconductor開發了存儲不同方法比較結果的基本架構。SummarizedBenchmark?和CellBench軟件包提供了用于存儲元數據(方法參數和軟件包版本)和評估指標的接口。
交互式數據可視化。網絡技術的成熟為交互式數據探索開辟了新的途徑,而R包shiny則有助于開發豐富的圖形用戶界面。iSEE和singleCellTK軟件包為通過Internet瀏覽器對scRNAseq數據集進行交互可視化提供了全功能的應用程序,消除了對編程經歷的需求。如果實例托管在Web上,則無需編程經驗。這兩個軟件包都直接與SingleCellExperiment數據容器連接以便促進scRNA-seq分析結果的交流。
展望
自從基因組學問世以來,Bioconductor項目就已經通過R統計編程語言擁抱了開源和開放軟件的開發。Bioconductor已建立協調包版本和代碼審查的最佳實踐。除了社區貢獻的軟件包,核心開發團隊(https://www.bioconductor.org/about/core-team)開發并維護必要的基礎架構,并審核提交的軟件包,以確保它們滿足一套指導原則和保證各個軟件包之間的兼容性。這些軟件包被組織到BiocViews中,一個按任務或技術對軟件包進行分類的主題注釋庫。例如,單細胞分析主題在視圖SingleCell下標記。最重要的是,更廣泛的Bioconductor社區(包括論壇、Slack或郵件列表)是代碼共享和技術幫助中無私的典范。這些實踐共同產生了高質量、維護良好的軟件包,為生物學研究提供了一個統一而穩定的分析環境。
最近,Bioconductor社區開發了最新的計算方法、數據結構和交互式數據可視化工具用于分析從單細胞實驗中獲得的數據。新興的單細胞技術,包括表觀基因組學、T細胞和B細胞文庫、空間轉錄組譜分析和基于測序的蛋白質譜分析,希望能推動計算生物學的發展。特別是,支持多組學分析的技術正在迅速發展,Bioconductor為研發用于此類技術分析的統計方法奠定了必要的基礎。
此外,Bioconductor的標準化數據容器可實現Bioconductor軟件包以及與其他軟件之間的互操作性。可以將存儲在SingleCellExperiment中的數據轉換為Seurat、Monocle?和Python的scanpy可用的格式,從而可以使用最能滿足當前分析目標的工具。實際上,R與其他編程語言有著很長的互操作性歷史。有四個例子,Rcpp用于將C++編譯后的代碼集成到R軟件包中,rJava軟件包用于從R中調用Java代碼的,R中的.Fortran()函數可以調用Fortran代碼,reticulate包與Python互通。
這種互操作性使常見的機器學習框架(例如TensorFlow/Keras)可以直接在R中使用。
對于新手來說,Bioconductor中能進行大量單細胞分析的數量眾多的程序包可能令人望而生畏。為了解決單細胞分析中越來越多軟件包的選擇問題,我們總結并強調了當前最先進的數據基礎架構、方法和軟件,并按照典型的單細胞分析流程組織了這些軟件包(圖3)(圖4)。最后,我們開發了在線的配套書籍,其中提供了有關各個分析主題的更詳細信息以及完整的代碼流程(https://osca.bioconductor.org)。隨著新軟件包的出現,我們會不斷更新和維護這套在線書籍,促進Bioconductor資源更方便使用。
作者:張虎
編輯:生信寶典
單細胞系列教程
-
收藏 北大生信平臺” 單細胞分析、染色質分析” 視頻和PPT分享
-
Science: 小鼠腎臟單細胞轉錄組+突變分析揭示腎病潛在的細胞靶標
-
Science:通過單細胞轉錄組測序揭示玉米減數分裂進程 | 很好的單細胞分析案例
-
Nature 首次對阿爾茨海默病進行單細胞轉錄組分析|詳細解讀
-
Cell 深度 一套普遍適用于各類單細胞測序數據集的錨定整合方案
-
骨髓基質在正常和白血病個體中的細胞圖譜 Cell,Nature聯袂解析
-
癌中之王:基質微環境塑造胰腺癌瘤內結構|Cell
-
Nature系列 整合單細胞轉錄組學和質譜流式確定類風濕性關節炎滑膜組織中的炎癥細胞狀態 詳細解讀
-
10X單細胞測序分析軟件:Cell ranger,從拆庫到定量
-
Hemberg-lab單細胞轉錄組數據分析(一)- 引言
-
Hemberg-lab單細胞轉錄組數據分析(二)- 實驗平臺
-
Hemberg-lab單細胞轉錄組數據分析(三)- 原始數據質控
-
Hemberg-lab單細胞轉錄組數據分析(四)- 文庫拆分和細胞鑒定
-
Hemberg-lab單細胞轉錄組數據分析(五)- STAR, Kallisto定量
-
Hemberg-lab單細胞轉錄組數據分析(六)- 構建表達矩陣,UMI介紹
-
Hemberg-lab單細胞轉錄組數據分析(七)- 導入10X和SmartSeq2數據Tabula Muris
-
Hemberg-lab單細胞轉錄組數據分析(八)- Scater包輸入導入和存儲
-
Hemberg-lab單細胞轉錄組數據分析(九)- Scater包單細胞過濾
-
Hemberg-lab單細胞轉錄組數據分析(十)- Scater基因評估和過濾
-
Hemberg-lab單細胞轉錄組數據分析(十一)- Scater單細胞表達譜PCA可視化
-
Hemberg-lab單細胞轉錄組數據分析(十二)- Scater單細胞表達譜tSNE可視化
-
如何火眼金睛鑒定那些單細胞轉錄組中的混雜因素
-
什么?你做的差異基因方法不合適?
-
單細胞分群后,怎么找到Marker基因定義每一類群?
-
在線平臺如何做單細胞測序分析全套?有它so easy!
-
植物單細胞轉錄組的春天來了,還不上車?Science, PC, PP, MP, bioRxiv各一個
-
三人成虎,概率卻不足十分之五?
-
一文掌握GSEA,超詳細教程
-
這個只需一步就可做富集分析的網站還未發表就被CNS等引用超過350次
-
什么,你算出的P-value看上去像齊天大圣變的廟?
-
GO、GSEA富集分析一網打進
-
GSEA富集分析 - 界面操作
-
無需寫代碼的高顏值富集分析神器
-
去東方,最好用的在線GO富集分析工具
-
跨物種單細胞分析發現胰腺導管癌中一類有免疫原性的抗原呈遞成纖維細胞
-
NCB|心咽發育多樣化的單細胞轉錄軌跡分析
-
七龍珠|召喚一份單細胞數據庫匯總
-
用了這么多年的PCA可視化竟然是錯的!!!
-
單細胞預測Doublets軟件包匯總-過渡態細胞是真的嗎?
-
Seurat亮點之細胞周期評分和回歸
-
cellassign:用于腫瘤微環境分析的單細胞注釋工具(9月Nature)
-
Nature重磅綜述 |關于RNA-seq,你想知道的都在這
-
NBT|45種單細胞軌跡推斷方法比較,110個實際數據集和229個合成數據集
-
NC |SCALE準確鑒定單細胞ATAC-seq數據中染色質開放特征
-
RNA-seq最強綜述名詞解釋&思維導圖|關于RNA-seq,你想知道的都在這(續)
-
SpatialDB |單細胞空間轉錄組數據分析可視化平臺
-
Cell 單細胞文章 | 白凡課題組與合作團隊揭示兒童結腸炎及炎癥性腸病的致病機制及治療方法
-
讓你的單細胞數據動起來!|iCellR(一)
-
讓你的單細胞數據動起來!|iCellR(二)
-
Nature | 心臟發生的單細胞分析揭示了器官水平發育缺陷的基礎
-
Gut | 湯富酬研究組與付衛研究組合作揭示家族性腺瘤性息肉病的發病機制
-
Celaref | 單細胞測序細胞類型注釋工具
-
SCENIC | 從單細胞數據推斷基因調控網絡和細胞類型
-
Cell | 北大張澤民課題組與合作者揭示肝癌免疫微環境的動態特征
-
MC | 湯富酬課題組發表綜述系統總結人類生殖系細胞發育的分子機制研究
-
Plos Biology | 湯富酬課題組與喬杰課題組合作繪制人類視網膜高精度發育細胞圖譜
-
Cell子刊 | 植物單細胞轉錄組綜述·植物功能基因組學的高分辨率研究方法
-
對一篇單細胞RNA綜述的評述:細胞和基因質控參數的選擇
-
Cell子刊 | 腸內分泌細胞單細胞測序分析(附資源庫傳送門)
-
教你如何定義新亞群 | 在單細胞水平上解析人肝硬化的纖維化微環境
-
Cell stem cell | 周斌研究組利用10xgenomics測序和譜系示蹤技術合作發現血管平滑肌干細胞參與動脈修復
-
風濕病年鑒 | scRNA-seq研究揭示骨關節炎患者的半月板退變新機制
-
2019文獻匯總 | 單細胞與病毒感染
-
2019匯總之從4個關鍵詞看單細胞與肝癌文獻
參考文獻
-
50. Andrews, T. & Hemberg, M. M3Drop: Dropout-based feature selection for scRNASeq. Bioinformatics 35, 2865–2867 (2019).
-
51. Yip, S. H., Sham, P. C. & Wang, J. Evaluation of tools for highly variable gene discovery from single-cell RNA-seq data. Brief. Bioinform. 20, 1583–1589 (2018).
-
65. Soneson, C. & Robinson, M. D. Bias, robustness and scalability in single-cell differential expression analysis. Nat. Methods 15, 255–261 (2018).
-
66. Wang, T., Li, B., Nelson, C. E. & Nabavi, S. Comparative analysis of differential gene expression analysis tools for single-cell RNA sequencing data. BMC Bioinform. 20, 40 (2019).
-
67. Crowell, H. L. et al. On the discovery of population-specific state transitions from multi-sample multi-condition single-cell RNA sequencing data. Preprint at bioRxiv https://doi.org/10.1101/713412 (2019).
-
74. Saelens, W., Cannoodt, R., Todorov, H. & Saeys, Y. A comparison of single-cell trajectory inference methods. Nat. Biotechnol. 37, 547 (2019).
總結
以上是生活随笔為你收集整理的如何使用Bioconductor进行单细胞分析?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习算法-随机森林之决策树R 代码从
- 下一篇: 这个大部分CNS都会用到的技术分析流程大