不相关子查询的工作方式是_课题组工作|Nucleic Acids Research|基于表达密度谱的特征子空间分离及相关单细胞转录组分群新算法...
大家好!為大家分享本課題組近期發表在Nucleic Acids Research的文章,題目為 “Entropy subspace separation-based clustering for noise reduction (ENCORE) of scRNA-seq data”,文章提出了一種基于表達密度譜的特征選擇方法,能夠有效進行特征子空間分離完成特征信息和噪音識別,并結合一致性分群策略,設計了一種單細胞轉錄組分群新算法(ENCORE)。
【背景介紹】
單細胞轉錄組測序技術使得我們能夠捕獲單個細胞的轉錄組信息,為復雜生物問題的研究提供更精細的分析手段。為了更有效地利用單細胞轉錄組數據、提取細胞異質性信息,我們需要使用高精度和高分辨率的聚類相關算法,因此近年來研究者們已經開發了大量單細胞轉錄組分群算法。這些算法通常包括歸一化、特征選擇、降維、距離計算、聚類、分群標記基因識別等關鍵步驟,新的算法也常是針對以上步驟進行改進。然而相比于其他步驟,特征選擇的改進發展較為緩慢。多數算法選擇在表達上具有高表達、高變異性的特征(基因或轉錄本)進行下游分析,該類方法容易受到噪音的干擾而丟失有效特征,導致結果被高表達的特征主導。
【設計思路】為了解決目前特征選擇所存在的問題,ENCORE提出了一種獨特的子空間分離策略,用于降噪和特征選擇,從而實現單細胞分群的優化。ENCORE的設計基于這樣一個假設:在不考慮表達量的情況下,細胞間表達密度譜相似的特征可能攜帶相似的細胞異質性信息,因此將特征根據密度譜進行子空間分離后,細胞群在這些子空間中可能呈現更清晰的分布。具體過程如圖1所示,主要包括子空間分離、子空間內分群、一致性分群三個步驟。首先對特征的表達密度譜進行分群,將對應特征分離到不同的子空間,這些子空間在各個維度上包含相當的異質性信息,因而更有利于提取異質性信息。隨后ENCORE通過識別細胞簇來評估子空間的“熵”值,即子空間包含異質性信息的豐富程度。低熵子空間具有清晰的分群信息,細胞的分布規則;高熵子空間不具有清晰的分群信息,細胞的分布隨機。接著ENCORE通過對低熵子空間的篩選實現更有效、準確的特征選擇,該方法不僅能保留低表達的有效特征,而且對相似異質性特征的分群使得聚類信號更加集中。最后,ENCORE又利用新設計的一致性分群算法,實現了不同子空間分群信息的整合,增強了來自多個低熵子空間的共同信號并保留了各子空間的特有信號。在這種設計框架下,ENCORE可以在不同的單細胞轉錄組數據集上實現精確的細胞分群、二維可視化以及分群標記基因識別。
圖1. ENCORE算法示意圖
【數據介紹】首先我們將ENCORE應用于12個標準數據集和浙大小鼠細胞圖譜的大數據集,以評估ENCORE的子空間分離性能以及特征選擇、降噪能力。從圖2可以看出,無論是小數據集(圖2A)還是大數據集(圖2B),ENCORE的子空間分離方法均能生成多個具有不同信息量的子空間。其中圖1A的子空間2,3,4呈現較規則的細胞群分布,子空間1的細胞群分布則相對不規則;圖1B的子空間34和43相較于其余子空間也具有較好的分群信息,說明ENCORE可以識別小數據集(圖2A)或大數據集(圖2B)的低熵子空間。圖3展示了Seurat與ENCORE特征選擇的結果比較,ENCORE選取的特征在變異系數和均值上具有更隨機的分布,說明其與傳統算法在特征選擇上存在較大差異。
圖2. ENCORE子空間分離效果
圖3. ENCORE與Seurat特征選擇結果比較
接著,通過與四種廣泛應用且高集成性的單細胞分群算法(Seurat, SIMLR, pcaReduce and t-SNE + K-means)進行比較,ENCORE驗證了其分群的準確性和普適性。以12個具有已知實驗分群標簽的標準數據集作為測試數據集,并使用ARI(Adjusted Rand Index)和NMI(Normalized Mutual Information)作為分群準確性指標,兩個指標的值越高說明算法預測分群與已知分群標簽具有越好的一致性,即說明算法預測分群的準確性越高。如圖4A所示,相比于其他算法,在所有數據集上,ENCORE都表現出最高或相當的分群準確性,即使是細胞數較少的數據集,ENCORE仍具有最好的分群準確性。由于這12個數據集來自不同測序平臺,具有不同的數據量大小和測序深度,并且使用了不同的歸一化方法,而ENCORE都表現出較好的分群準確性,說明ENCORE的分群性能更為穩健。同時,相較于其他算法,ENCORE的可視化結果不僅與聚類結果具有高度的一致性,而且更為清晰、直觀(圖4B)。
圖4. ENCORE與其他算法的準確性及可視化結果比較
最后,為了評估了ENCORE對難分離數據集的信息提取能力,我們使用ENCORE對一個小鼠脂肪祖細胞數據集進行分析(圖5)。盡管脂肪祖細胞間存在異質性,但是從單細胞轉錄組數據中識別清晰的分群和明顯的標記基因還是困難的。從結果可以看出,ENCORE能夠產生更清晰的細胞分型,并識別更具特異性的亞型標記基因,這些亞型標記基因的表達在熱圖上也能顯示出清晰的模式(圖5B)。接著,我們挑選了亞型標記基因Mgp(該基因為ENCORE推導的group 8的最優標志基因),對其功能展開初步探索。我們發現3T3-L1細胞中Mgp基因的過表達并不會影響成脂分化相關基因的表達,但是會顯著提高Dio2基因的表達(圖5D)。Dio2蛋白與甲狀腺素(T4)向三碘甲狀腺原氨酸(T3)轉化相關。分析顯示Mgp能夠上調T3濃度,而又有報道顯示T3能夠刺激Mgp的表達上調,說明T3和Mgp之間存在潛在的正反饋回路(圖5E)。這些結果表明,ENCORE能夠從復雜的數據集中識別具有生物學意義的標記信息。
圖5. ENCORE在小鼠脂肪祖細胞分群中的應用
【總結】在這篇文章中,本課題組和復旦大學李晉課題組開發了一種新型scRNA-seq分析方法ENCORE。基于相似表達密度譜的特征具有相似異質性信息的假設,ENCORE將特征分到不同的熵子空間中,基于子空間內分群信息量來實現高效的特征選擇,從而提高細胞分群的準確性。此外,在ENCORE中提出了一種新的一致性聚類方法,以增強來自多個子空間的共有信號,同時保留各子空間的特有信號。與已有算法相比, ENCORE在大多數數據集上具有更優的分群性能、準確的標記識別以及更清晰的可視化效果。對于不同測序平臺和歸一化處理的數據,ENCORE的性能也更加穩定。ENCORE為單細胞數據的聚類、二維可視化分析提供了新的思路和方法,在細胞異質性研究和識別群體標記方面展現出巨大潛力。
撰稿人:林黎
校稿人:宋佳
原文鏈接:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkaa1157/6030236
總結
以上是生活随笔為你收集整理的不相关子查询的工作方式是_课题组工作|Nucleic Acids Research|基于表达密度谱的特征子空间分离及相关单细胞转录组分群新算法...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 工行插入了网银盾怎么识别不了?
- 下一篇: 温度补偿计算公式_一种工业用温度测量模块