不相关子查询的工作方式是_课题组工作|Nucleic Acids Research|基于表达密度谱的特征子空间分离及相关单细胞转录组分群新算法...
大家好!為大家分享本課題組近期發(fā)表在Nucleic Acids Research的文章,題目為 “Entropy subspace separation-based clustering for noise reduction (ENCORE) of scRNA-seq data”,文章提出了一種基于表達(dá)密度譜的特征選擇方法,能夠有效進(jìn)行特征子空間分離完成特征信息和噪音識(shí)別,并結(jié)合一致性分群策略,設(shè)計(jì)了一種單細(xì)胞轉(zhuǎn)錄組分群新算法(ENCORE)。
【背景介紹】
單細(xì)胞轉(zhuǎn)錄組測(cè)序技術(shù)使得我們能夠捕獲單個(gè)細(xì)胞的轉(zhuǎn)錄組信息,為復(fù)雜生物問題的研究提供更精細(xì)的分析手段。為了更有效地利用單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)、提取細(xì)胞異質(zhì)性信息,我們需要使用高精度和高分辨率的聚類相關(guān)算法,因此近年來研究者們已經(jīng)開發(fā)了大量單細(xì)胞轉(zhuǎn)錄組分群算法。這些算法通常包括歸一化、特征選擇、降維、距離計(jì)算、聚類、分群標(biāo)記基因識(shí)別等關(guān)鍵步驟,新的算法也常是針對(duì)以上步驟進(jìn)行改進(jìn)。然而相比于其他步驟,特征選擇的改進(jìn)發(fā)展較為緩慢。多數(shù)算法選擇在表達(dá)上具有高表達(dá)、高變異性的特征(基因或轉(zhuǎn)錄本)進(jìn)行下游分析,該類方法容易受到噪音的干擾而丟失有效特征,導(dǎo)致結(jié)果被高表達(dá)的特征主導(dǎo)。
【設(shè)計(jì)思路】為了解決目前特征選擇所存在的問題,ENCORE提出了一種獨(dú)特的子空間分離策略,用于降噪和特征選擇,從而實(shí)現(xiàn)單細(xì)胞分群的優(yōu)化。ENCORE的設(shè)計(jì)基于這樣一個(gè)假設(shè):在不考慮表達(dá)量的情況下,細(xì)胞間表達(dá)密度譜相似的特征可能攜帶相似的細(xì)胞異質(zhì)性信息,因此將特征根據(jù)密度譜進(jìn)行子空間分離后,細(xì)胞群在這些子空間中可能呈現(xiàn)更清晰的分布。具體過程如圖1所示,主要包括子空間分離、子空間內(nèi)分群、一致性分群三個(gè)步驟。首先對(duì)特征的表達(dá)密度譜進(jìn)行分群,將對(duì)應(yīng)特征分離到不同的子空間,這些子空間在各個(gè)維度上包含相當(dāng)?shù)漠愘|(zhì)性信息,因而更有利于提取異質(zhì)性信息。隨后ENCORE通過識(shí)別細(xì)胞簇來評(píng)估子空間的“熵”值,即子空間包含異質(zhì)性信息的豐富程度。低熵子空間具有清晰的分群信息,細(xì)胞的分布規(guī)則;高熵子空間不具有清晰的分群信息,細(xì)胞的分布隨機(jī)。接著ENCORE通過對(duì)低熵子空間的篩選實(shí)現(xiàn)更有效、準(zhǔn)確的特征選擇,該方法不僅能保留低表達(dá)的有效特征,而且對(duì)相似異質(zhì)性特征的分群使得聚類信號(hào)更加集中。最后,ENCORE又利用新設(shè)計(jì)的一致性分群算法,實(shí)現(xiàn)了不同子空間分群信息的整合,增強(qiáng)了來自多個(gè)低熵子空間的共同信號(hào)并保留了各子空間的特有信號(hào)。在這種設(shè)計(jì)框架下,ENCORE可以在不同的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)集上實(shí)現(xiàn)精確的細(xì)胞分群、二維可視化以及分群標(biāo)記基因識(shí)別。
圖1. ENCORE算法示意圖
【數(shù)據(jù)介紹】首先我們將ENCORE應(yīng)用于12個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集和浙大小鼠細(xì)胞圖譜的大數(shù)據(jù)集,以評(píng)估ENCORE的子空間分離性能以及特征選擇、降噪能力。從圖2可以看出,無論是小數(shù)據(jù)集(圖2A)還是大數(shù)據(jù)集(圖2B),ENCORE的子空間分離方法均能生成多個(gè)具有不同信息量的子空間。其中圖1A的子空間2,3,4呈現(xiàn)較規(guī)則的細(xì)胞群分布,子空間1的細(xì)胞群分布則相對(duì)不規(guī)則;圖1B的子空間34和43相較于其余子空間也具有較好的分群信息,說明ENCORE可以識(shí)別小數(shù)據(jù)集(圖2A)或大數(shù)據(jù)集(圖2B)的低熵子空間。圖3展示了Seurat與ENCORE特征選擇的結(jié)果比較,ENCORE選取的特征在變異系數(shù)和均值上具有更隨機(jī)的分布,說明其與傳統(tǒng)算法在特征選擇上存在較大差異。
圖2. ENCORE子空間分離效果
圖3. ENCORE與Seurat特征選擇結(jié)果比較
接著,通過與四種廣泛應(yīng)用且高集成性的單細(xì)胞分群算法(Seurat, SIMLR, pcaReduce and t-SNE + K-means)進(jìn)行比較,ENCORE驗(yàn)證了其分群的準(zhǔn)確性和普適性。以12個(gè)具有已知實(shí)驗(yàn)分群標(biāo)簽的標(biāo)準(zhǔn)數(shù)據(jù)集作為測(cè)試數(shù)據(jù)集,并使用ARI(Adjusted Rand Index)和NMI(Normalized Mutual Information)作為分群準(zhǔn)確性指標(biāo),兩個(gè)指標(biāo)的值越高說明算法預(yù)測(cè)分群與已知分群標(biāo)簽具有越好的一致性,即說明算法預(yù)測(cè)分群的準(zhǔn)確性越高。如圖4A所示,相比于其他算法,在所有數(shù)據(jù)集上,ENCORE都表現(xiàn)出最高或相當(dāng)?shù)姆秩簻?zhǔn)確性,即使是細(xì)胞數(shù)較少的數(shù)據(jù)集,ENCORE仍具有最好的分群準(zhǔn)確性。由于這12個(gè)數(shù)據(jù)集來自不同測(cè)序平臺(tái),具有不同的數(shù)據(jù)量大小和測(cè)序深度,并且使用了不同的歸一化方法,而ENCORE都表現(xiàn)出較好的分群準(zhǔn)確性,說明ENCORE的分群性能更為穩(wěn)健。同時(shí),相較于其他算法,ENCORE的可視化結(jié)果不僅與聚類結(jié)果具有高度的一致性,而且更為清晰、直觀(圖4B)。
圖4. ENCORE與其他算法的準(zhǔn)確性及可視化結(jié)果比較
最后,為了評(píng)估了ENCORE對(duì)難分離數(shù)據(jù)集的信息提取能力,我們使用ENCORE對(duì)一個(gè)小鼠脂肪祖細(xì)胞數(shù)據(jù)集進(jìn)行分析(圖5)。盡管脂肪祖細(xì)胞間存在異質(zhì)性,但是從單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)中識(shí)別清晰的分群和明顯的標(biāo)記基因還是困難的。從結(jié)果可以看出,ENCORE能夠產(chǎn)生更清晰的細(xì)胞分型,并識(shí)別更具特異性的亞型標(biāo)記基因,這些亞型標(biāo)記基因的表達(dá)在熱圖上也能顯示出清晰的模式(圖5B)。接著,我們挑選了亞型標(biāo)記基因Mgp(該基因?yàn)镋NCORE推導(dǎo)的group 8的最優(yōu)標(biāo)志基因),對(duì)其功能展開初步探索。我們發(fā)現(xiàn)3T3-L1細(xì)胞中Mgp基因的過表達(dá)并不會(huì)影響成脂分化相關(guān)基因的表達(dá),但是會(huì)顯著提高Dio2基因的表達(dá)(圖5D)。Dio2蛋白與甲狀腺素(T4)向三碘甲狀腺原氨酸(T3)轉(zhuǎn)化相關(guān)。分析顯示Mgp能夠上調(diào)T3濃度,而又有報(bào)道顯示T3能夠刺激Mgp的表達(dá)上調(diào),說明T3和Mgp之間存在潛在的正反饋回路(圖5E)。這些結(jié)果表明,ENCORE能夠從復(fù)雜的數(shù)據(jù)集中識(shí)別具有生物學(xué)意義的標(biāo)記信息。
圖5. ENCORE在小鼠脂肪祖細(xì)胞分群中的應(yīng)用
【總結(jié)】在這篇文章中,本課題組和復(fù)旦大學(xué)李晉課題組開發(fā)了一種新型scRNA-seq分析方法ENCORE。基于相似表達(dá)密度譜的特征具有相似異質(zhì)性信息的假設(shè),ENCORE將特征分到不同的熵子空間中,基于子空間內(nèi)分群信息量來實(shí)現(xiàn)高效的特征選擇,從而提高細(xì)胞分群的準(zhǔn)確性。此外,在ENCORE中提出了一種新的一致性聚類方法,以增強(qiáng)來自多個(gè)子空間的共有信號(hào),同時(shí)保留各子空間的特有信號(hào)。與已有算法相比, ENCORE在大多數(shù)數(shù)據(jù)集上具有更優(yōu)的分群性能、準(zhǔn)確的標(biāo)記識(shí)別以及更清晰的可視化效果。對(duì)于不同測(cè)序平臺(tái)和歸一化處理的數(shù)據(jù),ENCORE的性能也更加穩(wěn)定。ENCORE為單細(xì)胞數(shù)據(jù)的聚類、二維可視化分析提供了新的思路和方法,在細(xì)胞異質(zhì)性研究和識(shí)別群體標(biāo)記方面展現(xiàn)出巨大潛力。
撰稿人:林黎
校稿人:宋佳
原文鏈接:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkaa1157/6030236
總結(jié)
以上是生活随笔為你收集整理的不相关子查询的工作方式是_课题组工作|Nucleic Acids Research|基于表达密度谱的特征子空间分离及相关单细胞转录组分群新算法...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 工行插入了网银盾怎么识别不了?
- 下一篇: 温度补偿计算公式_一种工业用温度测量模块