當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

不相关子查询的工作方式是_课题组工作|Nucleic Acids Research|基于表达密度谱的特征子空间分离及相关单细胞转录组分群新算法...

發(fā)布時(shí)間：2023/12/3 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了不相关子查询的工作方式是_课题组工作|Nucleic Acids Research|基于表达密度谱的特征子空间分离及相关单细胞转录组分群新算法... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

大家好！為大家分享本課題組近期發(fā)表在Nucleic Acids Research的文章，題目為 “Entropy subspace separation-based clustering for noise reduction (ENCORE) of scRNA-seq data”，文章提出了一種基于表達(dá)密度譜的特征選擇方法，能夠有效進(jìn)行特征子空間分離完成特征信息和噪音識(shí)別，并結(jié)合一致性分群策略，設(shè)計(jì)了一種單細(xì)胞轉(zhuǎn)錄組分群新算法(ENCORE)。

【背景介紹】

單細(xì)胞轉(zhuǎn)錄組測(cè)序技術(shù)使得我們能夠捕獲單個(gè)細(xì)胞的轉(zhuǎn)錄組信息，為復(fù)雜生物問題的研究提供更精細(xì)的分析手段。為了更有效地利用單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)、提取細(xì)胞異質(zhì)性信息，我們需要使用高精度和高分辨率的聚類相關(guān)算法，因此近年來研究者們已經(jīng)開發(fā)了大量單細(xì)胞轉(zhuǎn)錄組分群算法。這些算法通常包括歸一化、特征選擇、降維、距離計(jì)算、聚類、分群標(biāo)記基因識(shí)別等關(guān)鍵步驟，新的算法也常是針對(duì)以上步驟進(jìn)行改進(jìn)。然而相比于其他步驟，特征選擇的改進(jìn)發(fā)展較為緩慢。多數(shù)算法選擇在表達(dá)上具有高表達(dá)、高變異性的特征(基因或轉(zhuǎn)錄本)進(jìn)行下游分析，該類方法容易受到噪音的干擾而丟失有效特征，導(dǎo)致結(jié)果被高表達(dá)的特征主導(dǎo)。

【設(shè)計(jì)思路】

為了解決目前特征選擇所存在的問題，ENCORE提出了一種獨(dú)特的子空間分離策略，用于降噪和特征選擇，從而實(shí)現(xiàn)單細(xì)胞分群的優(yōu)化。ENCORE的設(shè)計(jì)基于這樣一個(gè)假設(shè)：在不考慮表達(dá)量的情況下，細(xì)胞間表達(dá)密度譜相似的特征可能攜帶相似的細(xì)胞異質(zhì)性信息，因此將特征根據(jù)密度譜進(jìn)行子空間分離后，細(xì)胞群在這些子空間中可能呈現(xiàn)更清晰的分布。具體過程如圖1所示，主要包括子空間分離、子空間內(nèi)分群、一致性分群三個(gè)步驟。首先對(duì)特征的表達(dá)密度譜進(jìn)行分群，將對(duì)應(yīng)特征分離到不同的子空間，這些子空間在各個(gè)維度上包含相當(dāng)?shù)漠愘|(zhì)性信息，因而更有利于提取異質(zhì)性信息。隨后ENCORE通過識(shí)別細(xì)胞簇來評(píng)估子空間的“熵”值，即子空間包含異質(zhì)性信息的豐富程度。低熵子空間具有清晰的分群信息，細(xì)胞的分布規(guī)則；高熵子空間不具有清晰的分群信息，細(xì)胞的分布隨機(jī)。接著ENCORE通過對(duì)低熵子空間的篩選實(shí)現(xiàn)更有效、準(zhǔn)確的特征選擇，該方法不僅能保留低表達(dá)的有效特征，而且對(duì)相似異質(zhì)性特征的分群使得聚類信號(hào)更加集中。最后，ENCORE又利用新設(shè)計(jì)的一致性分群算法，實(shí)現(xiàn)了不同子空間分群信息的整合，增強(qiáng)了來自多個(gè)低熵子空間的共同信號(hào)并保留了各子空間的特有信號(hào)。在這種設(shè)計(jì)框架下，ENCORE可以在不同的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)集上實(shí)現(xiàn)精確的細(xì)胞分群、二維可視化以及分群標(biāo)記基因識(shí)別。

圖1. ENCORE算法示意圖

【數(shù)據(jù)介紹】

首先我們將ENCORE應(yīng)用于12個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集和浙大小鼠細(xì)胞圖譜的大數(shù)據(jù)集，以評(píng)估ENCORE的子空間分離性能以及特征選擇、降噪能力。從圖2可以看出，無論是小數(shù)據(jù)集(圖2A)還是大數(shù)據(jù)集(圖2B)，ENCORE的子空間分離方法均能生成多個(gè)具有不同信息量的子空間。其中圖1A的子空間2，3，4呈現(xiàn)較規(guī)則的細(xì)胞群分布，子空間1的細(xì)胞群分布則相對(duì)不規(guī)則；圖1B的子空間34和43相較于其余子空間也具有較好的分群信息，說明ENCORE可以識(shí)別小數(shù)據(jù)集(圖2A)或大數(shù)據(jù)集(圖2B)的低熵子空間。圖3展示了Seurat與ENCORE特征選擇的結(jié)果比較，ENCORE選取的特征在變異系數(shù)和均值上具有更隨機(jī)的分布，說明其與傳統(tǒng)算法在特征選擇上存在較大差異。

圖2. ENCORE子空間分離效果

圖3. ENCORE與Seurat特征選擇結(jié)果比較

接著，通過與四種廣泛應(yīng)用且高集成性的單細(xì)胞分群算法(Seurat, SIMLR, pcaReduce and t-SNE + K-means)進(jìn)行比較，ENCORE驗(yàn)證了其分群的準(zhǔn)確性和普適性。以12個(gè)具有已知實(shí)驗(yàn)分群標(biāo)簽的標(biāo)準(zhǔn)數(shù)據(jù)集作為測(cè)試數(shù)據(jù)集，并使用ARI(Adjusted Rand Index)和NMI(Normalized Mutual Information)作為分群準(zhǔn)確性指標(biāo)，兩個(gè)指標(biāo)的值越高說明算法預(yù)測(cè)分群與已知分群標(biāo)簽具有越好的一致性，即說明算法預(yù)測(cè)分群的準(zhǔn)確性越高。如圖4A所示，相比于其他算法，在所有數(shù)據(jù)集上，ENCORE都表現(xiàn)出最高或相當(dāng)?shù)姆秩簻?zhǔn)確性，即使是細(xì)胞數(shù)較少的數(shù)據(jù)集，ENCORE仍具有最好的分群準(zhǔn)確性。由于這12個(gè)數(shù)據(jù)集來自不同測(cè)序平臺(tái)，具有不同的數(shù)據(jù)量大小和測(cè)序深度，并且使用了不同的歸一化方法，而ENCORE都表現(xiàn)出較好的分群準(zhǔn)確性，說明ENCORE的分群性能更為穩(wěn)健。同時(shí)，相較于其他算法，ENCORE的可視化結(jié)果不僅與聚類結(jié)果具有高度的一致性，而且更為清晰、直觀(圖4B)。

圖4. ENCORE與其他算法的準(zhǔn)確性及可視化結(jié)果比較

最后，為了評(píng)估了ENCORE對(duì)難分離數(shù)據(jù)集的信息提取能力，我們使用ENCORE對(duì)一個(gè)小鼠脂肪祖細(xì)胞數(shù)據(jù)集進(jìn)行分析(圖5)。盡管脂肪祖細(xì)胞間存在異質(zhì)性，但是從單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)中識(shí)別清晰的分群和明顯的標(biāo)記基因還是困難的。從結(jié)果可以看出，ENCORE能夠產(chǎn)生更清晰的細(xì)胞分型，并識(shí)別更具特異性的亞型標(biāo)記基因，這些亞型標(biāo)記基因的表達(dá)在熱圖上也能顯示出清晰的模式(圖5B)。接著，我們挑選了亞型標(biāo)記基因Mgp(該基因?yàn)镋NCORE推導(dǎo)的group 8的最優(yōu)標(biāo)志基因)，對(duì)其功能展開初步探索。我們發(fā)現(xiàn)3T3-L1細(xì)胞中Mgp基因的過表達(dá)并不會(huì)影響成脂分化相關(guān)基因的表達(dá)，但是會(huì)顯著提高Dio2基因的表達(dá)(圖5D)。Dio2蛋白與甲狀腺素(T4)向三碘甲狀腺原氨酸(T3)轉(zhuǎn)化相關(guān)。分析顯示Mgp能夠上調(diào)T3濃度，而又有報(bào)道顯示T3能夠刺激Mgp的表達(dá)上調(diào)，說明T3和Mgp之間存在潛在的正反饋回路(圖5E)。這些結(jié)果表明，ENCORE能夠從復(fù)雜的數(shù)據(jù)集中識(shí)別具有生物學(xué)意義的標(biāo)記信息。

圖5. ENCORE在小鼠脂肪祖細(xì)胞分群中的應(yīng)用

【總結(jié)】

在這篇文章中，本課題組和復(fù)旦大學(xué)李晉課題組開發(fā)了一種新型scRNA-seq分析方法ENCORE。基于相似表達(dá)密度譜的特征具有相似異質(zhì)性信息的假設(shè)，ENCORE將特征分到不同的熵子空間中，基于子空間內(nèi)分群信息量來實(shí)現(xiàn)高效的特征選擇，從而提高細(xì)胞分群的準(zhǔn)確性。此外，在ENCORE中提出了一種新的一致性聚類方法，以增強(qiáng)來自多個(gè)子空間的共有信號(hào)，同時(shí)保留各子空間的特有信號(hào)。與已有算法相比， ENCORE在大多數(shù)數(shù)據(jù)集上具有更優(yōu)的分群性能、準(zhǔn)確的標(biāo)記識(shí)別以及更清晰的可視化效果。對(duì)于不同測(cè)序平臺(tái)和歸一化處理的數(shù)據(jù)，ENCORE的性能也更加穩(wěn)定。ENCORE為單細(xì)胞數(shù)據(jù)的聚類、二維可視化分析提供了新的思路和方法，在細(xì)胞異質(zhì)性研究和識(shí)別群體標(biāo)記方面展現(xiàn)出巨大潛力。

撰稿人：林黎

校稿人：宋佳

原文鏈接：https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkaa1157/6030236

總結(jié)

以上是生活随笔為你收集整理的不相关子查询的工作方式是_课题组工作|Nucleic Acids Research|基于表达密度谱的特征子空间分离及相关单细胞转录组分群新算法...的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：工行插入了网银盾怎么识别不了？
下一篇：温度补偿计算公式_一种工业用温度测量模块

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

不相关子查询的工作方式是_课题组工作|Nucleic Acids Research|基于表达密度谱的特征子空间分离及相关单细胞转录组分群新算法...

總結(jié)