日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

39个转录组分析工具,120种组合评估

發(fā)布時間:2025/3/15 编程问答 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 39个转录组分析工具,120种组合评估 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

RNA-seq工具哪家強(qiáng)

RNA-seq分析工具知多少

RNA-seq是研究轉(zhuǎn)錄組應(yīng)用最廣泛,也最重要的技術(shù)之一。RNAseq其分析內(nèi)容包括序列比對、轉(zhuǎn)錄本拼裝、表達(dá)定量、差異分析、融合基因檢測、可變剪接、RNA編輯和突變檢測等,具體流程和常用工具如下圖所示。通常的分析不一定需要走完全部流程,按需進(jìn)行,某些步驟可以跳過、簡化等。

RNA-seq分析工具最優(yōu)組合

Nature Communication上一篇文章 Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis對15個樣品 (正常樣品、癌細(xì)胞和干細(xì)胞,短讀長和長讀長)的轉(zhuǎn)錄組數(shù)據(jù)利用39個分析工具,120種常見組合方式進(jìn)行的490次深入分析, 并以測序質(zhì)量控制聯(lián)盟(SEQC)的qPCR檢測結(jié)果做為正對照,總結(jié)出一套普適性流程,如下。

通過綜合分析RNA-seq分析流程中不同步驟的工具性能發(fā)現(xiàn)不同的分析工具和方法對分析結(jié)果的準(zhǔn)確度和分析時間影響巨大。

HISAT2表現(xiàn)出最快的速度和最準(zhǔn)確的拼接比對,但是沒有STAR的敏感度高。StringTie在速度和準(zhǔn)確度上都優(yōu)于Cufflinks。

長讀段方法如IDP和Iso-Seq會識別許多短讀段技術(shù)沒有識別到的多外顯子轉(zhuǎn)錄本,但是會丟失一些單外顯子轉(zhuǎn)錄本。

不經(jīng)過比對的工具如Salmon-SMEM和kallisto獲得了最好的一致性和最高準(zhǔn)確度,因此,如果目標(biāo)不是發(fā)現(xiàn)新的轉(zhuǎn)錄本,如Salmon-SMEM和kallisto可以作為準(zhǔn)確而快速的解決方案。

DESeq2和edgeR與不經(jīng)過比對的工具聯(lián)用可以獲得高準(zhǔn)確度的差異表達(dá)分析結(jié)果。

通常情況下,整體最好的分析流程對于特定的數(shù)據(jù)集特定的研究目的來說可能是次優(yōu)的。比如,對于比對和轉(zhuǎn)錄組構(gòu)建,HISAT2-StringTie組合具有更高的準(zhǔn)確度和更快的速度。但是對于MCF7-300樣品來講,STAR- StringTie組合具有更高的靈敏度。

序列比對質(zhì)量大比拼

STAR具有最高比例的在基因組上有唯一比對位置的reads,尤其是對讀長為300 nt的MCF7樣品也有最高的比對率。

與TopHat和HISAT2不同,STAR只保留雙端reads都比對到基因組的序列,但對低質(zhì)量的比對 (允許更多的錯配堿基和soft-clip事件) 容忍度高。這一點(diǎn)在長reads (MCF7-300)樣品中的體現(xiàn)更為明顯。TopHat則不允許soft-clip事件。

soft-clip事件: 即reads末端存在低質(zhì)量堿基或接頭導(dǎo)致比對不上的, STAR會自動嘗試截去未比對部分,只保留比對上的部分。

在比對速度方面,HISAT2比STAR快2.5倍,比TopHat快大約100倍。

(后續(xù)會推出柱狀圖的一步畫法)

Exon-exon junction位點(diǎn)評估

轉(zhuǎn)錄組reads比對不同于基因組reads比對(如ChIP-seq、WES等)的地方在于比對的reads可能來源于2個被內(nèi)含子隔開的外顯子區(qū)域,導(dǎo)致reads一端比對在第一個外顯子的后面部分,另一端比對在第二個外顯子的前面部分,從而形成exon-exon junction (剪接點(diǎn))。這些reads又稱為junction reads,對轉(zhuǎn)錄本的拼接、鑒定和差異分析具有重要的意義。

下面的維恩圖展示了不同比對軟件檢測到的共有和特有的剪接位點(diǎn)的比較 (整數(shù)代表每個軟件檢測到的剪接位點(diǎn)的數(shù)目,百分?jǐn)?shù)代表每個集合的splice junction被驗(yàn)證的比例)。可信的剪接點(diǎn)定義為dbEST數(shù)據(jù)庫中有至少2個表達(dá)序列標(biāo)簽(EST)支持的位點(diǎn), 做為正對照。

HISAT2在所有樣品中擁有最高的剪接點(diǎn)驗(yàn)證率 (80%-91%),TopHat其次 (54%-74%),STAR最低 (42%-54%)。但是HISAT2預(yù)測的剪接點(diǎn)的數(shù)量最少,約為TopHat的60%和STAR的50%。

韋恩圖繪制看 R語言學(xué)習(xí) - 韋恩圖 輕松繪制各種Venn圖

基于參考基因組的轉(zhuǎn)錄組組裝

對于二代測序數(shù)據(jù),Cufflinks和StringTie是應(yīng)用最廣泛的兩個基于比對結(jié)果的轉(zhuǎn)錄本拼裝工具。(比對軟件STAR,HISAT2和TopHat)

對于三代測序數(shù)據(jù),PacBio的流程中默認(rèn)使用軟件Iso-Seq。

二代和三代測序數(shù)據(jù)雜交拼裝,使用的是IDP (Isoform Detection and Prediction)。(比對軟件GMAP、STAR long)

轉(zhuǎn)錄本拼裝質(zhì)量評估的依據(jù)是GENCODE v19的參考轉(zhuǎn)錄組注釋,不存在于這個集合的轉(zhuǎn)錄本視為假陽性。

每個轉(zhuǎn)錄本中包含的外顯子的數(shù)目是轉(zhuǎn)錄本拼裝質(zhì)量的一個評價(jià)標(biāo)準(zhǔn), 通常單外顯子轉(zhuǎn)錄本可信度最差。Cufflinks的單外顯子轉(zhuǎn)錄本的數(shù)目占到30%左右,StringTie在15%左右。這些單外顯子轉(zhuǎn)錄本大約90%為假陽性 (數(shù)字為目測附圖的估計(jì))。StringTie拼裝獲得的轉(zhuǎn)錄本的數(shù)目約為Cufflinks的兩倍,其外顯子數(shù)目的分布與GENCODE v19較為相似。

IDP組裝出的都是多外顯子轉(zhuǎn)錄本,整體數(shù)目與Cufflinks排除單外顯子轉(zhuǎn)錄本后相近,但外顯子數(shù)目的分布與GENCODE v19更一致。與之相比,Iso-Seq的假陽性率較高,但敏感性更強(qiáng)。

堆積柱狀圖的畫法將會后續(xù)推出。

對于基因水平的組裝,IDP的的準(zhǔn)確性和靈敏性都是最好的。Cufflinks比StringTie更為準(zhǔn)確和靈敏。對于MCF3-300樣品來講,含有STAR的組合拼裝出更多的轉(zhuǎn)錄本,但拼裝準(zhǔn)確性和靈敏性都略低于基于TopHat和HISAT2的結(jié)果。IDP和StringTie拼裝出更多的多轉(zhuǎn)錄本基因。(下圖左)

對于轉(zhuǎn)錄本水平的組裝,IDP的準(zhǔn)確性比其它技術(shù)高20%,但其敏感性低于StringTie,高于Cufflinks。相比喻Cufflinks,StringTie轉(zhuǎn)錄本水平的組裝精確性和敏感性高11%和25%。在預(yù)測新的轉(zhuǎn)錄本上 (ENSEMBL沒有注釋但GENCODE v19有的3681個轉(zhuǎn)錄本),StringTie得到的最多,約是Cufflinks和IDP的2.5和6.5倍。(下圖右)

另外StringTie的速度是Cufflinks的50倍,IDP的60倍。

散點(diǎn)圖繪制 R語言學(xué)習(xí) - 散點(diǎn)圖繪制

表達(dá)定量

傳統(tǒng)的表達(dá)分析是將reads比對回參考基因組或者參考轉(zhuǎn)錄組,然后估計(jì)轉(zhuǎn)錄本豐度。如果研究目的是關(guān)注已知的和新的轉(zhuǎn)錄本的豐度,比對回參考基因組后使用Cufflinks和StringTie進(jìn)行組裝,然后評估表達(dá)豐度。如果只想定量已經(jīng)注釋的基因,直接比對到參考轉(zhuǎn)錄組,再使用RSEM和eXpress進(jìn)行豐度估計(jì)。

現(xiàn)在基于轉(zhuǎn)錄本的定量還有一種方式是不經(jīng)過比對直接判斷read來源于哪個轉(zhuǎn)錄本,這比拼接比對定量需要更少的計(jì)算資源。Sailfish、Salmon、quasi-mapping和kallisto四種工具是這一計(jì)算方式的代表。

對樣品NA12878采用不同方法定量得到的基因表達(dá)譜進(jìn)行l(wèi)og轉(zhuǎn)換后的Spearman秩和相關(guān)性分析表明采用相似方法的定量工具獲得的表達(dá)圖譜更相近。Cufflinks的定量結(jié)果與其他工具相關(guān)性最差,不足0.4. 不需要比對直接定量的工具與StringTie計(jì)算的結(jié)果更相近 (相關(guān)系數(shù)0.6-0.8)。Salmon-SMEM與基于轉(zhuǎn)錄組比對的工具eXpress和Salmon-Aln聚在一起,但Salmon-SMEM運(yùn)行速度更快。

R語言學(xué)習(xí) - 熱圖簡化 R語言學(xué)習(xí) - 熱圖美化 R語言學(xué)習(xí) - 熱圖繪制 (heatmap)

對于同一個樣品不同測序讀長的數(shù)據(jù) (MCF7-100和MCF7-300)的比較分析可以反應(yīng)比對工具定量的穩(wěn)定性。兩個不依賴于比對的定量工具kallisto和Salmon-SMEM具有最一致的定量結(jié)果。Cufflinks-TopHat組合的結(jié)果在基于比對的定量工具組合中表現(xiàn)最優(yōu)。整體看,基于STAR的比對結(jié)果,定量穩(wěn)定性低于基于HISAT2的比對。

綜上,不基于比對的定量結(jié)果效率和穩(wěn)定性最高。StringTie與HISAT2的組合是基于比對的定量工具中性能最好的, 但也要比不基于比對的工具慢一個數(shù)量級。

此圖為小提琴圖 (R語言學(xué)習(xí) - 箱線圖(小提琴圖、抖動圖、區(qū)域散點(diǎn)圖) R語言學(xué)習(xí) - 箱線圖一步法),展示了數(shù)據(jù)分布的密度,越胖的地方數(shù)據(jù)越集中。縱向表示兩個樣品基因表達(dá)變化的幅度,橫向表示變化幅度的集中度,數(shù)據(jù)越集中于y=0,定量一致性越好。

此圖為線圖 (R語言學(xué)習(xí) - 線圖一步法 R語言學(xué)習(xí) - 線圖繪制),展示的是逐步移除最低表達(dá)的部分轉(zhuǎn)錄本后定量的一致性。線越接近X軸表明一致性越好。

差異表達(dá)基因鑒定

不同樣品和條件下差異表達(dá)基因的識別是RNA-seq分析的重要目標(biāo)。有多種方法鑒定差異表達(dá)基因,包括基于計(jì)數(shù) (reads count)的DESeq、limma和edgeR、基于組裝技術(shù)的Cuffdiff和Ballgown、不經(jīng)過比對定量進(jìn)行差異分析的sleuth。

SEQC樣品 (SEQC-A vs SEQC-B, SEQC-C vs SEQC-D)中1001個有qRT-PCR定量過的基因作為對照評價(jià)工具的性能。

DESeq2在所有組合中表現(xiàn)最佳,sleuth、edgeR和limma略微次之,但差別不大。

Cuffdiff和Ballgown的準(zhǔn)確度沒有基于計(jì)數(shù)的工具準(zhǔn)確度高。

對于AUC-30的估計(jì),edgeR表現(xiàn)最佳, DESeq2與之差別不大。

基于來講基于計(jì)數(shù)的工具比基于組裝的工具更高效, 不經(jīng)過比對直接定量的工具如Salmon和kallisto能夠獲得高質(zhì)量的差異分析結(jié)果。

以上三個圖都是散點(diǎn)圖,第一個Spearman rank correlation相關(guān)性越高越好,第二個RMSD類似于均方差(與對照相比得分偏差的平方和先求均值再開方), 第三個AUC-30表示在假陽性率為30%時ROC曲線下的面積,面積越大表示結(jié)果越準(zhǔn)確 (縱軸是True positive rate)。

加入生信寶典,一起換個角度學(xué)生信

http://mp.weixin.qq.com/s/NUEi6oRFL7B3f1FpCD4Xug

http://mp.weixin.qq.com/s/xAaj-d5LRRj0SSMFJ7Yo9Q

聯(lián)系我們

總結(jié)

以上是生活随笔為你收集整理的39个转录组分析工具,120种组合评估的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。