日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

39个工具,120种组合深度评估 (转录组分析工具哪家强)

發(fā)布時間:2025/3/15 编程问答 53 豆豆
生活随笔 收集整理的這篇文章主要介紹了 39个工具,120种组合深度评估 (转录组分析工具哪家强) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

前言

NGS系列文章包括NGS基礎(chǔ)、轉(zhuǎn)錄組分析?(Nature重磅綜述|關(guān)于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細(xì)胞測序分析?(重磅綜述:三萬字長文讀懂單細(xì)胞RNA測序分析的最佳實踐教程 (原理、代碼和評述))、DNA甲基化分析、重測序分析、GEO數(shù)據(jù)挖掘(典型醫(yī)學(xué)設(shè)計實驗GEO數(shù)據(jù)分析 (step-by-step) - Limma差異分析、火山圖、功能富集)等內(nèi)容。

RNA-seq分析工具知多少

RNA-seq是研究轉(zhuǎn)錄組應(yīng)用最廣泛,也最重要的技術(shù)之一。RNAseq其分析內(nèi)容包括序列比對、轉(zhuǎn)錄本拼裝、表達(dá)定量、差異分析、融合基因檢測、可變剪接、RNA編輯和突變檢測等,具體流程和常用工具如下圖所示。通常的分析不一定需要走完全部流程,按需進(jìn)行,某些步驟可以跳過、簡化等。

RNA-seq分析工具最優(yōu)組合

Nature Communication上一篇文章 Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis對15個樣品 (正常樣品、癌細(xì)胞和干細(xì)胞,短讀長和長讀長)的轉(zhuǎn)錄組數(shù)據(jù)利用39個分析工具,120種常見組合方式進(jìn)行的490次深入分析, 并以測序質(zhì)量控制聯(lián)盟(SEQC)的qPCR檢測結(jié)果做為正對照,總結(jié)出一套普適性流程,如下。

通過綜合分析RNA-seq分析流程中不同步驟的工具性能發(fā)現(xiàn)不同的分析工具和方法對分析結(jié)果的準(zhǔn)確度和分析時間影響巨大。

HISAT2表現(xiàn)出最快的速度和最準(zhǔn)確的拼接比對,但是沒有STAR的敏感度高。StringTie在速度和準(zhǔn)確度上都優(yōu)于Cufflinks。

長讀段方法如IDP和Iso-Seq會識別許多短讀段技術(shù)沒有識別到的多外顯子轉(zhuǎn)錄本,但是會丟失一些單外顯子轉(zhuǎn)錄本。

不經(jīng)過比對的工具如Salmon-SMEM和kallisto獲得了最好的一致性和最高準(zhǔn)確度,因此,如果目標(biāo)不是發(fā)現(xiàn)新的轉(zhuǎn)錄本,如Salmon-SMEM和kallisto可以作為準(zhǔn)確而快速的解決方案。

DESeq2和edgeR與不經(jīng)過比對的工具聯(lián)用可以獲得高準(zhǔn)確度的差異表達(dá)分析結(jié)果。

通常情況下,整體最好的分析流程對于特定的數(shù)據(jù)集特定的研究目的來說可能是次優(yōu)的。比如,對于比對和轉(zhuǎn)錄組構(gòu)建,HISAT2-StringTie組合具有更高的準(zhǔn)確度和更快的速度。但是對于MCF7-300樣品來講,STAR-?StringTie組合具有更高的靈敏度。

下面將詳細(xì)闡述每部分的評估。

序列比對質(zhì)量大比拼

STAR具有最高比例的在基因組上有唯一比對位置的reads,尤其是對讀長為300 nt的MCF7樣品也有最高的比對率。

與TopHat和HISAT2不同,STAR只保留雙端reads都比對到基因組的序列,但對低質(zhì)量的比對 (允許更多的錯配堿基和soft-clip事件) 容忍度高。這一點在長reads (MCF7-300)樣品中的體現(xiàn)更為明顯。TopHat則不允許soft-clip事件。

soft-clip事件: 即reads末端存在低質(zhì)量堿基或接頭導(dǎo)致比對不上的, STAR會自動嘗試截去未比對部分,只保留比對上的部分。

在比對速度方面,HISAT2比STAR快2.5倍,比TopHat快大約100倍。(后續(xù)會推出柱狀圖的一步畫法)

Exon-exon junction位點評估

轉(zhuǎn)錄組reads比對不同于基因組reads比對(如ChIP-seq、WES等)的地方在于比對的reads可能來源于2個被內(nèi)含子隔開的外顯子區(qū)域,導(dǎo)致reads一端比對在第一個外顯子的后面部分,另一端比對在第二個外顯子的前面部分,從而形成exon-exon junction (剪接點)。這些reads又稱為junction reads,對轉(zhuǎn)錄本的拼接、鑒定和差異分析具有重要的意義。

下面的維恩圖展示了不同比對軟件檢測到的共有和特有的剪接位點的比較 (整數(shù)代表每個軟件檢測到的剪接位點的數(shù)目,百分?jǐn)?shù)代表每個集合的splice junction被驗證的比例)。可信的剪接點定義為dbEST數(shù)據(jù)庫中有至少2個表達(dá)序列標(biāo)簽(EST)支持的位點, 做為正對照。

HISAT2在所有樣品中擁有最高的剪接點驗證率 (80%-91%),TopHat其次 (54%-74%),STAR最低 (42%-54%)。但是HISAT2預(yù)測的剪接點的數(shù)量最少,約為TopHat的60%和STAR的50%。

韋恩圖繪制看?R語言學(xué)習(xí) - 韋恩圖 ?輕松繪制各種Venn圖

基于參考基因組的轉(zhuǎn)錄組組裝

對于二代測序數(shù)據(jù),Cufflinks和StringTie是應(yīng)用最廣泛的兩個基于比對結(jié)果的轉(zhuǎn)錄本拼裝工具。(比對軟件STAR,HISAT2和TopHat)

對于三代測序數(shù)據(jù),PacBio的流程中默認(rèn)使用軟件Iso-Seq。

二代和三代測序數(shù)據(jù)雜交拼裝,使用的是IDP (Isoform Detection and Prediction)。(比對軟件GMAP、STAR long)

轉(zhuǎn)錄本拼裝質(zhì)量評估的依據(jù)是GENCODE v19的參考轉(zhuǎn)錄組注釋,不存在于這個集合的轉(zhuǎn)錄本視為假陽性。

每個轉(zhuǎn)錄本中包含的外顯子的數(shù)目是轉(zhuǎn)錄本拼裝質(zhì)量的一個評價標(biāo)準(zhǔn), 通常單外顯子轉(zhuǎn)錄本可信度最差。Cufflinks的單外顯子轉(zhuǎn)錄本的數(shù)目占到30%左右,StringTie在15%左右。這些單外顯子轉(zhuǎn)錄本大約90%為假陽性 (數(shù)字為目測附圖的估計)。StringTie拼裝獲得的轉(zhuǎn)錄本的數(shù)目約為Cufflinks的兩倍,其外顯子數(shù)目的分布與GENCODE v19較為相似。

IDP組裝出的都是多外顯子轉(zhuǎn)錄本,整體數(shù)目與Cufflinks排除單外顯子轉(zhuǎn)錄本后相近,但外顯子數(shù)目的分布與GENCODE v19更一致。與之相比,Iso-Seq的假陽性率較高,但敏感性更強。

堆積柱狀圖的畫法可以參考:是Excel的圖,不!是R的圖

對于基因水平的組裝,IDP的的準(zhǔn)確性和靈敏性都是最好的。Cufflinks比StringTie更為準(zhǔn)確和靈敏。對于MCF3-300樣品來講,含有STAR的組合拼裝出更多的轉(zhuǎn)錄本,但拼裝準(zhǔn)確性和靈敏性都略低于基于TopHat和HISAT2的結(jié)果。IDP和StringTie拼裝出更多的多轉(zhuǎn)錄本基因。(下圖左)

對于轉(zhuǎn)錄本水平的組裝,IDP的準(zhǔn)確性比其它技術(shù)高20%,但其敏感性低于StringTie,高于Cufflinks。相比喻Cufflinks,StringTie轉(zhuǎn)錄本水平的組裝精確性和敏感性高11%和25%。在預(yù)測新的轉(zhuǎn)錄本上 (ENSEMBL沒有注釋但GENCODE v19有的3681個轉(zhuǎn)錄本),StringTie得到的最多,約是Cufflinks和IDP的2.5和6.5倍。(下圖右)

另外StringTie的速度是Cufflinks的50倍,IDP的60倍。

散點圖繪制?R語言學(xué)習(xí) - 散點圖繪制

表達(dá)定量

傳統(tǒng)的表達(dá)分析是將reads比對回參考基因組或者參考轉(zhuǎn)錄組,然后估計轉(zhuǎn)錄本豐度。如果研究目的是關(guān)注已知的和新的轉(zhuǎn)錄本的豐度,比對回參考基因組后使用Cufflinks和StringTie進(jìn)行組裝,然后評估表達(dá)豐度。如果只想定量已經(jīng)注釋的基因,直接比對到參考轉(zhuǎn)錄組,再使用RSEM和eXpress進(jìn)行豐度估計。

現(xiàn)在基于轉(zhuǎn)錄本的定量還有一種方式是不經(jīng)過比對直接判斷read來源于哪個轉(zhuǎn)錄本,這比拼接比對定量需要更少的計算資源。Sailfish、Salmon、quasi-mapping和kallisto四種工具是這一計算方式的代表。

對樣品NA12878采用不同方法定量得到的基因表達(dá)譜進(jìn)行l(wèi)og轉(zhuǎn)換后的Spearman秩和相關(guān)性分析表明采用相似方法的定量工具獲得的表達(dá)圖譜更相近。Cufflinks的定量結(jié)果與其他工具相關(guān)性最差,不足0.4. 不需要比對直接定量的工具與StringTie計算的結(jié)果更相近 (相關(guān)系數(shù)0.6-0.8)。Salmon-SMEM與基于轉(zhuǎn)錄組比對的工具eXpress和Salmon-Aln聚在一起,但Salmon-SMEM運行速度更快。

R語言學(xué)習(xí) - 熱圖簡化?R語言學(xué)習(xí) - 熱圖美化?R語言學(xué)習(xí) - 熱圖繪制 (heatmap)

對于同一個樣品不同測序讀長的數(shù)據(jù) (MCF7-100和MCF7-300)的比較分析可以反應(yīng)比對工具定量的穩(wěn)定性。兩個不依賴于比對的定量工具kallisto和Salmon-SMEM具有最一致的定量結(jié)果。Cufflinks-TopHat組合的結(jié)果在基于比對的定量工具組合中表現(xiàn)最優(yōu)。整體看,基于STAR的比對結(jié)果,定量穩(wěn)定性低于基于HISAT2的比對。

綜上,不基于比對的定量結(jié)果效率和穩(wěn)定性最高。StringTie與HISAT2的組合是基于比對的定量工具中性能最好的, 但也要比不基于比對的工具慢一個數(shù)量級。

此圖為小提琴圖 (R語言學(xué)習(xí) - 箱線圖(小提琴圖、抖動圖、區(qū)域散點圖)R語言學(xué)習(xí) - 箱線圖一步法),展示了數(shù)據(jù)分布的密度,越胖的地方數(shù)據(jù)越集中。縱向表示兩個樣品基因表達(dá)變化的幅度,橫向表示變化幅度的集中度,數(shù)據(jù)越集中于y=0,定量一致性越好。

此圖為線圖(R語言學(xué)習(xí) - 線圖一步法 R語言學(xué)習(xí) - 線圖繪制),展示的是逐步移除最低表達(dá)的部分轉(zhuǎn)錄本后定量的一致性。線越接近X軸表明一致性越好。

差異表達(dá)基因鑒定

不同樣品和條件下差異表達(dá)基因的識別是RNA-seq分析的重要目標(biāo)。有多種方法鑒定差異表達(dá)基因,包括基于計數(shù) (reads count)的DESeq、limma和edgeR、基于組裝技術(shù)的Cuffdiff和Ballgown、不經(jīng)過比對定量進(jìn)行差異分析的sleuth。

SEQC樣品 (SEQC-A vs SEQC-B, SEQC-C vs SEQC-D)中1001個有qRT-PCR定量過的基因作為對照評價工具的性能。

DESeq2在所有組合中表現(xiàn)最佳(DESeq2差異基因分析和批次效應(yīng)移除),sleuth、edgeR和limma(典型醫(yī)學(xué)設(shè)計實驗GEO數(shù)據(jù)分析 (step-by-step) - Limma差異分析、火山圖、功能富集)略微次之,但差別不大。

Cuffdiff和Ballgown的準(zhǔn)確度沒有基于計數(shù)的工具準(zhǔn)確度高。

對于AUC-30的估計,edgeR表現(xiàn)最佳, DESeq2與之差別不大。

基于來講基于計數(shù)的工具比基于組裝的工具更高效, 不經(jīng)過比對直接定量的工具如Salmon和kallisto能夠獲得高質(zhì)量的差異分析結(jié)果。

以上三個圖都是散點圖,第一個Spearman rank correlation相關(guān)性越高越好,第二個RMSD類似于均方差(與對照相比得分偏差的平方和先求均值再開方), 第三個AUC-30表示在假陽性率為30%時ROC曲線下的面積,面積越大表示結(jié)果越準(zhǔn)確 (縱軸是True positive rate,想象下那個曲線,原文中也有一個示例)。

文獻(xiàn)解讀完了,工具也選擇好了,圖也都可以重復(fù)了,就只剩下有人動動手,去實際操作了。

轉(zhuǎn)錄組研究

  • NGS基礎(chǔ) - FASTQ格式解釋和質(zhì)量評估

  • NGS基礎(chǔ) - 高通量測序原理

  • NGS基礎(chǔ) - 參考基因組和基因注釋文件

  • NGS基礎(chǔ) - GTF/GFF文件格式解讀和轉(zhuǎn)換

  • NGS基礎(chǔ) - 測序原始數(shù)據(jù)下載

高顏值免費在線繪圖

往期精品(點擊圖片直達(dá)文字對應(yīng)教程)

后臺回復(fù)“生信寶典福利第一波”或點擊閱讀原文獲取教程合集

總結(jié)

以上是生活随笔為你收集整理的39个工具,120种组合深度评估 (转录组分析工具哪家强)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。