日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

推荐阅读:变异检测到底应该用什么软件?

發布時間:2025/4/16 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 推荐阅读:变异检测到底应该用什么软件? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

原文見:Validating generalized incremental joint variant calling with GATK HaplotypeCaller, FreeBayes, Platypus and samtools

說到變異檢測,可能大家第一個想到的工具就是GATK HaplotypeCaller。它很出名,所以用的人多,為什么用的人多?是因為大家聽說他很準,但是到底有多準呢?其實大家都不會去深究,不過沒關系,有人會幫我們去做評測。

在2014年就有一篇博客,用NA12878/NA12891/NA12892 trio數據集對GATK HaplotypeCaller, FreeBayes, Platypus 和samtools 這五個軟件做了一個比較,下面是比較結果。

首先作者這幾個工具同時對所有樣本進行變異檢測,因為它們都號稱可以利用群體結構相互驗證,提高結果的正確性。

群體變異檢測

先不要被這個條形圖的明顯反差誤差,以為Platypus非常差,其實它們都在一個數量級上。在同一個數量級上,GATK的HaplotypeCaller在精度和準確上都的確比其他軟件好。也可以發現samtools其實在找indels更加的粗獷,找到了更多本來不存在的indels,但是在snp上的表現其實是一致的。

下一步是比較群體、混池和單個樣本檢測。這里說明一下混池,所謂的混池就是把多個樣本混在一起測序,丟失了個體信息。

為什么要研究單個樣本的變異效果呢?主要是為了提高效率,便于并行。

混池檢測表現 單樣本檢測

這上面兩個圖其實和之前那個圖類似,但是的確在精度上和準度上有些降低。并且samtools的假陽性依舊非常感人。

最后說說我的看法:

這篇博客主要是看檢測后的數據集效果,而沒有看變異過濾后效果。GATK的優勢在于,能夠利用機器學習的方法根據已有變異數據庫進一步提高結果的準確度。但是對于植物而言,所能做的就是硬指標過濾。

因此,如果做人類,最推薦的工具是GATK,因為表現的確很好。而且人類還會不斷增加樣本,需要使用GVCFS文件解決N+1的問題

如果是植物,我目前就用freebayes了,效率高,表現也不錯。同時強烈推薦閱讀這篇文獻"Single Nucleotide Polymorphism Identification in Polyploids: A Review, Example, and Recommendations"。

植物多倍體找SNP策略1
植物多倍體找SNP策略2

還有這三篇文章(可惜已經被原作者刪了):

  • variant分析階段小結1-基礎知識
  • variant分析階段小結2-尋找變異并過濾
  • variant分析階段小結3-對變異進行注釋

總結

以上是生活随笔為你收集整理的推荐阅读:变异检测到底应该用什么软件?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。