推荐阅读:变异检测到底应该用什么软件?
原文見:Validating generalized incremental joint variant calling with GATK HaplotypeCaller, FreeBayes, Platypus and samtools
說到變異檢測,可能大家第一個想到的工具就是GATK HaplotypeCaller。它很出名,所以用的人多,為什么用的人多?是因為大家聽說他很準,但是到底有多準呢?其實大家都不會去深究,不過沒關系,有人會幫我們去做評測。
在2014年就有一篇博客,用NA12878/NA12891/NA12892 trio數據集對GATK HaplotypeCaller, FreeBayes, Platypus 和samtools 這五個軟件做了一個比較,下面是比較結果。
首先作者這幾個工具同時對所有樣本進行變異檢測,因為它們都號稱可以利用群體結構相互驗證,提高結果的正確性。
群體變異檢測先不要被這個條形圖的明顯反差誤差,以為Platypus非常差,其實它們都在一個數量級上。在同一個數量級上,GATK的HaplotypeCaller在精度和準確上都的確比其他軟件好。也可以發現samtools其實在找indels更加的粗獷,找到了更多本來不存在的indels,但是在snp上的表現其實是一致的。
下一步是比較群體、混池和單個樣本檢測。這里說明一下混池,所謂的混池就是把多個樣本混在一起測序,丟失了個體信息。
為什么要研究單個樣本的變異效果呢?主要是為了提高效率,便于并行。
混池檢測表現 單樣本檢測這上面兩個圖其實和之前那個圖類似,但是的確在精度上和準度上有些降低。并且samtools的假陽性依舊非常感人。
最后說說我的看法:
這篇博客主要是看檢測后的數據集效果,而沒有看變異過濾后效果。GATK的優勢在于,能夠利用機器學習的方法根據已有變異數據庫進一步提高結果的準確度。但是對于植物而言,所能做的就是硬指標過濾。
因此,如果做人類,最推薦的工具是GATK,因為表現的確很好。而且人類還會不斷增加樣本,需要使用GVCFS文件解決N+1的問題
如果是植物,我目前就用freebayes了,效率高,表現也不錯。同時強烈推薦閱讀這篇文獻"Single Nucleotide Polymorphism Identification in Polyploids: A Review, Example, and Recommendations"。
植物多倍體找SNP策略1植物多倍體找SNP策略2
還有這三篇文章(可惜已經被原作者刪了):
- variant分析階段小結1-基礎知識
- variant分析階段小結2-尋找變異并過濾
- variant分析階段小結3-對變異進行注釋
總結
以上是生活随笔為你收集整理的推荐阅读:变异检测到底应该用什么软件?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 访谈Stuart Davidson:Sk
- 下一篇: MariaDB表表达式(2):CTE