Vsearch免费替代收费版的usearch
?
本文首先發布于“宏基因組”公眾號原創。
作者:舟行天下
編輯:metagenome
前言
用usearch,這個usearch在序列搜索、聚類、去重、去嵌合體等序列操作有非常重要的作用。它由大神Robert Edgar開發,詳情見文章:擴增子分析神器USEARCH簡介
usearch這個軟件的安裝以及使用都非常方便,簡直就是擴增子測序分析的神器!進入官網USEARCH我們可以看到作者提供32位的免費版本和64位的收費版本。免費提供的32位版本限制用戶最多使用4G內存,依照本人數據量以及使用經驗的話,大于40個樣品可能就不能有效的跑完全部流程了。關于USEARCH的詳細介紹請參考:《擴增子分析神器USEARCH簡介》 由于該軟件64位收費版確實有點貴,而且有的實驗室老板不一定讓買。那么有沒有什么方法可以突破免費版本的內存限制呢? 小編在這里就要給大家發一個福利了,讓你能無差別的使用usearch的絕大部分功能而且還不用收費。那就是用vsearch軟件替代usearch部分功能,結合usearch一起使用。
vsearch簡介
vsearch 是一個開源免費的64位,無內存限制的擴增子數據分析軟件。該軟件是專門針對Edgar大神開發的 USEARCH
軟件而設計的(Edgar 2010)。作者在文章前言中就提到由于Edgar大神開發的 USEARCH不開源,并且沒有給出其算法的詳細描述,最主要是免費的版本只有32位,而且有4 GB的使用內存限制,所以他們想了想直接自己開發了一個與usearch功能類似的軟件工大家使用。根據谷歌學術的統計數據,該軟件從2 016年發表到現在已經被引用了218次。
從FIG.1可以看到:通過與USEARCH7和USEARCH8對比,VSEARCH在嵌合體檢測過程準確性優于USEARCH。 (FIG.1)
從FIG.2可以看到:通過與USEARCH7和USEARCH8對比,VSEARCH的搜索準確率與USEARCH相當。 (FIG.2)
從FIG.2可以看到:通過與USEARCH7和USEARCH8對比,VSEARCH在聚類準確率上優于USEARCH的UPARSE功能。 (FIG.3)
vsearch主要的功能與參數都與usearch版本類似,其主要特點是開源免費,持續更新而且軟件易于安裝,且有各平臺的版本。 在最新發布的vsearch版本中,作者也針對usearch10中的UNOISE去噪方法(詳細介紹),在vsearch中加入了UNOISE方法用于聚類分析。
vsearch軟件目前已經更新到了2.7.1版本,其Windows的安裝版本鏈接是:vsearch; MAC版本的下載鏈接是:MAC_vsearch
)
usearch+vsearch實戰操作
文中使用所有文件下載鏈接:https://pan.baidu.com/s/1yS-WgViAPeix0jTbhtYOKQ 密碼:dmfy 然后我們將下載好的測試數據放在工作目錄下面。
首先是vsearch的安裝:
在linux中我們直接執行以下命令就可以直接安裝了
##如何安裝vsearch wget https://github.com/torognes/vsearch/archive/v2.6.2.tar.gz tar xzf v2.6.2.tar.gz cd vsearch-2.6.2 ./autogen.sh ./configure make make install # as root or sudo make installmkdir -p seq # 原始數據 raw data要想靈活的玩轉vsearch加usearch軟件,那我們首先要知道usearch免費版本的軟件究竟是在你的分析流程中的哪幾個步驟限制了你的 數據量大小,這樣我們就可以在有需要替換的步驟用vsearch軟件進行替換了。當你拿到拆分好的擴增子數據后我們通過進行的數據處 理流程如下圖所示:(FIG.4)
從圖中我們可以看到usearch在整個分析流程中主要的內存限制步驟是<Dereplication>; <Chimera checking>以及 <Match OTU>這三個步驟。而這三步分別對應著的vsearch步驟是<vsearch —derep_fulllength>; <vsearch —uchime_ref>以及<vsearch —usearch_global>。轉化成一個可讀的OTU table了。
Vsearch使用實戰
# 目錄 mkdir -p temp # 臨時文件 temp directory for intermediate files mkdir -p result # 最終結果 important results# 文件 # pipeline.sh 分析主流程 # rdp_16s_v16.fa 16S數據庫 # seq/*.fq.gz 壓縮的原始測序數據 # doc/design.txt 實驗設計文件#Merge paired reads and label samples# 測序數據解壓 gunzip seq/*# 依照實驗設計批處理并合并for i in `tail -n+2 doc/design.txt | cut -f 1`;do vsearch --fastq_mergepairs seq/${i}_1.fq --reverse seq/${i}_2.fq --fastqout temp/${i}.merged.fq done for i in `tail -n+2 doc/design.txt | cut -f 1`;do vsearch --fastx_filter temp/${i}.merged.fq --fastqout temp/${i}.merged.relabe.fq --relabel ${i}. & done# 合并所有樣品至同一文件 cat temp/*.merged.relabe.fq > temp/all.fq ls -l temp/all.fq less temp/all.fq # remove useless file rm temp/*.merged.fq # 壓縮原始文件節省空間 #gzip seq/* # 3. Cut primers and quality filter # Cut barcode 10bp + V5 19bp in left and V7 18bp in right vsearch --fastx_filter temp/all.fq --fastq_stripleft 29 --fastq_stripright 18 --fastqout temp/stripped.fq # 質量控制fastq filter, keep reads error rates less than 1% vsearch --fastx_filter temp/stripped.fq --fastq_maxee_rate 0.01 --fastaout temp/filtered.fa #761431 sequences kept (of which 0 truncated), 5627 sequences discarded.less temp/filtered.fa# 4. 去冗余與生成OTUs Dereplication and cluster otus # 4.1 序列去冗余,推薦使用vsearch,并添加miniuniqusize為8,去除低豐度,增加計算速度 vsearch --derep_fulllength temp/filtered.fa --sizein --fasta_width 0 --sizeout --output temp/uniques.fa --minuniquesize 2## 如果用基于reference的去嵌合,# 細菌推薦用Gold數據庫去除嵌合體可以下載rdp_gold.fa作為reference數據庫 #wget http://drive5.com/uchime/rdp_gold.fa #然后執行下面這條注釋過的命令 #wget http://drive5.com/uchime/rdp_gold.fa #vsearch --uchime_ref temp/filtered.fa --nonchimeras temp/filtered.nonchimera.fa --db ./rdp_gold.fa#聚類分析生產OTU代表性序列 vsearch --cluster_fast temp/uniques.fa --id 0.97 --centroids result/otus.fa --relabel OTU_ --uc temp/clusters.uc ## 嵌合體的檢測與去除 #vsearch --uchime_ref temp/filtered.fa --nonchimeras temp/filtered.nonchimera.fa --db rdp_gold.fa# Create OTUs table創建OTU表格vsearch --usearch_global temp/filtered.fa --db result/otus.fa --id 0.97 --otutabout result/otutab.txtReference
?
總結
以上是生活随笔為你收集整理的Vsearch免费替代收费版的usearch的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: WPF设置当前激活窗体(前景窗体)
- 下一篇: 剑御九州手游辅助升级工具 提升战力材料介