當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Vsearch免费替代收费版的usearch

發布時間：2023/12/20 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 Vsearch免费替代收费版的usearch 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文首先發布于“宏基因組”公眾號原創。

作者：舟行天下
編輯：metagenome

前言

用usearch，這個usearch在序列搜索、聚類、去重、去嵌合體等序列操作有非常重要的作用。它由大神Robert Edgar開發，詳情見文章：擴增子分析神器USEARCH簡介

usearch這個軟件的安裝以及使用都非常方便，簡直就是擴增子測序分析的神器！進入官網USEARCH我們可以看到作者提供32位的免費版本和64位的收費版本。免費提供的32位版本限制用戶最多使用4G內存，依照本人數據量以及使用經驗的話，大于40個樣品可能就不能有效的跑完全部流程了。關于USEARCH的詳細介紹請參考：《擴增子分析神器USEARCH簡介》由于該軟件64位收費版確實有點貴，而且有的實驗室老板不一定讓買。那么有沒有什么方法可以突破免費版本的內存限制呢？小編在這里就要給大家發一個福利了，讓你能無差別的使用usearch的絕大部分功能而且還不用收費。那就是用vsearch軟件替代usearch部分功能，結合usearch一起使用。

vsearch簡介

vsearch 是一個開源免費的64位，無內存限制的擴增子數據分析軟件。該軟件是專門針對Edgar大神開發的 USEARCH
軟件而設計的(Edgar 2010)。作者在文章前言中就提到由于Edgar大神開發的 USEARCH不開源，并且沒有給出其算法的詳細描述，最主要是免費的版本只有32位，而且有4 GB的使用內存限制，所以他們想了想直接自己開發了一個與usearch功能類似的軟件工大家使用。根據谷歌學術的統計數據，該軟件從2 016年發表到現在已經被引用了218次。

從FIG.1可以看到：通過與USEARCH7和USEARCH8對比，VSEARCH在嵌合體檢測過程準確性優于USEARCH。 (FIG.1)

從FIG.2可以看到：通過與USEARCH7和USEARCH8對比，VSEARCH的搜索準確率與USEARCH相當。 (FIG.2)

從FIG.2可以看到：通過與USEARCH7和USEARCH8對比，VSEARCH在聚類準確率上優于USEARCH的UPARSE功能。 (FIG.3)

vsearch主要的功能與參數都與usearch版本類似，其主要特點是開源免費，持續更新而且軟件易于安裝，且有各平臺的版本。在最新發布的vsearch版本中，作者也針對usearch10中的UNOISE去噪方法(詳細介紹)，在vsearch中加入了UNOISE方法用于聚類分析。

vsearch軟件目前已經更新到了2.7.1版本，其Windows的安裝版本鏈接是:vsearch; MAC版本的下載鏈接是：MAC_vsearch
)

usearch+vsearch實戰操作

文中使用所有文件下載鏈接：https://pan.baidu.com/s/1yS-WgViAPeix0jTbhtYOKQ 密碼：dmfy 然后我們將下載好的測試數據放在工作目錄下面。

首先是vsearch的安裝：

在linux中我們直接執行以下命令就可以直接安裝了

##如何安裝vsearch wget https://github.com/torognes/vsearch/archive/v2.6.2.tar.gz tar xzf v2.6.2.tar.gz cd vsearch-2.6.2 ./autogen.sh ./configure make make install # as root or sudo make installmkdir -p seq # 原始數據 raw data

要想靈活的玩轉vsearch加usearch軟件，那我們首先要知道usearch免費版本的軟件究竟是在你的分析流程中的哪幾個步驟限制了你的數據量大小，這樣我們就可以在有需要替換的步驟用vsearch軟件進行替換了。當你拿到拆分好的擴增子數據后我們通過進行的數據處理流程如下圖所示：(FIG.4)

從圖中我們可以看到usearch在整個分析流程中主要的內存限制步驟是<Dereplication>; <Chimera checking>以及 <Match OTU>這三個步驟。而這三步分別對應著的vsearch步驟是<vsearch —derep_fulllength>; <vsearch —uchime_ref>以及<vsearch —usearch_global>。轉化成一個可讀的OTU table了。

Vsearch使用實戰

# 目錄 mkdir -p temp # 臨時文件 temp directory for intermediate files mkdir -p result # 最終結果 important results# 文件 # pipeline.sh 分析主流程 # rdp_16s_v16.fa 16S數據庫 # seq/*.fq.gz 壓縮的原始測序數據 # doc/design.txt 實驗設計文件#Merge paired reads and label samples# 測序數據解壓 gunzip seq/*# 依照實驗設計批處理并合并for i in `tail -n+2 doc/design.txt | cut -f 1`;do vsearch --fastq_mergepairs seq/${i}_1.fq --reverse seq/${i}_2.fq --fastqout temp/${i}.merged.fq done for i in `tail -n+2 doc/design.txt | cut -f 1`;do vsearch --fastx_filter temp/${i}.merged.fq --fastqout temp/${i}.merged.relabe.fq --relabel ${i}. & done# 合并所有樣品至同一文件 cat temp/*.merged.relabe.fq > temp/all.fq ls -l temp/all.fq less temp/all.fq # remove useless file rm temp/*.merged.fq # 壓縮原始文件節省空間 #gzip seq/* # 3. Cut primers and quality filter # Cut barcode 10bp + V5 19bp in left and V7 18bp in right vsearch --fastx_filter temp/all.fq --fastq_stripleft 29 --fastq_stripright 18 --fastqout temp/stripped.fq # 質量控制fastq filter, keep reads error rates less than 1% vsearch --fastx_filter temp/stripped.fq --fastq_maxee_rate 0.01 --fastaout temp/filtered.fa #761431 sequences kept (of which 0 truncated), 5627 sequences discarded.less temp/filtered.fa# 4. 去冗余與生成OTUs Dereplication and cluster otus # 4.1 序列去冗余，推薦使用vsearch，并添加miniuniqusize為8，去除低豐度，增加計算速度 vsearch --derep_fulllength temp/filtered.fa --sizein --fasta_width 0 --sizeout --output temp/uniques.fa --minuniquesize 2## 如果用基于reference的去嵌合，# 細菌推薦用Gold數據庫去除嵌合體可以下載rdp_gold.fa作為reference數據庫 #wget http://drive5.com/uchime/rdp_gold.fa #然后執行下面這條注釋過的命令 #wget http://drive5.com/uchime/rdp_gold.fa #vsearch --uchime_ref temp/filtered.fa --nonchimeras temp/filtered.nonchimera.fa --db ./rdp_gold.fa#聚類分析生產OTU代表性序列 vsearch --cluster_fast temp/uniques.fa --id 0.97 --centroids result/otus.fa --relabel OTU_ --uc temp/clusters.uc ## 嵌合體的檢測與去除 #vsearch --uchime_ref temp/filtered.fa --nonchimeras temp/filtered.nonchimera.fa --db rdp_gold.fa# Create OTUs table創建OTU表格vsearch --usearch_global temp/filtered.fa --db result/otus.fa --id 0.97 --otutabout result/otutab.txt

Reference

Rognes, T., Flouri, T., Nichols, B., Quince, C., & Mahé, F. (2016). VSEARCH: a versatile open source tool for metagenomics. PeerJ, 4, e2584.

Edgar, R.C. (2013) UPARSE: Highly accurate OTU sequences from microbial amplicon reads, Nature Methods [Pubmed:23955772, dx.doi.org/10.1038/nmeth.2604].

UNOISE2: Improved error-correction for Illumina 16S and ITS amplicon read. bioRxiv, 2016

總結

以上是生活随笔為你收集整理的Vsearch免费替代收费版的usearch的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： WPF设置当前激活窗体(前景窗体)
下一篇：剑御九州手游辅助升级工具提升战力材料介