日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

bwa比对软件的使用以及其结果文件(sam)格式说明

發(fā)布時間:2023/12/10 编程问答 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 bwa比对软件的使用以及其结果文件(sam)格式说明 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

一、bwa比對軟件的使用

1、對參考基因組構(gòu)建索引

bwa index -a bwtsw hg19.fa? ?#? -a 參數(shù):is[默認(rèn)] or bwtsw,即bwa構(gòu)建索引的兩種算法,兩種算法都是基于BWT的(BWT search while the CIGAR string by Smith-Waterman alignment.)。-a bwtsw對于短的參考序列是不工作的,必須要大于等于10Mb;-a is 不適用于大的參考序列,必須要小于等于2G;

output:hg19.fa.amb、hg19.fa.ann、hg19.fa.bwt、hg19.fa.pac和hg19.fa.sa

2、尋找輸入reads文件的SA坐標(biāo)

對于pair end數(shù)據(jù),每個reads文件單獨(dú)做運(yùn)算,single end數(shù)據(jù)就不用說了,只有一個文件。

?pair end:

?bwa??aln??hg19.fa??read1.fq.gz??-l 30??-k 2??-t 4??-I??> read1.fq.gz.sai? ?or? ?bwa??aln??hg19.fa??read1.fq.gz??-l 30??-k 2??-t 4??-I -f?read1.fq.gz.sai

?bwa??aln??hg19.fa??read2.fq.gz??-l 30??-k 2??-t 4??-I??> read2.fq.gz.sai? ?or? ?bwa??aln??hg19.fa??read2.fq.gz??-l 30??-k 2??-t 4??-I -f?read2.fq.gz.sai

?single end:

?bwa??aln??hg19.fa??read.fq.gz??-l 30??-k 2??-t 4??-I??> read.fq.gz.sai? ? ? ?or? ?bwa??aln??hg19.fa??read.fq.gz??-l 30??-k 2??-t 4??-I? -f? read.fq.gz.sai?

主要參數(shù)說明:

-o int:允許出現(xiàn)的最大gap數(shù)。

-e int:每個gap允許的最大長度。

-d int:不允許在3’端出現(xiàn)大于多少bp的deletion。

-i int:不允許在reads兩端出現(xiàn)大于多少bp的indel。

-l int:Read前多少個堿基作為seed,如果設(shè)置的seed大于read長度,將無法繼續(xù),最好設(shè)置在25-35,與-k 2 配合使用。

-k int:在seed中的最大編輯距離,使用默認(rèn)2,與-l配合使用。

-t int:要使用的線程數(shù)。

-R int:此參數(shù)只應(yīng)用于pair end中,當(dāng)沒有出現(xiàn)大于此值的最佳比對結(jié)果時,將會降低標(biāo)準(zhǔn)再次進(jìn)行比對。增加這個值可以提高配對比對的準(zhǔn)確率,但是同時會消耗更長的時間,默認(rèn)是32。

-I int:表示輸入的文件格式為Illumina 1.3+數(shù)據(jù)格式。

-B int:設(shè)置標(biāo)記序列。從5’端開始多少個堿基作為標(biāo)記序列,當(dāng)-B為正值時,在比對之前會將每個read的標(biāo)記序列剪切,并將此標(biāo)記序列表示在BC SAM 標(biāo)簽里,對于pair end數(shù)據(jù),兩端的標(biāo)記序列會被連接。

-b :指定輸入格式為bam格式。bwa??aln??hg19.fa??read.bam??> read.fq.gz.sai

3、生成sam格式的比對文件

如果一條read比對到多個位置,會隨機(jī)選擇一種

single end:bwa??samse??hg19.fa??read.fq.gz.sai??read.fq.gz??> read.fq.gz.sam

?參數(shù):

?-n int:如果reads比對次數(shù)超過多少次,就不在XA標(biāo)簽顯示。

?-r str:定義頭文件。‘@RG\tID:foo\tSM:bar’,如果在此步驟不進(jìn)行頭文件定義,在GATK后續(xù)分析中還是需要重新增加頭文件。

pair end:bwa sampe -a 500 read1.fq.gz.sai read2.fq.gz.sai read1.fq.gz read2.fq.gz > read.sam

參數(shù):

-a int:最大插入片段大小。

-o int:pair end兩reads中其中之一所允許配對的最大次數(shù),超過該次數(shù),將被視為single end。降低這個參數(shù),可以加快運(yùn)算速度,對于少于30bp的read,建議降低-o值。

-r str:定義頭文件。同single end。

-n int:每對reads輸出到結(jié)果中的最多比對數(shù)。

4、其他

(1)

bwa mem ref.fa reads.fq > aln-se.sam 單端測序

bwa mem ref.fa read1.fq read2.fq > aln-pe.sam 雙端測序

(2)

bwa aln ref.fa short_read.fq > aln_sa.sai

bwa samse ref.fa aln_sa.sai short_read.fq > aln-se.sam

bwa sampe ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln-pe.sam

(3)

bwa bwasw ref.fa long_read.fq > aln.sam

二、sam文件格式說明

1、

XT:A:U/R?? ? Type:Unique/Repeat/N/Mate-sw? ? #?U指第五列比對值>0;R指第五列比對值==0

參考文獻(xiàn):

1、《GATK使用方法詳解(包含bwa使用)》http://www.tanboyu.com/gatk-bwa.html

2、《bwa英文操作手冊》http://www.chinadmd.com/file/ecaeoaecwzvs3trpxpwtzows_1.html

轉(zhuǎn)載于:https://www.cnblogs.com/Formulate0303/p/7826944.html

總結(jié)

以上是生活随笔為你收集整理的bwa比对软件的使用以及其结果文件(sam)格式说明的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。