日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

其他blast使用方法

發(fā)布時(shí)間:2023/12/15 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 其他blast使用方法 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

程序名? ? ? ? 搜索序列? ? ? ? 數(shù)據(jù)庫? ? ? ? 內(nèi)容? ? ? ? 備注
blastp? ? ? ? Protein? ? ? ? Protein? ? ? ? 比較氨基酸序列與蛋白質(zhì)數(shù)據(jù)庫? ? ? ? 使用取代矩陣尋找較遠(yuǎn)的關(guān)系,進(jìn)行SEG過濾
blastn? ? ? ? Nucleotide? ? ? ? Nucleotide? ? ? ? 比較核酸序列與核酸數(shù)據(jù)庫? ? ? ? 尋找較高分值的匹配,對較遠(yuǎn)的關(guān)系不太適用
blastx? ? ? ? Nucleotide? ? ? ? Protein? ? ? ? 比較核酸序列理論上的六框架的所有轉(zhuǎn)換結(jié)果和蛋白質(zhì)數(shù)據(jù)庫? ? ? ? 用于新的DNA序列和ESTs的分析,可轉(zhuǎn)譯搜索序列
tblastn? ? ? ? Protein? ? ? ? Nucleotide? ? ? ? 比較蛋白質(zhì)序列和核酸序列數(shù)據(jù)庫,動態(tài)轉(zhuǎn)換為六框架結(jié)果? ? ? ? 用于尋找數(shù)據(jù)庫中沒有標(biāo)注的編碼區(qū),可轉(zhuǎn)譯數(shù)據(jù)庫序列
tblastx? ? ? ? Nucleotide? ? ? ? Nucleotide? ? ? ? 比較核酸序列和核酸序列數(shù)據(jù)庫,經(jīng)過兩次動態(tài)轉(zhuǎn)換為六框架結(jié)果? ? ? ? 轉(zhuǎn)譯搜索序列與數(shù)據(jù)庫序列

進(jìn)行迭代檢索命令:blastpgp

它本質(zhì)上進(jìn)行的是blastp的檢索(所以在運(yùn)行時(shí)無須指定程序名),但是它可以被用來在psi-blast和phi-blast模式中實(shí)現(xiàn)迭代檢索。
“iterative search”就是指在一輪檢索中所獲得的序列被用來構(gòu)建一個(gè)新打分矩陣,而以此進(jìn)行下一輪的檢索。
按照這種用法,這個(gè)程序被稱為位點(diǎn)特異迭代BLAST(Position-Specific Iterated BLAST) 簡稱PSI-BLAST。

可以在命令行中使用“blastpgp-”命令來獲取詳細(xì)的參數(shù)說明。
blastpgp的大部分參數(shù)是與通用檢索程序blastall一致的,只有少數(shù)與迭代檢索相關(guān)的選項(xiàng)是特別的:
-j:最大迭代檢索的次數(shù),缺省值1,即等同與在blastall中所使用blastp程序
-h:在每輪檢索后構(gòu)建新的打分矩陣時(shí)所選擇的序列的期望值(E value)的閾值,缺省值0.001

-C:將生成的位點(diǎn)特異性的打分矩陣輸出到一個(gè)文件(二進(jìn)制格式)
-R:從文件讀取一個(gè)原先輸出的位點(diǎn)特異性的打分矩陣,然后使用這個(gè)矩陣來繼續(xù)進(jìn)行以后的檢索比對
-Q: 輸出一個(gè)可讀的文本(ASCII)格式的PSI-BLAST的打分矩陣
-B:設(shè)置讓blastpgp讀取一個(gè)已經(jīng)存在的多重比對文件來構(gòu)建位點(diǎn)特異性的打分矩陣而進(jìn)行以后的檢索

命令舉例:
?? blastpgp -i query.faa-d nr -o query1.out
?? blastpgp -i query.faa-d nr -o query2.out -j 2 -Q matrix2 -C psi2
?? blastpgp -i query.faa-d nr -o query5.out -j 5 -Q matrix5 -R psi2

PHI-BLAST (Pattern-Hit Initiated BLAST)是用于檢索對于正則表達(dá)式(regular expressions)的匹配的程序
當(dāng)給出一個(gè)蛋白質(zhì)序列S和一個(gè)出現(xiàn)在S中的正則表達(dá)式的模式(pattern)P,則PHI-BLAST可以找出有哪些其他的蛋白質(zhì)序列既包含P又在此模式出現(xiàn)的區(qū)域與S具有同源性(homologous)
PHI-BLAST的算法基礎(chǔ):
R. Baeza-Yates and G. Gonnet, Communications of the ACM 35(1992), pp. 74-82.
S. Wu and U. Manber, Communications of the ACM 35(1992), pp. 83-91.

PHI-BLAST中所使用的模式的語法規(guī)則遵循PROSITE數(shù)據(jù)庫的協(xié)定
在單獨(dú)(stand-alone)使用中,允許在一個(gè)文件中包含多個(gè)模式,其間應(yīng)該用一個(gè)空行隔開。但是在網(wǎng)頁上使用時(shí)只允許一次提交一個(gè)模式
在模式中有效的蛋白符號為:
ABCDEFGHIKLMNPQRSTVWXYZU
有效的DNA符號為:ACGT

其他有用的分隔符(delimiters):
[ ]? 表示在括號中任意某一個(gè)殘基
-??? 無意義,是PROSITE使用的間隔符
x??? 其后沒有修飾符時(shí)表示任意殘基
x(5)表示任意5個(gè)殘基(residue)
x(2,4)表示2到4個(gè)的任意殘基
>?? 無意義,只能出現(xiàn)在一個(gè)模式的結(jié)尾,是PROSITE使用的另一個(gè)間隔符
.????無意義,可以出現(xiàn)在一個(gè)模式的結(jié)尾

在單獨(dú)使用PHI-BLAST程序時(shí),模式應(yīng)該寫入一個(gè)文件中,至少包含下列兩個(gè)起始行內(nèi)容:
? ID
其后跟隨兩個(gè)空格和一個(gè)字符串用來表示此模式的名稱
? PA
其后跟隨兩個(gè)空格和一個(gè)符合語法的模式描述
其他的PROSITE的描述符都是允許的,但是除了HI以外都將被忽略

典型的單獨(dú)運(yùn)行的用法如下:
blastpgp-i seq-k pat -p patseedp -d database
這里,seq是要查詢的FASTA格式的序列文件名;pat是其所包含的模式的文件名;patseedp是指明所使用的方法;database是要進(jìn)行檢索的序列數(shù)據(jù)庫名。
因?yàn)槠浔举|(zhì)上是blastp的檢索,所以其他大部分命令行參數(shù)類似于blastall

PHI-BLAST還有一種用法是針對所指定的模式多次的出現(xiàn)在查詢序列中的情況的。因?yàn)樵谶@種情況下,用戶可以限制檢索在指定的范圍內(nèi)進(jìn)行。基本用法如下:
blastpgp -i seq -k pat -p seedp -d database
這里與第一種用法唯一的不同點(diǎn)就是-p參數(shù)所指定的用法上的區(qū)別

另外,對于這種用法,輸入的模式文件中還應(yīng)該包含至少一個(gè)以HI開頭的行,以指明模式出現(xiàn)的位置
以下是一個(gè)用于seedp用法的模式文件的例子:
ID ER_TARGET
PA [KRHQSA]-[DENQ]-E-L>.
HI (19 22)
HI (201 204)

兩個(gè)與模式匹配相關(guān)的問題:
Q1、給定一個(gè)蛋白質(zhì)序列和一個(gè)各種模式的數(shù)據(jù)庫,有那些模式出現(xiàn)在這個(gè)序列中以及具體位置
Q2、給定一個(gè)模式和一個(gè)蛋白質(zhì)序列數(shù)據(jù)庫,有那些序列包含這個(gè)模式以及模式出現(xiàn)的具體位置
這兩個(gè)問題可以用與PHI-BLAST相似的算法來解決,但是其輸出不符合BLAST的框架(framework)要求。

BLAST的程序包中目前包含一個(gè)名為seedtop的程序用來解決這兩個(gè)問題
基本的解決方法:
A1、seedtop -i -k -p patmatchp
A2、seedtop -d -k -p patternp
命令舉例:
seedtop -d U00096.faa -k pat1 -p patternp

兩序列比對命令:bl2seq
僅限于兩條序列之間進(jìn)行的比對,可以免去用blastall進(jìn)行檢索時(shí)必須進(jìn)行formatdb的煩瑣過程
因?yàn)槠浔举|(zhì)上是就是實(shí)現(xiàn)的blastall中的5種不同的比對程序的算法,所以它要求在設(shè)置輸入序列時(shí)的序列類型應(yīng)該與所選擇的程序相對應(yīng)

可以在命令行中使用“bl2seq -”命令來獲取詳細(xì)的參數(shù)說明。
bl2seq的絕大部分參數(shù)是與通用檢索程序blastall一致的,只是沒有了-d 的選項(xiàng),另外增加了兩個(gè)輸入選項(xiàng):
-i:第一個(gè)輸入序列文件
-j:第二個(gè)輸入序列文件
(注:這兩個(gè)輸入序列都應(yīng)該是FASTA格式,各自的序列類型——核酸或蛋白——應(yīng)由所選擇的-p 參數(shù)決定)

命令舉例:
?? bl2seq -i query.faa -j sbjct.faa -e 0.01 -o out
?? bl2seq -i query.ffn -j sbjct.faa -p blastx -e 1e-5 -o out
?? bl2seq -i query.ffn -j sbjct.ffn -p tblastx -e 1e-5 -o out

MegaBLAST使用了Webb Miller等人提出的“greedy algorithm”來進(jìn)行核酸序列的快速檢索。
程序?qū)iT針對由于測序或其他類似的“錯(cuò)誤”而產(chǎn)生的差異較小(differ slightly)的序列間的比對進(jìn)行了優(yōu)化。
它的運(yùn)行速度可以達(dá)到通用序列比對程序的十倍,因此可以用于進(jìn)行兩個(gè)較大的序列集直接的快速比對。

megablast的絕大部分參數(shù)是與通用檢索程序blastall一致的,但是它不需要-p的選項(xiàng)。
特殊選項(xiàng):
-D:設(shè)置megablast輸出文件的格式。0表示對每一個(gè)比對生成一個(gè)單行的輸出;1與0輸出形式類似,但是增加了一些信息;2是產(chǎn)生標(biāo)準(zhǔn)的blastn的輸出格式;3也是單行的輸出,但是以tab作為分隔符。缺省值0

總結(jié)

以上是生活随笔為你收集整理的其他blast使用方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。