日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > linux >内容正文

linux

linux序列比对程序,序列比对软件简单使用教程

發布時間:2025/3/20 linux 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 linux序列比对程序,序列比对软件简单使用教程 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

linux可以使用的序列比對的工具有三個。blast、blat、seqmap。這三個軟件都需要把待blast的序列做成fa格式

構建fa格式的序列

如果有個待比對的序列是含有兩列,其中包括第一列(ID),第二列(sequence)。如果需要形成fa格式的話,可以使用下面的linux代碼

awk '{print">"$1"\n"$2}' file

blast

linux 的blast軟件分為基本上分為兩個個步驟:

構建參考數據庫

###下載軟件

conda install blast

##下載genecode的參考基因組的fa

wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_29/gencode.v29.transcripts.fa.gz

##解壓文件

gunzip gencode.v29.transcripts.fa.gz

##構建基因組的離線數據庫

makeblastdb -in gencode.v29.transcripts -dbtype nucl -out humanGenome

構建離線數據庫的參數中dbtype含有兩種參數:nucl,prot分別代表核苷酸和蛋白

構建完成的數據庫包括三個以out參數為開頭的文件。比如示例的三個文件分別為:humanGenome.nhr humanGenome.nin humanGenome.nsq

選擇blast的工具(blastn/blastp)對序列進行blast

blast可以分為很多的工具,

具體工具的選擇看下表

img

blast數據庫參數詳解

blast軟件詳細的參數信息可以參見,官網上的描述。

-db 格式化了的數據庫路徑及數據庫名

-query: 檢索文件

-query_loc : 指定檢索的位置

-strand: 搜索正義鏈還是反義鏈,還是都要

out : 輸出文件

-remote: 可以用NCBI的遠程數據庫, 一般與 -db nr

-evalue 科學計數法,比如說1e3,定義期望值閾值。E值表明在隨機的情況下,其它序列與目標序列相似度要大于這條顯示的序列的可能性

-outfmt: 輸出的格式。有18個選項。其中6,7,8為自定義選型。6為正常的blast m8格式。

-num_descriptions:tabular格式輸出結果的條數

-num_threads:線程數

-task:比對的時候的選項。有四個選項。1.)megablast,用于非常相似的序列(例如,測序錯誤),2. dc-megablast,通常用于種間比較,3. blastn,用于種間的傳統程序 比較,4. blastn-short,針對小于30個核苷酸的序列進行了優化。

blastn -query seq.fasta -out seq.blast -db dbname -outfmt 6 -task blastn-short -evalue 1e-5 -num_descriptions 10 -num_threads 8

blat軟件使用

blat是UCSC用來比對序列序列的方式。網頁版也是可以使用的。這里介紹linux版的。

###安裝軟件

conda install blat

blat軟件參數詳解

軟件的基本格式:blat database query [-ooc=11.ooc] output.psl

軟件的具體參數可以參見官方網站。這里介紹一下常見參數

-t=type: 參考數據庫的數據類型。接受三個選項。1.dna(默認選項) ;2.prot;3.dnax(DNA sequence translated in six frames to protein)

-q=type:想要blat的數據類型。接受五個選項。1.dna - DNA sequence;2.rna - RNA sequence;3. prot - protein sequence;4.dnax - DNA sequence translated in six frames to protein;5. rnax - DNA sequence translated in three frames to protein

-out=type: 輸出的格式。接受9中參數。1.psl - (Default) tab-separated format, no sequence;2. pslx - tab separated format with sequence;3.axt - blastz-associated axt format;4.maf - multiz-associated maf format;5. sim4 - similar to sim4 format;6. wublast - similar to wublast format;7.blast - similar to NCBI blast format;8. blast8 - NCBI blast tabular format;9.blast9 - NCBI blast tabular format with comments

blat常規設置

表達序列標簽(EST)是cDNA序列的短子序列。

Mapping expressed sequence tag (EST) to the genome within the same species: -ooc=11.ooc

Mapping full length mRNAs to the genome in the same species: -ooc=11.ooc -fine -q=rna

Mapping ESTs to the genome across species: -q=dnax -t=dnax

Mapping mRNA to the genome across species: -q=rnax -t=dnax

Mapping proteins to the genome: -q=prot -t=dnax

Mapping DNA to DNA in the same species: -ooc=11.ooc -fastMap

Mapping DNA from one species to another species: -q=dnax -t=dnax

##比對芯片序列到基因組上且輸出為blast格式

blat GCF.fa test_R1.fasta -out=blast8 -ooc=11.ooc

seqmap

seqmap是用于短序列比對特別快的工具。但是它出來的結果沒有blast和blat多。如果要對芯片的序列進行重注釋。是很好的一個工具

軟件的安裝

conda install seqmap

seqmap常規參數

軟件的基本格式為:seqmap [options]

1.輸入格式中參考基因組和比對的基因組必須是fa格式

2.num_mismatch代表比對的時候不匹配的個數

3.輸出文件的格式分為兩種。其中默認的是:Eland格式。另外一種是我們可以看得比較清楚的。用來顯示所有匹配結果的格式:/output_all_matches

seqmap 0 GPL.fasta gencode.v29.transcripts.fa seqmap_gene.tmp /output_all_matches

在使用seqmap的時候。這個順序不能錯

上述的顯示結果為

trans_id trans_coord target_seq probe_id probe_seq num_mismatch

1 313902 AACTCCGGGAGGGCCGCTTTGTATG 509644 AACTCCGGGAGTGCCGCTTTGTAGG 2

1 423680 TTTCACAATCAATGGATCAGGCCGC 129326 TTTCACAATCATTGGATCAGGCCAC 2

1 537816 CTTGAATTCAGTAAATAGTTTAACG 330515 CTTGAATTTAGTAAATAGTTTACCG 2

2 297292 CGTCAAATTTCGTCCTTTTCGCTGT 636826 CGTCAATTTTCGTCCTTTTCGGTGT 2

2 326279 CGTAGGACCATTCAGGCCGTTAAGC 986424 CGTAGGAGCATTCAGGCCGTTATGC 2

2 870729 GTTAACCTGTGGTAAGTAACGTAGT 433048 GTTAACCTGGGGTAAGTAACGTATT 2

3 204747 TAGCTCATTAACAGGGGATCTTAGG 917614 TAGCTCATTAATAGCGGATCTTAGG 2

3 601827 GTCGTTTTATTCCGCCTGGAGAGGT 321632 GTCGTCTGATTCCGCCTGGAGAGGT 2

3 674797 TCGCACTTGGGGCTAAATGGGCATC 336321 TCGCACTTCGGGCTAAATGGGAATC 2

3 927627 CAGCCAAAGATACGCAGCTCAGTCT 619563 GAGGCAAAGATACGCAGCTCAGTCT 2

4 305440 GACGGAAATCCATATAAGGTAGGGA 80583 GACGGAAATCGAGATAAGGTAGGGA 2

總結

以上是生活随笔為你收集整理的linux序列比对程序,序列比对软件简单使用教程的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。