當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

使用STAR构建参考基因组并比对

發布時間：2024/8/1 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了使用STAR构建参考基因组并比对小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

使用STAR構建參考基因組

之前我們使用了hisat2構建了參考基因組序列，現在主流的軟件是hisat2和STAR
于是我又跟著潘師兄的教程，來走一遍轉錄組，這里使用的就是STAR
在這過程中我還是碰到了許多問題和要注意的點，來看一下吧

軟件安裝

還是老樣子，使用conda安裝SATR，但是我最開始不清楚conda能不能安裝STAR，于是我先看一下conda里面有沒有它

conda search star Loading channels: done # Name Version Build Channel star 2.4.0j 0 anaconda/cloud/bioconda star 2.4.0j 1 anaconda/cloud/bioconda star 2.4.2a 0 anaconda/cloud/bioconda star 2.5.0a 0 anaconda/cloud/bioconda star 2.5.0b 0 anaconda/cloud/bioconda star 2.5.0c 0 anaconda/cloud/bioconda star 2.5.1b 0 anaconda/cloud/bioconda star 2.5.2a 0 anaconda/cloud/bioconda star 2.5.2b 0 anaconda/cloud/bioconda star 2.5.3a 0 anaconda/cloud/bioconda star 2.5.4a 0 anaconda/cloud/bioconda star 2.6.0b 0 anaconda/cloud/bioconda star 2.6.0c 0 anaconda/cloud/bioconda star 2.6.0c 1 anaconda/cloud/bioconda star 2.6.0c 2 anaconda/cloud/bioconda star 2.6.1a 1 anaconda/cloud/bioconda star 2.6.1b 0 anaconda/cloud/bioconda star 2.6.1d 0 anaconda/cloud/bioconda star 2.7.0b 0 anaconda/cloud/bioconda star 2.7.0d 0 anaconda/cloud/bioconda star 2.7.0e 0 anaconda/cloud/bioconda star 2.7.0f 0 anaconda/cloud/bioconda star 2.7.1a 0 anaconda/cloud/bioconda star 2.7.2a 0 anaconda/cloud/bioconda star 2.7.2b 0 anaconda/cloud/bioconda star 2.7.2c 0 anaconda/cloud/bioconda star 2.7.3a 0 anaconda/cloud/bioconda

我們就直接安裝最新版本的就行了，下面我們用conda安裝指定版本的STAR
用 = 指定version就i行了

conda install star=2.7.3a

構建參考基因組

數據準備

參考基因組序列

基因注釋文件
這些文件我們在轉錄組數據準備里面已經說過了，這里就不贅述。

開始構建

STAR --runThreadN --runMode genomeGenerate \ --genomeDir \ --genomeFastaFiles \ --sjdbGTFfile \

–runThreadN 是指構建是使用的線程數，在沒有其他數據在跑的情況下，可以滿線程跑
–runMode genomeGenerate 讓STAR執行基因組索引的生成工作
–genomeDir 構建好的參考基因組存放的位置，最好是單獨建立的一個文件夾
–genomeFastaFiles 參考基因組序列文件
–sjdbGTFfile 基因注釋文件

然后我們照著這個走一次

STAR --runThreadN 20 --runMode genomeGenerate \ --genomeDir /home/lyc/workspace4.21.20/data/ref \ --genomeFastaFiles /home/lyc/workspace4.21.20/data/ref/Homo_sapiens.GRCh38.dna.primary_assembly.fa \ --sjdbGTFfile /home/lyc/workspace4.21.20/data/ref/Homo_sapiens.GRCh38.99.gtf \ #打開htop監控 htop #發現才掛上去的腳本，一下就結束了 cat Log.txt #打開日志文件，得到如下報錯 step1.biud_index.sh: line 4: --sjdbGTFfile: command not found Apr 23 11:24:00 ..... started STAR run Apr 23 11:24:00 ... starting to generate Genome filesEXITING because of INPUT ERROR: could not open genomeFastaFile:Apr 23 11:24:31 ...... FATAL ERROR, exiting

這就很奇怪了，我明明是按照幫助文檔來的啊
后來我發現，是因為在語句
--genomeFastaFiles /home/lyc/workspace4.21.20/data/ref/Homo_sapiens.GRCh38.dna.primary_assembly.fa \
后面多了一個空格，導致STAR能正常運行，所以敲代碼的時候，一定要注意規范，這種小錯誤往往最致命且不容易被發現。
我在上面的腳本中已經刪掉了這個空格，你可以直接復制粘貼使用了。

比對

我們來看一下比對的代碼

STAR --runThreadN 20 \ --genomeDir /home/lyc/workspace4.21.20/data/ref \ --readFilesCommand gunzip -c \ --readFilesIn /home/lyc/workspace4.21.20/data/cleandata/N052611_Alb_1.fastq.gz /home/lyc/workspace4.21.20/data/cleandata/N052611_Alb_2.fastq.gz \ --outSAMtype BAM SortedByCoordinate \ --outFileNamePrefix N052611_Alb \

–runThreadN 運行的線程數，根據自己的服務器合理選擇
–genomeDir 構建的參考基因組位置
–readFilesCommand 對于gz壓縮的文件，我們可以在后面添加 gunzip -c
–readFilesIn 輸入文件的位置，對于雙末端測序文件，用空格分隔開就行了
–outSAMtype 默認輸出的是sam文件，我們這里的BAM SortedByCoordinate是讓他輸出為ban文件，并排序
–outFileNamePrefix 表示的是輸出文件的位置和前綴

然后就是輸出文件的問題，輸出的文件不止一個，包含了比對過程中的一些信息

Aligned.out.sam或者Aligned.out.bam
它指的就是我們的比對結果

Log.progress.out
它是每分鐘記錄一次的對比情況

Log.out
它記錄了STAR程序在運行中的各種情況，當我們的結果出現異常時，我們可以查看具體的運行情況，來查找錯誤

Log.final.out
它包含的是對比完以后的對比統計信息

SJ.out.tab
它包含了剪切的信息

總結

以上是生活随笔為你收集整理的使用STAR构建参考基因组并比对的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：推荐一款源代码统计分析、开发工作量估算、
下一篇：一步步学习微软InfoPath2010和