使用STAR构建参考基因组并比对
使用STAR構建參考基因組
之前我們使用了hisat2構建了參考基因組序列,現在主流的軟件是hisat2和STAR
于是我又跟著潘師兄的教程,來走一遍轉錄組,這里使用的就是STAR
在這過程中我還是碰到了許多問題和要注意的點,來看一下吧
軟件安裝
還是老樣子,使用conda安裝SATR,但是我最開始不清楚conda能不能安裝STAR,于是我先看一下conda里面有沒有它
conda search star Loading channels: done # Name Version Build Channel star 2.4.0j 0 anaconda/cloud/bioconda star 2.4.0j 1 anaconda/cloud/bioconda star 2.4.2a 0 anaconda/cloud/bioconda star 2.5.0a 0 anaconda/cloud/bioconda star 2.5.0b 0 anaconda/cloud/bioconda star 2.5.0c 0 anaconda/cloud/bioconda star 2.5.1b 0 anaconda/cloud/bioconda star 2.5.2a 0 anaconda/cloud/bioconda star 2.5.2b 0 anaconda/cloud/bioconda star 2.5.3a 0 anaconda/cloud/bioconda star 2.5.4a 0 anaconda/cloud/bioconda star 2.6.0b 0 anaconda/cloud/bioconda star 2.6.0c 0 anaconda/cloud/bioconda star 2.6.0c 1 anaconda/cloud/bioconda star 2.6.0c 2 anaconda/cloud/bioconda star 2.6.1a 1 anaconda/cloud/bioconda star 2.6.1b 0 anaconda/cloud/bioconda star 2.6.1d 0 anaconda/cloud/bioconda star 2.7.0b 0 anaconda/cloud/bioconda star 2.7.0d 0 anaconda/cloud/bioconda star 2.7.0e 0 anaconda/cloud/bioconda star 2.7.0f 0 anaconda/cloud/bioconda star 2.7.1a 0 anaconda/cloud/bioconda star 2.7.2a 0 anaconda/cloud/bioconda star 2.7.2b 0 anaconda/cloud/bioconda star 2.7.2c 0 anaconda/cloud/bioconda star 2.7.3a 0 anaconda/cloud/bioconda我們就直接安裝最新版本的就行了,下面我們用conda安裝指定版本的STAR
用 = 指定version就i行了
構建參考基因組
數據準備
這些文件我們在轉錄組數據準備里面已經說過了,這里就不贅述。
開始構建
STAR --runThreadN --runMode genomeGenerate \ --genomeDir \ --genomeFastaFiles \ --sjdbGTFfile \–runThreadN 是指構建是使用的線程數,在沒有其他數據在跑的情況下,可以滿線程跑
–runMode genomeGenerate 讓STAR執行基因組索引的生成工作
–genomeDir 構建好的參考基因組存放的位置,最好是單獨建立的一個文件夾
–genomeFastaFiles 參考基因組序列文件
–sjdbGTFfile 基因注釋文件
然后我們照著這個走一次
STAR --runThreadN 20 --runMode genomeGenerate \ --genomeDir /home/lyc/workspace4.21.20/data/ref \ --genomeFastaFiles /home/lyc/workspace4.21.20/data/ref/Homo_sapiens.GRCh38.dna.primary_assembly.fa \ --sjdbGTFfile /home/lyc/workspace4.21.20/data/ref/Homo_sapiens.GRCh38.99.gtf \ #打開htop監控 htop #發現才掛上去的腳本,一下就結束了 cat Log.txt #打開日志文件,得到如下報錯 step1.biud_index.sh: line 4: --sjdbGTFfile: command not found Apr 23 11:24:00 ..... started STAR run Apr 23 11:24:00 ... starting to generate Genome filesEXITING because of INPUT ERROR: could not open genomeFastaFile:Apr 23 11:24:31 ...... FATAL ERROR, exiting這就很奇怪了,我明明是按照幫助文檔來的啊
后來我發現,是因為在語句
--genomeFastaFiles /home/lyc/workspace4.21.20/data/ref/Homo_sapiens.GRCh38.dna.primary_assembly.fa \
后面多了一個空格,導致STAR能正常運行,所以敲代碼的時候,一定要注意規范,這種小錯誤往往最致命且不容易被發現。
我在上面的腳本中已經刪掉了這個空格,你可以直接復制粘貼使用了。
比對
我們來看一下比對的代碼
STAR --runThreadN 20 \ --genomeDir /home/lyc/workspace4.21.20/data/ref \ --readFilesCommand gunzip -c \ --readFilesIn /home/lyc/workspace4.21.20/data/cleandata/N052611_Alb_1.fastq.gz /home/lyc/workspace4.21.20/data/cleandata/N052611_Alb_2.fastq.gz \ --outSAMtype BAM SortedByCoordinate \ --outFileNamePrefix N052611_Alb \–runThreadN 運行的線程數,根據自己的服務器合理選擇
–genomeDir 構建的參考基因組位置
–readFilesCommand 對于gz壓縮的文件,我們可以在后面添加 gunzip -c
–readFilesIn 輸入文件的位置,對于雙末端測序文件,用空格分隔開就行了
–outSAMtype 默認輸出的是sam文件,我們這里的BAM SortedByCoordinate是讓他輸出為ban文件,并排序
–outFileNamePrefix 表示的是輸出文件的位置和前綴
然后就是輸出文件的問題,輸出的文件不止一個,包含了比對過程中的一些信息
它指的就是我們的比對結果
它是每分鐘記錄一次的對比情況
它記錄了STAR程序在運行中的各種情況,當我們的結果出現異常時,我們可以查看具體的運行情況,來查找錯誤
它包含的是對比完以后的對比統計信息
它包含了剪切的信息
總結
以上是生活随笔為你收集整理的使用STAR构建参考基因组并比对的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 推荐一款源代码统计分析、开发工作量估算、
- 下一篇: 一步步学习微软InfoPath2010和