日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

使用STAR构建参考基因组并比对

發布時間:2024/8/1 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 使用STAR构建参考基因组并比对 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

使用STAR構建參考基因組

之前我們使用了hisat2構建了參考基因組序列,現在主流的軟件是hisat2和STAR
于是我又跟著潘師兄的教程,來走一遍轉錄組,這里使用的就是STAR
在這過程中我還是碰到了許多問題和要注意的點,來看一下吧

軟件安裝

還是老樣子,使用conda安裝SATR,但是我最開始不清楚conda能不能安裝STAR,于是我先看一下conda里面有沒有它

conda search star Loading channels: done # Name Version Build Channel star 2.4.0j 0 anaconda/cloud/bioconda star 2.4.0j 1 anaconda/cloud/bioconda star 2.4.2a 0 anaconda/cloud/bioconda star 2.5.0a 0 anaconda/cloud/bioconda star 2.5.0b 0 anaconda/cloud/bioconda star 2.5.0c 0 anaconda/cloud/bioconda star 2.5.1b 0 anaconda/cloud/bioconda star 2.5.2a 0 anaconda/cloud/bioconda star 2.5.2b 0 anaconda/cloud/bioconda star 2.5.3a 0 anaconda/cloud/bioconda star 2.5.4a 0 anaconda/cloud/bioconda star 2.6.0b 0 anaconda/cloud/bioconda star 2.6.0c 0 anaconda/cloud/bioconda star 2.6.0c 1 anaconda/cloud/bioconda star 2.6.0c 2 anaconda/cloud/bioconda star 2.6.1a 1 anaconda/cloud/bioconda star 2.6.1b 0 anaconda/cloud/bioconda star 2.6.1d 0 anaconda/cloud/bioconda star 2.7.0b 0 anaconda/cloud/bioconda star 2.7.0d 0 anaconda/cloud/bioconda star 2.7.0e 0 anaconda/cloud/bioconda star 2.7.0f 0 anaconda/cloud/bioconda star 2.7.1a 0 anaconda/cloud/bioconda star 2.7.2a 0 anaconda/cloud/bioconda star 2.7.2b 0 anaconda/cloud/bioconda star 2.7.2c 0 anaconda/cloud/bioconda star 2.7.3a 0 anaconda/cloud/bioconda

我們就直接安裝最新版本的就行了,下面我們用conda安裝指定版本的STAR
用 = 指定version就i行了

conda install star=2.7.3a

構建參考基因組

數據準備

  • 參考基因組序列
  • 基因注釋文件
    這些文件我們在轉錄組數據準備里面已經說過了,這里就不贅述。
  • 開始構建

    STAR --runThreadN --runMode genomeGenerate \ --genomeDir \ --genomeFastaFiles \ --sjdbGTFfile \

    –runThreadN 是指構建是使用的線程數,在沒有其他數據在跑的情況下,可以滿線程跑
    –runMode genomeGenerate 讓STAR執行基因組索引的生成工作
    –genomeDir 構建好的參考基因組存放的位置,最好是單獨建立的一個文件夾
    –genomeFastaFiles 參考基因組序列文件
    –sjdbGTFfile 基因注釋文件

    然后我們照著這個走一次

    STAR --runThreadN 20 --runMode genomeGenerate \ --genomeDir /home/lyc/workspace4.21.20/data/ref \ --genomeFastaFiles /home/lyc/workspace4.21.20/data/ref/Homo_sapiens.GRCh38.dna.primary_assembly.fa \ --sjdbGTFfile /home/lyc/workspace4.21.20/data/ref/Homo_sapiens.GRCh38.99.gtf \ #打開htop監控 htop #發現才掛上去的腳本,一下就結束了 cat Log.txt #打開日志文件,得到如下報錯 step1.biud_index.sh: line 4: --sjdbGTFfile: command not found Apr 23 11:24:00 ..... started STAR run Apr 23 11:24:00 ... starting to generate Genome filesEXITING because of INPUT ERROR: could not open genomeFastaFile:Apr 23 11:24:31 ...... FATAL ERROR, exiting

    這就很奇怪了,我明明是按照幫助文檔來的啊
    后來我發現,是因為在語句
    --genomeFastaFiles /home/lyc/workspace4.21.20/data/ref/Homo_sapiens.GRCh38.dna.primary_assembly.fa \
    后面多了一個空格,導致STAR能正常運行,所以敲代碼的時候,一定要注意規范,這種小錯誤往往最致命且不容易被發現。
    我在上面的腳本中已經刪掉了這個空格,你可以直接復制粘貼使用了。

    比對

    我們來看一下比對的代碼

    STAR --runThreadN 20 \ --genomeDir /home/lyc/workspace4.21.20/data/ref \ --readFilesCommand gunzip -c \ --readFilesIn /home/lyc/workspace4.21.20/data/cleandata/N052611_Alb_1.fastq.gz /home/lyc/workspace4.21.20/data/cleandata/N052611_Alb_2.fastq.gz \ --outSAMtype BAM SortedByCoordinate \ --outFileNamePrefix N052611_Alb \

    –runThreadN 運行的線程數,根據自己的服務器合理選擇
    –genomeDir 構建的參考基因組位置
    –readFilesCommand 對于gz壓縮的文件,我們可以在后面添加 gunzip -c
    –readFilesIn 輸入文件的位置,對于雙末端測序文件,用空格分隔開就行了
    –outSAMtype 默認輸出的是sam文件,我們這里的BAM SortedByCoordinate是讓他輸出為ban文件,并排序
    –outFileNamePrefix 表示的是輸出文件的位置和前綴

    然后就是輸出文件的問題,輸出的文件不止一個,包含了比對過程中的一些信息

  • Aligned.out.sam或者Aligned.out.bam
    它指的就是我們的比對結果
  • Log.progress.out
    它是每分鐘記錄一次的對比情況
  • Log.out
    它記錄了STAR程序在運行中的各種情況,當我們的結果出現異常時,我們可以查看具體的運行情況,來查找錯誤
  • Log.final.out
    它包含的是對比完以后的對比統計信息
  • SJ.out.tab
    它包含了剪切的信息
  • 總結

    以上是生活随笔為你收集整理的使用STAR构建参考基因组并比对的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。