Super Enhancer(超级增强子)分析——ROSE包(v1.3.1)的安装及使用详解
目錄
1、ROSE安裝
2、環(huán)境變量配置
3、準(zhǔn)備所需文件
4、ROSE軟件分析超級(jí)增強(qiáng)子
5、輸出結(jié)果文件
6、入過(guò)的坑
最近需要分析超級(jí)增強(qiáng)子(Super enhancer),仔細(xì)研究了Richard A.Young實(shí)驗(yàn)室開(kāi)發(fā)的ROSE包(全稱(chēng):RANK ORDERING OF SUPER ENHANCERS, 原文:DOI:?10.1016/j.cell.2013.03.035,?DOI: 10.1016/j.cell.2013.03.036.)。作為一個(gè)小眾的專(zhuān)業(yè)包,在ROSE安裝和使用操作過(guò)程中碰到了太多的問(wèn)題,花費(fèi)了一周的時(shí)間總算通關(guān)。所以決定寫(xiě)個(gè)詳細(xì)教程,記錄一下目前最新版ROSE v1.3.1的安裝和使用。
1、ROSE安裝
ROSE是基于python編寫(xiě)的包,目前的最新版適用python3,根據(jù)github上的說(shuō)明,ROSE依賴(lài):
- samtools?
- R version > 3.4
- bedtools > 2
- python3
(本人的軟件版本為samtools 1.15,R 4.2.1,bedtools 2.30.0,Python3.10.4,均安裝在ubuntu系統(tǒng)環(huán)境下,非conda環(huán)境)
ROSE代碼包的鏈接為:https://github.com/stjude/ROSE
這兩個(gè)壓縮包隨便下載哪個(gè)格式都可以,用linux桌面系統(tǒng)的可以直接用瀏覽器下載后提取,也可以打開(kāi)終端用wget下載,下載之后解壓縮就可以了,不需要安裝。?
wget https://github.com/stjude/ROSE/archive/refs/tags/1.3.1.zip unzip 1.3.1.zip cd 1.3.1#或者 wget https://github.com/stjude/ROSE/archive/refs/tags/1.3.1.tar.gz tar -zxvf 1.3.1.tar.gz cd 1.3.1(因?yàn)?.3.1這個(gè)文件夾名字太迷惑了,本人將1.3.1文件夾的名字為ROSE-1.3.1再進(jìn)入文件夾查看)
文件夾里應(yīng)該是這樣的:
2、環(huán)境變量配置
這一步很重要,否則無(wú)法調(diào)用所需的腳本。
vim ~/.bashrc #用vim編輯器打開(kāi)bashrc,按A,在最后一行寫(xiě)入以下內(nèi)容PATHTO=/path/to/1.3.1 #/path/to/是ROSE文件夾1.3.1所在的路徑,如果修改過(guò)文件夾名稱(chēng)用新的名稱(chēng),例如PATHTO=$HOME/software/ROSE-1.3.1 PYTHONPATH=$PATHTO/lib export PYTHONPATH export PATH=$PATH:$PATHTO/bin#寫(xiě)完后按esc退出編輯模式,輸入:wq!保存并退出vim編輯器 #做一下source source ~/.bashrc3、準(zhǔn)備所需文件
?(1)annotation文件夾里已經(jīng)存放了常用的人和小鼠UCSC版本refseq文件:
如果不是人或者小鼠的樣品,可以從https://genome.ucsc.edu/cgi-bin/hgTables下載UCSC table track format file,命名為[GENOME]_refseq.ucsc(例如hg19_refseq.ucsc),放到annotation文件夾下面。
(2)準(zhǔn)備bam文件和gff文件
bam文件是做完mapping之后生成的文件,需要H3K4me1或者H3K27ac樣品的bam文件以及對(duì)應(yīng)的Input樣品bam文件,做過(guò)sort排序。ROSE分析要求bam文件的染色體名稱(chēng)以“chr”開(kāi)頭,可以參考https://www.jianshu.com/p/94b9602a1036修改BAM文件的染色體名稱(chēng),修改完染色體名稱(chēng)的bam文件重新用samtools軟件生成.bai索引文件。
gff文件使用call peak生成的narrowPeak文件,用excle或者wps打開(kāi)(方便查看列數(shù)),按要求調(diào)整每一列的內(nèi)容:
第1列:染色體位置(chr#)
第2列:每個(gè)增強(qiáng)子區(qū)域的特定id
第4列:區(qū)域起始位置
第5列:區(qū)域終止位置
第7列:正負(fù)鏈信息(+, -, .)
第9列:每個(gè)增強(qiáng)子區(qū)域的特定id
上述沒(méi)有要求的列,內(nèi)容可以為空或者原來(lái)的內(nèi)容,但是一定要有這一列,如果第2列和第9列的內(nèi)容不同,ROSE將使用第2列的值。ROSE額外提供的測(cè)試數(shù)據(jù)包里的gff文件范例如下:
?修改完后保存文件,并且修改文件的后綴名為gff文件。
(3)將準(zhǔn)備好的bam文件和gff文件(總共應(yīng)該有5個(gè)文件,即1個(gè)gff文件,2個(gè)bam文件,2個(gè)bam文件對(duì)應(yīng)的bai索引文件)放在一個(gè)文件夾里(例如命名為data),然后將該文件夾放在ROSE文件夾里。分析完成后將生成的結(jié)果文件夾轉(zhuǎn)移出來(lái)保存在合適的位置,data文件夾刪除,注意不要誤刪ROSE文件夾里原有的文件和文件夾。
4、ROSE軟件分析超級(jí)增強(qiáng)子
在正式分析數(shù)據(jù)前,最好先下載測(cè)試數(shù)據(jù)進(jìn)行分析測(cè)試,能正確跑通并且獲得完整的分析結(jié)果后再分析自己的數(shù)據(jù),這樣可以確認(rèn)命令行和依賴(lài)環(huán)境都沒(méi)有問(wèn)題。如果可以跑通測(cè)試數(shù)據(jù),但是在分析自己的數(shù)據(jù)時(shí)報(bào)錯(cuò)中斷,一定是自己的數(shù)據(jù)文件沒(méi)有準(zhǔn)備好,請(qǐng)按要求檢查準(zhǔn)備的文件。測(cè)試數(shù)據(jù)下載:
鏈接:https://pan.baidu.com/s/1p52x3tVIQg3j3ju_elLWTQ?
提取碼:oejw?
測(cè)試數(shù)據(jù)包ROSE_TEST解壓縮后能看到以下幾個(gè)文件夾和文件:
其中data文件夾為所需的測(cè)試文件,將整個(gè)data文件夾復(fù)制到ROSE文件夾下。example文件夾、example.sh為老版ROSE輸出的結(jié)果文件夾和運(yùn)行命令,log為老版ROSE運(yùn)行的日志文件(大佬原有的文件,供起來(lái))。example-v1.3.1文件夾、example-v131是在ROSE v1.3.1版本運(yùn)行輸出的結(jié)果文件夾和運(yùn)行命令,log_ROSE_v131_test是日志文件(本人跑通的,日志行不一樣或者缺少結(jié)果文件就是沒(méi)跑通或沒(méi)跑完),供參考。
運(yùn)行命令時(shí)在ROSE文件夾下打開(kāi)終端,此處詳細(xì)解釋一下:
python ./bin/ROSE_main.py -g HG18 \ -i ./data/HG18_MM1S_MED1.gff \ -r ./data/MM1S_MED1.hg18.bwt.sorted.bam \ -c ./data/MM1S_WCE.hg18.bwt.sorted.bam \ -o example \ -s 12500 \ -t 2500(1)如果linux系統(tǒng)沒(méi)有指定默認(rèn)python版本,開(kāi)頭需要使用python3,如果指定了Python3為默認(rèn)版本,只要python即可。
(2)ROSE運(yùn)行需要調(diào)用的幾個(gè)腳本,都在ROSE文件夾下的bin文件夾里,而數(shù)據(jù)文件在data文件夾里,所以需要指定位置 ./bin 或 ./data。
(3)-r 樣品bam文件名,-c control/Input bam文件名,-o 輸出結(jié)果文件夾名。
(4)可選參數(shù):
-s STITCHING_DISTANCE,合并兩個(gè)region的最大距離,默認(rèn)值為12.5kb。
-t TSS_EXCLUSION_ZONE_SIZE,排除TSS區(qū)域大小,排除與TSS前后某距離內(nèi)的區(qū)域,以排除啟動(dòng)子偏差(默認(rèn)值:0;推薦值:2500)。如果設(shè)置該值為0,將不會(huì)查找基因。
5、輸出結(jié)果文件
ROSE輸出的結(jié)果都在一個(gè)文件夾里,文件夾名稱(chēng)是參數(shù) -o 自己設(shè)置的文件夾名。v1.3.1版輸出的結(jié)果文件包括2個(gè)文件夾和9個(gè)文件夾外文件。以測(cè)試結(jié)果為例,如下圖:
gff文件夾里包含2個(gè)文件,mappedGFF文件夾里包含4個(gè)文件,文件夾外有9個(gè)文件,文件具體內(nèi)容參考Young Lab :: ROSE - Ranking Of Super Enhancer, Download (mit.edu)。與老版ROSE相比,v1.3.1版多了4個(gè)文件夾外文件,有些文件名也與以前版本不一樣。
6、入過(guò)的坑
(1)關(guān)于gff文件:雖然一些教程說(shuō)可以直接使用call peak生成的.bed文件替代.gff文件,ROSE也可以自己轉(zhuǎn)換出gff文件,但是前期使用narrowPeak.bed文件一直沒(méi)有跑通,出現(xiàn)報(bào)錯(cuò)。也許是我們采用MACS分析獲得的narrowPea.bed在某些格式上是ROSE不能識(shí)別的,所以最后還是老老實(shí)實(shí)的自己做了gff文件。
(2)關(guān)于分析時(shí)長(zhǎng):應(yīng)該跟硬件配置以及測(cè)序文件大小有關(guān)。進(jìn)程中會(huì)有各種分析狀態(tài)提示,結(jié)果文件夾里的文件也會(huì)慢慢的出現(xiàn),直到完全獲得2個(gè)文件夾和9個(gè)文件夾外文件。然而此時(shí)并沒(méi)有結(jié)束,運(yùn)行狀態(tài)會(huì)長(zhǎng)時(shí)間停滯在如下?tīng)顟B(tài),需要耐心等待,等到自動(dòng)返回到初始輸入命令行的狀態(tài)才是真正的結(jié)束:
21000 22000 23000 24000 25000 26000 27000 28000 29000 30000 31000 32000 33000 34000 35000 36000 37000 38000 39000 MAKING TSS COLLECTIONPS:不要懷疑,會(huì)結(jié)束的,并且沒(méi)有任何報(bào)錯(cuò)。
希望每一位科研打工人都能順利獲得好結(jié)果!
參考鏈接:
super-enhancer神器ROSE的使用 - 簡(jiǎn)書(shū) (jianshu.com)
“Super-enhancer神器“ROSE安裝及教程_JiangQ_1996的博客-CSDN博客
Young Lab :: ROSE - Ranking Of Super Enhancer, Download (mit.edu)
使用ROSE鑒定超級(jí)增強(qiáng)子 - 騰訊云開(kāi)發(fā)者社區(qū)-騰訊云 (tencent.com)
GitHub - stjude/ROSE: ROSE: RANK ORDERING OF SUPER-ENHANCERS
ROSE: Rank Ordering of Super-Enhancers (nih.gov)
總結(jié)
以上是生活随笔為你收集整理的Super Enhancer(超级增强子)分析——ROSE包(v1.3.1)的安装及使用详解的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: java 线程不足_Java 线程基础知
- 下一篇: 中医移动医疗_中医之极简移动医疗